You are on page 1of 25

---

Hi-kvadrat test

Razlike izmedu aritmetiekih sredina, neki raEuni korelacije itd., mogu se primije-
niti samo n a kuantitatiune brojEane podatke, koji su ili normalno rasporedeni ili bar
simetriEno rasporedeni. Medutim, ako su podaci kualitatiuni ili ako im distribucija
znatajno odstupa od normalne, onda se velik broj do sada opisanih postupaka
(osim raCuna proporcija, nekih koeficijenata korelacije ne mogu upotrijebiti, nego
se vetinom upotrebljava postupak nazvan x2-test (Citaj: hi-kvadrat). VeC u poEetku
treba naglasiti d a se hi-kvadrat test raEuna samo s frekuenczjama, pa, prema tome,
nije dopuSteno u raEun unositi nikakve mjerne jedinice! Osnovni podaci istraiivanja
dakako mogu biti i mjerene vrijednosti, ali u hi-kvadrat unose se samo njihove
frekvencije.
Hi-kvadrat test je vrlo praktiEan test, koji moie osobito posluiiti onda kad
ielimo utvrditi d a li neke dobivene (opaiene) frekvencije odstupaju od frekvencija
koje bismo kekivali pod odredenom hipotezom. On je test0 utoliko slitan raEunu
korelacije, Sto i kod hi-kvadrat testa katkada traiimo postoji li pouezanost izmedu
dvije varijable, ali i u tim slucajevima postoji bitna razlika izmedu raEuna korelacije
i hi-kvadrat testa, jer nam raEun korelacije pokazuje stupanj povezanosti izmedu
dvije varijable, dok nam hi-kvadrat test pokazuje vjerojatnost povezanosti. 0 tome
Ce joS biti rijeEi na kraju ovog poglavlja.
Gotovo se u svim slutajevima hi-kvadrat izratunava na jednak naCin (uz
ogranicenje da katkada treba unijeti neke dodatne korekcije, ili je pak praktitnije
upotrijebiti neku drugu formulu koja skraCuje ratunanje), i to prema formuli:

pri Eemu j,, znaCi opaiene frekvencije, a jt oCekivane (teoretske) frekvencije, tj.
frekvencije koje bismo oCekivali pod nekom odredenom hipotezom.
NajEeSCe upotrebljavamo hi-kvadrat test u ovim sluEajevima:
1. Kad imamo frekvencije jednog uzorka pa ielimo ustanoviti odstupaju li te
frekvencije od frekvencija koje oCekujemo uz neku hipotezu.
250 15 HI-KVADRAT TEST

2. Kad imamo frekvencije dvuju ili vise nezavisnih uzoraka te ielimo ustanoviti
razlikliju li se uzorci u opaienini svojstvima.
3. Kad imamo frekvenciju dvaju zavisnih uzoraka, koji imaju dihotomna svoj-
stva, t e ielimo ustanoviti razlikuju li se uzorci u mjerenim svojstvima, tj. je
li do310 do promjene.

15.1. JEDAN UZORAK

Prvi primjer. 48 1ijeEnika iznijelo je miSljenje o tome treba li ieni u porodu dati
analgeziju. Dobiveni su ovi odgovori: 26 odgovora "da", 12 odgovora "ne znam" i
10 odgovora "ne". Da li ti odgovori pokazuju neko znacajno odstupanje od onoga
Sto bismo oEekivali ka.d bi odgovori bili dani "nasurnce", tj. posve slucajno?
Postavit Cemo "mil-hipotezu": nenla razlike izmedu dobivenih odgovora i
s l ~ ~ F ( ~rasporedenih
jno odgovora. Kad bi odgovori bili dani potpuno sluEajno, svaki
bi od njih imao jednaku vjerojatnost, pa bisnio prema tome svaki odgovor otekivali
4813 = 16 puta. Daltle, oCeltivana frekvencija za svaki odgovor bila bi 16.
Najprije Cenlo rezultate tabelirati:

"Dan "Ne znam" "Ne" Ukupno


10 48

Kad smo dobili oEekivane frekvencije, moiemo izracunavati podatke potrebne


za formulu (15.1):

Prije nego Sto interpretiramo dobiveni "X 9,50, rastumaEit Cemo princip njegove
interpretacije: kad ne bi naSli nikakve razlike izmedu opaianih i otekiwnih frekven-
cija, izraz X' bi bio 0. Sto su razlikc izmedu opaienih i oeekivanih frekvencija veCe,
t o je veCi i definitivni izraz X" Prema tome, Sto je hi-kvadrat manji (bliii nuli) (do
neke odredene granice, vidi o tome zavrSetak poglavlja o hi-kvadrat testu), t o je
yjerojatnije d a treba prihvatiti postavljenu hipotezu, a Sto je hi-kvadrat veCi, t o je
vjerojatnije d a postavljenu hipotezu treba odbaciti, jer se opaieni rezultati znatno
15 1 JEDAN UZORAK 251

razliltuju od onih koje bismo pod odredenom hipotezom otekivali. Tablzco graniCnih
vrijednosti X L (tablica H u Dodatku) pokazuje nam do lcoje vrijednosti (uz odredeni
broj stupnjeva slobode) moramo srnatrati da je hi-ltvadrat joS uvijek dovoljno vi-
sok, a d a bismo mogli odbaciti hipotezu, odnosno, drugim rijecima, koliko mora
nojrnunje iznositi vrijednost hi-kvadrat pa da odbacimo hipotezu. Naravno da i
ovdje (kao i kod svih dosada5rijih testiranja znaCajnosti) moiemo postaviti blaie
ili stroke zalitjeve, tj. moiemo traiiti znatajnost na razini od 5%, od 1%, itd.
Kao praktitno pravilo moie posluiiti Cinjenica da centralna vrijednost hi-
kvadrata uz neki stupanj slobode iznosi po prilici toliko ltoliko imamo stupnjeva
slobode. Prema tome, nul-hipotezu sigurno moierno prihvatiti (bez uvida u tablicu
hi-ltvadrata) ako je dobiveni hi-kvadrat manji ili jednak broju stupnjeva slobode.
Postanak tablice H moiemo relativno jednostavno protumaCiti: Zamislimo d a
smo 100 ispravnih komada novca bacili u zrak (ili 1 riovCiC 100 puta), i da smo
dobili 46 "glava" i 54 "pisma". Kao Sto znamo, oCeltivane su frekvencije: 50 "glava"
i 50 "pisama". Izraeunamo li hi-kvadrat, dobit Cemo:

Glava 46 50 -4 16 0,32
Pisrno 54 50 4 16 0,32

Nastavimo li bacarijem tih 100 komada riovaca i dalje, dobit Cemo i dalje Eesto
odredene razlike izmedu broja "glava," i "pisma", a ako su novci potpuno ispravni
(tj. nemaju pojedini liomadi novca tendenciju da preteirio padaju na jednu stranu),
sigu,mo je da s u sua talcvu odstu.punjo potpuno slu,Eajnu. BuduCi da je dovoljno znat,i
kolilto je palo "glava" pa da time odmah znamo koliko je palo "pisama." (jer su
obje Celije zavisne jedna od druge), to je broj stupnjeva slobode = 1. Na slici 15.1.
prikazaria je distribucija hi-ltvadrata uz razliEite stupnjeve slobode. Medu njima je
i distribucija hi-kvadrata uz 1 stupanj slobode, tj. distribucija rezultata koje bismo
dobili kad bismo zaista bacali 100 komada novca mnogo puta. Prema tome, sve su
t e vrijednosti hi-kvadrata slu,fajne.
( N a p o m e n a: Da smo umjesto 100 komada novCiCa bacali recimo 20 ko-
mada, p a registrirali ishode "pismo" i "glava", i usporedivali 'ih s otekivanim
ishodima, t e izra,Cunavali velik broj hi-kvadrata, dobili bismo jedriaku distribuciju
hi-ltvadrat,a).
Nledutim, one vrijednosti hi-kvadrata koje toliko jako odstupaju od oeekivanog
da je njihovo sluCajno pojavljivanje moguCe samo u 1% ili u 5% sluEajeva, moiemo
vet sniatrati tolikim odstuparijem da s pravom moiemo pretpostaviti d a vjeroja,tno
71'1s~slueajne. Na slici 15.1. uz krivulju distribucije hi-kvadrata uz 1 stupanj slobode
oznateria je na apscisi 5%-t,nagranica, iza koje povrSina krivulje nadesno iznosi 5%.
Kako se vidi iz slike (i Eitarno iz tablice H), t a je vrijednost 3,84.
252 '4, 15. HI-KVADRAT T E S T

d.f. = stupnjevi slobode

Slika 15.1. Distribucija uzoraka hi-kvadrata uz razliEite stupnjeve slobode


Ako umjesto 100 komada novca bacimo 100 igraCih kocaka, takoder moiiemo
promatrati koliko odstupanje imamo kod svakog broja od 1 do 6, prema otekivanim
frekvencijama (116 kocaka morala bi pasti na broj 1, 116 na broj 2, itd.). U tom
slutaju imamo 6 - 1 = 5 stupnjeva slobode. Velikim brojem bacanja dobili bismo
distribuciju hi-kvadrata, prikazanu na slici 15.1, uz 5 stupnjeva slobode. GraniEna
vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ovdje iznosi 11,07. Na slici su
jog prikazane i distribucije uzoraka hi-kvadrata za 3 i 10 stupnjeva slobode.
Kad imamo samo jednu varijablu s jednim nizom rezultata, broj stupnjeva
slobode ratuna se prema formuli N - 1, pri Cemu N znati ukupan broj Celija (a ne
ukupan broj frekvencija). Kako u naSem primjeru imamo samo 3 Celije ("da", "ne
znam", "ne"), broj stupnjeva slobode = 3 - 1 = 2. ~ e l i m oli testirati znaCajnost na
razini od 5%, otitat Cemo u tablici graniEnu vrijednost x2 uz 2 stupnja slobode, a
na razini znatajnosti P = 0,05 (= 5%). Kako se iz tablice vidi, granitna vrijednost
X 2 uz 2 stupnja slobode na razini od %5 = 5,991. Kako je nag hi-kvadrat veCi od
5,991, zakljutujemo da treba odbaczti postavljenu hipotezu, tj. dobiveni se odgovori
statistitki znatajno razlikuju od odgovora koje bismo otekivali kad bi oni bili dani
posve slutajno.
Razumljivo je d a postavljena hipoteza ne mora uvijek biti takva kao u proSlom
primjeru. U tome i jest prednost hi-kvadrat testa da moiemo postaviti hipotezu
kakvu ielimo. Na primjer, moiemo postaviti hipotezu d a bismo u nekom slutaju
morali otekivati "normalnu raspodjelu", Sto Cemo pokazati u iduCem primjeru.
Drugi primjer. S pomoCu jednog testa psihomotorike testiramo 200 ljudi. Test
je takve prirode d a daje samo tri kategorije rezultata: A = slab, B = prosjetan, C
= dobar.
15.1. JEDAN UZORAK 253

Kao rezultat mjerenja dobijemo ove frekvencije:


A B C
fo 40 110 50.
Odstupa li t a j rezultat znaEajno od rezultata koji bismo otekivali d a je svojstvo
normalno rasporedeno medu ispitanicima?
BuduCi d a imamo 3 kategorije, najopravdanije je pretpostaviti da bi - po toj
hipotezi - trebalo biti 50% prosjetnih, a po 25% loSih i dobrih:
A B C
ft 50 100 50.
Prema tome, raEun Ce izgledati ovako:

Taj je broj rnunji od 5,991, pa Cemo, prema tome, prihuatiti hipotezu i za-
kljuciti d a se dobiveni rezultati ne razlikuju statistitki znatajno od onih koje
bismo oEekivali pod pretpostavkom da je mjereno svojstvo normalno distribuirano
u skupini.
TreCi primjer. Medutim, postoji moguCnost d a mi neku otekivanu frekvenciju
veC unaprijed znamo jer je ona poznata u populaciji. Tako, na primjer, moiemo
ispitati da li se uzorak u kojem imalno 50 ljudi, i to 40 s tamnom kosom (80%) i
10 sa svjetlom kosom (20%), znacajno razlikuje od omjera koji je poznat u nekoj
populaciji, tj. d a 75% ljudi imaju tamnu, a 25% svjetlu kosu.
Prema tome, moiemo postaviti ovu tablicu:

Tamna Svjetla
Ukupno
kosa kosa
15. HI-KVADRAT T E S T

Broj stupnjeva slobode = 2-1 = 1. Dobiveni x h n a t n o je manji od granitne vri-


jednosti 3,84, pa stoga zakljutujemo da nag uzorak ne odstupa statistitki znaEajno
od stvarne proporcije tamne i svijetle kose u populaciji.
N a p o m e n a. Kada imamo vise od 2 Celije, ako je vise od 20% oEekivanih
frekvencija manje od 5, treba spajati susjedne Celije zajedno. Kad radimo samo s
2 Celije, veCina statistiEara smatra (ali neki nisu tako strogi) da ne smije ni jedna
otekivana frekvencija biti manja od 5.
~ e t v r t iprimjer. Uzmimo da smo analizirali nesreCe kod 398 ljudi u jednom po-
slu i rlasli d a su one medu tim ljudima rasporedene kao Sto je prikazano u tablici

TABLICA 15.1.

Broj nesreCa Broj ljudi

Zanima. nas da li su nesrete medu tim ljudima rasporedene prema "sluFajun tj.
prema zakonu "rijetkih dogadaja" (to je tzv. Poissonova raspodjela).
Poissonova se raspodjela moZe izracunati ovako:
1. Ukupan broj nesreCa podijelimo brojem ljudi te tako dobijemo "prosjetan"
broj nesreCa;
2. izratunamo logaritam iz broja ljudi;
3. prosjeEan broj nesreCa (1) pomnoiimo izrazom 0,4343;
4. izvrSimo operaciju (2) - (3);
5. izratunamo antilogaritam izraza pod (4). Tako dobivamo frekvenciju ljudi s
0 nesreCa. Ovaj i daljnje ratune treba ratunati na nekoliko decimala, a kad
smo sve izraEunali, inoiemo u tablicu otekivanih frekvencija unositi rezultate
s manje (npr. 1 - 2) decimala;
6. izvedemo operaciju (5) . ( I ) , i tako dobivamo frekvenciju ljudi s 1 nesretom;
( 6 ) . (1) = broj ljudi s 2 nesrete;
7. -----
2
15.1. JEDAN UZORAK

8.=(7) . (1)
-, broj ljudi s 3 nesreCe;

(8) . (1) = broj ljudi s 4 nesreCe;


9. ------
4
itd.
Jednostavnije i brie moiemo izraCunati otekivanu Poissonovu distribuciju uz
pomoC Poissonovih tablica (vidi tablicu 3 u Dodatku). Ta tablica daje oEekivanu
proporciju u razredu 0 (nula) lcod Poissonovih raspodjela s razlititom aritmetitkom
sredinom. U naSem primjeru aritmetieka sredina iznosi 15491398 = 3,89. U tablici
moiemo oEitati d a proporcija u razredu 0 (tj. otekivana proporcija ljudi bez
nesreka) iznosi 0,0204. Pomnoiimo li tu proporciju s brojem ljudi, dobivamo
0,0204.398 = 8,12. Od tog momenta dalje radimo prema veC opisanom postupku,
tj. otekivan broj ljudi s 1 nesreCom dobivamo tako d a oeekivan broj s 0 nesreCa
pomnoiimo s aritmetitkom sredinom, itd.
Alco ovako izratunamo Poissonovu raspodjelu, dobit Cemo oEekivane frekvencije,
prikazane u tablici 15.2:

TABLICA 15.2.
OCEKIVANA FREKVENCIJA LJUDI s RAZLIGITIM BROJEM NESRECA
Broj nesreta Broj ljudi
0 8,12
1 31,59
2 61,44
. 3
4
79,67
77,48
5 60,28
6 39,08
7 21,72
8 10,56
9 4,56
10 1,77
11 0,63
12 0,20
13 0,06
14 0,02
15 0,Ol

Kontxola rezultata sastoji se u tome da suma oEekivanih (teoretskih) frekvencija


(uz dopustene manje razlilce zbog zaokruiivanja decimalnih brojeva) mora odgo-
varat,i sumi opaienih frekvencija.
IzraCunavanje Ce nakon toga imati tok prikazan u tablici 15.3.
256 15 HZ-KVADRAT TEST

TABLICA 15.3.
IZRACUNAVANJE HI-KVADRATA ZA PODL4TKEIZ TABLICA 15.1. i 15.2.
(fo - fd2
Broj nesreta fo ft fo - ft (fo - ft)"
ft
0 14 8,12 5,88 34,57 4,26
1 37 31,59 5,41 29,27 0,93
2 76 61,44 14,56 211,99 3,45
3 70 79,67 -9,67 93,51 1,17
4 64 77,48 -13,48 181,71 2,35
5 53 60,28 -7,28 53,OO 0,88
6 31 39,08 -8,08 65,29 1,67
7 19 21,72 -2,72 7,40 0,34
8 14 10,56 3,44 11,83 1,12
9 i vise 20 7,25 12,75 162,56 22,42

Vidljivo je d a su u tablici spojeni rezultati od razreda 9. nadalje. To je utinjeno


zato Sto kod te vrste hi-kvadrat, ratuna statistitari zahtijevaju da ni jedna oCekzvana
freltvenci,ja ne bude rnanja od 5.
U testiranju Poissonove raspodjele broj stupnjeva slobode raEuna se po principu:
broj razreda -2. (Jedan "stupanj slobode" izgubljen je na zajednitki N kod opaiene
i teoretske krivulje, a drugi na zajednitku aritmetitku sredinu. Kod Poissonove
raspodjele aritmetiEka sredina jednaka je varijanci, pa stoga na zajednitku varijancu
ne gubimo daljnji. treCi stupanj slobode.) Dakle, u naSem slutaju imamo 10-2 = 8
stupnjeva slobode. Iz tablice hi-kvadrata moiemo otitati da uz 8 stupnjeva slobode
granitna vrijedrlost hi-kvadrat iznosi (na razini znatajnosti od 5%) 15,507. Kako
je naS dobiveni hi-kvadrat veCi, odbacujemo nul-hipotezu i zakljutujemo da vrlo
vjerojatno (tj. uz rizik od 5%) naSa distribucija nesreCe nzje Poissonova distribucija.
(Taj zakljuEak ima dakako vrlo dalekoseino znaEenje, jer on govori da u distribuciji
nesreCa nije slutaj onaj jedini faktor koji je odgovorarl za to da razliEiti ljudi imaju
razlieit broj nesreCa! No d a bismo taj zakljueak smjeli izvesti, mora biti manje-vise
ispurljen uvjet da ljudi kojima smo registrirali nesreCe, na svojim radnim mjestima
budu uglavnom podjednako eksponirani.)
N a p o m e n a. Za one titaoce, koji posjeduju bolje diepno elektronsko
raEunalo evo metode da se bez tablica izratunaju sve otekivane proporcije Pois-
sonove raspodjele: treba, naime, primijeniti originalnu matematitku formulu za
Poissonovu raspodjelu, koja glasi: xxe-'
Px = -
X! '
pri Eemu P, znaEi vjerojatnost da Ce se pojaviti x, tj. neka odredenn frekven-
cija nesreCa (npr. 4 nesrede), X = aritmetirka sredina, tj. prosjetan broj nesreta,
e = baza prirodnih logaritama = 2,7182818. Na primjer, vjerojatnost da Ce se u
naSem prirnjeru dogoditi 8 nesreCa je:
15 1. JEDAN UZORAK 257

0,027 je proporczja. Xko ielimo dobiti frekvenciju, treba t a j broj pomnoiiti s N,


dakle s 398, i dobivamo 10,75. (U tablici 15.3. oEekivana frekvencija u razredu
8. iznosi 10,56, no razlika je posljedica razlititog naEina ratunanja i efekta
zaokruiivarlja na dvije decimale.)
Peti primjer. il4jereCi visinu 135 20-godisnjih zagrebatkill mladika (vidi tablicu
6.2, str. 74), dobiverii su rezultati prikazani ponovno u tablici 15.4. u stupcima 1 i
2.
~ e l i r n oli testirati odstupa li dobivena distribucija znatajno od normalne dis-
tribucije, treba izvesti ove operacije:
1. IzraCunati aritmetitku sredinu i standardnu devijaciju rezultata.
2. IzraCunati koliko su prava donja i gornja granica svakog razreda udaljene od
aritmetitlte sredine, i t o izraziti u z- vrijednostima (stupci 4 i 5). Pritom Cemo
iCi 1-2 razreda i viSe i rliie od razreda u kojima se rialaze opaiene frekvencije.
BuduCi d a je prava donja granica neltog razreda ujedno i gornja granica niieg
razreda, t o je dovoljno izraeunati udaljenost samo do jedne od njih; u tablici
15.4. u stupcu 4 prikazana je udaljenost do donje granice svakog razreda.
3. Iz tablice riormalrle raspodjele (vidi tablicu A u Dodatku) izraEunati povrSinu
izmedu z-vlijednosti, koje predstavljaju doriju i gornju granicu svakog
razreda (stupac 6 u tablici 15.4).

TABLICA 15.4.
TESTIRANJE NORMALNOS?I RASPODJELE
2 3 4 5 6 7
w
.
d
32
m
42 b o a
Q, 0 k-dh
a
a
:z
.-?
a .
'a3
a a :?:,% za :S
u
- ~
:, a
f i re a
.%.2 = U$$a
k. 5
a:?
5 9 ~2g.g .? 9
m + a a 2
OaN
"am
44 azmE % wA
o&
a%
n hz % 0 3
gzO2
! % N * M
'0
OLE

ispod 153,5 0,0001


153,5 -19,97 -3,72 0,0002
156,5
159,5
-16,97
-13;97
3,16
-2,60
0,0039
0,0160
!$}
2,O
81g
162,5 -10,97 -2,04 0,0487 6,3
15 165,5 -7,97 -1,48 0,1068 14,7
25 168,5 -497 -0,93 0,1795 24,3
28 171,5 -1,97 -0,37 0,2197 29,6
20 174,5 1,03 0,19 0,1980 26,7
16 177,5 4,03 0,75 0,1315 17,6
180,5 7,03 1,31 0,0644
19 183,5 10,03 1 0,0232 13,l
1 186,5 13,03 2,43 0,0061 0,9
189,5 16,03 2,98 0,0012 0,2
192,s 19,03 3,54 0,0002
258 2 15. HI-KVADRAT TEST

4. BuduCi d a povrSina ispod normalne krivulje predstavlja frekvenctju, to Cemo


otekivane frekvencije (stupac 7) dobiti tako da proporciju povrsine (stupac
6) pomno2imo s N.
5. BuduCi d a pri krajevima raspodjele otekivanih frekvencija imamo male bro-
jeve, spojit Cemo krajnje razrede tako da ukupna frekvencija iznosi najmanje
5. Iste Cemo razrede spojiti i u opaienim frekvencijama.
6. IzraEunat Cemo hi-ltvadrat uz broj stupnjeva slobode koji se ratuna: broj
Celi.ja -3.
Ako izvedemo hi-kvadrat raEun, dobivamo:

Stupnjevi slobode = 7 - 3 = 4 X2 = 5,675

BuduCi d a je naS hi-kvadrat manji od graniEne vrijednosti hi- kvadrata uz 4-


stupnja slobode (5,675 < 9,488), prihvaCamo postavljenu nul-hipotezu da se do-
bivena distribucija visine ne razlikuje od normalne distribucije.

15.2. DVA ILI VISE NEZAVISNIH UZORAKA

Prvi primjer. U jednoj tvornici provedena je anketa medu 23 radnika i 26 rad-


nica te je ispitivan stav radnilca prema lijetniku u ambulanti. Iz dobivenih odgovora
rnoglo se zaltljutiti je li stav prema lijetniku u cjelini "pozitivan" ili "negativan".
BuduCi da je lijeEnik u toj ambulanti bila iena, postavljeno je pitanje razlikuju li
se muskarci od iena u stavu prema toj lijetnici. Dobiverli su ovi rezultati:

MuSkarci (N = 23) ~ e n (e N = 26)


Pozitivan stav 14 Pozitivan stav 9
Negativan stav 9 Negativan stav 17.

Najprije Cemo unijeti rezultate u tzv. 2.2 tablicu u kojoj Ce apscisa predstavljati
jednu varijablu (stav), a ordinata drugu varijablu (spol):
15.2. DVA ILI VISE NEZAVISNIH UZORAKA

Stav prema lijetniku

Negativan Pozitivan Ukupno

spol MuSkarci 9a 14b 23a+b


iene 17, 9d 26,+d

Ukupno 1 1 23b+d 1 49

Pod pretpostavkom da nema znaCajne razlike izniedu muSkaraca i Zena, propor-


cija negativnog (ili pozitivnog) stava morala bi biti jednaka kod muBkaraca i kod
iena. BuduCi da u Citavoj grupi imarrio 26 ljudi s negativnim stavom, znati d a je
proporcija tih ljudi u uzorku 26/49, pa stoga frekvencija muSlcaraca s negativnim
stavom treba biti: 23,26149 (jer imamo ukupno 23 mugkarca), a frekvencija iena
s riegdtivnini stavom treba d a bude: 26 . 26/49. Kako se vidi, oFekzvane frekven-
cije u svakoj Celiji dobivamo jednostavno tako da pomnoizmo sumu reda sa sumom
stupca z rezultat podijelzmo totalnom sumom frekvencya. Na t a j Cemo naEin dobiti
otekivane frekvencije:
Stav prema lijetniku
Negativan Pozitivan Ukupno

Spol
~ene

Ukuprlo

VeCina statistitara preporuCuje d a uvijek kad radimo s 2.2 tablicama (a takoder


i onda kad radimo s drugim tablicama, npr. 2 . 3, itd., a u bilo kojoj Celiji imamo
otekivan~~, frekvenciju manju od 5), upotrijebirno tzv. Yates-ovu korekciju, koja
se sastoji u tome da se za 0,5 smanji svaka opaiena frekvencija, koja je veda od
otekivane, a za 0,5 poveCa svalta opaiena frekvencija, koja je manja od otekivane.
Drugim rijetima, svaka se razlilcn izmedu oEekivane i opaiene frekvencije smanji za
0,5.
Primijenimo li, dakle, t u korekciju na naS primjer (jer radimo s 2 . 2 tablicom),
raCunat Cemo ovako:
15. HI-KVADRAT TEST

U tablicama koje imaju redove i stupce, broj stupnjeva slobode izratunava se:
(broj redova- 1 ) . (broj stupaca - I ) . BuduCi da mi imamo 2 . 2 tablicu (jer imarno 2 .
reda. i 2 stupca), broj stuprijeva slobode =(2 - 1 ) .(2 - 1) = 1. Iz tablice X 2 moierno
otitati da je graniCna vrijednost X' uz 1 stupanj slobode na razini znatajnosti od
506, "X 3, 841. Bududi d a je naS hi-kvadrat manji, prihvatit Cemo hipotezu, tj.
zalcljutit Cemo d a se muSkarci ne razlikuju statistitki znatajno od iena u stavu
prerna konkretnom lijeEniku.
Ovo je gotovo "Skolski primjer" kako statistitki postupci "lcainjavaju" mali broj
mjerenja. To je i potpuno opravdano, jer na 23 muBka i 26 zenskih ispitanika zaista
bi se i potpuno slutajno moglo dogoditi to, Sto se dogodilo tj. da iene u relativno
veCem postotlcu imaju negativari stall prema lijetnici, nego muskarci. No buduCi
d a za takav rezultat postoje i izvjesna moguCa psiholoSka ili socioloSka opravdanja
(tj. moida je lijetnica bila atraktivna osoba, pa se vise svidala muskarcima), bilo
bi zanimljivo znati radi li se moida zaista o jednom takvom fenomenu. Pod pret-
p o s t a ~ i k o md a bi odnosi izmedu pozitivnog i negativnog stava kod velikog broja
ispitanika ostali jednoki (tj. da preko 65% iena irna riegativan stav, a samo 39%
muSlcaraca takoder negativan stav prema toj lijetnici), uz 10 puta,veCe uzroke imali
bismo 230 muSkaraca i 260 iena. MuSkaraca bi bilo 90, a iena 170 s negativnim
stavom. Kada bisrno sada raFunali hi-kvadrat, dobili bismo da je on deset puta
ueCi, tj. d a iznosi gotovo 40, Sto je dakako (jer i sada imamo 1 stupanj slobode)
statistitki potpuno znatajno. Iz toga bi u praksi bilo potpuno neopravdano, p a Eak
i nedozvoljeno izvesti za.kljutak: "dakle, kada bi uzorak bio 10 puta veCi, ra,zlika bi
bila statistielti znatajna". Za svakoga, tko je do sada nautio "statistitki misliti",
bit Ce jasno, da hi t a j zak1.jutak bio toean samo pod pretpostaukom da odnosi 0s-
tanu, jednaki. A to nikad ne moiemo znati, jer moida bi se kod velikih uzoraka
pro7nijenio postotak zadovoljnih ili nezadovoljnih ispitariika razlieitih spolova.
Postoji medutim jedan jednostavniji postupak za izratunavanje hi- kvadrata
kod 2 . 2 tablice, a jednostavniji je u tome Sto pomoCu tog postupka nije uopCe
potrebno izraturlavati razlike izmedu opaienih i otekivanih frekvencija. Ako, naime,
Celije oznaeimo slovinla a , b, c, d, onda se X"uklju~ujuCi i Yatesovu korekciju)
moie izraElinati prenla formuli:

N a p o m e n a . Znak I I oko izraza lad - bcl znati da treba uvijek uzeti pozitiunu
razliku izmedu ad i bc, tj. uvijelc treba oduzeti manji izraz od veCega.
U naSem primjeru dobivamo ove rezultate (vidi prvu tablicu):

Kalto se vidi, rezultat je pralctitki jedna.k rezultatu koji smo dobili prije.
(Malu razliku treba pripisati tome Sto smo izraze (fO - jt)' sveli na samo 3
ft
decimale.)
15.2. DVA ILI VISE NEZAVISNIH UZORAKA 261

D r ~ ~ primjer.
gi Medicinski centar u Osijeku izvrSio je 1967. godine analizu obo-
ljenja od epidenlije influence A-2 u poduzekima, od kojih su kolelctivi nekih bili
necijepljeni, ltolelctivi nekih cijepljeni 11 mjeseci prije epidemije, a kolektivi nekih
neposredno prije epidemije. Dobiveni su ovi rezultati:

Oboljeli Nisu oboljeli

Necijepljeni 402 2 497 2 899

Cijepljeni 11 mjeseci
378 3 789 4 167
prije epidernije
Cijepljeni neposredno
131 2 009 2 140
prije epidernije

911 8 295 9 206

IzraEunamo li ved spomerlutim postupltorn oEekivane frekvencije (surna stupca


puts suma reda, podijeljeno ukupnom sumom), moiemo postaviti donju tablicu
izraeunavanja hi-kvadrata:

Broj stupnjeva slobode je 1 . 2 = 2. Dobiveni hi-kvadrat je znatno veCi od


5,991, pa zalcljuEujemo d a postoji statistitki znatajna razlika u frekvenciji oboljenja
izmedu t e tri grupe.
No, kao Sto se vidi iz forrnulacije gornjeg zaltljuCka, takua informacija jog nzje
douoljn,a, jer treba zna,ti u Cemu se sastoji razlilca: jesu li cijepljeni obolijeva li marlje
ili vige od necijepljenih? BuduCi da su veliEine skupina u sva.koj kategoriji dosta
razliCite, t,o je interpretaczju rezultata najlakSe provesti ako vrijednosti u tablici
pretvorimo u postotke. Pretvaranje u postotke treba obaviti u onom "smjeru" koji
ispitujerno: buduCi da nas zarlima d a li vise obolijevaju necijepljeni od cijepljenih,
pretvorit Cemo naSe frekvencijc u tablici u postotke tako da Ce nam ukupne kate-
gorije "necijepljenih", "cijepljcnih prije 11 mjeseci" i "cijepljenih neposredno prije"
iznositi 100%. Prenla tome, nova tablica izgledat Ce ovako:
262 ".z 15. HI-KVADRAT TEST

Oboljeli Nisu oboljeli


Necijepljeni 13,9 86,l 100
Cijepljeni 11 mjeseci prije epidemije 1 9,1 1 90,9 / 100
Cijepljeni neposredno prije epidemije 1 6,l 1 93,9 1 100
p~~

Sada se iz tablice lijepo vidi da je najma.nji postotak oboljelih medu cijepljenim


rieposredno prije epidemije (6,1%), a najveCi medu necijepljenima (13,9%), pa
prema tome zalcljuCak iz prethodnog ratuna treba glasiti otprilike ovako: Postoji
statistitki znatajria razlika u frekvenciji oboljenja izmedu cijepljenih i necijepljenih,
s tim da medu cijepljeriima ima najmanje oboljelih.
N a p o m e n a . Ova nam tablica, dakle, govori d a postoje statistieki znaEajne
razlilte u frekvencijama medu pojedinim grupama. Medutim, hi-kvadrat ne govo-
ri niSt,a o tome medu kojim grupa,ina je razlika signifiltantna. U naSem slutaju
znatajnost razlike mogla bi se odriositi samo na grupe "neci,jepljenin i "cijepljeni
neposredno prije". Ako nas izriCito zanima postoji li statistieki znaCajna razlika
izmedu grupe "cijepljeni prije 11 mjeseci" i grupe "cijepljeni neposredno prije",
morali bismo izraCunati poseban hi-kvadrat samo za t e dvije skupine. (Da smo
t o izratunali dobili bismo hi-kvadrat veCi od 16, Sto znaEi da bi i t a razlika bila
statistieki znatajna, tj. da najman.je oboljevaju oni, koji su cijepljeni neposredno
prije epidemije).
U vezi s pretwranjem rezultata tablice u postotke treba posebno naglasiti da
se t o radi sanlo radi lakSe interpretacije rezultata, a iz te postotne tablice nikako
ne smijemo ratunatz hi-kvadrat, nego se on raCuna jedino iz tablice s originalnim
frekvencijama.
TreCi przmjer. Uzmimo primjer koji smo spomenuli kod koeficijenta kontingen-
cije C (str. 228), tj. postoji li zavisnost izmedu boje otiju sinova i oFeva. Ako
rezultate lineserno u tzv. tablicu lcontingencije, i ujedno u svakli Celijli prema veC
spomenutom principu (surna reda puta suma stupca podijeljena ukupnom sumom)
urlesemo otekivane frekvencije (pod pretpostavkom da nema asocijacije izmedu
boje oCiju sinova i otaca), dobivamo ove rezultate (otekivane frekvencije navedene
su u zagradama):
Boja otiju oteva

Boja
oCiju
sinova
15.2. DVA ILI V I S E NEZAVISNIH UZORAK.4

IzraCunavanje:

Broj stupnjeva slobode = (4 - 1 ) . (4 - 1) = 9. Iz tablice se vidi da granicna vri-


jednost X%z 9 stupnjeva slobode, a na razini znaEajnosti od 5%, iznosi 16,919. NaS
je hi-kvadrat znatno veCi Cak i od granitne vrijednosti X 2 na razini znatajnosti od
I % , pa zato odbacujerno hipotezu (tj. da nema asocijacije izmedu boje oEiju sinova
i otaca) i postavljamo zakljutalt da su te dvije varijable posve sigurno povezane.
V a i n a n a p o m e n a. Hi kvadrat kod 2 . 2 tablica, kao i formula (15.2),
srnije se upotrijebiti uvijek ako je N veCi od 40. Kad je N manji od 40, ali veCi
od 20, smijemo raCunati samo ako ni jedna oeekivana frekvencija nije manja od
5. U tab!icama kontingencije, lud je broj stupnjeva slobode veCi od 1, hi-kvadrat
test moie se joS raCunati ako manje od 20% Celija imaju otekivanu frekvenciju
manju od 5, a ako ni jedna Celija nema otekivanli frekvenciju manju od 1. Ako t a j
uvjet nije postignut, moramo neke kategorije (Celije) spajati zajedno da bismo tako
poveCali otekivanu frekvenciju. No vet smo kazali da neki statistiCari smatraju da
nije rieophodno pridriavati se tih pravila.
Za slueajeve vrlo rnalog N postoji tzv. Fisherov "egzaktni test" (koji ukljutuje
dosta opseino raCunanje), no mi Cemo ovdje izloiiti jednu sasvim jednostavnu
metodu, i to samo za one sluEajeve kada se radi o dvije gednako velzke skupine.
Uzmimo da imarno dvije skupine od po 15 ispitanika; eksperimentalna skupina
primila je jedno sredstvo protiv morske bolesti, a kontrolna skupina primila
je "placebo", tj. nedjelotvorne pilule (to je potrebno utiniti zato da bi se iz-
jedndfilo eventualno djelovanje sugestije na rezultate). Svi su ispitanici podvrgnuti
vestibularnim stresovima vrtnje, i nakon toga 2 ispitanika eksperimentalne skupine
poltazala su znakove "morske bolesti", a iz kontrolne skupine 8 ispitanika ih je
15. HI-KVADRAT TEST

pokazalo jednake znakove. Rezultate eksperimenta mogli bismo, dakle, prikazati u


tablici ovako:
Imaju simptome Nemaju simptome
Eksperimentalna
skupina
Kontrolna
skupina
Moie li se razlika izmedu eksperimentalne i kontrolne skupine smatrati zna-
Eajnom?
Tablica I u Dodatku daje odgovor n a t o pitanje. Da bi se tablica mogla koristiti,
treba naCi najmanju frekvenciju u rezultatima (to je u naSem primjeru frekvencija
2), kao i frekvenciju koja u drugoj grupi njoj korespondira (u naSem primjeru
t o je frekvencija 8). U glavi tablice I nalaze se brojevi koji oznaEuju najmanju
frekvenciju u rezultatima, a uz lijevi rub tablice nalazi se veliEina jednog od uzoraka
( N l = N 2 ) .RjeSavajuCi naS primjer, treba u glavi tablice naCi broj 2 (naSa najmanja
frekvencija), a na lijevom rubu broj 15 (velicina uzorka): u sjeciStu stupca 2 i reda
15 u tablici Eita~nobrojeve 9 i 10. To su najmanje frekvencije koje bi morala imati
korespondentna Celija, i t o za razine znatajnosti od 5% (9) i 1%(10). BuduCi d a
naSa korespondentna Celija ima frekvenciju 8, zakljuEujemo da razliku ne moiemo
smatrati statistieki znatajnom.
Ali d a smo na primjer dobili rezultat:
Imaju simptome Nemaju simptome
Eksperimentalna
skupina
Kontrolna
skupina
prema podacima iz tablice I t a hi razlika bila znatajna na razini od 5% (ali ne
i n a razini od 1%).

15.3. DVA ZAVISNA UZORKA (McNemarov test)

Ako usporedujemo rezultate jedne te iste grupe "prije" i "poslije", ili us-
poredujemo istu grupu u dvije razliEite aktivnosti, onda vjerojatno postoji ko-
relaczja izmedu prvih i drugih rezultata.
Primjer. Uzmimo isti primjer ltoji smo upotrijebili pri izraeunavanju znaEajnosti
razlike u proporcijama koje su u korelaciji (vidi str. 172): 100 ispitanika ispitani su
testom 1 i testorn 2. Dobili smo ove rezultate:
Test 2
Nisu zadovoljili Zadovoljili
Test 1 Zadovoljili
Nisu zadovoljili 25c
15.3. DVA ZAVlSNA UZORKA (MCNEMAROV TEST) 265

Postoji li znatajna razlika izmedu rezultata u 1. i 2. testu?


Kako se iz tablice vidi, razlike izmedu 1. i 2. testa nalaze se u Celijama A i Dl
dok su u Celijama B i C navedeni samo oni koji su ili uspjeli ili nisu uspjeli u oba
testa. Prema tome, A + D predstavlja totalni broj onih kod kojih se n e slaz'e uspjeh
prvog i drugog mjerenja.
BuduCi d a A + D predstavljaju ukupan broj ispitanika koji su promijenili svoj
+
uspjeh, oEekivali bismo pod nul-hipotezom d a bi se 112 (A D) slutajeva promi-
jenilo u jednom, a 112 (A + D) u drugom smjeru. Drugim rijecima, pod nul-
hipotezom oCekivane frekvencije u Celiji A iznose 112 (A + D), a jednako toliko
u Celiji D. Zanimaju nas samo Celije A i D (jer B i C pokazuju poklapanje), pa
su, prema tome, opaiene frekvencije one koje se nalaze u A i Dl a oEekivane su
+
frekvencije: 112 (A D).
Dakle,

IzvrSimo li potrebne raCunske operacije u gornjoj formuli, dobivamo n a kraju:


. (A-D)"
X2 =
A+D '
+
a uz Yatesovu korekciju (ako je (A D) < 20) konaEna fromula glasi:
((A- Dl - 1)2
X2 =
A+D
U naSem primjeru dobivamo:

Broj stupnjeva slobode (2 . 2 tablica!) = 1. GraniCna vrijednost X2 za 1 stupanj


slobode je 3,841, a kako je naS hi-kvadrat veCi, odbacit Cemo nul-hipotezu (tj. da
nema razlike u teiini testova) i zakljuEiti d a razlika postoji, tj. d a je drugi test
lakSi.
N a p o m e n a. U ovom se ratunu zapravo radi o testiranju znatajnosti razlike
+
izmedu dviju proporcija pl = (A + B ) / N ; p2 = ( B D ) / N . dakle jednako kao i u
primjeru na strani 172, samo ga sada izraeunavamo drugaeije.
N a p o m e n a. Treba paziti na smisao Celija A i D. To su Celije koje pred-
stavljaju one ispitanike koji su se promzjenzli. Ako je tablica formirana druktije
treba analogno tome preurediti i forrnule 15.3. do 15.5.
( N a p o m e n a. Ako su otekivane frekvencije u Celijama A i D manje od 5,
t a j se ratun ne moie upotrijebiti.)
Valja uotiti da bi primjena standardnog postupka za izratunavanje opekivanih
frekvencija , koji inace koristimo kod kontingencijskih tablica hi-kvadrata (suma
reda puta suma stupca, podijeljeno s ukupnom sumom) daln potpuno n,elogiEne
i neupotrebdjive rezultate. Evo primjera, koji Ce to dokazati: pretpostavimo da u
266 \ 15. HI-KVADRAT TEST

naSem prijaSnjem primjeru nije dodo ni do kalcvih promjena izmedu prvog i drugog
mjerenja, i da je rezultat recinlo bio ovalav:

Test 2
Nisu zadovoljili Zadovoljili
Zadovoljili 0 A 70 B 70
Test 1
Nisu zadovoljili 30 C 0 D 30
30 70 100

Kako vidimo, od ultupno 100 ispitanika isti ispitanici koji nisu zadovoljili u pr-
vom testiran,ju (njih 30), nisu zadovoljili ni u drugom, a takoder istih 70 ispitanika
oba je puta zadovoljilo. IzraCunamo li standardnim postupkom oCekivane frekven-
cije, dobili bi ove frekvencije: 21, 49, 9, 21. IzraEunati hi-kvadrat (uz Yatesovu ko-
rekciju) iznosio bi 95,29, no t a j bi rezultat bio potpuno besmislen, jer n i i t a se nije
promijenilo. McNemarov test (ovaj puta bez Yatesove korekture, jer je u brojniku
nula) dao bi naprotiv potpuno t,oCan rezultat: hi-kvadrat = 0, tj. nema promjene.
Za neke (rijetke) situaci,je moie McNemarov test ipak biti izriEito nepogo-
dan: ako neki postupak, primijenjen na grupu ispitanika, moie kod njih proizvesti
suprotne uCinlte (npr. neki ispitanici se od nekog sredstva uzbude, a neki umire,
ili palc neki postupak kod jednih ispitarlika dovodi do poveCanja, a kod drugih do
snlanjenja agresivnosti), onda se dakako moie dogoditi d a ih bude podjednako ili
sliran broj u Celijarna A i D, i McNemarov test Ce dati malu vrijednost (Sto bi
trebalo znatiti da nije do310 do promjene), a do znatajnih promjena je dodo!

15.4. NEKI OSNOVNI UVJETI ZA UPOTREBU HI-KVADRAT


TESTA

Kao $to smo vidjeli, hi-kvadrat test je stvarno vrlo jednostavan test, jer je
njegova logika jasna, a izraEunava,n,jevrlo jednostavno. No upravo se u tome vjero-
jatno i krije opasnost da se njegova jednostavnost precijeni, pa se tako u struEnoj i
nauC11oj literaturi najviSe pogreSala u primjeni stlat,istjiEkihpostupaka nalazi upravo
kod primjene hi-kvadrat testa. Dok se mnogi drugi statistitki postupci dadu Cesto
primijeniti dosta rnehanirlci i bez posebnog opreza, kod hi-kvadrat testa uvijek je
potrebno dobro proniisliti lcako Cemo rezultate prikazati u tablici.
Prije nego Sto iznesemo ncke osnovne uvjete, koji moraju biti ispunjeni da bi
se smio raEunat,i hi-kvadrat test, navest Cemo jednu praktiEnu stranu hi-kvadrata.
To je test koji posjeduje tzv. aditivna svojstva, a t o znaFi d a imamo pravo zbro-
jiti nekoliko hi-kvadrata iz istih istra,iivanja, i na znaCajnost dobivenog rezultata
zakl.juEivati iz tablice, s tim da, zbrojimo i stupnjeve slobode. Tako je, na primjer,
poznato da su svojedobno, u doba ispitivanja cjepiva protiv kolere, izvrSena brojna
istraiivanja djelovanja cjepiva. Iz Indije je bilo p o z n a t , ~5 izvjeStaja o 5 manjih
ispitiva.nja, ltoja., ako se rezultati izraze hi-kvadrat testom, daju ovakvu situaciju:
15.4. NEKI OSNOVNI UVJETI Z A UPOTREBU HI-KVADRAT TESTA

xL
Regimenta pokrajine ist. Lancashire 2,04
Britanske trupe u Cowrlporeu 1,83
Britdnske trupe u Dinaporeu 1,60
Gya Jail 5,90
Durbhanga Jail 3,18.
Svi t i rezultati bili su vezani svaki za 1stupanj slobode. Kako se vidi, samo jedan
od njih bio je statistitki znatajan. No, ako sve t e rezultate zbrojzmo, dobivamo
x2 = 14,55, a iz tablice ustanovljujenio da je uz 5 stupnjeva slobode t a j rezultat
statistitki znatajan (P < 0,05).
Pri takvim sitliacijama zbrajanja rezultata hi-kvadrata treba paziti d a se zbroje
svi raspoloiivi rrzultati (a ne samo pozitivni!). Osim toga, potpuno je razurnljivo
d a smijemo zbrajati samo one hi-kvadrate koji svi pokazuju devijaciju u "istom
smjeru". BuduCi da je "smjer" devijacije kod hi-kvadrata vidljiv samo iz inspekczje
tahlzce (a ne iz samog broja, jer je broj uvijek pozitivan!), pri tom poslu treba biti
vrlo oprezarl.
Evo na ltraju saietih glavnih uvjeta, koji moraju biti ispunjeni d a bi se smio
raeunati hi-ltvadrat test:
1. hz-kuadrat test m o i e se ratunatz samo s frekvenczjama. Prema tome, u delije
hi-ltvadrat testa ne smijemo unositi aritmetitke sredine, kao ni p o s t o t k ~ ,ni
proporcije. Ako 11 Celije unesemo postotke, sveli smo na t a j naEin N svake
glupe n a 100, Sto, naravno, nije dopuSteno.
2. S u m a otekrvanzh frekvenczja mora bztz jednalca sumz opaienzh frekvencya.
Toleriraju se rninimalne razlike u vezi sa zaolcruiivanjem decimalnih brojeva.
3. Kad god u hi-ltvadrat testu ratlimo s nekim svojstvom koje se pojavzlo ili se
nzje pojavilo, treba u raeurlu staviti i frrkvencije u kojima se t o svojstvo nije
pojavilo. Ako t o ne uCinimo, moie nanl se u neltim sluFajevirna dogoditi da
suma opaieriih frekvencija ne odgovara sumi otekivanih frekvencija.
I kad suma orekivanih frekvencija potpuno odgovara sumi opaienih frekvencija,
treba se pridriavati pravila d a u ratunu navedemo i frekvencije u kojima se svojstvo
nije pojavilo.
P r ~ n i j e r Zanima
. nas postoje li razlilte u frekvenciji ozljedivanja medu radnicima
razlitite starosti, i izvrSirno registraciju nesreka u jednom poduzetu t e dobijemo ove
rezultate:
Starost radnika 20-29 god. 30-49 god. 50 i vise god.
Broj radnika 200 500 300
Broj radnika sa dvije
ili vise nesreCa 70 100 30
Alto nema razlilte u frekvenciji ozljedivanja medu radnicima razliFite starosne
dobi (nul-hipoteza), moiemo uzeti sve radnike zajedno, pa tako dobivamo da je od
ukupno 1000 radnila njih 200 imalo nesrrte. To iznosi 20%, pa bismo stoga morali
otekivati jednak postotak u svim dobnim skupinama; to su ove otekivane frekven-
cije: 40, 100, 60. Kako se vidi, suma otekivanih frekvencija iznosi 200, jednako
268 4, 15. HI-KVADRAT TEST

kao i suma opaHenih frekvencija. Medutim, izratunamo li samo iz tih rezultata


hi-kvadrat, dobit Cemo X 2 = 37,5. Naprotiv, unesemo li u tablicu hi-kvadrata i
frekvencije radnika bez nesreCa (tj. s manje od dvije nesreCe), hi-kvadrat Ce iznositi
46,9. U granitnim slucajevima, tj. kada je hi-kvadrat upravo u blizini granitne
vrijednosti prema tablici, upotreba ispravnog postupka moie imati odluEujuCe
znatrnje za krajnji rezultat.
JoS hi, naravno, t e i a pogreSka bila da se uopCe ne osvrCemo na stvarni broj
slutajeva u svakoj kategoriji, nego da otekivane frekvencije izratunamo samo na
temelju prosjeka opaienih frekvencija. Ako su opaiene frekvencije: 70, 100, 30
(ultupno 200), onda bi otekivane frekvencije trebale biti 20013 = 66,7, 66,7, 66,7.
I takvi su sluCajevi mogu katkada u praltsi naCi, ali t o vet prestavlja potpuno
nerazumijevanje hi-kvadrat postupka.

4. Frekuencije u pojedinim Celijama moraju biti u t o m smislu nezavisne da svaka


frekvencija u pojedinoj Celiji rnora pripadati drugom individuumu. Na prim-
jer, ne smijerno u tablicu unositi nekoliko odgovora jednog ispitanika; takoder
se N ne smije poveCati tako d a se na svakom ispitaniku uEini nekoliko pokusa
p a se svalti pokus unese u tablicu.

5 . Nijedna otekivana frekvencija n e smije biti odueC mala. U tom se treba


pridriavati ovih pravila:
a) Ka,d imamo vise od dvije Celije, ako je vise od 20% oeekivanih frekven-
cija manje od 5, treba spajati susjedne Celije. Kad radimo samo s dvije
Celije, ne smije ni jedna otekivana frekvencija biti manja od 5.
b) Kod 2 . 2 tablica hi-kvadrat smije se upotrijebiti uvijek ako je N vedi od
40. Alto je N manji od 40, ali veCi od 20, ne smije ni jedna oeekivana
frekvencija biti manja od 5.
c) U tablicama kontingencije kad je broj stupnjeva slobode veCi od 1,
hi-kvadrat se smije ratunati ako manje od 20% Celija ima oeekivanu
frekvenciju manju od 5, a ni jedna Celija manju od 1. Ako t o nije
postignuto, treba spajati Celije u ltojima su oCekivane frekvencije odveC
malene. (Naravno da raditi takvo spajanje ima smisla samo onda ako se
time ne upropasti svrha saniog ispitivanja, tj. ako fenomen koji ispitu-
jemo, ostaje i dalje vidljiv.)
V a in a n a p o m e n a: U novije vrijeme pojavile su se medutim rasprave
koje dokazuju d a nije naroEito uazno pridriavati se pravila 5.

6 . Kada postoji samo 1 stupanj slobode, potrebno je provesti korekciju za kon-


tinuitet (Yat,esova ltorekcija). Ako su razlike izmedu opaienih i oEekivanih
frcltr~encijavrlo male, tako da primjenom Yatesove korekcije dobijemo razliku
koja je numeriEki ueCa (bez obzira na predznak), onda upotreba te korekcije
n e m a oprauda~tja!No i ovdje valja primijetiti da t a korekcija ima smisla samo
kod malih frekvencija u Celijama, jer Ce kod velikih frekvencija s korekcijom
doCi sa,mo do nlalih razlika u zavrSnom rezultatu.
15.5. JOS 0 HI-KVADRAT TESTU 269

15.5. JOS 0 HI-KVADRAT TESTU

Na kraju rasprave o hi-kvadrat testu dodajemo joS tri riapomene, od kojih smo
prvu spomenuli veC nd poEetltu ovog poglavlja, druga je manje poznata, ali je vrlo
zanirnljiva, a treCa je posebiio vaina za one koji nedovolpzo razrnzSZpju prilikom
koristenja toga testa.
1. Prva se riapoineria odnosi na spomenuto svojstvo hi-kvadrat testa da uz
njegovu pomob moiemo ustanoviti i vjerojatnost povezanosti izmedu dvije varijable
(ne dalcle ~ ~ ? s zpovezanosti
nu koju narn daje koeficijerit korelacije).
BuduCi dd u tom pogledu 1tadSto vlada kod poCetnika odredena konfuzija, raz-
jasnit Cemo na jednom jednostavnom prinijeru o Cemu se zapravo radi.
Uz~nimoda nas zanima razlikuju li se muskarci od iena u svom stavu prema
boksaElcim borbdnia i da anketom dobijenlo podatke da od 200 ankctiranih iena
samo rijih 50 izjavljuje d a odobrava boksaFka natjecanja. a od 300 anketiranih
muSkaraca njih 200 izjasnilo se u pr ilog boksu. U donjoj tablici prikazani su dobiveni
rezultati:

Spol
2ene
muSkarci
m-
1 :: za
Stav
proti-

250 250 500

IznaCuriarno li na osnovi tih podatala hi-kvadrat,, dobit Cemo d a on iznosi 83,4, i


prema tome visoko je statistiCki znatajan, pa smo, dakle, dokazali da se muSkarci
od iena statistieki znatajrio razlikuju u stavu prema tom pitanju, tj. da muSkarci
imaju znatno povol.jniji stav prema boksu. No istotlobno mi smo time dokazali i
postojas~jepouezanosti izmedu vcirzjuble "stav prema boksaCkim natjecanjima" i var-
ijable "spol". Drugim rijetima, riije svejedno anketiramo li o tom pitanju muS1arce
ili iene, a ako nije svejedno, onda znaCi d a postoji korelaczja izmedu sta,va.i spola!
To, nara,vno, n e ,moru znatzti da je korelacija visoka, vet samo to da ona postoji i da
je statistitlti znatajna. A kolika je aproksimativno Cemo ustanoviti ako uz pomoC
hi-kvadrat,a izraCuna,m Crumerou Fz koeficijent (formula 13.28):

(Kao Sto se moie lako ustanoviti, jednak rezultat dobili bismo d a smo raCunali i
kritizirani koeficijent kontingencije C . Razlog tome je Cinjenica d a kod 2 . 2 kontin-
gencijskih tablica nema razlike izrnedu C i Cramerova Fi.).
( N a p o m e n a. Hi kvadrat ima za ltorelaciju otprilike ono isto znatenje Sto
ga ima i testiranje znaCajnosti korelacije: ako je hi-kvadrat znaCajan, i korelacija -
bila ona niska ili visola. - statistiEki je znaCajna.)
2. Druga napomena o hi-ltvadrat testu pripada medu rijetko poznate, a radi se
o mulzm vrijednostima hi-kvaclrata. Evo u Eemu se t a napomena sastoji:
15. HI-KVADRAT TEST

Iz t-testa nauCeni smo d a neku razliku smatramo statistiEki znaEajnom ako je


dobiveni t veCi od grarlitne t-vrijednosti u tablici. Jednako p o ~ t ~ ~ i p aimkod
o hi-
kvadrat testa, tj. smatramo da je razlika izmedu opaicnih i teoretskih frekvencija
statistitki znaEajna ako je dobiveni hi-kvadrat veCi od granitne vrijednosti u tablici
hi-kvadrata, uz odredeni broj stup~ljevaslobode. U tumaEenju logike hi-kvadrat
testa na strani 250, zato smo i rekli: " s t 0 je hi-kvadrat manji (bliii nuli), to je
v.jerojatnije d a treba prihvatiti postavljenu hipotezu ...". hledutim, malo pailjiviji
uvid u distribuciju uzoraka hi-kvadrata (vidi slikli 15.1) pokazat Ce da to ne mora
biti doslovno tako.
Uzmimo primjer s bacanjem igraCe kocke. Ako je kocka ispravna, vjerojatnost
svakog ishoda je jednalta i iznosi P = 116. Pretpostavimo d a u jednom
po,ja~l.jivarlja
izvjegtaju iz jedne igraCnice Citamo da je izvrzeno testiranje igraCe kocke tako da je
k o c h batena Sesto put,a, te je zabiljeieno koliko je puta dobiven rezultat 1, koliko
puta 2, 3, 4, itd., te je nakon toga izratunat hi-kvadrat test,. Uzmimo da objavljeni
rezultati izgledaju ovako:

Ishod fo ft. b

1 98 100

Ukupno 600 600

Izratuna,mo li na temelju tih podataka hi-kvadrat, dobiwmo X' = 0,12. BuduCi


d a je granitria vrijeclnost hi-kvadrata uz 5 stupnjeva slobode 11,070, u prvi mah
bez ikakve sumnje prihvac'arno nul-hipotezu, tj. zakljutujemo da ,je kocka potpuno
ispravna, jer se rezultati t,ek minimalno razlikuju od oCekivanih frekvencija.
No je li to zaista talco'? Pogledajmo distribuciju uzoraka hi-kvadrata uz 5 stup-
rijeva slobode na slici 15.1. Tu moiemo vid.jeti da bi se - i kod najispravnije kocke
- hi-kvadrati distribuirali tako da im se dominantna urijednost kreCe negdje oko

4,a vrijednosti koje od dominaritne zriaCajno odstupaju rijetke su na obje strane


krivulje. Drugim rijetima, iz krivul*jejasno vidimo da u ovom slutaju i izritito meli
I-ii-kvadrat ne moiemo smatrati sigurno slutajnim, jer bi se on slutajno mogao
pojaviti sarno izvanredrio rijetko. Vjerojatnost slutajnog pojavljivanja hi-ltvadrata
veCe.9 od 15,086 je jednaka (P = 0,Ol) kao i vjerojatnost sluEajnog pojavljivanja,
hi-kvadrata m,anjey od 0,554 ( P = 0,99, Sto znati da je vjerojatnost 99% da Ce
slueajni hi-kvadrat biti veCi od 0,554).
Daltle, u t-testu - Sto je t manji, to smo sigurniji d a nema razlike izmedu dvije
populacije; a ltod hi-ltvadrat testa i suviSe m,ali hi-kvadrat moiemo smatrat,i da nije
sluEajno nastao!
to u ovom sluEaju treba zakljuCiti? Samo jedno: rezultati izvjeStaja vrlo su
jerojatno izmiSljeni (jer su "predobri" da bi rnogli biti i~tinit~i!), a izmislio ih
15.5. JOS I) HI-KVADRAT TESTU 271

je netlco tko zna ratunati hi-kvadrat i poznaje njegovu osnovnu logiku, ali ga ne
razurnije doleraja.
Neka usputno bude spomenuto i t o da su naknadna provjeravanja eksperimenata
osnivata genetilee Gregora Mendela (prvi je te podatke provjeravao R. A. Fisher,
jedan od najveCili statistitara do sada) pokazala (la se stvarno dobivene frekvencije
nekih nasljednih karakteristika u njegovim pokusinla toliko dobro slaiu s teoret,ski
otekivanim frekvencijama Mendelovih zakona da su svi hi-kvadrat,i (koje Mendel,
naravno, u ono vrijeme nije znao raCunati) "previSe visoki d a hi izgledali istiniti"!
StruCnjaci danas na razlitite naEine tumate t u pojavu (jer Mendelovi zakoni su
toEni i riit,lco u njih ne sumnja), pa se izmedu ostaloga spominje i mogutnost da su
njegovi mladi suradnici, ieleCi mu ugoditi, poneSto "frizirali" rezultate eksperime-
nata kako bi se oni joS bolje slagali s otekivanim frekvencijama. No, bilo kako bilo,
Mendelovo otkriCe - kako kaiu Hodges, Krech i Crutchfield - koje mriogi smatraju
jednim od najveCih trijumfa ljudslcog uma, bilo je dovoljno snaino da odoli Cak i
kritici "odvet dobrih rezultata".
N a p o m e n a. Spo~nenutumoguCnost oCitavanja hi-kvadrat distribucije i s
lzjeuog kraja (tj. za one hi-kvadrat vrijednosti koje su "suviSe male da bi iz-
gledale istinite") ne treba niijeSati s "jednosmjernim" ili "dvosmjernim" testiranjem
znaCajnosti ra,zlike kod t-testa!"Dvosmnjcrnon testiranje - kao Sto smo rekli - znaEi
testirati je li neka razlika - bez obzira n,a smjer te razlz'ke - statistitki znaCajna ili
nije. Drligirn ri,jeCirna, ako nademo da je npr. grupa djece A viSa od grupe djece B,
onda dvosrn.jernim test,irari,jem znatajnosti razlilte mi samo odgovaramo na pitanje
je li mogude da se razlila, koju snio medu uzorcima dobili, dogodila slutajno ili ne.
Pri tome je potpuno svejedno je li t a razlika, u korist grupe A ili grupe B, jer zanima
nas samo velitina razlilce, bez obzira ria predznak, tj. na njezin smjer. (A ako nas
opravdano za,nima sanio jedan srnjer razlike, onda - eventualno - moiemo koris-
titi samo jednu qtranu normalne odnosno t-distribucije, i provesti "jednosmjerno"
testiranje.)
Granicne vrijednosti hi-kvadrat distribucije, koje se nalaze u hi-kva,drat t,ablici,
makar se odnose na "desnu stranu" hi-kvadrat distribucije, jesu vrijednosti dvosm-
jernog testiranja, jer pomodu njih testiramo znaCajnost razlike bez ohziru nu njezin
sn~jcr!(Kao Sto znamo, prilikom raEunanja hi-kvadrata smjer razlike u raCunu nema
nikdkvu ulogu, jer se razlike izmedu opaienih i oEekivanih frelcvencija kvadriraju!)
Prema tome, upozorerije da i suviSe mali hi-kvadrat moie biti sumnjiv (tj. da
moida nije nast,ao potpuno slutajno), i d a se to moie provjeriti s lzjeve strane
krivulje distribucije hi-lcvadrata - problem je sasvim druge vrste od problema
"jednosmnjernog" ili "dvosmjernog" testiranja znaCajnosti razlike.
3. Isltustvo pokazuje, da pojedini korisnici hi-ltvadrat testa katkada nedovoljno
razrniSl.jaju o torne, ito ih zapravo zaninla u njihovu istraz'ivanju. To Cemo najbolje
objasniti jednim primjerom, koji se katkada dogada.
Recimo da je neki istraiivaC sakupio podatke o broju samoubojstava u toku svih
12 mjeseci nelce godine u jedriom velikom gradu, i da ga zanima postoje li razlike
izmedu muskaraca i icna u sniislu frekvencije samoubojstava, tj. da li muSkarci ili
iene Cine veSe samoubojstava. Pretpostavimo d a je dobio ove rezultate:
\
272 15. HI-KVADRAT T E S T

SijeC. Velj. O i . Trav. Svib. Lip. Srp. Kol. Ruj. List. Stud. Pros. Ukupno
MuSk. 5 7 8 4 12 10 12 9 10 6 10 9 102
~enc 4 7 10 8 7 10 9 8 4 5 8 12 92
Ako on sada na sue te rezultate primijeni pravila izratunava,nja oEekivanih
frekvencija (tj. utirli i sume stupaca, pa rrinoZi sume reda sa sumom stupca i di-
jeli ultupnom sumorn), on je zapravo ratunao razlikuju li se muSkarci od iena po
broju samoubojstava u toku pojedinih rmjeseci, a nije dobio odgovor na svoje pi-
tanje da li muSkarci ili iene imaju vise samoubojstava. Alio je to problem, koji on
ieli rijeSiti uz pomoC hi-kvadrat test,a, onda ga uopCe ne zani~nastanje samoubo-
jstava po mjesecima, vet jedino ukupni broj sarnoubojstava kod iena i muSkaraca
u toku godine dana. Bududi d a u poplilaciji postoji uglavnom jednaki broj iena i
muSliaraca, on bi mogao postaviti jednostavnu tablieti:
fo ft
MuSkarci 102 97
~ene 84 97

pa sada upotrijebiti hi-kvadrat. *


Kao Sto vidimo, glavna opasnost od hi-kvadrat testa je u torne Sto se on
lagano izr(~Euna.ua,ali treba prethodno dobro promisliti Sto nus zapravo zanima,
pa tek tada iCi na izratunavanje teoretskih (oteltivanih) frekvencija, jer one ovise o
hipotezi, koju smo postavili.
ZADACI ZA VJEZBU
1. Jedan je nastavnik tvrdio da medu njegovih 50 studenata tridesetorica
moraju pasti, da s11 15 prosjetni, a 5 vrlo dobri. Odstupa li takva
raspod,jela statistitlti znatajno od orioga Sto bismo mogli otekivati
pod vitlom normalne raspodjelr, tj. da je 50% uCeriika u srednjoj
kategoriji?
2. ~ e t v o r i c ana,stavnika istog predrneta irnali su ovaj rezultat ispita n a
kraju godine:
A B C D
Broj"palihnuEenika 8 5 4 7
Broj"proSlihn utenika 48 40 35 43.
Ra.zliltuje Ii se proporcija proSlih (ili palih) utenika kod ove Eetvorice
nastavnika?
3. Na jednom trtaju statistilie, na kojem je bilo 40 muSkaraca i 30 iena,
n a zavrSnom ispitju postignuti su ovi rezultati:

I nedovoljan ( dovoljan i dobar I v. dobar i odliFan I


MuSkarci 8 24 8
~ene 5 16 9

Je li razlika izmedu muSkaraca i iena statistitki znaEajna?


15.5. JOS 0 HI-KVADRAT TESTU

4. Jedan je sociolog ispitivao postoje li razlike u vrsti kriminalnih Eina


izmedu 3 grada i dobio je ove rezultate:

Krada Krade i
Silovanje Ostalo
automob. diepar.
Grad A 76 112 87 102
Grad B 64 184 77 98
Grad C 39 131 48 82

Postoji li statisticki znaEajna razlika medu gradovima?


5. U jednoj zemlji anketirano je nekoliko desetaka pripadnika razliEitih
politiEkih stranka pitanjem: odobravaju li smrtnu kaznu. Rezultati su
prikazani u donoj tablici:

Republikanci Demokrati Nezavisni

a. J e li razlika medu grupama statisticki znaEajna?


b. PoveCajte sve brojeve deset puta, izraEunajte hi-kvadrat test te
prokomentirajte rezultat.
6. U toku 8-godiSnjeg razdoblja 17 952 ameritka pilota imala su distribu-
ciju nesreCa u sluibi kao Sto je prikazano dolje:
8

Broj nesreCa Broj pilota


0 12 475
1 4 117
2 1016
3 269
4 53
5 14
6 6
7 2
17 952

J e li t a distribucija nesreCa sluEajna (Poissonova) distribucija?

You might also like