You are on page 1of 12

Zdravstveno veleučilište u Zagrebu Vježbe iz statistike

2 test

2 test (hi-kvadrat) je statistički postupak koji je veoma praktičan i često se koristi, a služi da
bi utvrdili odstupaju li dobivene - opažene frekvencije (fo) od frekvencija koje bismo očekivali uz
određene hipoteze (teoretske ili očekivane frekvencije - ft ). Drugim riječima, je li odstupanje
između opaženih i teoretskih frekvencija dobiveno slučajno uslijed greške pri uzorkovanju, ili je to
prava razlika?
Opažene frekvencije su one koje dobijemo nekim istraživanjem, npr. broj ljudi s određenom
dijagnozom, broj pušača u nekom uzorku, broj prijevremeno rođene djece kod majki s dijabetesom i
kod majki bez dijabetesa itd. Označava se grčkim slovom hi. I on, kao i t-test, spada u
inferencijalnu statistiku.

(f o - f t )2
χ =Σ
2
pri čemu fo znači opažene frekvencije,
ft
a ft teoretske ili očekivane frekvencije.

No, za razliku od t-testa i nekih drugih računa koji se mogu primijeniti samo na
kvantitativne podatke, hi2 je primjenjiv i kada su podaci izraženi na nominalnoj ljestvici, dakle kada
se radi o kvalitativnim podacima (kategorije kao što su spol, rasa, mjesto rođenja). Također, t-test se
smije računati samo ako su podaci raspoređeni prema normalnoj ili barem simetričnoj raspodjeli,
dok hi2 možemo primijeniti i ako je distribucija rezultata značajno različita od normalne. Dakle,
kada ne možemo upotrijebiti tzv. parametrijsku statistiku, koja zahtijeva normalnu distribuciju i
kvantitativne podatke, koristi se hi2 koji spada u tzv. neparametrijsku statistiku.

Bitno je naglasiti da se 2 test računa samo na frekvencijama (brojene vrijednosti, npr. broj
bolesnika na odjelu, broj novina koje se svaki dan prodaju na kiosku, broj pobačaja kod
maloljetnica u Hrvatskoj, broj studenata koji su prošli na ispitu itd.) i u račun nije dopušteno uvrstiti
nikakve mjerene vrijednosti, mjerne jedinice ni postotke. Osnovni podaci u istraživanju dakako,
mogu biti i mjerene vrijednosti, ali se u 2 test unose samo njihove frekvencije. Npr. ako imamo
podatke o plaćama radnih terapeuta u Hrvatskoj, te o njihovom zadovoljstvu poslom, potrebno je
plaće kategorizirati u dvije ili tri kategorije (npr. 2000-3500 kn – niska; 3501-5000 – srednja; 5001-
6500 visoka), te pobrojiti frekvencije u svakoj kategoriji. Zadovoljstvo poslom možemo
kategorizirati kao ZADOVOLJAN ili NEZADOVOLJAN, odnosno također se može iskazati u tri
kategorije (nisko, srednje, visoko).

1
Zdravstveno veleučilište u Zagrebu Vježbe iz statistike

Hi-kvadrat dopušta provjeru različitih hipoteza; pri čemu se računski izvodi uvijek na isti
način, samo je različit način određivanja teoretskih frekvencija.

2 test možemo upotrijebiti u ovim slučajevima:


1. Kad imamo frekvencije JEDNOG UZORKA i provjeravamo razlikuju li se dobivene frekvencije
od frekvencija koje očekujemo uz neku hipotezu - npr.:
 hipoteza o slučajnoj raspodjeli, na primjer kod bacanja novčića: bacimo novčić 100 puta,
i dobijemo 40 puta pismo i 60 puta glavu, a po slučaju je 50:50, pa uspoređujemo te dvije
distribucije da vidimo postoji li statistički značajna razlika među njima.
 hipoteza postavljena na osnovi nekog poznatog odnosa u populaciji, npr. od ukupnog
broja oboljelih od raka 25% se odnosi na rak dojke, a mi želimo usporediti da li se naših
63 slučajeva raka dojke od ukupno 250 na klinici za tumore razlikuje od poznatog udjela.
 hipoteza o normalnoj raspodjeli, npr. česta kada promatramo sposobnosti: da li je neka
sposobnost normalno raspodijeljena među ispitanicima u našem uzorku.
2. 2 možemo testirati i DVA ILI VIŠE NEZAVISNIH UZORKA i želimo ustanoviti razlikuju li se
uzorci u opaženim svojstvima. Npr. postoji li statistički značajna razlika u udjelu studenata i
studentica na studiju fizioterapije i sanitarnih inženjera.
3. Postoji i hi2 za zavisne uzorke. Kad imamo frekvenciju DVAJU ZAVISNIH UZORAKA (1
grupa) koji imaju dihotomna svojstva. Uspoređuju se rezultati jedne te iste grupe “prije” i
“poslije” tj. ispituje se je li došlo do promjene. Naziva se još McNemarov test.

2 test ima i određena ograničenja pri uporabi:


- test nije dobro koristiti ako su očekivane frekvencije premale. Svaka očekivana frekvencija
trebala bi iznositi barem 5.0
- najmanji broj rezultata na kojem se može primijeniti 2 mora iznositi barem 20.

2 na jednom uzorku:
- usporedba sa slučajnom distribucijom

1) U 100 bacanja novčića dobili smo 44 puta glavu i 56 puta pismo. Utvrdite postoji li statistički
značajna razlika između dobivene distribucije i distribucije po slučaju.

2
Zdravstveno veleučilište u Zagrebu Vježbe iz statistike

Tablica za hi-kvadrat test trebala bi izgledati poput ove niže. U prvi stupac upisujemo
opažene frekvencije, dakle, one podatke koje smo dobili u istraživanju, podatke „s terena“. U ovom
zadatku teoretska distribucija je slučajna, što znači da su sve ft međusobno jednake, a njihovu
vrijednost dobit ćemo tako da sumu frekvencija podijelimo s brojem kategorija (100 : 2). Potom
utvrdimo razliku opaženih i teoretskih frekvencija. Po nekim autorima, tu razliku prije kvadriranja
treba umanjiti za 0.5 kad god radimo s jednim stupnjem slobode, i to njezinu apsolutnu vrijednost,
dakle, zanemarujući predznak. To je tzv. Yatesova korekcija za kontinuitet. No, kako većina autora
tvrdi, Yatesova korekcija ne doprinosi bitno preciznosti hi kvadrat testa, pa ni mi nećemo
primjenjivati. Kada smo kvadrirali razlike, potrebno je svaku pojedinu podijeliti s pripadajućom
teoretskom frekvencijom, te zadnji stupac na koncu zbrojiti. Dobiveni zbroj je hi-kvadrat test.
Naime, formula nam služi kako bi nas vodila kroz postupak, pa još jednom naglašavam da dobiveni
zbroj zadnjeg stupca ne treba uvrštavati u formulu.

fo  ft 2
fo ft fo - ft (fo - ft)2 ft

44 50 -6 36 0.72
56 50 6 36 0.72
100 100  1.44
Hi2 =2= 1.44

Sada je potrebno, kao i kod t-testa, utvrditi je li dobiveni hi-kvadrat značajan ili nije. Za to nam
trebaju stupnjevi slobode (df). Za hi kvadrat test na jednom uzorku, stupnjevi slobode određuju se
tako da broj kategorija umanjimo za 1. Ovdje imamo dvije kategorije, glavu i pismo, pa stoga
imamo 1 stupanj slobode.
df = N kategorija - 1
Očitamo granične vrijednosti uz odgovarajući stupanj slobode iz tablice za hi-kvadrat, te naš hi-
kvadrat usporedimo s graničnim vrijednostima po istom principu koji smo svladali za t-test.

Dobiveni 2= 1.44 Kako je dobiveni hi-kvadrat manji od granične vrijednosti uz


df = broj kategorija-1 = 2-1 = 1 5% rizika, zaključujemo da ne postoji statistički značajna
Granični 2 (5%) = 3.84
razlika između naše distribucije i distribucije po slučaju.
Granični 2 (1%) = 6.63
P>0.05

3
Zdravstveno veleučilište u Zagrebu Vježbe iz statistike

2) U 120 bacanja kocke jedinicu smo dobili 25 puta, dvojku 17 puta, trojku 15, četvorku 23, peticu
24 puta i šesticu 16 puta. Razlikuju li se dobiveni rezultati statistički značajno od očekivanog po
slučaju?

2
fo  ft 2
fo ft fo - ft (fo - ft)
ft
1 25 20 5 25 1.25
2 17 20 -3 9 0.45
3 15 20 -5 25 1.25
4 23 20 3 9 0.45
5 24 20 4 16 0.80
6 16 20 -4 16 0.80
 120 120 Σ 5.00

Dobiveni 2= 5
df = broj kategorija-1 = 6-1 = 5 Ne postoji statistički značajna razlika između naše distribucije
Granični 2 (5%) = 11.070
Granični 2 (1%) = 15.086 i distribucije po slučaju.
P>0.05

3) Pitali smo 91-og pacijenta koja im je terapija bila najučinkovitija od tri vrste terapije koju su
prošli. 26 pacijenata navelo je elektroterapiju, 23 masažu, a preostali su se odlučili za plivanje.
Zanima nas postoji li statistički značajna razlika između naše distribucije i slučajne kako bi utvrdili
preferiraju li pacijenti statistički značajno jednu vrstu terapije u odnosu na drugu.

fo  ft 2
fo ft fo - ft (fo - ft)2 ft

26 30.33 -4.33 18.748 0.618


23 30.33 -7.33 53.73 1.77
42 30.33 11.67 136.189 4.49
91 91  6.88

Dobiveni 2= 6.88 Razlika je statistički značajna. Pacijenti značajno više biraju
df = broj kategorija-1 = 3-1 = 2
Granični 2 (5%) = 5.991 plivanje kao najučinkovitiju terapiju, nego elektroterapiju ili
Granični 2 (1%) = 9.210 masažu.
P<0.05

4
Zdravstveno veleučilište u Zagrebu Vježbe iz statistike

2 na jednom uzorku:
- usporedba s poznatim udjelom

Poznati udio ili zadani udio u populaciji odnosi se na već utvrđenu vrijednost (frekvenciju ili
postotak) u populaciji s kojom želimo usporediti naš uzorak. Slijede primjeri:

4) Od ukupnog broja oboljelih od raka, 18% odnosi se na rak dojke. Zanima nas razlikuje li se ta
distribucija u populaciji od one koju smo dobili na našem uzorku: od 250 slučajeva tumora
registriranih u klinici za tumore u posljednjih 6 mjeseci, 63 je pacijentica s rakom dojke.

Pri postavljanju ovog zadatka, moramo voditi računa da je ovih 250 slučajeva ukupan broj
opaženih frekvencija, od čega 63 otpada na tumor dojke, a preostali na druge tumore. Dakle, imamo
dvije kategorije. S obzirom da u tablicu za hi-kvadrat ne smijemo stavljati postotke, ovih 18%
moramo pretvoriti u teoretsku frekvenciju pomoću postotnog računa. Trebamo dobiti koliko je 18%
od 250, te onda dobiveni broj oduzeti od 250 kako bi dobili drugu teoretsku frekvenciju. Dalje
postupak slijedi kao i u prethodnoj vrsti hi-kvadrat testa.
% × SVE 18 × 250
ft = = = 45
100 100

fo  ft 2
fo ft fo - ft (fo - ft)2 ft

63 45 18 324 7.2
187 205 -18 324 1.58
250 250  8.78
Hi2 =2= 8.78

Dobiveni 2= 8.78


df = broj kategorija-1 = 2-1 = 1
Granični 2 (5%) = 3.84 U našem istraživanju je statistički značajno veći udio tumora
Granični 2 (1%) = 6.63 dojke u odnosu na situaciju u cijeloj Hrvatskoj.
P<0.01

5) Udio osoba starijih od 60 godina u općoj populaciji Hrvatske iznosi 21.6%. U našem uzorku, od
2530 osoba, bilo je 598 osoba starijih od 60 godina. Utvrdite razlikuje li se značajno udio starijih
osoba u našem uzorku, od onog u općoj populaciji.

5
Zdravstveno veleučilište u Zagrebu Vježbe iz statistike

% × SVE 21.6 × 2530


ft = = = 546.48
100 100

fo  ft 2
fo ft fo - ft (fo - ft)2 ft
598 546,48 -51,52 2654.31 4.86
1932 1983,52 51,52 2654.31 1,34
2530 2530.00  6.20
Hi2 =2= 6.20

Dobiveni 2= 6.20


U našem istraživanju je statistički značajno veći udio osoba
df = broj kategorija-1 = 2-1 = 1
Granični 2 (5%) = 3.84 starijih od 60 godina u odnosu na opću populaciju u Hrvatskoj.
Granični 2 (1%) = 6.63
P<0.05

6) U gradu Zagrebu je u ožujku 2010. bilo 11,7% nezaposlenih, što ukupno iznosi 37.327 ljudi. U
našem istraživanju sudjelovalo je 1053 subjekata s područja grada Zagreba, od čega je 98
nezaposlenih. Utvrdite razlikuje li se broj nezaposlenih u našem istraživanju od onog u populaciji
grada Zagreba.

fo  ft 2
fo ft fo - ft (fo - ft)2 ft

98 123,2 -25,2 635.04 5.15


955 929,8 25,2 635.04 0.68
1053 1053.00  5.83

Dobiveni 2= 5.83


df = broj kategorija-1 = 2-1 = 1 Razlika je statistički značajna uz rizik manji od 5%: u našem
Granični 2 (5%) = 3.84 uzorku udio nezaposlenih je značajno manji nego u gradu
Granični 2 (1%) = 6.63
P<0.05 Zagrebu.

6
Zdravstveno veleučilište u Zagrebu Vježbe iz statistike

2 na 2 i više nezavisnih uzoraka

7) Od ukupno 73 studenta na I godini studija sanitarnih inženjera, 21 ih je ženskog spola, dok je na


studiju fizioterapije I godine upisano 50 studentica od ukupno 96 studenata. Utvrdite postoji li
statistički značajna razlika u udjelu studenata i studentica na studiju fizioterapije i sanitarnih
inženjera.

Kako bi riješili ovaj zadatak, potrebno je prvo napraviti tablicu koja će nam biti osnova za
izračunavanje teoretskih frekvencija. U tablicu treba unijeti obje varijable, i spol i studij. Koja će
varijabla biti po redovima, a koja po stupcima, sasvim je svejedno, no, treba unijeti ne samo
subjekte s promatranim obilježjem, već i one koji nemaju promatrano obilježje, a to su u ovom
slučaju muškarci. U tablici treba naznačiti sume po stupcima i po redovima čiji ukupan zbroj mora
biti jednak.

STUDENTICE STUDENTI Ukupno


FT 50 46 96
SAN 21 52 73
Σ 71 98 169

Četiri frekvencije koje se nalaze u središnjem dijelu tablice predstavljaju opažene


frekvencije. Teoretske frekvencije ft dobijemo tako da za svaku kućicu POMNOŽIMO SUMU
REDA SA SUMOM STUPCA I PODIJELIMO S TOTALNOM SUMOM FREKVENCIJA:

  Ukupno
FT 71 x 96 /169= 98 x 96 /169=
40,33 55,67 96
SAN 71 x 73 /169= 98 x 73 /169 =
30,67 42,33 73
Ukupno 71 98 169

Suma očekivanih/teoretskih frekvencija mora biti jednaka sumi opaženih frekvencija i to


nam služi za kontrolu da li smo dobro izračunali ft. Toleriraju se samo mala odstupanja vezana uz
zaokruživanje decimalnih brojeva.

7
Zdravstveno veleučilište u Zagrebu Vježbe iz statistike

fo  ft 2
fo ft fo - ft (fo - ft)2 ft
50 40.33 9.67 93.51 2.32
21 30.67 9.67 93.51 3.05
46 55.67 9.67 93.51 1.68
52 42.33 9.67 93.51 2.21
169 169.00  9.26

df = (broj redova -1) x (broj stupaca -1) – računa se samo broj kategorija

Dobiveni 2= 9.26 Postoji statistički značajna razlika u omjeru studenata i studentica na I
df = 1 x 1 = 1 godini studija fizioterapije i sanitarnih inženjera: na studiju
Granični 2 (5%) = 3.84
fizioterapije je značajno veći udio studentica nego na studiju sanitarnih
Granični 2 (1%) = 6.63
P<0.01 inženjera.

8) Za dvije skupine bolesnika, od kojih je jedna koristila serum (grupa A), a druga nije (grupa B)
želimo utvrditi razlikuju li se značajno po broju osoba koje su se oporavile. Učestalost oporavka u
skupini koja je dobila serum jest 75 oporavljenih osoba, od ukupno 100 koliko ih je primilo serum.
U skupini bez seruma bilo je također 100 osoba, od kojih se oporavilo 65 osoba.
Sami napravite 2 x 2 tablicu za hi-kvadrat, izračunajte hi-kvadrat i odredite je li razlika u
broju oboljelih statistički značajna ili nije.

oporavili se nisu se oporavili 


A 75 25 100
B 65 35 100
 140 60 200

8
Zdravstveno veleučilište u Zagrebu Vježbe iz statistike

fo  ft 2
fo ft fo - ft (fo - ft)2 ft
75 70 5 25 0.36
25 30 5 25 0.83
65 70 5 25 0.36
35 30 5 25 0.83
200 200  2.38

Dobiveni 2= 2.38


df = 1 x 1 = 1 Ne postoji statistički značajna razlika u broju osoba koje su se
Granični 2 (5%) = 3.84
oporavile između skupine koja je primila serum (A) i skupine koja nije
Granični 2 (1%) = 6.63
P>0.05 primila serum (B).

9) Ispitajte postoji li statistički značajna razlika u učestalosti raka pluća između pušača i nepušača.
U promatranoj skupini pušača od 488 osoba, njih 13 oboljelo je od raka pluća, dok je u skupini od
660 nepušača oboljelo 5 osoba.

Pušači Nepušači 
S rakom pluća 13 5 18
Bez raka pluća 475 655 1130
 488 660 1148

(f o - f t )2
fo ft fo - ft (fo - ft)2 ft
13 7.65 5.35 28.62 3.74
5 10.35 -5.35 28.62 2.77
475 480.35 -5.35 28.62 0.06
655 649.65 5.35 28.62 0.04
1148 1148.00  6.61

9
Zdravstveno veleučilište u Zagrebu Vježbe iz statistike

Dobiveni 2= 6.61 Postoji statistički značajna razlika u udjelu oboljelih od raka pluća
df = 1 x 1 = 1 između pušača i nepušača: u skupini pušača ima značajno više
Granični 2 (5%) = 3.84
oboljelih od raka pluća.
Granični 2 (1%) = 6.63
P<0.05

10) Studenti su podijeljeni u 3 grupe i zadano im je gradivo koje moraju naučiti pomoću 3 različite
metode (A, B i C). Na provjeri znanja, od 55 ljudi koji su učili metodom A, 50 studenata je
zadovoljilo za prolaz, od 61 osobe koja je učila metodom B, prošlo je 47 osoba, dok je u skupini
studenata koji su učili metodom C palo 8 od ukupno 64 studenta. Utvrdite postoji li statistički
značajna razlika u prolaznosti studenata s obzirom na različitu metodu kojom su učili.

A B C 
Zadovoljio 50 47 56 153
Nije zadovoljio 5 14 8 27
 55 61 64 180

2
fo  ft 2
fo ft fo - ft (fo - ft)
ft
50 46.75 3.25 10.56 0.226
47 51.85 -4.85 23.52 0.454
56 54.40 1.60 2.56 0.047
5 8.25 -3.25 10.56 1.280
14 9.15 4.85 23.52 2.572
8 9.60 -1.60 2.56 0.267
180 180.00  4.846

Dobiveni 2= 4.846


df = 1 x 2 = 2 Ne postoji statistički značajna razlika u uspješnosti studenata između
Granični 2 (5%) = 5.99
skupina koje su učile pomoću tri različite metode.
Granični 2 (1%) = 9.21
P>0.05

10
Zdravstveno veleučilište u Zagrebu Vježbe iz statistike

11) Istraživača je zanimalo koja srednja škola najbolje priprema učenike za prijamni ispit.
Promatrani su maturanti iz tri srednje škole (I, II i III gimnazija), te je utvrđeno da od 89 učenika I
gimnazije koji su se prijavili na prijamni ispit, njih 69 ga je i položilo; od 123 učenika II gimnazije,
94 je položilo prijamni ispit, te iz III gimnazije je 47 učenika položilo prijamni od ukupno njih 62
koji su se prijavili na fakultete.

POLOŽILI NISU POLOŽILI Σ


I 69 20 89
II 94 29 123
III 47 15 62
Σ 210 64 274

2
(f
- f t )2
o
fo ft fo - ft (fo - ft)
ft
69 68.21 0.79 0.6241 0.0091
94 94.27 -0.27 0.0729 0.0007
47 47.52 -0.52 0.2704 0.0057
20 20.79 -0.79 0.6241 0.0300
29 28.73 0.27 0.0729 0.0025
15 14.48 0.52 0.2704 0.0187
274 274.00  0.0667
ako se računa na dvije decimale  0.04

Dobiveni 2= 0.067


df = 1 x 2 = 2 Ne postoji statistički značajna razlika između maturanata triju srednjih
Granični 2 (5%) = 5.99
škola u uspješnosti upisa na fakultete.
Granični 2 (1%) = 9.21
P>0.05

PONOVIMO:

 2 test spada u neparametrijsku statistiku – za njegovo korištenje nije važno da rezultati


budu normalno distribuirani.

 Može se koristiti i na nominalnoj mjernoj skali.

11
Zdravstveno veleučilište u Zagrebu Vježbe iz statistike

 Razlikujemo opažene i teoretske frekvencije. Opažene f dobijemo u istraživanju, a


teoretske moramo izračunati sami.

 Vrste hi-kvadrat testa koje smo koristili su 2 na jednom uzorku, te 2 na 2 i više nezavisnih
uzoraka. Od 2 na jednom uzorku radili smo usporedbu sa slučajnom distribucijom, te sa
zadanim udjelom u populaciji.

 Nacrtajte mentalnu mapu na temu 2 testa kako biste si lakše uobličili i organizirali gradivo.

LITERATURA:
1. Dyer, C. (1995) Beginning research in psychology. Oxford: Blackwell Publishers Inc.

2. Howell, D.C. (1989) Fundamental Statistics for the Behavioral Sciences. Boston: PWS – Kent
Publishing Company.

3. Petz, B. (1997) Osnovne statističke metode za nematematičare. Jastrebarsko: Naklada Slap.

4. http://www.enviroliteracy.org/pdf/materials/1210.pdf Preuzeto 19.05.2010.

NAPOMENE:
Svi podaci u ovim zadacima izmišljeni su za potrebe vježbi studenata i ne predstavljaju stvarno stanje u navedenim
populacijama.
U zadacima točni rezultati mogu biti i oni koji donekle odstupaju od navedenih rezultata, uslijed rada s drukčijim
brojem decimalnih vrijednosti.

Zadnja promjena 25.10.2017.

12

You might also like