You are on page 1of 6

HI KVADRAT (

2
) TEST

2
test zasnovan je na
2
distribuciji i koristi se tipski za rjeavanje nekoliko problema.
Prvi se odnosi na testiranje znaajnosti razlike izmeu opaenih i teorijskih frekvencija
razliitih rasporeda vjerovatnoe oznaimo ga kao test prilagoenosti.
Drugi domen primjene
2
testa je kod takozvanih tabela kontingencije i odnosi se na
testiranje meusobne povezanosti razliitih obiljeja posmatrane pojave.
Kao poseban sluaj izdvaja se i testiranje jednakosti (ili razlike) proporcija tri i vie
skupova, to se oznaava i kao testiranje homogenosti posmatrane pojave.
U sva tri navedena sluaja,
2
test ima odlike neparametarskog testa.
Osnovni koraci prilikom testiranja
2
testom mogu se svesti na sljedee:
1. Ustanovljava se nulta i alternativna hipoteza.
2. Izraunavaju se teorijske frekvencije pojavljivanja neke osobine kod posmatrane
populacije u skladu sa postavljenom nultom hipotezom.
3. Kod tabela kontingencije, razliite opservacije frekvencije razmjetaju se u razliite
elije.
4. Odreuje se razlika izmeu opaenog i oekivanog, tako da se izraunava vrijednost
2

statistike testa, date izrazom:

r
i i
i i
f
f f
1
*
2 *
2
) (

U prethodnom izrazu sa f
i
su oznaene opaene empirijske frekvencije, a sa
*
i
f
oekivane ili teorijske frekevencije. r predstavlja broj grupa frekvencija.
5. Ustanovljava se odgovarajua p-vrijednost, odnosno poredi se izraunata vrijednost
statistike testa sa kritinim (tablinim) vrijednostima iz
2
distribucije, uz odgovarajui
broj stepeni slobode, i izvodi zakljuak.
Broj stepeni slobode
2
distribucije odreuje se posebno za svaki sluaj primjene.

2
distribuci ja
Hi-kvadrat test zasnovan je na
2
distribuciji.
Sluajna promjenljiva definisana funkcijom gustine:

'

,
_


2
1
2
2
2
2
1
) (
x n
n
e x
n
x f
, za 0 x .
ima
2
- raspored sa n stepeni slobode i oznaava se sa
2
n
.
Broj n moe biti proizvoljan pozitivan broj, ali je u primjeni vaan saluaj kada je n
pozitivan cio broj.
Osnovne karakteristike hi- kvadrat distribucije su::
1. Izraunata vrijednost
2
testa uvijek je pozitivna, zbog kvadratnog izraza
2 *
) (
i i
f f .
2. Postoji familija
2
distribucija u zavisnosti od broja stepeni slobode. Broj stepeni slobode
u veini sluajeva zavisi od broja grupa frekvencija ili od broja elija u tabeli
kontingencije, a ne od broja elemenata u uzorku. Zbog toga i oblik
2
distribucija ne zavisi
od broja elemenata u uzorku.
3.
2
distribucija je pozitivno asimetrina. Poveavanjem broja stepeni slobode ova
distribucija se pribliava normalnoj, tako da ve za 10 stepeni slobode uzima oblik
priblino normalne distribucije.
TESTIRANJE PRILAGOENOSTI
Test prilagoenosti je statistiki test koji treba da odgovori na pitanje, u kojoj mjeri
su empirijski podaci, odnosno opservacije o broju pojavljivanja odreenih vrijednosti
ili modaliteta neke pojave, prilagoeni ili odgovaraju, ili prate, ili se ponaaju prema
nekom teorijskom modelu rasporeda vjerovatnoe. Pri tome se polazi od pretpostavke
da se posmatrana populacija prilagoava nekom teorijskom rasporedu vjerovatnoe.

2
test, prilikom testiranja prilagoenosti, moe da se primijeni za bilo koju distribuciju
populacije ili sluajne promjenljive, ali je to od posebne vanosti i najee primjenjivano u
sluajevima uniformnog i normalnog rasporeda.
Testiranje se svodi na provjeravanje znaajnosti razlike izmeu opservisanih i
oekivanih frekvencija.
(I) Prilikom testiranja prilagoenosti nekog empirijskog uniformnom rasporedu,
nulta i alternativna hipoteza glase:
H
0
: Populacija (ili sluajna promjenljiva)
uniformno je rasporeena
H
1
: Populacija (ili sluajna promjenljiva)
nije uniformno rasporeena
U sljedeem koraku potrebno je izraunati vrijednost izraza
2
2
Hi kvadrat (
2
) test

r
i
i
i i
f
f f
1
*
2 *
2
) (

.
U daljem postupku odreuje se p ili tablina vrijednost iz Tablica
2
distribucije,
uz odgovarajui broj stepeni slobode i rizik greke.
Statistiki raunarski programi daju sve mogue vrijednosti ove distribucije, pa je
mogue preciznije izvoditi zakljuke.
Prilikom testiranja prilagoenosti nekog empirijskog rasporeda uniformnom
rasporedu, broj stepeni slobode odreuje se kao df = k 1, gdje je k broj grupa
frekvencija.
(II) Prilikom testiranja prilagoenosti nekog empirijskog normalnom rasporedu,
nulta i alternativna hipoteza glase:
H
0
: Populacija (ili sluajna promjenljiva)
normalno je rasporeena.
H
1
: Populacija (ili sluajna promjenljiva)
nije normalno rasporeena.
Izraunavanje teorijskih frekvencija normalnog rasporeda za dati empirijski raspored
izvodi se uz pomo Tablice standardizovanog normalnog rasporeda, u kojoj se nalaze
vjerovatnoe da standardizovana normalna sluajna promjenljiva uzme vrijednost iz intervala
izmeu bilo koje dvije vrijednosti.
Ako se uvede transformacija X = + Z, tada se mogu izraunati granice u smislu
originalne promjenljive X za bilo koje date vjerovatnoe pojavljivanja.
Treba zapaziti da je u ovom sluaju pretpostavka da su poznate vrijednosti
parametara populacije - aritmetike sredine i standardne devijacije .
U praksi najee i nisu poznate veliine, pa ih je potrebno ocijeniti iz
podataka koji su prikupljeni. U ovakvim sluajevima gubi se po jedan stepen slobode za
svaki parametar koji se ocjenjuje (osim kada se koristi drugi skup podataka za ocjenu). Kao i
obino, aritmetika sredina se ocjenjuje pomou X , a standardna devijacija na osnovu S.
Na taj nain broj stepeni slobode prilikom testiranja prilagoenosti normalnom
rasporedu je df = k 2 1 = k 3.
Ukoliko su oekivane frekvencije manje od 5, preporuka je da se pripoje
susjednim frekvencijama, ime se onemoguuje da
2
dobije neopravdano visoke
vrijednosti.
ANALIZA TABELA KONTINGENCIJE
Vrlo esto nalazimo se u prilici da ispitujemo da li izmeu dva obiljeja elemenata
jednog skupa postoji veza i da li je ta veza statistiki znaajna. Kada su posmatrana
obiljeja mjerena na nominalnoj mjernoj skali i u sluajevima kada je mogue formirati tabelu
sa dva ulaza (za jedno i za drugo obiljeje), koja se naziva tabela kontingencije, uz pomo
2
testa moe se dobiti odgovor na postavljeno pitanje.
Tabele koje imaju dva ulaza i predstavljaju podatke jednog uzorka razvrstane prema
dvije osobine obiljeja elemenata uzorka nazivaju se tabele kontingencije.
Tabele kontingencije u elijama sadre podatke (frekvencije ili broj pojavljivanja)
3
3
koji se odnose (ili koji odgovaraju) razliitim unakrsnim klasifikacijama posmatranih
skupova (odnosno uzoraka uzetih iz tih skupova).

Tabela 1. Tabela kontingencije u optem sluaju
Kategorije druge
klasifikacije
Kategorije prve klasifikacije
Ukupno
1 2 ... j ... c
1 f
11
f
12
f
1j
f
1c
R
1
2 f
21
f
22
f
2j
f
2c
R
2
... ... ...
i f
i1
f
i2
... f
ij
... f
ic
R
i
... ... ...
r f
r1
f
r2
f
rj
f
rc
R
r
Ukupno C
1
C
2
... C
j
... C
c
n
Kolone tabele odgovaraju kategorijama (nivoima) jedne klasifikacije, a redovi
odgovaraju kategorijama druge klasifikacije elemenata.
Oznaimo broj redova sa r, a broj kolona sa c. Tada je frekvencija bilo koje elije
f
ij
, pri emu je i = 1,2, ..., r , a j = 1,2, ..., c. Sa R
i
oznaen je total i-tog reda, sa C
j
total j-
te kolone, a n je broj elemenata uzorka.
Nulta i alternativna hipoteza prilikom analize tabela kontingencije odnose se na testiranje
nezavisnosti dviju klasifikacija elemenata jedne populacije i glase:
H
0
: dva obiljeja (dvije varijable) meusobno su nezavisne.
H
1
: dva obiljeja (dvije varijable) meusobno su zavisne.
Dalji postupak u provoenju
2
testa kod analize tabela kontingencije u osnovi je
isti kao i u prethodnom domenu njegove primjene. Koristi se ista statistika, s tom
razlikom to se sumiranje u ovom sluaju vri za sve redove i kolone tabele.
Za c kolona i r redova, statistika testa je:

r
i ij
ij ij
c
j
E
E O
1
2
1
2
) (

U prethodnom izrazu sa E
ij
oznaene su oekivane frekvencije, a sa O
ij
opservisane
(opaene, stvarne) frekvencije koje su se desile u stvarnosti, a dobili smo ih
posmatranjem neke pojave.
Broj stepeni slobode dobija se prema izrazu:
df = (r 1)(c 1)
Uz pretpostavku o nezavisnosti, kako je uvedena nultom hipotezom, odreivanje
oekivanih frekvencija u pojedinim elijama izvodi se vrlo jednostavno (uz uvaavanje
postulata vjerovatnoe kod nezavisnih dogaaja, to se upravo i pretpostavlja za svaku
pojedinu eliju).
Za eliju (i, j) oekivana frekvencija dobije se na osnovu izraza:
i j
ij
R C
E
n

U daljem, postupak je u osnovi isti kao i kod testiranja prilagoenosti.
Odreivanje stepena meusobne zavisnosti dva obiljeja jednog skupa, mjerena na
4
4
Hi kvadrat (
2
) test
nominalnoj mjernoj skali, kada su njihove vrijednosti samo rijeima klasifikovane u razliite
grupe, kao u prethodnom primjeru, moe da se ustanovi na osnovu Pearson-ovog
koeficijenta kontingencije, koji se izraunava prema sljedeem izrazu:
2
2
C
n

+

Uoljivo je da se izraunavanje ovog koeficijenta zasniva na dobijenoj vrijednosti
statistike
2
testa. Koeficijent kontingencije pokazuje stepen veze modaliteta
posmatranih obiljeja i uzima vrijednosti od 0 do 1.
Ukoliko su te vrijednosti blie jedinici, to je veza modaliteta posmatranih obiljeja
vie izraena.
Nedostatak ovog koeficijenta je u tome da njegova maksimalna vrijednost nikada ne
moe dostii vrijednost 1, osim u sluaju da tabela ima beskonano mnogo redova i kolona.
Prilikom interpretacije koeficijenta kontingencije potrebna je dopunska informacija u
vezi sa njegovom maksimalnom vrijednou, koja zavisi od broja posmatranih
modaliteta.
U sluajevima kada je r = c, moe se izraunati maksimalna vrijednost koeficijenta
kontingencije prema izrazu:
max
( 1)/ C r r .
Koeficijent kontingencije nema smisla izraunavati u sluajevima kada se ustanovi da su
varijable meusobno nezavisne.
TEST JEDNAKOSTI (RAZLIKE) PROPORCIJA VIE SKUPOVA
Proporcije posmatranih populacija mogu biti meusobno jednake, a
najee se razlikuju, u manjoj ili veoj mjeri. Zbog toga ima smisla
govoriti o testiranju i razlike i jednakosti proporcija, tako da nije
greka ako se koristi jedan ili drugi termin.
Primjenom
2
testa mogu se dobiti odgovori na prethodno
postavljena pitanja. Test jednakosti (razlike) proporcija za vie populacija
naziva se i test homogenosti.
Postupak testiranja u osnovi je potpuno isti kao u
prethodnim sluajevima. Za svaku pojedinu populaciju uzima se u
obzir opaena (empirijska) frekvencija kao broj (pojavljivanja)
elemenata sa odreenom osobinom u toj populaciji.
Zatim se izraunavaju oekivane (teorijske) frekvencije, pod
pretpostavkom da nema znaajne razlike (da postoji jednakost)
izmeu posmatranih populacija prema ueu elemenata sa
odreenom osobinom. U daljem toku analize primjena
2
testa je
potpuno ista kao u prethodno izloenim postupcima.
Prilikom poreenja c populacija (ili r populacija, ako su
ureene kao redovi tabele) nulta i alternativna hipoteza glase:
H
0
:
1
=
2
= . . . =
c
5
5
H
1
: sve proporcije
i
, i = 1, 2, ..., c nisu meusobno jednake
Testiranje ovako postavljenih hipoteza predstavlja
generalizaciju testiranja jednakosti proporcija dva skupa u
sluaju kada je broj populacija vei od 2.
Ovdje se testira nulta hipoteza da su proporcije u svim
populacijama (u svim gradovima) jednake:
H
0
:
1
=
2
= . . .
H
1
: sve proporcije
i
, i = 1, 2, ..., nisu meusobno jednake.
U optem sluaju, teorijske frekvencije dobiju se tako da se
ustanovi opta (generalna proporcija) kao odnos zbira broja
elemenata iz svih uzoraka koji imaju odreenu osobinu ili su na
neki nain kategorizovani i zbira broja elementa svih uzoraka.
Zatim se tako dobijena proporcija primjenjuje (jednostavno
se pomnoi) na svaki pojedini uzorak i tako se izraunavaju
teorijske frekvencije, iji zbir je jednak zbiru originalnih
(opaenih) frekvencija.
U ovom domenu primjene tablina vrijednost odreuje se iz
tablice
2
rasporeda uz df = (r 1) stepeni slobode i
odgovarajui nivo rizika.
USLOVI ZA PRIMJENU
2
TESTA
Da bi se primjenom
2
testa dobili validni rezultati, potrebno je uvaiti osnovne
pretpostavke u vezi sa primjenom ovog testa, od kojih su najvanije:
1.
2
test se primjenjuje samo prilikom testiranja apsolutnih frekvencija.
2. zbir empirijskih (opaenih) i teorijskih frekvencija mora biti jednak.
3. treba uzeti u obzir svako pojavljivanje i nepojavljivanje odreene osobine, da se ne bi
naruio uslov pod 2. Tako, na primjer, ako se testiranjem neke pojave javljaju odgovori "da"
i "ne", to znai da se uz frekvenciju za "da" mora pridruiti i frekvencija za "ne".
4. frekvencije u pojedinim elijama moraju biti nezavisne, tako da svaka frekvencija u pojedinoj
eliji mora pripadati drugom individuumu ili objektu.
5. oekivane (teorijske) frekvencije ne smiju biti suvie male. U statistikoj literaturi nema
jedinstvenog stava o tome ta se to podrazumijeva pod suvie malim frekvencijama. Mi
emo se rukovoditi principom da su suvie male oekivane frekvencije one koje su manje od
5. Dakle, ako se u tabeli pojave male oekivane frekvencije, tada je potrebno da se redovi
(kolone) kojima one pripadaju spoje (pridrue) prethodnom redu (koloni), kako bi ovaj
uslov za primjenu
2
testa bio ispunjen.
6
6

You might also like