You are on page 1of 8

STATISTIČKO ZAKLJUČIVANJE – TESTIRANJE HIPOTEZA O UČESTALOSTIMA

Hi-kvadrat testom procenjuje se značajnost razlike opaženih (empirijskih) i očekivanih (teorijskih)


učestalosti.
Hi kvadrat test se najčešće koristi:
1. u testu slaganja ili u
2. u testu nezavisnosti ili homogenosti.

HI-KVADRAT TEST SLAGANJA


Hi-kvadrat testom slaganja testiramo hipotezu da li se učestalosti u populaciji, opažene i
predstavljene uzorkom, razlikuju od očekivanih učestalosti. Očekivane učestanosti određene su na
osnovu ranijih istraživanja, pretpostavljenog modela raspodele posmatrane varijable ili
pretpostavljene na neki drugi način.

Primer 1: Ispitivana je učestalost krvnih grupa u određenoj populaciji. Na slučajnom uzorku od 140
osoba, nađeno je da krvnu grupu O ima 55 osoba, krvnu grupu A 59 osoba, krvnu grupu B 19 osoba
i krvnu grupu AB 7 osoba. Podaci se nalaze u dokumentu Krvne grupe.xlsx koji se može preuzeti sa
naslovne stranice kursa. Na osnovu ranijih istraživanja poznato je da je relativna učestanost tih
krvnih grupa: O – 44.5%, A – 38.9%, B – 12.1%, AB – 4.5%. Da li se aktuelne učestalosti krvnih grupa
razlikuju od očekivanih? Testirati na nivou značajnosti od 0,05.

Rešenje:
Učestalost opaženih krvnih grupa iznosi: Očekivane učestalosti:
O – 55 O – 44.5%
A – 59 A – 38.9%
B – 19 B – 12.1%
AB – 7 AB – 4.5%

Testiramo nultu hipotezu da se proporcije krvnih grupa u ispitivanoj populaciji ne razlikuju od


proporcija iz prethodnih istraživanja. Kako je u pitanju raspodela samo prema jednoj varijabli, a
treba testirati da li je raspodela proporcija u ispitivanoj populaciji jednaka proporcijama iz
prethodnih istraživanja, primenićemo hi-kvadrat test slaganja.

Hi-kvadrat test slaganja može se uraditi na sledeći način:


1) Sa naslovne stranice kursa, preuzeti i učitati bazu podataka Krvne grupe.xlsx
2) Kliknuti na liniji sa komandama: Original menu→Statistics→Summaries→Frequency
distributions...
3) U dijalog prozoru koji se pojavio:

odabrati variablu

čekirati Hi-kvadrat
test slaganja

 u okviru polja Variables (pick one or more) odabrati varijablu za koju se izračunava Hi-
kvadrat test slaganja
 čekirati polje Chi-square goodness-of-fit test (for one variable only)
 kliknuti na dugme OK.

4) U dijalog prozoru koji se pojavio, ukucati očekivane učestalosti za sve kategorije ispitivane
varijable, pa kliknuti na dugme OK. Zbir očekivanih učestalosti mora da bude 1. Obratiti pažnju
da je redosled kategorija u dijalog prozoru po abecednom redu i da se može razlikovati od
redosleda u zadatku.

5) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

statistika testa i p-vrednost

6) Zaključak: Proporcija krvnih grupa u ispitivanoj populaciji ne razlikuje se od proporcija iz


prethodnih istraživanja (Hi-kvadrat = 1.562, DF = 3, p = 0.668).
HI-KVADRAT TEST NEZAVISNOSTI I HOMOGENOSTI

Hi-kvadrat test za r x k tabele se može koristiti za testiranje hipoteza kada su podaci organizovani u
vidu tabela kontingencije. Ako jedna varijabla ima r kategorija, a druga k kategorija, onda tabela ima
dimenzije r x k.
Tabela kontingencije je složena kombinovana tabela u kojoj raspodela zavisi od dve varijable.
Kategorije prve varijable nalaze se u pretkoloni a kategorije druge varijable u zaglavlju tabele. Na
presecima kategorija obe varijable nalaze se ćelije koje sadrže opažene učestalosti (kontingenti)
kombinacija kategorija dve varijable, a koje se u opštem prikazu tabele kontingencije označavaju
slovima a, b, c i d.

Tabela kontingencije 2x2


Kategorije druge varijable
1 2 Ukupno
Kategorije prve 1 a b a+b
varijable 2 c d c+d
Ukupno a+c b+d a+b+c+d=N

Zavisno od cilja istraživanja i načina biranja uzorka, analizom tabela kontingencije možemo testirati
(1) nezavisnost dve varijable ili (2) homogenost dve populacije. U oba ova slučaja za testiranje
hipoteza može se upotrebiti hi-kvadrat test, a način izračunavanja hi-kvadrat statistike je identičan.

Uslovi za primenu hi-kvadrat testa su:


1. Za tabelu 2 x 2:
a) Kada je N > 40 test se može upotrebiti ako su sve očekivane frekvencije  1
b) Kada je N od 20 do 40 test se može upotrebiti ako su sve očekivane frekvencije  5
c) Kada je N < 20 test se ne može upotrebiti
2. Za tabelu veću od 2 x 2:
a) nijedna očekivana učestalost ne sme biti manja od 1, i
b) ne sme biti više od 20% očekivanih učestalosti manjih od 5.

Hi-kvadrat test za r x k tabele može se izvesti uz pomoć programa R iz sirovih (neobrađenih)


podataka, ili na osnovu već formirane tabele kontingencije.

Primer 2 (primer hi-kvadrat testa kada tabelu kontingencije treba formirati iz sirovih podataka):
Za slučajan uzorak od 40 osoba obolelih od osteoporoze dati su podaci o fizičkoj aktivnosti i
frakturama. Da li postoji povezanost fizičke aktivnosti i fraktura u populaciji obolelih od osteoporoze?
Testirati na nivou značajnosti od 0.05.

Testiramo nultu hipotezu da ne postoji povezanost fizičke aktivnosti i fraktura u populaciji obolelih
od osteoporoze. U pitanju je raspodela prema dve varijable (fizička aktivnost i prelomi) na osnovu
kojih treba formirati tabelu kontingencije. Podaci su dati u sirovom (neobrađenom,
neorganizovanom) obliku.
Sledećim komandama biće dobijena tabela kontingencije, procenti, očekivane učestalosti, i vrednost
hi-kvadrat statistike na osnovu koje će biti doneta odluka o odbacivanju ili prihvatanju nulte
hipoteze:
1) Preuzeti i učitati bazu podataka Osteoporoza.xlsx
2) Kliknuti na liniji sa komandama: Statistical analysis→Discerete variables→Create two-way
table and compare two proportions (Fisher`s exact test)

3) U dijalog prozoru koji se pojavio:

 u okviru polja Row variable (pick one or more): odabrati varijablu koja će definisati redove u
tabeli kontingencije
 u okviru polja Column variable (pick one): odabrati varijablu koja će definisati kolone u tabeli
kontingencije
 u delu Compute Percentages označiti Row percentages za izračunavanje procenata po
redovima
 u delu Hypothesis Tests:
o čekirati polje Chi-square test za izračunavanje Hi-kvadrat testa
o čekirati polje Print expected frequencies za izračunavanje očekivanih učestalosti
 u delu Continuity correction of chi-square test: označiti No, da bi se Hi-kvadrat test izračunao
bez Yatesove korekcije
4) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

tabela kontingencije sa
opserviranim učestalostima

procenti po redovima

Dobijena je tabela kontingencije sa opserviranim učestalostima, gde je “aktivnost“ varijabla koja


definiše redove, a “prelomi” varijabla koja definiše kolone. Prikazani su i procenti po redovima
tabele kontingencije.

statistika testa i p-vrednost

očekivane učestalosti

Sve očekivane učestalosti su veće od 5. Može se primeniti Hi-kvadrat test.

5) Zaključak: Učestalost fraktura iznosila je 12.5% kod fizički aktivnih ispitanika, i 50.0% kod fizički
neaktivnih ispitanika. U populaciji obolelih od osteoporoze frakture su statistički značajno
povezane sa fizičkom neaktivnošću (Hi-kvadrat = 5.934, DF = 1, p = 0.015).
Primer 3 (primer hi-kvadrat test kada je tabela kontingencije već formirana): Cilj u studiji preseka
bio je ispitivanje odnosa konzumiranja alkohola i patološkog nalaza na jetri. Formiran je slučajan
uzorak, veličine 118 ispitanika, iz opšte populacije odraslih osoba. Rezultati su prikazani u tabeli
kontingencije:
Patološki nalaz na jetri
+ – Ukupno
Konzumiranje + 10 16 26
alkohola – 13 79 92
Ukupno 23 95 118

Testiramo nultu hipotezu da ne postoji povezanost konzumiranja alkohola i patološkog nalaza na


jetri. U pitanju je raspodela prema dve varijable (fizička aktivnost i prelomi). Tabela kontingencije je
već formirana, podaci su dati u organizovanom obliku. Sledećim komandama biće dobijeni procenti,
očekivane učestalosti, i vrednost hi-kvadrat statistike na osnovu koje će biti doneta odluka o
odbacivanju ili prihvatanju nulte hipoteze:

1) Kliknuti na komande:
Original menu→Statistics→Contingency tables→Enter and analyze two-way table…

2) U dijalog prozoru koji se pojavio:

U okviru kartice Table:


 pomeranjem klizača u okviru trake Number of Rows: odrediti broj redova tabele kontingencije
 pomeranjem klizača u okviru trake Number of Columns: odrediti broj kolona tabele
kontingencije
 u delu Enter counts: ukucati nazive i vrednosti kategorija varijabli iz tabele kontingencije
U okviru kartice Statistics:
 u delu Compute Percentages: označiti Row percentages za izračunavanje procenata po
redovima
 u delu Hypothesis Tests:
o čekirati polje Chi-square test of independence za izračunavanje Hi-kvadrat testa
o čekirati polje Print expected frequencies za izračunavanje očekivanih učestalosti
 kliknuti na dugme OK.

3) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.

tabela kontingencije sa
opserviranim učestalostima

procenti po redovima

Dobijena je tabela kontingencije sa opserviranim učestalostima, gde je “Konzumiranje alkohola“


varijabla koja definiše redove, a “Patološki nalaz” varijabla koja definiše kolone. Prikazani su i
procenti po redovima tabele kontingencije.
statistika testa i p-vrednost

očekivane učestalosti

Sve očekivane učestalosti su veće od 5. Može se primeniti Hi-kvadrat test.

4) Zaključak: Patološki nalaz na jetri imalo je 38% ispitanika koji konzumiraju alkohol i 14%
ispitanika koji ne konzumiraju alkohol. Patološke promene na jetri su statistički značajno
povezane sa konzumiranjem alkohola (Hi-kvadrat = 7.647, DF = 1, p = 0.006).

You might also like