You are on page 1of 64

Statističko zaključivanje -

testiranje hipoteza

∑ Katedra za medicinsku
statistiku i informatiku
Statističko zaključivanje
• Ideja moderne statistike 1. Kako da korišćenjem
je da na osnovu uzorka podataka iz uzorka
(dobijenog ocenimo vrednost
populacionog
uzorkovanjem iz parametra? i
osnovnog skupa)
donosimo zaključke o 2. Kako da korišćenjem
populaciji (statističko uzoračkih statistika
zaključivanje). testiramo (proverimo)
iskaz o populaciji
(populacionim
parametrima)?

∑ Katedra za medicinsku
statistiku i informatiku
Testiranje hipoteza / osnovni pojmovi i
procedura
Statistička hipoteza je • Testiranje hipoteza je
iskaz ili pretpostavka o standardni statistički
populaciji. metod kojim se ispituje
• Primeri hipoteza: Iskustvo neki iskaz / tvrdnja /
govori da je verovatnoća da pretpostavka o
je pod određenim uslovima populaciji.
broj novorođenih devojčica i
dečaka isti; Lekari tvrde da
prosečna telesna
temperatura zdravih osoba
nije 37%C; …

∑ Katedra za medicinsku
statistiku i informatiku
Koraci
1. Hipoteze
2. Izbor nivoa značajnosti
3. Izbor test statistike
4. Izračunavanje statistike testa
5. Statistički zaključak

∑ Katedra za medicinsku
statistiku i informatiku
Hipoteze
Nulta hipoteza ili hipoteza Alternativna hipoteza –
koja se ovim procesom iskaz o onome što
testira (Ho) - hipoteza o istraživač veruje da je
nepostojanju razlike tačno u slučaju da su
uzorački podaci doveli
do odbacivanja nulte
hipoteze (H1)
• H0: 1= 2
• Jednosmerna (>, <)
• H1: 1  2 • Dvosmerna ()

∑ Katedra za medicinsku
statistiku i informatiku
Izbor nivoa značajnosti
• nivo značajnosti (α nivo) -
maksimalno dozvoljena
verovatnoća greške prvog • najčešće:
tipa - odbacivanje tačne
nulte hipoteze α =0.05 i 0.01
• verovatnoća greške prvog
tipa je pod direktnom
kontrolom istraživača

∑ Katedra za medicinsku
statistiku i informatiku
Izbor Test statistike
• bilo koja statistika koja može • tip podataka
biti izračunata iz dostupnih
podataka u uzorku
• iskazi o populacionim
parametrima i
• Služi kao kriterijum za • broj grupa / uzoraka
donošenje odluke (odluka o
odbacivanju ili
• Parametarski testovi
neodbacivanju nulte
hipoteze zavisi od veličine • Neparametarski testovi
izračunate statistike)

∑ Katedra za medicinsku
statistiku i informatiku
Izračunavanje statistike testa

• Izračunavanje vrednosti test statistike iz


dostupnih podataka i poredjenje sa
regionom prihvatanja i odbacivanja koji
su već definisani

∑ Katedra za medicinsku
statistiku i informatiku
Statistički zaključak
• Ključ statističkog • Odluka o tome koje
zaključivanja je vrednosti pripadaju
jednom, a koje drugom
uzoračka raspodela:
regionu, donosi se na
– Vrednosti test statistike koje
imaju manju šansu
osnovu izabranog nivoa
pojavljivanja kada je nulta značajnosti (α)
hipoteza tačna – region
odbacivanja
– Vrednosti test statistike koje
imaju veću šansu pojavljivanja
kada je nulta hipoteza tačna –
region prihvatanja

∑ Katedra za medicinsku
statistiku i informatiku
Statistički zaključak
• Nulta hipoteza se odbacuje • ako je p-vrednost
ako je izračunata vrednost jednaka ili manja od α,
test statistike u regionu odbacujemo nultu
odbacivanja. U suprotnom, hipotezu. Ako je p
ne odbacuje se.
vrednost veća od α, ne
odbacujemo nultu
• poređenje izračunate hipotezu.
(empirijske) statistike testa
i kritične (teorijske) • p-vrednost predstavlja
vrednosti verovatnoću opserviranih,
ili ekstremnijih, razlika
uzoračkih statistika, pod
pretpostavkom važenja
nulte hipoteze

∑ Katedra za medicinsku
statistiku i informatiku
Testiranje hipoteza

0.95

2 2

Kritična Kritična
vrednost vrednost
∑ Katedra za medicinsku
statistiku i informatiku
Greške
• Greška I tipa (α) je verovatnoća odbacivanja tačne
nulte hipoteze
• Greška II tipa (β) – neodbacivanje netačne nulte
hipoteze
Istina (populacija)

Odluka na osnovu Nulta hipoteza tačna Nulta hipoteza


analize uzoračkih netačna
podataka
Prihvatanje nulte 
hipoteze 1-  greška drugog tipa

Odbacivanje nulte 
hipoteze
greška prvog tipa 1- 

∑ Katedra za medicinsku
statistiku i informatiku
Greške u zaključivanju
• Greška prvog tipa – • Verovatnoća greške prvog tipa je pod
direktnom kontrolom istraživača tako
odbacivanje tačne nulte što unapred određuje maksimalno
hipoteze. dozvoljenu verovatnoću greške prvog
tipa - nivo značajnosti (α nivo).
• Greška drugog tipa – • Povećanje uzorka uopšteno smanjuje
neodbacivanje pogrešne verovatnoću oba tipa grešaka.
nulte hipoteze. • Verovatnoća greške drugog tipa se
• Istovremeno se može smanjuje sa povećanjem razlike
aritmetičkih sredina koju treba
napraviti samo jedan tip otkriti.
greške. • Snaga ili moć (1-) statističkog
• Greške prvog i drugog tipa testa je verovatnoća odbacivanja
su zavisne. Smanjenje nulte hipoteze kada je
alternativna hipoteza tačna.
verovatnoće greške prvog
tipa dovodi do povećanja
verovatnoće greške drugog
tipa, i obrnuto.
∑ Katedra za medicinsku
statistiku i informatiku
Parametarski statistički testovi
• Bazirani su na ocenama • Pretpostavljaju
jednog ili više normalnost raspodele u
populacionih parametara osnovnom skupu.
(npr. aritmetička sredina i
standardna devijacija)
dobijenih na osnovu
uzoračkih podataka. • z-test
• Koriste se za testiranje • t-test
hipoteza o populacionim
parametrima (npr. o
jednakosti aritmetičkih
sredina dve populacije
μ1=μ2).

∑ Katedra za medicinsku
statistiku i informatiku
Provera normalnosti raspodele
1. CV>30% ukazuje na odstupanje Grafičke metode:
od normalne raspodele 4. Histogram – vizuelna procena da li je
2. Vrednosti skjunisa i kurtosisa empirijska raspodela slična zvonastoj
od -1 do 1 ukazuju na simetričnoj raspodeli
normalnu raspodelu. 5. Normalni Q–Q grafikon. Ako je
Vrednosti skjunisa i kurtosisa raspodela normalna tačke će biti na
veće od 3 i manje od -3 ukazuju pravoj liniji. Odstupanje tačaka od
na odstupanje od normalne prave linije ukazuje na odstupanje
raspodele. raspodele od normalne.
6. Detrendovan normalni Q–Q grafikon.
Ako je raspodela normalna tačke će biti
3. Statističko testiranje ravnomerno raspoređene iznad i ispod
normalnosti npr. Kolmogorov- horizontalne linije. Ako raspodela nije
Smirnov test, Shapiro-Wilk test normalna raspored tačaka će imati neki
ili D'Agostino-Pearson test. Ako oblik kao npr. slovo J
je p<0.05 u ovim testovima, 7. Grafikon kutije (“boxplot”). Ako postoji
empirijska raspodela statistički nekoliko ekstremnih vrednosti ili
značajno odstupa od normalne neobičnih vrednosti na bilo kom kraju
raspodele raspodele to ukazuje na odstupanje od
normalne raspodele. Ako medijana nije
u centru grafikona kutije već je znatno
bliža jednom od krajeva kutije, to
ukazuje na odstupanje od normalne
raspodele

∑ Katedra za medicinsku
statistiku i informatiku
Oblik empirijske raspodele
• Osnovne informacije o obliku empirijske raspodele se mogu
dobiti iz grafičkih prikaza (histogram, poligon frekvencija,
štapićasti dijagrm, stubičasti dijagram)
• Oblik se obično klasifikuje kao unimodalan, bimodalan ili
multimodalan. Unimodalan oblik može biti simetričan ili
asimetričan (pozitivno ili desno iskošen, negativno ili levo
iskošen).

Unimodalna raspodela Bimodalna raspodela


20 18 20 18 18
17
16
14
15 15 13
12 12 12
11 11 11
Učestalost

Učestalost

10
9 9
10 8 10
7
6 6
5 5
4 4 4 4
5 3 3 5 3 3
2 2 2 2
1 1 1 1 1 1

∑ Katedra za medicinsku
0 0
1

statistiku i informatiku
10

11

12

13

14

15

16

17

18

19

20

10

11

12

13

14

15

16

17

18

19

20
Asimetričan oblik raspodele
Vrednost skjunisa veća od 1 ukazuje na desnu iskošenost, a
vrednost manja od -1 na levu iskošenost

Desna iskošenost Leva iskošenost

∑ Katedra za medicinsku
statistiku i informatiku
“Zašiljenost” / “zaravnjenost” raspodele

• Vrednosti kurtosisa veće od 1 ukazuju na šiljatu raspodelu,


a manje od -1 ukazuju na zaravnjenu raspodelu

Mezokurtična Leptokurtična Platikurtična


“Zašiljena” “Zaravnjena”

∑ Katedra za medicinsku
statistiku i informatiku
Testiranje hipoteza o populacionim
prosečnim vrednostima i proporcijama
• z-test • t-test
• Varijanse osnovnih • Varijanse osnovnih
skupova poznate, ili skupova nepoznate,
• Varijanse osnovnih uzorci mali (n130,
skupova nepoznate, n230)
uzorci veliki (n1>30,
n2>30) • t-statistika
• t-raspodela
• z statistika
• standardna normalna
raspodela
∑ Katedra za medicinsku
statistiku i informatiku
Z-test
• Testiranje značajnosti razlike
uzoračke i populacione
aritmetičke sredine i
proporcije (jedan uzorak)

x  0
z

n
p 0
z

n

∑ Katedra za medicinsku
statistiku i informatiku
Z-test
• Testiranje hipoteza o • Testiranje hipoteza o
populacionim prosečnim populacionim prosečnim
vrednostima i proporcijama vrednostima i proporcijama,
dva nezavisna uzorka zavisni uzorci
x1  x2
z d  d
sd2

sd 2
z
d
1 2
n1 n2
n
p1  p2
z
p1 (1  p1 ) p2 (1  p2 )

n1 n2

∑ Katedra za medicinsku
statistiku i informatiku
Testiranje razlike dve uzoračke proporcije
p1  p2
z p – proporcija
p1 (1  p1 ) p2 (1  p2 )
 posmatranog
n1 n2 događaja

Primer:
Registrovani su neželjeni efekti lekova A i B. U grupi od 107 pacijenta koji su primali lek
A neželjeni efekti su registrovani kod 38. U grupi od 155 pacijenta koji su primali lek B
neželjeni efekti su registrovani kod 73. Da li se lekovi značajno razlikuje prema
učestanosti neželjenih efekata?
38 73
p1   0.355 p2   0.470
107 155
0.355  0.470
z  1.88
0.355(1  0.355) 0.470(1  0.470)

107 155
Kritična vrednost z testa za nivo značajnosti od 0.05 je 1.96. Vrednost 1.88 je manja od
kritične vrednosti pa se ne može odbaciti nulta hipoteza.
Razlika nije statistički značajna (z=1.88, p>0.05) ∑ Katedra za medicinsku
statistiku i informatiku
t-test (Studentov t test)

• Testiranje hipoteze o • pretpostavka za


jednakosti aritmetičkih primenu t-testa je da
sredina (H0: μ1=μ2) podaci potiču iz
• Test je baziran na t populacija sa
raspodeli normalnom
raspodelom, robustan
je na blagu narušenost
ove pretpostavke

∑ Katedra za medicinsku
statistiku i informatiku
t-test

• Testiranje značajnosti razlike uzoračke i


populacione aritmetičke sredine (jedan uzorak)

x  0 x  0
t 
sd x sd
n

broj stepena slobode: DF = n - 1

∑ Katedra za medicinsku
statistiku i informatiku
t-test
• Primer: Aritmetička sredina broja
leukocita 9 bolesnika je x   12.2  9.1
12.2109/L, a standardna t   4.897
devijacija sd=1.9109/L. Očekivalo sdx 0.633
se da će aritmetička sredina biti
9.1109/L. Da li se dobijene
• Kritična vrednost u tablici t
vrednosti razlikuju od očekivanih
raspodele za DF = 8 i nivo
(H0:1=0, H1: 10)? Testirati na
značajnosti 0.05 je 2.306.
nivou značajnosti 0.05.
Statistika testa (4.897) je veća od
kritične vrednosti.
• Zaključak: Odbacuje se nulta
sd 1.9 hipoteza. Vrednosti leukocita su
sdx    0.633 statistički značajno veće od
n 9 očekivanih (t = 4.897, DF = 8, p 
0.05)

∑ Katedra za medicinsku
statistiku i informatiku
t-test
Primer : Aritmetička sredina sistolne arterijske tenzije 10
bolesnika sa akutnim koronarnim sindromom iznosi 139
mmHg, a standardna devijacija sd=11,9 mmHg. Na osnovu
prethodnih istraživanja očekivalo se da će aritmetička
sredina za tu populaciju bolesnika iznositi 145 mmHg. Da li
se može reći da populacija iz koje potiče aktuelni uzorak
ima aritmetičku sredinu jednaku očekivanoj? Testirati na
nivou značajnosti od 0.05.

∑ Katedra za medicinsku
statistiku i informatiku
Zaključak: Dobijena p-vrednost veća je od 0,05
pa zaključujemo da se vrednost aritmetičke
sredine sistolne arterijske tenzije populacije iz
koje potiče uzorak ne razlikuje od očekivanih
vrednosti (t=1,585; DF=9, p=0,147).
∑ Katedra za medicinsku
statistiku i informatiku
t-test

• Testiranje hipoteza o
populacionim
prosečnim vrednostima
dva nezavisna uzorka

x1  x2
t , DF=n1  n2  2
 (n1  1)  sd12  (n2  1)  sd 22  n1  n2 
  
 n1  n2  2 n 
 1 2 n

∑ Katedra za medicinsku
statistiku i informatiku
Primer: Dve grupe ispitanika lečene su različitim tretmanima. Sedimentacija eritrocita
(mm/h) iznosila je:
prva grupa: 15, 17, 20, 14, 19, 17, 18, 19
druga grupa: 16, 14, 17, 15, 18, 17, 16
Da li je značajna razlika prosečnih vrednosti sedimentacije između ove dve grupe?
Testirati na nivou značajnosti 0.05.
x1 x1 2 x2 x2 2

15 225 16 256

17 289 14 196
20 400 17 289

14 196 15 225

19 361 18 324

17 289 17 289

18 324 16 256

19 361

 139 2445 113



1835 Katedra za medicinsku
statistiku i informatiku
x1 
 x 1

139
 17.38 mm/h x2 
 x 2

113
 16.14 mm/h
n1 8 n2 7

sd1 
x 2
 n x2

2445  8  17.382
 2.07
n 1 8 1

sd 2 
 x 2
 n  x 2


1835  7  16.142
 1.35
n 1 7 1
17.38  16.14
t =1.35,
 (8  1)  2.07 2  (7  1)  1.352  1 1 
   
 872  8 7 
DF=8  7  2  13
Kritična vrednost u tabeli t raspodele za DF = 13, nivo značajnosti 0.05 i dvosmerno testiranje je
2.160. Statistika testa (1.35) je manja od kritične vrednosti. Ne odbacuje se nulta hipoteza.
Zaključak: Razlika prosečnih vrednosti sedimentacije eritrocita nije statistički značajna (t=1.35,
DF=13, p>0.05).
∑ Katedra za medicinsku
statistiku i informatiku
Zaključak: Aritmetička sredina i standardna devijacija sedimentacije eritrocita
u Tretmanu A iznosi 17,4±2,1 mm/h, a u Tretmanu B iznosi 16,1±1,3
mm/h. Ne postoji statistički značajna razlika prema sedimentaciji eritrocita
između ispitivanih grupa (t=1.345, DF=13, p=0.201).

∑ Katedra za medicinsku
statistiku i informatiku
t-test

• Testiranje hipoteza o • H0: μd = 0


populacionim • H0: μd  0
prosečnim vrednostima,
zavisni uzorci d
t
• registrovanje vrednosti  d
2

jednog obeležja na istim d  n


2

jedinicama dva ili više n(n  1)


puta
• mečovana kontrolna DF=n – 1,
grupa n - broj parova podataka

∑ Katedra za medicinsku
statistiku i informatiku
Neparametarski statistički testovi
• Ne zahtevaju poznavanje oblika
raspodele u osnovnom skupu i
normalnost raspodele
• Ne zahtevaju homogenost u smislu • Za svaki parametarski test
varijabiliteta postoji najmanje jedan
• Neparametarski testovi mogu biti
primenjeni u svim uslovima u kojima
ekvivalentan
nisu ispunjene pretpostavke za primenu neparametarski test
parametarskih testova. Takođe mogu
biti primenjeni i u uslovima kada jesu
ispunjene pretpostavke za primenu
parametarskih testova, ali tada
prednost treba dati parametarskim
testovima jeru su oni snažniji.

∑ Katedra za medicinsku
statistiku i informatiku
Testiranje hipoteza o učestalostima

• Hi – kvadrat test • broj uzoraka


• nezavisni/zavisni uzorci
• Test tačne verovatnoće
• McNemarov test

∑ Katedra za medicinsku
statistiku i informatiku
Hi-kvadrat test
• najčešće korišćen • apsolutne učestalosti
statistički test (frekvencije)
• procenjuje se • statistika hi-kvadrat
značajnost razlike testa
opaženih (empirijskih) i
( f  f ) 2

očekivanih (teorijskih) 2  
f
učestalosti
• f opažena,
• baziran je na hi-kvadrat
raspodeli • f' očekivana učestalost

∑ Katedra za medicinsku
statistiku i informatiku
Hi-kvadrat test
• Ukoliko je hi-kvadrat • test slaganja
statistika jednaka ili
veća od odgovarajuće • test nezavisnosti ili
granične vrednosti, test homogenosti
odbacujemo nultu
hipotezu i zaključujemo
da je razlika opaženih i
očekivanih učestalosti
statistički značajna.

∑ Katedra za medicinsku
statistiku i informatiku
hi-kvadrat test slaganja
• testiramo hipotezu da li se • uslovi za primenu testa
učestalosti u populaciji, opažene slaganja:
i predstavljene uzorkom, • apsolutne učestalosti
razlikuju od očekivanih • uzorak čine nezavisne
učestalosti opservacije, odnosno svaka
• jedan uzorak, jedna varijabla opservacija može biti samo
jednom pobrojana u
• očekivane učestalosti određene učestalostima
su na osnovu ranijih istraživanja, • u slučaju postojanja samo dve
pretpostavljenog modela kategorije (r=2), nijedna
raspodele posmatrane varijable očekivana frekvencija ne sme biti
ili pretpostavljene na neki drugi manja od 5
način • u slučaju postojanja više od dve
• DF = r – 1, kategorije (r>2), ne sme biti više
od 20% očekivanih učestalosti
r- broj kategorija manjih od 5. Ako nije zadovoljen
ovaj uslov mora se izvršiti
sažimanje susednih kategorija

∑ Katedra za medicinsku
statistiku i informatiku
Primer: Ispitivana je učestalost krvnih grupa u određenoj
populaciji. Na slučajnom uzorku od 140 osoba, nađeno je
da krvnu grupu O ima 55 osoba, krvnu grupu A 59 osoba,
krvnu grupu B 19 osoba i krvnu grupu AB 7 osoba. Na
osnovu ranijih istraživanja poznato je da je relativna
učestalost tih krvnih grupa: O – 44.5%, A – 38.9%, B –
12.1%, AB – 4.5%. Da li se aktuelne učestalosti krvnih grupa
razlikuju od očekivanih? Testirati na nivou značajnosti od
0.05.

∑ Katedra za medicinsku
statistiku i informatiku
Očekivane frekvencije (f') u ovom slučaju dobijamo tako što
totalnu frekvenciju (140) množimo sa očekivanim proporcijama
krvnih grupa.
Radna tabela
( f  f ) 2
krvna grupa f f' f

O 55 140  0.445 = 62.30 (55 – 62.3)2/62.3 = 0.855


A 59 140  0.389 = 54.46 0.378
B 19 140  0.121 = 16.94 0.251
AB 7 140  0.045 = 6.30 0.078
Ukupno 140 140.00 2 = 1.562

DF = 4 – 1 = 3.
Hi-kvadrat statistika (1.56) manja je od granične vrednosti (7.82) za DF = 3 i nivo značajnosti
0.05, pa nema osnova za odbacivanje nulte hipoteze. Zaključak: učestalost krvnih grupa u našem
istraživanju ne razlikuje se statistički značajno od očekivanih na osnovu prethodnih istraživanja
(χ2= 1.562, DF = 3, p > 0.05).
∑ Katedra za medicinsku
statistiku i informatiku
Hi-kvadrat test za r x k tabele
• testiranje hipoteza kada • Zavisno od cilja
su podaci organizovani istraživanja i načina
u vidu tabela biranja uzorka, analizom
kontingencije tabela kontingencije
• tabela kontingencije je možemo testirati
složena kombinovana 1. nezavisnost dve
tabela u kojoj raspodela varijable ili
zavisi od dve varijable 2. homogenost dve
populacije

∑ Katedra za medicinsku
statistiku i informatiku
Hi-kvadrat test nezavisnosti
• ispitujemo da li u tabeli • Nultom hipotezom tvrdimo
kontingencije raspodela da su varijable nezavisne,
po jednoj varijabli odnosno da raspodela po
jednoj varijabli ne zavisi od
uslovno zavisi od
raspodele po drugoj
raspodele po drugoj varijabli.
varijabli • U slučaju da nultu hipotezu
odbacimo, zaključujemo da
varijable nisu nezavisne,
odnosno da između njih
postoji povezanost
(asocijacija, korelacija).

∑ Katedra za medicinsku
statistiku i informatiku
Primer. Cilj u studiji preseka bio je ispitivanje odnosa konzumiranja alkohola i
patološkog nalaza na jetri. Formiran je slučajan uzorak, veličine 118 ispitanika, iz
opšte populacije odraslih osoba. Rezultati su prikazani u tabeli kontingencije:

Patološki nalaz na jetri

+ –
Svega

+ 10 16 26
Konzumiranje
alkohola
– 13 79 92

Ukupno 23 95 118

U ovom istraživanju biran je samo jedan uzorak sa unapred predviđenom veličinom, pa je u tabeli
kontingencije pod kontrolom bila samo totalna učestalost (118). Istraživač nije imao pod kontrolom
marginalne učestalosti, jer pre istraživanja nije znao koliko će u uzorku biti konzumenata alkohola, niti
koliko će biti osoba sa patološkim nalazom na jetri. Analizom ovakve tabele kontingencije istraživač
može doći do zaključka o tome da li su ove dve varijable povezane na neki način, na primer da li postoji
tendencija da oni koji konzumirju alkohol češće imaju patološki nalaz na jetri.

∑ Katedra za medicinsku
statistiku i informatiku
Hi-kvadrat test homogenosti
• Ispitujemo da li se dve ili • Istraživač kontroliše
više populacija razlikuju marginalne učestalosti, koje
prema proporciji događaja odgovaraju veličini uzorka iz
od interesa. svake od populacija, pa
• Nultom hipotezom tvrdimo samim tim i totalnu
da su proporcije u učestalost.
populacijama jednake.
• U slučaju da nultu hipotezu
odbacimo, zaključujemo da
populacije nisu homogene
prema proporciji događaja
od interesa.

∑ Katedra za medicinsku
statistiku i informatiku
Primer . Cilj u studiji slučaj-kontrola bio je ispitivanje konzimranja alkohola kao faktora rizika za
patološke promene na jetri. Iz populacije osoba sa patološkim promenama na jetri formiran je
slučajan uzorak veličine 60, a iz populacije uslovno zdravih slučajan uzorak veličine 104. Kod svih
ispitanika zabeležen je anamnestički podataka o konzumiranju alkohola. Rezultati su prikazani u
tabeli kontingencije:

Patološki nalaz na
jetri
+ – Svega
Konzumiranje + 31 36 67
alkohola – 29 68 97
Ukupno 60 104 164

U ovom istraživanju birana su dva uzorka, što znači da su u tabeli kontingencije pod kontrolom istraživača
bile marginalne učestalosti koje odgovaraju uzorku osoba sa patološkim promenama (60) i uslovno zdravih
(104), a samim tim pod kontrolom je bila i tolalna učestalost (164). Analizom ovakve tabele kontingencije
istraživač može uporediti proporcije konzumenata alkohola u ispitivanim populacijama. Ukoliko nađe da
populacije nisu homogene, na primer da je proporcija konzumenata alkohola veća u populaciji osoba sa
patološkim promenama, može doneti zaključak da je konzumiranje alkohola faktor rizika za nastanak
patoloških promena na jetri.

∑ Katedra za medicinsku
statistiku i informatiku
Testiranje nezavisnosti i homogenosti
hi-kvadrat testom

• očekivane učestalosti za tabelu kontingencije 2 x 2
očekivane učestalosti izračunavaju se
izračunavaju se pomoću formula:
množenjem f'a = (a + b) x (a + c) / N
f'b = (a + b) x (b + d) / N
odgovarajućih f'c = (c + d) x (a + c) / N
marginalnih učestalosti i f'd = (c + d) x (b + d) / N
deljenjem sa totalnom • N je totalna učestalost u tabeli
kontingencije
učestalošću
( f  f ) 2
a b a+b 2  
c d c+d f
a+c b+d N
• broj stepena slobode DF = (r–1)(k–1)

∑ Katedra za medicinsku
statistiku i informatiku
Uslovi za primenu hi kvadrat testa su:

• Za tabelu 2 x 2: • Za tabelu veću od 2 x 2:


• Kada je N > 40 test se • nijedna očekivana
može upotrebiti ako su učestalost ne sme biti
sve očekivane manja od 1, i ne sme biti
frekvencije  1 više od 20% očekivanih
• Kada je N od 20 do 40 učestalosti manjih od 5.
test se može upotrebiti Ako nije zadovoljen ovaj
ako su sve očekivane uslov mora se izvršiti
frekvencije  5 sažimanje susednih
• Kada je N < 20 test se ne kategorija
može upotrebiti

∑ Katedra za medicinsku
statistiku i informatiku
Cilj u istraživanju bio je ocena povezanosti pušenja i oboljevanja od akutnih
respiratornih infekcija u toku zime. Nađeno je: od 85 nepušača obolela je 21 (25%)
osoba, od 73 pušača sa popušenih do 20 cigareta dnevno obolelo je 28 (38%) osoba, od
68 pušača sa popušenih preko 20 cigareta dnevno obolela je 31 (46%) osoba. Da li je
pušenje povezano sa oboljevanjem od akutnih respiratornih infekcija? Testirati na nivou
znašajnosti od 0.05.

Tabela opaženih učestalosti

Akutna respiratorna
infekcija

+ – Svega
0 21 64 85
Pušenje
do 20 28 45 73
(cigareta/d)
preko 20 31 37 68

Ukupno 80 148 226

∑ Katedra za medicinsku
statistiku i informatiku
Polje tabele f f (f - f )2/ f

a 21 30.09 2.75
64
b 54.91 1.50
28
c 25.84 0.18
45
d 47.16 0.10
31
e 24.07 1.99
39
f 43.93 1.09

χ2 = 7.62

DF = (3 – 1) x (2 – 1) = 2
Dobijena hi-kvadrat statistika (7.65) veća je od granične vrednosti (5.99) za DF = 2
i nivo značajnosti od 0.05. Oboljevanje od akutnih respiratornih infekcija u toku
zime je statistički značajno povezano sa pušenjem (hi-kvadrat = 7.65, DF = 2, p ≤
0.05).

∑ Katedra za medicinsku
statistiku i informatiku
Radi se o istom istraživanju, ali ovog puta sa manjim učestalostima zbog
čega će biti izvršeno sažimanje susednih kategorija.
Opažene učestalosti prikazane su u tabeli:

Akutna respiratorna
infekcija
+ – Svega
0 3 17 20
Pušenje
do 20 6 8 14
(cigareta/d)
preko 20 5 4 9
Ukupno 14 29 43

∑ Katedra za medicinsku
statistiku i informatiku
U tabeli tri ćelije imaju očekivane učestalosti manje od 5. To su učestalosti 4.56,
2.93 i 6.07. Zbog toga što je broj tih ćelija veći od 20% (2 / 6 = 33,3%) moramo
izvršiti sažimanje susednih kategorija. Sabraćemo redove sa pušačima. Tako
umesto tabele 3 x 2 dobijamo tabelu kontingencije dimenzija 2 x 2:

Akutna respiratorna
infekcija
+ – Svega
Nepušači 3 17 20
Pušenje
Pušači 11 12 23
Ukupno 14 29 43

Iz ove tabele izračunavanjem dobijamo hi-kvadrat statistiku od 5.25, koja je veća


od granične vrednosti (3.84) za DF = 1 i nivo značajnosti od 0.05. Oboljevanje od
akutnih respiratornih infekcija u toku zime je statistički značajno povezano sa
pušenjem (hi-kvadrat = 5.25, DF = 1, p ≤ 0.05).

∑ Katedra za medicinsku
statistiku i informatiku
Fisherov test tačne verovatnoće
• alternativa hi-kvadrat testu za • Za tabelu kontingencije 2  2:
tabele r  k, može se koristiti
uvek, bez obzira na učestalosti u a b a+b
tabelama kontingencije, pa i u
slučajevima kada se ne može c d c+d
koristiti hi-kvadrat test zbog malih a+c b+d N
učestalosti
• procedura testa zahteva
izračunavanje verovatnoće verovatnoća datih učestalosti iznosi:
aktuelno opserviranih učestalosti
u tabeli kontingencije, ali i svih
drugih mogućih učestalosti uz (a  b)!(c  d )!(a  c)!(b  d )!
P
uslov da marginalne učestalosti N!a!b!c!d!
ostanu nepromenjene

∑ Katedra za medicinsku
statistiku i informatiku
Primer. Cilj u studiji bio je ispitivanje konzumranja alkohola kao faktora rizika za
arterijsku hipertenziju. Iz populacije osoba sa arterijskom hipertenzijom formiran je
slučajan uzorak veličine 5, a iz populacije uslovno zdravih slučajan uzorak veličine 6.
Kod svih ispitanika zabeležen je anamnestički podatak o konzumiranju alkohola.
Rezultati su prikazani u tabeli kontingencije:

Arterijska hipertenzija

+ –
Svega
+ 4 3 7
Konzumiranje
alkohola
– 1 3 4

Ukupno 5 6 11

∑ Katedra za medicinsku
statistiku i informatiku
Testirati hipotezu o jednakosti populacija sa i bez arterijske hipertenzije prema
proporciji konzumenata alkohola.

Zbog malih učestalosti nije adekvatno primeniti hi-kvadrat test. Tačna verovatnoća
aktuelno opserviranih podataka iznosi:

7!4!5!6!
P  0.303
11!4!3!1!3!
Dobijena verovatnoća nije jednaka ili manja od 0.05, tako da ne odbacujemo
nultu hipotezu. Zaključak: Osobe sa i bez arterijske hipertenzije ne razlikuju se
statistički značajno prema proporciji osoba koje konzumiraju alkohol (p > 0.05).

∑ Katedra za medicinsku
statistiku i informatiku
McNemarov test
• primenjuje se za ocenu Drugi uzorak
(ili druga
značajnosti razlike opservacija)
učestalosti dihotomnih + –
podataka Prvi uzorak + a b a+b
(ili prva –
c d c+d
• vezani uzorci opservacija)
• iste jedinice opservirane dva a+c b+d N
ili više puta ili
• individualno mečovane Statistika testa :

 
jedinice dva uzorka

2
b c
• podatke za McNemarov test 2 
treba organizovati u vidu bc
tabele 2x2: sledi hi-kvadrat raspodelu za 1 stepen
slobode
∑Katedra za medicinsku
statistiku i informatiku
Primer. U istraživanju, sa ciljem ocene delovanja leka na
simptom vrtoglavice, bilo je uključeno 210 ispitanika. Pre
davanja leka vrtoglavicu je imalo 65 ispitanika. Posle
davanja leka vrtoglavicu je imalo 43 ispitanika, od kojih je
36 vrtoglavicu imalo i pre terapije. Da li se posle davanja
leka promenila učestalost vrtoglavice?

∑ Katedra za medicinsku
statistiku i informatiku
Posle davanja leka
+ –
+ 36 29 65
Pre davanja
leka – 7 138 145
43 167 210

 229  7 
2
 13.44
29  7
Donošenje odluke o nultoj hipotezi: hi-kvadrat statistika 13.44 veća je od graniče
tablične vrednosti 3.84 (za DF = 1 i nivo značajnosti 0.05), pa odbacujemo nultu
hipotezu.
Zaključak: Učestalost vrtoglavice pre davanja leka iznosila je 31.0%, a posle
davanja leka 20.5%. Učestalost vrtoglavice je statički značajno manja posle
davanja leka (hi-kvadrat = 13.44, p  0.05).
∑ Katedra za medicinsku
statistiku i informatiku
Testiranje hipoteza o rangovima

• Test sume rangova • nezavisni/zavisni


uzorci
• Test ekvivalentnih parova

∑ Katedra za medicinsku
statistiku i informatiku
Test sume rangova (Mann-Whitney test,
Wilcoxon-Mann-Whitney test)

• testiranje nulte hipoteze • koristi se umesto


o jednakosti raspodela Studentovog t-testa za
ili jednakosti medijana dva nezavisna uzorka
dve populacije kada nisu ispunjeni
• ordinalni ili numerički uslovi za primenu tog
podaci, ili rangirani testa (raspodela
podaci numeričkih podataka
nije normalna, ili se radi
o ordinalnim ili
rangiranim podacima)

∑ Katedra za medicinsku
statistiku i informatiku
Mann-Whitney test (Test sume
rangova)
• U testu se, umesto originalnih • Dve populacije se razlikuju
podataka, koriste rangovi statistčki značajno prema
• Rangirati opservacije zajedno za raspodelama ili medijanama
obe grupe ako je statistika testa
• Rangiranje može biti obavljeno jednaka ili manja od
od najmanje do najveće teorijske vrednosti
vrednosti ili obrnuto
• Statistika testa je manja suma
rangova manjeg uzorka
– Za uzorak se mogu
izračunati dve sume rangova
R i R’. Dovoljno je za
manji uzorak izračunati R,
a R’ se izračunava po  Rm  nm n  1   Rm
formuli:

∑ Katedra za medicinsku
statistiku i informatiku
Primer. Ispitivan je odnos nadmorske visine prebivališta i koncentracije
fibrinogena. Podaci o koncentraciji fibrinogena (g/L) dati su za ispitanike sa
stalnim prebivalištem na nadmorskoj visini do 200 m, i preko 700 m. Ispitati
da li se osobe sa različitim nadmorskim visinama prebivališta razlikuju prema
koncentraciji fibrinogena.

∑ Katedra za medicinsku
statistiku i informatiku
Statistika testa (48.5) veća je od granične vrednosti (38) za nivo značajnosti od
0.05 i veličine uzoraka 7 i 8, pa ne odbacujemo nultu hipotezu.
Zaključak: Osobe sa prebivalištem ispod 200 m i iznad 700 m nadmorske visine
ne razlikuju se statistički značajno prema koncentraciji fibrinogena (p > 0.05).

∑ Katedra za medicinsku
statistiku i informatiku
Wilcoxonov test ekvivalentnih parova
Postupak
• Formiranje parova podataka :
• Dizajn: zavisni uzorci • U dizajnu pre-posle, par podataka se
• Koristi se umesto odnosi na iste statističke jedinice, ali
opservirane u dva različita vremena
Studentovog t-testa za • U dizajnu mečovanih ispitanika, par
zavisne uzorke kada nisu podataka se odnosi na dva mečovana
ispitanika
ispunjeni uslovi za primenu • Izračunavanje razlike vrednosti podataka
tog testa za svaki par
• Najmanje ordinalna skala • Objedinjeno rangiranje poretka razlika,
nezavisno od toga koji predznak ta razlika
merenja ili rangirani podaci ima, razlike koje su jednake nuli se ne
rangiraju
• testira se nulta hipoteza da • Sabiranje rangova posebno za pozitivne i
vezani uzorci predstavljaju negativne razlike
istu populaciju • Statistika testa je manja od dve sume
rangova: sume rangova pozitivnih i sume
rangova negativnih razlika

∑ Katedra za medicinsku
statistiku i informatiku
Primer. Date su vrednosti Lp(a) pre početka terapije i mesec dana posle tretmana u
kojem su pacijenti osim antiaritmika dobijali i antilipemike. Cilj istraživača bio je da
ispitaju da li dolazi do promene vrednosti Lp(a) posle davanja antilipemika.
Redni Lp(a) pre Lp(a) posle Razlika (d) Rang
broj terapije terapije razlike (Rd)
(mg/dL) (mg/dL)
1 20 8 12 6
2 36 9 27 9
3 13 30 -17 7.5
4 16 10 6 3
5 23 6 17 7.5
6 10 9 1 1
7 17 15 2 2
8 50 15 35 10
9 13 13 0
10 17 7 10 5
11 16 7 9 4
Suma rangova pozitivnih razlika 47.5
Suma rangova negativnih razlika 7.5

Statistika testa (7.5) manja je od granične vrednosti (8) za nivo značajnosti od 0.05 i
broj rangiranih parova n=10.
Zaključak: Vrednosti Lp(a) posle terapije statistički značajno su niže u odnosu na
vrednosti pre terapije (p ≤ 0.05).

Katedra za medicinsku
statistiku i informatiku
Izbor statističkog testa
Tip podataka

Broj uzoraka Kontinuirani sa Kontinuirani bez Kategorijalni


normalnom normalne
raspodelom raspodele ili
ordinalni
2 nezavisna t test za Mann-Whitney Hi-kvadrat test
uzorka nezavisne test
uzorke
2 zavisna (vezana) t test za zavisne Wilcoxonov test McNemarov test
uzorka uzorke

>2 nezavisna ANOVA Kruskal-Wallis Hi-kvadrat test


uzorka test
>2 zavisna ANOVA Friedmanov test Cochranov test
(vezana) uzorka ponovljenih
merenja ∑ Katedra za medicinsku
statistiku i informatiku

You might also like