You are on page 1of 32

Statističko zaključivanje -

testiranje hipoteza

∑ Katedra za medicinsku
statistiku i informatiku
Statističko zaključivanje
• Ideja moderne statistike 1. Kako da korišćenjem
je da na osnovu uzorka podataka iz uzorka
(dobijenog ocenimo vrednost
populacionog
uzorkovanjem iz parametra? i
osnovnog skupa)
donosimo zaključke o 2. Kako da korišćenjem
populaciji (statističko uzoračkih statistika
zaključivanje). testiramo (proverimo)
iskaz o populaciji
(populacionim
parametrima)?

∑ Katedra za medicinsku
statistiku i informatiku
Testiranje hipoteza / osnovni pojmovi i
procedura
Statistička hipoteza je • Testiranje hipoteza je
iskaz ili pretpostavka o standardni statistički
populaciji. metod kojim se ispituje
• Primeri hipoteza: Iskustvo neki iskaz / tvrdnja /
govori da je verovatnoća da pretpostavka o
je pod određenim uslovima populaciji.
broj novorođenih devojčica i
dečaka isti; Lekari tvrde da
prosečna telesna
temperatura zdravih osoba
nije 37%C; …

∑ Katedra za medicinsku
statistiku i informatiku
Koraci
1. Hipoteze
2. Izbor nivoa značajnosti
3. Izbor test statistike
4. Izračunavanje statistike testa
5. Statistički zaključak

∑ Katedra za medicinsku
statistiku i informatiku
Hipoteze
Nulta hipoteza ili hipoteza Alternativna hipoteza –
koja se ovim procesom iskaz o onome što
testira (Ho) - hipoteza o istraživač veruje da je
nepostojanju razlike tačno u slučaju da su
uzorački podaci doveli
do odbacivanja nulte
hipoteze (H1)
• H0: 1= 2
• Jednosmerna (>, <)
• H1: 1  2 • Dvosmerna ()

∑ Katedra za medicinsku
statistiku i informatiku
Izbor nivoa značajnosti
• nivo značajnosti (α nivo) -
maksimalno dozvoljena
verovatnoća greške prvog • najčešće:
tipa - odbacivanje tačne
nulte hipoteze α =0.05 i 0.01
• verovatnoća greške prvog
tipa je pod direktnom
kontrolom istraživača

∑ Katedra za medicinsku
statistiku i informatiku
Izbor Test statistike
• bilo koja statistika koja može • tip podataka
biti izračunata iz dostupnih
podataka u uzorku
• iskazi o populacionim
parametrima i
• Služi kao kriterijum za • broj grupa / uzoraka
donošenje odluke (odluka o
odbacivanju ili
• Parametarski testovi
neodbacivanju nulte
hipoteze zavisi od veličine • Neparametarski testovi
izračunate statistike)

∑ Katedra za medicinsku
statistiku i informatiku
Izračunavanje statistike testa

• Izračunavanje vrednosti test statistike iz


dostupnih podataka i poredjenje sa
regionom prihvatanja i odbacivanja koji
su već definisani

∑ Katedra za medicinsku
statistiku i informatiku
Statistički zaključak
• Ključ statističkog • Odluka o tome koje
zaključivanja je vrednosti pripadaju
jednom, a koje drugom
uzoračka raspodela:
regionu, donosi se na
– Vrednosti test statistike koje
imaju manju šansu
osnovu izabranog nivoa
pojavljivanja kada je nulta značajnosti (α)
hipoteza tačna – region
odbacivanja
– Vrednosti test statistike koje
imaju veću šansu pojavljivanja
kada je nulta hipoteza tačna –
region prihvatanja

∑ Katedra za medicinsku
statistiku i informatiku
Statistički zaključak
• Nulta hipoteza se odbacuje • ako je p-vrednost
ako je izračunata vrednost jednaka ili manja od α,
test statistike u regionu odbacujemo nultu
odbacivanja. U suprotnom, hipotezu. Ako je p
ne odbacuje se.
vrednost veća od α, ne
odbacujemo nultu
• poređenje izračunate hipotezu.
(empirijske) statistike testa
i kritične (teorijske) • p-vrednost predstavlja
vrednosti verovatnoću opserviranih,
ili ekstremnijih, razlika
uzoračkih statistika, pod
pretpostavkom važenja
nulte hipoteze

∑ Katedra za medicinsku
statistiku i informatiku
Testiranje hipoteza

0.95

2 2

Kritična Kritična
vrednost vrednost
∑ Katedra za medicinsku
statistiku i informatiku
Greške
• Greška I tipa (α) je verovatnoća odbacivanja tačne
nulte hipoteze
• Greška II tipa (β) – neodbacivanje netačne nulte
hipoteze
Istina (populacija)

Odluka na osnovu Nulta hipoteza tačna Nulta hipoteza


analize uzoračkih netačna
podataka
Prihvatanje nulte 
hipoteze 1-  greška drugog tipa

Odbacivanje nulte 
hipoteze
greška prvog tipa 1- 

∑ Katedra za medicinsku
statistiku i informatiku
Greške u zaključivanju
• Greška prvog tipa – • Verovatnoća greške prvog tipa je pod
direktnom kontrolom istraživača tako
odbacivanje tačne nulte što unapred određuje maksimalno
hipoteze. dozvoljenu verovatnoću greške prvog
tipa - nivo značajnosti (α nivo).
• Greška drugog tipa – • Povećanje uzorka uopšteno smanjuje
neodbacivanje pogrešne verovatnoću oba tipa grešaka.
nulte hipoteze. • Verovatnoća greške drugog tipa se
• Istovremeno se može smanjuje sa povećanjem razlike
aritmetičkih sredina koju treba
napraviti samo jedan tip otkriti.
greške. • Snaga ili moć (1-) statističkog
• Greške prvog i drugog tipa testa je verovatnoća odbacivanja
su zavisne. Smanjenje nulte hipoteze kada je
alternativna hipoteza tačna.
verovatnoće greške prvog
tipa dovodi do povećanja
verovatnoće greške drugog
tipa, i obrnuto.
∑ Katedra za medicinsku
statistiku i informatiku
Parametarski statistički testovi
• Bazirani su na ocenama • Pretpostavljaju
jednog ili više normalnost raspodele u
populacionih parametara osnovnom skupu.
(npr. aritmetička sredina i
standardna devijacija)
dobijenih na osnovu
uzoračkih podataka. • z-test
• Koriste se za testiranje • t-test
hipoteza o populacionim
parametrima (npr. o
jednakosti aritmetičkih
sredina dve populacije
μ1=μ2).

∑ Katedra za medicinsku
statistiku i informatiku
Provera normalnosti raspodele
1. CV>30% ukazuje na odstupanje Grafičke metode:
od normalne raspodele 4. Histogram – vizuelna procena da li je
2. Vrednosti skjunisa i kurtosisa empirijska raspodela slična zvonastoj
od -1 do 1 ukazuju na simetričnoj raspodeli
normalnu raspodelu. 5. Normalni Q–Q grafikon. Ako je
Vrednosti skjunisa i kurtosisa raspodela normalna tačke će biti na
veće od 3 i manje od -3 ukazuju pravoj liniji. Odstupanje tačaka od
na odstupanje od normalne prave linije ukazuje na odstupanje
raspodele. raspodele od normalne.
6. Detrendovan normalni Q–Q grafikon.
Ako je raspodela normalna tačke će biti
3. Statističko testiranje ravnomerno raspoređene iznad i ispod
normalnosti npr. Kolmogorov- horizontalne linije. Ako raspodela nije
Smirnov test, Shapiro-Wilk test normalna raspored tačaka će imati neki
ili D'Agostino-Pearson test. Ako oblik kao npr. slovo J
je p<0.05 u ovim testovima, 7. Grafikon kutije (“boxplot”). Ako postoji
empirijska raspodela statistički nekoliko ekstremnih vrednosti ili
značajno odstupa od normalne neobičnih vrednosti na bilo kom kraju
raspodele raspodele to ukazuje na odstupanje od
normalne raspodele. Ako medijana nije
u centru grafikona kutije već je znatno
bliža jednom od krajeva kutije, to
ukazuje na odstupanje od normalne
raspodele

∑ Katedra za medicinsku
statistiku i informatiku
Oblik empirijske raspodele
• Osnovne informacije o obliku empirijske raspodele se mogu
dobiti iz grafičkih prikaza (histogram, poligon frekvencija,
štapićasti dijagrm, stubičasti dijagram)
• Oblik se obično klasifikuje kao unimodalan, bimodalan ili
multimodalan. Unimodalan oblik može biti simetričan ili
asimetričan (pozitivno ili desno iskošen, negativno ili levo
iskošen).

Unimodalna raspodela Bimodalna raspodela


20 18 20 18 18
17
16
14
15 15 13
12 12 12
11 11 11
Učestalost

Učestalost

10
9 9
10 8 10
7
6 6
5 5
4 4 4 4
5 3 3 5 3 3
2 2 2 2
1 1 1 1 1 1

∑ Katedra za medicinsku
0 0

statistiku i informatiku
1

9
10

11

12

13

14

15

16

17

18

19

20

10

11

12

13

14

15

16

17

18

19

20
Asimetričan oblik raspodele
Vrednost skjunisa veća od 1 ukazuje na desnu iskošenost, a
vrednost manja od -1 na levu iskošenost

Desna iskošenost Leva iskošenost

∑ Katedra za medicinsku
statistiku i informatiku
“Zašiljenost” / “zaravnjenost” raspodele

• Vrednosti kurtosisa veće od 1 ukazuju na šiljatu raspodelu,


a manje od -1 ukazuju na zaravnjenu raspodelu

Mezokurtična Leptokurtična Platikurtična


“Zašiljena” “Zaravnjena”

∑ Katedra za medicinsku
statistiku i informatiku
Testiranje hipoteza o populacionim
prosečnim vrednostima i proporcijama
• z-test • t-test
• Varijanse osnovnih • Varijanse osnovnih
skupova poznate, ili skupova nepoznate,
• Varijanse osnovnih uzorci mali (n130,
skupova nepoznate, n230)
uzorci veliki (n1>30,
n2>30) • t-statistika
• t-raspodela
• z statistika
• standardna normalna
raspodela
∑ Katedra za medicinsku
statistiku i informatiku
Z-test
• Testiranje značajnosti razlike
uzoračke i populacione
aritmetičke sredine i
proporcije (jedan uzorak)

x  0
z

n
p 0
z

n

∑ Katedra za medicinsku
statistiku i informatiku
Z-test
• Testiranje hipoteza o • Testiranje hipoteza o
populacionim prosečnim populacionim prosečnim
vrednostima i proporcijama vrednostima i proporcijama,
dva nezavisna uzorka zavisni uzorci
x1  x2
z d  d
sd2

sd 2
z
d
1 2
n1 n2
n
p1  p2
z
p1 (1  p1 ) p2 (1  p2 )

n1 n2

∑ Katedra za medicinsku
statistiku i informatiku
Testiranje razlike dve uzoračke proporcije
p1  p2
z p – proporcija
p1 (1  p1 ) p2 (1  p2 )
 posmatranog
n1 n2 događaja

Primer:
Registrovani su neželjeni efekti lekova A i B. U grupi od 107 pacijenta koji su primali lek
A neželjeni efekti su registrovani kod 38. U grupi od 155 pacijenta koji su primali lek B
neželjeni efekti su registrovani kod 73. Da li se lekovi značajno razlikuje prema
učestanosti neželjenih efekata?
38 73
p1   0.355 p2   0.470
107 155
0.355  0.470
z  1.88
0.355(1  0.355) 0.470(1  0.470)

107 155
Kritična vrednost z testa za nivo značajnosti od 0.05 je 1.96. Vrednost 1.88 je manja od
kritične vrednosti pa se ne može odbaciti nulta hipoteza.
Razlika nije statistički značajna (z=1.88, p>0.05) ∑ Katedra za medicinsku
statistiku i informatiku
t-test (Studentov t test)

• Testiranje hipoteze o • pretpostavka za


jednakosti aritmetičkih primenu t-testa je da
sredina (H0: μ1=μ2) podaci potiču iz
• Test je baziran na t populacija sa
raspodeli normalnom
raspodelom, robustan
je na blagu narušenost
ove pretpostavke

∑ Katedra za medicinsku
statistiku i informatiku
t-test

• Testiranje značajnosti razlike uzoračke i


populacione aritmetičke sredine (jedan uzorak)

x  0 x  0
t 
sd x sd
n

broj stepena slobode: DF = n - 1

∑ Katedra za medicinsku
statistiku i informatiku
t-test
• Primer: Aritmetička sredina broja
leukocita 9 bolesnika je x   12.2  9.1
12.2109/L, a standardna t   4.897
devijacija sd=1.9109/L. Očekivalo sdx 0.633
se da će aritmetička sredina biti
9.1109/L. Da li se dobijene
• Kritična vrednost u tablici t
vrednosti razlikuju od očekivanih
raspodele za DF = 8 i nivo
(H0:1=0, H1: 10)? Testirati na
značajnosti 0.05 je 2.306.
nivou značajnosti 0.05.
Statistika testa (4.897) je veća od
kritične vrednosti.
• Zaključak: Odbacuje se nulta
sd 1.9 hipoteza. Vrednosti leukocita su
sdx    0.633 statistički značajno veće od
n 9 očekivanih (t = 4.897, DF = 8, p 
0.05)

∑ Katedra za medicinsku
statistiku i informatiku
t-test
Primer : Aritmetička sredina sistolne arterijske tenzije 10
bolesnika sa akutnim koronarnim sindromom iznosi 139
mmHg, a standardna devijacija sd=11,9 mmHg. Na osnovu
prethodnih istraživanja očekivalo se da će aritmetička
sredina za tu populaciju bolesnika iznositi 145 mmHg. Da li
se može reći da populacija iz koje potiče aktuelni uzorak
ima aritmetičku sredinu jednaku očekivanoj? Testirati na
nivou značajnosti od 0.05.

∑ Katedra za medicinsku
statistiku i informatiku
Zaključak: Dobijena p-vrednost veća je od 0,05
pa zaključujemo da se vrednost aritmetičke
sredine sistolne arterijske tenzije populacije iz
koje potiče uzorak ne razlikuje od očekivanih
vrednosti (t=1,585; DF=9, p=0,147).
∑ Katedra za medicinsku
statistiku i informatiku
t-test

• Testiranje hipoteza o
populacionim
prosečnim vrednostima
dva nezavisna uzorka

x1  x2
t , DF=n1  n2  2
 (n1  1)  sd12  (n2  1)  sd 22  n1  n2 
  
 n1  n2  2 n 
 1 2 n

∑ Katedra za medicinsku
statistiku i informatiku
Primer: Dve grupe ispitanika lečene su različitim tretmanima. Sedimentacija eritrocita
(mm/h) iznosila je:
prva grupa: 15, 17, 20, 14, 19, 17, 18, 19
druga grupa: 16, 14, 17, 15, 18, 17, 16
Da li je značajna razlika prosečnih vrednosti sedimentacije između ove dve grupe?
Testirati na nivou značajnosti 0.05.
x1 x12 x2 x22
15 225 16 256

17 289 14 196

20 400 17 289

14 196 15 225

19 361 18 324

17 289 17 289

18 324 16 256
19 361

 139 2445 113



1835 Katedra za medicinsku
statistiku i informatiku
x1 
 x 1

139
 17.38 mm/h x2 
 x 2

113
 16.14 mm/h
n1 8 n2 7

sd1 
x 2
 n x2

2445  8  17.382
 2.07
n 1 8 1

sd2 
 x 2
 n  x 2


1835  7  16.142
 1.35
n 1 7 1
17.38  16.14
t =1.35,
 (8  1)  2.07 2  (7  1)  1.352  1 1 
   
 872  8 7 
DF=8  7  2  13
Kritična vrednost u tabeli t raspodele za DF = 13, nivo značajnosti 0.05 i dvosmerno testiranje je
2.160. Statistika testa (1.35) je manja od kritične vrednosti. Ne odbacuje se nulta hipoteza.
Zaključak: Razlika prosečnih vrednosti sedimentacije eritrocita nije statistički značajna (t=1.35,
DF=13, p>0.05).
∑ Katedra za medicinsku
statistiku i informatiku
Zaključak: Aritmetička sredina i standardna devijacija sedimentacije eritrocita
u Tretmanu A iznosi 17,4±2,1 mm/h, a u Tretmanu B iznosi 16,1±1,3
mm/h. Ne postoji statistički značajna razlika prema sedimentaciji eritrocita
između ispitivanih grupa (t=1.345, DF=13, p=0.201).

∑ Katedra za medicinsku
statistiku i informatiku
t-test

• Testiranje hipoteza o • H0: μd = 0


populacionim • H0: μd  0
prosečnim vrednostima,
zavisni uzorci d
t
• registrovanje vrednosti  d
2

jednog obeležja na istim d  n


2

jedinicama dva ili više n(n  1)


puta
• mečovana kontrolna DF=n – 1,
grupa n - broj parova podataka

∑ Katedra za medicinsku
statistiku i informatiku

You might also like