Professional Documents
Culture Documents
eksperimenta
Analiza varijanse
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Statistiko zakljuivanje
1) Ocenjivanje populacionih parametara
(intervali poverenja)
2) Testiranje hipoteza - deo statistikog
zakljuivanja koji koristi uzorake
podatke za evaluaciju istinitosti hipoteza
o populaciji.
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Kvantitativno Rangovi, skorovi
Cilj (iz Gausovski ili kvantitativno Kategorijalni Binomni
istraivanja raspodeljene (iz kontinuirano ali ne (dva mogua ishoda)
populacije) Gausovski raspodeljene
populacije)
Aritmetika sredina, Medijana, Proporcija,
Opisivanje SD interkvartilni opseg binomna varijansa
jedne grupe ili
opisivanje
razlika meu Takaste i intervalne Takaste i intervalne Takaste i intervalne
grupama
ocene ocene ocene
Poreenje dva z ili t-test za dva Man-Vitnijev test ili Fierov test ili
nezavisna
uzorka nezavisna uzorka Test sume rangova hi-kvadrat test
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Primer 1
p U istraivanju psiholokih faktora kod ena
u trudnoi kao instrument istraivanja
korien je MMPI (Minesota Multiphasic
Personality Inventory). On se sastoji od
550 iskaza a ispitanica odgovara sa istina
ili neistina (na primer: volela sam svoju
majku, esto sanjam,...).
p Posle poroaja ene su klasifikovane u dve
kategorije normalan poroaj ili
prevremeni poroaj.
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Primer 1 (nastavak)
p Za svako od 550 pitanja formirana je
tablica kontingencije 2x2 u kojoj se
ukrtaju odgovori na svako pojedinano
pitanje i kategorije - normalan ili
prevremen poroaj.
p Izraunato je 550 hi-kvadrat testova sa
odgovarajuim korekcijama a ajtemi kod
kojih je dostignuta statistika znaajnost
na 5% nivou predstavljali su onda
personalne diskriminatore meu grupama
ena. Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Primer 1 (nastavak)
p Problem je u tome to kada imamo vie
testiranja na istoj jedinici posmatranja, a
svaki od pojedinanih testova ima
petoprocentni nivo, obino se pogreno i
za sve njih zajedno podrazumeva taj isti
nivo znaajnosti.
p Da je svih 550 testiranih nultih hipoteza
stvarno tano tada samo zbog sluajnosti
istraiva treba da oekuje da 550 x 0.05
= 28 ajtema pokae statistiku
znaajnost. Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Primer 1 (nastavak)
p Znai, ne bi trebalo da bude iznenaenje
ako pronae 28 ajtema znaajnih na 5%
nivou znaajnosti.
p Ako nae vie od 28 on e zasigurno biti
ubeen da stvarno postoje razlike u
grupama ena. Naravno, bie nemogue
rei koje su od tih razlika prave, a koje
samo odslikavaju oekivanih 28
znaajnosti zbog ponovljene primene testa
na istim ispitanicama.
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Primer 2
p Kada se testira znaajnost skupa gena u razliitim
grupama neki od njih mogu biti lano oznaeni
kao statistiki znaajni.
p Ako se 10,000 gena testira u pogledu razliitosti
njihove eksperesije meu grupama, sa nivoom
znaajnosti od 0.05, tada je oekivani broj gena
koji e biti oznaen kao znaajan samo zbog
sluajnosti (ak i onda kada nema stvarne razlike
u eksperesiji) 500: 10,000 x 0.05 = 500 gena
p Verovatni broj lano pozitivnih = (# gena) (p)
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Primer 3
p Ispitivana je efikasnost 5 doza jednog leka na
istom tipu eksperimentalnih ivotinja (u svakoj
grupi po 6 ivotinja) ili
p Ispitivano je 5 razliitih lekova na istom tipu
eksperimentalnih ivotinja (u svakoj grupi po 6
eksperimentalnih ivotinja)
p Ako je izabrani nivo znaajnosti za svaki od njih
bio 0.05 ukupna znaajnost na nivou celog
eksperimenta ne bi bila 95%, kako bi to neko
mogao pomisliti, nego svega 60%.
p Suprotno, verovatnoa odbacivanja bar jedne
nulte hipoteze, kada je ona tana, bila bi 0.4.
Statistika za istraivae
SAS i DS 2008/2009 Katedra za medicinsku statistiku i informatiku
Kako reiti ovaj problem?
p Problem koji se javlja je nerazumevanje i
nepoznavanje zajednikog (ukupnog)
nivoa znaajnosti (ZNZ) tj. verovatnoe
odbacivanja bar jedne, tane, nulte
hipoteze (Ho) u sluaju viestrukih
testova.
p Intuitivno je jasno da, to se vie
statistikih testova u ovakvoj situaciji
uradi, verovatnije je da e se doneti
pogrean zakljuak (u smislu odbacivanja
Ho koja je tana). Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
ZNZ
pZNZ= 1 - (1 - )k
p gde
je nivo znaajnosti (obino 0.05 ili
0.01), a k je broj testova.
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
ZNZ
Broj Broj
potrebnih
grupa testova 00.5 0.01
2 1 0.05 0.01
3 3 0.14 0.03
4 6 0.26 0.06
5 10 0.40 0.10
10 45 0.90 0.36
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Drugi razlog: Studentov t-test
p 3 grupe podataka: A, B i C 3 t-testa
mogui zakljuci
n A:B A znaajno razliito od B (p < 0,05)
n A:C A sluajno razliito od C (p > 0,05)
n B:C B sluajno razliito od C (p > 0,05)
Statistika za istraivae
2011/2012 Katedra za medicinsku statistiku i informatiku
Kako reiti ovaj problem?
(nastavak)
p Potrebna je neka druga, nova, statistika
metoda.
p Za ovakve istraivake situacije metod
izbora je
p Analiza varijanse (analiza varijansnog
kolinika, ANOVA - ANalysis Of
VAriance).
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Analiza varijanse
Istorijski primer
http://
digital.library.adelaide.edu.au/
dspace/bitstream/
2440/15179/1/32.pdf
Dizajn Fierovog eksperimenta
p Ishod eksperimenta prinos krompira po jedinici
povrine
p Eksperiment br. 1: Vie vrsta krompira (5) zasaeno
na zemljitima iste kvalitete, veliine, isto obraivani
Jedan istraivaki faktor sa 5 nivoa
p Eksperiment br. 2: Vie vrsta krompira (5) zasaeno
na zemljitima iste kvalitete, veliine (prvobitna
parcele podeljena na nekoliko parcela iste povrine),
ali obraivani na nekoliko razliitih naina (uz
dodatak razliitih ubriva / 4) Dva istraivaka
faktora sa ukupno 5+4+20 nivoa
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Dizajn Fierovog eksperimenta (2)
p Eksperiment br. 3: Vie vrsta krompira (5)
zasaeno na zemljitima iste kvalitete,
veliine (prvobitna parcele podeljena na
nekoliko parcela iste povrine), ali
obraivani na nekoliko razliitih naina (uz
dodatak razliitih ubriva / 4 i razliitu
koliinu vode / 3) Tri istraivaka
faktora sa ukupno 5 +4 +3 +20 +15
+12 + ... nivoa
p ...
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Dizajn Fierovog eksperimenta (3)
p Vie grupa u faktoru (jedna nezavisna
varijabla sa vie nivoa/gradacija/
tretmana/kategorija) ili
p Vie faktora (vie nezavisnih varijabli) ili
p Oba (vie nezavisnih varijabli sa vie
nivoa/gradacija/tretmana/kategorija)
p Ishod eksperimenta samo jedna varijabla
(rezultujua, ishodna, zavisna varijabla)
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
ANOVA
Dizajn eksperimenta
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Ishod eksperimenta
p Rezultujua varijabla je elementarna
koliina ili svojstvo eksperimentalnih
jedinica koje se izuava kao rezultat
uticaja organizovanih faktora u datom
eksperimentu i neorganizovanih u tom
istom istraivanju. Rezultujua varijabla
moe biti merena bilo kojom skalom
merenja (nominalna, ordinalna,
intervalna, omerna).
p Moe ih biti i vie (MANOVA, van okvira
ovog kursa) Statistika za istraivae
SAS i DS 2008/2009 Katedra za medicinsku statistiku i informatiku
Faktori
p Faktor je svaki uticaj, dejstvo, stanje ili
promena koja se na neki nain odraava na
rezultujue obeleje (ishodnu varijablu).
p Faktori se dele na:
n 1) organizovane (koji se ovom analizom mogu
identifikovati i kvantitativno diskriminisati) i
n 2) sluajne, rezidualne, neorganizovane i
unutareksperimentalne (koji se mogu samo
opisati u ukupnom delovanju, ali ne i razlagati).
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Gradacije faktora
p Gradacije (nivoi) faktora predstavljaju, u
logikom smislu, sistem delovanja faktora
zajedno sa odgovarajuim stepenom ili
pripadnitvo kategorijama izuavanja (pol,
starost, kolska sprema, na primer).
p U mnogim sluajevima postoji i tzv. nulta
gradacija, tj. ona, koja opisuje kontrolnu grupu
na koju, po prirodi stvari, faktor ne deluje.
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Nain izbora gradacija
istraivakog faktora
p Model fiksiranih efekata - u istraivanje
ukljueni samo specifini (odreeni) nivoi
faktora
p Model sluajnih efekata - kada su nivoi
sluajno izabrani (od svih moguih
razliitih nivoa)
Statistika za istraivae
SAS i DS 2008/2009 Katedra za medicinsku statistiku i informatiku
Planiranje eksperimenta
p Planiranje eksperimenta je odreivanje specifine
kombinacije nivoa faktora za svaku eksperimentalnu
jedinicu.
p Planiranje eksperimenta definie strukturu jednog
eksperimenta i sastoji se iz:
n a) skupa tretmana ukljuenih u studiju;
n b) skupa eksperimentalnih jedinica ukljuenih u studiju;
n c) pravila i procedura po kojima se tretmani dodeljuju
eksperimentalnim jedinicama (ili obrnuto)
n d) merenja koja se obavljaju na eksperimentalnim
jedinicama posle primene tretmana.
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Planiranje eksperimenta (2)
p Uterminologiji eksperimentalnog dizajna
govori se i o jedno, dvo, ili viesmernim
(viestrukim) klasifikacijama to zavisi od
toga da li je u eksperimentu postojao
samo jedan princip za klasifikaciju, tj.
jedan razlog za podelu podataka u
nekoliko nizova podataka, dve posebne
osnove za klasifikaciju ili vie njih
istovremeno.
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Planiranje eksperimenta (3)
p Uobiajeno je da se prisustvo dejstva,
koje je istraiva izabrao, naziva
faktorom (tretmanom), a prisustvo
kriterijuma za organizovanje
eksperimentalnih jedinica, koje je takoe
istraiva izabrao, klasifikacijom
(nezavisni uzorci, blokovi, ponovljena
merenja).
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Eksperimentalni dizajn / plan, vrste
p Potpuno randomizovani faktorijalni plan
n eksperimentalne jedinice su sluajno birane i
randomizovano se dodeljuju tretmanima
p Randomizovani blok dizajn
n jedinice se dele u blokove i uparuju se jedinice
u razliitim uzorcima
p Dizajn ponovljenih merenja
n jedinice se vie puta mere
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Randomizovani potpuni
faktorijalni eksperiment
Faktor (sa gradacijama,
Subjekt kategorijama ili uslovima)
A B C
1 Subjekt 1 pod
uslovom A Svaki red predstavlja jednog
subjekta kome je
2 Subjekt 2 pod randomizovano dodeljena
uslovom B
jedna od gradacija
3 Subjekt 3 pod istraivakog faktora
uslovom C
itd.
A B C
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Dizajn ponovljenih merenja
Faktor (sa gradacijama,
Subjekt kategorijama ili uslovima)
A B C
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Eksperimentalni dizajni / Istraivaki planovi
Skala Randomizovani
merenja Faktorijalni eksperiment potpuni blok Dizajn ponovljenih
(samo jedne) dizajn merenja
rezultujue
varijable 1 faktor i 1 1 faktor i 1
1 faktor 2 i vie faktora kriterijum kriterijum
klasifikacije klasifikacije
Jednofaktorska
Dvofaktorska i Dvosmerna ANOVA ANOVA sa
Omerna / Jednofaktorska viefaktorske (ili jednofaktorska ponovljenim
Intervalna ANOVA ANOVE ANOVA sa merenjima (ili
blokovima) dvosmerna
ANOVA)
Fierov varijansni
kolinik za
proporcije
Nominalna Loglinearni Kohrejnov Q test Kohrejnov Q test
modeli*
2 test za
uestalosti /
proporcije
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Eksperimentalni dizajn / plan, vrste (2)
p Ravnomeran ili neravnomeran
p Planiran (kontrolisan) ili neplaniran
(nedovoljno kontrolisan ili nekontrolisan)
p Kompletan ili nekompletan
p Proporcionalan ili neproporcionalan
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
ANOVA
Osnove metode
x3
x
x2
x1
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Sluajni varijablitet
x3
x2
x1
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Ukupan varijablitet
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Opti model analize varijanse
p U
optem modelu analize varijanse
odnos variranja uobiajeno se predstavlja
sledeim zapisom:
Y=X+Z
tj.
Ukupno variranje (Y) = variranje iji je
izvor u organizovanom delu eksperimenta
(X) + variranje iji je izvor u
neorganizovanom delu eksperimenta (Z)
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
ta je ANOVA?
p Analiza
varijanse (ANOVA) je statistika
metoda zakljuivanja zasnovana na
generalnim linearnim modelima, koja
ukupan varijabilitet skupa podataka deli
na bar dve komponente (faktorsku-
organizovanu i rezidualnu-sluajnu).
Statistika za istraivae
SAS i DS 2008/2009 Katedra za medicinsku statistiku i informatiku
A kako merimo variranje,
varijabilitet, varijaciju?
p Disperzijama C - sume kvadrata odstupanja podataka od
njihovih aritmetikih sredina
p Faktorska disperzija (Cx ) - mera variranja meu
grupama a sastoji se iz odreivanja kvadrata odstupanja
aritmetike sredine grupe od zajednike aritmetike sredine
pomnoeno sa veliinom grupe
p Rezidualna disperzija (Cz) - mera variranja unutar svake
grupe a raunamo zbir kvadrata odstupanja pojedinanih
opservacija od aritmetike sredine te grupe, a zatim
saberemo sva takva odstupanja za sve grupe
p Opta disperzija (Cy) ukupno variranje je zbir kvadrata
odstupanja svakog podatka od aritmetike sredine svih
podataka u analizi
Statistika za istraivae
SAS i DS 2008/2009 Katedra za medicinsku statistiku i informatiku
SD
F =x2=
=
A kako merimo variranje,
varijabilitet, varijaciju? (2)
p Varijansama (SD2 = C / broj stepena
slobode je ocena populacione varijanse 2)
Cx Cz
SDx2= SDz =
2
k 1 N k
Statistika za istraivae
SAS i DS 2008/2009 Katedra za medicinsku statistiku i informatiku
A koje su pretpostavke za
primenu
p opservacije predstavljaju sluajan uzorak, tj. izbor
eksperimentalnih jedinica je sluajan
p opservacije su nezavisne, tj. prisutna je randomizacija (sluajno
dodeljivanje gradacije ili nivoa faktora eksperimentalnoj jedinici)
p homogenost varijansi, populacione varijanse za svaku grupu su
jednake, tj. varijabilnost merenja za svaku gradaciju faktora
trebalo bi da je slina, ako ve nije jednaka (12= 22==k2)
p vrednosti rezultujueg obeleja (zavisne varijable) normalno su
rasporeene u svakoj grupi tj. za svaki nivo ili gradaciju faktora
(nezavisne varijable). Pri tome rezultujua varijabla moe biti
merena u okviru ISJ, ali se moe prihvatiti i merenje izvedenim,
semikvantitativnim jedinicama ili numeriki kodiranim
modalitetima.
p A ta ako neki uslovi nisu ispunjeni?
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
A koje hipoteze testira?
p H 0 : 1 = 2 = ...
=k
p H 1: sve j nisu
jednake.
Preklapanje krivih kada su im
prosene vrednosti i varijanse jednake
Kao i u t-testu
odnos pravimo
izmeu...
razliitosti
F=
slinosti
Fierov varijansni kolinik
2
razliitost SDx
F= =
slinost 2
SDz
F-raspodela
0.95 0.05
2.7 F4;30
R e g i o n R e g i o n
prihvatanja odbacivanja
F >1
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
F =1
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Tablica sheme rezultata analize varijanse
Broj
Izvor
Disperzija stepena Varijansa F
variranja
slobode
Izmeu
Cx dfx = k-1 sdx2
grupa
Unutar
Cz dfz = n-k sdz2
grupa
Cx = SDx2=
Izmeu grupa DFx = 4 F = 29.83
156.0955 39.0239
Cy =
Opti DFy = 39
201.8814
Statistika za istraivae
SAS i DS 2008/2009 Katedra za medicinsku statistiku i informatiku
Statistika odluka:
p Poreenjem izraunate vrednosti statistike
F od 29.83 i granine vrednosti statistike F
iz tablica F-raspodele: F4;30;0.05 = 2.69 <
Fempirijski = 29.83 zakljuujemo da nultu
hipotezu moemo odbaciti.
p Drugim reima odbacujemo nultu hipotezu
Ho: 1= 2= 3= 4= 5 u korist radne
hipoteze, H1: sve prosene vrednosti j
nisu jednake.
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Viestruka poreenja
p Uvekkada analiza varijanse dovede do
odluke o odbacivanju (neprihvatanju)
nulte hipoteze postavlja se pitanje koji je
par (ili parovi) prosenih vrednosti
znaajno razliit, odnosno, koju od (u
datom primeru 10 moguih) pojedinanih
hipoteza treba odbaciti.
Statistika za istraivae
SAS i DS 2008/2009 Katedra za medicinsku statistiku i informatiku
Fierova NZD procedura
p Najstarija,
a verovatno i najee
koriena, je Fierova NZD procedura
(Najmanja Znaajna Razlika, LSD Least
Significance Difference):
2
( x1 x2 ) n1 n2
F= 2
SDz n1 + n2
pri emu je broj stepena sloboda 1 i N-k, a znaajnost se ita iz
tablica za F-raspodelu.
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Rezultat - Znaajnost viestrukih testova koji
proveravaju pojedinane razike izmeu svake dve
grupe
1-2 NZ 2-3 < 0.01 3-4 < 0.01 4-5 NZ
Statistika za istraivae
SAS i DS 2011/2012 Katedra za medicinsku statistiku i informatiku
Istraivaki zakljuak
p Poto smo odbacili nultu hipotezu
zakljuujemo da koliina osloboenog
insulina zavisi od koncentracije glukoze.
p Ili, razliite koncentracije glukoze utiu
na razliitu koliinu osloboenog insulina.
p Na osnovu poreenja svake dve ispitivane
grupe znamo i vie, naime, da razliku ine
samo tri koncentracije i to: trea
koncentracija, da su prve dve meu
sobom jednakog dejstva, to vai i za
poslednje dve. Statistika za istraivae
Katedra za medicinsku statistiku i informatiku
SAS i DS 2011/2012
Statistika za istraivae
SAS i DS 2008/2009 Katedra za medicinsku statistiku i informatiku