Professional Documents
Culture Documents
Seminarski Rad: Utvrđivanje Nivoa Koji Utiče Na Obeležje
Seminarski Rad: Utvrđivanje Nivoa Koji Utiče Na Obeležje
Seminarski rad
Utvrivanje nivoa koji utie na obeleje
Profesor: Student:
Vesna Jevremovi Jelena Perii 1070/12
U Beogradu, jun 2013
1
Sadraj
Uvod ........................................................................................................................................................ 2
Jednofaktorska disperziona analiza (One way ANOVA) .......................................................................... 3
Viestruka poreenja i odreivanje nivoa koji utie na obeleje ............................................................ 6
Fierov test najmanjih odstupanja i Bonferonijev t-test ...................................................................... 6
Dankanov test ...................................................................................................................................... 8
Zakljuak ................................................................................................................................................ 11
Literatura ............................................................................................................................................... 12
2
Uvod
Disperziona analiza (ANOVA), pored regresije, je najee koriena analiza u praksi
od svih ostalih statistikih analiza. Obimno se koristi u raznim oblastima gde se vre
istraivanja, kao to su psihologija, biologija, medicina, obrazovanje, ekonomija, ali i u
inenjerstvu i trgovini. Jedan od razloga uestalog korienja disperzione analize je
podesnost za razliita istraivanja. Takoe, ne postoje ogranienja za broj grupa, tj. nivoa kao
i faktora koje posmatramo u istraivanju. Tvorac disperzione analize je Ronald A. Fisher
1
, koji
ju je opisao (1924. godine) da bi potkrepio istraivanja koje je vrio iz biologije. Pokazao je
da mogue porediti srednje vrednosti obeleja, bez obzira na broj uslova koji utiu na te
vrednosti, ne poveavajui greku prvog reda. Ubrzo nakon toga su naunici (Snedecor i dr.)
prepoznali njegov doprinos statistici i F-raspodela je dobila naziv po Fieru (1934. godine). U
narednom periodu, disperzionu analizu su unapredili i koristili mnoge grupe istraivaa i
naunika u razliitim oblastima.
Osnovni cilj korienja disperzione analize je utvrivanje da li se srednje vrednoosti u
grupama znaajno razlikuju ili ne, dakle testira se hipoteza da su srednje vrednosti meu
grupama jednake. Meutim, ukoliko odbacimo hultu hipotezu, tj. dobijemo da se grupe
znaajno razlikuju, ovakvim ispitivanjem ne znamo da li se srednje vrednosti sve razlikuju ili
samo jedna odstupa od svih ostalih. Takvu dodatnu informaciju moemo dobiti viestrukim
poreenjima tj. uvoenjem novog statistikog testa. Tema ovog rada e se bazirati na takvim
dodatnim istraivanjima, nakon utvrivanja da se grupe zanajno razlikuju. Testovi koji se
koriste kod takvih istraivanja su Dankanov viestruki test rangova, Fierov test najmanjih
odstupanja (LSD), Bonferonijev t-test, Njuman-Keulova metoda, Turkijev test rangova,
Roderova metoda, efeova metoda, Danetov test, Student-Njumanov-Keulov post hoc
ANOVA Neke od njih emo prostudirati i primeniti na primerima.
1
Ronald A. Fisher (17 Februar 1890 29 Jul 1962) bio je engleski naunik koji se ineresovao i dao doprinos u
statistici, biologiji i genetici.
3
Jednofaktorska disperziona analiza (One way ANOVA)
Osnovni cilj jednofaktorske disperzione analize je ispitivanje da li neki faktor utie na
posmatrano obeleje. Jednofaktorska disperziona analiza se zasniva na poreenju srednjih
vrednosti dve ili vie grupa uz pomo test statistike koja ima Fierovu raspodele. Faktor moe
imati razliita stanja ili nivoe (eng. levels), prema kojima delimo populaciju u grupe
(podpopulacije). Faktor je, u sutini, nezavisna veliina ije se vrednosti kontroliu i
postavljaju od strane onoga ko vri eksperiment. Pretpostavke u jednofaktorskoj
disperzionoj analizi su da je svaka podpopulacija normalno raspodeljena, i sve podpopulacije
imaju istu disperziju. Jednakost disperzija znai da pretpostavljamo da je zanemarljiv uticaj
svih ostalih faktora na posmatrano obeleje. Meu takvim grupama testiramo hipotezu da li
se srednje vrednosti znaajno razlikuju. Model u jednofaktorskoj disperzionoj analizi je
oblika:
gde Y
ij
predstavlja j-ti element u i-toj grupi,
i
je srednja vrednost i-te grupe, dok je
ij
sluajno odstupanje od
i
. Pretpostavlja se da su
ij
nezavisne sluajne veliine sa
raspodelom (0,
2
). Ukoliko
i
predstavimo u obliku gde je srednja vrednost za celu
populaciju, a efekat za i-tu grupu, dobijamo model:
Takodje se pretpostavlja da se bira tako da:
Ovo je model sa fiksnim efektima. Ako se k nivoa podpopulacije biraju nasumino, jednaina
modela ostaje ista, ali su sada -jevi sluajne veliine za koje se smatra da su nezavisne i
normalno raspodeljene sa oekivanjem nula i disperzijom . Ovakav model je model sa
promenljivim efektima. Broj posmatranja u svakoj grupi moe biti jednak ili razliit te stoga
razlikujemo izbalansiran i neizbalansiran model.
U disperzionoj analizi, disperzija odgovarajuih merenja se deli na komponente koje
odgovaraju razliitim izvorima disperzije. Cilj u ovoj proceduri je da se totalna disperzija
uzorka podeli na disperziju greke i disperziju promene vrednosti nezavisnih veliina.
Disperzija uzorka obima n data je sa:
4
Brojilac u gore navedenoj formuli totalna suma kvadrata odstupanja, koji emo obeleiti sa
se u jednofaktorskoj disperzionoj analizi deli na dva dela od kojih prvi predstavlja zbir
kvadrata odstupanja meu nivoima, dok je drugi deo zbir kvadrata greke.
Algebarski, to se oznaava na sledei nain:
gde k predstavlja broj posmatranih grupa.
Osobine statistika i koje se mogu dokazati,ako je nulta hipoteza H
0
tana,su:
Statistike
ima
raspodelu
Statistika
ima
raspodelu
Statistika
ima Fierovu
raspodelu
Prilikom obrade podataka (reavanje zadataka), tj. raunanja gore navedenih veliina,
formiraemo tabelu:
Izvor odstupanja Disperzija Stepeni slobode Meurezultat Test statistika
Faktor A
Greka
Ukupno
Primer1
Vreno je ispitivanje kakav uticaj na memoriju ima razvijenost mozga u smislu koja je
hemisfera mozga jaa, te tako razlikujemo ljude kojima je leva hemisfera jaa (Grupa 1),
desna hemisfera jaa (Grupa 2) i na one kojima su obe strane podjednako razvijene (Grupa
3). U eskperimentu su ljudima davali podatke tabelarno u vezi sa brojem lekara koji radi u
razliitim dravama SAD-a, koje su trebali da reprodukuju. Broj opservacija je 24.
5
Grupa 1 35 32 38 29 36 31 33 35
Grupa 2 17 20 25 15 10 12 8 16
Grupa 3 28 30 31 25 26 24 24 27
Tabela 1
Na dijagramu rasprenosti (Dijagram 1) vidimo podatke za sve tri grupe:
Dijagram 1
Dijagram 1 sugerie da su rezultati druge grupe nii u odnosu na rezultate druge dve grupe,
kao i to da su odstupanja u drugoj grupi najvea. Srednje vrednosti grupa su:
1
=33.625;
2
=15.375;
3
=26.875. Srednja vrednost celog uzorka je = 25.29167.
Formiramo tabelu 2:
1362.333
320.625
1682.958
Koristimo test statistiku:
Iz Fierove rasodela sa 2 i 21 stepeni slobode za prag znaajnosti =0.05 dobijamo kritinu
vrednost: 3.467. Kako test statistika premauje kritinu vrednost, odbacujemo nultu
hipotezu da su srednje vrednosti jednake.
0
5
10
15
20
25
30
35
40
0 1 2 3 4
Grupa 1
Grupa 2
Grupa 3
6
Viestruka poreenja i odreivanje nivoa koji utie na obeleje
Jednofaktorska disperziona analiza nam samo moe pokazati da li su srednje
vrednosti svih grupa jednake, ili da postoje znaajne razlike izmeu srednjih vrednosti. Ono
to ovakva analiza ne moe da odredi jeste koje grupe se znaajno razlikuju, a koje ne. U
ovom odeljku, obrazloiemo razliite metode za testiranje hipoteze koja poredi srednje
vrednosti u parovima. Ovakvi testovi su poznati pod nazivom testovi viestrukih poreenja.
Fierov test najmanjih odstupanja
2
i Bonferonijev t-test
Pretpostavimo da smo u jednofaktorskoj disperzionoj analizi odbacili nultu hipotezu o
jednakim srednjim vrednostima, i da elimo da ustanovimo konkretne razlike izmeu
srednjih vrednosti grupa. U osnovi ovaj test predstavlja niz pojedinanih t-testova. Jedina
razlika t-testa i Fierovog LSD testa je u tome to t-test uzima vrednost uzorake disperzije iz
dve grupe koje poredimo, dok ovaj test objedinjuje uzoraku disperziju iz svih grupa. Dakle,
treba testirati (
) hipoteza oblika:
gde je test statistika za t-test:
S
p
2
predstavlja uzoraku disperziju u uzorku koju ine dve grupe, kod kojih poredimo srednje
vrednosti. Umesto takve disperzije koristiemo disperziju za ceo uzorak S
2
, tj. ukljuiemo i
ostale grupe.
Dakle, koristimo sledeu test statistiku:
2
Eng. Fishers least significant difference (LSD)
7
Ova test statistika ima Studentovu t raspodelu sa stepeni slobode, i odbacujemo H
0
ako je vrednost test statistike ili previe velika ili previe mala (poredimo sa kritinom
vrednou za dati prag znaajnosti). Najvei problem kod ovakvog viestrukog poreenja je
to imamo vie testiranja hipoteza, to se nivo greke prve vrste poveava. Tj. ukoliko
testiramo nultu hipotezu
puta sa nivoom znaajnosti , ukupna greka prve
vrste e iznositi
.
Da bismo izbegli ovakvu greku, primeniemo Bonferonijev t-test. Ideja je vrlo
jednostavna: prlilikom svih testiranja hipoteze, uzeemo prag znaajnosti
,
gde je
disperzija nad podacima sve tri grupe. Radi testiranja ovih hipoteza sa
0,0167 nivoom znaajnosti, uporeujemo test statistike sa
kvantilom iz
Studentove
raspodele. Kritina vrednost je 2,6 koju prelaze sve tri test statistike (ne
upadaju u (-2.6,2.6) interval). Odavde zakljuujemo da se sve tri grupe znaajno razlikuju.
8
Dankanov test
Dankanov viestruki test rangova
3
ili Dankanov test je procedura u kojoj se vre
viestruka poreenja koju je osmislio David B. Dankan
4
1955. godine i opisao u asopisu
Biometrics. Kao to je ve gore pomenuto ovaj test pripada grupi post-hoc testova, tj. ispituje koja
od grupa se znaajno razlikuje od ostalih. Koristi se za utvrivanje koji nivoi faktora vie utiu na
posmatrano obeleje, bez obzira da li je F statistika upala u kritinu oblast ili ne u poetnoj analizi
disperzije. Razlikuje se od Njuman-Keulovog test, koji mu je pretea, u tome to ne zahteva
prethodnu analizu disperzije. Takoe, ima prednosti u odnosu na Bonferonijevu metodu zato to se
moe ostvariti sa manje od (
Gde je n obim uzorka,
Formiramo parove uzorakih sredina tako da formiraju nerastui niz i raunamo razlike uzorakih
sredina.
3
Eng. Duncans multiple range test (MRT)
4
David B. Duncan, statistiar
5
U prilogu tablica za =0.05
9
Sada raunamo najkrai znaajan raspon, po gore navedenoj formuli, za svaku uoenu podgrupu
uzorakih sredina. Stepen slobode za
je 21.
Za
=>
.
Kako je
=>
.
Kako je
=>
.
Kako je
Formiramo parove uzorakih sredina tako da formiraju nerastui niz i raunamo razlike uzorakih
sredina.
Sada raunamo najkrai znaajan raspon, po gore navedenoj formuli, za svaku uoenu podgrupu
uzorakih sredina. Stepen slobode za
je 36.
0
5
10
15
20
25
30
35
0 1 2 3 4 5
Grupa 1
Grupa 2
Grupa 3
Grupa 4
11
Za
=>
Kako je