Seminarski Rad: Utvrđivanje Nivoa Koji Utiče Na Obeležje

Matematiki fakultet, Univerziteta u Beogradu
Seminarski rad
Utvrivanje nivoa koji utie na obeleje
Profesor: Student:
Vesna Jevremovi Jelena Perii 1070/12

U Beogradu, jun 2013
1

Sadraj

Uvod ........................................................................................................................................................ 2
Jednofaktorska disperziona analiza (One way ANOVA) .......................................................................... 3
Viestruka poreenja i odreivanje nivoa koji utie na obeleje ............................................................ 6
Fierov test najmanjih odstupanja i Bonferonijev t-test ...................................................................... 6
Dankanov test ...................................................................................................................................... 8
Zakljuak ................................................................................................................................................ 11
Literatura ............................................................................................................................................... 12

2

Uvod

Disperziona analiza (ANOVA), pored regresije, je najee koriena analiza u praksi
od svih ostalih statistikih analiza. Obimno se koristi u raznim oblastima gde se vre
istraivanja, kao to su psihologija, biologija, medicina, obrazovanje, ekonomija, ali i u
inenjerstvu i trgovini. Jedan od razloga uestalog korienja disperzione analize je
podesnost za razliita istraivanja. Takoe, ne postoje ogranienja za broj grupa, tj. nivoa kao
i faktora koje posmatramo u istraivanju. Tvorac disperzione analize je Ronald A. Fisher
1
, koji
ju je opisao (1924. godine) da bi potkrepio istraivanja koje je vrio iz biologije. Pokazao je
da mogue porediti srednje vrednosti obeleja, bez obzira na broj uslova koji utiu na te
vrednosti, ne poveavajui greku prvog reda. Ubrzo nakon toga su naunici (Snedecor i dr.)
prepoznali njegov doprinos statistici i F-raspodela je dobila naziv po Fieru (1934. godine). U
narednom periodu, disperzionu analizu su unapredili i koristili mnoge grupe istraivaa i
naunika u razliitim oblastima.
Osnovni cilj korienja disperzione analize je utvrivanje da li se srednje vrednoosti u
grupama znaajno razlikuju ili ne, dakle testira se hipoteza da su srednje vrednosti meu
grupama jednake. Meutim, ukoliko odbacimo hultu hipotezu, tj. dobijemo da se grupe
znaajno razlikuju, ovakvim ispitivanjem ne znamo da li se srednje vrednosti sve razlikuju ili
samo jedna odstupa od svih ostalih. Takvu dodatnu informaciju moemo dobiti viestrukim
poreenjima tj. uvoenjem novog statistikog testa. Tema ovog rada e se bazirati na takvim
dodatnim istraivanjima, nakon utvrivanja da se grupe zanajno razlikuju. Testovi koji se
koriste kod takvih istraivanja su Dankanov viestruki test rangova, Fierov test najmanjih
odstupanja (LSD), Bonferonijev t-test, Njuman-Keulova metoda, Turkijev test rangova,
Roderova metoda, efeova metoda, Danetov test, Student-Njumanov-Keulov post hoc
ANOVA Neke od njih emo prostudirati i primeniti na primerima.

1
Ronald A. Fisher (17 Februar 1890 29 Jul 1962) bio je engleski naunik koji se ineresovao i dao doprinos u
statistici, biologiji i genetici.
3

Jednofaktorska disperziona analiza (One way ANOVA)

Osnovni cilj jednofaktorske disperzione analize je ispitivanje da li neki faktor utie na
posmatrano obeleje. Jednofaktorska disperziona analiza se zasniva na poreenju srednjih
vrednosti dve ili vie grupa uz pomo test statistike koja ima Fierovu raspodele. Faktor moe
imati razliita stanja ili nivoe (eng. levels), prema kojima delimo populaciju u grupe
(podpopulacije). Faktor je, u sutini, nezavisna veliina ije se vrednosti kontroliu i
postavljaju od strane onoga ko vri eksperiment. Pretpostavke u jednofaktorskoj
disperzionoj analizi su da je svaka podpopulacija normalno raspodeljena, i sve podpopulacije
imaju istu disperziju. Jednakost disperzija znai da pretpostavljamo da je zanemarljiv uticaj
svih ostalih faktora na posmatrano obeleje. Meu takvim grupama testiramo hipotezu da li
se srednje vrednosti znaajno razlikuju. Model u jednofaktorskoj disperzionoj analizi je
oblika:

gde Y
ij
predstavlja j-ti element u i-toj grupi,
i
je srednja vrednost i-te grupe, dok je
ij

sluajno odstupanje od
i
. Pretpostavlja se da su
ij
nezavisne sluajne veliine sa
raspodelom (0,
2
). Ukoliko
i
predstavimo u obliku gde je srednja vrednost za celu
populaciju, a efekat za i-tu grupu, dobijamo model:

Takodje se pretpostavlja da se bira tako da:

Ovo je model sa fiksnim efektima. Ako se k nivoa podpopulacije biraju nasumino, jednaina
modela ostaje ista, ali su sada -jevi sluajne veliine za koje se smatra da su nezavisne i
normalno raspodeljene sa oekivanjem nula i disperzijom . Ovakav model je model sa
promenljivim efektima. Broj posmatranja u svakoj grupi moe biti jednak ili razliit te stoga
razlikujemo izbalansiran i neizbalansiran model.
U disperzionoj analizi, disperzija odgovarajuih merenja se deli na komponente koje
odgovaraju razliitim izvorima disperzije. Cilj u ovoj proceduri je da se totalna disperzija
uzorka podeli na disperziju greke i disperziju promene vrednosti nezavisnih veliina.
Disperzija uzorka obima n data je sa:

4

Brojilac u gore navedenoj formuli totalna suma kvadrata odstupanja, koji emo obeleiti sa
se u jednofaktorskoj disperzionoj analizi deli na dva dela od kojih prvi predstavlja zbir
kvadrata odstupanja meu nivoima, dok je drugi deo zbir kvadrata greke.
Algebarski, to se oznaava na sledei nain:

gde k predstavlja broj posmatranih grupa.
Osobine statistika i koje se mogu dokazati,ako je nulta hipoteza H
0
tana,su:
Statistike
su nezavisne sluajne promenljive

Statistika
ima
raspodelu
Statistika
ima
raspodelu
Statistika
ima Fierovu
raspodelu

Prilikom obrade podataka (reavanje zadataka), tj. raunanja gore navedenih veliina,
formiraemo tabelu:
Izvor odstupanja Disperzija Stepeni slobode Meurezultat Test statistika
Faktor A

Greka

Ukupno

Primer1
Vreno je ispitivanje kakav uticaj na memoriju ima razvijenost mozga u smislu koja je
hemisfera mozga jaa, te tako razlikujemo ljude kojima je leva hemisfera jaa (Grupa 1),
desna hemisfera jaa (Grupa 2) i na one kojima su obe strane podjednako razvijene (Grupa
3). U eskperimentu su ljudima davali podatke tabelarno u vezi sa brojem lekara koji radi u
razliitim dravama SAD-a, koje su trebali da reprodukuju. Broj opservacija je 24.

5

Grupa 1 35 32 38 29 36 31 33 35
Grupa 2 17 20 25 15 10 12 8 16
Grupa 3 28 30 31 25 26 24 24 27
Tabela 1
Na dijagramu rasprenosti (Dijagram 1) vidimo podatke za sve tri grupe:

Dijagram 1
Dijagram 1 sugerie da su rezultati druge grupe nii u odnosu na rezultate druge dve grupe,
kao i to da su odstupanja u drugoj grupi najvea. Srednje vrednosti grupa su:
1
=33.625;
2
=15.375;
3
=26.875. Srednja vrednost celog uzorka je = 25.29167.
Formiramo tabelu 2:

1362.333

320.625

1682.958

Koristimo test statistiku:

Iz Fierove rasodela sa 2 i 21 stepeni slobode za prag znaajnosti =0.05 dobijamo kritinu
vrednost: 3.467. Kako test statistika premauje kritinu vrednost, odbacujemo nultu
hipotezu da su srednje vrednosti jednake.

0
5
10
15
20
25
30
35
40
0 1 2 3 4
Grupa 1
Grupa 2
Grupa 3
6

Viestruka poreenja i odreivanje nivoa koji utie na obeleje

Jednofaktorska disperziona analiza nam samo moe pokazati da li su srednje
vrednosti svih grupa jednake, ili da postoje znaajne razlike izmeu srednjih vrednosti. Ono
to ovakva analiza ne moe da odredi jeste koje grupe se znaajno razlikuju, a koje ne. U
ovom odeljku, obrazloiemo razliite metode za testiranje hipoteze koja poredi srednje
vrednosti u parovima. Ovakvi testovi su poznati pod nazivom testovi viestrukih poreenja.

Fierov test najmanjih odstupanja
2
i Bonferonijev t-test

Pretpostavimo da smo u jednofaktorskoj disperzionoj analizi odbacili nultu hipotezu o
jednakim srednjim vrednostima, i da elimo da ustanovimo konkretne razlike izmeu
srednjih vrednosti grupa. U osnovi ovaj test predstavlja niz pojedinanih t-testova. Jedina
razlika t-testa i Fierovog LSD testa je u tome to t-test uzima vrednost uzorake disperzije iz
dve grupe koje poredimo, dok ovaj test objedinjuje uzoraku disperziju iz svih grupa. Dakle,
treba testirati (
) hipoteza oblika:

gde je test statistika za t-test:

S
p
2
predstavlja uzoraku disperziju u uzorku koju ine dve grupe, kod kojih poredimo srednje
vrednosti. Umesto takve disperzije koristiemo disperziju za ceo uzorak S
2
, tj. ukljuiemo i
ostale grupe.

Dakle, koristimo sledeu test statistiku:

2
Eng. Fishers least significant difference (LSD)
7

Ova test statistika ima Studentovu t raspodelu sa stepeni slobode, i odbacujemo H
0
ako je vrednost test statistike ili previe velika ili previe mala (poredimo sa kritinom
vrednou za dati prag znaajnosti). Najvei problem kod ovakvog viestrukog poreenja je
to imamo vie testiranja hipoteza, to se nivo greke prve vrste poveava. Tj. ukoliko
testiramo nultu hipotezu

puta sa nivoom znaajnosti , ukupna greka prve
vrste e iznositi
.
Da bismo izbegli ovakvu greku, primeniemo Bonferonijev t-test. Ideja je vrlo
jednostavna: prlilikom svih testiranja hipoteze, uzeemo prag znaajnosti
, to e dovesti do ukupnog nivoa znaajnosti . Ovakav pristup testiranja nulte

hipoteze ima manu to imamo vie grupa, to se prag znaajnosti smanjuje, pa moe dovesti
do toga da se kritina oblast toliko smanji da postaje vrlo teko odbaciti nultu hipotezu.
Drugi problem koji se javlja je to u jednofaktorskoj disperzionoj analizi moemo odbaciti
hultu hipotezu o jednakosti srednjih vrednosti, dok u LSD metodi dobijamo da nema
znaajnih razlika meu srednjim vrednostima gledano u parovima.

Primer

Koristei podatke iz prethodnog primera, vidimo da su osobe sa razvijenijom desnom
hemisferom mozga dale loije rezultate od druge dve grupe ispitanika, kao i da trea grupa
ispitanika ima slabije rezultate od prve grupe. Pomou Bonferonijeve metode emo potvrditi
nae sumnje. Kako imamo tri podpopulacije, i poto testiranja vrimo u parovima =>
testiraemo (
) puta nultu hipotezu da su srednje vrednosti jednake pomou t-testa.

elimo da ukupni nivo znaajnosti bude stoga e svaki pojedinaan test imati
nivo znaajnosti. Tri test statistike izraunavamo:

,
gde je
disperzija nad podacima sve tri grupe. Radi testiranja ovih hipoteza sa
0,0167 nivoom znaajnosti, uporeujemo test statistike sa
kvantilom iz
Studentove
raspodele. Kritina vrednost je 2,6 koju prelaze sve tri test statistike (ne
upadaju u (-2.6,2.6) interval). Odavde zakljuujemo da se sve tri grupe znaajno razlikuju.

8

Dankanov test

Dankanov viestruki test rangova
3
ili Dankanov test je procedura u kojoj se vre
viestruka poreenja koju je osmislio David B. Dankan
4
1955. godine i opisao u asopisu
Biometrics. Kao to je ve gore pomenuto ovaj test pripada grupi post-hoc testova, tj. ispituje koja
od grupa se znaajno razlikuje od ostalih. Koristi se za utvrivanje koji nivoi faktora vie utiu na
posmatrano obeleje, bez obzira da li je F statistika upala u kritinu oblast ili ne u poetnoj analizi
disperzije. Razlikuje se od Njuman-Keulovog test, koji mu je pretea, u tome to ne zahteva
prethodnu analizu disperzije. Takoe, ima prednosti u odnosu na Bonferonijevu metodu zato to se
moe ostvariti sa manje od (
) testova. Ima najveu mo testa od svih ostalih post-hoc testova.

Dankanov test pripada grupi testova koji su zasnovani na statistici koja predstavlja razliku najveeg i
najmanjeg elementa uzorka (elementi sa najmanjim i najveim rangom) radi poreenja matematikih
oekivanja.
Postupak testiranja je sledei:
Poreati uzorake sredine u neopadajui niz
Izdvojiti podskupove od p uzorakih sredina gde je
Za svaki podskup izraunati najkrai znaajni raspon po formuli

Gde je n obim uzorka,
rezidualna suma kvadrata odstupanja, a
veliina koja se dobija

iz posebnih tablica
5
, tako to biramo r koje je najblie .
Izdvajanje podskupova uzorakih sredina koje su susedne i za koje nije konstatovano
postojanje znaajne razlike za izabrani prag znaajnosti .
Ovakav postupak se koristi kada su obimi podpopulacija jednaki. Kramer je proceduru prilagodio i za
sluaj kada su obimi podpopulacija nejednaki.
Primer
Nastavljamo da analiziramo ve gore navedene podatke kakav uticaj na memoriju ima razvijenost
mozga.
Poreaemo uzorake sredine u neopadajui niz:

Formiramo parove uzorakih sredina tako da formiraju nerastui niz i raunamo razlike uzorakih
sredina.

3
Eng. Duncans multiple range test (MRT)
4
David B. Duncan, statistiar
5
U prilogu tablica za =0.05
9

Sada raunamo najkrai znaajan raspon, po gore navedenoj formuli, za svaku uoenu podgrupu
uzorakih sredina. Stepen slobode za
je 21.

Za
p=3, a iz tablice uzimamo
gde je r=21 =>
=>
.
Kako je
zakljuujemo da razlika postoji.

Za
gde je r=21 =>
=>
.
Kako je
zakljuujemo da razlika postoji.

Za
gde je r=21 =>
=>
.
Kako je
zakljuujemo da razlika ne postoji.

Dakle, grupe 1 i 3 se ne razlikuju znaajno dok se grupa 2 znaajno razlikuje od ostale dve grupe, to
smo i oekivali na osnovu dijagrama rasprenosti. Dakle dolazimo do zakljuka da faktor razvijenosti
hemisfera moe imati dva nivoa: kada je vie razvijena leva hemisfera i svi ostali.
Primer
Podaci su prikupljeni prilikom eksperimenta kojim se porede etiri vrste lekova za srce. U rastvor se
dodaje procenat leka i lagano ubrizguje u zamorie, i detektuje procenat koji se nalazi u rastvoru u
trenutku smrti.

Vrednost Grupa Vrednost Grupa Vrednost Grupa Vrednost Grupa
29 1 17 2 17 3 18 4
28 1 25 2 16 3 20 4
23 1 24 2 21 3 25 4
26 1 19 2 22 3 24 4
26 1 28 2 23 3 16 4
19 1 21 2 18 3 20 4
25 1 20 2 20 3 20 4
29 1 25 2 17 3 17 4
26 1 19 2 25 3 19 4
28 1 24 2 21 3 17 4
Tabela 2
10

Dijagram 2
Na dijagramu 2 vidimo da su sve etiri grupe priblino jednake. Sada emo testirati hipotezu o
jednakosti srednjih vrednosti da se uverimo.
Izvor odstupanja Disperzija Stepeni slobode Meurezultat Test statistika
Faktor A
Greka
Ukupno

Iz Fierove rasodela sa 3 i 36 stepeni slobode za prag znaajnosti =0.05 dobijamo kritinu
vrednost: 2.866. Kako test statistika premauje kritinu vrednost, odbacujemo nultu
hipotezu da su srednje vrednosti jednake.
Poreaemo uzorake sredine u neopadajui niz:

Formiramo parove uzorakih sredina tako da formiraju nerastui niz i raunamo razlike uzorakih
sredina.

Sada raunamo najkrai znaajan raspon, po gore navedenoj formuli, za svaku uoenu podgrupu
uzorakih sredina. Stepen slobode za
je 36.

0
5
10
15
20
25
30
35
0 1 2 3 4 5
Grupa 1
Grupa 2
Grupa 3
Grupa 4
11

Za
gde je r=36 =>
=>

Kako je
zakljuujemo da ne postoji znaajna razlika.

Dakle, grupe 1 i 4 se ne razlikuju znaajno, pa samim ti i sve grupe koje se nalaze izmeu u
varijacionom nizu srednjih vrednosti, to smo i oekivali na osnovu dijagrama rasprenosti. Dakle,
iako smo u prvobitnim ispitivanjima dobili da se grupe znaajno razlikuju, dodatnim ispitivanjem
utvrujemo da te razlike ipak nisu znaajne. Takoe vidimo prednost Dankanovog testa u odnosu na
Bonreronijev test to nisu bila neophodna (
) testiranja hulte hipoteze, ve se u ovom primeru

dogodilo da je jedan bio dovoljan.
Zakljuak

Statistike metode, kada se ispravno koriste, kogu dovesti do jako korisnih odgovora.
Meutim, nekada se pretpostavke previde, zanemare, a one su kljune za uspeno tumaenje
rezultata. Danas postoje mnogi napredni statistiki softveri uz pomo kojih moemo doi brzo, lako i
sa velikom pouzdanou do zakljuaka, ali pre svega moramo poznavati tehniku teorijski da bismo
razumeli dobijene rezultate. esto korieni softveri za disperzionu analizu su SPSS, SAS, Minitab

12

Literatura

Knjige:
1. V.Jevremovi, J.Malii, Statistike metode u meteorologiji i inenjerstvu, Savezni
hidrometeoroloki zavod, Beograd, 2002
2. R. Hogg, J.McKean, A.Craig, Introduction to Mathematical Statistics, Pearson Education,
Upper Saddle River, New Yersey, 2005
3. A. Rutheford, Introducing ANOVA and ANCOVA: a GLM approach, SAGE Publications Ltd ,
2001
Internet:
1. http://books.google.rs/books?id=T6uvhsy8d_8C&pg=PA2&lpg=PA2&dq=anova+history+fishe
r&source=bl&ots=Ki4_v1An8F&sig=6M9yoX9WNnbLYWOlUMFsU2HRPAw&hl=en&sa=X&ei=
WpWkUdm2DaWL4gSEioDIDw&ved=0CCgQ6AEwAA#v=onepage&q=anova%20history%20fis
her&f=false
2. http://statmaster.sdu.dk/courses/st111/module11/
3. http://stat.ethz.ch/education/semesters/as2012/anova/ANOVA_how_to_do.pdf
4. http://www.graphpad.com/guides/prism/6/statistics/index.htm?stat_fishers_lsd.htm
5. http://www.okstate.edu/sas/v7/sashtml/books/stat/chap28/sect35.htm
6. http://www.minitab.com/uploadedFiles/Shared_Resources/Documents/Articles/analysis_of
_variance.pdf

Seminarski Rad: Utvrđivanje Nivoa Koji Utiče Na Obeležje

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Seminarski Rad: Utvrđivanje Nivoa Koji Utiče Na Obeležje

Uploaded by

Copyright:

Available Formats

Matematiki fakultet, Univerziteta u Beogradu

su nezavisne sluajne promenljive

, to e dovesti do ukupnog nivoa znaajnosti . Ovakav pristup testiranja nulte

) puta nultu hipotezu da su srednje vrednosti jednake pomou t-testa.

nivo znaajnosti. Tri test statistike izraunavamo:

) testova. Ima najveu mo testa od svih ostalih post-hoc testova.

rezidualna suma kvadrata odstupanja, a

veliina koja se dobija

p=3, a iz tablice uzimamo

gde je r=21 =>

zakljuujemo da razlika postoji.

p=2, a iz tablice uzimamo

gde je r=21 =>

zakljuujemo da razlika postoji.

p=2, a iz tablice uzimamo

gde je r=21 =>

zakljuujemo da razlika ne postoji.

p=4, a iz tablice uzimamo

gde je r=36 =>

zakljuujemo da ne postoji znaajna razlika.

) testiranja hulte hipoteze, ve se u ovom primeru

You might also like