You are on page 1of 9

1. O metodi...

ANOVA (Analysis of Variance)


Anova je računski postupak pomoću kojega se ispituju podaci određenoga pokusa, kroz procjenu
otklona pojedinih srednjih vrijednosti od prosječne vrijednosti uzoraka uzetih iz nekog osnovnog
skupa.

To je jednosmjerna (one-way) analiza varijance.

Najčešće se upotrebljava kada želimo testirati postoji li razlika između aritmetičkih sredina tri ili više
osnovnih skupova.
Cilj je ispitati odnos varijacija između uzoraka s varijacijama unutar uzoraka. Ako je taj odnos, tzv.
empirijski F-omjer, statistički značajan zaključujemo kako promatrani uzorci ne pripadaju istoj
populaciji, odnosno aritemetičke sredine se značajno razlikuju.

Statistička značajnost
Zaključci na osnovi pokusa u svojoj su osnovi PROBABILISTIČKI.
Rizik prihvaćanja ili odbacivanja nekoga zaključka, a na osnovi ispitivanja nulte hipoteze, iskazuje se
postotkom:

 P > α0,05(> 95,0%): - n.s. (non significante)


 P < α0,05(< 95,0%): - *(significante),
 P < α0,01(< 99,0%): - **(very significante)
 P < α0,001(< 99,9%): - ***(high level significante)

2. Primjer izračuna i primjene ANOVA-e


Uvod
Djelatnici firme "Random" d.o.o. moraju položiti ECDL ispit i kreću sa
obrazovanjem djelatnika.
Nastavu kod istog predavača pohađa 80 djelatnika koji su podijeljeni u dvije
skupine.
Djelatnici su podijeljeni na slijedeći način:
Napravljena je lista djelatnika koja je zatim numerirana od 1 do 80.
Koristeći program R prva skupina je odabrana na slijedeći način:
> prva <- sample(1:80, 40, replace=F)
> prva
[1] 78 42 64 13 9 44 30 47 79 49 63 28 23 40 8 41 74 43 69 55 65 76 14 61 25
[26] 12 20 19 17 18 4 68 59 21 70 56 24 1 32 73

Ostatak djelatnika činio je drugu skupinu.


Na ovaj način smo osigurali slučajnost u odabiru uzorka.
Ovo školovanje djelatnika učinilo se zgodnim da se obavi jedan eksperiment i
utvrdi koliko korištenje Facebooka pogoduje razvoju informatičkih znanja i
vještina.
Ideja je slijedeća; Prva grupa djelatnika za vrijeme trajanja školovanja neće
smjeti koristiti Facebook, dok će ga druga grupa morati koristiti najmanje 1 sat
dnevno.
Za analizu će se koristiti bodovi na završnom ECDL testu koji su u rasponu od 0
do 100.

Hipoteza H0 je slijedeća:
Rezultati Prve i Druge skupine ne razlikuju se značajno i korištenje Facebooka
nije imalo nikakvog utjecaja na znanje djelatnika iskazano u završnom testu.

Rezultati završnog ispita


Završni rezultati dobiveni su na slijedeći način:
RezultatiPrva <- round((rnorm(40, 74, 10)),0)

Rezultate Prve (kontrolne) skupine dobili smo koristeći funkciju rnorm , koje
generirala 40 brojeva čija je prosječna vrijednost 74 i standardna devijacija 10.
Na isti način smo generirali rezultate Druge (tretirane) skupine s tim da je
prosječna vrijednost u tom slučaju bila 82:
RezultatiDruga <- round((rnorm(40, 82, 10)),0)
Normalni Q-Q plot
Normalni QQ plot za Prvu i Drugu skupinu dobiven je na slijedeći način:
> qqnorm(RezultatiPrva,main = "Normalni Q-Q Plot za Prvu Skupinu");
qqline(RezultatiPrva, col=4)

i
> qqnorm(RezultatiDruga,main = "Normalni Q-Q Plot za Drugu Skupinu");
qqline(RezultatiDruga, col=4)

Gdje qqnorm() crta normalni QQ Plot za zadanu skupinu a qqline() na grafu dodaje
liniju plave boje (col=4).
Slika 1.: Q-Q Plot za prvu i drugu skupinu
Histogrami
Histogram za prvu i drugu skupinu dobiven je na slijedeći način:
> hist(RezultatiPrva, prob=TRUE)
> curve(dnorm(x,74,10),add=TRUE, col=4)

i
> hist (RezultatiDruga, prob=TRUE)
> curve(dnorm(x,82,10),add=TRUE, col=4)

Gdje naredba hist() crta histogram za zadani skup podataka, a curve() dodaje
normalnu krivulju plave boje na zadani histogram.

Zadani podatci distribuirani su normalno, što je i uvjet

Slika 2.: Histogram rezultata Prve i Druge skupine


Boxplot
> rezultati=data.frame(RezultatiPrva,RezultatiDruga)
> boxplot(rezultati)

Slika 3.: Boxplot za zadane rezultate


Izračun u R-u
Za početak ćemo Prvoj i Drugoj skupini pridružiti zadane vrijednosti (vektore).
>RezultatiPrva <-c(72,80,84,82,60,76,53,73,68,88,68,82,87,64,67,57,77,
77,85,91,71,61,64,65,61,81,59,85,54,73,65,68,65,81,57,94,68,64,75,47)
>RezultatiDruga <- c(85,80,74,86,66,82,56,100,87,71,78,70,76,81,84,82,
81,76,76,87,78,75,82,78,82,73,90,79,91,81,88,70,85,87,73,74,88,93,87,53)

Zatim ćemo izračunati aritmetičke sredine (prosječne vrijednosti, mean)


podataka,
> mean(RezultatiPrva)
[1] 71.225
> mean(RezultatiDruga)
[1] 79.625

Iz ovoga se vidi da Druga skupina ima bolje rezultate od Prve za 11,8%.


Ovdje bi se mogli zaustaviti i zaključiti da je Druga skupina ostvarila bolji rezultat
i samim time potvrditi da svakodnevno korištenje Facebooka ima pozitivnog
utjecaja na prihvaćanje novih informatičkih znanja (u ovom slučaju na polaganje
ECDL ispita).
Postavlja se pitanje da li je ovaj rezultat možda slučajan i da li postoji statistički
značajna razlika u rezultatima između Prve i Druge skupine.
Odgovor na to pitanje daje nam ANOVA pomoću koje ćemo analizirati varijance
zadanih skupina.
> rezultati = data.frame(RezultatiPrva, RezultatiDruga)
> rezultati = stack (rezultati)
> oneway.test(values ~ ind, data=rezultati, var.equal=TRUE)

One-way analysis of means

data: values and ind


F = 13.2645, num df = 1, denom df = 78, p-value = 0.0004849

Dobili smo F omjer koji iznosi 13.2645.


Kako taj izračun izgleda u stvarnosti...
Rezultati testa prve i druge skupine su uneseni u tablicu i izračunati su njihovi
kvadrati (vidi tablica 1.).
Tablica 1.: Rezultati testa skupina sa
pripadajućim kvadratima
Nadalje su izračunati:
- broj elemenata skupine: n
- sume skupina: Sum X,
- sume kvadrata skupina: Sum X^2,
- prosječne vrijednosti skupina: avg(),
- kvadrati suma skupina: (Sum X)^2,
- kvadrati suma skupina podijeljeni sa brojem kvantila: ((Sum X)^2)/n

Tablica 2.: Ostali izračuni

Nakon slijedećeg izračuna, za rezultat smo dobili vrijednosti koje nam trebaju za
izračun F omjera.

Dobivenu sumu kvadrata među skupinama (SKm), Sumu kvadrata totala (SKt) i
sumu kvadrata unutar skupina (SKu), zajedno sa pripadajućim stupnjevima
slobode unijeli smo u tablicu i izračunali F omjer (vidi Tablicu 3.):
Tablica 3.: Tablica sa podatcima za izračun prosječne sume kvadrata (PSK,
varijance)

Stupnjevi slobode za m dobili smo kao (broj skupina - 1), za u kao (nT - broj
skupina) a t kao (nT – 1).

Iz same tablice se vidi da je varijanca među skupinama puno veća od varijance


unutar skupine, ali nam to nije dovoljno za zaključak.
Za to nam služi F omjer koji dobijemo dijeljenjem varijance među skupinama sa
varijancom unutar skupina. Dobiveni F omjer iznosi 13,26.
Ukoliko pogledamo u tablicu graničnih vrijednosti F za stupnjeve slobode 1 i 78
na razini značajnosti od 5% dobiti ćemo vrijednost 3.963, a na razni značajnosti
od 1% iznosi 6.971.
Granične vrijednosti se lako mogu dobiti na web adresi: www.mef.hr/if/alati/tablice/skripte/f_fisher.htm

Naš F omjer je veći od obje granične vrijednosti, stoga zaključujemo da je


razlika među skupinama vrlo značajna.
Dakle odbacujemo H0 hipotezu i prihvaćamo alternativnu da postoji značajna
razlika u rezultatima Prve i Druge skupine.

You might also like