You are on page 1of 3

Ne znamo jesu li Vaši podaci konačni rezultat ili su rezultat pilot istraživanja.

Pretpostavljam
kako se radi o rezultatu pilot istraživanja na temelju kojih želite ustanoviti koji broj jedinki u
uzorcima trebate imati za odgovarajuću snagu statističkog testa kojeg želite upotrijebiti. Bez
obzira radi li se o jednom ili drugom najprije treba vidjeti iz kakve distribucije ova dva uzorka
potječu.
Učitavanje podataka (Podaci.RData sam Vam poslao u attachmentu)
rm(list=ls())
graphics.off()
load("Podaci.RData")
MRV3<-podaci$MRV3
SCR<-podaci$SCR[!is.na(podaci$SCR)] # zbog toga što je 36. podatzak NA

Testiranje jesu li podaci iz normalne distribucije:


shapiro.test(MRV3)

##
## Shapiro-Wilk normality test
##
## data: MRV3
## W = 0.70226, p-value = 4.039e-07
shapiro.test(SCR)

##
## Shapiro-Wilk normality test
##
## data: SCR
## W = 0.97048, p-value = 0.475
MRV3p<-round(shapiro.test(MRV3)$p,3)
SCRp<-round(shapiro.test(SCR)$p,3)

Kao što vidite za podatke MRV3 (p<0.05) ne možemo biti sigurni kako potječu iz normalne
distribucije, dok podaci za SCR podatke možemo tvrditi kako potječu iz normalne distribucije.
Ako nacrtamo te podatke histogramima:
par(mfrow=c(1,2))
hist(MRV3)
hist(SCR)

Histogram of MRV3 Histogram of SCR


8
Frequency

Frequency

6
15

4
2
0 5

0 10 20 30 40 0 5 15 25 35

MRV3 SCR
Ili ako pak nacrtamo procijenjene gustoće njihovih distribucija:
plot(density(MRV3))
lines(density(SCR), col="red")

1
density.default(x = MRV3)
Density

0.04
0.00

−10 0 10 20 30 40 50

N = 35 Bandwidth = 3.196

Onda postaje i uzorno kako podaci MRV3 ne potječu iz normalne distribucije.


Drugim riječima efekti ova dva virusa (pretpostavljam kako se radi o virusima) imaju učinke
(efekte) različitih distribucija te se u ovakvom obliku ne mogu obrađivati parametarskim
statističkim metodama. Naime ako npr. napravite t.test, vi ćete ustanoviti kako između ova dva
uzorka postoji statistički značajna razlika.
t.test(MRV3, SCR)

##
## Welch Two Sample t-test
##
## data: MRV3 and SCR
## t = -2.9568, df = 64.742, p-value = 0.004334
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -11.60913 -2.24842
## sample estimates:
## mean of x mean of y
## 7.977139 14.905912

No, to je besmisleno, što ste u neku ruku i sami pokazali pokušavajući simulirati pokus in silico
upotrebljavajući normalne distribucije s partametrima izmjerenim na Vašim uzorcima. Zbog istog
razloga se Vaš eksperiment i ne može simulirati na način koji sam Vam pokazao na predavanju već
bi se trebala napraviti ishodišna populacija na način da simulira distribuciju kakvu ste utvrdili
pilot projektom.

Ukoliko su ovi podaci Vaši finalni podaci i ukoliko želite utvrditi postoji li razlika u efektu,
postoji nekoliko rješenja.

Najjednostavnije je upotrijebiti neparametarski “Mann-Whitney-Wilcoxon Test”:


virus<-c(rep("MRV3", 35), rep("CSR", 34))
perc<-c(MRV3, SCR)
wilcox.test(perc~virus)

##
## Wilcoxon rank sum exact test
##
## data: perc by virus
## W = 897, p-value = 0.0002084
## alternative hypothesis: true location shift is not equal to 0

A rezultate prikazati pomoću boxplota:


boxplot(perc~virus)

2
40
30
perc

20
10
0

CSR MRV3

virus
Želimo li sada izračunati snagu upotrijebljenog testa to možemo učiniti na ovaj način pomoću
MonteCarlo simulacije:
library(MKpower)
SMRV3 <- function(n) rnorm(n, mean = mean (MRV3), sd = sd(MRV3))
SSCR <- function(n) rnorm(n, mean = mean(SCR), sd = sd(SCR))
sim.ssize.wilcox.test(rx = SMRV3, ry = SSCR, n.max = 100, iter = 1000)

##
## Wilcoxon rank sum test
##
## n = 10, 20, 30, 40
## rx = rnorm(n, mean = mean(MRV3), sd = sd(MRV3))
## ry = rnorm(n, mean = mean(SCR), sd = sd(SCR))
## sig.level = 0.05
## emp.power = 0.276, 0.590, 0.761, 0.869
## alternative = two.sided
##
## NOTE: n is number in *each* group
Na temelju ovog rezultata možete zaključiti kako je potrebna veličina uzoraka s kojom bi osigurali
jačinu testa između 0.75 i 0.85, negdje između 30 i 40 jedinki. Naime, ovakav izračun daje tzv.
empirijski izračun snage testa.
Druga rješenja se temelje na klasifikaciji Vaših podataka ili njihovoj kategorizaciji, te upotrebi
Bayesove statistike.
Srdačno
Branimir

You might also like