You are on page 1of 69

Sprendžiamoji (Analitinė,

Inferencinė) statistika:
hipotezių testavimas
Matematinis geologinių duomenų apdorojimas
V paskaita
Poruotų imčių t-testas
Imtis 1 Imtis 2
Poveikis / laikas
Stebėjimas 1
Stebėjimas 2
Stebėjimas ...

Stebėjimas N
Poruotų imčių t-testas
Poruotos imtys – stebėjimai susiję
Pvz. matuoti tie patys objektai skirtingu laiku, aplinkybėm. Norima sužinoti, kaip (ar)
pasikeis objektas po poveikio / laiko.

Prielaidos:
• Imtys yra priklausomos
• Stebėjimai imtyse (tirti objektai) nepriklausomi
• Skirtumai tarp imčių yra normaliai pasiskirstę:
• Abi imtys normaliai pasiskirsčiusios
• Imčių dispersijos lygios
• Skirtumai neturi išskirčių
Poruotų imčių t-testas
• 

- skirtumų tarp imčių standartinis nuokrypis


n – stebėjimų kiekis vienoje imtyje
F-testas dispersijų lygybei patikrinti

Prielaidos:
Imtys sudarytos atsitiktinai (stebėjimai nepriklausomi)
Imčių populiacijos normaliai pasiskirsčiusios

PASKIRTIS:
• Palyginti dviejų imčių dispersijas (dažniausiam atliekama siekiant
įvertinti, ar galima atlikti vidurkių lygybės t-testą).
F-testas dispersijų lygybei patikrinti
• 
- didesnė dispersija
- mažesnė dispersija
Laisvės laipsnių skaičius: ;
- mažesnės dispersijos imties laisvės laipsnių skaičius.
- didesnės dispersijos imties laisvės laipsnių skaičius

Jei dispersijos lygios, F  1, kitu atveju F >> 1.


F-testas dispersijų lygybei patikrinti
• 

H0:
H1:

Testas visada vienpusis.

Jei testas atliekamas patikrinti dispersijų lygumo prielaidą t-testui, F-testo α turi sutapti su
t-testo α.

R funkcija: var.test(x,y)
Fišerio skirstinys
Iš normalaus skirstinio
„traukiami“ stebėjimai ir
sudaromos n1 ir n2
dydžio imtys.
Paskaičiuojamos F
statistikos.

Kokias F statistikos vertes,


kaip dažnai gausime?

Jei n1 ir n2 maži,
dispersijos varijuos labiau
ir F statistikos didesnių
verčių bus daugiau.
Duomenų normalumo prielaidos testavimas

• Kvantilių – kvantilių grafikas


• Chi-kvadarato kriterijaus testas
• Šapiro (Shapiro) ir Vilko (Wilk) kriterijaus testas
• Kolmogorovo (Kolmogorov) ir Smirnovo
(Smirnov) kriterijaus testas
Vizualinis normalumo
testavimas:
kvantilių-kvantilių grafikai

x <- rnorm(30)
qqnorm(x)
qqline(x)
Y<-runif(100)
qqplot(x,y)
Šapiro-Vilko kriterijaus testas
Prielaidos:
Stebėjimai nepriklausomi
Labiausiai tinka nedidelėms imtims

Testas – vienpusis;
H0: X ~ N(µ,σ);
Kai p-vertė < α, nepriklauso normaliam skirstiniui

Paskirtis:
Patestuoti, ar imtis pasiskirsčiusi pagal normalų skirstinį.

Naudojimas R:
shapiro.test(x) x – skaitinis vektorius
Chi-kvadarato kriterijaus testas
Duomenys:
Gali būti dažnių, proporcijų, intervalų, santykių, kategorijų (visi tipai)
TESTAS - vienpusis

Prielaidos:
Imtys sudarytos atsitiktinai (stebėjimai nepriklausomi)
Per kategoriją/intervalą yra bent 5 stebėjimai

PASKIRTIS:
• Patestuoti, ar duomenys priklauso hipotetiniam skirstiniui
Chi-kvadrato skirstinys
• 

Aprašo kokias gausime


iš normalaus skirstinio imčių,
kai k=1, 2, …, N.

O – stebima vertė (observed)


E – tikėtina vertė (expected)
Pavyzdys: duomenys kategoriniai / dažnių
Nulinė hipotezė – visų klasių paplitimas vienodas:
A B C D E F G H I J
0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1

Stebimos vertės(O, dažnių lentelė) (table(x)):


A B C D E F G H I J
94 104 99 89 74 109 84 104 93 111
Tikėtinos vertės (E, tikėtina dažnių lentelė) (sum(O)*0.1):
A B C D E F G H I J
96,1 96,1 96,1 96,1 96,1 96,1 96,1 96,1 96,1 96,1
Kvadratiniai skirtumai padalinti iš tikėtinos vertės (O-E)^2 / E :
A B C D E F G H I J
0,05 0,65 0,09 0,52 5,08 1,73 1,52 0,65 0,10 2,31

 = 12.70, = 10-1. sum((O-E)^2 / E) ; 1-pchisq(q = 12.70,df = 9); ARBA chisq.test(x) p-vertė = 0.18
Pavyzdys: duomenys santykiniai/intervaliniai
1. Suformuluojama nulinė hipotezė, kuriam skirstiniui duomenys priklauso (pvz. normaliam).
2. Duomenų variacinė eilutė padalinama į intervalus, taip, kad į kiekvieną intervalą patektų bent 5
stebėjimai.
cut2(x,g=n) funkcija x skaitinio vektorio vertes padalina į n intervalų, kiekviename intervale maždaug
vienodas skaičius stebėjimų; išvestis yra faktorius, kurio lygmenys ir vertės yra intervalų pavadinimai.
Hmsic paketas.
3. Sudaroma dažnių lentelė, rodanti, kiek stebėjimų į kiekvieną intervalą papuola. table(cut2(x,g=n))
4. Paskaičiuojama, kiek turėtų būti kiekviename intervale stebėjimų, jei duomenys iš tiesų priklauso
hipotetiniam skirstiniui; šiame žingsnyje aproksimuojamos skirstinio formos charakteristikos
Pvz.: pnorm(i1, mean = mean(x), sd = sd(x) ) * length(x) # i1: pirmo intervalo pabaiga; išvestis – koks
tikėtinas stebėjimų kiekis pirmame intervale.
5. Paskaičiuojam chi-kvadrato kriterijų ir gaunam jo p-vertę prie n-3 laisvės laipsnių.
Chi <- sum( (O-E)^2/E ); 1-pchisq(q = Chi,df = n-3); # n: intervalų skaičius. 2 papildomi laisvės laipsniai
dingsta testuojant normalaus skirstinio hipotezę, nes imties duomenimis reikia aproksimuoti
populiacijos vidurkį ir dispersiją.
Chi-kvadrato kriterijaus testas

Stiprioji pusė – galima testuoti bet kokio


skirstinio tipo hipotezę ir galima pritaikyti
įvairaus tipo duomenims

Silpnoji pusė – santykinius/intervalinius


duomenis reikia grupuoti, dėl to sumažėja testo
jautrumas
Kolmogorovo-Smirnovo kriterijus

Jautresnis už Chi-kvadrato kriterijų bei reikalauja


mažiau duomenų, kadangi nereikia grupuoti duomenų
Pavyzdys
Kolmogorovo-Smirnovo kriterijus
Prielaidos:
Stebėjimai nepriklausomi
Paskirtis:
Patikrinti, ar duomenys pasiskirstę pagal hipotetinį skirstinį
Principas:
Kvantilių palyginimas (empirinis vs. empirinis arba empirinis vs. teorinis)
Kriterijaus statistika:
D = max|CDF – EDF|
EDF – x verčių empiriniai kvantiliai,
CDF – x vertes atitinkantys teoriniai kvantiliai
Testas:
Dvipusis, vienpusis (priklauso/nepriklauso, empiriniai kvantiliai didesni/mažesni už teorinius)
Kolmogorovo-Smirnovo testas R
ks.test(x, y, alternative = c("two.sided", "less", "greater"))
x – skaitinis vektorius
y – skaitinis vektorius arba skirstinio pavadinimas, naudojamas teoriniams kvantiliams gauti
(pvz. „pnorm“)
Pvz.:
y <- runif(100)
x <- rnorm(30)
ks.test(x = x, y= "pnorm", alternative = "two.sided") ks.test(x = x, y= y, alternative = "two.sided")

One-sample Kolmogorov-Smirnov test Two-sample Kolmogorov-Smirnov test


data: x data: x and y
D = 0.27084, p-value = 0.01958 D = 0.66667, p-value = 2.43e-10
alternative hypothesis: two-sided alternative hypothesis: two-sided
Išeitis iš nenormalių duomenų situacijos
– duomenų normalizavimas.

Išeitis – tol kol transformuotus duomenis


gebame interpretuoti.
„Lognormalumo“ dėsnis geologijoje

Aritmetinė skalė Logaritminė skalė


Duomenų normalizavimas: variacijos
stabilizavimas ir tiesinio ryšio „atkūrimas“
Paklaidų daugyba  lognormalus skirstinys
„Grūdelių skilimo teorija“

Lagerštatų susiformavimas

„Proporcingo augimo dėsnis“

Apribojančios veiksnių sąveikos (nepatenkinta viena sąlyga smarkiai


sumažina visų patenkintų sąlygų teigiamą efektą)
Duomenų transformavimo metodai
• Kėlimas
  laipsniu – dehomogenizuoja variaciją, tačiau išryškina aukštas vertes,
t. y. padidina teigiamą asimetriją (pravartu gręžinių karotažo duomenis
interpretuojant)
• Šaknies ištraukimas arba, jei visos vertes < 10, - normalizuoja pagal Puasono
dėsnį pasiskirsčiusius duomenis, teigiamą asimetriją panaikina,
homogenizuoja variaciją
• Logaritmas – sumažina / homogenizuoja variaciją, normalizuoja lognormalius
duomenis
• Verčių skalės pakeitimas į 0-1, ir arksinuso paskaičiavimas – gali panaikinti
neigiamą asimetriją.
• Box-Cox transformacijos
Jei transformuojam vieną imtį –
transformuojam visas imtis (pvz. testuojant
vidurkius)
Neparametriniai metodai – kai normalumo
prielaidų patenkinti nepavyksta
• Vilkoksono (Wilcoxon) rangų sumos / Mano-Vitnio kriterijus (Mann-Whitney) – palyginti dviejų
imčių medianas
wilcox.test(x,y,paired=FALSE)
• Vilkoksono rangų ženklų kriterijus – palyginti poruotų imčių medianas
wilcox.test(x,y,paired=TRUE)
• Spirmeno ranginė koreliacija – patikrinti koreliaciją tarp rangų
cor(x,y,method = „spearman“)
cor.test(x,y,method = “spearman”) # neįrašius „spearman“, testuojama Pirsono koreliacija
• Chi-kvadrato kriterijaus statistika – skirstinių homogeniškumo testas
• Kolmogorovo-Smirnovo kriterijus – skirstinių homogeniškumo testas
• Valdo ir Volfovico nuotekų kriterijus (Wald and Wolfowitz runs test) – patestuoti serijų (laiko
eilučių) atsitiktinumą
• Valdo ir Volfovico nuotekų kriterijus (Wald and Wolfowitz runs test) dviems imtims – patestuoti,
ar dvi imtys iš tos pačios populiacijos
Vilkoksono (Wilcoxon) rangų sumos / Mano-
Vitnio kriterijus (Mann-Whitney)
Kriterijaus statistikos apskaičiavimas:
1. Apjungiame dvi imtis į vieną ir sudarome jos variacinę eilutę
2. Susumuojame pirmos ir antros imties verčių rangus
3. Mažesnė rangų suma yra kriterijaus statistika.
R:
wilcox.test(x,y,paired=FALSE)
Valdo ir Volfovico nuotekų kriterijus (Wald and
Wolfowitz runs test) dviem imtims
Principas:
1. Apjungiame dvi imtis į vieną ir sudarome jos
variacinę eilutę
2. Suskaičiuojame, kiek skaičių serijų iš vienos
imties verčių gauname variacinėje eilutėje
3. Kuo serijų skaičius didesnis, tuo imčių
populiacijos panašesnės
R:

# imtys skiriasi standartiniu nuokrypiu


x <- rnorm(30,0,1)
y <- rnorm(30,0,2.5)
# identifikuojam, į kuria vietą nukeliavo c(x,y) elementai sudarius variacinę eilutę
id <- match(sort(c(x,y)),c(x,y))
serijos <- rep(c(-1,1),each=30)[id] # x atspindi -1, y +1, juos išrikuojame pagal c(x,y)
variacinę eilutę
runs.test(x = serijos, alternative = "two.sided",threshold = 0,plot = T)
Ką daryti, jei norime palyginti daugiau dvi
imtis?

ANOVA
Dispersinė analizė (Analysis Of VAriance,
ANOVA)
Lyginamose imtyse to paties priklausomo kintamojo vertės.
Stebėjimų suskirstymo į atskiras imtis kriterijus – faktoriaus vertės.

Pvz. priklausomas kintamasis – grūdelių dydis (phi)


Faktorius (nepriklausomas kintamasis) – sedimentacinė aplinka.

Šiame pavyzdyje ANOVA leidžia patikrinti, ar grūdelių dydžių vidurkis


keičiasi priklausomai nuo sedimentacinės aplinkos.
ANOVA rūšys ir porūšiai
Priklausomas kintamas – intervalinis / santykinis
• Vienfaktorinė
• Dvifaktorinė
• n-faktorinė (daugiafaktorinė)
• Su sąveikom arba be sąveikų
• Hierarchinė arba nehierarchinė
• Tarpgrupinė ANOVA (nepriklausomos imtys)
• Priklausomų imčių ANOVA (viduj-grupinė ANOVA)
• Mišrių efektų, atsitiktinių efektų ir fiksuotų efektų.
• ANCOVA (kovariacijos analizė - atsižvelgiama į nepriklausomų tolydžių kintamųjų poveikį)
• Subalansuotų (stebėjimų skaičius grupėse ir subgrupėse pastovus) arba nesubalansuotų
(stebėjimų kiekis nepastovus) duomenų ANOVA
Priklausomas kintamasis – ranginis
• Kruskal-Wallis‘o ANOVA (stebėjimai nepriklausomi)
• Friedman‘o ANOVA (stebėjimai priklausomi)
Vienfaktorinė dispersinė analizė – ONE-WAY
ANOVA (ANalysis Of VAriance)
Prielaidos:
Priklausomo kintamojo pakartotinų matavimų imtys sudarytos atsitiktinai
ir priklauso skirtingoms populiacijoms.
Kiekviena tokia populiacija yra normaliai pasiskirsčiusi
Šių populiacijų dispersijos lygios.

PASKIRTIS:
• Patikrinti, ar kintamojo vertė keičiasi priklausomai nuo faktorio lygmens.
DUOMENYS
Intervalinis/santykinis priklausomas kintamasis ir nepriklausomas
kategorinis kintamasis. Kiekviename faktorio lygmenyje yra n
priklausomo kintamojo verčių (pvz. pakartotinų matavimų)

A faktorio 1 A faktorio 2 A faktorio 3 A faktorio 4 A faktorio 5


grupė grupė grupė grupė grupė
Stebėjimas 1 Stebėjimas 1 Stebėjimas 1 Stebėjimas 1 Stebėjimas 1
Stebėjimas 2 Stebėjimas 2 Stebėjimas 2 Stebėjimas 2 Stebėjimas 2
Stebėjimas 3 Stebėjimas 3 Stebėjimas 3 Stebėjimas 3 Stebėjimas 3
Stebėjimas 4 Stebėjimas 4 Stebėjimas 4 Stebėjimas 4 Stebėjimas 4
Vienfaktorinė dispersinė analizė – ONE-WAY
ANOVA (ANalysis Of VAriance)
• 

H0: = =
H1: Bent vienas vidurkis yra kitoks.

Naudojama statistika – F.
Testas vienpusis.
Laminų gelmėjimas

Bandinių vietos

Jaunėjimo kryptis

PAVYZDYS
Pavyzdys:
Eolinės kopos atodangoje surinkti smėlio bandiniai. Smėlyje pastebėta
suodžių ir mikroangliukų. Jų kiekis gali sietis su gaisringumu bei aplinkinių
dirvožemių erozijos mastais. Siekiant įvertinti suodžių ir mikroangliukų kaitą
atodangoje buvo išmatuoti bandinių išdeginimo nuostoliai. Gauta kreivė
leidžia įtarti, kad egzistuoja dėsningi, cikliški
pokyčiai:

Laikas BP
Bet gal ši kreivė matavimo paklaidų
artefaktas? Atsakymą sužinoti gali
padėti ANOVA
1 2 Išdeginimo nuostolis, %
Prielaidos:
Priklausomo kintamojo pakartotinų matavimų imtys sudarytos atsitiktinai ir priklauso skirtingoms
populiacijoms: kiekvieną pakartotiną tyrimą bandiniai tirti skirtinga, atsitiktine tvarka, siekiant
išvengti sisteminių paklaidų (pvz. vėliausiai tirtas bandinys prisitraukęs daugiausia drėgmės).
Kiekvieno bandinio matavimai atstovauja skirtingai populiacijai, su galimai kitokiu vidurkiu.
Kiekviena tokia populiacija yra normaliai pasiskirsčiusi: Tokio pobūdžio duomenys, kurie gauti
atliekant vieno dydžio pakartotinus matavimus, yra dažniausiai normaliai pasiskirstę (priklauso
nuo prietaisų paklaidų).
Šių populiacijų dispersijos lygios: Kadangi variaciją tų pačių bandinių rezultatuose pagrinde lemia
prietaisų ir metodikos paklaidos ir visi bandiniai tirti ta pačia metodika bei prietaisais, tuomet
pakartotinų matavimų variacija (dispersija) turėtų būti bent jau santykinai lygi nepriklausomai,
koks bandinys tiriamas.

PASKIRTIS:
• Patikrinti, ar egzistuoja reikšmingi skirtumai tarp skirtingų bandinių išdeginimo nuostolių. Kitaip
tariant, ar galima kalbėti apie gaisringumo / dirvožemio erozijos kaitą laike?
Pavyzdys
Nustatyti išdeginimo nuostoliai buvo labai maži ir siekė svarstyklių tikslumo
limitą. Siekiant patikrinti, ar svarstyklių tikslumas pakankamas, jog būtų
galima teigti, kad išdeginimo nuostoliai keičiasi priklausomai nuo bandinio
numerio (gylio / laiko), buvo atlikti 4 papildomi išdeginimo nuostolių
matavimai su tais pačiais
bandiniais. Gauta, kad tų pačių

Laikas BP
bandinių pakartotini matavai
varijavo ko ne tiek pat, kiek
varijavo matavimai tarp bandinių:

1 2 Išdeginimo nuostolis, %
Pavyzdys

Šioje analizėje:
Faktorius (nepriklausomas kintamasis) – bandinio numeris/gylis/laikas
Priklausomas kintamasis – išdeginimo nuostolis
Vienfaktorinė dispersinė analizė – ONE-WAY
ANOVA (ANalysis Of VAriance)
 Vienfaktorinė dispersinė analizė nustato, kokia visos variacijos duomenyse ()
dalis yra sudaryta iš skirtumų tarp priklausomojo kintamojo grupių () (pvz.
skirtingų bandinių) ir kokia dalis sudaryta iš duomenų variacijos grupių viduje ().
 
= +; ;
Laisvės ;
Kvadratų laipsnių Dispersijos F-testo
Variacijos suma skaičius įverčiai statistika N – visų stebėjimų kiekis.
šaltinis: 
Grupių m-1 m – grupių kiekis.
Vidinė N-m  
F statistikos laisvės
Visa N-1  
laipsnių skaičius:
;
Vienfaktorinė dispersinė analizė – ONE-WAY
ANOVA (ANalysis Of VAriance)
•;  
 j:grupės nr.;
; m: faktorio lygmenų (stebėjimų
; grupių) kiekis;
i: stebėjimo nr. grupėje;
Laisvės n: stebėjimų kiekis grupėje;
Kvadratų laipsnių Dispersijos F-testo N: visų stebėjimų kiekis (n*m);
Variacijos suma skaičius įverčiai statistika
šaltinis:  : i-tasis j grupės stebėjimas;
Grupių m-1
: visų stebėjimų vidurkis;
Vidinė N-m   : j grupės stebėjimų vidurkis.
Visa N-1  
SST
Vienfaktorinė dispersinė analizės modelis
• 
j-populiacijos
X    e     e
ij i ij i
(grupės/bandinio) vidurkis
ij

atsitiktinė paklaida Faktorio įtaka

visų populiacijų vidurkis


: skirtumas tarp visų populiacijų vidurkio ir j-tosios populiacijos
vidurkio:
.
Vienfaktorinė dispersinė analizė – ONE-WAY
ANOVA (ANalysis Of VAriance)

Pavyzdys iš knygos (Davis, 2002):


F = 10.14

v1 = 4
v2 = 6*5-5 = 25

P_verte <- 1-pf(10.14, 4, 25)

P-vertė ≈ 5e-05
ANOVA modelių rūšys (priklausomai nuo
efektų)
Fiksuoti efektai (I tipo modelis - pristatytas): faktorio lygmenys ir juos
atitinkančios imtys parinkti neatsitiktinai. Tik šių faktorio lygmenų
poveikis priklausomam kintamajam mus domina ir išvadas apie
populiacijų vidurkių lygybę taikome tik šiems lygmenims (išvados
netaikomos netirtiems lygmenims).
Atsitiktiniai efektai (II tipo modelis): faktorio lygmenys parinkti
atsitiktinai iš daugelio kitų lygmenų, kurių poveikis priklausomam
kintamajam mus taip pat domina. Išvadas taikome netirtiems lygmenims.
Mišrūs efektai (III tipo modelis): vieni faktorio lygmenys fiksuoti, kiti
atsitiktiniai.
Vienfaktorinė ANOVA su R:
aov() bei anova(lm()) – funkcijos leidžiančios sukurti ANOVA modelius

aov(y~x)
y – priklausomas kintamasis, x - nepriklausomas kintamasis (faktorius)
nurodytas kaip fiksuotas efektas
aov(y~Error(x))
x – nepriklausomas kintamasis, nurodytas kaip atsitiktinis efektas
Dvifaktorinė dispersinė analizė be kartotinų
matavimų – TWO-WAY ANOVA
Tiriama situacija: reiškinio savybės (Y) priklauso nuo DVIEJŲ išorinių aplinkybių (A ir B), kai žinoma, kad jų sąveika
nesvarbi.
DUOMENYS: intervalinis/santykinis priklausomas kintamasis ir 2 nepriklausomi kategoriniai kintamieji. Kiekvienai
kategorinių kintamųjų verčių kombinacijai viena priklausomojo kintamojo vertė.

Prielaidos:
Kiekvieną skirtingą abiejų faktorių kombinaciją atitinkančios imtys yra sudarytos atsitiktinai ir priklauso
kitokioms populiacijoms.
Kiekviena tokia populiacija yra normaliai pasiskirsčiusi
Šių populiacijų dispersijos lygios.
Nėra sąveikos tarp skirtingų faktorių (A, B) (A faktorio poveikis priklausomam kintamajam nepriklauso nuo B
faktorio lygmens)

PASKIRTIS:
• Patikrinti, ar kintamojo vertė keičiasi priklausomai nuo abiejų faktorių lygmenų.
DUOMENYS
Intervalinis/santykinis priklausomas kintamasis ir 2 nepriklausomi
kategoriniai kintamieji. Kiekvienai nepriklausomų kintamųjų verčių
kombinacijai viena priklausomojo kintamojo vertė.

PVZ:

A faktorio 1 grupė A faktorio 2 grupė A faktorio 3 grupė


B faktorio 1 grupė
B
B faktorio
faktorio 2
2 grupė
grupė
B faktorio 3 grupė
B faktorio 3 grupė
B faktorio 4 grupė
B faktorio 4 grupė
Dvifaktorinė dispersinė analizė
•  Dvi hipotezės:

H0: = =
H1: Bent vienas vidurkis yra kitoks.

H0: = =
H1: Bent vienas vidurkis yra kitoks.

Naudojama statistika – F.
Testas vienpusis.
Dvifaktorinė dispersinė analizė
 = +;

Laisvės  ;
Kvadratų laipsnių Dispersijos F-testo
Variacijos Kvadratų
suma Dispersijos
įverčiai F-testo
statistika
šaltinis: 
Variacijos suma skaičius įverčiai statistika ;
Tarp A
šaltinis:  m-1
faktorio
Tarp A m-1 ;
grupių
faktorio
  N – visų stebėjimų kiekis.
Tarp B
grupių k-1
faktorio M – A faktorio lygmenų skaičius.
Tarp B
grupių k-1   F1 statistikos laisvės laipsnių
faktorio
Vidinė (m-1)(k-1)
grupių skaičius:
Visa N-1   ;
Vidinė (m-1)(k-1)
F2 statistikos laisvės laipsnių
Visa N-1   skaičius:
;
Dvifaktorinė dispersinė analizė
 j: A faktorio grupės nr.;

m: A faktorio lygmenų
(stebėjimų grupių) kiekis;
•;   b: B faktorio grupės nr.;
; k: B faktorio lygmenų (stebėjimų
; grupių) kiekis;
: j, b grupei priklausantis
; stebėjimas;
: visų stebėjimų vidurkis;
: faktorio A j grupės stebėjimų
vidurkis.
Taikymo pavyzdys geologijoje, Davis (2002), 87 psl.
Dvifaktorinė:

Papildoma informacija (antras faktorius) įtraukta į


dispersinę analizę sumažina vidinę (nepaaiškintą)
variaciją.
Vienfaktorinė:
Ar daugiau faktorių visada geriau?
•Jei  papildomas faktorius nepaaiškina daugiau variacijos, jis tiesiog
sumažina laisvės laipsnių skaičių, todėl tampa didesnis, o F statistikos
vertės – mažesnės, kas sumažina rezultatų reikšmingumą ir tuo pačiu
statistinę testo galią.
Dvifaktorinė ANOVA su R:

aov(y ~ x + z)
x ir z nepriklausomi kintamieji, nurodyti kaip fiksuoti efektai
aov(y ~ x + Error(z))
x– nepriklausomas kintamasis, nurodytas kaip fiksuotas efektas
z – nepriklausomas kintamasis, nurodytas kaip atsitiktinis efektas
Dvifaktorinė dispersinė analizė – TWO-WAY
ANOVA su pakartotinais stebėjimais
Tiriama situacija: reiškinio savybės (Y) priklauso nuo DVIEJŲ išorinių aplinkybių (A ir B).
DUOMENYS: intervalinis/santykinis priklausomas kintamasis ir 2 nepriklausomi kategoriniai kintamieji.
Kiekvienai nepriklausomų kintamųjų verčių kombinacijai n priklausomojo kintamojo verčių.

Prielaidos:
Kiekvieną skirtingą abiejų faktorių kombinaciją atitinkančios imtys yra sudarytos atsitiktinai ir
priklauso kitokioms populiacijoms.
Kiekviena tokia populiacija yra normaliai pasiskirsčiusi
Šių populiacijų dispersijos lygios.

PASKIRTIS:
• Patikrinti, ar kintamojo vertė keičiasi priklausomai nuo abiejų faktorių lygmenų ir sąveikų tarp
jų.
Duomenys
Intervalinis/santykinis priklausomas kintamasis ir 2 nepriklausomi
kategoriniai kintamieji. Kiekvienai kategorinių kintamųjų verčių
kombinacijai n priklausomojo kintamojo verčių.

A faktorio 1 grupė A faktorio 2 grupė A faktorio 3 grupė


B faktorio 1 grupė
Faktoriaus A grupės

n
ai,
ėjim
b B faktorio 2 grupė
Ste B faktorio 2 grupė
B faktorio 3 grupė
B faktorio 3 grupė
Fakt
oria
us B gr
upė
s
Dvifaktorinė dispersinė analizė su
pakartotinais stebėjimais
•  Trys hipotezės:

H0: = =
H1: Bent vienas vidurkis yra kitoks.

H0: = =
H1: Bent vienas vidurkis yra kitoks.

H0:
H1:

Naudojama statistika – F.
a,b,c – nėra
sąveikos tarp
K ir L faktorių

d, e, f – yra
sąveika tarp
K ir L faktorių
Čekavičius, Murauskas (2002),
83 psl.
Dvifaktorinė dispersinė analizė su
pakartotinais stebėjimais
R funkcijos:
aov(y ~ x+z+x:z)
x – nepriklausomas kintamasis, nurodytas kaip fiksuotas efektas
z – nepriklausomas kintamasis, nurodytas kaip fiksuotas efektas
x:z – sąveika tarp x ir z nepriklausomų kintamųjų, nurodyta kaip fiksuotas
efektas

aov(y ~ x*z)
Formulė analogiška y ~ x+z+x:z, tačiau trumpesnis variantas
Įdėtinė arba kitaip hierarchinė dispersijos
analizė (Nested ANOVA)
Tiriama situacija: reiškinio savybės priklauso nuo išorinių aplinkybių A ir jos sub-
aplinkybių B (pvz. grupių ir tų grupių sub-grupių, teritorijos ir jos dalių, kerno ir jo dalių)
DUOMENYS: intervalinis/santykinis priklausomas kintamasis ir 2 hierarchiškai susiję
kategoriniai kintamieji.
Pvz: FAKTORIUS A: a tipo uoliena b tipo uoliena c tipo uoliena

FAKTORIUS B:
I uoliena II uoliena III uoliena IV uoliena V uoliena VI uoliena

Priklausomas kintamasis: mineralo X ilgosios ašies ilgis, mm (vienoje uolienoje n matavimų).

PASKIRTIS:
• Patikrinti, A faktoriaus, kuris hierarchiškai gali priklausyti nuo B faktoriaus,
poveikį priklausomam kintamajam
DUOMENYS

intervalinis/santykinis priklausomas kintamasis ir 2 hierarchiškai susiję kategoriniai kintamieji:

I A faktoriaus kategorija II A faktoriaus kategorija III A faktoriaus kategorija


B faktoriaus I B faktoriaus II B faktoriaus III B faktoriaus IV B faktoriaus V B faktoriaus VI
kategorija kategorija kategorija kategorija kategorija kategorija
Stebėjimas 1 Stebėjimas 1 Stebėjimas 1 Stebėjimas 1 Stebėjimas 1 Stebėjimas 1
Stebėjimas 2 Stebėjimas 2 Stebėjimas 2 Stebėjimas 2 Stebėjimas 2 Stebėjimas 2
Stebėjimas 3 Stebėjimas 3 Stebėjimas 3 Stebėjimas 3 Stebėjimas 3 Stebėjimas 3
Įdėtinė arba kitaip hierarchinė dispersijos
analizė (Nested ANOVA)
Prielaidos:
Nepriklausomi kintamieji (faktoriai) yra hierarchiškai susiję.
Stebėjimai skirtingose grupėse nepriklausomi (pvz. nėra pakartotinų
matavimų vieno mineralo)
Kiekvieną skirtingą abiejų faktorių kombinaciją atitinkančios imtys yra
sudarytos atsitiktinai ir priklauso kitokioms populiacijoms.
Kiekviena tokia populiacija yra normaliai pasiskirsčiusi
Šių populiacijų dispersijos lygios.
Vienodas stebėjimų skaičius kiekvieno faktoriaus lygmenyje.
Hierarchinė ANOVA su R:
aov(Mineralo_dydis ~ Uolienos_Tipas+Error(Uolienos_Tipas /Uolienos_meg)

Uolienos_Tipas – nepriklausomas kintamasis, nurodytas kaip fiksuotas efektas


Uolienos_meg – hierarchiškai žemesnio rango už Uolienos_Tipas nepriklausomas
kintamasis, nurodytas kaip atsitiktinis efektas,

Stebėjimai gauti matuojant tą patį mėginį yra pseudoreplikacijos, kurios nepagrįstai


padidina laisvės laipsnių skaičių. Sprendimas – nurodyti pseudoreplikacijas kaip
atsitiktinį efektą: Error(Uolienos_Tipas /Uolienos_meg)
F = SSA / SSAB
ANOVA formulių rašymas R kalboje:

„THE R BOOK“ (Crawley,2007)


ANOVA procedūra su R, step by step
1. Modelio struktūros parinkimas. Naudingos funkcijos:
replications(y~x) – kiek stebėjimų kiekvienoje grupėje?
2. Grupių normalumo ir dispersijos vienodumo prielaidų tikrinimas:
fligner.test(y~x) – dispersijos tikrinimas
bartlett.test(y~x) – dispersijos/normalumo tikrinimas
3. Dispersinės analizės modelių kūrimas su aov() arba anova(lm())
4. Ar modelis patenkina prielaidas?
plot(aov(y~x))
5. Modelių rezultatų analizė:
model.tables(modelis,“means“,se = T) – kokie grupių vidurkiai?
summary.aov(modelis) – ANOVA lentelė (kurie faktoriai reikšmingi?)
summary.lm(modelis) – regresinio modelio lentelė (kurie faktorių lygmenys reikšmingi?)
interaction.plot(x,y,z) – kaip atrodo sąveikos tarp faktorių?
TukeyHSD(modelis) – Tjukio reikšmingų skirtumų kriterijus (Tukey honestly significant difference test): kurių grupių vidurkiai
skiriasi?
6. Jei yra nereikšmingų faktorių lygmenų arba faktorių, tuomet modelį supaprastinam.
Anova(modelis1,modelis2) ; AIC(modelis1,modelis2) – ar modelio supaprastinimas yra pagrįstas?
7. Kartojam 5-6 žingsnius, kol gaunam paprasčiausią statistiškai reikšmingą ANOVA modelį.
Jei duomenys ranginiai arba, nenormalūs arba
grupių variacija nehomogeniška –
neparametrinis ANOVA analogas: Kruskalo
ir Voliso kriterijus (Kruskal – Wallis test)
Principas: grupių rangų sumų skaičiavimas bendroje variacinėje eilutėje.

Prielaidos:
Stebėjimai skirtingose grupėse nepriklausomi
Grupių duomenys pasiskirstę pagal tą patį skirstinį

Pritaikymas R:

kruskal.test(y ~ x) – tikrina grupių medianų homogeniškumą

pairwise.wilcox.test(y ,x, p.adjust.method = “BH”) – kurios grupės skiriasi?


Jei stebėjimai skirtingose grupėse
priklausomi – Fridmano kriterijus (Friedman
test) Grupė 1 Poveikis Grupė N
/ laikas
Stebėjimas 1
Principas: grupių rangų sumų skaičiavimas bendroje variacinėje eilutėje.

Prielaidos:
Stebėjimai skirtingose grupėse priklausomi, nepriklausomi – grupių viduje.
Grupių duomenys pasiskirstę pagal tą patį skirstinį

Taikymas su R:
Stebėjimas N
friedman.test(y ~ x | id)
id – kintamasis nurodantis, kurie stebėjimai yra susiję (pvz. to paties individo tyrimai skirtingu laiku)
Metodo pasirinkimas...

You might also like