Professional Documents
Culture Documents
Inferencinė) statistika:
hipotezių testavimas
Matematinis geologinių duomenų apdorojimas
V paskaita
Poruotų imčių t-testas
Imtis 1 Imtis 2
Poveikis / laikas
Stebėjimas 1
Stebėjimas 2
Stebėjimas ...
Stebėjimas N
Poruotų imčių t-testas
Poruotos imtys – stebėjimai susiję
Pvz. matuoti tie patys objektai skirtingu laiku, aplinkybėm. Norima sužinoti, kaip (ar)
pasikeis objektas po poveikio / laiko.
Prielaidos:
• Imtys yra priklausomos
• Stebėjimai imtyse (tirti objektai) nepriklausomi
• Skirtumai tarp imčių yra normaliai pasiskirstę:
• Abi imtys normaliai pasiskirsčiusios
• Imčių dispersijos lygios
• Skirtumai neturi išskirčių
Poruotų imčių t-testas
•
Prielaidos:
Imtys sudarytos atsitiktinai (stebėjimai nepriklausomi)
Imčių populiacijos normaliai pasiskirsčiusios
PASKIRTIS:
• Palyginti dviejų imčių dispersijas (dažniausiam atliekama siekiant
įvertinti, ar galima atlikti vidurkių lygybės t-testą).
F-testas dispersijų lygybei patikrinti
•
- didesnė dispersija
- mažesnė dispersija
Laisvės laipsnių skaičius: ;
- mažesnės dispersijos imties laisvės laipsnių skaičius.
- didesnės dispersijos imties laisvės laipsnių skaičius
H0:
H1:
Jei testas atliekamas patikrinti dispersijų lygumo prielaidą t-testui, F-testo α turi sutapti su
t-testo α.
R funkcija: var.test(x,y)
Fišerio skirstinys
Iš normalaus skirstinio
„traukiami“ stebėjimai ir
sudaromos n1 ir n2
dydžio imtys.
Paskaičiuojamos F
statistikos.
Jei n1 ir n2 maži,
dispersijos varijuos labiau
ir F statistikos didesnių
verčių bus daugiau.
Duomenų normalumo prielaidos testavimas
x <- rnorm(30)
qqnorm(x)
qqline(x)
Y<-runif(100)
qqplot(x,y)
Šapiro-Vilko kriterijaus testas
Prielaidos:
Stebėjimai nepriklausomi
Labiausiai tinka nedidelėms imtims
Testas – vienpusis;
H0: X ~ N(µ,σ);
Kai p-vertė < α, nepriklauso normaliam skirstiniui
Paskirtis:
Patestuoti, ar imtis pasiskirsčiusi pagal normalų skirstinį.
Naudojimas R:
shapiro.test(x) x – skaitinis vektorius
Chi-kvadarato kriterijaus testas
Duomenys:
Gali būti dažnių, proporcijų, intervalų, santykių, kategorijų (visi tipai)
TESTAS - vienpusis
Prielaidos:
Imtys sudarytos atsitiktinai (stebėjimai nepriklausomi)
Per kategoriją/intervalą yra bent 5 stebėjimai
PASKIRTIS:
• Patestuoti, ar duomenys priklauso hipotetiniam skirstiniui
Chi-kvadrato skirstinys
•
= 12.70, = 10-1. sum((O-E)^2 / E) ; 1-pchisq(q = 12.70,df = 9); ARBA chisq.test(x) p-vertė = 0.18
Pavyzdys: duomenys santykiniai/intervaliniai
1. Suformuluojama nulinė hipotezė, kuriam skirstiniui duomenys priklauso (pvz. normaliam).
2. Duomenų variacinė eilutė padalinama į intervalus, taip, kad į kiekvieną intervalą patektų bent 5
stebėjimai.
cut2(x,g=n) funkcija x skaitinio vektorio vertes padalina į n intervalų, kiekviename intervale maždaug
vienodas skaičius stebėjimų; išvestis yra faktorius, kurio lygmenys ir vertės yra intervalų pavadinimai.
Hmsic paketas.
3. Sudaroma dažnių lentelė, rodanti, kiek stebėjimų į kiekvieną intervalą papuola. table(cut2(x,g=n))
4. Paskaičiuojama, kiek turėtų būti kiekviename intervale stebėjimų, jei duomenys iš tiesų priklauso
hipotetiniam skirstiniui; šiame žingsnyje aproksimuojamos skirstinio formos charakteristikos
Pvz.: pnorm(i1, mean = mean(x), sd = sd(x) ) * length(x) # i1: pirmo intervalo pabaiga; išvestis – koks
tikėtinas stebėjimų kiekis pirmame intervale.
5. Paskaičiuojam chi-kvadrato kriterijų ir gaunam jo p-vertę prie n-3 laisvės laipsnių.
Chi <- sum( (O-E)^2/E ); 1-pchisq(q = Chi,df = n-3); # n: intervalų skaičius. 2 papildomi laisvės laipsniai
dingsta testuojant normalaus skirstinio hipotezę, nes imties duomenimis reikia aproksimuoti
populiacijos vidurkį ir dispersiją.
Chi-kvadrato kriterijaus testas
Lagerštatų susiformavimas
ANOVA
Dispersinė analizė (Analysis Of VAriance,
ANOVA)
Lyginamose imtyse to paties priklausomo kintamojo vertės.
Stebėjimų suskirstymo į atskiras imtis kriterijus – faktoriaus vertės.
PASKIRTIS:
• Patikrinti, ar kintamojo vertė keičiasi priklausomai nuo faktorio lygmens.
DUOMENYS
Intervalinis/santykinis priklausomas kintamasis ir nepriklausomas
kategorinis kintamasis. Kiekviename faktorio lygmenyje yra n
priklausomo kintamojo verčių (pvz. pakartotinų matavimų)
H0: = =
H1: Bent vienas vidurkis yra kitoks.
Naudojama statistika – F.
Testas vienpusis.
Laminų gelmėjimas
Bandinių vietos
Jaunėjimo kryptis
PAVYZDYS
Pavyzdys:
Eolinės kopos atodangoje surinkti smėlio bandiniai. Smėlyje pastebėta
suodžių ir mikroangliukų. Jų kiekis gali sietis su gaisringumu bei aplinkinių
dirvožemių erozijos mastais. Siekiant įvertinti suodžių ir mikroangliukų kaitą
atodangoje buvo išmatuoti bandinių išdeginimo nuostoliai. Gauta kreivė
leidžia įtarti, kad egzistuoja dėsningi, cikliški
pokyčiai:
Laikas BP
Bet gal ši kreivė matavimo paklaidų
artefaktas? Atsakymą sužinoti gali
padėti ANOVA
1 2 Išdeginimo nuostolis, %
Prielaidos:
Priklausomo kintamojo pakartotinų matavimų imtys sudarytos atsitiktinai ir priklauso skirtingoms
populiacijoms: kiekvieną pakartotiną tyrimą bandiniai tirti skirtinga, atsitiktine tvarka, siekiant
išvengti sisteminių paklaidų (pvz. vėliausiai tirtas bandinys prisitraukęs daugiausia drėgmės).
Kiekvieno bandinio matavimai atstovauja skirtingai populiacijai, su galimai kitokiu vidurkiu.
Kiekviena tokia populiacija yra normaliai pasiskirsčiusi: Tokio pobūdžio duomenys, kurie gauti
atliekant vieno dydžio pakartotinus matavimus, yra dažniausiai normaliai pasiskirstę (priklauso
nuo prietaisų paklaidų).
Šių populiacijų dispersijos lygios: Kadangi variaciją tų pačių bandinių rezultatuose pagrinde lemia
prietaisų ir metodikos paklaidos ir visi bandiniai tirti ta pačia metodika bei prietaisais, tuomet
pakartotinų matavimų variacija (dispersija) turėtų būti bent jau santykinai lygi nepriklausomai,
koks bandinys tiriamas.
PASKIRTIS:
• Patikrinti, ar egzistuoja reikšmingi skirtumai tarp skirtingų bandinių išdeginimo nuostolių. Kitaip
tariant, ar galima kalbėti apie gaisringumo / dirvožemio erozijos kaitą laike?
Pavyzdys
Nustatyti išdeginimo nuostoliai buvo labai maži ir siekė svarstyklių tikslumo
limitą. Siekiant patikrinti, ar svarstyklių tikslumas pakankamas, jog būtų
galima teigti, kad išdeginimo nuostoliai keičiasi priklausomai nuo bandinio
numerio (gylio / laiko), buvo atlikti 4 papildomi išdeginimo nuostolių
matavimai su tais pačiais
bandiniais. Gauta, kad tų pačių
Laikas BP
bandinių pakartotini matavai
varijavo ko ne tiek pat, kiek
varijavo matavimai tarp bandinių:
1 2 Išdeginimo nuostolis, %
Pavyzdys
Šioje analizėje:
Faktorius (nepriklausomas kintamasis) – bandinio numeris/gylis/laikas
Priklausomas kintamasis – išdeginimo nuostolis
Vienfaktorinė dispersinė analizė – ONE-WAY
ANOVA (ANalysis Of VAriance)
Vienfaktorinė dispersinė analizė nustato, kokia visos variacijos duomenyse ()
dalis yra sudaryta iš skirtumų tarp priklausomojo kintamojo grupių () (pvz.
skirtingų bandinių) ir kokia dalis sudaryta iš duomenų variacijos grupių viduje ().
= +; ;
Laisvės ;
Kvadratų laipsnių Dispersijos F-testo
Variacijos suma skaičius įverčiai statistika N – visų stebėjimų kiekis.
šaltinis:
Grupių m-1 m – grupių kiekis.
Vidinė N-m
F statistikos laisvės
Visa N-1
laipsnių skaičius:
;
Vienfaktorinė dispersinė analizė – ONE-WAY
ANOVA (ANalysis Of VAriance)
•;
j:grupės nr.;
; m: faktorio lygmenų (stebėjimų
; grupių) kiekis;
i: stebėjimo nr. grupėje;
Laisvės n: stebėjimų kiekis grupėje;
Kvadratų laipsnių Dispersijos F-testo N: visų stebėjimų kiekis (n*m);
Variacijos suma skaičius įverčiai statistika
šaltinis: : i-tasis j grupės stebėjimas;
Grupių m-1
: visų stebėjimų vidurkis;
Vidinė N-m : j grupės stebėjimų vidurkis.
Visa N-1
SST
Vienfaktorinė dispersinė analizės modelis
•
j-populiacijos
X e e
ij i ij i
(grupės/bandinio) vidurkis
ij
v1 = 4
v2 = 6*5-5 = 25
P-vertė ≈ 5e-05
ANOVA modelių rūšys (priklausomai nuo
efektų)
Fiksuoti efektai (I tipo modelis - pristatytas): faktorio lygmenys ir juos
atitinkančios imtys parinkti neatsitiktinai. Tik šių faktorio lygmenų
poveikis priklausomam kintamajam mus domina ir išvadas apie
populiacijų vidurkių lygybę taikome tik šiems lygmenims (išvados
netaikomos netirtiems lygmenims).
Atsitiktiniai efektai (II tipo modelis): faktorio lygmenys parinkti
atsitiktinai iš daugelio kitų lygmenų, kurių poveikis priklausomam
kintamajam mus taip pat domina. Išvadas taikome netirtiems lygmenims.
Mišrūs efektai (III tipo modelis): vieni faktorio lygmenys fiksuoti, kiti
atsitiktiniai.
Vienfaktorinė ANOVA su R:
aov() bei anova(lm()) – funkcijos leidžiančios sukurti ANOVA modelius
aov(y~x)
y – priklausomas kintamasis, x - nepriklausomas kintamasis (faktorius)
nurodytas kaip fiksuotas efektas
aov(y~Error(x))
x – nepriklausomas kintamasis, nurodytas kaip atsitiktinis efektas
Dvifaktorinė dispersinė analizė be kartotinų
matavimų – TWO-WAY ANOVA
Tiriama situacija: reiškinio savybės (Y) priklauso nuo DVIEJŲ išorinių aplinkybių (A ir B), kai žinoma, kad jų sąveika
nesvarbi.
DUOMENYS: intervalinis/santykinis priklausomas kintamasis ir 2 nepriklausomi kategoriniai kintamieji. Kiekvienai
kategorinių kintamųjų verčių kombinacijai viena priklausomojo kintamojo vertė.
Prielaidos:
Kiekvieną skirtingą abiejų faktorių kombinaciją atitinkančios imtys yra sudarytos atsitiktinai ir priklauso
kitokioms populiacijoms.
Kiekviena tokia populiacija yra normaliai pasiskirsčiusi
Šių populiacijų dispersijos lygios.
Nėra sąveikos tarp skirtingų faktorių (A, B) (A faktorio poveikis priklausomam kintamajam nepriklauso nuo B
faktorio lygmens)
PASKIRTIS:
• Patikrinti, ar kintamojo vertė keičiasi priklausomai nuo abiejų faktorių lygmenų.
DUOMENYS
Intervalinis/santykinis priklausomas kintamasis ir 2 nepriklausomi
kategoriniai kintamieji. Kiekvienai nepriklausomų kintamųjų verčių
kombinacijai viena priklausomojo kintamojo vertė.
PVZ:
H0: = =
H1: Bent vienas vidurkis yra kitoks.
H0: = =
H1: Bent vienas vidurkis yra kitoks.
Naudojama statistika – F.
Testas vienpusis.
Dvifaktorinė dispersinė analizė
= +;
Laisvės ;
Kvadratų laipsnių Dispersijos F-testo
Variacijos Kvadratų
suma Dispersijos
įverčiai F-testo
statistika
šaltinis:
Variacijos suma skaičius įverčiai statistika ;
Tarp A
šaltinis: m-1
faktorio
Tarp A m-1 ;
grupių
faktorio
N – visų stebėjimų kiekis.
Tarp B
grupių k-1
faktorio M – A faktorio lygmenų skaičius.
Tarp B
grupių k-1 F1 statistikos laisvės laipsnių
faktorio
Vidinė (m-1)(k-1)
grupių skaičius:
Visa N-1 ;
Vidinė (m-1)(k-1)
F2 statistikos laisvės laipsnių
Visa N-1 skaičius:
;
Dvifaktorinė dispersinė analizė
j: A faktorio grupės nr.;
m: A faktorio lygmenų
(stebėjimų grupių) kiekis;
•; b: B faktorio grupės nr.;
; k: B faktorio lygmenų (stebėjimų
; grupių) kiekis;
: j, b grupei priklausantis
; stebėjimas;
: visų stebėjimų vidurkis;
: faktorio A j grupės stebėjimų
vidurkis.
Taikymo pavyzdys geologijoje, Davis (2002), 87 psl.
Dvifaktorinė:
aov(y ~ x + z)
x ir z nepriklausomi kintamieji, nurodyti kaip fiksuoti efektai
aov(y ~ x + Error(z))
x– nepriklausomas kintamasis, nurodytas kaip fiksuotas efektas
z – nepriklausomas kintamasis, nurodytas kaip atsitiktinis efektas
Dvifaktorinė dispersinė analizė – TWO-WAY
ANOVA su pakartotinais stebėjimais
Tiriama situacija: reiškinio savybės (Y) priklauso nuo DVIEJŲ išorinių aplinkybių (A ir B).
DUOMENYS: intervalinis/santykinis priklausomas kintamasis ir 2 nepriklausomi kategoriniai kintamieji.
Kiekvienai nepriklausomų kintamųjų verčių kombinacijai n priklausomojo kintamojo verčių.
Prielaidos:
Kiekvieną skirtingą abiejų faktorių kombinaciją atitinkančios imtys yra sudarytos atsitiktinai ir
priklauso kitokioms populiacijoms.
Kiekviena tokia populiacija yra normaliai pasiskirsčiusi
Šių populiacijų dispersijos lygios.
PASKIRTIS:
• Patikrinti, ar kintamojo vertė keičiasi priklausomai nuo abiejų faktorių lygmenų ir sąveikų tarp
jų.
Duomenys
Intervalinis/santykinis priklausomas kintamasis ir 2 nepriklausomi
kategoriniai kintamieji. Kiekvienai kategorinių kintamųjų verčių
kombinacijai n priklausomojo kintamojo verčių.
n
ai,
ėjim
b B faktorio 2 grupė
Ste B faktorio 2 grupė
B faktorio 3 grupė
B faktorio 3 grupė
Fakt
oria
us B gr
upė
s
Dvifaktorinė dispersinė analizė su
pakartotinais stebėjimais
• Trys hipotezės:
H0: = =
H1: Bent vienas vidurkis yra kitoks.
H0: = =
H1: Bent vienas vidurkis yra kitoks.
H0:
H1:
Naudojama statistika – F.
a,b,c – nėra
sąveikos tarp
K ir L faktorių
d, e, f – yra
sąveika tarp
K ir L faktorių
Čekavičius, Murauskas (2002),
83 psl.
Dvifaktorinė dispersinė analizė su
pakartotinais stebėjimais
R funkcijos:
aov(y ~ x+z+x:z)
x – nepriklausomas kintamasis, nurodytas kaip fiksuotas efektas
z – nepriklausomas kintamasis, nurodytas kaip fiksuotas efektas
x:z – sąveika tarp x ir z nepriklausomų kintamųjų, nurodyta kaip fiksuotas
efektas
aov(y ~ x*z)
Formulė analogiška y ~ x+z+x:z, tačiau trumpesnis variantas
Įdėtinė arba kitaip hierarchinė dispersijos
analizė (Nested ANOVA)
Tiriama situacija: reiškinio savybės priklauso nuo išorinių aplinkybių A ir jos sub-
aplinkybių B (pvz. grupių ir tų grupių sub-grupių, teritorijos ir jos dalių, kerno ir jo dalių)
DUOMENYS: intervalinis/santykinis priklausomas kintamasis ir 2 hierarchiškai susiję
kategoriniai kintamieji.
Pvz: FAKTORIUS A: a tipo uoliena b tipo uoliena c tipo uoliena
FAKTORIUS B:
I uoliena II uoliena III uoliena IV uoliena V uoliena VI uoliena
PASKIRTIS:
• Patikrinti, A faktoriaus, kuris hierarchiškai gali priklausyti nuo B faktoriaus,
poveikį priklausomam kintamajam
DUOMENYS
Prielaidos:
Stebėjimai skirtingose grupėse nepriklausomi
Grupių duomenys pasiskirstę pagal tą patį skirstinį
Pritaikymas R:
Prielaidos:
Stebėjimai skirtingose grupėse priklausomi, nepriklausomi – grupių viduje.
Grupių duomenys pasiskirstę pagal tą patį skirstinį
Taikymas su R:
Stebėjimas N
friedman.test(y ~ x | id)
id – kintamasis nurodantis, kurie stebėjimai yra susiję (pvz. to paties individo tyrimai skirtingu laiku)
Metodo pasirinkimas...