Professional Documents
Culture Documents
Spss Super
Spss Super
POPULACIJA I UZORCI
Populaciju ine svi lanovi neke skupine sa odreenom karakteristikom koju elimo
mjeriti. Npr. da elimo saznati prosjeni IQ stanovnika Hrvatske, populaciju nam ine svi
stanovnici, a karakteristika je u ovom sluaju IQ. Mjerenje na cijeloj populaciji je
najpreciznije, ali u sluaju da je populacija velika (4.5 milijuna stanovnika Hrvatske) ili da
je proces mjerenja takav da nam mijenja populaciju (provjeravanjem ispravnosti svih
automobila crash-testom unitili bismo cijelu populaciju) to nije nuno praktino ili
izvedivo. Zato se najee mjerenja vre na ogranienom broju lanova skupine koji
nazivamo uzorak.
Statistiki podatci koje dobijemo mjerenjem karakteristika uzorka nam predstavljaju
procjenu rezultata koji bi smo dobili na cijeloj populaciji - dakle uzorak je praktiniji, ali
manje precizan. Glavni faktori kod biranja uzorka su reprezentativnost i veliina uzorka.
Uzorak je samo dio populacije, to znai da moramo biti paljivi pri uzimanju uzorka kako
zbog loeg odabira lanova samog uzorka ne bi dolo do pogrenih zakljuaka. Dakle
uzorak mora vjerno reprezentirati populaciju. Veliina uzorka nam je vana zbog
kompliciranosti mjerenja (elimo to manji uzorak kako bi istraivanje bilo to jeftinije i
jednostavnije), a sa druge strane uzorak ne smije biti premali inae e dolaziti do
prevelike greke u mjerenju (veliina uzorka najvie ovisi o toleranciji greke koju si
moemo dopustiti, s tim da se obino doputa do 5% greke).
Postoji vie naina biranja uzoraka, s tim da od naina ovisi reprezentativnost:
1. Sluajni uzorak - kod sluajnog uzorka vano je da svaki lan populacije ima
jednaku vjerojatnost da bude izabran u uzorak. Da bi se dobio sluajni uzorak
moramo koristiti metodu izbora koja potpuno iskljuuje mogunost da neki od
lanova dobiju veu vjerojatnost izbora. Npr. uzimanje uzorka samo od ljudi iz
telefonskog imenika je pristrano zato jer smo zanemarili sve ljude koji nemaju
telefon ili ga nisu stavili u telefonski imenik. Najbolje je koristiti generator sluajnih
brojeva u sprezi sa popisom cijele populacije.
2. Sistematski uzorak - moe biti jednako reprezentativan kao i sluajni uzorak.
Moramo imati popis svih lanova populacije koji je posloen na nain da ne unosi
pristranost (npr. popis ljudi po abecedi je dobar). Nakon toga odaberemo neki
sistem po kojemu odabiremo lanove (npr. prvog lana uzmemo sluajno, a nakon
toga uzimamo svakog desetog), to e dati slian efekt kao i sluajni uzorak ako je
lista bila dobra.
3. Stratificirani uzorak - populaciju podijelimo u grupe (stratume) prema nekim
karakteristikama (npr. po starosnoj skupini), te zatim iz svakog stratuma uzmemo
sluajni uzorak. Ova metoda moe dati reprezentativniji uzorak od obinog
sluajnog uzorka i esto se koristi. Veliina uzorka iz pojedinih stratuma ovisi o
tome kolika je veliina stratuma u odnosu na ukupnu populaciju (npr. ako ima u
populaciji ima 60% ena, a 40% mukaraca onda se uzorak mora sastojati od 60%
ena i 40% mukaraca), no ovisi nam i o nekim drugim faktorima (npr. ako
ustanovimo da stratum A od 1000 lanova ima st.dev. 5, a stratum B od 100
lanova ima st.dev. 20, onda je omjer 1000*5 : 100*20 = 5 : 2).
4. Klaster uzorak - je donekle slian stratificiranom uzorku, ali je manje
reprezentativan. Populaciju dijelimo u klastere i nakon toga sluajnim odabirom
uzimamo odreeni broj klastera iz kojih onda uzimamo sve lanove u uzorak.
Primjer: podijelimo grad u etvrti i nakon toga sluajno odaberemo nekoliko etvrti
u kojima sve stanovnike ispitamo o njihovom miljenju o gradskoj upravi.
5. Kvotni uzorak - takoer slian stratificiranom uzorku, ali jo manje precizan.
Ustvari radi se o biranju nesluajnih stratuma, zato jer se prema nekim prethodnim
informacijama (npr. pretpostavka da je jednako mukaraca i ena u nekoj
populaciji) unaprijed odreuje koliko je e biti velik uzorak ljudi koji se uzima iz
pojedinog stratuma.
6. Prigodni uzorak - uzorak koji nam se nae pri ruci :) moe biti izuzetno pristran,
no moe biti i nepristran ukoliko nam zavisna varijabla ne ovisi o faktorima koji se
pojavljuju u uzorku. Npr. izrazito pristrano bi bilo zakljuivati o postotku
"normalnih" ljudi meu tienicima psihijatrijske ustanove, no isti uzorak bi mogao
dati nepristrane rezultate ako bismo npr. testirali njihove motorike sposobnosti.
Prigodni uzorci se esto koriste u istraivanjima zbog izrazite praktinosti, no
potrebno je znati to radite!
Veliina uzorka ovisi primarno o tome koliko precizno mjerenje elimo, dok je ovisnost o
veliini populacije neznatna. Takoer ovisno o sluaju veliiinu uzorka moe biti prilino
komplicirano raunati, ovdje je naveden samo najjednostavniji raun. Dakle uzorak od
100 ljudi podjednako e dobro funkcionirati za populaciju od 1000 ljudi i za milijun ljudi,
no veliina uzorka je obrnuto proporcionalna sa kvadratom greke i moe se raunati
pomou formule n = ^2/d^2, gdje je n veliina uzorka, d je pogreka, je standardna
devijacija. Obino se uzima =1,96 (podruje u kojem je 95% vjerojatnost da e se
pojava desiti) pa nam u osnovi varira samo greka. Npr. za pogreku od 4% potreban nam
je uzorak od 600 lanova.
Da li su uzorci zavisni (parni) ili nezavisni (neparni)?
Openito, kad god je ispitanik u jednoj skupini povezan s ispitanikom u drugoj skupini,
govorimo o parnim uzorcima.
Primjerice, u istraivanju majki i keri, uzorci su upareni, majka sa svojom kerkom.
Ispitanici u dva uzorka nisu nezavisni jedni od drugih. Za nezavisne uzorke je vjerojatnost
da lan populacije bude odabran kao uzorak potpuno neovisna o bilo kojem drugom
odabranom lanu, bilo da se radi o skupini tog lana ili nekoj drugoj skupini u istraivanju
(7).
Parni se podaci mogu definirati kao vrijednosti koje se obino mjere u parovima i stoga se
moe oekivati da one vie variraju izmeu parova, nego izmeu ispitanika unutar para.
Ukoliko nisu postignuti ti uvjeti, u tom sluaju govorimo o neuparenim ili nezavisnim
uzorcima.
Zato je to vano? Postoje mnogi statistiki testovi koji imaju razliite verzije ukoliko se
radi o parnim, odnosno neparnim uzorcima te imaju razliit matematiki pristup koji moe
dovesti do razliitih rezultata. Primjerice, dobro poznati statistiki test t-test koji se
primjenjuje za usporedbu srednje vrijednosti izmeu dva uzorka, ima razliite verzije za
parne/neparne uzorke: t-test z
a parne (zavisne) uzorke i t-test za neparne uzorke.
Stoga je odabir t-testa za parne uzorke (zavisne) umjesto onog za neparne (nezavisne)
pogreka koja moe dovesti do krivih rezultata/zakljuaka u procesu statistikog
zakljuivanja iz premise.
Test za parne uzorke moramo odabrati u sluaju kada pokus slijedi jedan od ovih ustroja
(7):
kada mjerimo varijable prije i poslije intervencije kod svakog ispitanika;
kada odabiremo ispitanike kao parove, uparene prema varijablama kao to su npr. dob,
etnika skupina ili stupanj ozbiljnosti bolesti; jedan od parova bude lijeen na jedan nain;
a drugi par na alternativni nain;
2
izvodimo laboratorijski pokus nekoliko puta, svaki puta s kontrolnim i ispitivanim uzorkom
u duplikatu;
mjerimo varijablu ishoda kod parova dijete/roditelj (ili bilo kojem slinom paru).
Openito govorei, kad god oekujemo da e nam vrijednost u jednom uzorku biti blia
odreenoj vrijednosti u drugom uzorku, nego to bi bila kod sluajno odabrane vrijednosti
u drugom uzorku, moramo odabrati test za uparene podatke. U drugom sluaju
odabiremo test za nezavisne uzorke.
osnovni
tip
kategorikih
podataka
(npr.
pozitivno/negativno; prisutno/odsutno itd.).
2. Nominalni podaci - kod kompleksnijih kategorikih podata, prvu (i najslabiju) razinu
podataka predstavljaju nominalni podaci. Podaci nominalne razine dobiju se iz vrijednosti
koje se razlikuju samo po nazivu. Ne postoji neka standardna shema poretka (npr.
rumunjska, maarska, hrvatska skupina ljudi itd.).
3. Ordinalni (uredbeni) podaci - slini su nominalnim podacima u tome da se podaci
razlikuju prema nazivu, a od nominalnih podataka ih razlikuje shema stupnjevanja (npr.
povremeni puai, umjereni i teki puai)
VRSTA OBILJEJA
KVALITATIVNO
(KATEGORIKO)
NOMINALNA
- opisna
- brojevi, slova
- pokazatelji razvrstani u skupine
- rase
- spol
ORDINALNA
- uredbena
- brojevi
- pokazatelji imaju obavijesnu vrijednost
- ocjene u koli
- klasifikacije bolesti (CIN I, CIN II, CIN III)
OMJERNA
KVANTITATIVNO
(NUMERIKO)
KONTINUIRANA
DISKRETNA
INTERVALNA
aritmetika sredina
medijan (centralna vrijednost)
mod (dominantna vrijednost)
Mjere varijabilnosti
raspon
standardna devijacija
koeficijent varijacije
ARITMETIKA SREDINA
aritmetika sredina =suma svih rezultata / broj rezultata
prosjek, teite rezultata
zajednika aritmetika sredina !
(61 + 1)/2= 31
ako su rezultati grupirani u razrede -> mod je aritmetika sredina razreda s najveom
frekvencijom
RASPON
razlika izmeu maksimuma i minimuma
PAZITI !!
s SE
STATISTIKI TESTOVI
Statistiki test je postupak pomou kojeg se dolazi do odluke o prihvaanju ili
odbacivanju statistike hipoteze uz odreenu vjerojatnost
NEPRAMETRIJSKI
TESTOVI
Mann-Whitney U-test
Wald-Wolfowitz test
Kruskall-Wallis analiza
varijance rangova (Htest)
Medijan test
SVRHA TESTA
Usporedba dva
nezavisna uzorka koji su
uzeti iz iste populacije
Usporedba dva seta
opaanja na istom
uzorku
Usporedba vie od dva
nezavisna uzorka koji su
uzeti iz iste populacije
Freedmanova analiza
varijance
Kendall's W-test
Cochran's Q-test
10
11
Pri interpretaciji rezultata statistikih testova valja imati na umu da se hipoteza ne dokazuje!
Rezultat statistikog testa ukazuje samo da li dostupni podaci podravaju ili ne podravaju
hipotezu, tj. koliko bi hipoteza mogla biti prihvatljivom ili neprihvatljivom, dakako uz odreenu
vjerojatnost.
Na temelju podataka prikupljenih na uzorku ispitanika statistiko-matematikim postupkom
izraunaju se vrijednosti specifinog statistikog testa. Na temelju vrijednosti rezultata izraunatih
statistikim testom donosi se odluka o odbacivanju ili prihvaanju nul-hipoteze.
Dobivene vrijednosti statistikog testa reflektiraju veliinu dokaza protiv nul-hipoteze u
ispitivanom uzorku. Dakle, to je vea apsolutna vrijednost statistikog testa (tj. bez obzira na
njezin predznak + ili -), vei je i dokaz protiv nul-hipoteze, tj. manja je vjerojatnost da je nulhipoteza istinita.
Sve vrijednosti statistikih testova slijede neku poznatu teorijsku distribuciju vjerojatnosti..
Distribucija statistikog testa distribucija je vjerojatnosti za vrijednosti konkretnog testa. Povrina
ispod krivulje predstavlja statistiku vjerojatnost (P-vrijednost).
Sve mogue vrijednosti rezultata statistikog testa toke su na horizontalnoj osi grafa distribucije
vjerojatnosti statistikog testa; na vertikalnoj osi je vjerojatnost. Razlikujemo dvije grupe
vrijednosti: grupa vrijednosti u podruju odbacivanja H0 te grupa vrijednosti u podruju
prihvaanja H0. Prema tome u koje od ovih podruja pada vrijednost statistikog testa prihvaa se
ili odbacuje nul-hipotezu, odnosno odbacuje se ili prihvaa alternativnu hipotezu.
12
13
vrsta podataka
brojani
kategoriki
veliina uzorka
povezanost skupina
itd.
primjer: 2test
razina znaajnosti
mjera pogrjeke tijekom zakljuivanja
iskazuje se vjerojatnou P
P<
E. zakljuak
P<
Pa
Pogreka koju inimo kada odbacujemo H0, a ona je istinita, je pogreka prve vrste.
Pogreka koju inimo kada ne odbacujemo H0, a istinita je H1, je pogreka druge vrste.
Pogreka tipa I: (razina znaajnosti testa)
Pogreka tipa II: (1- je snaga testa vjerojatnost odbacivanja netone nulhipoteze)
15
uobiajena vrijednost:
= 0,05
= 5%
to manja
mogue i manje:
= 0,01
=?
= 0,005
Neparametrijski testovi:
16
VARIJABLE
stalne ne e se promjeniti tijekom ispitivanja (spol, rasa, genotip...)
promjenive mogu se promijeniti tijekom ispitavanja (broj leukocita, koncentracija
glukoze...)
nezavisne varijable
mjerimo neovisno o ishodu pokusa, prethode zavisnim varijablama, prediktori,
rizini imbenici, varijable izloenosti (os x)
zavisne varijable
kriteriji, posljedice djelovanja nezavisnih varijabli, predstavljaju mjeru ishoda koju
u istraivanju mjerimo (os y)
T - TEST
F - TEST
HI - KVADRAT TEST
T - TEST
17
to to znai rei da je prosjek za dvije grupe statistiki razliit? Razmotrimo tri situacije je
prikazano na slici 2 . Prva stvar koju treba primijetiti na tri situacije je da je razlika
izmeu prosjeka je isti u sva tri. No , takoer treba primijetiti da tri situacije ne
izgledaju isto. Gornji primjer pokazuje sluaj s umjereno varijabilnosti rezultata u svakoj
skupini. Druga situacija pokazuje veliku varijabilnost. trei prikazuje sluaj s niskim
varijabilnosti. Jasno , mi bi se zakljuiti da je grupa s najasnoije izraenim razlikama ona
s malom arijabilnou... Zato? Budui da je relativno malo preklapanje izmeu dvije
krivulje u obliku zvona . U sluaju velike varijabilnosti razlika je najmanje upeatljiva se
dvije zvonolike distribucije uvelike preklapaju.
This leads us to a very important conclusion: when we are looking at the differences
between scores for two groups, we have to judge the difference between their means
relative to the spread or variability of their scores. The t-test does just this.
18
The top part of the formula is easy to compute -- just find the difference between the
means. The bottom part is called the standard error of the difference. To compute it,
we take the variance for each group and divide it by the number of people in that group.
We add these two values and then take their square root. The specific formula is given in
Figure 4:
VARIJANTE
T - TESTA
POSTUPNIK T - TESTA
19
F TEST
Test-statistika F je sluajna varijabla koja ima F-distribuciju s DF1 i DF2 stupnjeva slobode.
Uz razinu znaajnosti koju istraiva sam izabire s obzirom na mogue posljedice
(najee 0,05 ili 0,01) interpretacija rezultata je ista kao i u sluaju interpretacije t-testa.
Drugim rijeima nul-hipoteza aritmetike sredine svih grupa (uzoraka) su jednake bit
e prihvaena ako je granini F vei od izraunatog. Ako je pak granini F manji od
izraunatog, onda nul-hipotezu treba odbaciti. Drugim rijeima, prihvatit e se hipoteza
da se bar jedna aritmetika razlikuje od preostalih.
ANALIZA VARIJANCE - A N O V A
T-test je primjenjiv iskljuivo kada imamo dva uzorka. Meutim esto u istraivanjima
imamo vie uzoraka. Analiza varijance je test koji se primjenjuje u takvim sluajevima.
Primjena analize varijance bit e mogua ako je mjerena varijabla normalno distribuirana i
ako su varijance svih promatranih uzoraka jednake. Ideja analize varijance sastoji se u
razdvajanju varijabilnosti mjerenog varijancom na dva dijela: varijabilnost meu
ispitanicima koji pripadaju razliitim grupama odnosno uzorcima (engl. between-group
variation) i varijabilnost meu ispitanicima unutar svake pojedine grupe odnosno uzorka
(engl. within-group variation). Ovaj drugi dio varijabilnosti esto se naziva neobjanjenom
ili rezidualnom varijabilnou.
20
HI KVADRAT ( 2 )TEST
Hi-kvadrat test spada u grupu statistikih testova koji ne ukljuuju usporedbe. Uvaj test
se koristi za ispitivanje nezavisnosti (eng. indepedence) dvije varijable ili faktora,
sluajnosti (eng. randomness), te dobrote prilagodbe (eng. goodness-to-fit).
Upotrebljava u veini sluajeva ako se radi o kvalitativnim podacima ili ako tim podacima
distribucija znaajno odstupa od normalne.
Ve u poetku treba naglasiti da se hi-kvadrat test rauna samo s frekvencijama pa u
raun nije doputeno unositi nikakve mjerne jedinice. Osnovni podaci istraivanja mogu
biti i mjerne vrijednosti, ali u hi-kvadrat unose se samo njihove frekvencije.
Hi-kvadrat test je vrlo praktian test koji moe osobito posluiti onda kad elimo utvrditi
da li neke dobivene (opaene) frekvencije odstupaju od frekvencija koje bismo oekivali
pod odreenom hipotezom. Kod ovog testa katkada traimo postoji li povezanost izmeu
dvije varijable i on pokazuje vjerojatnost povezanosti. Moemo pretpostaviti da neka
21
fo = opaene frekvencije
ft= teoretski oekivane frekvencije
NEPARAMETRIJSKE METODE
razlozi za primjenu:
_ distribucije varijabli oigledno nisu normalne
_ uzorak je mali, a postoji sumnja na normalnost
varijable su mjerene ordinalnom skalom
22
ordinalnom
_ varijable su mjerene
MANN-WHITNEY U TEST
testira pripadaju li dva neovisna uzorka istoj populaciji (tj. imaju li iste medijane)
Sometimes distributions of variables do not show a normal distribution, or the samples
taken are so small that one cannot tell if they are part of a normal distribution or not.
Using the t-test to tell if there is a significant difference between samples is not
appropriate here.
The Mann-Whitney U-test can be used in these situations. This test can be used for very
small samples (between 5 and 20). It can also be used when the variable being recorded
is measured using an arbitrary scale which cannot be measured accurately (e.g. a colour
scale measured by eye or a behavioural trait such as aggression).
MWW is virtually identical to performing an ordinary parametric two-sample t test on the
data after ranking over the combined samples.
The size of leaves taken from bramble bushes were measured to see if there is a
difference
between the size of the leaves growing in full sunlight and those growing in the shade.
Width of leaf / cm
Sunlight 6.0 4.8 5.1 5.5 4.1 5.3 4.5 5.1
Shade 6.5 5.5 6.3 7.2 6.8 5.5 5.9 5.5
The Mann-Whitney U-test is chosen because the sample size is so small it is not clear if
these
are samples taken from normally distributed data.
1. Set up the Null Hypothesis: There is no difference between the leaves taken from the
sunlit bramble and the shaded bramble.
Alternative Hypothesis: There is a difference between the leaves taken from the sunlit
bramble and the shade bramble.
2. Let n1 be the size of the smallest sample and n2 be the size of the biggest sample. In
this example both are of the same size so it does not matter which you choose. n1 = 8
and n2 = 8
3. Rank all the values for both samples from the smallest (=1) to the largest. Set them up
as shown in the table below. Note where the values are the same and share the same
rank, take an average of the rank values.
4. Total the ranks of each sample R1 and R2 (see the bottom of the table above).
5. Calculate the U values for both samples:
6. Use the table to find the critical value for the U statistic at the 5% level for samples of
this size (n1 = 8 and n2 = 8).
Ucrit = 13
23
7. Reject the Null Hypothesis if the smallest value of U1 or U2 is below Ucrit. In this case
U2 is below 13 we can reject the Null Hypothesis and accept the Alternative Hypothesis.
The difference between the size of the bramble leaves in the light and the dark is
significant for P>0.05. Bramble leaves in the dark seem to be significantly bigger.
npr:
Sluajni uzorak n1=7 iz populacije X dao je sljedea opaanja:
3.7; -1.1; 2.6; 2.3; 4.1; 0.8; 3.9
a sluajni uzorak n2=5 iz populacije Y opaanja:
4.6; 4; 5.3; 4.4; 3
Pripadaju li ovi uzorci istoj populaciji?populaciji
The test involves the calculation of a statistic, usually called U, whose distribution under
the null hypothesis is known. In the case of small samples, the distribution is tabulated,
but for sample sizes above ~20 there is a good approximation using the normal
distribution. Some books tabulate statistics equivalent to U, such as the sum of ranks in
one of the samples, rather than U itself.
The U test is included in most modern statistical packages. It is also easily calculated by
hand, especially for small samples. There are two ways of doing this.
For small samples a direct method is recommended. It is very quick, and gives an insight
into the meaning of the U statistic.
1. Choose the sample for which the ranks seem to be smaller (The only reason to do
this is to make computation easier). Call this "sample 1," and call the other sample
"sample 2."
2. Taking each observation in sample 1, count the number of observations in sample
2 that are smaller than it (count a half for any that are equal to it).
3. The total of these counts is U.
For larger samples, a formula can be used:
1. Arrange all the observations into a single ranked series. That is, rank all the
observations without regard to which sample they are in.
2. Add up the ranks for the observations which came from sample 1. The sum of
ranks in sample 2 follows by calculation, since the sum of all the ranks equals
N(N + 1)/2 where N is the total number of observations.
3. U is then given by:
where n1 is the sample size for sample 1, and R1 is the sum of the ranks in sample
1.
KRUSKAL-WALLIS TEST
testira pripada li vie uzoraka istoj populaciji
In statistics, the KruskalWallis one-way analysis of variance by ranks a nonparametric method for testing equality of population medians among groups. It is
24
identical to a one-way analysis of variance with the data replaced by their ranks. It is an
extension of the MannWhitney U test to 3 or more groups.
Since it is a non-parametric method, the KruskalWallis test does not assume a normal
population, unlike the analogous one-way analysis of variance. However, the test does
assume an identically-shaped and scaled distribution for each group, except for any
difference in medians.
Definition: A non-parametric test (distribution-free) used to compare three or more
independent groups of sampled data.
Assumptions: Unlike the parametric independent group ANOVA (one way ANOVA), this
non-parametric test makes no assumptions about the distribution of the data (e.g.,
normality).
Characteristics: This test is an alternative to the independent group ANOVA, when the
assumption of normality or equality of variance is not met. This, like many nonparametric tests, uses the ranks of the data rather than their raw values to calculate the
statistic. Since this test does not make a distributional assumption, it is not as powerful
as the ANOVA.
Test: The hypotheses for the comparison of two independent groups are:
Ho: The samples come from identical populations
Ha: They samples come from different populations
Notice that the hypothesis makes no assumptions about the distribution of the
populations. These hypotheses are also sometimes written as testing the equality of the
central tendency of the populations.
The test statistic for the Kruskal-Wallis test is H. This value is compared to a table of
critical values for U based on the sample size of each group. If H exceeds the critical
value for H at some significance level (usually 0.05) it means that there is evidence to
reject the null hypothesis in favor of the alternative hypothesis. (See the Zar reference
for details.)
Note: When sample sizes are small in each group (< 5) and the number of groups is
less than 4 a tabled value for the Kruskal-Wallis should be compared to the H statistic to
determine the significance level. Otherwise, a Chi-square with k-1 (the number of
groups-1) degrees of freedom can be used to approximate the significance level for the
test.
Graphical comparison: The graphical comparison allows you to visually see the
distribution of the two groups. If the p-value is low, chances are there will be little
overlap between the distributions. If the p-value is not low, there will be a fair amount of
overlap between the groups. There are a number of options available in the comparison
graph to allow you to examine the groups. These include box plots, means, medians,
and error bars.
Location in KWIKSTAT and WINKS: The Kruskal-Wallis test (independent group
comparison test) is located in the Analyze/Non-parametric comparisons menu. When
there are only two groups in this comparison, the test becomes a Mann-Whitney test.
KORELACIJA I REGRESIJA
25
KORELACIJA
Matematiki postupak za izraunavanje stupnja povezanosti dvaju brojanih pokazatelja
kojim se izraunava:
koeficijent korelacije r
statistika znaajnost koeficijenta korelacije P
Korelacija predstavlja suodnos ili meusobnu povezanost izmeu razliitih pojava
predstavljenih vrijednostima dvaju varijabli. Pri tome povezanost znai da je vrijednost
jedne varijable mogue sa odreenom vjerojatnou predvidjeti na osnovu saznanja o
vrijednosti druge varijable. Klasini primjeri povezanosti su npr. saznanje o utjecaju
koliine padalina na urod itarica, o povezanosti slane hrane i visokog krvnog tlaka i sl.
Promjena vrijednosti jedne varijable utjee na promjenu vrijednosti druge varijable.
Varijabla koja svojom vrijednou utjee na drugu varijablu naziva se neovisna varijabla.
Varijabla na koju se utjee naziva se ovisna varijabla. Npr. unoenje vie soli u organizam
utjee na porast krvnog tlaka, dok porast krvnog tlaka ne utjee na poveanje unoenja
soli u organizam. U ovom primjeru unoenje soli u organizam je neovisna varijabla, a
poveanje krvnog tlaka je ovisna varijabla. Mogui su sluajevi da dvije varijable
istovremeno utjeu jedna na drugu, pa su u tom sluaju obje varijable istovremeno i
ovisne i neovisne.
KOEFICIJENTI KORELACIJE
[ UR ED I ]
KOEFICIJENT KORELACIJE R
funkcionalna
pozitivna
korelacije
27
gdje je d razlika vrijednosti rangova dvije promatrane varijable, a n je broj razliitih serija.
kada rS, a ne rP:
ZAKLJUAK
Osim ispitivanja razlike statistikom ralambom moe se ispitati i povezanost.
Razliku ispitujemo meu skupinama, a povezanost meu varijablama.
Postojanje i stupanj povezanosti ispituje se korelacijom.
Pearsonov koeficijent korelacije parametrijski je test dok je Spearmanov
neparametrijski.
Korelacija se tumai s obzirom na vrijednost koeficijenta korelacije, a ne njegove
statistike znaajnosti.
Tumaiti se smiju samo statistiki znaajni koeficijenti korelacije.
Jakost povezanosti izraava se kao udio zajednikih vrijednosti, a izraunava se iz
koeficijenta determinacije (r2).
REGRESIJSKA ANALIZA
LINEARNA REGRESIJA
- ako parovi varijabli pokazuju prisustvo korelacije, funkcionalnu vezu prikazuje
JEDNADBA REGRESIJE
REGRESIJA - prognoza iz jedne varijable u drugu
u koordinatnom sustavu crta (ili krivulja) spaja toke koje su funkcija mjerenja
varijable X i varijable Y
crta regresije pokazuje tip odnosa izmeu varijabli X i Y:
- ako je pravac, onda je povezanost linearna i odreena jednadbom pravca
regresije
- ako nije pravac, tada se radi o zakrivljenoj korelaciji
kad se crta regresije, prikazana u koordinatnom sustavu, moe opravdano opisati
pravcem tada se i matematiki moe opisati jednadbom pravca:
Y = a + bX
Y i X= najvjerojatniji rezultat varijable y za odreeni rezultat varijable X
a = odsjeak na osi Y
b = koeficijent nagiba
31
32