Professional Documents
Culture Documents
Važne napomene: Gotovo nikad ne mjerimo populaciju, nego samo uzorke. Pravu aritmetičku
sredinu ili pravu standardnu devijaciju bismo dobili ako bismo izmjerili čitavu populaciju. No,
kako je to neefikasno činiti. Dakle, radimo sa uzorcima, a izračunate vrijednosti su samo
približne vrijednosti. Uzorak nije minijaturni duplikat populacije, već ako o populaciji
zaključujemo na osnovu uzorka, moramo uzeti u obzir slučajne varijacije koje se događaju pri
uzimanju slučajnih uzoraka. Što je veći varijabilitet rezultata u populaciji, to će biti veći
varijabilitet uzoraka uzetih iz te iste populacije.
Ako iz jedne populacije uzimamo mnogo uzoraka iste veličine i u svakom uzorku izračunamo
aritmetičku sredinu, pojedine će se aritmetičke sredine više ili manje razlikovati od prave
aritmetičke sredine populacije, ali će se većinom te aritmetičke sredine uzoraka grupisati oko
prave aritmetičke sredine. Ako je broj uzoraka veliki, ustanovićemo da se aritmetičke sredine
uzoraka iste veličine grupišu oko prave aritmetičke sredine po jednakom zakonu kao što se
individualni rezultati grupišu oko svoje aritmetičke sredine, tj. po zakonu normalne raspodjele.
Što su uzorci veći, to je standardna devijacija te raspodjele aritmetičkih sredina manja.
Distribucija aritmetičkih sredina uzoraka iste veličine će težiti normalnoj raspodjeli čak i onda
ako populacija iz koje uzimamo uzorke nije normalno distribuirana. Ta pojava je vrlo važna u
statistici i poznata je pod nazivom teoremom centralne granice. Ona je veoma važna jer nam
omogućuje stvaranje nekih zaključaka i onda radimo sa populacijama koje nijesu normalno
distribuirane. Njena najprostija definicija glasi: Distribucija aritmetičkih sredina uzoraka
približava se normalnoj raspodjeli kako N uzorka raste.
Svaka aritmetička sredina uzorka vezana je za neku grešku koju zovemo standardna greška
aritmetičke sredine. Veća je greška što je uzorak manji, a varijabilitet pojave koju mjerimo veći.
Ista logika važi i za razlike između aritmetičkih sredina. Povećanjem broja mjerenja možemo
smanjiti stepen greške u našem mjerenju. Standardna greška aritmetičke sredine (SDM) je veća
što je standardna devijacija pojave koju mjerimo veća i što je broj mjerenja manji. Standardna
greška je takođe neka vrsta standardne devijacije, ali dok je standardna devijacija mjera
variranja individualnih rezultata oko njihove aritmetičke sredine, dotle je standarna greška
mjera variranja aritmetičkih sredina uzoraka oko prave aritmetičke vrijednosti populacije.
Granica pouzdanosti – pouzdanost procjene aritmetičke sredine populacije na temelju
aritmetičke sredine uzorka.
Granica sigurnosti – pokazuje kolika je sigurnost naše procjene aritmetičke sredine populacije.
Pravila koja se tiču aritmetičke sredine:
1. Aritmetička sredina svih mogućih aritmetičkih sredina uzoraka iste veličine jednaka je
pravoj aritmetičkoj sredini, tj. aritmetičkoj sredini populacije.
2. Varijansa populacije aritmetičkih sredina uzoraka jednaka je varijansi originalne
populacije, podijeljenoj veličinom uzorka.
3. Varijanse uzoraka čine takvu raspodjelu oko prave varijanse da im aritmetička sredina
odgovara pravoj varijansi.
Što se tiče postavljanja hipoteza, kakve god uzorke da imamo kad predmet analize, one ovako
glase:
H0: µ1=µ2
H1: µ1≠µ2
Računamo t-test koji kao i svi drugi statistički testovi testiraju nultu hipotezu. Ako uvrdimo da
postoji statistički značajna razlika, onda uz određeni rizik odbacujemo nultu hipotezu. Ako ralika
nije statistički nije značajna – nulta hipoteza se ne odbacuje.
Fisher kaže: Nulta hipoteza je svaka hipoteza koju želimo provjeriti.
Kod aritmetičkih sredina uzorci su veliki kada njihov broj jeste jednak ili veći od 30.
Jedno od najčešćih slučajeva pri eksperimentisanju i statističkoj obradi podataka jeste
upoređivanje dviju aritmetičkih sredina i statističko testiranje razlike među njima.
Ako kažemo da je neka razlika statistički značajna, onda smo utvrdili da razlika koja je nađena
nije slučajna, već da razlika vrlo vjerovatno postoji i među populacijama. Ako utvrdimo da neka
razlika nije statistički značajna, to drugim riječima znači da razlika koju smo prilikom našeg
mjerenja dobili može biti i slučajna posljedica variranja uzoraka, a da među populacijama
kojima ti uzorci pripadaju možda i nema nikakve razlike.
Ako su dvije varijable između kojih smo našli neku razliku u korelaciji, onda se radi o zavisnim
uzorcima. Veliki su ako broj njihovih članova iznosi 30 i više. Korelaciju između dva niza
mjerenja možemo očekivati uvijek kada ista grupa ispitanika služi ujedno i kao kontrolna grupa.
Do sada, kod velikih uzoraka, koristili smo jednostavnije metode. Kod malih uzoraka, moramo
koristiti izvorne formule, dakle formule za male uzorke.
Ako je uzorak relativno veliki, time smo učinili malu grešku koju možemo zanemarizi. Ako je
uzorak malen, greška postaje ozbiljnija i to teža što je uzorak manji.
Iako se razlike između aritmetičkih sredina uzoraka distribuiraju po normalnoj raspodjeli oko
“prave” razlike, izračunati t-odnosi se distribuiraju po Studentovoj t-raspodjeli, koja je šira što
je uzorak manji.
Pod pretpostavkom da oba uzorka potiču iz iste populacije, računa se zajednička SD za oba
uzorka. I to, samo onda, ukoliko se obje SD ne razlikuju značajno, što treba prvo provjeriti.
Značajnost razlike između SD malih uzoraka računa se pomoću F testa. Ukoliko je dobijeni F
manji, možemo smatrati da se obje varijanse ne razlikuju značajno.
Međutim, u slučaju postojanja razlika između SD, ne smije se računati zajednička SD, nego se
koristi npr. aproksimativna metoda Cochrana i Cox.
Šta je t-raspodjela, a šta nije:
t – raspodjela nije distribucija rezultata u malom uzorku što mnogi početnici misle;
t – raspodjela nije distribucija aritmetičkih sredina ili distribucija razlika među
aritmetičkim sredinama malih uzoraka oko prave aritmetičke sredine ili prave razlike jer
je ta distribucija normalna
t – raspodjela jeste distribucija izraza koja se dobija kada se računski određuje
standardna greška aritmetičke sredine, odnosno standardna greška razlike između
aritmetičkih sredina, a pri tome se u računu koristi standardna devijacija uzorka.
U slučaju da pri računanju razlika između aritmetičkih sredina, koristimo metodu diferencijacije
koja se zasniva na korišćenju individualne razlike parova kao uzorak za obrađivanje. To
podrazumijeva računanje njegove aritmetičke sredine, standardne devijacije i standarne greške.
Ona je vrlo jednostavna i praktična jer isključuje potrebu računanja korelacije između obje
varijable, tj. u rezultat koji dobijamo već je samim postupkom uključena korelacija.
H0: π1=π2
H1: π1≠π2
Ako su uzorci veliki, a p i q nema ekstremno malu ili veliku vrijednost, može se pretpostaviti
normalna raspodjela. Ili, ako je Np i Nq kod oba uzorka veće od 5 (po drugima, veće od 10).
Postoji i jednostavniji postupak gdje možemo izbjeći računanje korelacije, ukoliko poznajemo
sve rezultate ispitanika i njihove individualne karakteristike koje možemo tabelarno prikazati.
Ako su varijable u korelaciji, treba sprovesti korekturu pri izračunavanju značajnosti razlike
među proporcijama.
Ako su u korelaciji, kao i kod velikih zavisnih uzoraka, treba unijeti rezultate u tablicu.
Greška I vrste – dešava se kada odbacujemo nultu hipotezu koja je u stvari tačna.
Greška II vrste – dešava se u slučaju prihvatanja nulte hipoteze koja zapravo nije tačna.
Rizik greške I vrste ili nivo značajnosti testa α
Rizik greške II vrste – označava se sa β
Jačina (snaga) testa (1-β) je vjerovatnoća odbacivanja netačne H0; vjerovatnoća prihvatanja
alternativne hipoteze ako je tačna. Za dati obim uzorka, sa porastom rizika greške I vrste
smanjuje se rizik greške II vrste i obrnuto. Što je veći uzorak, veća je vjerovatnoća veće snage.
ZKtot – ukupan broj kvadrata; odredi se tako da se svaki pojedini rezultat odbije od ukupne
aritmetičke sredine; svaka tako dobijena razlika se kvadrira i potom se ti kvadrati saberu.
ZKun – zbir kvadrata unutar grupa; odredi se tako da se nađe razlika između svakog pojedinog
rezultata u grupi i aritmetičke sredine pripadne grupe; te se razlike onda kvadriraju i saberu;
potom se zbirovi kvadrata za pojedine grupe saberu.
ZKiz – zbir kvadrata između grupa; odredi se tako da se nađe razlika između aritmetičke sredine
svake pojedine grupe, svaka se razlika kvadrira i pomnoži brojem rezultata u pripadnoj grupi (n g)
i zatim se sve te vrijednosti saberu.
Ukupna suma kvadrata, kao i suma kvadrata unutar i između grupa nijesu dovoljne za ocjenu
varijabiliteta. Prava mjera varijabiliteta je varijansa i dobijamo je kada sume kvadrata
podijelimo sa odgovarajućim brojem stepena slobode.
SStot – broj stepena slobode za totalno variranje, određuje se kada od ukupnog broja članova
uzorka oduzme broj 1.
SSun – broj stepena slobode za variranje unutar grupa, određuje se tako da od ukupnog broja
rezultata oduzmemo broj grupa.
SSiz – broj stepena sloboda za variranje između grupa, određuje se tako da se od broja grupa
oduzme broj 1.
Nakon toga se računaju prosječni kvadrati za ova 3 nivoa, a ona se izražavaju količnikom nekogh
zbira kvadrata (totalnog, između ili unutar grupa) i odgovarajuće kategorije stepena slobode (za
totalno variranje, između ili unutar grupa). Na kraju se računa F test koji se izražava količnikom
prosječnog kvadrata između i prosječnog kvadrata unutar grupa. Uz pomoć Snedecerovih
tablica možemo ustanoviti koliko najmanje puta mora varijabilitet među grupama biti veći od
varijabiliteta unutar grupa da bi razlika između oba varijabiliteta bila statistički značajna.
Ako odbacimo nultu hipotezu, onda nas zanima koji se uzorci među sobom statistički značajno
razlikuju. F-omjer nije pogodan za to jer je samo globalni pokazatelj postojanja ili nepostojanja
statistički značajnih razlika, opšti je pokazatelj pripadaju li sve grupe istoj populaciji ili se neke, ili
možda sve međusobno razlikuju.
Neki istraživači u obradi svojih rezultata koriste tzv. Bonferronijevu prilagodbu koja se koristi
kada primjenjujemo jednostavnu analizu varijanse (tj. rezultate nekoliko grupa ispitanika pri
mjerenju jedne zavisne varijable, a korišteno je nekoliko nivoa iste nezavisne varijable). Ona
jeste jednostavna i lagana za primjenu, ali nije bez ograničenja. Nedostaci su sljedeći: redukuje
se greška prve vrste ali se povećava vjerovatnoća greške druge vrste; polazi se od pretpostavke
da su sve nulte hipoteze tačne simultano što ne odgovara realnosti.
Pri provjeravanju statističke značajnosti najčešće se koristi Scheffeova metoda koja se
preporučuje zato što je relativno konzervativna, strožija od drugih postupaka. Konzervativnost
podrazumijeva da se neka razlika teže proglasi statistički značajnom. Ova metoda je prilično
rigorozna u pogledu greške prve vrste: rjeđe će nam se dogoditi da odbacimo nultu hipotezu.
Ona više teži tome da prihvatimo nultu hipotezu, pa makar među populacijama razlika i
postojala.
Nulta hipoteza (H0) treba da glasi: aritmetičke sredine bar dva skupa se među
sobom ne razlikuju ili efekat bar jednog tretmana se ne razlikuje od nule;
Alternativna hipoteza (H1) treba da glasi: aritmetičke sredine bar dva skupa se među
sobom razlikuju ili efekat bar jednog tretmana se razlikuje od nule.
Ova varijanta ANOVA-e se primjenjuje kada postoje indicije da na posmatranu pojavu bitno
utiče više faktora. Može se sprovesti u slučajevima kad imamo više od dvije nezavisne varijable,
ali što je više nezavisnih varijabli, složenija je interpretacija dobijenih rezultata. Može se reći da
je rezultate analize varijanse s tri ili više nezavisnih varijabli prilično teško pratiti pa i razumjeti.
U dvofaktorskoj ANOVI postoje 3 različite nulte hipoteze (dvije o tzv. glavnim efektima faktora i
treća o interakciji). Kod nezavisnih rezultata, suma kvadrata između grupa sastoji se iz tri
dijela:
Variranje među grupama koje pripadaju kategorijama jedne varijable
Variranje među grupama koje pripadaju kategorijama druge varijable
Interakcija
U statistici se razlikuju fiksni i slučajni efekti, fiksne i slučajne varijable, fiksni i slučajni
koeficijenti.
Fiksni efekt – o njemu se govori u slučaju u kojem su svi nivoi nezavisne varijeble korišteni ili su
namjerno odabrani određeni nivoi koji onda predstavljaju tu varijablu
Slučajni efekt – o njemu se govori kad je od svih mogućih nivoa neke nezavisne varijable po
slučaju odabran određeni broj nivoa.
Postupak je sličan s tim što usljed izvjesnih razlika koji se tiču samog odnosa ispitivanih uzoraka
uočavamo da:
Kad imamo grupu ispitanika koji su ispitani u dva navrata (prije i poslije djelovanja neke
nezavisne varijable), statistička značajnost razlike u rezultatima postignutim u dvije
eksperimentalne situacije se određuje pomoću metode diferencijacije. Ta je metoda lako
primjenjiva sa malim brojem ispitanika, u slučaju većeg broja istih koristi se koeficijent
korelacije između rezultata postignutih u dvije prilike. Međutim, kad imamo više od dvije
situacije u kojima su ispitanici isti, koristimo analizu varijanse.
Provjera analize varijanse u nacrtu sa ponovljenim mjerenjima počiva na tri pretpostavke:
podaci su iz populacija sa normalnom distribucijom, postoji homogenost varijansi, sferičnost
(zahtjev da su varijanse razlika između svih parova poanvljanih mjerenja podjednake).
Kada u jednoj varijabli imamo dvije ili više grupa različitih ispitanika, a u drugoj varijabli u dvije
ili više eksperimentalnih situacija iste ispitanike, govorimo o tzv. miješanom nacrtu.
Značajnost nam kaže da li ima ili nema razlika, a intenzitet - kolike su razlike.
Fišerov koeficijent (η2) – Pomoću njega spoznajemo u kom procentu možemo uspešno
predvidjeti zavisnu varijablu, ako znamo nezavisnu (kojoj grupi ispitanik pripada). Npr: ako
η2=0.8 znači da 80% ukupnih razlika potiče od razlika između grupa.
Kvadrirana omega (ω2) – uvijek daje niži rezultat od η2, a za oboje važi sljedeće:
do 0.05 je mali efekat
od 0.06 do 0.13 je srednji efekat
preko 0.13 je veliki efekat
Koenova mera (f) – mora biti veća od nule; Veličina efekta se tumači:
mali efekat: f < 0 .25
srednji efekat: 0.25≤ f < 0.39
veliki efekat: f≥0.40
Hi-kvadrat test
Hi-kvadrat test primjenjujemo kada su varijable kategoričke i podaci izraženi u frekvencijama, ili
ako distribucija odstupa od normalne. Cilj tog testa jeste empirijsko utvrđivanje da li neke
dobijene (opažene) frekvencije odstupaju od očekivanih frekvencija pod određenom
hipotezom. On je utoliko sličan računu korelacije što i kod njega želimo saznati postoji li
povezanost između dvije varijable. Međutim, ono što ih ključno razlikuje jeste to da račun
korelacije pokazuje stepen povezanosti između dvije varijable, dok nam hi-kvadrat test
pokazuje vjerovatnoću povezanosti. Najčešće ga upotrebljavamo u sljedećim slučajevima:
fo – opažene frekvencije
ft – očekivane (teorijske) frekvencije
Kategorička varijabla je ona koja sadrži određeni broj iscrpnih i uzajamno isključivih kategorija.
Iscrpnost kao princip: mora biti moguće da svakog člana svrstamo u neku od kategorija
Isključivost kao princip: određeni član populacije može pripadati samo jednoj kategoriji
Primjeri kategoričkih varijabli: bračni status, pol, obrazovanje itd.
Empirijska raspodjela kategoričke varijable – učestalost pojedinih kategorija varijable na
uzorku.
Raspodjela vjerovatnoća kategoričke varijable – vjerovatnoće pojedinih kategorija varijable u
populaciji.
Vjerovatnoće kategorija u populaciji (π) – ocijenjene proporcijom (p) date kategorije na
slučajnom uzorku.
Razlike između aritmetičkih sredina – kvantitativni brojčani podaci koji su normalno
raspoređeni.
Tabela kontigencije ili tabela unakrsnog razvrstavanja - tabela koja se pravi za potrebe Hi-
kvadrat testa, a koja u svojim redovima i kolonama sadrži frekvencije atributivnih obilježja. Ona
se pravi po sljedećem principu: ako npr. jedna varijabla ima 3 kategorije, a druga varijabla 2
kategorije, tabela će se izraditi po šemi 3x2 (3 reda i 2 kolone).
Ukrštanjem reda i kolone dobija se ćelija u tabeli kontigencije.
U ćelijama tabele kontigencije nalaze se zajedničke frekvencije, a zbirovi frekvencija u tabelama
i kolonama nazivaju se marginalne frekvencije.
Dva zavisna uzorka (McNemarov test) – Ako upoređujemo rezultate jedne te iste grupe prije i
poslije, ili upoređujemo istu grupu u dvije različite aktivnosti, onda vjerovatno postoji korelacija
između prvih i drugih rezultata. Ovaj test u nekim situacijama može biti izuzetno nepogodan.
Npr. ako neki postupak primijenjen na grupu ispitanika može se kod njih proizvesti suprotne
učinke. Tako će se dobiti mala vrijenost što bi trebalo značiti da nije došlo do promjene, a do
značajnih promjena je došlo.
Intenzitet povezanosti
Različiti koeficijenti nam govore o intenzitetu povezanosti kod ovog testa: Kramerov Fi
koeficijent (Kramerovo V), Koeficijent kontigencije C, količnik šansi, količnik rizika, razlika
rizika itd.
Testovi zasnovani na hi-kvadrat rasporedu obuhvataju niz problema koji se mogu odnositi na
modalitete jednog ili više obilježja. Najčešće korisćeni tog tipa su: testovi oblika rasporeda i
testovi nezavisnosti obilježja.
Glavna opasnosti od hi-kvadrata jeste u tome što se on lagano izračunava, ali treba prethodno
dobro promisliti šta nas zapravo zanima, pa tek onda računati teoretske frekvence jer one
zavise od hipoteze koju smo postavili!
Test medijane – jednostavan test koji se svodi na hi-kvadrat test. Sličan je t-testu kojim
se ispituje značajnost razlika između 2 aritmetičke sredine – kod parametarskih testova.
H0: Uzorci pripadaju istoj populaciji u pogledu ispitivanog obilježja
Princip: naći medijanu iz svih rezultata zajedno (za oba niza)
Formiramo tabelu kontingencije 2x2 – grupa/niz (prvi ili drugi) i položaj (ispod ili iznad
medijane)
Ovaj test među neparametrijskim testovima ima relativno malu statističku snagu. To je
tako zbog toga što se u postupku čini gruba podjela rezultata samo u dvije kategorije:
iznad i ispod medijane. Kod medijanskog testa jednako vrijedi rezultat koji je tek malo
veći od medijane, kao i najveći rezultat u grupi. Kod t-testa takve razlike rezultata se
nikad ne gube.
Test zbira rangova (Man-Whitneyev U-test) – donekle je sličan testu homogenog niza,
ali koristi više informacija i zato se može smatrati boljim i snažnijim.
Kao i testom medijane, ovim testom se testira to spadaju li dva uzorka u populaciju sa
istom medijanom. Najniži nivo mjerenja koji ovaj test može koristiti jeste rangovna
ljestvica.
H0: Uzorci pripadaju istoj populaciji u pogledu ispitivanog obeležja
Rangiraju se oba niza zajedno i izračunaju se sume rangova svake grupe posebno: T1 i T2
N je oznaka za ukupan broj ispitanika.
Vrijednosti koje računamo jesu:
Očekivana vrijednost zbira rangova za eksperimentalnu/kontrolnu grupu (TtE i TtK);
Veličina standardne greške zbira rangova (SDT);
Z statistika (odnos razlike opaženog i teorijskog zbira rangova i standardne greške
razlike zbira rangova).
Prošireni medijan test – Ako imamo više nezavisnih grupa pa želimo testirati pripadaju li
one ili ne populaciji sa istom medijanom, možemo se poslužiti ovim testom. Postupak se
sastoji u tome da nađemo medijanu svih rezultata i da rezultate iznad medijane
označimo sa +, a one ispod medijane sa -. Ako je broj tezultata neparan, medijana
postaje jedan ili višepostojećih rezultata.
Kruskal-Wallisov test (snažniji od proširenog testa medijane) – zapravo se radi o testu
analize varijanse, samo što se umjesto brojčanih mjernih podataka u ovom slučaju
koriste rangovi kao podaci. On predstavlja prošireni test zbira rangova. Jači je od
medijan testa jer koristi više informacija – možemo dokazati da uzorci pripadaju
različitim populacijama.
H0: Uzorci pripadaju istoj populaciji upogledu ispitivanog obeležja
Vrši se rangiranje svih nizova zajedno tako da najniži rezultat dobije rang 1. Nakon toga
se izračunavaju sume rangova svakog niza posebno T1, T2... Tk.
Fridmanov test – Ako na istoj grupi ispitanika obavljamo mjerenje u različitim uslovima,
onda su rezultati dobijeni na taj način u korelaciji sa ostalim rezultatima, pa se zbog toga
ne možemo više služiti Kruskal-Wallisovim testom. U tom slučaju ovaj test predstavlja
optimalno rješenje kojem odgovara jednosmjerna analiza varijanse za zavisne rezultate.
Iako koristi samo rangove, a ne stvarne izmjerene vrijednosti, ima gotovo jednaku snagu
kao i analiza varijanse zavisnih uzoraka.
Cochranov Q test – Ako na istoj grupi ispitanika vršimo mjerenje pod različitim uslovima,
onda je za testiranje postoje li razlike između pojedinih situacija pogodan Cochranov Q
test. Tim testom se zapravo testira razlika između proporcija neke karakteristike u
različitim uslovima.
• Linearne
• Nelinearne veze
Varijable zajedno variraju (koreliraju) kada su promjene na jednoj varijabli praćene “srodnim”
promjenama na drugoj varijabli. Poznavanje rezultata za neku jedinicu posmatranja na jednoj
varijabli pomaže da bolje predvidimo njen rezultat na drugoj varijabli nego što bismo mogli bez
tog poznavanja. Važno je znati da korelacija među varijablama ne znači nužno uzočno-
posljedičnu vezu!
Engleski matematičar Karl Pirson je razradio računski postupak za izračunavanje stepena
povezanosti između dvije varijable, dvije veličine, dvije pojave i izrazio stepen povezanosti
brojem koji je nazvao koeficijent korelacije (r).
Ako linearnom porastu jedne varijable odgovara takođe linearni porast druge varijable i to tako
da je jedna određena vrijednosti jedne varijable uvijek povezana sa korespondentnom
vrijednošću druge varijable, onda je korelacija pozitivna i potpuna (maksimalna) i brojčano se
označava sa +1.
Ako linearnom porastu jedne varijable uglavnom odgovara linearni porast druge varijable i to
tako da je jedna određena vrijednost jedne varijable povezana sa više vrijendosti druge
varijable, onda je korelacija pozitivna, ali nije maksimalna, pa se bilježi brojčanom vrijednošću
koja je veća od 0, ali manja od +1.
Ako iz određene vrijednosti jedne varijable ne možemo ništa zaključiti o vrijednosti druge
varijable, tj. ako jednoj određenoj vrijednosti jedne varijable odgovara bilo koja od mogućih
vrijednosti druge varijable, onda nema korelacije između dvije pojave i to se bilježi kao nulta
korelacija, brojčano 0.
Ako linearnom porastu jedne varijable odgovara linearno opadanje vrijednosti druge varijable,
ali je povezanost takva da je jedna vrijednost jedne varijable povezana s više vrijednosti druge
varijable, onda je korelacija negativna i nepotpuna jer se bilježi izrazom koji je manji od 0, a
veći od -1.
Ako linearnom porastu vrijednosti jedne varijable odgovara linearni pad vrijednosti druge
varijable i to tako da je jedna određena vrijednost jedne varijable povezana sa jednom
korespondentnom vrijednosti druge varijable, onda je korelacija negativna i maksimalna, pa se
bilježi izrazom -1.
Što se koeficijent korelacije više razlikuje od nule i približava jedinici (bilo da se radi o
pozitivnoj ili negativnoj korelaciji), to znači da je veća povezanost između dvije varijable.
Prije njegovog računanja treba se utvrditi je li povezanost između dvije varijable linearna ili nije.
Za to nam služi regresiona crta (linija) koja će biti pravac ako je povezanost linearna.
Linearnost povezanosti između dvije varijable se može provjeriti tzv. vizuelnom inspekcijom
dijagrama bivarijantnog raspršenja. Kod korelacije nema zavisne i nezavisne varijable jer
korelacija predstavlja simetričan odnos između varijabli – promjene na jednoj uzrokuju
promjene na drugoj varijabli, obje „učestvuju“ u tom odnosu na isti način.
Ako ti uslovi nijesu zadovoljeni, treba računati neki drugi koeficijent korelacije. Statističari,
međutim, nijesu suviše rigorozni po pitanju njihovog poštovanja, osim ako ne se pojave
izrazita odstupanja od njih.
Varijable zajedno variraju (koreliraju) kada su promjene na jednoj varijabli praćene
“srodnim” promjenama na drugoj varijabli. Poznavanje rezultata za neku jedinicu posmatranja
na jednoj varijabli pomaže da bolje predvidimo njen rezultat na drugoj varijabli nego što bismo
mogli bez tog poznavanja. Važno je znati da korelacija među varijablama ne znači nužno
uzočno-posljedičnu vezu!
Određivanje linije (crte) regresije – Postoji li pravolinijski ili zakrivljeni odnos između X I Y
varijable pokazuje nam regresiona linija. Ona u dvodimenzionalnom koordinatnom
sistemu spaja tačke čije su koordinate tzv. fiksne vrijednosti u jednoj varijabli (npr. X), i
parcijalne srednje vrijednosti u drugoj varijabli (npr. Y).
Određivanje linije (crte) regresije – Postoji li pravolinijski ili zakrivljeni odnos između X I Y
varijable pokazuje nam regresiona linija. Ona u dvodimenzionalnom koordinatnom sistemu
spaja tačke čije su koordinate tzv. fiksne vrijednosti u jednoj varijabli (npr. X), i parcijalne
srednje vrijednosti u drugoj varijabli (npr. Y).
Korelacija rangova
Ako su jedna ili obje varijable date u rangu, tj. rezultati nijesu mjerene vrijednosti, već su dati
samo u redosljedu, računa se tzv. rang korelacija. Kod rangova ne znamo stvarne razlike među
pojedinim rezultatima, nego jedino razlike u rangu. U ovom slučaju varijable ne moraju striktno
biti u linearnom odnosu. Rang korelacije daje samo približnu indikaciju asocijacije između dvije
varijable i opravdano ju je opredijeliti samo onda ako se ne može izračunati r korelacija.
Ako postoji relativno veliki broj zajedničkih rangova, tj. ako ima mnogo slučajeva da dva ili više
ispitanika zauzimaju isti rang, potrebno je izvršiti korekturu u računu. Ukoliko se ona ne
sprovede, to može dovesti do krajnje besmislenog rezultata. Razlika između korigovanog i
nekorigovanog koeficijenta postaje veća što su razlike među rangovima jedne i druge
varijable veće, dakle što je korelacija niža.
Rangiranje se može provesti u bilo kojem smjeru, ali mora biti sprovedeno na isti način u obje
varijable: ako najvišem rezultatu u varijabli X damo rang 1, moramo i u varijabli Y rang 1 dati
najvišem rezultatu. Kad se radi o pretvaranju nekih rezultata u rangove, gube se sve one
informacije o razlikama koje postoje u mjerenim vrijednostima, jer se sve razlike svode na
jednake razlike među rangovima. Zbog toga koeficijent korelacije r daje tačniji podatak o
povezanosti između dvije varijable.
Spearmanov koeficijent korelacije rangova:
Računa se D – razlike parova rangova.
Testiranje statističke značajnosti – t statistika ima studentovu raspodjelu sa df=n-2.
N – broj parova rangova.
Rang korelacija daje samo približnu indikaciju asocijacije između varijabli. Za razliku od
Pearsonovog koeficijenta, kod rang korelacije nije neophodno da varijable budu u linearnom
odnosu.
Interpretacija rezultata se vrši nakon što je utvrđen njegov nivo statističke značajnosti.
Ako je mjerenje sprovedeno na većem broju slučajeva, stepen povezanosti se određuje na
osnovu sljedećih utemeljenja:
Visina korelacije nije samo odraz stepena povezanosti između 2 varijable, nego može biti i
posljedica drugih uticaja:
Sažimanje rezultata u manji broj numeričkih kategorija: ako su rezultati sažeti u mali broj
numeričkih klasa smanjuje se i varijabilitet rezultata, samim tim i koeficijent korelacije;
Zakrivljen odnos – pretjerana zakrivljenost može okarakterisati računanje koeficijenta
korelacije besmislenim, u takvim slučajevima se koristi tzv. korelacioni odnos (eta koeficijent
zakrivljene korelacije);
Eliminisanje vrijednosti oko aritmetičke sredine – zbog toga se u za potrebe obrade uzmu
samo ekstremne grupe, tj. samo grupa mladih i grupa starih.
Podgrupe sa različitim aritmetičkim sredinama
Uticaj raspona – Ako je raspon ograničen u jednoj varijabli tako da raspolaže rezultate samo
dijela populacije, on je onda nužno ograničen i u drugoj varijabli, što značajno smanjuje visinu
korelacije.
Kauzalno interpretiranje korelacije – kada su dvije pojave u korelacije, nerijetko su i ujedno u
uzročnoj vezi; to ipak nije nužna pojava.
Osnovni cilj regresione analize: definisanje regresionog modela koji može, na osnovu
poznavanja rezultata nezavisne varijable (prediktorske), manje ili više precizno da predvidi
(ocijeni) rezultat zavisne (kriterijumske) varijable.
Koeficijent determinacije
Što je koeficijent determinacije bliži 1, to je model “bolji”. Što je veličina standardne greške
regresije bliža nuli ili što je manja u odnosu na standardnu devijaciju zavisne varijable, to je
model bolji.
Predviđanje pomoću regresionog modela:
Prednosti:
Ispitivanje predviđanja jedne pojave preko više prediktora istovremeno
Bolja je predikcija zavisne pojave
Međuzavisnost prediktora
Regresioni koeficijenti
Prediktori – sastojci
Ponderi – određuju količinu sastojaka