You are on page 1of 25

SKRIPTA IZ NAPREDNIH STATISTIČKIH METODA ZA

ZAVRŠNI ISPIT (TEORIJA):

Testiranje razlika između aritmetičkih


sredina
Deskriptivna statistika – bavi se karakteristikama konkretnog uzorka.
Statističko zaključivanje (inferencijalna statistika) jeste postupak u kojem na bazi uzorka
nastojimo stvoriti zaključak o populaciji. Pod populacijom („univerzumom“, „osnovnim
skupom“) podrazumijevamo sve članove neke grupe s određenom karakteristikom koju
mjerimo, a koje nazivamo statističkim jedinicama. Ona može biti ograničena i neograničena
(mjerenje neke osobine na jednom individuumu – senzomotorne reakcije neke osobe).
Neograničenu populaciju je nemoguće cijelu izmjeriti, pa se moramo zadovoljiti jednim njenim
dijelom. Kad se radi o ograničenom uzorku, mjerenje obavljamo samo na jednom njenom dijelu
– uzorku. Statističko mjerenje cijele populacije o kakvom god tipu da se radi jeste izuzetno
skupo i komplikovano (takav bi bio slučaj sa prosječnom zaradom svih odraslih stanovnika
jedne zemlje), a samo mjerenje bi katkad bilo i besmisleno. Zato mjerimo samo ograničeni broj
slučajeva, a aritmetička sredina, standardna devijacija itd. jesu procjene populacionih
vrijednosti, odn. parametara.

Značajnost razlike možemo provjeravati na 2 načina:


a) uz pomoć granica pouzdanosti
b) uz pomoć statističkih testova

Važne napomene: Gotovo nikad ne mjerimo populaciju, nego samo uzorke. Pravu aritmetičku
sredinu ili pravu standardnu devijaciju bismo dobili ako bismo izmjerili čitavu populaciju. No,
kako je to neefikasno činiti. Dakle, radimo sa uzorcima, a izračunate vrijednosti su samo
približne vrijednosti. Uzorak nije minijaturni duplikat populacije, već ako o populaciji
zaključujemo na osnovu uzorka, moramo uzeti u obzir slučajne varijacije koje se događaju pri
uzimanju slučajnih uzoraka. Što je veći varijabilitet rezultata u populaciji, to će biti veći
varijabilitet uzoraka uzetih iz te iste populacije.
Ako iz jedne populacije uzimamo mnogo uzoraka iste veličine i u svakom uzorku izračunamo
aritmetičku sredinu, pojedine će se aritmetičke sredine više ili manje razlikovati od prave
aritmetičke sredine populacije, ali će se većinom te aritmetičke sredine uzoraka grupisati oko
prave aritmetičke sredine. Ako je broj uzoraka veliki, ustanovićemo da se aritmetičke sredine
uzoraka iste veličine grupišu oko prave aritmetičke sredine po jednakom zakonu kao što se
individualni rezultati grupišu oko svoje aritmetičke sredine, tj. po zakonu normalne raspodjele.
Što su uzorci veći, to je standardna devijacija te raspodjele aritmetičkih sredina manja.
Distribucija aritmetičkih sredina uzoraka iste veličine će težiti normalnoj raspodjeli čak i onda
ako populacija iz koje uzimamo uzorke nije normalno distribuirana. Ta pojava je vrlo važna u
statistici i poznata je pod nazivom teoremom centralne granice. Ona je veoma važna jer nam
omogućuje stvaranje nekih zaključaka i onda radimo sa populacijama koje nijesu normalno
distribuirane. Njena najprostija definicija glasi: Distribucija aritmetičkih sredina uzoraka
približava se normalnoj raspodjeli kako N uzorka raste.
Svaka aritmetička sredina uzorka vezana je za neku grešku koju zovemo standardna greška
aritmetičke sredine. Veća je greška što je uzorak manji, a varijabilitet pojave koju mjerimo veći.
Ista logika važi i za razlike između aritmetičkih sredina. Povećanjem broja mjerenja možemo
smanjiti stepen greške u našem mjerenju. Standardna greška aritmetičke sredine (SDM) je veća
što je standardna devijacija pojave koju mjerimo veća i što je broj mjerenja manji. Standardna
greška je takođe neka vrsta standardne devijacije, ali dok je standardna devijacija mjera
variranja individualnih rezultata oko njihove aritmetičke sredine, dotle je standarna greška
mjera variranja aritmetičkih sredina uzoraka oko prave aritmetičke vrijednosti populacije.
Granica pouzdanosti – pouzdanost procjene aritmetičke sredine populacije na temelju
aritmetičke sredine uzorka.
Granica sigurnosti – pokazuje kolika je sigurnost naše procjene aritmetičke sredine populacije.
Pravila koja se tiču aritmetičke sredine:

1. Aritmetička sredina svih mogućih aritmetičkih sredina uzoraka iste veličine jednaka je
pravoj aritmetičkoj sredini, tj. aritmetičkoj sredini populacije.
2. Varijansa populacije aritmetičkih sredina uzoraka jednaka je varijansi originalne
populacije, podijeljenoj veličinom uzorka.
3. Varijanse uzoraka čine takvu raspodjelu oko prave varijanse da im aritmetička sredina
odgovara pravoj varijansi.

Što se tiče postavljanja hipoteza, kakve god uzorke da imamo kad predmet analize, one ovako
glase:

H0: µ1=µ2
H1: µ1≠µ2

Računamo t-test koji kao i svi drugi statistički testovi testiraju nultu hipotezu. Ako uvrdimo da
postoji statistički značajna razlika, onda uz određeni rizik odbacujemo nultu hipotezu. Ako ralika
nije statistički nije značajna – nulta hipoteza se ne odbacuje.
Fisher kaže: Nulta hipoteza je svaka hipoteza koju želimo provjeriti.

Za upotrebu t-testa moraju biti ispunjeni sljedeći uslovi:

 Uzorci trebaju biti slučajni i iz normalnih populacija


 Varijanse obiju populacija moraju biti jednake
No, Boneau, poznati statističar je kompjuterski dokazao da će t-test u mnogim slučajevima dati
relativno tačne rezultate uprkos tome što je prekršen uslov homogenosti varijanse i što uzorci
nijesu uzeti iz normalno distribuiranih populacija. To se dešava u situacijama:

 Ako su oba uzorka jednaka ili barem vrlo slična po veličini;


 Ako matične populacije imaju jednaku ili sličnu formu.

Veliki nezavisni uzorci

Kod aritmetičkih sredina uzorci su veliki kada njihov broj jeste jednak ili veći od 30.
Jedno od najčešćih slučajeva pri eksperimentisanju i statističkoj obradi podataka jeste
upoređivanje dviju aritmetičkih sredina i statističko testiranje razlike među njima.
Ako kažemo da je neka razlika statistički značajna, onda smo utvrdili da razlika koja je nađena
nije slučajna, već da razlika vrlo vjerovatno postoji i među populacijama. Ako utvrdimo da neka
razlika nije statistički značajna, to drugim riječima znači da razlika koju smo prilikom našeg
mjerenja dobili može biti i slučajna posljedica variranja uzoraka, a da među populacijama
kojima ti uzorci pripadaju možda i nema nikakve razlike.

Veliki zavisni uzorci

Ako su dvije varijable između kojih smo našli neku razliku u korelaciji, onda se radi o zavisnim
uzorcima. Veliki su ako broj njihovih članova iznosi 30 i više. Korelaciju između dva niza
mjerenja možemo očekivati uvijek kada ista grupa ispitanika služi ujedno i kao kontrolna grupa.

Mali nezavisni uzorci

Do sada, kod velikih uzoraka, koristili smo jednostavnije metode. Kod malih uzoraka, moramo
koristiti izvorne formule, dakle formule za male uzorke.
Ako je uzorak relativno veliki, time smo učinili malu grešku koju možemo zanemarizi. Ako je
uzorak malen, greška postaje ozbiljnija i to teža što je uzorak manji.
Iako se razlike između aritmetičkih sredina uzoraka distribuiraju po normalnoj raspodjeli oko
“prave” razlike, izračunati t-odnosi se distribuiraju po Studentovoj t-raspodjeli, koja je šira što
je uzorak manji.
Pod pretpostavkom da oba uzorka potiču iz iste populacije, računa se zajednička SD za oba
uzorka. I to, samo onda, ukoliko se obje SD ne razlikuju značajno, što treba prvo provjeriti.
Značajnost razlike između SD malih uzoraka računa se pomoću F testa. Ukoliko je dobijeni F
manji, možemo smatrati da se obje varijanse ne razlikuju značajno.
Međutim, u slučaju postojanja razlika između SD, ne smije se računati zajednička SD, nego se
koristi npr. aproksimativna metoda Cochrana i Cox.
Šta je t-raspodjela, a šta nije:

 t – raspodjela nije distribucija rezultata u malom uzorku što mnogi početnici misle;
 t – raspodjela nije distribucija aritmetičkih sredina ili distribucija razlika među
aritmetičkim sredinama malih uzoraka oko prave aritmetičke sredine ili prave razlike jer
je ta distribucija normalna
 t – raspodjela jeste distribucija izraza koja se dobija kada se računski određuje
standardna greška aritmetičke sredine, odnosno standardna greška razlike između
aritmetičkih sredina, a pri tome se u računu koristi standardna devijacija uzorka.

Mali zavisni uzorci

U slučaju da pri računanju razlika između aritmetičkih sredina, koristimo metodu diferencijacije
koja se zasniva na korišćenju individualne razlike parova kao uzorak za obrađivanje. To
podrazumijeva računanje njegove aritmetičke sredine, standardne devijacije i standarne greške.
Ona je vrlo jednostavna i praktična jer isključuje potrebu računanja korelacije između obje
varijable, tj. u rezultat koji dobijamo već je samim postupkom uključena korelacija.

Testiranje razlika između proporcija


Standardna greška proporcije – za razliku od standardne greške aritmetičke sredine, ova može
biti korisna pomoć u praktičnom radu.

Pri računanju sa proporcijama važe sljedeća pravila:

 Koriste se podaci koji nijesu rezultat kvantitativnih mjerenja;


 Frekvencije pojavljivanja se izražavaju posredstvom proporcija;
 Primjer: da li su neki ljudi oboljeli od neke bolesti ili ne?;
 Proporcija uzorka ima svoju standardnu grešku – standardna greška proporcije;
 p – relativna učestalost pojavljivanja nekog svojstva.

Razlika između proporcija


Značajnost razlika između ovih statističkih mjera utvrđuje se postupcima koji su isti kao kod
razlika između aritmetičkih sredina. Što se tiče postavljanja hipoteza, kakve god uzorke da
imamo kad predmet analize, one ovako glase:

H0: π1=π2
H1: π1≠π2

Veliki nezavisni uzorci

Ako su uzorci veliki, a p i q nema ekstremno malu ili veliku vrijednost, može se pretpostaviti
normalna raspodjela. Ili, ako je Np i Nq kod oba uzorka veće od 5 (po drugima, veće od 10).

Veliki zavisni uzorci

Postoji i jednostavniji postupak gdje možemo izbjeći računanje korelacije, ukoliko poznajemo
sve rezultate ispitanika i njihove individualne karakteristike koje možemo tabelarno prikazati.
Ako su varijable u korelaciji, treba sprovesti korekturu pri izračunavanju značajnosti razlike
među proporcijama.

Mali nezavisni uzorci

 Možemo ih prepoznati ako su N1 i N2 mali (manji od 100) i ako su proporcije ekstremne


(veće od 0.9 ili manje od 0.1)
 U ovom slučaju za potrebe t-testa se računa kombinovana proporcija.

Mali zavisni uzorci

Ako su u korelaciji, kao i kod velikih zavisnih uzoraka, treba unijeti rezultate u tablicu.

Tipovi grešaka u statističkom


zaključivanju; Snaga testa
Greške u statističkom zaključivanju se odnose na procjenu validnosti nulte hipoteze, u vidu
tvrđenja o tome da li je ili istinita ili neistinita. Informacija iz uzorka je ili saglasna sa Ho ili joj
protivrječi.
Prilikom testiranja hipoteze nastojimo da odredimo vjerovatnoće javljanja navedenih grešaka i
da ih, ako je moguće, smanjimo.

Greška I vrste – dešava se kada odbacujemo nultu hipotezu koja je u stvari tačna.
Greška II vrste – dešava se u slučaju prihvatanja nulte hipoteze koja zapravo nije tačna.
Rizik greške I vrste ili nivo značajnosti testa α
Rizik greške II vrste – označava se sa β

Vrijednost rizika β je određena sljedećim faktorima:

a) Stvarnom vrijednošću testiranog parametra


b) Nivoom značajnosti testa
c) Veličinom uzorka
d) Oblikom testa (jednosmjernim ili dvosmjernim)

Jačina (snaga) testa (1-β) je vjerovatnoća odbacivanja netačne H0; vjerovatnoća prihvatanja
alternativne hipoteze ako je tačna. Za dati obim uzorka, sa porastom rizika greške I vrste
smanjuje se rizik greške II vrste i obrnuto. Što je veći uzorak, veća je vjerovatnoća veće snage.

Analiza varijanse (ANOVA)


Analiza varijanse se upotrebljava onda kada se želi utvrditi postoje li razlike između nekoliko
aritmetičkih sredina dobijenih mjerenjem neke zavisne varijable pri ispitivanju imaju li različite
nivoe nezavisne varijable različito djelovanje na zavisnu varijablu. Ako dobijemo različite
aritmetičke sredine kod svake grupe, zanima nas pripadaju li te sredine istoj sredini ili ne.
Drugim riječima, zanima nas da li je razlika među aritmetičkim sredinama statistički značajna.
Osnovna misao koju sadrži analiza varijanse:
Treba pokazati da li je varijabilitet među grupama veći od varijabiliteta unutar grupa.
Varijabilitet između grupa upućuje na djelovanje nezavisne varijable, a varijabilitet unutar
grupa na grešku mjerenja i grešku uzorkovanja. Ako jeste, onda su to zaista grupe koje ne
pripadaju istoj populaciji ili različitim populacijama s jednakom aritmetičkom sredinom.
Analiza varijanse se sastoji u tome da se varijabilitet svih dobijenih rezultata rastavi na djelove
od kojih je sastavljen – na interni varijabilitet unutar svake pojedine grupe rezultata i na
varijabilitet između pojedinih grupa. Vrši se upoređivanje varijabiliteta grupa, a ne aritmetičke
sredine. Najvažniji uslov je kao i kod t-testa – homogenost varijansi. Potrebno je provjeriti
koliko se najmanja varijansa razlikuje od najveće ili koliko puta je najveća varijansa veća od
najmanje. To se ispituje različitim postupcima, a najpraktičniji i najjednostavniji jeste F-omjer.
Osnovne ideje i doprinose ANOVA dao je Fišer.
Nije korektno sprovesti testiranje Studentovim t-testom sukcesivnom primjenom na različitim
parovima aritmetičkih sredina iz više razloga: može doći do velikog broja ponavljanja, ali i
povećavanja rizika greške prve vrste.
Cilj ove analize je istraživanje uticaja jednog ili više faktora na varijabilitet određene pojave.
Suština ove analize bazira se na razlaganju ukupnog varijabileta posmatrane pojave na
sastavne komponente (izvore).

UKUPAN VARIJABILITET čine:

 Varijabilitet koji nastaje pod uticajem kontrolisanih faktora;


 Varijabilitet koji nastaje pod uticajem nekontrolisanih faktora, tzv. rezidualni
varijabilitet.

Pravilo je da se ispitivani varijabilitet smatra značajnim ukoliko varijabilitet koji on


prouzrokuje značajno premašuje rezidualni varijabilitet.

ANOVA sa jednim faktorom:

Razlaganje ukupnog varijabiliteta se vrši računanjem sljedećih parametara:

ZKtot – ukupan broj kvadrata; odredi se tako da se svaki pojedini rezultat odbije od ukupne
aritmetičke sredine; svaka tako dobijena razlika se kvadrira i potom se ti kvadrati saberu.
ZKun – zbir kvadrata unutar grupa; odredi se tako da se nađe razlika između svakog pojedinog
rezultata u grupi i aritmetičke sredine pripadne grupe; te se razlike onda kvadriraju i saberu;
potom se zbirovi kvadrata za pojedine grupe saberu.
ZKiz – zbir kvadrata između grupa; odredi se tako da se nađe razlika između aritmetičke sredine
svake pojedine grupe, svaka se razlika kvadrira i pomnoži brojem rezultata u pripadnoj grupi (n g)
i zatim se sve te vrijednosti saberu.

Ukupna suma kvadrata, kao i suma kvadrata unutar i između grupa nijesu dovoljne za ocjenu
varijabiliteta. Prava mjera varijabiliteta je varijansa i dobijamo je kada sume kvadrata
podijelimo sa odgovarajućim brojem stepena slobode.

SStot – broj stepena slobode za totalno variranje, određuje se kada od ukupnog broja članova
uzorka oduzme broj 1.
SSun – broj stepena slobode za variranje unutar grupa, određuje se tako da od ukupnog broja
rezultata oduzmemo broj grupa.
SSiz – broj stepena sloboda za variranje između grupa, određuje se tako da se od broja grupa
oduzme broj 1.
Nakon toga se računaju prosječni kvadrati za ova 3 nivoa, a ona se izražavaju količnikom nekogh
zbira kvadrata (totalnog, između ili unutar grupa) i odgovarajuće kategorije stepena slobode (za
totalno variranje, između ili unutar grupa). Na kraju se računa F test koji se izražava količnikom
prosječnog kvadrata između i prosječnog kvadrata unutar grupa. Uz pomoć Snedecerovih
tablica možemo ustanoviti koliko najmanje puta mora varijabilitet među grupama biti veći od
varijabiliteta unutar grupa da bi razlika između oba varijabiliteta bila statistički značajna.

Ako odbacimo nultu hipotezu, onda nas zanima koji se uzorci među sobom statistički značajno
razlikuju. F-omjer nije pogodan za to jer je samo globalni pokazatelj postojanja ili nepostojanja
statistički značajnih razlika, opšti je pokazatelj pripadaju li sve grupe istoj populaciji ili se neke, ili
možda sve međusobno razlikuju.
Neki istraživači u obradi svojih rezultata koriste tzv. Bonferronijevu prilagodbu koja se koristi
kada primjenjujemo jednostavnu analizu varijanse (tj. rezultate nekoliko grupa ispitanika pri
mjerenju jedne zavisne varijable, a korišteno je nekoliko nivoa iste nezavisne varijable). Ona
jeste jednostavna i lagana za primjenu, ali nije bez ograničenja. Nedostaci su sljedeći: redukuje
se greška prve vrste ali se povećava vjerovatnoća greške druge vrste; polazi se od pretpostavke
da su sve nulte hipoteze tačne simultano što ne odgovara realnosti.
Pri provjeravanju statističke značajnosti najčešće se koristi Scheffeova metoda koja se
preporučuje zato što je relativno konzervativna, strožija od drugih postupaka. Konzervativnost
podrazumijeva da se neka razlika teže proglasi statistički značajnom. Ova metoda je prilično
rigorozna u pogledu greške prve vrste: rjeđe će nam se dogoditi da odbacimo nultu hipotezu.
Ona više teži tome da prihvatimo nultu hipotezu, pa makar među populacijama razlika i
postojala.

Analiza varijanse pokazuje da li se razlikuju aritmetičke sredine različitih podgrupa statistički


značajno, ali pri tome polazimo od pretpostavke da – u slučaju da naša nezavisna varijabla
nema uticaja – nema razlika među grupama. Ako te razlike u početku postoje, onda se, da bi se
ustanovilo je li nezavisna varijabla imala uticaj i koliki je on u pojedinim slučajevima bio – koristi
račun analize kovarijanse.

Nulta hipoteza (H0) treba da glasi: aritmetičke sredine bar dva skupa se među
sobom ne razlikuju ili efekat bar jednog tretmana se ne razlikuje od nule;
Alternativna hipoteza (H1) treba da glasi: aritmetičke sredine bar dva skupa se među
sobom razlikuju ili efekat bar jednog tretmana se razlikuje od nule.

ANOVA se bazira na sljedećim pretpostavkama:


 Normalnost
 Homogenost varijansi
 Slučajne greške u prosjeku jednake nuli
 Slučajne greške su međusobno nezavisne
 Aditivnost

Preporuka: uzorci da budu iste veličine; neparametarska alternativa ANOVA-i: Kruskal-Wallis-


ov test.
Složena ANOVA (sa više faktora):

Ova varijanta ANOVA-e se primjenjuje kada postoje indicije da na posmatranu pojavu bitno
utiče više faktora. Može se sprovesti u slučajevima kad imamo više od dvije nezavisne varijable,
ali što je više nezavisnih varijabli, složenija je interpretacija dobijenih rezultata. Može se reći da
je rezultate analize varijanse s tri ili više nezavisnih varijabli prilično teško pratiti pa i razumjeti.

U dvofaktorskoj ANOVI postoje 3 različite nulte hipoteze (dvije o tzv. glavnim efektima faktora i
treća o interakciji). Kod nezavisnih rezultata, suma kvadrata između grupa sastoji se iz tri
dijela:
 Variranje među grupama koje pripadaju kategorijama jedne varijable
 Variranje među grupama koje pripadaju kategorijama druge varijable
 Interakcija

U statistici se razlikuju fiksni i slučajni efekti, fiksne i slučajne varijable, fiksni i slučajni
koeficijenti.
Fiksni efekt – o njemu se govori u slučaju u kojem su svi nivoi nezavisne varijeble korišteni ili su
namjerno odabrani određeni nivoi koji onda predstavljaju tu varijablu
Slučajni efekt – o njemu se govori kad je od svih mogućih nivoa neke nezavisne varijable po
slučaju odabran određeni broj nivoa.

ANOVA (kod zavisnih uzoraka)

Postupak je sličan s tim što usljed izvjesnih razlika koji se tiču samog odnosa ispitivanih uzoraka
uočavamo da:

UKUPAN VARIJABILITET (PKtot) čine:


 Variranje između grupa ispitanika: PKiz
 Variranje unutar grupa ispitanika: PKun
1. Variranje prema eksperimentalnim situacijama: PKes
2. Ostalo variranje: PKos

Razlikujemo analizu varijanse primijenjenu na tzv. nezavisne i analizu varijanse primijenjenu na


zavisne rezultate. Prednost kod ponovljenih nacrta koji se ovdje koriste jeste što smanjujuju
opšti varijabilitet korištenjem istih ispitanika. Međutim, tako dobijeni rezultati su u korelaciji,
nijesu nezavisni, imajući u vidu da se radi o istim ispitanicima. Zbog toga je potrebno ukloniti tu
zavisnost nametnutu ponovljenim mjerenjima na istim ispitanicima. Tu se zapravo radi o
parcijalizaciji učinaka izazvanih zavisnošću rezultata. Kad koristimo iste ispitanike u svim
eksperimentima, govorimo o: eksperimentalnom nacrtu za zavisne uzorke, eksperimentalnom
nacrtu sa ponovljenim mjerenjima, eksperimentalnom nacrtu sa istim ispitanicima, na
engleskom: within – subject design ili repeated measures design.
Isti ispitanici – jedna nezavisna varijabla, dvije nezavisne varijable

Kad imamo grupu ispitanika koji su ispitani u dva navrata (prije i poslije djelovanja neke
nezavisne varijable), statistička značajnost razlike u rezultatima postignutim u dvije
eksperimentalne situacije se određuje pomoću metode diferencijacije. Ta je metoda lako
primjenjiva sa malim brojem ispitanika, u slučaju većeg broja istih koristi se koeficijent
korelacije između rezultata postignutih u dvije prilike. Međutim, kad imamo više od dvije
situacije u kojima su ispitanici isti, koristimo analizu varijanse.
Provjera analize varijanse u nacrtu sa ponovljenim mjerenjima počiva na tri pretpostavke:
podaci su iz populacija sa normalnom distribucijom, postoji homogenost varijansi, sferičnost
(zahtjev da su varijanse razlika između svih parova poanvljanih mjerenja podjednake).
Kada u jednoj varijabli imamo dvije ili više grupa različitih ispitanika, a u drugoj varijabli u dvije
ili više eksperimentalnih situacija iste ispitanike, govorimo o tzv. miješanom nacrtu.

Nakon završene analize varijanse se rade:

Post hoc testovi


Ukoliko se pokaže da je ocjena sistemske (faktorske) varijanse dovoljno veća od ocjene slučajne
varijanse tako da se sistemska varijansa ne može tretirati kao posljedica djelovanja slučajnih faktora,
odbacujemo nultu hipotezu. To znači da se subpopulacije definisane kategorijama kategoričke varijable
međusobno razliku. Međutim, još uvijek ne znamo koje se grupe međusobno statistički razlikuju! U te
svrhe upotrebljavaju se naknadni testovi za višestruka poređenja, npr. Duncanov, Tuckeyev, Scheffeov
itd.
Metodi višestruke komparacije

 Tuckey-ev test je zasnovan na kriterijumu T i omogućuje simultano upoređivanje parova


aritmetičkih sredina. Postupak: izračunato T se poredi sa apsolutnom razlikom
aritmetičkih sredina uzoraka. Ako je T manje, zaključujemo da se odgovarajuće
aritmetičke sredine populacija među sobom razlikuju.
C.W.Dunnett (1955) – izradio tablice slične t-tablicama, ali se većim kritičnim t-vrijednostima
što je broj grupa bio veći. Bonferron-ijevim prilagođavanjem se nastoji smanjiti vrijednost α za
svaki statistički test tako da ukupna greška I vrste ostane 0.05. Ova prilagođavanja nijesu bez
mana (npr. povećava se rizik greške II vrste...)
 Scheffeova metoda – najviše se preporučuje jer je relativno strožija od drugih
postupaka. Računa se za svaki par aritmetičkih sredina. Očitana granična vrijednost se
pomnoži sa (g-1), pa se ta nova granična vrijednost (F ́) upoređuje sa izračunatom. Ako
je F<F ́(izračunata vrijednost manja od nove granične vrijednosti) razliku smatramo
statistički značajnom.

Intenzitet razlika – veličina efekta

Značajnost nam kaže da li ima ili nema razlika, a intenzitet - kolike su razlike.
Fišerov koeficijent (η2) – Pomoću njega spoznajemo u kom procentu možemo uspešno
predvidjeti zavisnu varijablu, ako znamo nezavisnu (kojoj grupi ispitanik pripada). Npr: ako
η2=0.8 znači da 80% ukupnih razlika potiče od razlika između grupa.
Kvadrirana omega (ω2) – uvijek daje niži rezultat od η2, a za oboje važi sljedeće:
 do 0.05 je mali efekat
 od 0.06 do 0.13 je srednji efekat
 preko 0.13 je veliki efekat

Koenova mera (f) – mora biti veća od nule; Veličina efekta se tumači:
 mali efekat: f < 0 .25
 srednji efekat: 0.25≤ f < 0.39
 veliki efekat: f≥0.40

Hi-kvadrat test
Hi-kvadrat test primjenjujemo kada su varijable kategoričke i podaci izraženi u frekvencijama, ili
ako distribucija odstupa od normalne. Cilj tog testa jeste empirijsko utvrđivanje da li neke
dobijene (opažene) frekvencije odstupaju od očekivanih frekvencija pod određenom
hipotezom. On je utoliko sličan računu korelacije što i kod njega želimo saznati postoji li
povezanost između dvije varijable. Međutim, ono što ih ključno razlikuje jeste to da račun
korelacije pokazuje stepen povezanosti između dvije varijable, dok nam hi-kvadrat test
pokazuje vjerovatnoću povezanosti. Najčešće ga upotrebljavamo u sljedećim slučajevima:

 Kad imamo frekvencije jednog uzorka pa želimo ustanoviti odstupaju li te frekvencije od


frekvencija koje očekujemo uz neku hipotezu;
 Kad imamo frekvencije dvaju ili više nezavisnih uzoraka, te želimo ustanoviti razlikuju li
se uzorci u opaženim svojstvima;
 Kad imamo frekvenciju dvaju zavisnih uzoraka koji imaju dihotomna svojstva, te želimo
ustanoviti razlikuju li se uzorci u mjerenim svojstvima, tj. je li došlo do promjene.
Što su razlike između teorijskih i opaženih frekvenci veće, to je i veći izraz hi-kvadrat testa. Što
je taj test veći, to je vjerovatnije da nultu hipotezu treba odbaciti. Tablica graničnih vrijenosti
hi-kvadrata nam pokazuje do koje vrijednosti moramo smatrati da je hi-kvadrat još uvijek
dovoljno visok, a da bismo mogli odbaciti nultu hipotezu. Nultu hipotezu sigurno možemo
prihvatiti ako je dobijeni hi-kvadrat manji ili jednak broju stepena slobode.
Kontrola rezultata sastoji se u tome da zbir teoretskih frekvencija mora odgovarati zbiru
opaženih frekvencija.

Osnovni uslovi za upotrebu hi-kvadrata:

 Hi-kvadrat se može računati samo sa frekvencijama,


 Zbir teoretskih (očekivanih) frekvencija mora biti jednak zbiru opaženih frekvencija
 Kad god u hi-kvadrat testu radimo s nekim svojstvom koje se pojavilo ili nije, u
računskom postupku trebalo bi uvrstiti i frekvencije u kojima se određeno svojstvo nije
pojavilo.
 Frekvencije u pojedinim poljima moraju biti u tom smislu nezavisne da svaka frekvencija
u pojedinom polju mora pripadati drugom individuumu;
 Nijedna teoretska frekvenca ne smije biti odveć mala;
 Kada postoji samo 1 stepen slobode, potrebno je provesti korekciju za kontinuitet
(Yatesova korekcija)

fo – opažene frekvencije
ft – očekivane (teorijske) frekvencije

Ho: nema značajnije razlike između empirijskih i teorijskih frekvenci


H1: ima značajnije razlike između empirijskih i teorijskih frekvenci
Ako p>0.05 – ne odbacujemo Ho.

Kategorička varijabla je ona koja sadrži određeni broj iscrpnih i uzajamno isključivih kategorija.
Iscrpnost kao princip: mora biti moguće da svakog člana svrstamo u neku od kategorija
Isključivost kao princip: određeni član populacije može pripadati samo jednoj kategoriji
Primjeri kategoričkih varijabli: bračni status, pol, obrazovanje itd.
Empirijska raspodjela kategoričke varijable – učestalost pojedinih kategorija varijable na
uzorku.
Raspodjela vjerovatnoća kategoričke varijable – vjerovatnoće pojedinih kategorija varijable u
populaciji.
Vjerovatnoće kategorija u populaciji (π) – ocijenjene proporcijom (p) date kategorije na
slučajnom uzorku.
Razlike između aritmetičkih sredina – kvantitativni brojčani podaci koji su normalno
raspoređeni.

Tabela kontigencije ili tabela unakrsnog razvrstavanja - tabela koja se pravi za potrebe Hi-
kvadrat testa, a koja u svojim redovima i kolonama sadrži frekvencije atributivnih obilježja. Ona
se pravi po sljedećem principu: ako npr. jedna varijabla ima 3 kategorije, a druga varijabla 2
kategorije, tabela će se izraditi po šemi 3x2 (3 reda i 2 kolone).
Ukrštanjem reda i kolone dobija se ćelija u tabeli kontigencije.
U ćelijama tabele kontigencije nalaze se zajedničke frekvencije, a zbirovi frekvencija u tabelama
i kolonama nazivaju se marginalne frekvencije.

Dva zavisna uzorka (McNemarov test) – Ako upoređujemo rezultate jedne te iste grupe prije i
poslije, ili upoređujemo istu grupu u dvije različite aktivnosti, onda vjerovatno postoji korelacija
između prvih i drugih rezultata. Ovaj test u nekim situacijama može biti izuzetno nepogodan.
Npr. ako neki postupak primijenjen na grupu ispitanika može se kod njih proizvesti suprotne
učinke. Tako će se dobiti mala vrijenost što bi trebalo značiti da nije došlo do promjene, a do
značajnih promjena je došlo.

Intenzitet povezanosti

Različiti koeficijenti nam govore o intenzitetu povezanosti kod ovog testa: Kramerov Fi
koeficijent (Kramerovo V), Koeficijent kontigencije C, količnik šansi, količnik rizika, razlika
rizika itd.

Testovi zasnovani na hi-kvadrat rasporedu obuhvataju niz problema koji se mogu odnositi na
modalitete jednog ili više obilježja. Najčešće korisćeni tog tipa su: testovi oblika rasporeda i
testovi nezavisnosti obilježja.

Glavna opasnosti od hi-kvadrata jeste u tome što se on lagano izračunava, ali treba prethodno
dobro promisliti šta nas zapravo zanima, pa tek onda računati teoretske frekvence jer one
zavise od hipoteze koju smo postavili!

Neparametarski testovi za testiranje


dva ili više nezavisnih uzoraka
PARAMETARSKA STATISTIKA: Najveći dio testova koje smo do sada koristili zahtijevao je
ispunjenost određenih pretpostavki –pretpostavka o obliku distribucije mjera u populaciji:
normalnost raspodjele. Ti testovi imaju veliku statističku snagu. Podaci su morali biti barem
intervalnog tipa, a nulta hipoteza sadrži precizno formulisane vrijednosti parametara.
Primeri: t-test, F-test, ANOVA, koeficijent linearne korelacije, linearna jednostruka i višestruka
regresija...
NEPARAMETARSKA STATISTIKA: Kod testova ovog tipa nemamo stroge pretpostavke o
distribuciji mjera u populaciji, a u sprovođenje statističkih postupaka se vrši na osnovu podataka
koji moraju biti nominalnog i ordinalnog tipa.“Neparametrijski” često nije najprikladniji naziv
(kao da ne podrazumijevaju ocjenjivanje parametara). Nulta hipoteza je često uopšteno
definisana, npr. Uzorci pripadaju istoj populaciji u pogledu ispitivane osobine. Ako su
zadovoljeni uslovi za parametrijske postupke onda ovi testovi uglavnom imaju manju statističku
snagu od “parametrijskih”. Neparametarska statistika je, dakle, “slobodna” od pretpostavke o
distribuciji populacije, ali ne od pretpostavke o obliku očekivane varijanse i distribucije
uzorka. Neparametarski testovi mogu služiti kao zamjena za “parametarske” kada za njih
nijesu ispunjeni uslovi. Npr. distribucija nije normalna, mjere nisu intervalne/racio već
ordinalne.
PARAMETRIJA NEPARAMETRIJA
t- test za nezavisne uzorke Test medijane, Man-Vitnijev U test
t- test za zavisne uzorke Test predznaka, Vilkoksonov test
F-test Kraskal-Volisov test
F-test ponovljena merenja Fridmanov test

Testiranje razlika dva nezavisna uzorka se vrši primjenom:


 Test homogenog niza – ako uzorak nije naročito malen – omogućuje odbacivanje nulte
hipoteze ako se oba uzorka međusobno razlikuju u bilo kojem pogledu: u centralnoj
tendenciji, u varijabilnosti, u simetričnosti...Ako nas upravo zanima razlikuju li se uzorci
samo po svojoj medijani, bolje je upotrijebiti medijanski test.

 Test medijane – jednostavan test koji se svodi na hi-kvadrat test. Sličan je t-testu kojim
se ispituje značajnost razlika između 2 aritmetičke sredine – kod parametarskih testova.
H0: Uzorci pripadaju istoj populaciji u pogledu ispitivanog obilježja
Princip: naći medijanu iz svih rezultata zajedno (za oba niza)
Formiramo tabelu kontingencije 2x2 – grupa/niz (prvi ili drugi) i položaj (ispod ili iznad
medijane)
Ovaj test među neparametrijskim testovima ima relativno malu statističku snagu. To je
tako zbog toga što se u postupku čini gruba podjela rezultata samo u dvije kategorije:
iznad i ispod medijane. Kod medijanskog testa jednako vrijedi rezultat koji je tek malo
veći od medijane, kao i najveći rezultat u grupi. Kod t-testa takve razlike rezultata se
nikad ne gube.

 Test zbira rangova (Man-Whitneyev U-test) – donekle je sličan testu homogenog niza,
ali koristi više informacija i zato se može smatrati boljim i snažnijim.
Kao i testom medijane, ovim testom se testira to spadaju li dva uzorka u populaciju sa
istom medijanom. Najniži nivo mjerenja koji ovaj test može koristiti jeste rangovna
ljestvica.
H0: Uzorci pripadaju istoj populaciji u pogledu ispitivanog obeležja
Rangiraju se oba niza zajedno i izračunaju se sume rangova svake grupe posebno: T1 i T2
N je oznaka za ukupan broj ispitanika.
Vrijednosti koje računamo jesu:
 Očekivana vrijednost zbira rangova za eksperimentalnu/kontrolnu grupu (TtE i TtK);
 Veličina standardne greške zbira rangova (SDT);
 Z statistika (odnos razlike opaženog i teorijskog zbira rangova i standardne greške
razlike zbira rangova).

 Siegel – Tukeyev test – pogodan za testiranje značajnosti razlika u varijabilitetu, to


svojstvo ima i test homogenog niza. Poupotrijebljenim formulama jednak je upravo
testu zbira rangova, ali se razlikuje po načinu rangiranja rezultata. U ovom slučaju
rangiranje se ne vrši na standardan, već na pomalo neuobičajen način.

Testiranje razlika više od 2 nezavisna uzorka se vrši primjenom:

 Prošireni medijan test – Ako imamo više nezavisnih grupa pa želimo testirati pripadaju li
one ili ne populaciji sa istom medijanom, možemo se poslužiti ovim testom. Postupak se
sastoji u tome da nađemo medijanu svih rezultata i da rezultate iznad medijane
označimo sa +, a one ispod medijane sa -. Ako je broj tezultata neparan, medijana
postaje jedan ili višepostojećih rezultata.
 Kruskal-Wallisov test (snažniji od proširenog testa medijane) – zapravo se radi o testu
analize varijanse, samo što se umjesto brojčanih mjernih podataka u ovom slučaju
koriste rangovi kao podaci. On predstavlja prošireni test zbira rangova. Jači je od
medijan testa jer koristi više informacija – možemo dokazati da uzorci pripadaju
različitim populacijama.
H0: Uzorci pripadaju istoj populaciji upogledu ispitivanog obeležja
Vrši se rangiranje svih nizova zajedno tako da najniži rezultat dobije rang 1. Nakon toga
se izračunavaju sume rangova svakog niza posebno T1, T2... Tk.

Neparametarski testovi za testiranje


dva ili više zavisnih uzoraka
Testiranje razlika dva zavisna uzorka: radi se dva puta sa istom grupom ispitanika ili sa dvije
grupe ispitanika u kojima svaki ispitanik jedne grupe ima svoj par u drugoj grupi.

 Test predznaka (Sign test)


H0: Uzorci pripadaju istoj populaciji u pogledu ispitivanog obilježja
Svaki član para dobija + ili – (parovi koji se ne razliku
označavaju se nulom i ne uzimaju se u razmatranje!)
N = ukupan broj parova - broj jednakih parova
Izračuna se broj + i - , a dalji postupak se nastavlja sa manjim od ta dva broja
Na osnovu odgovarajućih tabličnih vrijednosti, utvrđujemo najveći dopušteni broj razlika
(granična vrijednost).
Veliki nedostatak ovog testa je to što ne uzima u obzir veličinu razlike, nego samo njen
smjer.
 Vilkoksonov test ekvivalentnih parova (Wilcoxon test)
Ovaj test zahtijeva mjerene vrijenosti, postupak se sastoji u tome da izračunamo razlike
između oba člana u svakom paru. Razlike mogu biti pozitivne i negativne.
Mnogo je jači od testa predznaka jer se njime može utvrditi postojanje jedne razlike koju
nismo mogli dokazati testom predznaka.
H0: Uzorci pripadaju istoj populaciji u pogledu ispitivanog obilježja
Pri njegovom rješavanju koristi se intervalna mjerna skala po čemu je izuzetak u odnosu
na ostale testove. Rangiraju se apsolutne vrijednosti razlika parova i svaki rang dobija
predznak razlike. Ako su jednaki ne uzimaju se u računanje! Odvojeno se računaju sume
pozitivnih i negativnih rangova.

Testiranje razlika više od 2 zavisna uzorka:

 Fridmanov test – Ako na istoj grupi ispitanika obavljamo mjerenje u različitim uslovima,
onda su rezultati dobijeni na taj način u korelaciji sa ostalim rezultatima, pa se zbog toga
ne možemo više služiti Kruskal-Wallisovim testom. U tom slučaju ovaj test predstavlja
optimalno rješenje kojem odgovara jednosmjerna analiza varijanse za zavisne rezultate.
Iako koristi samo rangove, a ne stvarne izmjerene vrijednosti, ima gotovo jednaku snagu
kao i analiza varijanse zavisnih uzoraka.

 Cochranov Q test – Ako na istoj grupi ispitanika vršimo mjerenje pod različitim uslovima,
onda je za testiranje postoje li razlike između pojedinih situacija pogodan Cochranov Q
test. Tim testom se zapravo testira razlika između proporcija neke karakteristike u
različitim uslovima.

 Fergusonov test monotonije trenda – U novije vrijeme Ferguson je razradio


neparametrijske postupke za testiranje trenda u eksperimentima tipa opisanog kod
Fridmanovog testa. Nas, naime, može zanimati ne samo to da li se eksperimentalne
situacije statistički značajno razlikuju, već i to postoji li određena pravilnost u porastu (ili
padu) rezultata od jedne eksperimentalne situacije do druge.
Korelacija

Tipovi veza među varijablama:


• Funkcionalne veze (Y=f(X))
• Uzročno-posljedične veze (X uzrok Y)
• Stohastičke veze (X povezana sa Y)

• Linearne
• Nelinearne veze

Varijable zajedno variraju (koreliraju) kada su promjene na jednoj varijabli praćene “srodnim”
promjenama na drugoj varijabli. Poznavanje rezultata za neku jedinicu posmatranja na jednoj
varijabli pomaže da bolje predvidimo njen rezultat na drugoj varijabli nego što bismo mogli bez
tog poznavanja. Važno je znati da korelacija među varijablama ne znači nužno uzočno-
posljedičnu vezu!
Engleski matematičar Karl Pirson je razradio računski postupak za izračunavanje stepena
povezanosti između dvije varijable, dvije veličine, dvije pojave i izrazio stepen povezanosti
brojem koji je nazvao koeficijent korelacije (r).
Ako linearnom porastu jedne varijable odgovara takođe linearni porast druge varijable i to tako
da je jedna određena vrijednosti jedne varijable uvijek povezana sa korespondentnom
vrijednošću druge varijable, onda je korelacija pozitivna i potpuna (maksimalna) i brojčano se
označava sa +1.
Ako linearnom porastu jedne varijable uglavnom odgovara linearni porast druge varijable i to
tako da je jedna određena vrijednost jedne varijable povezana sa više vrijendosti druge
varijable, onda je korelacija pozitivna, ali nije maksimalna, pa se bilježi brojčanom vrijednošću
koja je veća od 0, ali manja od +1.
Ako iz određene vrijednosti jedne varijable ne možemo ništa zaključiti o vrijednosti druge
varijable, tj. ako jednoj određenoj vrijednosti jedne varijable odgovara bilo koja od mogućih
vrijednosti druge varijable, onda nema korelacije između dvije pojave i to se bilježi kao nulta
korelacija, brojčano 0.
Ako linearnom porastu jedne varijable odgovara linearno opadanje vrijednosti druge varijable,
ali je povezanost takva da je jedna vrijednost jedne varijable povezana s više vrijednosti druge
varijable, onda je korelacija negativna i nepotpuna jer se bilježi izrazom koji je manji od 0, a
veći od -1.
Ako linearnom porastu vrijednosti jedne varijable odgovara linearni pad vrijednosti druge
varijable i to tako da je jedna određena vrijednost jedne varijable povezana sa jednom
korespondentnom vrijednosti druge varijable, onda je korelacija negativna i maksimalna, pa se
bilježi izrazom -1.
Što se koeficijent korelacije više razlikuje od nule i približava jedinici (bilo da se radi o
pozitivnoj ili negativnoj korelaciji), to znači da je veća povezanost između dvije varijable.
Prije njegovog računanja treba se utvrditi je li povezanost između dvije varijable linearna ili nije.
Za to nam služi regresiona crta (linija) koja će biti pravac ako je povezanost linearna.
Linearnost povezanosti između dvije varijable se može provjeriti tzv. vizuelnom inspekcijom
dijagrama bivarijantnog raspršenja. Kod korelacije nema zavisne i nezavisne varijable jer
korelacija predstavlja simetričan odnos između varijabli – promjene na jednoj uzrokuju
promjene na drugoj varijabli, obje „učestvuju“ u tom odnosu na isti način.

Osnovni uslovi za računanje koeficijenta korelacije:


1. Rezultati moraju biti prave mjerene vrijednosti i izražene barem na intervalnoj skali;
2. Mora biti dovoljan broj rezultata, a u statistici se uzima da je to 30 (neki kažu da taj broj
treba biti veći jer što je veći broj mjerenja, dobijene vrijednosti su stabilnije);
3. Distribucije obje varijable moraju biti simetrične;
4. Može se računati samo ako je povezanost među varijablama linearna;
5. Pretpostavlja se postojanje homoscedasciteta (podjednakog varijabiliteta u Y varijabli za
sve nivoe X varijable)

Ako ti uslovi nijesu zadovoljeni, treba računati neki drugi koeficijent korelacije. Statističari,
međutim, nijesu suviše rigorozni po pitanju njihovog poštovanja, osim ako ne se pojave
izrazita odstupanja od njih.
Varijable zajedno variraju (koreliraju) kada su promjene na jednoj varijabli praćene
“srodnim” promjenama na drugoj varijabli. Poznavanje rezultata za neku jedinicu posmatranja
na jednoj varijabli pomaže da bolje predvidimo njen rezultat na drugoj varijabli nego što bismo
mogli bez tog poznavanja. Važno je znati da korelacija među varijablama ne znači nužno
uzočno-posljedičnu vezu!

Koeficijent linearne korelacije (rezime):


Brojčana vrijednost koja nam pokazuje stepen linearne povezanosti između dvije varijable
(kreće se od -1 do 1). Varijable mogu biti u jakoj nelinearnoj vezi a da koeficijentom
linearne korelacije to ne otkrijemo. Zato je važno da uvijek prvo pogledamo dijagram raspršenja
prije računanja koeficijenta linearne korelacije. Na dijagramu se mogu učiti i ekstremne
vrijednosti (nestandardne opservacije ili autlajer) - engl.outliers

Uslovi primjene Pearsonovog koeficijenta linearne korelacije:

 Rezultati moraju biti prave mjerne vrijednosti,izražene barem na intervalnoj skali


 Mora postojati dovoljan broj rezultata (obično 30)
 Distribucije za obije varijable moraju biti simetrične
 Smije se računati samo ako je povezanost linearna
 Pretpostavka homoskedastičnosti mora biti zadovoljena (pojednakog varijabiliteta u Y za
sve nivoe X)

Određivanje linije (crte) regresije – Postoji li pravolinijski ili zakrivljeni odnos između X I Y
varijable pokazuje nam regresiona linija. Ona u dvodimenzionalnom koordinatnom
sistemu spaja tačke čije su koordinate tzv. fiksne vrijednosti u jednoj varijabli (npr. X), i
parcijalne srednje vrijednosti u drugoj varijabli (npr. Y).

Testiranje značajnosti koeficijenta korelacije: t test


Ako je Ho tačna, onda t-stat ima Studentovu distribuciju sa n-2 broja stepeni slobode. Vrijednost
t-statistike zavisi od veličine koeficijent linearne korelacije i od veličine uzorka. Interpretacija
koeficijenta se može raspravljati samo nakon što je utvrđena njegova značajnost.
Kada odbacujemo nultu hipotezu, korelacija je statistički značajna.

Određivanje linije (crte) regresije – Postoji li pravolinijski ili zakrivljeni odnos između X I Y
varijable pokazuje nam regresiona linija. Ona u dvodimenzionalnom koordinatnom sistemu
spaja tačke čije su koordinate tzv. fiksne vrijednosti u jednoj varijabli (npr. X), i parcijalne
srednje vrijednosti u drugoj varijabli (npr. Y).

Korelacija rangova
Ako su jedna ili obje varijable date u rangu, tj. rezultati nijesu mjerene vrijednosti, već su dati
samo u redosljedu, računa se tzv. rang korelacija. Kod rangova ne znamo stvarne razlike među
pojedinim rezultatima, nego jedino razlike u rangu. U ovom slučaju varijable ne moraju striktno
biti u linearnom odnosu. Rang korelacije daje samo približnu indikaciju asocijacije između dvije
varijable i opravdano ju je opredijeliti samo onda ako se ne može izračunati r korelacija.
Ako postoji relativno veliki broj zajedničkih rangova, tj. ako ima mnogo slučajeva da dva ili više
ispitanika zauzimaju isti rang, potrebno je izvršiti korekturu u računu. Ukoliko se ona ne
sprovede, to može dovesti do krajnje besmislenog rezultata. Razlika između korigovanog i
nekorigovanog koeficijenta postaje veća što su razlike među rangovima jedne i druge
varijable veće, dakle što je korelacija niža.
Rangiranje se može provesti u bilo kojem smjeru, ali mora biti sprovedeno na isti način u obje
varijable: ako najvišem rezultatu u varijabli X damo rang 1, moramo i u varijabli Y rang 1 dati
najvišem rezultatu. Kad se radi o pretvaranju nekih rezultata u rangove, gube se sve one
informacije o razlikama koje postoje u mjerenim vrijednostima, jer se sve razlike svode na
jednake razlike među rangovima. Zbog toga koeficijent korelacije r daje tačniji podatak o
povezanosti između dvije varijable.
Spearmanov koeficijent korelacije rangova:
Računa se D – razlike parova rangova.
Testiranje statističke značajnosti – t statistika ima studentovu raspodjelu sa df=n-2.
N – broj parova rangova.
Rang korelacija daje samo približnu indikaciju asocijacije između varijabli. Za razliku od
Pearsonovog koeficijenta, kod rang korelacije nije neophodno da varijable budu u linearnom
odnosu.

Kendallov “tau” koeficijent rang korelacije:


Rangovi jednog niza su poređani u prirodnom rastućem redosljedu, a drugi niz rangova se
dodaje:
+1 ako je prvo niži pa viši rang (prirodni redosljed)
-1 ako je prvo viši pa niži rang (inverzni redosljed)
Potom se računa S = suma svih +1 i -1.
Kendalov tau koeficijent korelacije rangova niži je od Spirmanovog za iste podatke, ali je
zaključak o značajnosti uobičajeno isti za oba koeficijenta. Kendalov koeficijent bolje ocjenjuje
korelaciju između rangova u populaciji. Statističari smatraju Tau boljim od Ro jer je
aproksimacija normalne raspodjele kod njega mnogo bolja. Kendalov postupak razrađen je i za
računanje parcijalne korelacije dva niza rangova kada se isključi uticaj treće varijable. Tau
koeficijent korelacije moež se koristiti i za koreliranje jedne ordinalne sa jednom dihotomnom
varijablom (npr. živ – mrtav; muškarac – žena)
Parcijalna korelacija – korelacija između dvije varijable kod koje isključujemo uticaj jednog (ili
više) faktora koji nam smetaju, odnosno koji izazivaju pogrešne zaključke.
Primjer: Na uzorku školske djece uzrasta od 7 do 15 godina, u svakom školskom razredu
mjerena je dužina stopala i sposobnost pisanja. Možemo primijetiti da kod oba svojstva
prosječni rezultati rastu s godinama djeteta. Da bismo dobili stvarnu korelaciju, treba isključiti
uticaj odrastanja.
Varijabla 1 – dužina stopala;
Varijabla 2 – sposobnost pisanja;
Varijabla 3 – starosna dob

Interpretacija rezultata se vrši nakon što je utvrđen njegov nivo statističke značajnosti.
Ako je mjerenje sprovedeno na većem broju slučajeva, stepen povezanosti se određuje na
osnovu sljedećih utemeljenja:

 r od 0 do +/- 0.2 znači nikakvu ili neznatnu povezanost;


 r od +/- 0.2 do +/- 0.4 znači laku povezanost;
 r od +/- 0.4 do +/- 0.7 znači stvarnu značajnu povezanost
 r od +/- 0.7 do +/- 1 znači vrlo visoku ili vrlo visoku povezanost

Visina korelacije nije samo odraz stepena povezanosti između 2 varijable, nego može biti i
posljedica drugih uticaja:
Sažimanje rezultata u manji broj numeričkih kategorija: ako su rezultati sažeti u mali broj
numeričkih klasa smanjuje se i varijabilitet rezultata, samim tim i koeficijent korelacije;
Zakrivljen odnos – pretjerana zakrivljenost može okarakterisati računanje koeficijenta
korelacije besmislenim, u takvim slučajevima se koristi tzv. korelacioni odnos (eta koeficijent
zakrivljene korelacije);
Eliminisanje vrijednosti oko aritmetičke sredine – zbog toga se u za potrebe obrade uzmu
samo ekstremne grupe, tj. samo grupa mladih i grupa starih.
Podgrupe sa različitim aritmetičkim sredinama
Uticaj raspona – Ako je raspon ograničen u jednoj varijabli tako da raspolaže rezultate samo
dijela populacije, on je onda nužno ograničen i u drugoj varijabli, što značajno smanjuje visinu
korelacije.
Kauzalno interpretiranje korelacije – kada su dvije pojave u korelacije, nerijetko su i ujedno u
uzročnoj vezi; to ipak nije nužna pojava.

Postoje 3 mogućnosti kauzalnih odnosa:


 Varijabla X uzrokuje promjene u varijabli Y;
 Varijabla Y uzrokuje promjene u varijabli X;
 Neka treća varijabla uzrokuje promjene u varijabli X i u varijabli Y.

Još neki koeficijenti korelacije

 “Point-biserijalni” koeficijent korelacije rpb – on se računa kad nas zanima korelacija


između jedne kontinuirane varijable i jedne dihotome varijable (muško/žensko;
položio/pao).
 Koeficijent konkordancije W – računa se kada nas zanima slaganje između više nizova
rangova: može se dogoditi da nekoliko ocjenjivača da svoj rang za nekoliko učenika, pa
nas zanima koliko se ocjenjivači međusobno slažu, a to se računa ovim koeficijentom.
 Fi koeficijent – Sjetimo se veze sa hi-kvadrat testom. Ako radimo sa varijablama koje se
raspoređuju u dvije očito podijeljene karakteristike (živi-umrli; muškarci-žene), ili je
karakteristike nemoguće izmjeriti, pa ih podijelimo u dvije grupe, koristimo se ovim
koeficijentom.
 Koeficijent kontigencije C – Koristi se takođe kod hi-kvadrat testa. Ako u jednoj ili obje
varijable imamo više razreda (klasa, kategorija), možemo korelaciju izračunati pomoću
ovog koeficijenta. Njegova prednost jeste to što ne zahtijeva simetričnu raspodjelu
varijabli koje su u međusobnoj korelaciji. Njegov glavni nedostatak je što njegova
maksimalna vrijednost zavisi od broja kategorija u tabeli kontigencije. Danas se on
uglavnom napušta i umjesto njega se sve više upotrebljava Kramerov koeficijent
(Kramerovo V) koji se takođe računa preko hi-kvadrata. Za razliku od Fi-koeficijenta, ovaj
se može svesti na r-koeficijent.
Prosta linearna regresija
Termin “regresija” ima različita značenja u psihologiji.
Regressio (lat.) – kretanje unazad, u psihologiji označava vraćanje na raniji ili manje zreo način
ponašanja. Ovdje ćemo termin (jednostruka linearna) regresija koristiti u statističkom smislu.
Regresiona analiza: radi se o predviđanju rezultata u jednoj varijabli na temelju poznavanja
rezultata u drugoj varijabli. Temeljnu ulogu u postupku predviđanja ima koeficijent korelacije
između varijable X i Y. Varijabla u kojoj se prognozira rezultat naziva se kriterijumska, a ona na
osnovu koje se sprovodi to predviđanje naziva se prediktorska varijabla. Odnos između
kriterijumske i prediktorske varijable je asimetričan: ide se od prediktorske ka kriterijumskoj.
Dakle, nije simetričan kao korelacija.
Galton je pretpostavio postojanje zakona o regresiji ka prosjeku: s ekstremnim vrijednostima
varijable X povezane su manje ekstremne vrijednosti varijable Y; dakle, kao da Y vrijednosti teže
vraćanju prega svom prosjeku.
Variranje rezultata u Y varijabli koji se vežu za pojedine vrijednosti X varijable naziva se
rezidualni varijabilitet. Označavamo ga simbolom SDy(x). Izračunata vrijednost se naziva indeks
rezidualnog varijabiliteta. On se može računati tako da uz svaku parcijalnu srednju vrijednost u
Y varijabli za fiksne vrijednosti u X varijabli izračunamo standardnu devijaciju. U postupku
predviđanja rezultata u Z varijabli na temelju poznavanja rezultata u X varijabli, on služi kao
standardna greška prognoze i pomoću nje možemo odrediti intervalnu procjenu u kojoj se s
odabranom sigurnošću nalazi predviđeni rezultat.
Statistički smisao se sastoji u pronalaženju najadekvatnijeg linearnog modela za opisivanje
veze između zavisne i nezavisne promjenljive.

Osnovni cilj regresione analize: definisanje regresionog modela koji može, na osnovu
poznavanja rezultata nezavisne varijable (prediktorske), manje ili više precizno da predvidi
(ocijeni) rezultat zavisne (kriterijumske) varijable.

Dakle, ciljevi su:


 Predviđanje jedne numeričke karakteristike preko druge numeričke karakteristike.
 Ispitivanje zavisnosti jednog parametra od drugog
Napomena: Ovdje pretpostavljamo da su obije varijable kvantitativne.

Ocjenjivanje regresionih parametara:


Metoda najmanjih kvadrata
Cilj je naći minimum kvadrata odstupanja svih empirijskih tačaka od regresione linije. Vertikalna
rastojanja između empirijskih tačkaka od regresione linije predstavljaju greške predviđanja
(rezidual).
Matematički, problem se svodi na određivanje minimuma funkcije. Dakle, treba odrediti b0 i b1
kojima se postiže minimum funkcije. Do rješenja se dolazi nalaženjem parcijalnih izvoda funkcije
po b0 i b1 i njihovim izjednačavanjem sa nulom.

Koeficijent determinacije

To je u linearnoj regresiji je kvadrat koeficijenta linearne korelacije. On daje informaciju o


stepenu varijabiliteta u zavisnoj promjenljivoj koji se može objasniti varijacijama u nezavisnoj
promjenljivoj. Ukupan varijabilitet je jednak zbiru objašnjenog i neobjašnjenog varijabiliteta.
Standardna greška ocjene (regresije) je standardna devijacija distribucije reziduala. Govori o
prosječnoj grešci koju pravimo kada predviđamo zavisnu promjenljivu na osnovu nezavisne.

Testiranje nulte hipoteze o koeficijentu determinacije: F test


H0: ρ2 = 0 (ρ2 је koeficijent linearne determinacije u populaciji)
Ako je nulta hipoteza tačna, F statistika ima Snidikorovu F distribuciju
uzorkovanja čiji stepeni slobode su 1 i n-2.

Testiranje značajnosti koeficijenta b0:


Ho: β0 = 0 (β0 je intercept u populaciji)
Ako je Ho tačna, onda t-stat ima Studentovu distribuciju sa n-2 broja stepeni slobode
Nulta hipoteza o interceptu se rijetko testira u psihologiji

Testiranje značajnosti koeficijenta b1:


Ho: β1 = 0 (β1 je nagib u populaciji)
Ako je Ho tačna, onda t-statistika ima Studentovu distribuciju sa n-2 broja stepeni slobode.
Testiranje nulte hipoteze o koeficijentu nagiba u jednostrukoj linearnoj regresiji isto je što i
testiranje nulte hipoteze o koeficijentu linearne korelacije.

Što je koeficijent determinacije bliži 1, to je model “bolji”. Što je veličina standardne greške
regresije bliža nuli ili što je manja u odnosu na standardnu devijaciju zavisne varijable, to je
model bolji.
Predviđanje pomoću regresionog modela:

Interpolacija – predviđanje vrijednosti zavisne varijable za jedinice posmatranja nezavisne


varijable koje su korišćene u kontrukciji regresionog modela
Ekstrapolacija - predviđanje vrijednosti zavisne varijable za jedinice posmatranja nezavisne
varijable koje nijesu korišćene u kontrukciji regresionog modela

Uslovi za primjenu linearne regresije:

 Bivarijanta normalna raspodjela varijabli u populaciji;


 Varijable moraju biti kvantitativne;
 Linearan odnos među varijablama;
 Nezavisna varijabla mora biti mjerena bez greške.

Višestruka linearna regresija


REGRESIONA ANALIZA – predviđanje jedne numeričke karakteristike preko druge numeričke
karakteristike; ispitivanje zavisnosti jednog parametra od drugog.
Višestruka/multipla korelacija – korelacija između nekoliko prediktora i jednog kriterijuma.
Ona je zapravo maksimalno mogući koeficijent korelacije između 2 ili više prediktora i jednog
kriterijuma. To možemo postići samo ako veću „težinu“ damo važnijim, a manju „težinu“ manje
važnim prediktorima. Posao njenog izračunavanja sastoji se u tome da se nađe koja je
maksimalna korelacija između grupe prediktora i jednog kriterijuma, a posebnim računom
utvrditi u kojim se uslovima ta korelacija može postići, tj. koliko treba povećati ili smanjiti
važnost jednog prediktora. Multipla korelacija omogućava da bez traženja nađemo optimalnu
„težinu“ svakog pojedinog prediktora.
Višestruka regresija – primjenjuje se kod korelacionih multivarijantnih nacrta. Radi se kada kao
predmete koje koristimo u samom računskom postupku imamo dva i više prediktora
(numeričkih) i jedan kriterijum (numerički). Cilj ove analize je naći takvu kombinaciju
prediktora koja daje najbolje predviđanje kriterijuma.

Prednosti:
 Ispitivanje predviđanja jedne pojave preko više prediktora istovremeno
 Bolja je predikcija zavisne pojave
 Međuzavisnost prediktora

R2 – višestruki koeficijent determinacije – njime određujemo stepen predviđanja vrijednosti


zavisne promjenljive preko svih prediktora zajedno.
Npr. ako je R2 = 0.9, to znači da 90 % zavisne varijable (Y) možemo predvidjeti (objasniti) na
osnovu svih prediktora zajedno.
Determinacija = kvadrirana korelacija
Moguće je odrediti pojedinačne doprinose, npr. r12 (doprinos prvog prediktora) i r22 (doprinos
drugog prediktora).
Koeficijent višestruke determinacije izražen preko pojedinačnih korelacija. Koeficijent
višestruke determinacije precjenjuje populacijsku vrijednost. Precjenjivanje raste sa
porastom broja prediktora.

Regresioni koeficijenti

“b” koeficijenti – određuju doprinos svakog pojedinačnog prediktora


“β” standardizovani koeficijenti – njime možemo upoređivati doprinose prediktora

Regresija kao recept:

Prediktori – sastojci
Ponderi – određuju količinu sastojaka

Parcijalne i semiparcijalne korelacije – govore o povezanosti svakog pojedinačnog prediktora


sa kriterijumom.
Parcijalne - korelacija prediktora sa kriterijumom kada su vrijednosti ostalih prediktora
konstantne.
Semiparcijalne – dodatni doprinos prediktora nakon predikcije na osnovu ostalih prediktora.

You might also like