Professional Documents
Culture Documents
EDUKACIJSKI FAKULTET
MATEMATIKA I INFORMATIKA
KORELACIJA
SEMINARSKI RAD IZ KVANTITATIVNIH METODA
Kandidati: Mentor:
Antonella Radoš
1. UVOD ................................................................................................................................ 3
8. ZAKLJUČAK .................................................................................................................. 25
9. LITERATURA ................................................................................................................. 26
2
1. UVOD
Korelacija (lat. con = sa, relatio = odnos) predstavlja suodnos ili međusobnu povezanost
između različitih pojava predstavljenih vrijednostima dvaju varijabli. Pri tome povezanost znači
da je vrijednost jedne varijable moguće s određenom vjerojatnošću predvidjeti na osnovi
saznanja o vrijednosti druge varijable. Klasični primjeri povezanosti su npr. saznanje o utjecaju
količine padalina na urod žitarica, o povezanosti slane hrane i visokog krvnog tlaka i sl. (N,
znanostblog, n.d.)
1. Kada mala vrijednost jedne varijable odgovara maloj vrijednosti druge varijable, kao i
kada velika vrijednost jedne varijable odgovara velikoj vrijednosti druge varijable,
radi se o pozitivnoj korelaciji.
2. Kada mala vrijednost jedne varijable odgovara velikoj vrijednosti druge varijable i
obratno, radi se o negativnoj korelaciji.
3. Kada vrijednost jedne varijable u nekim intervalima odgovara maloj vrijednosti druge
varijable, a u drugim intervalima velikoj vrijednosti, radi se o nemonotonoj korelaciji.
Ako se korelacija više nego jednom mijenja od pozitivne prema negativnoj, takva
korelacija naziva se ciklična korelacija.
3
2. METODOLOŠKI OKVIR RADA
Zadatak ovog rada je bio prikazati korelaciju, te ju objasniti. Objasniti na koji način
se koristi korelacija i gdje ima primjenu.
Glavna hipoteza rada bazira se na primjeni korelacije , te kako se korištenjem iste može
doći do teorijskih spoznaja.
4
3. KOEFICJENT KORELACIJE
Rasipanje uzrokovano slučajnim greškama, čest je slučaj u skoro svim mjerenjima. U nekim
slučajevima rasipanje može biti toliko prisutno da je teško detektirati tendenciju, odnosno trend.
Uzmimo u obzir eksperiment u kojem se nezavisna varijabla x sistematski varira, a zavisna
varijabla y se mjeri. Cilj je da se odredi zavisnost vrijednosti varijable y od varijable x. Ako bi
dobiveni rezultat izgledao kao na slici 1(a), mogli bismo zaključiti da je veza između y i x
znatno izražena, jaka.
S druge strane, ako bi rezultati bili kao na slici 1(b), zaključili bismo da nema funkcionalne
veze između y i x. Ako bi se podaci pokazali kao na slici 1(c), bili bismo nesigurni u vezu
varijabli. Mogli bismo uspostaviti neku vrstu zajedničkog porasta x i y, ali zbog rasutosti
podataka ne bismo mogli uspostaviti stabilan trend rezultata, jer postoji mogućnost da je veza
zasnovana na slučajnosti. Na našu sreću, postoji statistički parametar, nazvan koeficijent
korelacije, čija je svrha da razjasni da li je trend realan ili je samo posljedica slučajnosti.
Koeficijent korelacije, rxy, je broj čija se vrijednost može iskoristiti da se provjeri postojanje
funkcionalne veze između dvije mjerene varijable x i y. Postoji više koeficijenata korelacije
koji se koriste u različitim slučajevima. Najčešći koeficijent korelacije koji se koriste su:
Također postoje i :
1) parcijalna korelacija
2) koeficijent multiple korelacije
3) pointbiserialni koeficijent korelacije
4) koeficijent konkordancije W
5) φ koeficijent
6) koeficijent kontingencije C
7) Cramerov φ
8) Kendellov τ koeficijent
9) Freemanov θ koeficijent
5
++++ +
+ + + +
+ + +++ +
++++ + + + +
+
+ ++ +++
++++ +
++ +
+ +
+ ++
+ +++ + + + + ++
y +++++++ y + ++ + ++ ++
++ ++ +
+ + + ++
+ +
+ ++
+ ++ +
++++ ++ + ++ + + + ++ +
+ +
++++
+ ++
++++ ++ + + +
+ ++ ++
+ ++ ++ +
+ + + ++ + + ++ + + ++ +
+ ++ +
++++
++ ++ + + + + + + + + + + + ++
++ + +
+ + + +
x x
(a) (b)
+
+ + + + + +
+ + + + ++ ++ ++ ++
+ + ++ ++ ++ ++ + + +
y +
+ + + + + + + ++ + +
+ + + ++ + + + +
+
+ + +
++
+
x
(c)
6
4. PEARSONOV KOEFICJENT KORELACIJE
Predznak koeficijenta nas upućuje na smjer korelacije – da li je pozitivna ili negativna, ali
nas ne upućuje na snagu korelacije. Pearsonov koeficijent korelacije bazira se na usporedbi
stvarnog utjecaja promatranih varijabli jedne na drugu u odnosu na maksimalni mogući utjecaj
dviju varijabli.
x
i 1
i x y i y
rxy 1/ 2
(1)
n n
2
x i x y i y
2
i 1 i 1
7
gdje je:
n
x
i 1
i
x - prosječna vrijednost varijable x (2)
n
n
y
i 1
i
y - prosječna vrijednost varijable y (3)
n
n
SS xx xi x - suma kvadrata varijable x
2
(4)
i 1
n
SS yy y i y - suma kvadrata varijable y
2
(5)
i 1
8
Slika 2 Vrijednosti Pearsonovog koeficijenta korelacije
Za praktične probleme, ovaj proces se može pojednostaviti u formi jedne tabele. Kritične
vrijednosti za r su određene kako bi se mogle usporediti sa sračunatom vrijednošću rxy. Za dvije
varijable i n broj parova podataka, prikladne kritične (granične) vrijednosti r, rt su izračunate i
date u tabeli 1. rt je funkcija broja uzoraka i nivoa relevantnosti, α.
9
Vrijednosti r u tabeli su limitirajuće vrijednosti za koje možemo očekivati da su
posljedica čiste slučajnosti. Za svaku rt varijablu u tabeli, postoji samo vjerojatnost α tako će
eksperimentalne vrijednosti rxy biti veće od šanse za čistu slučajnost. U slučaju kada
eksperimentalne vrijednosti premaše tabelarne vrijednosti, možemo očekivati da će
eksperimentalni podaci pokazati realnu korelaciju sa sigurnošću vrijednosti 1-α.
α
n
0,20 0,10 0,05 0,02 0,01
10
16 0,338 0,426 0,497 0,574 0,623
11
5. SPEARMANOV KOEFICJENT KORELACIJE
n
d i2
rs 1 6
i 1 n n 1
2
(6)
gdje je razlika vrijednosti rangova dvije promatrane varijable, a n je broj različitih serija.
12
Slika 3 Razlika između vrijednosti originalnih podataka i rangova tih podataka
Primjer 1:
Pretpostavljena je veza između vremena obilaska kruga staze (lap time) i temperature
ambijenta. Podaci su izmjereni na osnovu vremena prolaza istog vozila sa istim vozačem u
različitim trkama i dati su tabelom:
Tablica 2 Primjer 1a
Temperatura
ambienta 40 47 55 62 66 88
(oF)
Vrijeme
65,3 66,5 67,3 67,8 67 66,6
kruga
Rješenje: Kao prvo, podatke date u prethodnoj tabeli ćemo prikazati u sljedećem obliku. Iz
prikaza, na prvi pogled izgleda da bi mogla postojati slaba pozitivna korelacija između vremena
prolazi i ambijentalne temperature, međutim možemo računskim putem da zaključimo da li je
koeficijent korelacije realan ili posljedica slučajnosti. Koeficijent ćemo odrediti upotrebom
jednadžbe (7). Dobivamo sljedeću proračunsku tabelu:
13
Tablica 3 Primjer 1 proračunska tabela
x y xx x x 2 yy y y 2 x x y y
14
Uz pomoć jednadžbe (7) dobivamo i konačnu vrijednost rxy:
28,9
rxy 0,4013 (7)
1417,33 3,661 / 2
15
6. METODA NAJMANJIH KVADRATA
Najčešće korištena funkcija za ovu svrhu je prava linija. Linearna raspodjela je prikladna
za veliki broj rezultata, dok u nekim slučajevima podaci mogu biti transformirani u
aproksimativne linearne oblike. Kao što je prikazano na slici 5, ako imamo n parova podataka
(xi, yi), pokušat ćemo da uspostavimo pravu liniju oblika kroz podatke.
Y ax b
Morali bismo dobiti vrijednost konstanti a i b. Ako imamo samo 2 para podataka, rješenje je
jednostavno, jer promatrane tačke formiraju i u potpunosti određuju jednu pravu. U slučaju
kada imamo više tačaka od interesa, moramo da odredimo „najbolji slučaj (best fit)“ za podatke.
Osoba koja vrši eksperiment može jednostavno da provuče liniju kroz dijagram čiji pravac
dodiruje najveći broj tačaka ili je u njihovoj blizini, i često je upravo to najbolja aproksimacija
za dobivanje linearne veze.
Više sistematski i prikladan pristup je da se koristi metoda najmanjih kvadrata ili linearne
regresije da se pronađe najbolji oblik podataka. Regresija je potpuno definirana matematska
formulacija koja je lako automatizirana. Pretpostavimo da se podaci ispitivanja sastoje od
parova podataka. Za svaku vrijednost xi (za koju se smatra da je bez greške), možemo
predvidjeti vrijednost yi na osnovu linearne veze Y ax b . Za svaku vrijednost xi bi se javlja
i greška po formuli
ei Yi yi (9)
16
Slika 5 Postavljanje prave linije kroz podatke
n
E Yi yi axi b yi
2 2
gdje je i 1
E
0 2axi b y i xi
a
E
0 2axi b y i xi
b
n xi y i xi y i
a
n xi2 xi
2
b
x y x x y
2
i i i i i
n x x 2 2
i i
17
Rezultirajuća linija Y ax b , se naziva least-squares best fit, odnosno najbolji oblik
raspodjele najmanjih kvadrata podataka predstavljenih sa parovima xi i yi.
ax b y
2
1
2 i i
r
y y
2
i
Za inženjerske podatke , r2 će biti prilično visok i kretat će se u rasponu od 0.8 do 0.9 ili
više, a mala vrijednost može biti i indikator da postoji još neka bitna varijabla koja nije uzeta u
obzir, a koja utiče na rezultat.
18
Još jedna mjera pouzdanosti dobivenih koeficijenata se naziva i standardna greška
procjene, data izrazom
y Yi
2
S y,x
i
n2
Ovo je u biti standardna devijacija razlika odnosno razmaka između tačaka podataka i
prave funkcije. U nekim slučajevima, jedan drugačiji oblik linearne regresije se koristi gdje se
linija (prava) funkcije prisiljava na prolaz kroz centar koordinatnog sistema (x=0,y=0). Ovaj
oblik se često upotrebljava pri kalibraciji instrumenata gdje se nulto pomjeranje može podesiti
u nulu sistema prije vršenja mjerenja. Ova situacija je pokazana na slici6. Ako se iskoristi izraz
(8), linija najbolje funkcije neće proći kroz koordinatni početak. Ako se izvor prave fiksira u
koordinatni početak linija će imati oblik:
Y ax
pri čemu će se vrijednost a računati po izrazu:
x y
i 1
i i
a n
x
i 1
2
i
Primjer 2:
Tablica 4 Primjer 2a
Odrediti najbolji linearni prikaz podataka, nacrtati podatke u (V,L) plot dijagramu i
sračunati standardnu grešku procjene kao i koeficijent determinacije.
19
Rješenje: Da bi se riješio ovaj problem, zamijenit ćemo podatke po jednadžbi. Prikazana
tabela pokazuje kako se računaju pojedinačne sume:
xi x i2 yi xiyi y i2
0 0 0,05 0 0,0025
2 4 2 4 4,0
x i 7,5 x 2
i 13,75 y i 7,66 x yi i 13,94 y 2
i 14,137
Y 0,9977 x 0,0295
gdje je Y voltaža a x pomjeranje, odstupanje od mjere, što se može vidjeti na slici.
20
Sada možemo izračunati i koeficijent determinantnosti i standardnu grešku. Notirajući da je
1 1
y
n
yi (7,66) 1,27666 dobivamo tabelarne rezultate:
6
xi yi Yi yi 2 y i y 2
0 0,05 0,000419 1,504711
2 2 0,000623 0,523211
21
r2 se dobiva kao:
Y y
2
0,00311
1 1 0,999286
2 i i
r
y y
2
i
4,358133
0,00311
S y,x 0,0278
62
Komentar: Linearna regresija je standardni feature statističkih programa i većine spreadsheet
programa. Nužno je samo unijeti kolone podataka, dok se sve kalkulacije obavljaju uz
odgovarajuće funkcije u programima. (N, Metoda najmanji kvadrata, 2006.)
22
7. PRIMJENA KORELACIJA
Rezultati korelacije imaju brojne praktičke primjene, ali se ni u kojem slučaju ne bi smjeli
samo na osnovi rezultata utvrđene korelacije donositi zaključci o uzročno-posljedičnoj vezi.
Korelacija se ne bi trebala koristiti za donošenje zaključaka o uzročno-posljedičnoj vezi između
dvije varijable pošto je velika vjerojatnost da će zaključak biti kriv. Čest slučaj je da se promatra
odnos između dvije varijable koje su u korelaciji visokog stupnja. Međutim, postoji i skrivena
treća varijabla koju bi također trebalo staviti u odnos s promatrane dvije, kako bi se ispravno
protumačio uzročno-posljedični odnos.
Naravno, ima i suprotnih primjera kada ne postoji skrivena varijabla. Vrlo rano je
ustanovljena korelacija između pušenja i vjerojatnosti da će osoba oboljeti od raka. Duhanska
industrija branila je svoju tezu da se ne može uspostaviti uzročno-posljedična veza između
pušenja i vjerojatnosti dobivanja raka. Oni su tezu obrazlagali time da su pušači vrlo često
nervozne osobe, koje zbog toga što su nervozne počinju pušiti. Istovremeno postoji korelacija
između toga da je osoba nervozna i vjerojatnosti da će takva osoba dobiti rak. S druge strane,
liječnici su tvrdili da postoji izravna uzročno-posljedična veza između pušenja i vjerojatnosti
da će osoba dobiti rak, što je kasnije i potvrđeno. (N, wikipedia, n.d.)
23
Na osnovi utvrđene korelacije ne možemo sa sigurnošću utvrditi uzročno-posljedičnu vezu
između dviju varijable. Unatoč tome korelacija nam daje informaciju o tome da su te dvije
varijable na određeni način povezane. Iako ne shvaćamo u potpunosti mehanizam te
povezanosti, znamo da povezanost postoji i prilikom opisa varijabli to možemo uzeti u obzir.
Npr. poznato nam je da je povećana tjelesna težina u korelaciji s povećanom smrtnošću i
možemo reći da su te dvije varijable u međusobnom odnosu.
Utvrđivanjem korelacije između vrijednosti dvije varijable može se dobiti prva informacija
o njihovoj međusobnoj povezanosti. Nakon toga se utvrđena povezanost može detaljnije
istražiti drugim statističkim metodama. Npr. korelacijom se utvrdi da postoji veza između
korištenje nekog kemijskog sredstva i pojave određene bolesti. Nakon toga se može u
eksperimentalnim uvjetima, na laboratorijskim životinjama utvrditi da li stvarno postoji
uzročno-posljedična veza između tih varijabli.
Korelacija je tu odigrala ulogu da izolira varijable koje međusobno na neki način utječu
jedna na drugu, a nakon toga druge metode, koje to mogu, potvrđuju ili odbacuju odgovarajuću
uzročno-posljedičnu hipotezu. Korelacija se često koristi za provjeru rezultata testiranja. Nakon
provedenog testiranja utvrđuje se odgovarajuća korelacija između testiranja i dobivenih
rezultata. Nakon što se testiranje ponovi, ponovno se utvrđuje korelacija između novih i
prethodno dobivenih rezultata. U slučaju da korelacija ne postoji, obično se zaključuje da je
provedeni eksperiment vrlo nestabilan pošto ponovljeni eksperiment ne može ponoviti
prethodne rezultate (TABAK, 2018.)
24
8. ZAKLJUČAK
25
9. LITERATURA
26
10. POPIS SLIKA
27
11. POPIS TABLICA
28