You are on page 1of 28

UNIVERZITET U TRAVNIKU

EDUKACIJSKI FAKULTET

MATEMATIKA I INFORMATIKA

KORELACIJA
SEMINARSKI RAD IZ KVANTITATIVNIH METODA

Kandidati: Mentor:

Nikola Čečura Prof.dr.sc. Maid Omerović

Antonella Radoš

Travnik, siječnja, 2020.


SADRŽAJ

1. UVOD ................................................................................................................................ 3

2. METODOLOŠKI OKVIR RADA ..................................................................................... 4

2.1 Problem istraživanja .................................................................................................... 4

2.2 Predmet istraživanja .................................................................................................... 4

2.3 Cilj istraživanja ............................................................................................................ 4

2.4 Zadaci istraživanja ....................................................................................................... 4

2.5 Hipoteza istraživanja ................................................................................................... 4

3. KOEFICJENT KORELACIJE ........................................................................................... 5

4. PEARSONOV KOEFICJENT KORELACIJE .................................................................. 7

5. SPEARMANOV KOEFICJENT KORELACIJE ............................................................ 12

6. METODA NAJMANJIH KVADRATA ...................................................................... 16

7. PRIMJENA KORELACIJA ............................................................................................. 23

8. ZAKLJUČAK .................................................................................................................. 25

9. LITERATURA ................................................................................................................. 26

10. POPIS SLIKA ............................................................................................................... 27

11. POPIS TABLICA .......................................................................................................... 28

2
1. UVOD

Korelacija (lat. con = sa, relatio = odnos) predstavlja suodnos ili međusobnu povezanost
između različitih pojava predstavljenih vrijednostima dvaju varijabli. Pri tome povezanost znači
da je vrijednost jedne varijable moguće s određenom vjerojatnošću predvidjeti na osnovi
saznanja o vrijednosti druge varijable. Klasični primjeri povezanosti su npr. saznanje o utjecaju
količine padalina na urod žitarica, o povezanosti slane hrane i visokog krvnog tlaka i sl. (N,
znanostblog, n.d.)

Promjena vrijednosti jedne varijable utječe na promjenu vrijednosti druge varijable.


Varijabla koja svojom vrijednošću utječe na drugu varijablu naziva se neovisna varijabla.
Varijabla na koju se utječe naziva se ovisna varijabla. Npr. unošenje više soli u
organizam utječe na porast krvnog tlaka, dok porast krvnog tlaka ne utječe na povećanje
unošenja soli u organizam. U ovom primjeru unošenje soli u organizam je neovisna varijabla,
a povećanje krvnog tlaka je ovisna varijabla. Mogući su slučajevi da dvije varijable istovremeno
utječu jedna na drugu, pa su u tom slučaju obje varijable istovremeno i ovisne i neovisne.
(DIMITROVIĆ, 2017)

Dvije varijable koje promatramo s ciljem utvrđivanja njihove korelacijske povezanosti


mogu biti u četiri različita odnosa:

1. Kada mala vrijednost jedne varijable odgovara maloj vrijednosti druge varijable, kao i
kada velika vrijednost jedne varijable odgovara velikoj vrijednosti druge varijable,
radi se o pozitivnoj korelaciji.

2. Kada mala vrijednost jedne varijable odgovara velikoj vrijednosti druge varijable i
obratno, radi se o negativnoj korelaciji.

3. Kada vrijednost jedne varijable u nekim intervalima odgovara maloj vrijednosti druge
varijable, a u drugim intervalima velikoj vrijednosti, radi se o nemonotonoj korelaciji.
Ako se korelacija više nego jednom mijenja od pozitivne prema negativnoj, takva
korelacija naziva se ciklična korelacija.

4. Kada se na osnovi vrijednosti jedne varijable ne može zaključiti ništa o vrijednosti


druge varijable, tada korelacija ne postoji. Tačke u takvom grafu su raspršene.

3
2. METODOLOŠKI OKVIR RADA

2.1 Problem istraživanja

Problem istraživanja se odnosi na to kako koristiti faktorsku analizu pri istraživanju.


Koje su koristi faktorske analize Kako i zašto se koristi faktorska analiza kod znanstvenih
istraživanja. Koju korist znanost ima od faktorske analize i podataka dobivenih na taj način.
To je problem koji je bilo potrebno istražiti.

2.2 Predmet istraživanja

Predmet istraživanja se sastoji od definicije faktorske analize. Od koje važnosti je


faktorska analiza pri znanstvenom istraživanju u pedagogiji.

2.3 Cilj istraživanja

Cilj istraživanja je sistematizirati i prikupiti postojeća znanja i primjere iz oblasti


korelacije

2.4 Zadaci istraživanja

Zadatak ovog rada je bio prikazati korelaciju, te ju objasniti. Objasniti na koji način
se koristi korelacija i gdje ima primjenu.

2.5 Hipoteza istraživanja

Glavna hipoteza rada bazira se na primjeni korelacije , te kako se korištenjem iste može
doći do teorijskih spoznaja.

4
3. KOEFICJENT KORELACIJE

Rasipanje uzrokovano slučajnim greškama, čest je slučaj u skoro svim mjerenjima. U nekim
slučajevima rasipanje može biti toliko prisutno da je teško detektirati tendenciju, odnosno trend.
Uzmimo u obzir eksperiment u kojem se nezavisna varijabla x sistematski varira, a zavisna
varijabla y se mjeri. Cilj je da se odredi zavisnost vrijednosti varijable y od varijable x. Ako bi
dobiveni rezultat izgledao kao na slici 1(a), mogli bismo zaključiti da je veza između y i x
znatno izražena, jaka.

S druge strane, ako bi rezultati bili kao na slici 1(b), zaključili bismo da nema funkcionalne
veze između y i x. Ako bi se podaci pokazali kao na slici 1(c), bili bismo nesigurni u vezu
varijabli. Mogli bismo uspostaviti neku vrstu zajedničkog porasta x i y, ali zbog rasutosti
podataka ne bismo mogli uspostaviti stabilan trend rezultata, jer postoji mogućnost da je veza
zasnovana na slučajnosti. Na našu sreću, postoji statistički parametar, nazvan koeficijent
korelacije, čija je svrha da razjasni da li je trend realan ili je samo posljedica slučajnosti.

Koeficijent korelacije, rxy, je broj čija se vrijednost može iskoristiti da se provjeri postojanje
funkcionalne veze između dvije mjerene varijable x i y. Postoji više koeficijenata korelacije
koji se koriste u različitim slučajevima. Najčešći koeficijent korelacije koji se koriste su:

 Pearsonov koeficijent korelacije- koji se najčešće koristi prilikom rada sa linearnim


modelima.
 Spearmanov koeficijent korelacije- koji se najčešće koristi prilikom rada s modelima
koji nisu linearni

Također postoje i :

1) parcijalna korelacija
2) koeficijent multiple korelacije
3) pointbiserialni koeficijent korelacije
4) koeficijent konkordancije W
5) φ koeficijent
6) koeficijent kontingencije C
7) Cramerov φ
8) Kendellov τ koeficijent
9) Freemanov θ koeficijent

5
++++ +
+ + + +
+ + +++ +
++++ + + + +
+
+ ++ +++
++++ +
++ +
+ +
+ ++
+ +++ + + + + ++
y +++++++ y + ++ + ++ ++
++ ++ +
+ + + ++
+ +
+ ++
+ ++ +
++++ ++ + ++ + + + ++ +
+ +
++++
+ ++
++++ ++ + + +
+ ++ ++
+ ++ ++ +
+ + + ++ + + ++ + + ++ +
+ ++ +
++++
++ ++ + + + + + + + + + + + ++
++ + +
+ + + +
x x
(a) (b)

+
+ + + + + +
+ + + + ++ ++ ++ ++
+ + ++ ++ ++ ++ + + +
y +
+ + + + + + + ++ + +
+ + + ++ + + + +
+
+ + +
++
+
x
(c)

Slika 1 Prikaz promjene raspodijele u zavisnosti od varijable y

6
4. PEARSONOV KOEFICJENT KORELACIJE

Pearsonov koeficijent korelacije koristi se u slučajevima kada između varijabli


promatranog modela postoji linearna povezanost i neprekidna normalna distribucija.
Vrijednost Pearsonovog koeficijenta korelacije kreće se od +1 (savršena pozitivna korelacija)
do –1 (savršena negativna korelacija). (N, Korelacija, n.d.)

Predznak koeficijenta nas upućuje na smjer korelacije – da li je pozitivna ili negativna, ali
nas ne upućuje na snagu korelacije. Pearsonov koeficijent korelacije bazira se na usporedbi
stvarnog utjecaja promatranih varijabli jedne na drugu u odnosu na maksimalni mogući utjecaj
dviju varijabli.

Jedna od najvažnijih matematskih sposobnosti koeficijenta korelacije je da je “invariant“


invariant na linearnoj transformaciji. Sabiranje, oduzimanje i množenje svake veličine sa
nekom konstantnom veličinom predstavlja linearnu transformaciju. Kroz linearnu
transformaciju pojedine veličine zadržavaju svoje relativne pozicije u rasporedu.

corr a  b  X , Y )  corr ( X , Y , ako je b  0

corr a  b  X , Y )  corr ( X , Y , ako je b  0


Ova osobina se zasniva na tome, da se varijable u suštini z-transformiraju i pri toj
transformaciji zadržavaju svoju raspodjelu, ali zbog toga imaju srednju vrijednost jednak nuli i
standardnu devijaciju jednaku 1.

Kao primjer, ne bismo očekivali ni najmanju vezu (korelaciju) rezultata testova sa


visinom studenta. S druge strane, očekivali bismo jaku korelaciju između ukupne potrošnje
električne energije u regiji za vremenski period od jednog dana. Ako imamo dvije varijable x i
y, i naši eksperimentalni rezultati pokažu n broj parova podataka, možemo definirati linearni
koeficijent korelacije kao:

 x
i 1
i  x  y i  y 
rxy  1/ 2
(1)
 n n
2
  x i  x    y i  y  
2

 i 1 i 1 

7
gdje je:
n

x
i 1
i
x - prosječna vrijednost varijable x (2)
n
n

y
i 1
i
y - prosječna vrijednost varijable y (3)
n
n
SS xx   xi  x  - suma kvadrata varijable x
2
(4)
i 1

n
SS yy    y i  y  - suma kvadrata varijable y
2
(5)
i 1

Rezultirajuća vrijednost rxy će se kretati u rasponu od -1 do +1. Vrijednost od +1 bi


pokazivala idealno linearnu vezu između varijabli sa pozitivnim porastom ( sa povećanjem x-a
povećava se i y). Vrijednost od -1 bi označavala idealno relativnu relaciju sa negativnim rastom,
odnosno padom vrijednosti x i y.

Vrijednost 0 bi označavala odsutnost linearne korelacije između dvije varijable. Čak i


ako nema korelacije, mala je vjerojatnost da će vrijednost rxy biti točno 0. Za bilo koji konačan
broj parova podataka, vjerojatnost je pojave koeficijenta korelacije različitog od 0. Za danu
veličinu uzorka, koristi se statistička historija podataka, da bi se odredilo da li je rezultat
izračunatog rxy koeficijenta značajna ili je posljedica slučajnosti. Harnett i Murphy su se još u
1975. godini bavili ovom problematikom kao i Johnson u 1988. godini. (N, Korelacija, n.d.)

8
Slika 2 Vrijednosti Pearsonovog koeficijenta korelacije

Za praktične probleme, ovaj proces se može pojednostaviti u formi jedne tabele. Kritične
vrijednosti za r su određene kako bi se mogle usporediti sa sračunatom vrijednošću rxy. Za dvije
varijable i n broj parova podataka, prikladne kritične (granične) vrijednosti r, rt su izračunate i
date u tabeli 1. rt je funkcija broja uzoraka i nivoa relevantnosti, α.

9
Vrijednosti r u tabeli su limitirajuće vrijednosti za koje možemo očekivati da su
posljedica čiste slučajnosti. Za svaku rt varijablu u tabeli, postoji samo vjerojatnost α tako će
eksperimentalne vrijednosti rxy biti veće od šanse za čistu slučajnost. U slučaju kada
eksperimentalne vrijednosti premaše tabelarne vrijednosti, možemo očekivati da će
eksperimentalni podaci pokazati realnu korelaciju sa sigurnošću vrijednosti 1-α.

Za primjenu u uobičajenim inženjerskim problemima, interval sigurnosti (mjera


nesigurnosti) se uzimao kao 95%, koja odgovara vrijednosti α od 0,05. Za dati set podataka,
dobivamo rt iz tabele i uspoređujemo sa vrijednosti rxy iz računskih podataka. Ako je apsolutna
vrijednosti rxy veća od rt možemo pretpostaviti da y zavisi od x bez prisustva slučajnosti, i
možemo očekivati da će linearna veza pružiti neku aproksimaciju realne funkcionalne veze.
Vrijednost rxy manja od rt naslućuje da ne možemo biti sigurni da postoji funkcionalna linearna
veza.

Tablica 1 Minimalne vrijednosti koeficijenta korelacije za razlicite vrijednosti α

α
n
0,20 0,10 0,05 0,02 0,01

3 0,951 0,988 0,997 1,000 1,000

4 0,800 0,900 0,950 0,980 0,990

5 0,687 0,805 0,878 0,934 0,959

6 0,608 0,729 0,811 0,882 0,917

7 0,551 0,669 0,754 0,833 0,875

8 0,507 0,621 0,707 0,789 0,834

9 0,472 0,582 0,666 0,750 0,798

10 0,443 0,549 0,632 0,715 0,765

11 0,419 0,521 0,602 0,685 0,735

12 0,398 0,497 0,576 0,658 0,708

13 0,380 0,476 0,553 0,634 0,684

14 0,365 0,458 0,532 0,612 0,661

15 0,351 0,441 0,514 0,592 0,641

10
16 0,338 0,426 0,497 0,574 0,623

17 0,327 0,412 0,482 0,558 0,606

18 0,317 0,400 0,468 0,543 0,590

19 0,308 0,389 0,456 0,529 0,575

20 0,299 0,378 0,444 0,516 0,561

25 0,265 0,337 0,396 0,462 0,505

30 0,241 0,306 0,361 0,423 0,463

35 0,222 0,283 0,334 0,392 0,430

40 0,207 0,264 0,312 0,367 0,403

45 0,195 0,248 0,294 0,346 0,380

50 0,184 0,235 0,279 0,328 0,361

100 0,129 0,166 0,197 0,233 0,257

200 0,091 0,116 0,138 0,163 0,180

Nije nužno da funkcionalna veza bude linearna da bi se mogao proračunati značajan


koeficijent korelacije. Na primjer, parabolična veza koja pokazuje neznatno rasipanje će dati
visok koeficijent korelacije. S druge strane, neke veze (multivrijednosna kružna funkcija) , iako
očito jaka će rezultirati slabom vrijednošću koeficijenta korelacije rxy.

Dvije dodatne predostrožnosti se moraju napomenuti prije upotrebe koeficijenta


korelacije. Prva, jedna tačka sa lošom vrijednošću podataka može imati jak utjecaj na vrijednost
rxy. Ako je moguće, dobro je odstraniti granične / ekstremne vrijednosti mjerenja prije
evaluacije koeficijenta. Također je greška zaključiti značajnu vrijednost korelacije samo na
osnovu toga što se promjenom jedne varijable mijenja i vrijednost druge varijable. Kauzalnost
je potrebno utvrditi na osnovu drugih saznanja o problemu.

11
5. SPEARMANOV KOEFICJENT KORELACIJE

Spearmanov koeficijent korelacije (produkt rang korelacije) koristi se za mjerenje


povezanosti između varijabli u slučajevima kada nije moguće primijeniti. Pearsonov koeficijent
korelacije. Bazira se na tome da se izmjeri dosljednost povezanosti između poredanih varijabli,
a oblik povezanosti (npr. linearni oblik koji je preduvjet za korištenje Pearsonovog koeficijenta)
nije bitan. (N, Korelacija, n.d.)

Slučajevi u kojima se koristi Spearmanovkoficijent su npr. kada među varijablama ne


postoji linearna povezanost, a nije moguće primijeniti odgovarajuću transformaciju kojom bi
se povezanost prevela u linearnu (npr. veza između seizmičkog atributa i bušotinskog
podataka u naftnoj geologiji).

Spearmanov koeficijent korelacije kao rezultat daje približnu vrijednost koeficijenta


korelacije koji se tretira kao njegova dovoljno dobra aproksimacija. Prilikom korištenja
Spearmanovog koeficijenta, vrijednosti varijabli potrebno je rangirati i na takav način svesti na
zajedničku mjeru.

Najjednostavniji način rangiranja je da se najmanjoj vrijednosti svake varijable dodjeli rang


1, slijedećoj po veličini rang 2 i tako sve do posljednje kojoj se pridjeljuje maksimalan rang.
Izračunavanje koeficijenta radi se korištenjem vrijednosti pridijeljenih rangova. Spearmanov
koeficijent označavati ćemo s rS. Formula za izračun Spearmanovog koeficijenta korelacije je:

n
d i2
rs  1  6
 
i 1 n n  1
2
(6)

gdje je razlika vrijednosti rangova dvije promatrane varijable, a n je broj različitih serija.

12
Slika 3 Razlika između vrijednosti originalnih podataka i rangova tih podataka

Primjer 1:

Pretpostavljena je veza između vremena obilaska kruga staze (lap time) i temperature
ambijenta. Podaci su izmjereni na osnovu vremena prolaza istog vozila sa istim vozačem u
različitim trkama i dati su tabelom:

Tablica 2 Primjer 1a

Temperatura
ambienta 40 47 55 62 66 88
(oF)

Vrijeme
65,3 66,5 67,3 67,8 67 66,6
kruga

Postoji li linearna veza između zadanih varijabli?

Rješenje: Kao prvo, podatke date u prethodnoj tabeli ćemo prikazati u sljedećem obliku. Iz
prikaza, na prvi pogled izgleda da bi mogla postojati slaba pozitivna korelacija između vremena
prolazi i ambijentalne temperature, međutim možemo računskim putem da zaključimo da li je
koeficijent korelacije realan ili posljedica slučajnosti. Koeficijent ćemo odrediti upotrebom
jednadžbe (7). Dobivamo sljedeću proračunsku tabelu:

13
Tablica 3 Primjer 1 proračunska tabela

x y xx  x  x 2 yy  y  y 2 x  x  y  y 

40 65,3 - 386,78 -1,45 2,10 28,52


19,67

47 66,5 - 160,44 -0,25 0,06 3,17


12,67

55 67,3 -4,67 21,78 0,55 0,30 -2,57

62 67,8 2,33 5,44 1,05 1,10 2,45

66 67 6,33 40,11 0,25 0,06 1,58

88 66,6 28,33 802,78 -0,15 0,02 -4,25

  358   400,50   1414,33   3,66   28,90

Slika 4 Dijagram zadanih varijabli u Excelu

14
Uz pomoć jednadžbe (7) dobivamo i konačnu vrijednost rxy:

28,9
rxy   0,4013 (7)
1417,33  3,661 / 2

Za interval sigurnosti od 95% , α je jednaka 1-0.95=0.05. Za 6 parova podataka, iz tabele


1, dobivamo vrijednost rt od 0.811. Pošto je rxy manje od rt, zaključujemo da se na prvi pogled
trend iz podataka pojavljuje samo zahvaljujući slučajnosti. Računanje koeficijenta rt se vrši
tabelarno uz upotrebu odgovarajućih funkcija. (TABAK, 2018.)

15
6. METODA NAJMANJIH KVADRATA

Česta je potreba pri izvođenju eksperimenata da se uspostavi korelacija eksperimentalnih


podataka sa odgovarajućim matematskim funkcijama (grafikom) kao što je prava linija ili
parabola ili neka eksponencijalna funkcija.

Najčešće korištena funkcija za ovu svrhu je prava linija. Linearna raspodjela je prikladna
za veliki broj rezultata, dok u nekim slučajevima podaci mogu biti transformirani u
aproksimativne linearne oblike. Kao što je prikazano na slici 5, ako imamo n parova podataka
(xi, yi), pokušat ćemo da uspostavimo pravu liniju oblika kroz podatke.

Y  ax  b
Morali bismo dobiti vrijednost konstanti a i b. Ako imamo samo 2 para podataka, rješenje je
jednostavno, jer promatrane tačke formiraju i u potpunosti određuju jednu pravu. U slučaju
kada imamo više tačaka od interesa, moramo da odredimo „najbolji slučaj (best fit)“ za podatke.
Osoba koja vrši eksperiment može jednostavno da provuče liniju kroz dijagram čiji pravac
dodiruje najveći broj tačaka ili je u njihovoj blizini, i često je upravo to najbolja aproksimacija
za dobivanje linearne veze.

Više sistematski i prikladan pristup je da se koristi metoda najmanjih kvadrata ili linearne
regresije da se pronađe najbolji oblik podataka. Regresija je potpuno definirana matematska
formulacija koja je lako automatizirana. Pretpostavimo da se podaci ispitivanja sastoje od
parova podataka. Za svaku vrijednost xi (za koju se smatra da je bez greške), možemo
predvidjeti vrijednost yi na osnovu linearne veze Y  ax  b . Za svaku vrijednost xi bi se javlja
i greška po formuli

ei  Yi  yi (9)

16
Slika 5 Postavljanje prave linije kroz podatke

Kvadrat greške bi bio

ei2  Yi  yi   axi  b  yi 


2 2

Suma kvadrata grešaka svih tačaka podataka bi bila

n
E   Yi  yi    axi  b  yi   
2 2
gdje je i 1

Sada biramo a i b da bismo minimizirali vrijednost E diferenciranjem E sa a i b i postavljanjem


konačnog rezultata na nulu

E 
 0   2axi  b  y i xi 
a 

E
 0   2axi  b  y i xi 
b 

Ove dvije jednačine mogu se riješiti istovremeno za a i b:

n xi y i   xi  y i 
a
n xi2   xi 
2

b
 x  y   x  x y 
2
i i i i i

n x   x 2 2
i i

17
Rezultirajuća linija Y  ax  b , se naziva least-squares best fit, odnosno najbolji oblik
raspodjele najmanjih kvadrata podataka predstavljenih sa parovima xi i yi.

Kada se radi analiza linearne regresije, poželjno je da se potvrdi koliko je zapravo


pouzdan dobiveni oblik. Ideja o ovom podatku se može prepoznati u prikazu kao na slici 5 za
ove slučajeve. Ipak, poželjno je imati i matematski izraženu koliko dobro ili pouzdano best-fit
linija predstavlja podatke u pitanju. Dobra mjera adekvatnosti regresivnog modela data je sa
koeficijentom determinacije (determinantnosti), danim u obliku

 ax  b  y 
2

 1
2 i i
r
 y  y
2
i

Za inženjerske podatke , r2 će biti prilično visok i kretat će se u rasponu od 0.8 do 0.9 ili
više, a mala vrijednost može biti i indikator da postoji još neka bitna varijabla koja nije uzeta u
obzir, a koja utiče na rezultat.

Slika 6 Linija najmanjih kvadrata sa prinudnim izvorom

18
Još jedna mjera pouzdanosti dobivenih koeficijenata se naziva i standardna greška
procjene, data izrazom

 y  Yi 
2

S y,x 
i

n2
Ovo je u biti standardna devijacija razlika odnosno razmaka između tačaka podataka i
prave funkcije. U nekim slučajevima, jedan drugačiji oblik linearne regresije se koristi gdje se
linija (prava) funkcije prisiljava na prolaz kroz centar koordinatnog sistema (x=0,y=0). Ovaj
oblik se često upotrebljava pri kalibraciji instrumenata gdje se nulto pomjeranje može podesiti
u nulu sistema prije vršenja mjerenja. Ova situacija je pokazana na slici6. Ako se iskoristi izraz
(8), linija najbolje funkcije neće proći kroz koordinatni početak. Ako se izvor prave fiksira u
koordinatni početak linija će imati oblik:

Y  ax
pri čemu će se vrijednost a računati po izrazu:

x y
i 1
i i
a n

x
i 1
2
i

Primjer 2:

Prikazana tabela pokazuje izlaz (volte) linearne varijable diferencijalnog transformatora


(LVDT; električni uređaj za mjerenje odstupanja od mjere) za 5 dužina ulaza:

Tablica 4 Primjer 2a

L(cm) 0,00 0,50 1,00 1,50 2,00 2,50

V(V) 0,05 0,52 1,03 1,50 2,00 2,56

Odrediti najbolji linearni prikaz podataka, nacrtati podatke u (V,L) plot dijagramu i
sračunati standardnu grešku procjene kao i koeficijent determinacije.

19
Rješenje: Da bi se riješio ovaj problem, zamijenit ćemo podatke po jednadžbi. Prikazana
tabela pokazuje kako se računaju pojedinačne sume:

Tablica 5 Pojedinačne sume

xi x i2 yi xiyi y i2

0 0 0,05 0 0,0025

0,5 0,25 0,52 0,26 0,2704

1 1 1,03 1,03 1,0609

1,5 2,25 1,5 2,25 2,25

2 4 2 4 4,0

2,5 6,25 2,56 6,4 6,5536

x i  7,5 x 2
i  13,75 y i  7,66 x yi i  13,94 y 2
i  14,137

Zatim se pomoću izraza dobiva:

6  13,94  7,5  7,66


a  0,9977
6  13,75  7,5 2
i
13,75  7,66  7,5  13,94
b  0,0295
6  13,75  7,5 2

Dobiva se linija najbolje raspodjele:

Y  0,9977 x  0,0295
gdje je Y voltaža a x pomjeranje, odstupanje od mjere, što se može vidjeti na slici.

20
Sada možemo izračunati i koeficijent determinantnosti i standardnu grešku. Notirajući da je
1 1
y
n
 yi  (7,66)  1,27666 dobivamo tabelarne rezultate:
6

Tablica 6 Tabelarni rezultati

xi yi Yi  yi 2  y i  y 2
0 0,05 0,000419 1,504711

0,5 0,52 7,02E-05 0,572544

1 1,03 7,63E-06 0,060844

1,5 1,5 0,000681 0,049878

2 2 0,000623 0,523211

2,5 2,56 0,00131 1,646944

 Y  yi   0,00311 y  y   4,358133


2 2
i i

Slika 7 Grafički prikaz

21
r2 se dobiva kao:

 Y  y 
2
0,00311
 1  1  0,999286
2 i i
r
 y  y
2
i
4,358133

Rezultat je u skladu sa slikom 7, a standardna greška se računa kao:

0,00311
S y,x   0,0278
62
Komentar: Linearna regresija je standardni feature statističkih programa i većine spreadsheet
programa. Nužno je samo unijeti kolone podataka, dok se sve kalkulacije obavljaju uz
odgovarajuće funkcije u programima. (N, Metoda najmanji kvadrata, 2006.)

22
7. PRIMJENA KORELACIJA

Rezultati korelacije imaju brojne praktičke primjene, ali se ni u kojem slučaju ne bi smjeli
samo na osnovi rezultata utvrđene korelacije donositi zaključci o uzročno-posljedičnoj vezi.
Korelacija se ne bi trebala koristiti za donošenje zaključaka o uzročno-posljedičnoj vezi između
dvije varijable pošto je velika vjerojatnost da će zaključak biti kriv. Čest slučaj je da se promatra
odnos između dvije varijable koje su u korelaciji visokog stupnja. Međutim, postoji i skrivena
treća varijabla koju bi također trebalo staviti u odnos s promatrane dvije, kako bi se ispravno
protumačio uzročno-posljedični odnos.

Jedan od klasičnih, u literaturi često spominjanih primjera, je pojava uočena


u Kopenhagenu nekoliko godina poslije završetka Drugog svjetskog rata. Zamijećena je
korelacija između povećanja broja novorođene djece i broja roda koje su se gnijezdile u gradu.
Ako bi se korelacija bez razmišljanja protumačila kao uzročno-posljedični odnos, moglo bi se
zaključiti da rode donose djecu. Pravi uzrok leži u tome što se po završetku rata velik dio
stanovništva sa sela preselio u grad, što je uzrokovalo povećanje broja stanovnika u gradu, a
samim tim i povećanje broja novorođene djece. Istovremeno, za nove stanovnike grada
izgradile su se nove kuće, tako da su i rode dobile veći broj dimnjaka za svoja gnijezda. Tu je
dakle, postojala skrivena varijabla - broj stanovnika, koju je prilikom donošenje zaključka o
uzročno-posljedičnoj vezi trebalo uzeti u obzir.

Naravno, ima i suprotnih primjera kada ne postoji skrivena varijabla. Vrlo rano je
ustanovljena korelacija između pušenja i vjerojatnosti da će osoba oboljeti od raka. Duhanska
industrija branila je svoju tezu da se ne može uspostaviti uzročno-posljedična veza između
pušenja i vjerojatnosti dobivanja raka. Oni su tezu obrazlagali time da su pušači vrlo često
nervozne osobe, koje zbog toga što su nervozne počinju pušiti. Istovremeno postoji korelacija
između toga da je osoba nervozna i vjerojatnosti da će takva osoba dobiti rak. S druge strane,
liječnici su tvrdili da postoji izravna uzročno-posljedična veza između pušenja i vjerojatnosti
da će osoba dobiti rak, što je kasnije i potvrđeno. (N, wikipedia, n.d.)

23
Na osnovi utvrđene korelacije ne možemo sa sigurnošću utvrditi uzročno-posljedičnu vezu
između dviju varijable. Unatoč tome korelacija nam daje informaciju o tome da su te dvije
varijable na određeni način povezane. Iako ne shvaćamo u potpunosti mehanizam te
povezanosti, znamo da povezanost postoji i prilikom opisa varijabli to možemo uzeti u obzir.
Npr. poznato nam je da je povećana tjelesna težina u korelaciji s povećanom smrtnošću i
možemo reći da su te dvije varijable u međusobnom odnosu.

Korelacija se najčešće koristi za predviđanje vrijednosti jedne varijable ovisno o promjeni


vrijednosti druge varijable, u slučaju ako su te dvije varijable u korelaciji. Saznanje o korelaciji
između dvije varijable pomaže nam da s većom sigurnošću predvidimo na koji način će se
mijenjati vrijednost druge varijable. Npr. poznato nam je da su količina unesene soli u
organizam i visina krvnog tlaka osoba određenog spola i dobi u korelacijskom odnosu i taj
odnos nam je poznat. Na osnovi tih informacija možemo dozirati unos potrebne količine soli u
organizam kako bi krvni tlak ostao unutar granica normale, a organizam bi primio dovoljnu
količinu soli za normalno funkcioniranje.

Utvrđivanjem korelacije između vrijednosti dvije varijable može se dobiti prva informacija
o njihovoj međusobnoj povezanosti. Nakon toga se utvrđena povezanost može detaljnije
istražiti drugim statističkim metodama. Npr. korelacijom se utvrdi da postoji veza između
korištenje nekog kemijskog sredstva i pojave određene bolesti. Nakon toga se može u
eksperimentalnim uvjetima, na laboratorijskim životinjama utvrditi da li stvarno postoji
uzročno-posljedična veza između tih varijabli.

Korelacija je tu odigrala ulogu da izolira varijable koje međusobno na neki način utječu
jedna na drugu, a nakon toga druge metode, koje to mogu, potvrđuju ili odbacuju odgovarajuću
uzročno-posljedičnu hipotezu. Korelacija se često koristi za provjeru rezultata testiranja. Nakon
provedenog testiranja utvrđuje se odgovarajuća korelacija između testiranja i dobivenih
rezultata. Nakon što se testiranje ponovi, ponovno se utvrđuje korelacija između novih i
prethodno dobivenih rezultata. U slučaju da korelacija ne postoji, obično se zaključuje da je
provedeni eksperiment vrlo nestabilan pošto ponovljeni eksperiment ne može ponoviti
prethodne rezultate (TABAK, 2018.)

24
8. ZAKLJUČAK

Upotreba korelacije među varijablama značajno je pri postavljanju hipoteza u znanstvenim


radovima, u kojima pomoću primjećene povezanosti dvije varijable pokušava se utvrditi
uzročno-posljedična veza, a koja se korelacijom nikada ne dokazuje.

Potrebno je dobro poznavati pravila upotrebe koeficijenta korelacije da ne bih došli do


pogrešnih zaključaka. Pri eksperimentalnoj upotrebi korelacije najčešće je potrebno naći
odgovarajuću matematičku funkciju koja najbliže odgovara zadanom problemu, nakon čega
testiranjem provjeravamo zadatu korelaciju.

Korelacija se često koristi za provjeru rezultata testiranja. Nakon provedenog testiranja


utvrđuje se odgovarajuća korelacija između testiranja i dobivenih rezultata. Nakon što se
testiranje ponovi, ponovno se utvrđuje korelacija između novih i prethodno dobivenih rezultata.
U slučaju da korelacija ne postoji, obično se zaključuje da je provedeni eksperiment vrlo
nestabilan pošto ponovljeni eksperiment ne može ponoviti prethodne rezultate. Na kraju je
važno naglasiti da korelacija ne predstavlja zavisnost varijabli jedne od druge i da ona ne
povlači sa sobom uzročnost.

25
9. LITERATURA

DIMITROVIĆ, G. (2017). Modeliranje informacijskih sustava za zaštitu površinskih voda.


Sveučilište Sjever.

N, N. (2006.). Metoda najmanji kvadrata. Zagreb.

N, N. (n.d.). Korelacija. Dohvaćeno iz zvu.hr:


https://ldap.zvu.hr/~oliverap/MetodeIstrazivanjaFT/11_Korelacija.pdf

N, N. (n.d.). wikipedia. Preuzeto 13.. 1. 2020 iz Korelacija:


https://hr.wikipedia.org/wiki/Korelacija

N, N. (n.d.). znanostblog. Preuzeto 9.. 1. 2020. iz korelacije.

TABAK, A. (2018.). Pearsonov korelacijski koeficijent. Osijek.

26
10. POPIS SLIKA

Slika 1 Prikaz promjene raspodijele u zavisnosti od varijable y ................................................ 6


Slika 2 Vrijednosti Pearsonovog koeficijenta korelacije ........................................................... 9
Slika 3 Razlika između vrijednosti originalnih podataka i rangova tih podataka .................... 13
Slika 4 Dijagram zadanih varijabli u Excelu ............................................................................ 14
Slika 5 Postavljanje prave linije kroz podatke ......................................................................... 17
Slika 6 Linija najmanjih kvadrata sa prinudnim izvorom ........................................................ 18
Slika 7 Grafički prikaz ............................................................................................................. 21

27
11. POPIS TABLICA

Tablica 1 Minimalne vrijednosti koeficijenta korelacije za razlicite vrijednosti α .................. 10


Tablica 2 Primjer 1a ................................................................................................................. 13
Tablica 3 Primjer 1 proračunska tabela .................................................................................... 14
Tablica 4 Primjer 2a ................................................................................................................. 19
Tablica 5 Pojedinačne sume ..................................................................................................... 20
Tablica 6 Tabelarni rezultati .................................................................................................... 21

28

You might also like