You are on page 1of 13

UNIVERZITET U TRAVNIKU

FAKULTET ZA MENADMENT I POSLOVNU EKONOMIJU


POSLOVNA PSIHOLOGIJA

KORELACIJA
SEMINARSKI RAD IZ MULTIVARIANTNE STATISTIKE

KANDIDAT : MENTOR :
NAA KADI PROF.DR.RASIM
DACI

Travnik,mart,2016
UVOD
Korelacija je pojam koji opisuje mjeru povezanosti izmeu dvije ili vie varijabli. Kroz pojam
korelacije se definie itav spektar statistikih odnosa izmeu varijabli ili izmjerenih
vrijednosti. Korelacija je jedna od najbitnijih statistikih metoda unutar bivarijatne i
multivarijatne statistike.
Bilo koja situacija u kojoj varijable nisu matematiki neovisne predstavlja statistiku ovisnost
te se moe govoriti o korelaciji izmeu varijabli. Pri tome se kao posebni sluaj uzima
potpuna korelacija koja svaku vrijednost jedne varijable preslikava u jedinstvenu vrijednost
drugih varijabli.
Za grafiki prikaz i procjenu korelacije najee se koristi takasti dijagram odnosno dijagram
rasprenja (dotted diagram ili scatter dijagram) koji u osi na dijagramu pridruuje varijable
ija se korelacija procjenjuje.
Odmah na poetku bi bilo vano napomenuti da postojanje korelacije meu varijablama ne
implicira nuno postojanje kauzalne povezanosti meu njima. Samo postojanje korelacije
moe upuivati na kauzalnu povezanost ono ne govori nita o smjeru kauzalnosti ili o
postojanju nekog dodatnog uzroka povezanosti izmeu varijabli.
Za iskazivanje stepena povezanosti odnosno korelacije koristi se pojam koeficijenta
korelacije koji daje numeriku ocjenu povezanosti. Najee se koriste oznake ili r.
Najee koriteni koeficijent korelacije je Pearsonov koeficijent korelacije koji iskazuje
stepen linearne povezanosti dvije ili vie varijabli. Osim Pearsonova koeficijenta korelacije
postoje i druge metode za numeriku procjenu korelacije koje su robusnije ili pogodnije za
nelinearno ovisne varijable
Grafiki prikaz i interpretacija korelacije
Takasti dijagram odnosno dijagram rasprenja (dotted diagram ili scatter
dijagram) su standardni naini istodobnog prikaza vrijednosti vie varijabli. U
najjednostavnijem sluaju radi se o dvodimenzionalnom dijagramu rasprenja koji
x-os grafa koristi za prikaz jedne a y os za drugu varijablu. U sluaju prikaza
vrijednosti dviju ovisnih varijabli kroz niz mjerenja toke na grafu e ocrtavati
oblik i kvalitetu ovisnosti
Uobiajeno je da se prilikom obavljanja mjerenja jedna varijabla postupno
mijenja, dok se vrijednosti druge varijable mjere te se na taj nain formira skup
toaka sa vrijednostima varijabli. Varijabla koju u navedenom postupku
mijenjamo se zove neovisna varijabla, dok se ovisnom varijablom zove ona iju
vrijednost mjerimo. U ovakvom postupku se osim korelacije moe utvrditi i
stupanj kauzalne povezanosti meu varijablama. Ukoliko nije mogue utjecati ni
na jednu od varijabli u mjerenju dijagram koji dobivamo kao rezultat veeg broja
mjerenja i dalje prikazuje korelaciju no ne nudi podatak o postojanju i stupnju
mogue kauzalne povezanosti
Za prikaz stupnja povezanosti izmeu tri ili vie varijabli dvodimenzionalni prostor
nije dovoljan te se dodatne dimenzije prikazuju ili kroz simuliranu treu dimenziju
ili kroz neko od kvalitativnih svojstava npr. boja, intenzitet ili veliina toaka na
grafu
Dijagrami rasprenja daju vrlo dobru sliku ovisnosti te mogu pomoi analitiarima
pri utvrivanju oblika i stupnja koreliranosti varijabli. Dijagrami rasprenja su
takoer vrlo korisni kada numerika analiza podataka teko moe dati dobru sliku
o stupnju koreliranosti varijabli primjerice za podatke koji su nelinearno
korelirani. Takvi podatci mogu imati nizak koeficijent korelacije ukoliko se
navedeni odreuje metodama prilagoenim npr. linearno koreliranim skupovima
podataka poput Parsonove metode
Promatranjem dijagrama rasprenja moemo vrlo lako utvrditi i korelacijske
odnose izmeu varijabli. Naime, ukoliko dijagram rasprenja pokazuje toke
grupirane u oblik koji kree iz donjeg lijevog kuta grafa te ide ka gornjem desnom
moemo govoriti o pozitivnoj korelaciji. Ukoliko pak toke kreu iz gornjeg lijevog
te zavravaju u donjem desnom dijelu dijagrama radi se o negativnoj korelaciji
Dijagrami rasprenja se mogu obogatiti sa dodatnim podacima poput linije
regresije ili pominog prosjeka koji mogu dobro ilustrirati meuovisnost i pomoi
analitiarima u predvianju moguih vrijednosti za neizmjerene podatke.
l 1. Dijagram rasprenja za podatke o visinama oeva i sinova sa ucrtanim pravcem regresije.
Vidljiva je slaba ovisnost izmeu dviju varijabli.
Regresijska analiza i linija regresije
Linearna regresija je statistiki pristup opisivanju odnosa izmeu dvije ili vie
povezanih varijabli. Pri tom se uzima da je jedna od varijabli neovisna odnosno da
je promatra po volji moe mijenjati, dok su druge varijable ovisne te se njihova
vrijednost mjeri. Podaci o meuovisnosti se predstavljaju putem linearnih
funkcija, te se takve funkcije koriste kao sredstvo za procjenu kvalitete
meuodnosa te za predvianje moguih vrijednosti varijabli. Poput svih
regresijskih metoda, linearna regresija pokuava opisati ovisnu varijablu kao
funkciju neovisne varijable ime se implicira postojanje kauzalnosti
Iako postoji vei broj metoda linearne regresije, najee koritena metoda je
metoda najmanjih kvadrata (least squares). Metoda najmanjih kvadrata je
konceptualno jednostavna metoda koja omoguuje izravnu algoritamsku
implementaciju. Ova metoda odreuje pravac koji prolazi kroz skup toaka (x,y)
takav da je suma kvadrata odstupanja toaka na pravcu i vrijednosti na y osi
minimalna. Pravac prolazi kroz centar mase x,y
Za set od n mjerenja vrijednosti x i y varijable traimo pravac sa jednadbom:
y= +x
takav da je suma kvadrata udaljenosti od izmjerenih vrijednosti Q najmanja

Q(,)= (yi--xi)
i=1
Rezultati ovog uvjeta su izrazi:

Navedeni izrazi daju koeficijente za jednadbu pravca regresije. Pravac regresije


se moe koristiti za predvianje vrijednosti ovisne varijable samo ako je kao
model adekvatan odnosno ako je zavisnost varijabli linearna funkcija. Naime, ak
i kod varijabli koje su nelinearno zavisne moe se konstruirati pravac regresije, no
on tada ne daje tona predvianja. Takoer, predvianja vrijednosti ovisne
varijable izvan podruja u kom su mjerenja obavljena ne nudi pouzdane rezultate
poto ovisnost ne mora biti linearna u cijelom podruju.

Nagib regresijskog pravca nam moe dati odreeni uvid u odnos izmeu varijabli
x i y:
Ukoliko je vrijednost koeficijenta vea od 0 radi se o pozitivno koreliranim
varijablama, odnosno, sa porastom jedne varijable raste i vrijednost druge
varijable. Koeficijent manji od 0 ukazuje na negativnu vezu, odnosno, kada
jedna varijabla raste druga e padati i obratno.
Vrijednost koeficijenta priblino jednaka 0 ukazuje na to da izmeu varijabli
nema povezanosti odnosno da su varijable neovisne, da je srednja vrijednost
jedne od varijabli konstantna ili pak da se radi o nekoj nelinearnoj ovisnosti meu
varijablama (neki oblici nelinearnih ovisnosti imaju vrijednost =0)

sl 2. Dijagram rasprenja za podatke o odnosu BDP-a i nezaposlenosti u SAD.


Vidljiva je relativno snana negativna veza linearna izmeu dviju varijabli to
ukazuje na smanjenje nezaposlenosti kod poveanja BDP-a. Pravac regresije ima
negativan faktor nagiba . Izvor podataka za dijagram

Pearsonov koeficijent korelacije


Pearsonov produkt-moment koeficijent korelacije ili jednostavnije Pearsonov
koeficijent korelacije je nedimenzionalna mjera korelacije kojom se izraava
linearna povezanost izmeu dviju varijabli. Naziv je dobio po Karlu Pearsonu koji
ga je razvio sljedei slinu ideju Francisa Galtona iz 1880-ih. Pearsonov koeficijent
korelacije moe poprimiti vrijednost rasponu od -1 do +1. Pri tom -1 ukazuje na
potpuno negativno korelirane varijable, +1 na potpuno pozitivno korelirane
varijable, dok bi vrijednost koeficijenta od 0 ukazivala na nepostojanje
koreliranosti izmeu varijabli.
Pearsonov koeficijent korelacije (obino oznaen s p ili r) dobivamo kao kvocijent
kovarijancije dviju varijabli i umnoka njihove standardne devijacije.

gdje su sx i sy standardne devijacije za x i y, dok su x i y srednje vrijednosti


varijabli x i y u uzorku. Daljnjim razvojem dolazimo do izraza:

Navedenim izrazom se koristimo za izraunavanje koeficijenta korelacije [1]. Iz


samog izraza je vidljivo da su vrijednosti koje moe poprimiti unutar raspona -1
odnosno da je 1(-) r (- 1

Kada izraunamo koeficijent korelacije za neki set podataka potrebno je


interpretirati znaenje dobivenog rezultata. U prvom redu emo pokuati
ustanoviti da li je u pitanju linearna ovisnost. Iskustveno, o linearnoj ovisnosti
moe govoriti tek onda kada je apsolutna vrijednost koeficijenta korelacije vea
od 0.3 [1]. No u praksi je za uspostavljanje stava o vrsti i tipu povezanosti meu
varijablama potrebno dobiti znaajno veu vrijednost koeficijenta korelacije.
Kljuna odlika Pearsonovog koeficijenta korelacije je da ostaje konstantan pri
linearnim promjenama podataka o varijablama. Drugim rijeima, ukoliko
transformiramo skup vrijednosti varijabli X funkcijom
x=a+bX
te transformiramo skup vrijednosti varijabli Y funkcijom
Y=c+dY
pri emu su a,b,c,dkonstantne vrijednosti koeficijent korelacije e ostati
nepromijenjen
Dijagrami rasprenja za tzv. Anscombeov kvartet. Svi primjeri imaju koeficijent
korelacije r=0.816, te slue za prikaz utjecaja nelinearnosti i nepodobnih
podataka na korelaciju. Izvor podataka za dijagram

Rang koeficijenti korelacije


Otkrivanje znanja u skupovima podataka Korelacija 10 Rang koeficijenti
korelacije Za podatke koji su podloni znaajnim pogrekama u mjerenju, za
nelinearno korelirane podatke, te za podatke koji openito trae robusniji model
procjene korelacije esto se koriste rang koeficijenti korelacije. Najee koriten
model je Spearmanov rang koeficijent korelacije nazvan prema Charlesu
Spearmanu koji se obino oznaava sa ili rs.
Pomou Spearmanovog rang koeficijenta korelacije moemo procijeniti koliko se
dobro veza izmeu dvije varijable moe opisati pomou monotone funkcije.
Savrena rang korelacija s koeficijentom apsolutne vrijednosti 1 se dobiva kada je
jedna varijabla savreno monotona funkcija druge varijable
Spearmanova korelacija se moe promatrati i kao Pearsonova korelacija za niz
vrijednosti varijabli svrstan u rangove prema izmjerenoj veliini. U praksi je
izraun Spearmanovog koeficijenta neto jednostavniji zbog matematikih
svojstava izraza koji to omoguuju. Spearmanov koeficijent je neparametarski,
dakle ne zahtjeva normalnu distribuciju u mjerenim varijablama.
Procedura izrauna Spearmanova koeficijenta poinje sa rangiranjem izmjerenih
vrijednosti varijabli. Najveoj izmjerenoj vrijednosti pridjeljujemo rang 1, sljedeoj
po veliini 2 i tako dalje. Najmanja izmjerena vrijednost dobiva rang N pri emu je
N broj izmjerenih vrijednosti. U sluaju da je izmjerena vrijednost za dvije toke
jednaka, obje dobivaju jednak rang. Ova procedura se obavlja za obje varijable.
Sada kreemo s izraunom Pearsonovog koeficijenta korelacije s tim da umjesto
izmjerenih vrijednosti koristimo pridijeljene rangove za obje varijable.

U navedenom izrazu su rx i ry rang vrijednosti za varijable x i y , s obzirom da


rangovi idu od 1 do N funkciju moemo transformirati sa:
gdje je d razlika u rangovima izmeu varijable x i varijable y za i-tu od N toaka
[3]. Osim Spearmanovog esto se koristi i Kendallov tau rang koeficijent
korelacije. Nazvan prema M. Kendallu ovaj koeficijent usporeuje rangove
parova toaka. Kao i Spearmanov, i Kendalov koeficijent korelacije je
neparametarski. Procedura poinje rangiranjem pridjeljivanjem ranga rx i ry za
varijable x i y , analogno postupku kod Spearmanovog koeficijenta korelacije.
Izraz kojim raunamo vrijednost faktora je
(broj suglasnih parova) (broj nesuglasnih parova)

= N=(N-1)

pri emu se za suglasne parove smatraju svi parovi toaka za koje vrijedi da su xi
> xj i yi > yj ili xi < xj i yi < yj . Svi drugi se smatraju nesuglasnim
Iako je osnovni algoritam za izraunavanje Kendalovog tau koeficijenta korelacije
relativno jednostavan njegova je upotreba limitirana zbog apriorne sloenosti
algoritma od O(N2) koja njegovo izraunavanje ini sporim za velike setove
podataka. Zbog toga se obino koristi modificirani algoritam temeljen na merge-
sortu koji daje apriornu sloenost od O(Nlog2N) [4]. Prednost Kendalovog
koeficijenta je relativno jednostavna interpretacija: veliki broj suglasnih parova
ukazuje na pozitivnu, a veliki broj nesuglasnih na negativnu korelranost.

Zakljuak i rezultati
Rezultati korelacijske i regresijske analize mogu dati jasnu predodbu o tome da
postoji ili ne postoji veza izmeu mjerenih varijabli. No postojanje veze, odnosno
znaajna koreliranost izmeu varijabli nije dovoljna za donoenje zakljuka o
uzrono posljedinoj vezi. Naime smjer povezanosti nerijetko nije jasan, a
ponekad postoje i dodatne varijable (eng. underlaying cause) koje utjeu na
promatrane ime ih se dovodi u korelaciju. Svrha i uporaba korelacije time treba
biti ograniena na detektiranje i procjenu magnitude povezanosti dviju varijabli a
ne na utvrivanje uzrono-posljedine povezanosti. Pogodnost uporabe
odreenog koeficijenta korelacije ovisi o prirodi mjerenih varijabli, te se u sluaju
da je pretpostavljena linearna ovisnost uz normalnu razdiobu najbolje posluiti
Pearsonovim koeficijentom. S druge strane, u sluaju da se radi o varijablama
koje imaju oblik ovisnosti drugaiji od linearnog, kada rezultati ne prate normalnu
razdiobu ili kada dodatna, skrivena, varijabla grupira rezultate, koritenje
neparametarskih koeficijenata poput Spearmanovog ili Kendalovog koeficijenta
moe dati bolje rezultate pri ustanovljavanju postojanja i stupnja ovisnosti izmeu
varijablii. U analizi korelacije i korelacijske povezanosti varijabli grafiki prikaz
putem dijagrama rasprenja esto daje najbolju informaciju o postojanju i obliku
povezanosti, a linija regresije pomae pri predvianju vrijednosti ovisnih varijabli.
S druge strane razni koeficijenti korelacije mogu pomoi prilikom formiranja stava
o intenzitetu povezanosti izmeu varijabli. Zbog toga sam unutar ovog
seminarskog rada napravio jednu jednostavnu implementaciju grafikog prikaza
scatter dijagrama. Radi se o web baziranoj aplikaciji napravljenoj na Flash
platformi. Intencija je bila napraviti jednostavno i intuitivno suelje koje moe
posluiti u svrhu demonstracije znaajki korelacije

sl 4. Aplikacija za izraun korelacijskih koeficijenata i prikaz i ureivanje


dijagrama rasprenja. Izvor podataka za dijagram
Kroz aplikaciju je mogue formirati korisniki definiran set toaka ili uitati neki
od preddefiniranih. Aplikacija automatski rauna koeficijente korelacije za zadani
skup toaka te iscrtava liniju regresije. Sa strane razine sloenosti implementacije
algoritama za procjenu regresije i korelacijskih koeficijenata moemo rei da se
radi o relativno jednostavnim procedurama. No u sluaju velikih setova toaka
bilo je primjetno usporenje u radu aplikacije, te je trebalo u vie navrata
optimizirati kod i traiti algoritamska rjeenja s manjom sloenou. Kompajlirano
programsko rjeenje i izvorni kod su priloeni uz ovaj seminarski rad te se mogu
pronai i na web lokaciji: http://www2.fsr.ba/priv/aloncar/korelacija/
Literatura
[1] Kandethody M. Ramachandran, Chris P. Tsokos. (2009) Mathematical
statistics with applications / ISBN 978-0-12-374848-5
Jessica Utts (2004 3rd Edition) Seeing Through Statistics / ISBN 978-
0534394028
Shirley Dowdy, Stanley Weardon, Daniel Chilko. (2004 3rd Edition) Statistics for
research / ISBN 0-471-26735-X
Michiel Hazewinkel (2002) Encyclopaedia of Mathematics / ISBN 1402006098
Izvori podataka za dijagrame:
www.sci.usq.edu.au
en.wikipedia.org/wiki/
www.berkeley.edu/

You might also like