Professional Documents
Culture Documents
Univerzitet U Travniku Nađa
Univerzitet U Travniku Nađa
KORELACIJA
SEMINARSKI RAD IZ MULTIVARIANTNE STATISTIKE
KANDIDAT : MENTOR :
NAA KADI PROF.DR.RASIM
DACI
Travnik,mart,2016
UVOD
Korelacija je pojam koji opisuje mjeru povezanosti izmeu dvije ili vie varijabli. Kroz pojam
korelacije se definie itav spektar statistikih odnosa izmeu varijabli ili izmjerenih
vrijednosti. Korelacija je jedna od najbitnijih statistikih metoda unutar bivarijatne i
multivarijatne statistike.
Bilo koja situacija u kojoj varijable nisu matematiki neovisne predstavlja statistiku ovisnost
te se moe govoriti o korelaciji izmeu varijabli. Pri tome se kao posebni sluaj uzima
potpuna korelacija koja svaku vrijednost jedne varijable preslikava u jedinstvenu vrijednost
drugih varijabli.
Za grafiki prikaz i procjenu korelacije najee se koristi takasti dijagram odnosno dijagram
rasprenja (dotted diagram ili scatter dijagram) koji u osi na dijagramu pridruuje varijable
ija se korelacija procjenjuje.
Odmah na poetku bi bilo vano napomenuti da postojanje korelacije meu varijablama ne
implicira nuno postojanje kauzalne povezanosti meu njima. Samo postojanje korelacije
moe upuivati na kauzalnu povezanost ono ne govori nita o smjeru kauzalnosti ili o
postojanju nekog dodatnog uzroka povezanosti izmeu varijabli.
Za iskazivanje stepena povezanosti odnosno korelacije koristi se pojam koeficijenta
korelacije koji daje numeriku ocjenu povezanosti. Najee se koriste oznake ili r.
Najee koriteni koeficijent korelacije je Pearsonov koeficijent korelacije koji iskazuje
stepen linearne povezanosti dvije ili vie varijabli. Osim Pearsonova koeficijenta korelacije
postoje i druge metode za numeriku procjenu korelacije koje su robusnije ili pogodnije za
nelinearno ovisne varijable
Grafiki prikaz i interpretacija korelacije
Takasti dijagram odnosno dijagram rasprenja (dotted diagram ili scatter
dijagram) su standardni naini istodobnog prikaza vrijednosti vie varijabli. U
najjednostavnijem sluaju radi se o dvodimenzionalnom dijagramu rasprenja koji
x-os grafa koristi za prikaz jedne a y os za drugu varijablu. U sluaju prikaza
vrijednosti dviju ovisnih varijabli kroz niz mjerenja toke na grafu e ocrtavati
oblik i kvalitetu ovisnosti
Uobiajeno je da se prilikom obavljanja mjerenja jedna varijabla postupno
mijenja, dok se vrijednosti druge varijable mjere te se na taj nain formira skup
toaka sa vrijednostima varijabli. Varijabla koju u navedenom postupku
mijenjamo se zove neovisna varijabla, dok se ovisnom varijablom zove ona iju
vrijednost mjerimo. U ovakvom postupku se osim korelacije moe utvrditi i
stupanj kauzalne povezanosti meu varijablama. Ukoliko nije mogue utjecati ni
na jednu od varijabli u mjerenju dijagram koji dobivamo kao rezultat veeg broja
mjerenja i dalje prikazuje korelaciju no ne nudi podatak o postojanju i stupnju
mogue kauzalne povezanosti
Za prikaz stupnja povezanosti izmeu tri ili vie varijabli dvodimenzionalni prostor
nije dovoljan te se dodatne dimenzije prikazuju ili kroz simuliranu treu dimenziju
ili kroz neko od kvalitativnih svojstava npr. boja, intenzitet ili veliina toaka na
grafu
Dijagrami rasprenja daju vrlo dobru sliku ovisnosti te mogu pomoi analitiarima
pri utvrivanju oblika i stupnja koreliranosti varijabli. Dijagrami rasprenja su
takoer vrlo korisni kada numerika analiza podataka teko moe dati dobru sliku
o stupnju koreliranosti varijabli primjerice za podatke koji su nelinearno
korelirani. Takvi podatci mogu imati nizak koeficijent korelacije ukoliko se
navedeni odreuje metodama prilagoenim npr. linearno koreliranim skupovima
podataka poput Parsonove metode
Promatranjem dijagrama rasprenja moemo vrlo lako utvrditi i korelacijske
odnose izmeu varijabli. Naime, ukoliko dijagram rasprenja pokazuje toke
grupirane u oblik koji kree iz donjeg lijevog kuta grafa te ide ka gornjem desnom
moemo govoriti o pozitivnoj korelaciji. Ukoliko pak toke kreu iz gornjeg lijevog
te zavravaju u donjem desnom dijelu dijagrama radi se o negativnoj korelaciji
Dijagrami rasprenja se mogu obogatiti sa dodatnim podacima poput linije
regresije ili pominog prosjeka koji mogu dobro ilustrirati meuovisnost i pomoi
analitiarima u predvianju moguih vrijednosti za neizmjerene podatke.
l 1. Dijagram rasprenja za podatke o visinama oeva i sinova sa ucrtanim pravcem regresije.
Vidljiva je slaba ovisnost izmeu dviju varijabli.
Regresijska analiza i linija regresije
Linearna regresija je statistiki pristup opisivanju odnosa izmeu dvije ili vie
povezanih varijabli. Pri tom se uzima da je jedna od varijabli neovisna odnosno da
je promatra po volji moe mijenjati, dok su druge varijable ovisne te se njihova
vrijednost mjeri. Podaci o meuovisnosti se predstavljaju putem linearnih
funkcija, te se takve funkcije koriste kao sredstvo za procjenu kvalitete
meuodnosa te za predvianje moguih vrijednosti varijabli. Poput svih
regresijskih metoda, linearna regresija pokuava opisati ovisnu varijablu kao
funkciju neovisne varijable ime se implicira postojanje kauzalnosti
Iako postoji vei broj metoda linearne regresije, najee koritena metoda je
metoda najmanjih kvadrata (least squares). Metoda najmanjih kvadrata je
konceptualno jednostavna metoda koja omoguuje izravnu algoritamsku
implementaciju. Ova metoda odreuje pravac koji prolazi kroz skup toaka (x,y)
takav da je suma kvadrata odstupanja toaka na pravcu i vrijednosti na y osi
minimalna. Pravac prolazi kroz centar mase x,y
Za set od n mjerenja vrijednosti x i y varijable traimo pravac sa jednadbom:
y= +x
takav da je suma kvadrata udaljenosti od izmjerenih vrijednosti Q najmanja
Q(,)= (yi--xi)
i=1
Rezultati ovog uvjeta su izrazi:
Nagib regresijskog pravca nam moe dati odreeni uvid u odnos izmeu varijabli
x i y:
Ukoliko je vrijednost koeficijenta vea od 0 radi se o pozitivno koreliranim
varijablama, odnosno, sa porastom jedne varijable raste i vrijednost druge
varijable. Koeficijent manji od 0 ukazuje na negativnu vezu, odnosno, kada
jedna varijabla raste druga e padati i obratno.
Vrijednost koeficijenta priblino jednaka 0 ukazuje na to da izmeu varijabli
nema povezanosti odnosno da su varijable neovisne, da je srednja vrijednost
jedne od varijabli konstantna ili pak da se radi o nekoj nelinearnoj ovisnosti meu
varijablama (neki oblici nelinearnih ovisnosti imaju vrijednost =0)
= N=(N-1)
pri emu se za suglasne parove smatraju svi parovi toaka za koje vrijedi da su xi
> xj i yi > yj ili xi < xj i yi < yj . Svi drugi se smatraju nesuglasnim
Iako je osnovni algoritam za izraunavanje Kendalovog tau koeficijenta korelacije
relativno jednostavan njegova je upotreba limitirana zbog apriorne sloenosti
algoritma od O(N2) koja njegovo izraunavanje ini sporim za velike setove
podataka. Zbog toga se obino koristi modificirani algoritam temeljen na merge-
sortu koji daje apriornu sloenost od O(Nlog2N) [4]. Prednost Kendalovog
koeficijenta je relativno jednostavna interpretacija: veliki broj suglasnih parova
ukazuje na pozitivnu, a veliki broj nesuglasnih na negativnu korelranost.
Zakljuak i rezultati
Rezultati korelacijske i regresijske analize mogu dati jasnu predodbu o tome da
postoji ili ne postoji veza izmeu mjerenih varijabli. No postojanje veze, odnosno
znaajna koreliranost izmeu varijabli nije dovoljna za donoenje zakljuka o
uzrono posljedinoj vezi. Naime smjer povezanosti nerijetko nije jasan, a
ponekad postoje i dodatne varijable (eng. underlaying cause) koje utjeu na
promatrane ime ih se dovodi u korelaciju. Svrha i uporaba korelacije time treba
biti ograniena na detektiranje i procjenu magnitude povezanosti dviju varijabli a
ne na utvrivanje uzrono-posljedine povezanosti. Pogodnost uporabe
odreenog koeficijenta korelacije ovisi o prirodi mjerenih varijabli, te se u sluaju
da je pretpostavljena linearna ovisnost uz normalnu razdiobu najbolje posluiti
Pearsonovim koeficijentom. S druge strane, u sluaju da se radi o varijablama
koje imaju oblik ovisnosti drugaiji od linearnog, kada rezultati ne prate normalnu
razdiobu ili kada dodatna, skrivena, varijabla grupira rezultate, koritenje
neparametarskih koeficijenata poput Spearmanovog ili Kendalovog koeficijenta
moe dati bolje rezultate pri ustanovljavanju postojanja i stupnja ovisnosti izmeu
varijablii. U analizi korelacije i korelacijske povezanosti varijabli grafiki prikaz
putem dijagrama rasprenja esto daje najbolju informaciju o postojanju i obliku
povezanosti, a linija regresije pomae pri predvianju vrijednosti ovisnih varijabli.
S druge strane razni koeficijenti korelacije mogu pomoi prilikom formiranja stava
o intenzitetu povezanosti izmeu varijabli. Zbog toga sam unutar ovog
seminarskog rada napravio jednu jednostavnu implementaciju grafikog prikaza
scatter dijagrama. Radi se o web baziranoj aplikaciji napravljenoj na Flash
platformi. Intencija je bila napraviti jednostavno i intuitivno suelje koje moe
posluiti u svrhu demonstracije znaajki korelacije