P. 1
Korelacija

Korelacija

|Views: 838|Likes:
Published by Marina Zidic Loncar

More info:

Published by: Marina Zidic Loncar on Aug 30, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

06/02/2013

pdf

text

original

FAKULTET ELEKTROTEHNIKE I RAČUNARSTVA – ZAGREB

KORELACIJA
seminarski rad Andrija Lončar

Predmet: Otkrivanje znanja u skupovima podataka Nastavnik: prof. dr. sc. Bojana Dalbelo Bašić Smjer: Primijenjeno računarstvo Šk. god. 2010 / 2011

Zagreb, ožujak 2011.

. 6 Pearsonov koeficijent korelacije ...................................................................................................................... 4 Regresijska analiza i linija regresije .................. 3 Grafički prikaz i interpretacija korelacije................................................................................................... 8 Rang koeficijenti korelacije .............. 10 Zaključak i rezultati ................................................................................................................ 12 Literatura .....................................................................................................................................................................................................................................................................................................................Otkrivanje znanja u skupovima podataka – Korelacija Sadržaj Uvod ................................................................ 14 2 ....................

Za grafički prikaz i procjenu korelacije najčešće se koristi točkasti dijagram odnosno dijagram raspršenja (dotted diagram ili scatter dijagram) koji u osi na dijagramu pridružuje varijable čija se korelacija procjenjuje. Odmah na početku bi bilo važno napomenuti da postojanje korelacije među varijablama ne implicira nužno postojanje kauzalne povezanosti među njima. Najčešće korišteni koeficijent korelacije je Pearsonov koeficijent korelacije koji iskazuje stupanj linearne povezanosti dvije ili više varijabli. Bilo koja situacija u kojoj varijable nisu matematički neovisne predstavlja statističku ovisnost te se može govoriti o korelaciji između varijabli. Korelacija je jedna od najbitnijih statističkih metoda unutar bivarijatne i multivarijatne statistike. Za iskazivanje stupnja povezanosti odnosno korelacije koristi se pojam koeficijenta korelacije koji daje numeričku ocjenu povezanosti.Otkrivanje znanja u skupovima podataka – Korelacija Uvod Korelacija je pojam koji opisuje mjeru povezanosti između dvije ili više varijabli. Samo postojanje korelacije može upućivati na kauzalnu povezanost ono ne govori ništa o smjeru kauzalnosti ili o postojanju nekog dodatnog uzroka povezanosti između varijabli. 3 . Pri tome se kao posebni slučaj uzima potpuna korelacija koja svaku vrijednost jedne varijable preslikava u jedinstvenu vrijednost drugih varijabli. Kroz pojam korelacije se definira čitav spektar statističkih odnosa između varijabli ili izmjerenih vrijednosti. Osim Pearsonova koeficijenta korelacije postoje i druge metode za numeričku procjenu korelacije koje su robusnije ili pogodnije za nelinearno ovisne varijable. Najčešće se koriste oznake ρ ili r.

dok se ovisnom varijablom zove ona čiju vrijednost mjerimo. U slučaju prikaza vrijednosti dviju ovisnih varijabli kroz niz mjerenja točke na grafu će ocrtavati oblik i kvalitetu ovisnosti [1]. Uobičajeno je da se prilikom obavljanja mjerenja jedna varijabla postupno mijenja. 4 . Za prikaz stupnja povezanosti između tri ili više varijabli dvodimenzionalni prostor nije dovoljan te se dodatne dimenzije prikazuju ili kroz simuliranu treću dimenziju ili kroz neko od kvalitativnih svojstava – npr. Varijabla koju u navedenom postupku mijenjamo se zove neovisna varijabla. Naime. U ovakvom postupku se osim korelacije može utvrditi i stupanj kauzalne povezanosti među varijablama. ukoliko dijagram raspršenja pokazuje točke grupirane u oblik koji kreće iz donjeg lijevog kuta grafa te ide ka gornjem desnom možemo govoriti o pozitivnoj korelaciji. Promatranjem dijagrama raspršenja možemo vrlo lako utvrditi i korelacijske odnose između varijabli. Takvi podatci mogu imati nizak koeficijent korelacije ukoliko se navedeni određuje metodama prilagođenim npr. U najjednostavnijem slučaju radi se o dvodimenzionalnom dijagramu raspršenja koji x-os grafa koristi za prikaz jedne a y os za drugu varijablu. intenzitet ili veličina točaka na grafu[2]. linearno koreliranim skupovima podataka poput Parsonove metode. Dijagrami raspršenja daju vrlo dobru sliku ovisnosti te mogu pomoći analitičarima pri utvrđivanju oblika i stupnja koreliranosti varijabli. Ukoliko pak točke kreću iz gornjeg lijevog te završavaju u donjem desnom dijelu dijagrama radi se o negativnoj korelaciji[1]. boja. Dijagrami raspršenja su također vrlo korisni kada numerička analiza podataka teško može dati dobru sliku o stupnju koreliranosti varijabli – primjerice za podatke koji su nelinearno korelirani. Ukoliko nije moguće utjecati ni na jednu od varijabli u mjerenju dijagram koji dobivamo kao rezultat većeg broja mjerenja i dalje prikazuje korelaciju no ne nudi podatak o postojanju i stupnju moguće kauzalne povezanosti[1]. dok se vrijednosti druge varijable mjere te se na taj način formira skup točaka sa vrijednostima varijabli.Otkrivanje znanja u skupovima podataka – Korelacija Grafički prikaz i interpretacija korelacije Točkasti dijagram odnosno dijagram raspršenja (dotted diagram ili scatter dijagram) su standardni načini istodobnog prikaza vrijednosti više varijabli.

5 . Vidljiva je slaba ovisnost između dviju varijabli. Dijagram raspršenja za podatke o visinama očeva i sinova sa ucrtanim pravcem regresije. sl 1. Izvor podataka za dijagram [5].Otkrivanje znanja u skupovima podataka – Korelacija Dijagrami raspršenja se mogu obogatiti sa dodatnim podacima poput linije regresije ili pomičnog prosjeka koji mogu dobro ilustrirati međuovisnost i pomoći analitičarima u predviđanju mogućih vrijednosti za neizmjerene podatke.

Pravac prolazi kroz centar mase ( ̅ . Pri tom se uzima da je jedna od varijabli neovisna odnosno da je promatrač po volji može mijenjati. β ) = ∑ ( yi − α − β xi ) 2 i =1 n Rezultat ovog uvjeta su izrazi: n 1 n xi ∑ y j ∑ ∑ ( xi − x )( yi − y ) i =1 n i =1 j =1 xy − xy ˆ = i =1 β = n = 2 n n 2 1 ∑ ( xi − x )2 ∑ ( xi2 ) − n (∑ xi )2 x − x i =1 i =1 i =1 n ∑ xi yi − n ˆ ˆ α = y − β x. Navedeni izrazi daju koeficijente za jednadžbu pravca regresije. Poput svih regresijskih metoda.[3] Iako postoji veći broj metoda linearne regresije. te se takve funkcije koriste kao sredstvo za procjenu kvalitete međuodnosa te za predviđanje mogućih vrijednosti varijabli. Pravac regresije se može koristiti za predviđanje vrijednosti ovisne varijable samo ako je kao model adekvatan odnosno ako je zavisnost varijabli linearna funkcija. čak i kod varijabli koje su nelinearno 6 . takav da je suma kvadrata udaljenosti od izmjerenih vrijednosti Q najmanja: Q(α .y) takav da je suma kvadrata odstupanja točaka na pravcu i vrijednosti na y osi minimalna. Naime. linearna regresija pokušava opisati ovisnu varijablu kao funkciju neovisne varijable čime se implicira postojanje kauzalnosti. Za set od n mjerenja vrijednosti x i y varijable tražimo pravac sa jednadžbom: y = α + β x. ).Otkrivanje znanja u skupovima podataka – Korelacija Regresijska analiza i linija regresije Linearna regresija je statistički pristup opisivanju odnosa između dvije ili više povezanih varijabli. dok su druge varijable ovisne te se njihova vrijednost mjeri. Metoda najmanjih kvadrata je konceptualno jednostavna metoda koja omogućuje izravnu algoritamsku implementaciju. najčešće korištena metoda je metoda najmanjih kvadrata (least squares). Podaci o međuovisnosti se predstavljaju putem linearnih funkcija. Ova metoda određuje pravac koji prolazi kroz skup točaka (x.

7 . Dijagram raspršenja za podatke o odnosu BDP-a i nezaposlenosti u SAD.Otkrivanje znanja u skupovima podataka – Korelacija zavisne može se konstruirati pravac regresije. Vidljiva je relativno snažna negativna veza linearna između dviju varijabli što ukazuje na smanjenje nezaposlenosti kod povećanja BDP-a. Pravac regresije ima negativan faktor nagiba β. odnosno. da je srednja vrijednost jedne od varijabli konstantna ili pak da se radi o nekoj nelinearnoj ovisnosti među varijablama (neki oblici nelinearnih ovisnosti imaju vrijednost β=0) [3]. no on tada ne daje točna predviđanja. predviđanja vrijednosti ovisne varijable izvan područja u kom su mjerenja obavljena ne nudi pouzdane rezultate pošto ovisnost ne mora biti linearna u cijelom području[3]. Također. odnosno. sa porastom jedne varijable raste i vrijednost druge varijable. Vrijednost koeficijenta β približno jednaka 0 ukazuje na to da između varijabli nema povezanosti odnosno da su varijable neovisne. Nagib regresijskog pravca nam može dati određeni uvid u odnos između varijabli x i y: Ukoliko je vrijednost koeficijenta β veća od 0 radi se o pozitivno koreliranim varijablama. sl 2. Koeficijent β manji od 0 ukazuje na negativnu vezu. kada jedna varijabla raste druga će padati i obratno. Izvor podataka za dijagram [6].

Pri tom -1 ukazuje na potpuno negativno korelirane varijable. dok su ̅ i uzorku.Y = corr( X . Iz samog izraza je vidljivo da su vrijednosti koje može poprimiti unutar raspona -1. Y ) σ XσY . Pearsonov koeficijent korelacije može poprimiti vrijednost rasponu od -1 do +1. 1 odnosno da je • 1 ≤ ≤ 1. 8 . +1 na potpuno pozitivno korelirane varijable. rX . dok bi vrijednost koeficijenta od 0 ukazivala na nepostojanje koreliranosti između varijabli [1]. iz čega dobivamo da je: rxy = ∑ ( x − x )( y − y ) i =1 i i n (n − 1) sx s y = ∑ ( x − x )( y − y ) i =1 i i n ∑ (x − x ) ∑ ( y − y) 2 i =1 i i =1 i n n . Navedenim izrazom se koristimo za izračunavanje koeficijenta korelacije [1]. 2 gdje su sx i sy standardne devijacije za x i y. Pearsonov koeficijent korelacije (obično označen s ili r) dobivamo kao kvocijent kovarijancije dviju varijabli i umnoška njihove standardne devijacije. Daljnjim razvojem dolazimo do izraza: srednje vrijednosti varijabli x i y u rxy = ∑ x y − nxy = i i n∑ xi yi − ∑ xi ∑ yi n∑ xi2 − (∑ xi ) 2 n∑ yi2 − (∑ yi ) 2 (n − 1) sx s y .Otkrivanje znanja u skupovima podataka – Korelacija Pearsonov koeficijent korelacije Pearsonov produkt-moment koeficijent korelacije ili jednostavnije Pearsonov koeficijent korelacije je nedimenzionalna mjera korelacije kojom se izražava linearna povezanost između dviju varijabli. Naziv je dobio po Karlu Pearsonu koji ga je razvio sljedeći sličnu ideju Francisa Galtona iz 1880-ih. Y ) = cov( X .

Izvor podataka za dijagram [6]. 9 . Anscombeov kvartet. ukoliko transformiramo skup vrijednosti varijabli . Svi primjeri imaju koeficijent korelacije r=0. Dijagrami raspršenja za tzv.Otkrivanje znanja u skupovima podataka – Korelacija Kada izračunamo koeficijent korelacije za neki set podataka potrebno je interpretirati značenje dobivenog rezultata. Ključna odlika Pearsonovog koeficijenta korelacije je da ostaje konstantan pri linearnim promjenama podataka o varijablama. sl 3. U prvom redu ćemo pokušati ustanoviti da li je u pitanju linearna ovisnost. Iskustveno. te služe za prikaz utjecaja nelinearnosti i nepodobnih podataka na korelaciju. o linearnoj ovisnosti može govoriti tek onda kada je apsolutna vrijednost koeficijenta korelacije veća od 0.3 [1]. konstantne vrijednosti koeficijent korelacije će ostati nepromijenjen. No u praksi je za uspostavljanje stava o vrsti i tipu povezanosti među varijablama potrebno dobiti značajno veću vrijednost koeficijenta korelacije.816. . Drugim riječima. te transformiramo skup vrijednosti varijabli funkcijom funkcijom pri čemu su .

sljedećoj po veličini 2 i tako dalje. U praksi je izračun Spearmanovog koeficijenta nešto jednostavniji zbog matematičkih svojstava izraza koji to omogućuju. n ρ= ∑ (r i =1 n xi − rx )(ryi − ry ) n . 12 10 . Najmanja izmjerena vrijednost dobiva rang N pri čemu je N broj izmjerenih vrijednosti. Sada krećemo s izračunom Pearsonovog koeficijenta korelacije s tim da umjesto izmjerenih vrijednosti koristimo pridijeljene rangove za obje varijable. obje dobivaju jednak rang. Savršena rang korelacija s koeficijentom apsolutne vrijednosti 1 se dobiva kada je jedna varijabla savršeno monotona funkcija druge varijable[3]. za nelinearno korelirane podatke. Pomoću Spearmanovog rang koeficijenta korelacije možemo procijeniti koliko se dobro veza između dvije varijable može opisati pomoću monotone funkcije. U slučaju da je izmjerena vrijednost za dvije točke jednaka. s obzirom da rangovi idu od 1 do N funkciju možemo transformirati sa: rx = ry = n N +1 . dakle ne zahtjeva normalnu distribuciju u mjerenim varijablama. Procedura izračuna Spearmanova koeficijenta počinje sa rangiranjem izmjerenih vrijednosti varijabli. Spearmanova korelacija se može promatrati i kao Pearsonova korelacija za niz vrijednosti varijabli svrstan u rangove prema izmjerenoj veličini. Najčešće korišten model je Spearmanov rang koeficijent korelacije nazvan prema Charlesu Spearmanu koji se obično označava sa ρ ili rs. te za podatke koji općenito traže robusniji model procjene korelacije često se koriste rang koeficijenti korelacije. 2 n i =1 ∑ (rxi − rx )2 = ∑ (ryi − ry )2 = i =1 N ( N 2 − 1) . Ova procedura se obavlja za obje varijable. Najvećoj izmjerenoj vrijednosti pridjeljujemo rang 1.Otkrivanje znanja u skupovima podataka – Korelacija Rang koeficijenti korelacije Za podatke koji su podložni značajnim pogreškama u mjerenju. ∑ (r i =1 xi − rx ) 2 ∑ (ryi − ry ) 2 i =1 U navedenom izrazu su rx i ry rang vrijednosti za varijable x i y . Spearmanov koeficijent je neparametarski.

Nazvan prema M. a veliki broj nesuglasnih na negativnu korelranost. Procedura počinje rangiranjem pridjeljivanjem ranga rx i ry za varijable x i y . Zbog toga se obično koristi modificirani algoritam temeljen na merge-sortu koji daje apriornu složenost od O(Nlog2N) [4]. Osim Spearmanovog često se koristi i Kendallov tau rang koeficijent korelacije. Kao i Spearmanov. Izraz kojim računamo vrijednost faktora τ je: ℎ −( ( − 1) ℎ ) = pri čemu se za suglasne parove smatraju svi parovi točaka za koje vrijedi da su xi > xj i yi > yj ili xi < xj i yi < yj . gdje je d razlika u rangovima između varijable x i varijable y za i-tu od N točaka [3]. 11 . Svi drugi se smatraju nesuglasnim [4].Otkrivanje znanja u skupovima podataka – Korelacija u izraz koji ima svoj konačni oblik: n ρ = 1− 6∑ di2 N ( N − 1) i =1 2 . Iako je osnovni algoritam za izračunavanje Kendalovog tau koeficijenta korelacije relativno jednostavan njegova je upotreba limitirana zbog apriorne složenosti algoritma od O(N2) koja njegovo izračunavanje čini sporim za velike setove podataka. Kendallu ovaj koeficijent uspoređuje rangove parova točaka. Prednost Kendalovog koeficijenta je relativno jednostavna interpretacija: veliki broj suglasnih parova ukazuje na pozitivnu. analogno postupku kod Spearmanovog koeficijenta korelacije. i Kendalov koeficijent korelacije je neparametarski.

U analizi korelacije i korelacijske povezanosti varijabli grafički prikaz putem dijagrama raspršenja često daje najbolju informaciju o postojanju i obliku povezanosti. Intencija je bila napraviti jednostavno i intuitivno sučelje koje može poslužiti u svrhu demonstracije značajki korelacije. 12 . varijabla grupira rezultate. underlaying cause) koje utječu na promatrane čime ih se dovodi u korelaciju. S druge strane. te se u slučaju da je pretpostavljena linearna ovisnost uz normalnu razdiobu najbolje poslužiti Pearsonovim koeficijentom. Pogodnost uporabe određenog koeficijenta korelacije ovisi o prirodi mjerenih varijabli.Otkrivanje znanja u skupovima podataka – Korelacija Zaključak i rezultati Rezultati korelacijske i regresijske analize mogu dati jasnu predodžbu o tome da postoji ili ne postoji veza između mjerenih varijabli. Zbog toga sam unutar ovog seminarskog rada napravio jednu jednostavnu implementaciju grafičkog prikaza scatter dijagrama. a linija regresije pomaže pri predviđanju vrijednosti ovisnih varijabli. korištenje neparametarskih koeficijenata poput Spearmanovog ili Kendalovog koeficijenta može dati bolje rezultate pri ustanovljavanju postojanja i stupnja ovisnosti između varijablii. kada rezultati ne prate normalnu razdiobu ili kada dodatna. odnosno značajna koreliranost između varijabli nije dovoljna za donošenje zaključka o uzročno posljedičnoj vezi. No postojanje veze. Svrha i uporaba korelacije time treba biti ograničena na detektiranje i procjenu magnitude povezanosti dviju varijabli a ne na utvrđivanje uzročno-posljedične povezanosti. a ponekad postoje i dodatne varijable (eng. S druge strane razni koeficijenti korelacije mogu pomoći prilikom formiranja stava o intenzitetu povezanosti između varijabli. u slučaju da se radi o varijablama koje imaju oblik ovisnosti drugačiji od linearnog. Radi se o web baziranoj aplikaciji napravljenoj na Flash platformi. skrivena. Naime smjer povezanosti nerijetko nije jasan.

Otkrivanje znanja u skupovima podataka – Korelacija sl 4.fsr.ba/priv/aloncar/korelacija/ 13 . No u slučaju velikih setova točaka bilo je primjetno usporenje u radu aplikacije. te je trebalo u više navrata optimizirati kod i tražiti algoritamska rješenja s manjom složenošću. Aplikacija za izračun korelacijskih koeficijenata i prikaz i uređivanje dijagrama raspršenja. Kompajlirano programsko rješenje i izvorni kod su priloženi uz ovaj seminarski rad te se mogu pronaći i na web lokaciji: http://www2. Aplikacija automatski računa koeficijente korelacije za zadani skup točaka te iscrtava liniju regresije. Kroz aplikaciju je moguće formirati korisnički definiran set točaka ili učitati neki od preddefiniranih. Izvor podataka za dijagram [7]. Sa strane razine složenosti implementacije algoritama za procjenu regresije i korelacijskih koeficijenata možemo reći da se radi o relativno jednostavnim procedurama.

Daniel Chilko.usq.au [6] en.org/wiki/ [7] www. (2004 – 3rd Edition) „Statistics for research“ / ISBN 0-471-26735-X [4] Michiel Hazewinkel (2002) „Encyclopaedia of Mathematics“ / ISBN 1402006098 Izvori podataka za dijagrame: [5] www.Otkrivanje znanja u skupovima podataka – Korelacija Literatura [1] Kandethody M.sci.wikipedia. Ramachandran. Tsokos. (2009) „Mathematical statistics with applications“ / ISBN 978-0-12-374848-5 [2] Jessica Utts (2004 – 3rd Edition) „Seeing Through Statistics “ / ISBN 978-0534394028 [3] Shirley Dowdy.edu. Stanley Weardon.berkeley. Chris P.edu/ 14 .

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->