You are on page 1of 28

10.

REGRESIJA I
KORELACIJA

Josipa Perkov, prof., pred. 1


 Jednodimenzionalna analiza – istraživanje jedne pojave
predočene statističkim nizom nezavisno od drugih, statističkim
metodama (grafičko i tabelarno prikazivanje niza, izračunavanje
različitih brojčanih pokazatelja) kako bi se donijeli zaključci o
svojstvima dane pojave

 Mnoštvo je slučajeva koji se odnose na istraživanje međusobnog


odnosa dviju ili više pojava – promjena jedne pojave uvjetovana
je promjenama druge ili drugih

 Povezanost pojava može biti:


• funkcionalna – veze se mogu predočiti izrazima na temelju
kojih se točno utvrđuje vrijednost jedne za danu vrijednost
druge (drugih) vrijednosti: Y = f (X )

• statistička – jednoj vrijednosti jedne pojave odgovara više


vrijednosti druge (drugih) pojava
2
 Pri istraživanju masovnih pojava analizom treba utvrditi vezu
među pojavama po obliku (linearna ili krivolinijska), smjeru
(pozitivna ili negativna) i jakosti (funkcionalna ili statistička)

 Istraživati se može jakost statističkih veza– stupanj statističke


povezanosti između pojava mjeri se metodama koje čine područje
korelacijske analize

 Ako je svrha analitički (jednadžbom) izraziti odnos između


pojava, primijenit će se regresijski modeli

 Model koji sadrži jednu zavisnu i jednu nezavisnu varijablu


naziva se modelom jednostavne regresije, a model sa dvije ili
više nezavisnih varijabli model višestruke regresije
 Regresijska i korelacijska analiza provode se na osnovi stvarnih
vrijednosti pojava (varijabli)
3
 Za određivanje oblika regresije kao vrlo prikladno, a jednostavno
sredstvo služi dijagram rasipanja:

• konstruira se tako da se u koordinatni sustav (najčešće se


koristi I. kvadrant ili dio njega) unose parovi vrijednosti
varijable X i Y, tj. on se sastoji od točaka (xi, yi)

• iz rasporeda točaka zaključujemo o obliku, smjeru i jakosti


veze

4
5
10.1. JEDNOSTAVNA LINEARNA REGRESIJA

 Opisuje se odnos među pojavama za koje je svojstveno da


svakome jediničnom porastu vrijednosti jedne varijable odgovara
približno jednaka linearna promjena druge varijable

 Model jednostavne linearne regresije:

Y = a + bX + u

X = nezavisna varijabla
Y = zavisna varijabla
u = odstupanje od funkcionalnog odnosa
a, b = parametri

6
 Regresijska analiza provodi se na temelju n parova vrijednosti
varijabli X i Y : (x1, y1), (x2, y2), ..., (xn, yn), pa se model
predočuje sustavom od n jednadžbi:

yi= a + bxi + ui

 Kada bi odnos među varijablama bio funkcionalan, svaka bi


vrijednost varijable ui bila jednaka nuli – geometrijski, sve bi
točke s koordinatama (xi, yi), i = 1,2,...,n ležale na istome pravcu

7
 Kako su odnosi među pojavama statistički, treba odrediti kriterij
prema kojemu će se izabrati jednadžba pravca ŷ = a + bx
koja će ‘najbolje’ opisati odnos pojava na temelju njihovih
opaženih vrijednosti

 ui su procjene nepoznatih vrijednost varijable u i nazivaju se


rezidualnim odstupanjima:
ui = yi − yˆ i
yi − yˆ i
a relativno izražena rezidualna odstupanja: ui ,rel =
yi
⋅100

 Jednadžba pravca određena je ako su poznati parametri a i b

8
 Do procjene parametara najčešće se dolazi metodom najmanjih
kvadrata – sastoji se u određivanju onih procjena parametara za
koje rezidualni zbroj kvadrata postiže minimum
n

∑x y
i =1
i i − n⋅ x ⋅ y
b= n
, a = y −b⋅ x
∑ i
2
x − n ⋅ x 2

i =1

 Veličina b je regresijski koeficijent – pokazuje za koliko se u


prosjeku mijenja vrijednost zavisne varijable Y za jediničnu
promjenu vrijednosti nezavisne varijable X

9
 Regresijska jednadžba je analitički izraz koji u smislu prosjeka
opisuje odnos među pojavama – osnova za mjerenje
reprezentativnosti disperzija oko regresije, koja se očituje na
rezidualnim odstupanjima (manja odstupanja empirijskih
vrijednosti zavisne varijable od regresijskih vrijednosti ⇒ bolja
reprezentativnost regresije)

 Standardna devijacija regresije:


1 n 2 n n

σ yˆ =  ∑ yi − a ∑ yi − b∑ xi yi 
n  i =1 i =1 i =1 
 Koeficijent varijacije regresije:
σ yˆ
V yˆ = ⋅100
y
10
 Specifičan pokazatelj reprezentativnosti regresije jest koeficijent
determinacije:
n n
a ∑ yi + b∑ xi yi − n ⋅ y 2
i =1 i =1
R2 = n
, 0 ≤ R2 ≤ 1
∑ i
y
i =1
− n
2
⋅ y 2

 Model je reprezentativniji što je koeficijent determinacije bliži


jedinici

11
CHADOCKOVA LJESTVICA:

koeficijent determinacije značenje

0.00 odsutnost veze

0.00 – 0.25 slaba veza

0.25 – 0.64 veza srednje jakosti

0.64 – 1.00 čvrsta veza

1.00 potpuna veza

12
PRIMJER 1. U tabeli 1. izložen je postupak računanja parametara
linearne regresijske jednadžbe i dane su regresijske vrijednosti.
Uzmimo, na primjer, da neko poduzeće analizira podatke o
ostvarenom prometu i dobiti (oboje u mil. kn) u 8 uzastopnih godina:

Regresijske
Promet Dobit
vrijednosti
xi yi xi yi xi 2 $y
i

20 1 20 400 1.05
30 3 90 900 2.35
40 3.5 140 1600 3.65
50 5 250 2500 4.95
70 7 490 4900 7.55
80 8.5 680 6400 8.85
90 9 810 8100 10.15
100 13 1300 10000 11.45 Tabela 1.
480 50 3780 34800 50.00
 Prikažimo prvo 8 parova vrijednosti prometa i dobiti na
dijagramu rasipanja:
Slika 1.
dobit u mil. kn
14,0

12,0

10,0

8,0

6,0

4,0

2,0

0,0
0 20 40 60 80 100 120
promet u mil. kn
 Vidimo sa slike da su točke raspoređene približno pravcu, a veza
je pozitivna, tj. porast vrijednosti jedne varijable prati rast druge
varijable

 Veza je prilične jakosti jer su točke blizu zamišljenog pravca koji


uvijek prolazi kroz točku ( x, y )

 Napomena: ovdje se radi o školskom primjeru, s malim brojem


parova vrijednosti – statistički utemeljeniji zaključci dobivaju se
na osnovi dulje serije vrijednosti obiju varijabli

 Ocijenimo parametre a i b linearne regresije:

x=
∑ x i
=
480
= 60 , y =
∑y i
=
50
= 6.25
n 8 n 8
8

∑ x y − n ⋅ xy
i =1
i i
3780 − 8 ⋅ 60 ⋅ 6.25
b= 8
= 2
= 0.13
34800 − 8 ⋅ 60
∑x
2
2
i − n⋅ x
i =1

a = y − b ⋅ x = 6.25 − 0.13 ⋅ 60 = −1.55

 Regresija s ocijenjenim parametrima glasi:

$y = a + bx = −1.55 + 0.13 x

Prema dobivenoj jednadžbi, ako promet poraste za 1 mil. kn


možemo očekivati povećanje dobiti za 0.13 mil. kn
 Za dani niz empirijskih podataka nezavisne varijable X , pripadne
se regresijske vrijednosti (5. stupac iz tabele 1) računaju njihovim
uvrštavanjem u regresijsku jednadžbu:

$y = a + bx = −1.55 + 0.13 ⋅ 20 = 1.05


1 1

$y = a + bx = −1.55 + 0.13 ⋅ 30 = 2.35


2 2

L
$y = a + bx = −1.55 + 0.13 ⋅100 = 11.45
8 8

 Regresijske su vrijednosti pogodno sredstvo za prognoziranje. Na


primjer, možemo izračunati koliku dobit možemo očekivati ako bi
promet porastao na 110 mil. kn:
$y
( x =110) = a + bx1 = −1.55 + 0.13 ⋅110 = 12.75 mil. kn
1 n 2 n n
 1
σ$y =  ∑ yi − a∑ yi − b∑xi yi  = ( 418.5 +1.55⋅ 50 − 0.13⋅ 3780) = 0.758
n  i=1 i=1 i=1  8

σ $y 0.758
V$y = ⋅100 = ⋅100 = 12.13%
y 6.25

n n
a ∑ yi + b∑ xi yi − n ⋅ y
2

i =1 i =1
R2 = n
=
∑y
2
2
i − n⋅ y
i =1

−1.55 ⋅ 50 + 0.13 ⋅ 3780 − 8 ⋅ 6.252 101.4


= 2
= = 0.9566
418.5 − 8 ⋅ 6.25 106
10.2. KOEFICIJENT LINEARNE KORELACIJE

 Pearsonov koeficijent linearne korelacije - pokazatelj jakosti i


smjera statističke veze dviju pojava

 Podloga za njegovo računanje je raspored točaka, tj. parova


opaženih vrijednosti dviju varijabli u dijagramu rasipanja

 Podijelimo li dijagram rasipanja (slika 2.) pravcima X = x


i Y = y na 4 dijela, vidimo, na primjer da su, ako se radi o
pozitivnoj linearnoj vezi, točke (xi, yi) pretežno raspoređene u
prvom i trećem kvadrantu dijagrama rasipanja

19
20
 Polazna veličina za mjerenje jakosti i smjera je kovarijanca
varijabli X i Y:

1 n 1 n
cov ( X , Y ) = µ11 = ∑ xi − x
( )( yi − y = ∑ xi yi − x ⋅ y
)
n i =1 n i =1

 Kovarijanca ovisi o veličini i mjernim jedinicama varijabli X i


Y, a da bi se dobio pokazatelj jakosti neovisan o mjernim
jedinicama treba standardizirati obje varijable

 Kovarijanca standardiziranih vrijednosti je Pearsonov


koeficijent linearne korelacije:
µ11
r= , −1 ≤ r ≤ 1
σxσ y
21
 Vrijednost koeficijenta jednaka nuli govori da ne postoji linearna
korelacija među pojavama, vrijednost 1 da je potpuna i pozitivna
smjera, a vrijednost -1 da je potpuna i negativnog smjera. Što je
koeficijent po apsolutnoj vrijednosti bliži jedinici, veza je uža

 Pearsonov koeficijent linearne korelacije moguće je pisati na više


načina:

• Kao produkt regresijskog koeficijenta b i omjera standardnih


σ
devijacija obiju varijabli: r = b x
σy

• Putem koeficijenta determinacije: r = R


2

ako se radi o negativnoj regresijskoj vezi treba ispred


korijena staviti negativni predznak
22
10.3. KORELACIJA RANGA

 Ispitivanje stupnja veze između pojava danih u obliku modaliteta


redoslijedne (rang) varijable nije moguće na isti način kao i za
one dane u obliku numeričkih nizova, jer varijable ranga nemaju
za to potrebna metrička svojstva

 Vrijednosti dviju varijabli se rangiraju po veličini, a povezanost


njihovih rangova se mjeri Spearmanovim koeficijentom
korelacije ranga:
n
6∑ di2
i =1
rs = 1 − , − 1 ≤ rs ≤ 1
n −n
3

23
 Sa di su označene razlike između rangovima pojedinih
vrijednosti varijable X i Y :

di = r ( xi ) − r ( yi )

 Vrijednostima pojedine varijable pridruženi su rangovi tako da je


najmanjoj vrijednosti pridružen rang 1, sljedećoj po veličini
vrijednosti iste varijable rang 2, ... Maksimalni mogući rang je n.
Ako se neka od vrijednosti ponavlja, onda se svakoj od njih
pridružuje aritmetička sredina pripadajućih rangova

24
PRIMJER 2. Novinari dvaju časopisa birali su menadžera
godine. Desetorici kandidata novinari pojedinog časopisa su
davali bodove kojima je mjerena njihova uspješnost. Izračunat
ćemo stupanj korelacije kriterija ocjenjivanja obaju uredništava:

25
Bodovi dodijeljenih od Rang Rang
Kvadrati
Redni broj uredništva časopisa vrijednosti vrijednosti Razlike
razlika
kandidata varijable varijable rangova
A B rangova
X Y
xi yi r ( xi ) r ( yi ) di di 2
1 53 48 8 6 2 4
2 15 32 2 5 -3 9
3 30 62 6 7 -1 1
4 47 64 7 8 -1 1
5 60 70 9 10 -1 1
6 75 65 10 9 1 1
7 14 17 1 2 -1 1
8 25 28 4.5 3 1.5 2.25
9 25 30 4.5 4 0.5 0.25
10 19 16 3 1 2 4
Ukupno - - 55 55 0 24.5
 Objašnjenje rangova u 4. stupcu: najmanjoj vrijednosti varijable
X koja iznosi 14, pridružen je rang 1. Sljedeći su po veličini
bodova 15 i 19, pa su njima pridruženi rangovi 2 i 3. nakon toga
slijede dva po veličini jednaka broja bodova, 25, a kako su na
redu rangovi 4 i 5, to je svakoj vrijednosti pridružena aritmetička
sredina tih dvaju rangova, tj. 4.5. Slijedi po veličini 30 bodova,
kojima je pridružen rang 6, ...
n
6∑ di2
i =1 6 ⋅ 24.5
rs = 1 − = 1− 3 = 0.8515
n −n
3
10 − 10
 Spearmanov koeficijent korelacije ranga je dosta blizu jedinice,
što znači da je veza među rangovima dviju varijabli pozitivna i
dosta jaka. Kandidat kojeg je jedno uredništvo ocijenilo dobro,
prošao je dobro i kod drugog urednika i obrnuto. To upućuje na
dosta dobru usklađenost kriterija obaju uredništva
PITANJA ZA USMENI DIO ISPITA:

1) Razlika između funkcionalne i statističke


povezanosti varijabli
2) Dijagram rasipanja
3) Jednostavna linearna regresija
4) Chadockova ljestvica
5) Linearna korelacija
6) Korelacija ranga

28

You might also like