Professional Documents
Culture Documents
POSLOVNA STATISTIKA
BILJEŠKE 6A: Korelacija i jednostavna linearna regresija
prof. dr. sc. Mirjana Čižmešija
Kompetencije i ishodi učenja:
K1. Matematičke, statističke i IT (digitalne) vještine
Ishodi učenja:
IU11. Generirati kvalitetna istraživanja i analize: Pripremiti i integrirati poslovne i ekonomske
podatke. Izabrati odgovarajuće metode grafičke i numeričke statističke analize, koja u
kontinuiranom praćenju procesa dovodi do sintetiziranih rezultata i novih informacija potrebnih za
donošenje poslovnih odluka. Ispravno interpretirati rezultate i usporednom analizom ocijeniti
reprezentativnost pojedinih modela.
5
Korelacijska analiza
• sastoji se u primjeni postupaka utvrđivanja brojčanog
pokazatelja jakosti i smjera povezanosti između pojava
predočenih varijablama x i y
• veza između pojava može biti
• funkcionalna ili deterministička
• statistička ili stohastička
(1) (2)
y y
x x
funkcionalna veza statistička veza
6
Korelacijska analiza
• Funkcionalna povezanost je egzaktna povezanost među
varijablama gdje je vrijednost jedne varijable jednoznačno
određena za danu vrijednost druge varijable.
• Povezanost između pojava u pravilu nije jednoznačno
određena, odnosno nije funkcionalna.
• Odstupanje od funkcionalne povezanosti posljedica je statističke
promjenljivosti.
• Takva su odstupanja u praksi češća te se stoga koncentriramo na
statističku povezanost.
7
Korelacijska analiza
8
Korelacijska analiza
rang varijabli
• Koeficijentom korelacije ranga mjeri se stupanj povezanosti
između pojava izraženih modalitetima redoslijednog obilježja.
• Analiza se svodi na dodjeljivanje rangova gdje se rang 1 dodjeljuje
elementu s najmanjim stupnjem svojstva, rang 2 sljedećem, a
posljednjemu rang N.
• Dvije su vrste koeficijenata korelacije ranga:
• Spearmanov koeficijent korelacije ranga i
• Kendallov koeficijent korelacije ranga.
9
Korelacijska analiza
Dijagram rasipanja
• Dijagram rasipanja je grafički prikaz pomoću kojeg se
uočava priroda odnosa između promatranih pojava.
• Konstruira se u pravokutnom koordinatnom sustavu
s aritmetičkim mjerilima na osima i točkama (xi , y)i
koje su određene parovima vrijednosti dviju
promatranih numeričkih varijabli:
11
Korelacijska analiza
Dijagram rasipanja
(1) (2)
y y
x x
funkcionalna pozitivna veza funkcionalna negativna veza
12
Korelacijska analiza
Dijagram rasipanja
(4)
(3)
y y
x x
statistička pozitivna veza statistička negativna veza
13
Korelacijska analiza
Dijagram rasipanja
(5) (6)
y y
x x
krivolinijska veza odsutnost veze
14
Korelacijska analiza
Pearsonov koeficijent korelacije
• Pearsonov koeficijent korelacije ili koeficijent jednostavne
linearne korelacije primjenjuje se u slučaju linearne
povezanosti te u analizi samo dviju pojava predočenih
varijablama x i y
• Polazna veličina mjerenja jakosti i smjera linearne povezanosti
između varijabli x i y je kovarijanca.
x i x yi y
Cov( x, y ) i 1
n 1
15
Korelacijska analiza
Pearsonov koeficijent korelacije
• Pearsonov koeficijent korelacije definiran je sljedećim izrazom:
Cov( x, y )
r
x y
n
x y i i nx y
r i 1
n n
xi nx i
2 2 2
2
y ny
i 1 i 1
1 r 1
16
Primjer: plus
Analizira se prosječan broj zaposlenih i ukupan promet u tisućama kuna za 14
prodavaonica trgovačkog lanca Plus 2009. godine.
17
Primjer: plus
Scatter Diagram
335
330
promet u tisućama kuna
325
320
315
310
32 33 34 35 36 37 38 39 40 41 42
broj zaposlenih
18
Primjer: plus
19
Primjer: plus
20
Regresijska analiza
• Regresijska se analiza bavi ispitivanjem ovisnosti jedne zavisne
varijable o jednoj ili više nezavisnih varijabli s ciljem utvrđivanja
analitičkog izraza, odnosno utvrđivanja regresijskog modela koji
služi u analitičke i prognostičke svrhe.
21
Regresijska analiza
Dijagram toka regresijske analize
Regresijska dijagnostika
(provjera statističko-teorijskih pretpostavki
nisu ostvarene primjene modela)
ostvarene
22
Regresijska analiza
• Regresijski se model analizira polazeći od stvarnih, odnosno
empirijskih vrijednosti pojava predočenih statističkim numeričkim
varijablama x i y:
x : x1 , x2 ,... xi ,... xn
y : y1 , y2 ,... yi ,... yn
• Moguća je i analiza kvalitativnih varijabli – primjenjuje se
regresijski model s binarnim varijablama (engl. binary, dummy
variables) koje poprimaju vrijednosti 0 i 1
• 0 – nepostojanje nekog svojstva
• 1 – njegovo postojanje.
23
Regresijska analiza
• Deterministički model
• egzaktna veza između varijabli gdje je vrijednost zavisne
varijable y jednoznačno određena zadanom vrijednošću
nezavisne varijable x
y f (x)
• Statistički model
• „slabija“ veza između varijabli gdje vrijednost zavisne
varijable y nije jednoznačno određena zadanom
vrijednošću nezavisne varijable x
y f x e
24
Model jednostavne linearne regresije
• Model jednostavne linearne regresije je statistički
model
ei ~ N 0, 2 , Covei , e j E ei , e j 0, i j.
25
Procjena parametara metodom najmanjih kvadrata
26
Procjena parametara metodom najmanjih kvadrata
yi yˆ i eˆi
eˆi yi yˆ i
ili eˆi yi ˆ0 ˆ1 xi
n n 2
i yi ˆ0 ˆ1xi
ˆ 2
e
i 1 i 1
27
Procjena parametara metodom najmanjih kvadrata
n n
nˆ0 ˆ1 xi yi
i 1 i 1
n n n
ˆ0 xi ˆ1 xi2 xi yi
i 1 i 1 i 1
x y i i nx y
ˆ1 i 1
n
ˆ0 y ˆ1 x
i
x 2
i 1
n x 2
yˆ ˆ0 ˆ1x
28
Primjer: plus
29
Primjer: plus
yˆ 230,49 2,49x
30
Regresijska analiza
• regresijske vrijednosti
31
Primjer: plus
32
Intervalne procjene parametara
• Ako su ispunjene sve pretpostavke o modelu jednostavne linearne
regresije, sampling distribucija procjenitelja parametra 1 ima
oblik normalne distribucije s očekivanom vrijednosti jednakoj
parametru 1 i standardnom devijacijom jednakoj standardnoj
pogrešci procjene regresijskog koeficijenta ˆ. Ukoliko nije poznata
standardna devijacija sampling-distribucija procjenitelja 1
1
33
Intervalne procjene parametara
• Intervalna procjena parametra 1
P ˆ1 t / 2 ˆ 1 ˆ1 t / 2 ˆ 1
1 1
ˆ
ˆ n
1
i
2
x x
i 1
i
x 2
ˆ ˆ n
i 1
n xi x
0
2
i 1
34
Primjer: plus
35
Analiza varijance u modelu jednostavne
linearne regresije
yi y yˆi y yi yˆi
36
Analiza varijance u modelu jednostavne
linearne regresije
37
Analiza varijance u modelu jednostavne
linearne regresije
n
y y 0
i 1
i
n n n
iy y 2
iˆ
y y 2
i i .
y ˆ
y 2
i 1 i 1 i 1
n n
ST yi y yi2 ny 2 ,
2
i 1 i 1
n n n
SP yˆ i y ˆ0 yi ˆ1 xi yi ny 2 ,
2
i 1 i 1 i 1
n n n n
SR yi yˆ i y ˆ0 yi ˆ1 xi yi .
2 2
i
i 1 i 1 i 1 i 1
ST SP SR.
38
Primjer: plus
Stupnjevi Sredina
Izvor varijacije Zbroj kvadrata F-omjer Prob>F
slobode kvadrata
Protumačen modelom
n
SP
1 SP ( yˆ i y ) 2 SP
linearne regresije i 1 1 1
Neprotumačen modelom
n SR
SR ( yi yˆ i ) 2
SR
n2
linearne regresije i 1 n2 n2
n
Ukupno n 1 ST ( yi y ) 2
i 1
40
Primjer: plus
SP
SR
ST
41
Regresijska dijagnostika
• procjena varijance regresije
n
i i
y ˆ
y 2
SR
ˆ
2 i 1
n2 n2
SR
ˆ ˆ 2 i 1
n2 n2
• procjena koeficijenta varijacije regresije
ˆ ˆ
V 100%
y
42
Regresijska dijagnostika
• koeficijent determinacije
N
iˆ
y y 2
SP SR 0 R2 1
R
2 i 1
N
1 ,
y y
2 ST ST
i
i 1
n 1
R 1
2
(1 R ),
2
R 2 R2
n2
43
Koeficijent determinacije i koeficijent
jednostavne linearne korelacije
r R2
44
Dijagrami rasipanja i vrijednosti
koeficijenta linearne korelacije
(1) (2)
r 1 r 0,85
y y
(5)
r 0
y
x x
(3) (4)
r 1 r 0,85
y y x
x x
45
Primjer: plus
ˆ 1,822424653
Vˆ 100% 100% 0,5662%
y 322,42857
ˆ 1,822424653
ˆ 2 3,321232
46
Primjer: plus
r R 2 0,923858 0,961175
SP 483,573792
R
2
0,923858
ST 523,4285714
47
Testovi značajnosti u modelu jednostavne
linearne regresije
48
F-test
• polazi od elemenata tablice ANOVA
• hipoteze H ... y e
0 i 0 i
H1... yi 0 1 xi ei
• test veličina SP
F 1
SR
• odluka n2
F F ,1, n 2
• p-vrijednost
p vrijednost P( F1;n2 F ),
49
F-test
50
Primjer: plus
H 0 ... yi 0 ei
H1... yi 0 1 xi ei
51
t-test – dvosmjerni
• hipoteze H 0 ...1 0
H1...1 0
• test veličina
ˆ1 ˆ
t , ˆ
ˆ n
1
i
2
1
x x
i 1
• odluka
t t / 2 .
• p-vrijednost
p vrijednost 2 Ptn2 t
52
t-test – dvosmjerni
odbacivanje odbacivanje
nulte hipoteze nulte hipoteze
t / 2 0 t / 2
/2 /2
53
t-test – jednosmjerni
Jednosmjerni test na gornju granicu Jednosmjerni test na donju granicu
H 0 ...1 0 H 0 ...1 0
H 1...1 0 H1...1 0
ˆ1
• test veličina t
ˆ
1
• odluka
t tili
t t .
• p-vrijednost
p vrijednost Ptn2 t
54
t-test – jednosmjerni
odbacivanje
nulte hipoteze
t
0
55
Primjer: plus
H 0 ...1 0
H 1...1 0
• test veličina
ˆ1 1*
t
ˆ 1
57
Test značajnosti koeficijenta linearne korelacije
• hipoteze H 0 ... 0
H1... 0
r
• test veličina t
1 r 2
n2
58
H 0 ... 0 (ne postoji korelacija)
H1... 0 (postoji korelacija).
r 0,96117544
t 12,06651325,
1 r 2
1 0,961175442
n2 14 2
59
Test značajnosti koeficijenta determinacije
• hipoteze H 0 ... 2 0
H1... 2 0
• test veličina
SP
R 2 n 2
F 1 , tj. F .
SR 1 R 2
n2
60
Primjer: plus
• u modelu jednostavne linearne regresije test
značajnosti koeficijenta determinacije ekvivalentan
je testu značajnosti koeficijenta linearne korelacije
• kvadrirana t vrijednost jednaka je vrijednosti
empirijskog F-omjera:
61
Regresijska analiza za predviđanje
• procjena očekivane vrijednosti zavisne varijable
yˆ 0 ˆ0 ˆ1 x 0
• intervalna procjena očekivane vrijednosti zavisne
varijable
P yˆ0 t / 2 yˆ0 y0 yˆ0 t / 2 yˆ0 1
yˆ ˆ
1
x0 x 2
n
n
i
0
2
x x
i 1
62
Regresijska analiza za predviđanje
• prognostička vrijednost zavisne varijable
yˆ f ˆ0 ˆ1 x f
yˆ
1
̂ 1
x x
f
2
x x
f
n 2
i
i 1
63
Primjer: plus
64
Primjer: plus
65
Ponovimo (provjerimo ishode učenja):