You are on page 1of 70

Regresiona i korelaciona analiza

Relacije izmeu varijabli

Reprezentuju neke fenomene


Matematiki modeli su matematiki izrazi tih fenomena
Gauss-Markoff pretpostavka za linearnu regresiju
Formula za izraunavanje koeficijenata u regresiji je BLUE
(Best Linear Unbiased Estimators)
Best Linear najefikasniji model sa najmanjom varijansom
Unbiased Estimators oekivane vrednosti zavisne varijable
iste ili vrlo bliske populacionim vrednostima

Regresiona analiza

Regresiona analiza se koristi da:

objasni kakav efekat ima promena nezavisne


varijable na zavisnu varijablu

predvidi vrednost zavisne varijable na osnovu


najmanje jedne nezavisne varijable

Zavisna varijabla: varijabla koju elimo da objasnimo


ili predvidimo

Nezavisna varijabla: varijabla koju koristimo da


objasnimo zavisnu varijablu

Regresioni modeli

Izraavaju se jednainom u kojoj je:


1 numerika zavisna (odgovor) varijabla
1 ili vie numerikih ili kategorikih nezavisnih
varijabli

Prosta linearna regresija


samo jedna nezavisna varijabla x

relacija izmeu x i y izraena je linearnom


funkcijom

Prost linearni regresioni model


Relacija izmeu varijabli je linearna funkcija
Prava linija najbolje fituje podatke
y intercept (konstanta)
sluajna greka

y i 0 1x i i
zavisna varijabla
(odgovor)

nagib

nezavisna varijabla
(eksplanatorna)

Populacioni linearni regresioni model

y i 0 1x i i

dobijena
vrednost

= sluajna greka

xy 0 1x i
x
dobijena vrednost

Prost linearni regresioni model

y i a bx i
yi - predviena vrednost za zapaanje i
xi - vrednost x za zapaanje i
a - intercept za uzorak, koristi se za procenu populacionog 0
b - nagib za uzorak, koristi se za procenu populacionog 1

Linearna jednaina

y = a + bx
promena u y
b = nagib
promena u x
a = y-intercept
x

1984-1994 T/Maker Co.

Metoda najmanjih kvadrata

Kako povlaimo liniju izmeu taaka?


Kako procenjujemo koja linija najbolje obuhvata
podatke?
Metoda najmanjih kvadrata
Najbolje slaganje (fitovanje) znai da je razlika izmeu
stvarne vrednosti y i izraunate vrednosti y najmanja

Iz srednje vrednosti x moemo da izraunamo srednju


vrednost y
kada x odstupa od srednje vrednosti, moemo da oekujemo
i da y odstupa od svoje srednje vrednosti
x objanjava odstupanje y od srednje vrednosti

Metoda najmanjih kvadrata grafiki prikaz


Metoda najmanjih kvadrata minimizuje sumu kvadriranih razlika
(greaka = e) izmeu stvarnih i pretpostavljenih vrednosti y
n

2
2
2
2
2
e

e
i
1
2
3
4
i 1

y 2 a bx 2 e 2

e4

e2
e1

e3

y a bx
x

10

Koeficijenti u jednaini prave

Regresiona jednaina

y a bx

Nagib prave

xy N x y

b
x N x

Odseak na y-osi

a y bx

11

Interpretacija koeficijenata
b - nagib
Daje promenu y (kao umnoak) za 1 jedinicu poveanja x
Primer: Ako je b = 2, onda je oekivano y dva puta

vee za svaku 1 jedinicu poveanja u x


a - odseak na y-osi
Prosena vrednost y kada je x = 0

12

Primer 1
t (C0)

unoenje vode
(mL)

24

480

28

600

29

750

29

810

33

960

36

1440

37

1440

13

Primer 1 grafiki prikaz


1600
1400
1200

mL

1000
800
600
400
200
0
0

10

15

20

25

30

35

40

14

Primer 1
t (0C)
x

voda (mL)
y

x2

xy

24

480

576

11520

28

600

784

16800

29

750

841

21750

29

810

841

23490

33

960

1089

31680

36

1440

1296

51840

37

1440

1369

53280

216
x
30,857
7
6480
y
925,714
7
x 2 6796
xy 210360

15

Primer 1
xy N x y

b
x N x
2

210360 7 30,857 925,714

79,5197
2
6796 7 (30,857 )

a y b x 925,714 - 79,5197 30,857 -1528,035

y = - 1528,03 + 79,52x
mL = - 1528,03 + 79,52 t

16

Evaluacija modela

U kojoj meri model izraava relaciju izmeu varijabli?

Priblinost najboljem slaganju

to su take blie liniji to je slaganje bolje

Ispitivanje veliine varijacije

Znaajnost izraunatih parametara

Rezidualna analiza

y a bx

17

Mere varijacije u regresiji


SST = Ukupna varijacija (ukupna suma kvadrata)

mera za varijaciju vrednosti y oko njihove srednje


vrednosti

ukupna varijacija oko regresione prave jednaka je


sumi kvadrata razlika izmeu vrednosti y u svakom
paru i srednje vrednosti y

odgovara ukupnoj sumi kvadrata u ANOVI

(y y)
i

18

Mere varijacije u regresiji


SSR = Varijacija za koju postoji objanjenje
(regresiona suma kvadrata)

mera za varijaciju vezanu za relaciju izmeu x i y

objanjiva varijacija jednaka je sumi kvadrata


razlika izmeu svake izraunate (iz jednaine)
vrednosti y i srednje vrednosti y

odgovara sumi kvadrata izmeu grupa u ANOVI

y y

19

Mere varijacije u regresiji


SSE = Varijacija za koju ne postoji objanjenje
(suma kvadrata greke)

mera za varijaciju koja potie od drugih faktora


varijacija za koju ne postoji objanjenje
Neobjanjiva varijacija jednaka je sumi kvadrata
razlika izmeu vrednosti y u svakom paru i
odgovarajue izraunate (iz jednaine) vrednosti y
odgovara sumi kvadrata unutar grupa u ANOVI

(y i y)

20

Mere varijacije u regresiji


yi
y
y

SS E (y i y) 2

y a bx

SS T (y i y) 2

SS R y y 2
y

xi

21

Koeficijent determinacije

objanjiva varijacija SK R
r

ukupna varijacija
SK T
2

2
y

y
)

(y

y)

0 r2 1

procenat varijacije u y koji je posledica varijacije u x

22

r2 - primeri
y

r = 0,81
2

r = 0,42
2

r2 = 0,77

r2 = 0,05

23

Primer 1
r2

( y y )2
( y i y )2

r 2 0,9412
94% varijacije u y (mL vode) potie od varijacije u x (temperatura)

24

Standardna greka regresione prave

Mera za odstupanje dobijene vrednosti y od izraunate


(iz jednaine) vrednosti y
Veliina greke utie na:
tanost predvianja
znaajnost parametara

S yx

2
SSE ( y i y )

N2
N2

S yx

y 2 ay - bxy
N2
25

Primer 1
a 1528,03
b 79,52

t ( 0 C)
x
24

mL
y
480

y2

xy

230400

11520

y 6480

28

600

360000

16800

y 2 6877800

29

750

562500

21750

29

810

656100

23490

33

960

921600

31680

xy 210360
N7

36

1440

2073600

51840

37

1440

2073600

53280

S yx 101,59

26

Testiranje nagiba b

Da li postoji linearna relacija izmeu x i y ?

Hipoteze
H0: 1 = 0 (nema linearne relacije)
H1: 1 0 (postoji linearna relacija)

Sb

Syx
2

x Nx

b 1
tb
Sb

H0 se prihvata ako je tb < t, N-2


zakljuak: b = 0 (ne postoji linearna relacija)
27

Primer 1
Sb = 8,8787

tb = 8, 956

t0,05; 5 = 2,571

tb > t0,05; 5

H0 se ne prihvata
Zakljuak: postoji linearna relacija izmeu spoljanje
temperature i zapremine vode koju ovek popije

28

Testiranje odseka a

Testira se ako postoji linearna relacija izmedju x i y

Hipoteze
H0: 0 = 0
H1: 0 0

Sa S y, x

x 2
N (x 2 Nx 2 )

a
ta
Sa
H0 se prihvata ako je ta < t, N-2
zakljuak:

a = 0 (nema sistematske greke)

29

Primer 1
Sa = 277,008

ta = 5,516

t0,05; 5 = 2,571

ta > t0,05; 5

H0 se ne prihvata
Zakljuak: odseak na y-osi je znaajno razliit od 0

30

Intervali pouzdanosti za regresione koeficijente

Interval pouzdanosti za odseak a


za nivo znaajnosti 95%: a t0,05; n-2(Sa)
za nivo znaajnosti 99%: a t0,01; n-2(Sa)

Primer 1: 95% IP za odseak a

a = 1528,04 t0,05; 5 = 2,571


Sa = 277,008
1528,04 2,571 (277,008) = 1528,04 712,19
95% IP: 2240,23 do 815,85

Primer 1: 99% IP za odseak a

a = 1528,04 t0,01; 5 = 4,032


Sa = 277,008
1528,04 4,032 (277,008) = 1528,04 1116,90
99% IP: 2644,94 do 411,14

31

Intervali pouzdanosti za regresione koeficijente

Interval pouzdanosti za nagib b


za nivo znaajnosti 95%: b t0,05; n-2(Sb)
za nivo znaajnosti 99%: b t0,01; n-2 (Sb)

Primer 1: 95% IP za nagib b

b = 79,52 t0,05; 5 = 2,571


Sb = 8,8903
79,52 2,571 (8,8903) = 79,52 22,86
95% IP: 56,66 do 102,38

Primer 1: 99% IP za nagib b

b = 79,52 t0,01; 5 = 4,032


Sb = 8,8903
79,52 4,032 (8,8903) = 79,52 35,85
99% IP: 43,67 do 115,37

32

Rezidualna analiza

Uslovi za regresionu analizu:

normalna raspodela greke


konstantna varijansa greke za sve vrednosti x
(homosedastinost)
greke su nezavisne jedna od druge

Odstupanje od ovih uslova se ispituje rezidualnom


analizom
Rezidualna analiza: izraunavanje razlike izmeu
dobijenih vrednosti y i izraunatih (iz jednaine)
vrednosti y

33

Uslovi za regresionu analizu


normalna raspodela greke
konstantna varijansa greke za sve vrednosti x
(homosedastinost)

34

Primer 1 - reziduali
t0C

mL dobijeni

mL izraunati

reziduali

24

480

380,4

99,6

28

600

698,5

-98,5

29

750

778,0

-28,0

29

810

778,0

32,0

33

960

1096,1

-136,1

36

1440

1334,7

105,3

37

1440

1414,2

25,8

35

Primer 1 - reziduali
t Residual Plot
150
100

Residuals

50
0
0

10

15

20

25

30

35

40

-50
-100
-150
t

36

Rezidualna analiza za homosedastinost


Y

Nekonstantna varijansa

reziduali

reziduali

Konstantna varijansa

37

Predvianja uz pomo regresione analize

Vrste predvianja
Predvianje jedne vrednosti (u jednoj taki)
Predvianje intervala

ta se predvia
Populacioni proseni odgovor (yx) za dato x
Taka na populacionoj regresionoj liniji
Individualni odgovor (y) za dato x

38

Primer 1 predvianje y
y = - 1528,03 + 79,52x, r = 0,970
mL = - 1528,03 + 79,52 t0C
mL = - 1528,03 + 79,52 x 400C = 1652,8
mL = - 1528,03 + 79,52 x 200C= 62,4
mL = - 1528,03 + 79,52 x 100C = -732,8

(??)
(??)

Predvianje samo za raspon vrednosti x iz kojih je


izraunata regresiona jednaina!
39

Predvianje y
Interval predikcije

y t / 2,n 2S yx

(x p x)2
1
1 2
n x n ( x ) 2

Za predvianje jedne
vrednosti y za dato x

Interval pouzdanosti

y t / 2,n 2S yx

(x p x)2
1
2
n x n ( x ) 2

Za predvianje populacione
prosene vrednosti y za dato x

Interval pouzdanosti za y je ui od intervala predikcije za y za istu


datu vrednost x, jer je manja greka u predvianju prosene
vrednosti od greke u predvianju jedne vrednosti

40

Interval pouzdanosti za y

t - 290C
y = 778 mL (izraunato)
95% Interval pouzdanosti
t0,05, 5 = 2,571

1
(29 30,857) 2
778 2,571101,59

7 6796 7(30,857) 2

778 107,44

670,56 mL 885,44 mL

t - 290C
y = 778 mL (izraunato)
99% Interval pouzdanosti
t0,01, 5 = 4,032

1
(29 30,857) 2
778 4,032 101,59

7 6796 7(30,857) 2
609,51 mL 946,49 mL

778 168,49

41

Interval predikcije za y

t - 290C
y = 778 mL (izraunato)
95% Interval predikcije t0,05, 5 = 2,571

1
(29 30,857) 2
778 2,571101,59 1
7 6796 7(30,857) 2

778 282,42

495,58 mL 1060,42 mL

t - 290C
y = 778 mL (izraunato)
99% Interval predikcije
t0,01, 5 = 4,032

1
(29 30,857) 2
778 4,032 101,59 1
7 6796 7(30,857) 2
335,09 mL 1220,91 mL

778 442,91

42

Interval pouzdanosti vs. interval predikcije


Interval predikcije za
jedno y, za dato xp

y
Interval
pouzdanosti za
proseno y, za
dato xp

b 1x
+
b
0
y=

xp

43

Korelacioni modeli

Daju odgovor na pitanje Koliko je jaka linearna relacija


izmeu dve varijable?

Izraavaju se koeficijentom korelacije

Populacioni koeficijent korelacije se oznaava sa (rho)


Vrednosti se kreu od -1 to +1
Izraava stepen asocijacije

Koriste se uglavnom za razumevanje relacija

44

Koeficijent korelacije

Pearson ov koeficijent korelacije:

r koeficijen t determinac ije

xy Nxy
x N x y N y
2

45

Vrednosti koeficijenta korelacije


potpuna negativna
korelacija

-1.0

potpuna pozitivna
korelacija

nema korelacije

-0.5

poveanje stepena
negativne korelacije

+0.5

+1.0

poveanje stepena
pozitivne korelacije

46

Koeficijent korelacije
r = 0,8

r = 0,4

r = 0,0

r = -0,8

r = -0,4

r = 1,0

47

Tumaenje veliine koeficijenata korelacije


do 0,20

neznatna korelacija, gotovo ne postoji


povezanost izmeu varijabli

od 0,20 do 0,40

niska korelacija, postoji mala povezanost


izmeu varijabli

od 0,40 do 0,70

umjerena korelacija, bitna povezanost izmeu


varijabli

od 0,70 do 0,90

visoka korelacija, izrazita povezanost izmeu


varijabli

od 0,90 do 1,00

veoma visoka korelacija, veoma uska


povezanost izmeu varijabli

48

Testiranje koeficijenta korelacije

Testira se da li postoji linearna korelacija izmeu dve


varijable
Hipoteze
H0: = 0 (nema korelacije)
H1: 0 (postoji korelacija)

Izraz za izraunavanje

N2
t r
1 r 2

H0 se prihvata ako je t < t, N-2


zakljuak: nema korelacije
49

Primer 1

r2 = 0,9412
r = 0,9702

t = 8,95

H0 se ne prihvata
Zakljuak: postoji znaajna korelacija

t0,05; 5 = 2,571

t > t0,05; 5

50

Linearna regresija u MS-Excel-u

Tools, Data Analysis, Regression


Input Y-range: obeleiti zavisnu promenljivu
Input X-range: obeleiti nezavisnu promenljivu
Labels: oznaiti
Confidence Level: 95% (ili 99%)
oznaiti polje Output range i postaviti kursor na polje u Worksheetu
gde treba da se pojavi izvetaj
Residuals: oznaiti
Residuals Plots: oznaiti
Line Fit Plots: oznaiti
OK

51

Primer 1 - u MS-Excel-u
SUMMARY OUTPUT
Regression Statistics
Multiple R
0,97014
R Square
0,94118
Adjusted R Square
0,92942
Standard Error
101,698
Observations
7
ANOVA
df
Regression
Residual
Total

Intercept
temp

1
5
6

SS
MS
F
Significance F
827458,76 827458,76 80,005429
0,0002911
51712,66376 10342,533
879171,4286

Coefficients
Standard Error
-1528,034934 277,0080568
79,5197
8,8903

t Stat
P-value
-5,516 0,0026802
8,945 0,0002911

Lower 95% Upper 95%


-2240,11
-815,96
56,67
102,37

52

Interpretacija ANOVA rezultata

F test testira nultu hipotezu da regresija ne objanjava


znaajnu proporciju varijacije u y
Stepeni slobode za F-test su 1 i n-2
U ovom primeru F = 80,1 sa 1 i 5 stepena slobode
t-test za b=0 je identian F-testu za r2 = 0
vrednost t za b = 0 je jednaka kvadratnom korenu iz F

53

Linearna regresija u SPSS-u

Podaci se unose u dve kolone (nezavisna i zavisna promenljiva)


Analyze, Regression, Linear
Dependent : mL
Independent: t
Statistics:
Regression coefficients: oznaiti Estimates i

Confidence intervals
oznaiti Model Fit

Continue
OK

54

Primer 1 - u SPSS-u
Variables Entered/Removedb
Model
1

Variables
Entered
a
T

Variables
Removed
,

Method
Enter

a. All requested variables entered.


b. Dependent Variable: ML

Model Summaryb
Model
1

R
,970a

R Square
,941

Adjusted
R Square
,929

Std. Error of
the Estimate
101,70

a. Predictors: (Constant), T
b. Dependent Variable: ML

55

Primer 1 - u SPSS-u
ANOVAb
Model
1

Regression
Residual
Total

Sum of
Squares
827458,8
51712,664
879171,4

df

Mean Square
827458,765
10342,533

1
5
6

F
80,005

Sig.
,000a

a. Predictors: (Constant), T
b. Dependent Variable: ML
Coefficientsa

Model
1

(Constant)
T

Unstandardized
Coefficients
B
Std. Error
-1528,035
277,008
79,520
8,890

Standardi
zed
Coefficien
ts
Beta
,970

t
-5,516
8,945

Sig.
,003
,000

95% Confidence Interval for B


Lower Bound
Upper Bound
-2240,096
-815,974
56,667
102,372

a. Dependent Variable: ML

y = - 1528,03 + 79,52x, r = 0,970

56

Primer 1 - u SPSS-u

Residuals Statisticsa
Predicted Value
Residual
Std. Predicted Value
Std. Residual

Minimum
380,44
-136,11
-1,468
-1,338

Maximum
1414,19
105,33
1,315
1,036

Mean
925,71
1,14E-13
,000
,000

Std. Deviation
371,36
92,84
1,000
,913

N
7
7
7
7

a. Dependent Variable: ML

57

Primer 1 - Grafik u SPSS

Graphs
Scatter Simple Define
Y-axis: mL
X-axis: t
OK
Kliknuti na sliku 2 puta, da se otvori Chart Editor
U Chart Editoru otvoriti Chart Options oznaiti Fit Line: Total,
OK
Zatvoriti Chart Editor

58

Primer 1 - Grafik u SPSS


1600

1400

1200

1000

800

ML

600

400
22

24

26

28

30

32

34

36

38

59

Primer 2 veba na asu


This dataset stems from a study concerning the preservation of ascorbic acid in
vegetables during drying and storing. The amount of acid preserved is the response
(dependent) variable, while the percentage dry matter is the explanatory (independent)
variable.
% suve
materije
10,0

% sauvanog
vit C
66,7

% suve
materije
10,0

% sauvanog
vit C
70,9

10.2

77,2

8,9

74,0

11.2

83,8

8,9

58,6

11.2

67,9

9,2

80,6

10,0

88,9

7,8

69,4

10,7

69,0

10,1

76,0

10,3

69,8

9,0

66,4

12,9

86,0

8,2

50,9

11,8

79,9

9,5

61,9

14,9

88,2

10,8

65,2

12,5

74,2

11,1

77,2

12,3

83,1

11,2

89,6

60

Primer 2 Izvetaj u MS Excelu

61

Primer 2 Grafiki prikaz

62

Reziduali

63

Primer 2 - Reziduali

64

Primena regresione analize u analitici

Regresiona analiza se u analitici primenjuje u sledeim


sluajevima
Za izraunavanje jednaine standardne krive
Za procenu tanosti metoda i poreenje metoda
Za procenu tanosti metoda na osnovu metode
standardnog dodatka (recovery)

65

Primena regresione analize u analitici

Stupnjevi u primeni regresione i korelacione analize:

1.

Izraunavanje koeficijenta korelacije r


za standardnu krivu r 0,99
r2 = 0,98 = 98%
za tanost i poredjenje metoda r 0,9
r2 = 0,81 = 81%

66

Primena regresione analize u analitici


2.

Izraunavanje jednaine prave


Odseak a sistematska greka
Nagib b sistematska (% greka)

3.

Testiranje koeficijenata
Za standardnu krivu: testiranje odseka a
Za poredjenje metoda: testiranje odseka a i
nagiba b
Za recovery test: testiranje nagiba b

67

Tanost metode primer 3

r = 0,99995
b = 1,037

a = -4,221

Syx = 1,0486

68

Tanost metode testiranje greaka


Testiranje znaajnosti odseka a (sistematske greke)
H0: a = 0 H1: a 0
Sa = 0,976
ta = 4,324

t0,05, 4 = 2,776

ta > t0,05

Znaajnost odseka a:
Prihvata se H1: a 0
Zakljuak: postoji negativna sistematska greka od
4,22 mmol/L
69

Tanost metode testiranje greaka

Testiranje znaajnosti nagiba b (proporcionalne


greke)
H0: b = 1 H1: b 1
Sb = 0,005 tb = 7,43

t0,05, 4 = 2,776

tb> t0,05

Znaajnost nagiba b:
Prihvata se H1: b 1
Zakljuak: postoji procentualna greka od 3,7%
(b =1 ,037 = 103,7%)
70

You might also like