You are on page 1of 34

Statistiniai duomenys

liudija, kad žmonės,


švenčiantys daugiausia
gimtadienių, gyvena
ilgiausiai.
© V. ČEKANAVIČIUS, G. MURAUSKAS, J.
1
MARKEVIČIŪTĖ

Kovariacija ir
koreliacija
ATSITIKTINIŲ DYDŽIŲ TIESINĖS
PRIKLAUSOMYBĖS MATAI

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 2

A.d. X ir Y kovariacija

Atsitiktinių dydžių X ir Y kovariacija:

cov(X, Y)  E(X - EX)(Y - EY)

Skaičiuoti patogiau pagal formulę:

cov(X, Y)  EXY - EXEY

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 3

1
A.d. X ir Y kovariacija

Svarbiausios kovariacijos savybės yra


šios:
Jeigu X ir Y nepriklausomi, tai

cov(X, Y)  0
 visada
cov(X, Y)  DXDY
© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 4

Kovariacijos trūkumai

•Kovariacija jautri skalės pokyčiams.


•Tarkime X buvo km, Y degalų litrai.
• cov(X, Y)  15
•Perėję prie m gautume
cov(X, Y)  15000
• negalima nuspręsti ar priklausomybė stipri.

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 5

A.d. X ir Y koreliacijos
koeficientas

cov(X, Y) EXY - EXEY


 (X, Y)  
DXDY DXDY

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 6

2
Koreliacijos koeficiento savybės

• Jeigu a ir b yra konstantos, tai

 (aX  b, Y)   (X, Y)
• Koreliacijos koeficientas yra skaičius tarp -1 ir 1:
 1   (X, Y)  1
koeficientas (X,Y)=  1 tada ir tik tada,
• Koreliacijos
kai egzistuoja konstantos a =0 ir b tokios, kad
Y=aX+b.

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 7

Koreliacijos koeficiento savybės

Jeigu (X,Y) = 1, tai a > 0 (didesnius X atitiks


didesni Y), jeigu (X,Y) = 1, tai
a < 0 (didesnius X atitiks mažesni Y).
Koreliacijos koeficientas nematuoja
netiesinės priklausomybės.

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 8

Tiesinė priklausomybė

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 9

3
Netiesinė priklausomybė

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 10

Empirinė
kovariacija ir
koreliacija

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 11

Koreliacijos koeficiento
formulė

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 12

4
Savybės

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 13

Koreliacija

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 14

Pavyzdys
0.01 0.66
4
4

2
2

0
0
y

-2
-2

-4
-4

-10 -5 0 5 10 -10 -5 0 5 10

x x

-0.45 -0.67
4

4
2

2
0

0
y

y
-2

-2
-4

-4

-10 -5 0 5 10 -5 0 5 10

x x

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 15

5
Koreliacija ir
priežastingumas

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 16

Pavyzdys
1. Svirplio čirškėjimas smarkiai susijęs su oro
temperatūra;
2. Kai šalta svirpliai mažiau čirškia;
3. Kai karšta jie čirškia daugiau.
4. Statistiniais terminais: svirplio čirškimas ir
temperatūra turi stiprią teigiamą
koreliaciją.

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 17

Pavyzdys
1. Dažnai randama koreliacija tarp nusikaltimų
skaičiaus vienam asmeniui ir policijos
pareigūnų skaičiaus toje teritorijoje.
2. Nusikaltimų skaičius mažėja, kai daugiau
pareigūnų patruliuoja ir didėja, kai
pareigūnų būna mažiau.
3. Statistiniais terminais, policijos pareigūnų
skaičius ir nusikaltimų skaičius turi stiprią
neigiamą koreliacija.
© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 18

6
Pavyzdys
1. Ledų suvartojimas (kg vienam asmeniui) ir
žmogžudysčių skaičius Niujorke yra teigiamai
koreliuoti dydžiai.
2. T.y., ledų kiekis parduotas vienam asmeniui didina
žmogžudysčių skaičių.
3. Keista bet tiesa!
4. Bet koreliacija nepaaiškina kodėl ir kaip atsiranda
sąryšis, ji tik pasako ar jis yra, ar jo nėra.

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 19

Priežastingumas
1. Priežastingumas pasako, ar x įtakoja y.
2. Koreliacija to nepasako.
3. Per dažnai tyrimuose, spaudoje, politikoje
koreliacija yra interpretuojama kaip
priežastingumas, dėl ko gaunamos
neteisingos išvados.

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 20

Koreliacija ir priežastingumas

Koreliacija parodo ar kintamieji priklauso.


Priklausomybė, dar nenusako priežastingumo.
Gali kintamieji koreliuoti ir
a) X veikti Y, o ne atvirkščiai;
b) X veikti Y, o Y veikti X;
c) X veikti Y, o Y veikti Z
d) X veikti Y ir X veikti Z ir t.t.

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 21

7
X Y

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 22

X Y

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 23

X Y Z

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 24

8
Y
X
Z

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 25

Klaidinga koreliacija

Šaltinis:
http://www.ty
lervigen.com/
spurious-
correlations
© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 26

Klaidinga koreliacija

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 27

9
Klaidinga koreliacija

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 28

Hipotezė apie
koreliacijos
koeficiento lygybę
nuliui
AR DU KINTAMIEJI KORELIUOJA

© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
29
MARKEVIČIŪTĖ

Pavyzdžiai

1. Ar studentai tuo geriau mokosi, kuo


daugiau turi pinigų?
2. Ar geresniais balais įstoję, geriau ir po to
mokosi?
3. Ar IQ ir išgeriamo alkoholio kiekis susijęs?
Visais atvejais skaičiuojame ar kintamieji
koreliuoja.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
30
MARKEVIČIŪTĖ

10
Duomenys

• Intervalinių duomenų poros (x1,y1), (x2,y2),…,


(xn,yn) gautos matuojant du priklausomus
normaliuosius atsitiktinius dydžius
• X~N(mX, sX2 ) ir
• Y ~ N(mY, sY2 ) ,
• Vidurkiai mX , mY ir dispersijos sX2 , sY2
nežinomi.
© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
31
MARKEVIČIŪTĖ

Statistinė hipotezė:

H 0 : ρ  0

H1 : ρ  0

© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
32
MARKEVIČIŪTĖ

Kriterijaus statistika

T  r (n - 2) (1  r 2 )
Čia r koreliacijos koeficiento realizacija.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
33
MARKEVIČIŪTĖ

11
Sprendimo priėmimas

Hipotezė H0 atmetama (kintamieji


koreliuoja), jei
T  t α2 (n  2)
Čia t α2 (n  2) Stjudento kriter. su n-
laisvės laipsniais a/2 lygmens kritinė reikšmė
(3 lentelė).

© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
34
MARKEVIČIŪTĖ

Pastabos
• kuo koreliacijos koeficientas toliau nuo nulio
(absoliutiniu didumu didesnis), tuo koreliacija stipresnė.
• 0,3 (-0,3) – silpna koreliacija; 0,7 (-0,7) stipri.
• Koreliacijos koeficiento ženklas parodo kaip koreliuoja:
• teigiamas- vienam kintamajam didėjant, kitas irgi
didėja.
• neigiamas – vienam didėjant, kitas mažėja.
• Koreliacija dar nereiškia priežastingumo!

© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
35
MARKEVIČIŪTĖ

Sprendimo taisyklės

H0 : ρ  0
H1 H1 priimame
ρ0 T  t α2 ( n  2)
ρ0 T  t α ( n  2)
ρ0 T   t α ( n  2)

© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
36
MARKEVIČIŪTĖ

12
Statistinė išvada su p - reikšme
H0 atmetame (kintamieji stat. reikšmingai
koreliuoja, jei
p α
H0 neatmetame (kintamieji stat. reikšm.
nekoreliuoja), jei
p α
Čia a- reikšmingumo lygmuo

© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
37
MARKEVIČIŪTĖ

Pavyzdys

•Ar yra tiesioginė priklausomybė tarp


studijų vidurkio ir pradinio atlyginimo.
•n=15
•r=0.183
•a=0.05

© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
38
MARKEVIČIŪTĖ

Pavyzdys
Hipotezė: H 0 : ρ  0

H1 : ρ  0
Statistika: 15  2
T  0.183  0.67
1  0.1832

Kritinė reikšmė: t 0.05 (13)  1.77


Išvada: H0 neatmetėme, 0.67  1.77 statist.
reikšmingos priklausomybės neradome.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
39
MARKEVIČIŪTĖ

13
R kodas
> library(Ecdat)
> data(Bwages)
> head(Bwages)
wage educ exper sex
1 7.780208 1 23 <NA>
2 4.818505 1 15 <NA>
3 10.563645 1 31 <NA>
4 7.042429 1 32 <NA>
5 7.887521 1 9 <NA>
6 8.200058 1 15 <NA>
> cor.test(Bwages$wage, Bwages$exper)

Pearson's product-moment correlation

data: Bwages$wage and Bwages$exper


t = 12.379, df = 1470, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.2602445 0.3528061
sample estimates:
cor
0.3072518

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 40

Tiesinė
regresija

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 41

Tiesinė regresija - toks


modelis, kai vieną
(priklausomą) kintamąjį įtakoja
vienas arba keletas
(nepriklausomų) kintamųjų.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 42

14
PAVYZDŽIAI

1. ar vaikų skaičius šeimoje priklauso nuo


tėvų išsilavinimo ir pajamų,
2. kaip antikvarinės keramikos kaina
priklauso nuo jos senumo ir aukciono
dalyvių skaičiaus,
3. ar diplomo pažymių vidurkis ir
komunikabilumas gali padėti prognozuoti
būsimą atlyginimą.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 43

PAVYZDŽIAI

1. išmatavome IQ pirmame kurse. Ar


galima prognozuoti koks bus
studento diplomo pažymių vidurkis?
2. kiek padidės pelnas, padidinus
reklamos išlaidas 10 000 eur?
3. kokį vidutinį valstybinio egzamino
balą galima prognozuoti mokiniui per
baigiamąjį kontrolinį surinkusiam 87
tšk.?
© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 44

Kodėl neužtenka koreliacijos?


1. Koreliacija nustato ar stipri yra
kintamųjų priklausomybė.
2. Koreliacija nustato, tiesioginė ta
priklausomybė ar atvirkštinė.
3. Koreliacija neleidžia daryti prognozių.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 45

15
Pavyzdys:

1. Koreliacija tarp išlaidų reklamai ir pajamų yra


0,99.
2. Taigi, priklausomybė labai stipri.
3. Taigi, didėjant reklamos išlaidoms, bendrosios
pajamos didėja.
4. Ar naudinga firmai padidinti išlaidas reklamai?
5. Atrodytų, kad taip!

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 46

Gali būti taip...


1 eur reklamai atneša kelis eur pajamų.

Valio!!!
Pelnas padidės!
pajamos

išlaidos reklamai

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 47

Bet gali būti ir taip...


1 eur reklamai atneša kelis centus pajamų.

Vaje!!!
Pelnas sumažės!
pajamos

išlaidos reklamai

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 48

16
Regresija tinka prognozėms.

Pavyzdžiai:
1. nustatyti ūgio ir svorio priklausomybę,
2. nustatyti faktorius, kurie įtakoja mokesčių
slėpimą,
3. nustatyti nusikaltimų skaičiaus ir gyventojų
tankumo priklausomybę
4. prognozuoti kiek skirti pinigų 100 eurų
išmokoms į darželius.
© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 49

Duomenys

(X11,, X21,, X31,,…, Xk1,, Y1) , .…, (X1n,, X2n,,


X3n,,…, Xkn,, Yn) .
tai, ką prognozuosime - priklausomas
kintamasis ( Y , kaina)
pagal ką - nepriklausomi kintamieji
(regresoriai) ( X-ai , metai, dalyvių
skaičius).

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 50

MODELIS

Y  0  1X1  ...   n X n  e
1. Y priklauso nuo stebimų X-ų ir
nuo dar kažkokių nestebimų
dalykų e.
2. e – atsitiktinis dydis (normalus) su
0 vidurkiu ir nežinoma dispersija
(baltas triukšmas)
© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 51

17
Visi kintamieji intervaliniai*.

* išskyrus pseudokintamuosius .
X-ai vienas kito neveikia,
X-ai veikia Y-ą.
vieno X-o per kitus neišreikši.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 52

Modelis grafiškai

Y e

X1 X2 X3

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 53

Parametrų vertinimas

Surandame b0 ir b1, b2,... bk tokius, kad


regresijos funkcijos reikšmės

y(x) = b0 + b1x1 + ... + bkxk


būtų kiek galima arčiau visų stebimų ym-ų.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 54

18
Liekamoji paklaida

em = ym - y(x1m, x2m,... xkm)

= ym - (b0 + b1x1m + … + bkxkm)

Liekamosios paklaidos suskaičiuojamos


visiems duomenims

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 55

Mažiausių kvadratų metodas:

Parametrai a ir b1,...bk parenkami


taip, kad bendroji paklaidų suma

SSE  e12  e22  ...  e 2n


būtų mažiausia.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 56

Kai yra vienas kintamasis

y(x) = b0 + b1 x

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 57

19
Pavyzdys

Šaltinis:
http://www.sthda.com/english/ar
ticles/40-regression-
analysis/167-simple-linear-
regression-in-r/

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 58

Matricinis pavidalas

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 59

Gauta lygtis y(x) gali būti taikoma


prognozėms.

y(x) = b0 + b1x1 + ... + bkxk

bk parodo, kiek padidės y , jei xk


padidės vienetu.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 60

20
Pvz., keramikos aukcione kaina:

kaina = 1000+
4*Metai+ 200*Dalyviai

Jei dalyviai 2, o puodas 300 m.


senumo, tai prognozuojame, kad jis
kainuos 1000+4*300+200*2=2600 eur.
kiekvienas naujas dalyvis pabrangina
prekę 200eur.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 61

Prognozavimas

1. Prognozuojama tik, jei regresijos


modelis duomenims tinka.
2. Prognozė daroma tik tokiems x, kurie
neiššoka už nagrinėjamų x-ų srities.
3. Prognozė tuo tikslesnė, kuo x arčiau
visų stebėtų xm vidurkių.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 62

Pavyzdys su R: Duomenys
> macro <- read.csv2("Macro.csv")
> macro
Laikas Emigrantai BVP Unemp
1 2001 27841 14194.5 17.4
2 2002 16719 15202.2 13.8
3 2003 26283 16668.5 12.4
4 2004 37691 18237.7 10.9
5 2005 57885 21002.4 8.3
6 2006 32390 24079.2 5.8
7 2007 30383 29040.7 4.2

> macro$logBVP <- log(macro$BVP)


> macro$logEm <- log(macro$Emigrantai)

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 63

21
Pavyzdys su R: modelis
> summary(mod)

Call:
lm(formula = logBVP ~ logEm + Unemp, data = macro)

Residuals:
Min 1Q Median 3Q Max
-0.5650 -0.2220 0.1032 0.1806 0.3215

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.11361 1.93541 2.642 0.0193 *
logEm 0.52208 0.18509 2.821 0.0136 *
Unemp -0.03873 0.01686 -2.297 0.0375 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2725 on 14 degrees of freedom


Multiple R-squared: 0.4535, Adjusted R-squared: 0.3755
F-statistic: 5.81 on 2 and 14 DF, p-value: 0.01455

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 64

Modelio suderinamumas su
duomenimis

Ar tinka regresija nustatome analizuodami


1. Liekamąsias paklaidas,
2. Determinacijos koeficientą,
3. ANOVA lentelę,
4. t-testus,
5. Multikolinearumą.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 65

Liekamųjų paklaidų analizė


Kaip ir paprastojoje analizėje, regresijoje
liekamųjų paklaidų em analizė reiškia:

a) išskirčių nustatymą;
b) sklaidos diagramų analizę.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 66

22
Išskirtys yra dviejų tipų:
išsiskiriančios Xm reikšmės,
išsiskiriančios ym reikšmės.

Gali kenkti prognozės tikslumui.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 67

Kenksminga išskirtis:

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 68

Nekenksminga išskirtis:

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 69

23
Išskirčių atsiradimo priežastys:
1. Dažniausiai - duomenų vedimo klaida.
2. Pašalinio kintamojo įtaka (pvz. metinė
visaliaudinė šventė).
3. Žinant išskirties atsiradimo priežastis,
dažnai tą stebėjimą galima pašalinti.
4. Negalima stebėjimo šalinti tik todėl,
kad jis išskirtis!!!

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 70

Yra keli išskirčių nustatymo būdai


Mes naudosime Kuko matą Dm :

Jis skaičiuojamas kiekvienam duomeniui


(t.y. kiekvienai porai (xm,,ym)).

Stebėjimas yra išskirtis, jei Dm >1.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 71

plot(mod)

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 72

24
Sklaidos diagramos

1. Išbrėžiamas grafikas, kaip


sumodeliuotos reikšmės priklauso
nuo liekanų (residuals vs fitted).
2. Parodo ar yra netiesinis sąryšis. Jei
liekanos išsidėsčiusios apie
horizontalę liniją ir neturi jokios
netiesinės formos, tai regresija
tinkama.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 73

plot(mod)

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 74

Tikrosios bei modelio reikšmės


1. Brėžiami linijos grafikai.
2. Pirmoji linija skirta tikrosioms reikšmėms.
3. Antroji linija skirta modelio (fitted)
reikšmėms.
4. Jei modelis geras, tai šios reikšmės skiriasi
mažai.
5. Galima patikrinti ir su prognozės tikslumo
kriterijais (MAPE, RMSE ir pan.)
© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 75

25
> accuracy(mod)
ME RMSE MAE MPE MAPE MASE
Training set 0 0.24725 0.212182 -0.05943384 2.088013 0.7460546

> macro$fitted <- mod$fitted.values


> ggplot(macro, aes(Laikas)) +
+ geom_line(aes(y = logBVP, colour = "logBVP")) +
+ geom_line(aes(y = fitted, colour = "fitted"))

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 76

Determinacijos koeficientas

SSR
R2 
SST
variacija paaiškinam a modelio
R2 
visa variacija
© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 77

Kuo R2 arčiau 1, tuo modelis geresnis.


Mažiau už 0,20 - nelabai gerai

Jeigu stebėjimų yra nedaug, o x-ų daug,


tai R2 yra didelis, nors regresijos modelis
gali visai netikti.
Todėl, tuo atveju geriau naudoti koreguotą
R2
n -1
2
R adj  1 (1 - R 2 )
n - k -1
© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 78

26
Daugialypės koreliacijos koeficientas

R  R2
Parodo, kaip Y priklauso nuo visų X-ų.
Neparodo ar visi X-ai reikalingi.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 79

Pavyzdys su R: r kvadratas
> summary(mod)

Call:
lm(formula = logBVP ~ logEm + Unemp, data = macro)

Residuals:
Min 1Q Median 3Q Max
-0.5650 -0.2220 0.1032 0.1806 0.3215

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.11361 1.93541 2.642 0.0193 *
logEm 0.52208 0.18509 2.821 0.0136 *
Unemp -0.03873 0.01686 -2.297 0.0375 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2725 on 14 degrees of freedom


Multiple R-squared: 0.4535, Adjusted R-squared: 0.3755
F-statistic: 5.81 on 2 and 14 DF, p-value: 0.01455

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 80

ANOVA lentelė:

Tikrina hipotezę:
H0: visi bm = 0
H1: ne visi bm = 0.
Kitais žodžiais:
H0: y nuo x-ų nepriklauso
H1: y nuo x-ų priklauso.
Tik nežinome nuo kurių x-ų.
© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 81

27
Statistinės išvados
su p- reikšme:
H0 atmetame (tiesinė regresija galbūt tinka), jei
p<α
H0 neatmetame (tiesinė regresija netinka), jei
p >= α
Čia α - reikšmingumo lygmuo

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 82

Pavyzdys su R: ANOVA
> summary(mod)

Call:
lm(formula = logBVP ~ logEm + Unemp, data = macro)

Residuals:
Min 1Q Median 3Q Max
-0.5650 -0.2220 0.1032 0.1806 0.3215

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.11361 1.93541 2.642 0.0193 *
logEm 0.52208 0.18509 2.821 0.0136 *
Unemp -0.03873 0.01686 -2.297 0.0375 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2725 on 14 degrees of freedom


Multiple R-squared: 0.4535, Adjusted R-squared: 0.3755
F-statistic: 5.81 on 2 and 14 DF, p-value: 0.01455

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 83

t-testai koeficientams bm

Ieškome nesvarbių x-ų.


Tikrina hipotezę:
H0 : b m = 0
H1 : b m = 0
Jei nulinės hipotezės neatmetame-tai kintamasis
‘įtartinas’ (modelyje galbūt nereikalingas).

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 84

28
Statistinės išvados
su p- reikšme:
H0 atmetame (kintamasis modeliui tinka), jei
p<α
H0 neatmetame (kintamasis ‘įtartinas’), jei

p >= α

Čia α - reikšmingumo lygmuo

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 85

Pavyzdys su R: t-testai
> summary(mod)

Call:
lm(formula = logBVP ~ logEm + Unemp, data = macro)

Residuals:
Min 1Q Median 3Q Max
-0.5650 -0.2220 0.1032 0.1806 0.3215

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.11361 1.93541 2.642 0.0193 *
logEm 0.52208 0.18509 2.821 0.0136 *
Unemp -0.03873 0.01686 -2.297 0.0375 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2725 on 14 degrees of freedom


Multiple R-squared: 0.4535, Adjusted R-squared: 0.3755
F-statistic: 5.81 on 2 and 14 DF, p-value: 0.01455

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 86

Ką daryti su ‘įtartinais’
kintamaisiais?
1. pakartojame regresijos modelį be ‘įtartino’
kintamojo.
2. jei R2 reikšmė nedaug sumažėjo, kintamąjį
iš modelio pašaliname,
3. jei R2 reikšmė daug sumažėjo, kintamąjį
modelyje paliekame.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 87

29
Multikolinearumas

1. Tai situacija, kai tarp x-ų yra stipriai


koreliuojančių.
2. Tada informacija apie vieną x-ų atsispindi
kituose ir šis x-as modelyje nelabai
reikalingas.
3. Modelyje gali atsirasti keistų priklausomybių.
4. Modelio prognozės tampa nestabilios
(papildomas stebėjimas gali labai pakeisti
regresijos funkciją).
© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 88

Multikolinearumas

X1 X2 X3

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 89

Kaip nustatyti multikolinearumą:

1. Tikriname ar dispersijos mažėjimo


daugiklis (VIF) nėra didelis.
2. Blogai, kai VIF>4.
3. Kartais VIF būna ir mažesnis, bet
regresijos lygtis atrodo ‘keistai’.
4. Patarimas: Pasiskaičiuoti ir atskirų x-ų
bei y koreliacijas.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 90

30
Pavyzdys su R: modelis
> car::vif(mod)
logEm Unemp
Multikolinearumo
1.020853 1.020853 problemos nėra

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 91

Beta koeficientai
Standartizuoti koeficientai, kurie parodo
modelio koeficientų svarbumą.

> lm.beta::lm.beta(mod)

Call:
lm(formula = logBVP ~ logEm + Unemp, data = macro)

Standardized Coefficients::
(Intercept) logEm Unemp
0.0000000 0.5630704 -0.4585895

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 92

Pseudokintamieji

1. Nors šiaip visi X-ai turi būti intervaliniai,


kartais į modelį įtraukiamas ir kategorinis
kintamasis.
2. Taip daroma, jei mažoka duomenų ir
manome, kad visoms kategorijoms
regresijos funkcija skiriasi tik per
konstantą.
3. Kintamasis vadinamas pseudokintamuoju
ir specialiai koduojamas.
© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 93

31
Pvz., manome, kad buto ploto ir kainos
priklausomybė dviejuose rajonuose yra maždaug
vienoda, tik yra rajono antkainis.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 94

Pseudokintamųjų kodavimas:

1. Jei kintamasis dvireikšmis, jo reikšmes


koduojame 0 ir 1.
2. Jei kintamasis trireikšmis, tai įtraukiame
du pseudokintamuosius- abu įgyja tik
dvi reikšmes 0 ir 1.
3. pvz. 0 ir 0 atitiks pirmą rajoną, 0 ir 1
atitiks antrą rajoną, o 1 ir 0 - trečią.
4. pseudokintamųjų vienu mažiau, nei
reikšmių.
© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 95

Pseudokintamųjų naudojimas

1. Regresijos funkciją konkrečiai kategorijai


gaunama iš bendrosios funkcijos
įstačius pseudokintamojo reikšmę.
2. Pvz.Kaina= 20+1.2 * plotas+ 5 * pseudo
3. bus Kaina=25+ 1.2 * plotas, vienam
rajonui ir
4. Kaina=20+ 1.2 * plotas, kitam rajonui.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 96

32
Standartinis tyrimas:

1. R2 , ANOVA, t-testai, VIF ir grafikai


padės nustatyti reikalingus X-us.
2. R parodys, kaip Y priklauso nuo visų X-
ų iškart.
3. B-koeficientai padės sudaryti regresijos
funkciją.
4. Beta-koeficientai padės nustatyti, kurie
kintamieji svarbesni.
© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 97

Tiesinė regresija su laiko


eilutėmis

R kodas: testai
> library(lmtest)
> shapiro.test(mod$res)

Shapiro-Wilk normality test

data: mod$res
W = 0.92977, p-value = 0.2157

> bptest(mod)

studentized Breusch-Pagan test

data: mod
BP = 1.4528, df = 2, p-value = 0.4837

> bgtest(mod)

Breusch-Godfrey test for serial correlation of order up to 1

data: mod
LM test = 10.448, df = 1, p-value = 0.001228

© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 99

33
Pastabos:

1. Kai priklausomybė netiesinė dažnai


naudojamos transformacijos (pvz. X2
pažymime nauju kintamuoju X-u).
2. Yra ir specialus regresijos metodas -
žingsninė regresija (step-wise), kai
kintamieji įtraukiami į funkcijos lygtį po
vieną, atsisakant mažai įtakingų.

© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 100

34

You might also like