Professional Documents
Culture Documents
6 Dalis - Koreliacija Ir Regresija
6 Dalis - Koreliacija Ir Regresija
Kovariacija ir
koreliacija
ATSITIKTINIŲ DYDŽIŲ TIESINĖS
PRIKLAUSOMYBĖS MATAI
A.d. X ir Y kovariacija
1
A.d. X ir Y kovariacija
cov(X, Y) 0
visada
cov(X, Y) DXDY
© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 4
Kovariacijos trūkumai
A.d. X ir Y koreliacijos
koeficientas
2
Koreliacijos koeficiento savybės
(aX b, Y) (X, Y)
• Koreliacijos koeficientas yra skaičius tarp -1 ir 1:
1 (X, Y) 1
koeficientas (X,Y)= 1 tada ir tik tada,
• Koreliacijos
kai egzistuoja konstantos a =0 ir b tokios, kad
Y=aX+b.
Tiesinė priklausomybė
3
Netiesinė priklausomybė
Empirinė
kovariacija ir
koreliacija
Koreliacijos koeficiento
formulė
4
Savybės
Koreliacija
Pavyzdys
0.01 0.66
4
4
2
2
0
0
y
-2
-2
-4
-4
-10 -5 0 5 10 -10 -5 0 5 10
x x
-0.45 -0.67
4
4
2
2
0
0
y
y
-2
-2
-4
-4
-10 -5 0 5 10 -5 0 5 10
x x
5
Koreliacija ir
priežastingumas
Pavyzdys
1. Svirplio čirškėjimas smarkiai susijęs su oro
temperatūra;
2. Kai šalta svirpliai mažiau čirškia;
3. Kai karšta jie čirškia daugiau.
4. Statistiniais terminais: svirplio čirškimas ir
temperatūra turi stiprią teigiamą
koreliaciją.
Pavyzdys
1. Dažnai randama koreliacija tarp nusikaltimų
skaičiaus vienam asmeniui ir policijos
pareigūnų skaičiaus toje teritorijoje.
2. Nusikaltimų skaičius mažėja, kai daugiau
pareigūnų patruliuoja ir didėja, kai
pareigūnų būna mažiau.
3. Statistiniais terminais, policijos pareigūnų
skaičius ir nusikaltimų skaičius turi stiprią
neigiamą koreliacija.
© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 18
6
Pavyzdys
1. Ledų suvartojimas (kg vienam asmeniui) ir
žmogžudysčių skaičius Niujorke yra teigiamai
koreliuoti dydžiai.
2. T.y., ledų kiekis parduotas vienam asmeniui didina
žmogžudysčių skaičių.
3. Keista bet tiesa!
4. Bet koreliacija nepaaiškina kodėl ir kaip atsiranda
sąryšis, ji tik pasako ar jis yra, ar jo nėra.
Priežastingumas
1. Priežastingumas pasako, ar x įtakoja y.
2. Koreliacija to nepasako.
3. Per dažnai tyrimuose, spaudoje, politikoje
koreliacija yra interpretuojama kaip
priežastingumas, dėl ko gaunamos
neteisingos išvados.
Koreliacija ir priežastingumas
7
X Y
X Y
X Y Z
8
Y
X
Z
Klaidinga koreliacija
Šaltinis:
http://www.ty
lervigen.com/
spurious-
correlations
© V. ČEKANAVIČIUS, G. MURAUSKAS, J. MARKEVIČIŪTĖ 26
Klaidinga koreliacija
9
Klaidinga koreliacija
Hipotezė apie
koreliacijos
koeficiento lygybę
nuliui
AR DU KINTAMIEJI KORELIUOJA
© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
29
MARKEVIČIŪTĖ
Pavyzdžiai
© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
30
MARKEVIČIŪTĖ
10
Duomenys
Statistinė hipotezė:
H 0 : ρ 0
H1 : ρ 0
© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
32
MARKEVIČIŪTĖ
Kriterijaus statistika
T r (n - 2) (1 r 2 )
Čia r koreliacijos koeficiento realizacija.
© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
33
MARKEVIČIŪTĖ
11
Sprendimo priėmimas
© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
34
MARKEVIČIŪTĖ
Pastabos
• kuo koreliacijos koeficientas toliau nuo nulio
(absoliutiniu didumu didesnis), tuo koreliacija stipresnė.
• 0,3 (-0,3) – silpna koreliacija; 0,7 (-0,7) stipri.
• Koreliacijos koeficiento ženklas parodo kaip koreliuoja:
• teigiamas- vienam kintamajam didėjant, kitas irgi
didėja.
• neigiamas – vienam didėjant, kitas mažėja.
• Koreliacija dar nereiškia priežastingumo!
© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
35
MARKEVIČIŪTĖ
Sprendimo taisyklės
H0 : ρ 0
H1 H1 priimame
ρ0 T t α2 ( n 2)
ρ0 T t α ( n 2)
ρ0 T t α ( n 2)
© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
36
MARKEVIČIŪTĖ
12
Statistinė išvada su p - reikšme
H0 atmetame (kintamieji stat. reikšmingai
koreliuoja, jei
p α
H0 neatmetame (kintamieji stat. reikšm.
nekoreliuoja), jei
p α
Čia a- reikšmingumo lygmuo
© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
37
MARKEVIČIŪTĖ
Pavyzdys
© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
38
MARKEVIČIŪTĖ
Pavyzdys
Hipotezė: H 0 : ρ 0
H1 : ρ 0
Statistika: 15 2
T 0.183 0.67
1 0.1832
© V.ČEKANAVIČIUS, G.MURAUSKAS, J.
39
MARKEVIČIŪTĖ
13
R kodas
> library(Ecdat)
> data(Bwages)
> head(Bwages)
wage educ exper sex
1 7.780208 1 23 <NA>
2 4.818505 1 15 <NA>
3 10.563645 1 31 <NA>
4 7.042429 1 32 <NA>
5 7.887521 1 9 <NA>
6 8.200058 1 15 <NA>
> cor.test(Bwages$wage, Bwages$exper)
Tiesinė
regresija
14
PAVYZDŽIAI
PAVYZDŽIAI
15
Pavyzdys:
Valio!!!
Pelnas padidės!
pajamos
išlaidos reklamai
Vaje!!!
Pelnas sumažės!
pajamos
išlaidos reklamai
16
Regresija tinka prognozėms.
Pavyzdžiai:
1. nustatyti ūgio ir svorio priklausomybę,
2. nustatyti faktorius, kurie įtakoja mokesčių
slėpimą,
3. nustatyti nusikaltimų skaičiaus ir gyventojų
tankumo priklausomybę
4. prognozuoti kiek skirti pinigų 100 eurų
išmokoms į darželius.
© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 49
Duomenys
MODELIS
Y 0 1X1 ... n X n e
1. Y priklauso nuo stebimų X-ų ir
nuo dar kažkokių nestebimų
dalykų e.
2. e – atsitiktinis dydis (normalus) su
0 vidurkiu ir nežinoma dispersija
(baltas triukšmas)
© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 51
17
Visi kintamieji intervaliniai*.
* išskyrus pseudokintamuosius .
X-ai vienas kito neveikia,
X-ai veikia Y-ą.
vieno X-o per kitus neišreikši.
Modelis grafiškai
Y e
X1 X2 X3
Parametrų vertinimas
18
Liekamoji paklaida
y(x) = b0 + b1 x
19
Pavyzdys
Šaltinis:
http://www.sthda.com/english/ar
ticles/40-regression-
analysis/167-simple-linear-
regression-in-r/
Matricinis pavidalas
20
Pvz., keramikos aukcione kaina:
kaina = 1000+
4*Metai+ 200*Dalyviai
Prognozavimas
Pavyzdys su R: Duomenys
> macro <- read.csv2("Macro.csv")
> macro
Laikas Emigrantai BVP Unemp
1 2001 27841 14194.5 17.4
2 2002 16719 15202.2 13.8
3 2003 26283 16668.5 12.4
4 2004 37691 18237.7 10.9
5 2005 57885 21002.4 8.3
6 2006 32390 24079.2 5.8
7 2007 30383 29040.7 4.2
21
Pavyzdys su R: modelis
> summary(mod)
Call:
lm(formula = logBVP ~ logEm + Unemp, data = macro)
Residuals:
Min 1Q Median 3Q Max
-0.5650 -0.2220 0.1032 0.1806 0.3215
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.11361 1.93541 2.642 0.0193 *
logEm 0.52208 0.18509 2.821 0.0136 *
Unemp -0.03873 0.01686 -2.297 0.0375 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Modelio suderinamumas su
duomenimis
a) išskirčių nustatymą;
b) sklaidos diagramų analizę.
22
Išskirtys yra dviejų tipų:
išsiskiriančios Xm reikšmės,
išsiskiriančios ym reikšmės.
Kenksminga išskirtis:
Nekenksminga išskirtis:
23
Išskirčių atsiradimo priežastys:
1. Dažniausiai - duomenų vedimo klaida.
2. Pašalinio kintamojo įtaka (pvz. metinė
visaliaudinė šventė).
3. Žinant išskirties atsiradimo priežastis,
dažnai tą stebėjimą galima pašalinti.
4. Negalima stebėjimo šalinti tik todėl,
kad jis išskirtis!!!
plot(mod)
24
Sklaidos diagramos
plot(mod)
25
> accuracy(mod)
ME RMSE MAE MPE MAPE MASE
Training set 0 0.24725 0.212182 -0.05943384 2.088013 0.7460546
Determinacijos koeficientas
SSR
R2
SST
variacija paaiškinam a modelio
R2
visa variacija
© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 77
26
Daugialypės koreliacijos koeficientas
R R2
Parodo, kaip Y priklauso nuo visų X-ų.
Neparodo ar visi X-ai reikalingi.
Pavyzdys su R: r kvadratas
> summary(mod)
Call:
lm(formula = logBVP ~ logEm + Unemp, data = macro)
Residuals:
Min 1Q Median 3Q Max
-0.5650 -0.2220 0.1032 0.1806 0.3215
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.11361 1.93541 2.642 0.0193 *
logEm 0.52208 0.18509 2.821 0.0136 *
Unemp -0.03873 0.01686 -2.297 0.0375 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
ANOVA lentelė:
Tikrina hipotezę:
H0: visi bm = 0
H1: ne visi bm = 0.
Kitais žodžiais:
H0: y nuo x-ų nepriklauso
H1: y nuo x-ų priklauso.
Tik nežinome nuo kurių x-ų.
© V.ČEKANAVIČIUS, G.MURAUSKAS, J. MARKEVIČIŪTĖ 81
27
Statistinės išvados
su p- reikšme:
H0 atmetame (tiesinė regresija galbūt tinka), jei
p<α
H0 neatmetame (tiesinė regresija netinka), jei
p >= α
Čia α - reikšmingumo lygmuo
Pavyzdys su R: ANOVA
> summary(mod)
Call:
lm(formula = logBVP ~ logEm + Unemp, data = macro)
Residuals:
Min 1Q Median 3Q Max
-0.5650 -0.2220 0.1032 0.1806 0.3215
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.11361 1.93541 2.642 0.0193 *
logEm 0.52208 0.18509 2.821 0.0136 *
Unemp -0.03873 0.01686 -2.297 0.0375 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
t-testai koeficientams bm
28
Statistinės išvados
su p- reikšme:
H0 atmetame (kintamasis modeliui tinka), jei
p<α
H0 neatmetame (kintamasis ‘įtartinas’), jei
p >= α
Pavyzdys su R: t-testai
> summary(mod)
Call:
lm(formula = logBVP ~ logEm + Unemp, data = macro)
Residuals:
Min 1Q Median 3Q Max
-0.5650 -0.2220 0.1032 0.1806 0.3215
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.11361 1.93541 2.642 0.0193 *
logEm 0.52208 0.18509 2.821 0.0136 *
Unemp -0.03873 0.01686 -2.297 0.0375 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Ką daryti su ‘įtartinais’
kintamaisiais?
1. pakartojame regresijos modelį be ‘įtartino’
kintamojo.
2. jei R2 reikšmė nedaug sumažėjo, kintamąjį
iš modelio pašaliname,
3. jei R2 reikšmė daug sumažėjo, kintamąjį
modelyje paliekame.
29
Multikolinearumas
Multikolinearumas
X1 X2 X3
30
Pavyzdys su R: modelis
> car::vif(mod)
logEm Unemp
Multikolinearumo
1.020853 1.020853 problemos nėra
Beta koeficientai
Standartizuoti koeficientai, kurie parodo
modelio koeficientų svarbumą.
> lm.beta::lm.beta(mod)
Call:
lm(formula = logBVP ~ logEm + Unemp, data = macro)
Standardized Coefficients::
(Intercept) logEm Unemp
0.0000000 0.5630704 -0.4585895
Pseudokintamieji
31
Pvz., manome, kad buto ploto ir kainos
priklausomybė dviejuose rajonuose yra maždaug
vienoda, tik yra rajono antkainis.
Pseudokintamųjų kodavimas:
Pseudokintamųjų naudojimas
32
Standartinis tyrimas:
R kodas: testai
> library(lmtest)
> shapiro.test(mod$res)
data: mod$res
W = 0.92977, p-value = 0.2157
> bptest(mod)
data: mod
BP = 1.4528, df = 2, p-value = 0.4837
> bgtest(mod)
data: mod
LM test = 10.448, df = 1, p-value = 0.001228
33
Pastabos:
34