Professional Documents
Culture Documents
Log Reg SPSS
Log Reg SPSS
REGRESIJA
Logistic Regression
© V. Čekanavičius, G. Murauskas 1
TRUMPAI
© V. Čekanavičius, G. Murauskas 3
KINTAMIEJI
z(x)
e
P(Y 1) ;
z(x)
1 e
čia
P(Y 1)
ln z(x);
P(Y 0)
čia
© V. Čekanavičius, G. Murauskas 7
Šiek tiek terminų
Tikimybių santykis
P(Y 1)
1 - P(Y 1)
vadinamas įvykio Y = 1 galimybe (odds).
© V.Čekanavičius, G.Murauskas 8
Galimybių santykis
© V. Čekanavičius, G. Murauskas 9
Logistinės regresijos pavyzdys
© V. Čekanavičius, G. Murauskas 10
Duomenys
Temperatūra Vėţliukai Vėţliukės
27,2 C0 2 25
27,7 C0 17 7
28,3 C0 26 4
28,4 C0 19 8
28,9 C0 27 1
© V. Čekanavičius, G. Murauskas 11
LOGISTINĖ REGRESIJA
naudojant SPSS programą
© V. Čekanavičius, G. Murauskas 12
Duomenų įvedimas
© V. Čekanavičius, G. Murauskas 13
Duomenys atrodo taip
© V. Čekanavičius, G. Murauskas 14
Nepamirštame pasverti
© V. Čekanavičius, G. Murauskas 15
Logistinę regresiją SPSS programa
galima atlikti dviem būdais
• Naudojantis parinktimi Binary logistic.
• Nagrinėjant kaip atskirą GLM atvejį.
© V. Čekanavičius, G. Murauskas 16
PROCEDŪRA
BINARY LOGISTIC
SPSS programa
© V. Čekanavičius, G. Murauskas 17
Logistinė regresija su Binary Logistic
...
Čia
© V. Čekanavičius, G. Murauskas 18
Logistinė regresija su Binary Logistic
Priklausomas
...
Aiškinamasis Po to čia
© V. Čekanavičius, G. Murauskas 19
Logistinė regresija su Binary Logistic
...
Varnelė
Po to čia
© V. Čekanavičius, G. Murauskas 20
Logistinė regresija su Binary Logistic
...
Po to čia
© V. Čekanavičius, G. Murauskas 21
Svarbi pastaba
...Jeigu turėtume kategorinių kintamųjų, tai juos
įtrauktume į Covariates ir į Categorical. SPSS
automatiškai kiekvieną kategorinį kintamąjį
modelyje pakeis reikiamu kiekiu dvireikšmių
pseudokintamųjų.
Po to čia
Reikėtų įkelti
čia
© V. Čekanavičius, G. Murauskas 22
Logistinė regresija su Binary Logistic
Original
Value Internal Value
mot 0
vyr 1
Classification Tablea
Prognozė
Duomenys Predicted
Lytis
Percentage
Observed mot vyr Correct
Step 1 Lytis
mot 32 13 71,1
vyr 19 72 79,1
Overall Percentage
76,5
a. The cut value is ,500
teisinga prognozė
Teisinga
© V. Čekanavičius, G. Murauskas 24
Klasifikavimo lentelė
Classification Tablea
Predicted
Lytis
Percentage
Observed mot vyr Correct
Step 1 Lytis
mot 32 13 71,1
vyr 19 72 79,1
Overall Percentage
76,5
a. The cut value is ,500
teisinga prognozė
Klaidos
© V. Čekanavičius, G. Murauskas 25
Klasifikavimo lentelė
Classification Tablea
Predicted
Lytis
Percentage
Observed mot vyr Correct
Step 1 Lytis
mot 32 13 71,1
vyr 19 72 79,1
Overall Percentage
76,5
a. The cut value is ,500
Teisingų prognozių
procentai
© V. Čekanavičius, G. Murauskas 26
Išvados, žvelgiant į klasifikavimo lentelę
© V. Čekanavičius, G. Murauskas 28
kriterijus
2
• Tikrina hipotezę:
H0: visi m = 0,
H1: ne visi m = 0.
• Kitais ţodţiais:
H0: Y nepriklauso nuo x,
H1: Y priklauso nuo x.
• Tik neţinome, nuo kurių x.
© V. Čekanavičius, G. Murauskas 29
Statistinės išvados
atsiţvelgiant į p reikšmę
H0 atmetame (logistinė regresija galbūt
tinka), jei
p<
H0 neatmetame (logistinė regresija
netinka), jei
p >=
Čia – reikšmingumo lygmuo.
© V. Čekanavičius, G. Murauskas 30
kriterijus
2
Chi-square df Sig.
Step 1 Step 49,566 1 ,000
© V. Čekanavičius, G. Murauskas 31
Hosmerio - Lemešou kriterijus
2
© V. Čekanavičius, G. Murauskas 32
Hosmerio - Lemešou kriterijus
2
© V. Čekanavičius, G. Murauskas 33
PASTABA
Taikant 2 ir Hosmerio - Lemešou kriterijus
gautos visiškai priešingos išvados apie
modelio tinkamumą. Šiuo atveju, ko gero
labiau reikėtų tikėti Hosmerio - Lemešou
kriterijumi, nes duomenų nėra daug ir p
reikšmė netapo maţa vien dėl labai didelės
imties.
Taigi modelis nėra labai tinkamas duomenims.
Vis dėlto nekeisdami modelio aptarsime ir
kitus rodiklius.
© V. Čekanavičius, G. Murauskas 34
Voldo testai koeficientams m
© V. Čekanavičius, G. Murauskas 35
Statistinės išvados, atsiţvelgiant
į p reikšmę
H0 atmetame (kintamasis modeliui tinka),
jei
p < .
H0 neatmetame (kintamasis „ įtartinas“ , jei
p >= .
© V. Čekanavičius, G. Murauskas 38
Parametrų įverčiai SPSS
ˆ 61,32 ˆ1 2,21
© V. Čekanavičius, G. Murauskas 39
Prognozavimas
© V. Čekanavičius, G. Murauskas 40
Prognozavimas
ẑ(x)
e
P̂(Y 1) .
ẑ(x)
1 e
© V. Čekanavičius, G. Murauskas 41
Prognozavimo pavyzdys
Kai temperatūra yra 27,5 C0, tai
e - 0,545
P̂(Y 1) 0,367.
1 e - 0,545
© V. Čekanavičius, G. Murauskas 42
Prognozavimo pavyzdys
Ţinome, kad Y=1 atitinka teiginį
išsiris vėžliukas. Todėl gautąjį
rezultatą interpretuojame taip:
esant 27,5 C0 temperatūrai,
tikimybės išsiristi vėţliukui įvertis
yra 0,367. Tikimybė išsiristi
vėţliukei lygi 1- 0,367 = 0,633.
© V. Čekanavičius, G. Murauskas 43
Galimybės įvertis
Apskaičiuojame
P̂(Y 1) 0,367
0,58.
1 - P̂(Y 1) 0,633
Darome išvadą, kad esant 27,5 C0
temperatūrai beveik dukart tikėtiniau, kad
išsiris vėţliukė nei vėţliukas (tiksliau
100/58 karto tikėtiniau).
© V. Čekanavičius, G. Murauskas 44
Galimybių santykis
Daugiklis Exp(2,211) = 9,125 rodo,
kaip keičiasi galimybių santykis,
temperatūrai pakilus vienu laipsniu.
© V.Čekanavičius, G.Murauskas 45
Galimybių santykis
Galimybių santykį Exp(2,211) =9,125
interpretuojame taip: temperatūrai
padidėjus vienu laipsniu, galimybė
išsiristi vėţliukui padidėja 9,125
karto.
© V.Čekanavičius, G.Murauskas 47
Determinacijos koeficientai
© V. Čekanavičius, G. Murauskas 49
Rodikliai
Išrikiuokime modelio tinkamumą
atspindinčius rodiklius pagal svarbą:
• Klasifikavimo lentelė.
• 2 kriterijus ir Hosmerio - Lemešou
kriterijus.
• Voldo kriterijus „įtartiniems“
aiškinamiesiems kintamiesiems rasti.
• Determinacijos koeficientai.
© V. Čekanavičius, G. Murauskas 50
PASTABA
© V. Čekanavičius, G. Murauskas 51
GLM PROCEDŪRA
SPSS programa
© V. Čekanavičius, G. Murauskas 52
GLM – Generalized Linear Model
...
Čia
© V. Čekanavičius, G. Murauskas 53
Logistinė regresija su GLM
...
Type of Model
Po to čia
Taškas
© V. Čekanavičius, G. Murauskas 54
Logistinė regresija su GLM
...
Po to čia
Įkeliame priklausomą
kintamąjį
© V. Čekanavičius, G. Murauskas 55
Logistinė regresija su GLM
... Po to čia
Jeigu būtų
kategorinių
aiškinamųjų
kintamųjų
Intervalinis
aiškinamasis
kintamasis
© V. Čekanavičius, G. Murauskas 56
Logistinė regresija su GLM
Po to čia
...
Įkeliame
© V. Čekanavičius, G. Murauskas 57
Logistinė regresija su GLM
...
Paţymėta
pagal nutylėjimą
Papildoma
varnelė
OK
© V. Čekanavičius, G. Murauskas 58
Logistinė regresija su GLM
...Reikšmė Y=1 atitinka įvykį išsirito
vėžliukė. Logistinės regresijos modelis
bus sudarytas tikimybei, kad išsiris
vėţliukė.
Model Information
Dependent Variable Lytisa
Probability Binomial
Distribution
Link Function Logit
© V. Čekanavičius, G. Murauskas 59
Modelio tinkamumas duomenims
Modelis gerai tinka duomenims, jeigu
deviacijos ir laisvės laipsnių santykis
maţesnis uţ vienetą.
Modelis neblogai tinka duomenims, jeigu
deviacijos ir laisvės laipsnių santykis
nedaug viršija vienetą (pvz., lygus 1,2).
Jeigu santykis daug viršija vienetą, modelis
ne itin gerai tinka duomenims.
© V. Čekanavičius, G. Murauskas 60
Modelio tinkamumas duomenims
Modelis ne itin gerai tinka duomenims, nes
deviacijos ir laisvės laipsnių santykis
b
daug didesnis Goodness of Fit
Value df Value/df
uţ vienetą Deviance 14,863 3 4,954
Scaled Deviance 14,863 3
(lygus 4,954). Pearson Chi-Square 14,952 3 4,984
Scaled Pearson Chi- 14,952 3
Square
Log Likelihooda -61,550
Akaike's Information 127,101
Criterion (AIC)
© V. Čekanavičius, G. Murauskas 61
PASTABOS
• Modelį reikėtų tobulinti.
• Viena iš galimų didelės deviacijos priežasčių
yra labai negausus skirtingų Temp reikšmių
skaičius. Jų buvo tik penkios.
• Skaičiuojant laisvės laipsnius, įtakos turi
skirtingų aiškinamųjų kintamųjų reikšmių
skaičius. Įprastinė GLM formulė (n-K-1)
netaikoma.
• Toliau aptarsime likusius rezultatus.
© V. Čekanavičius, G. Murauskas 62
kriterijus
2
© V. Čekanavičius, G. Murauskas 63
Voldo testai SPSS
Kintamojo Temp Voldo kriterijaus p
reikšmė maţa. Kintamasis modelyje
reikalingas.
95% Wald Confidence
Kintamasis Interval Hypothesis Test
(Scale) 1a
© V. Čekanavičius, G. Murauskas 64
Parametrų įverčiai SPSS
ˆ 61,32 ˆ1 2,21
ẑ(x) 61,32 2,21 Temp.
95% Wald Confidence
Interval Hypothesis Test
(Scale) 1a
© V. Čekanavičius, G. Murauskas 65
Pastaba
© V. Čekanavičius, G. Murauskas 66
Prognozavimas
e 0,545
P̂(Y 1) 0,633.
1 e 0,545
© V. Čekanavičius, G. Murauskas 68
Galimybės
Galimybės ir jų santykiai interpretuojami
taip, kaip aptarta nagrinėjant parinkties
Binary Logistic atvejį.
Wald Chi-
Parameter B Std. Error Lower Upper Square df Sig. Exp(B)
(Intercept) 61,318 12,0224 37,755 84,882 26,013 1 ,000 4,268E26
(Scale) 1a
© V. Čekanavičius, G. Murauskas 69
Kiti rodikliai
Determinacijos koeficientų negauname,
tačiau tarp rezultatų yra informaciniai
indeksai (Akaikės ir pan.). Juos galima
naudoti, kai turime daug aiškinamųjų
kintamųjų ir norime dalies jų atsisakyti.
Sudarome naują modelį ir lyginame su
ankstesniuoju. Geresnis tas modelis, kurio
informaciniai indeksai maţesni.
© V. Čekanavičius, G. Murauskas 70
Metodinės pastabos
Iš pradţių logistinę regresiją reikėtų daryti
naudojant parinktį Binary Logistic.
Po to dar padaryti ją kaip GLM atskirą atvejį
ir patikrinti, ar deviacijos ir jos laisvės
laipsnių santykis daug neviršija vieneto.
© V. Čekanavičius, G. Murauskas 71