Tobbv Ea9 Logregresszio

Többváltozós adatelemzés
9. előadás
‘Dummy dependent regression’
• Eredeményváltozó egy dummy váltzó (0/1
értékekkel)
• Magyarázó változók hasonlóak, mint
lineáris regresszió esetében (folytonos
vagy dummy változó)
• Logisztikus regresszió (logit)
• Probit
• Tobin féle regresszió (vegyes)
Logisztikus regresszió
• A magyarázó változók meghatározzák a
bekövetkezés valószínűségét (p)
• A bekövetkezés valószínűségére nem
lehet regressziót illeszteni, mert értékei 0
és 1 között vannak, a becsült
valószínűségek kilógnának ebből az
intervallumból.
• Nem mindegy, hogy a valószínűség 1%-
ról 2%-ra válotzik, vagy 49%-ról 50%-ra
• Odds: p/(1-p)
– Értékei 0 és végtelen között lehetnek
• Ln odds: ln[ p/(1-p) ]
– Értékei a teljes számegyenesen előfordulnak
• Az ‘ln odds’ értékekre építünk regressziós
modellt:
• ln odds =b0+b1*x1+b2*x2+…+bn*xn+e
Becsült együtthatók értelmezése
• b0,b1,b2,…,bn becsült együtthatók
segítségével megkapható az
eredményváltozó bekövetkeztének a
valószínűsége:
ln ( p/(1-p) )= b0+b1*x1+b2*x2+…+bn*xn=
= Σbi*xi
p/ (1-p) = exp(Σbi*xi)
p = exp(Σbi*xi) / ( 1+exp(Σbi*xi) )
Becsült együtthatók értelmezése
• Az eredményváltozó bekövetkezésének
valószínűségét ha vizsgáljuk, egy-egy
változó hatása nem lokalizálható. A
válzotás nemcsak a vizsált változótól függ,
hanem a többi változótól is.
• Az ‘ln odds’-abn bekövetkezett változás
nem követhető.
• Köztes megoldás az odds-ra felírt
összefüggés:
• P / (1-p) =exp(Σbi*xi)
Paraméterbecslés
• Feladatunk a b0,b1,b2,…,bn együtthatók
értékének megbecslése.
• Az eredményváltozónak csak realizációi
állnak rendelkezése (0 vagy 1 értékek)
• Az ‘ln odds’ transzformáció nem működik
ezekre az értékekre:
– ln (0/1)=ln(0) nem értelmezett
– ln (1/0) nem értelmezett
Paraméterbecslés
• Maximum likelihood függvény:
– L(b0,b1,b2,…,bn)=
Π exp[ (Σb *x )/(1+ Σb *x ) ]^

i ij i ij
(yi)
*
exp[1/(1+ Σbi*xij)]^(1-y )i
• A maximum likelihood függvény

maximumát kell megkeresni
• Nincs rá zárt alak
Paraméterbecslés
• A paraméterbeslés numerikus eljárással
történik.
• A maximum likelihood függvény jól
viselkedő függvény (konkáv), aminek a
maximumát könnyen meg lehet találni (pl.:
Newton-Raphson módszer)
Paraméterek értelmezése
0,9
0,8
0,7
0,6
0,5
0,4
0,3
S19
S16 0,2
S13 0,1
S10 0
21
S7
19
17
15
S4
13
11
9
7
S1
5
3
1
• A valószínűségek szintvonalai egyenesek,
ha nincsenek négyzetes tagok a
modellben
Négyzetes tag -x
0,9
0,8
0,7
0,6
0,5
0,4
19
0,3
16
0,2
0,1 13
0 10
S21
S19
7
S17
S15
S13
4
S11
S9
S7
1
S5
S3
S1
Négyzetes tag –x,y
0,9
0,8
0,7
0,6
0,5
0,4
19
0,3
16
0,2
0,1 13
0 10
S21
S19
7
S17
S15
S13
4
S11
S9
S7
1
S5
S3
S1
Keresztszorzat
0,9
0,8
0,7
0,6
0,5
0,4
0,3
S19
S16 0,2
S13 0,1
S10 0
21
S7
19
17
15
S4
13
11
9
7
S1
5
3
1
Variables in the Equation
B S.E. Wald df Sig. Exp(B)

Step
a
tancsop_normal ,035 ,012 9,076 1 ,003 1,036
1 tancsop_gyogyped -,012 ,043 ,082 1 ,775 ,988
tancsop_kiscsop ,041 ,061 ,442 1 ,506 1,041
tancsop_cigany ,026 ,029 ,794 1 ,373 1,026
tancsop_nemzet ,098 ,028 12,136 1 ,000 1,103
tancsop_ketnyelv ,129 ,081 2,504 1 ,114 1,138
tancsop_emelt ,029 ,019 2,356 1 ,125 1,030
tancsop_gimn8 ,002 ,048 ,002 1 ,961 1,002
tancsop_gimn6 ,079 ,058 1,849 1 ,174 1,082
tancsop_gimn4 ,014 ,030 ,219 1 ,640 1,014
tancsop_szakisk ,036 ,034 1,091 1 ,296 1,036
tancsop_vilagbank ,073 ,034 4,589 1 ,032 1,076
tancsop_szakmunk_
,005 ,067 ,006 1 ,940 1,005
szakisk
tancsop_techn ,072 ,080 ,813 1 ,367 1,075
tancsop_eretts_utani ,063 ,079 ,625 1 ,429 1,065
tancsop_hagy_szakmunk ,017 ,038 ,196 1 ,658 1,017
tancsop_felzark_szakisk -,099 ,160 ,387 1 ,534 ,905
tancsop_alt_szakisk ,010 ,035 ,087 1 ,768 1,010
tancsop_eretts_utani2 ,259 ,112 5,362 1 ,021 1,295
Constant -1,348 ,166 66,093 1 ,000 ,260
a. Variable(s) entered on step 1: tancsop_normal, tancsop_gyogyped, tancsop_kiscsop, tancsop_cigany,
tancsop_nemzet, tancsop_ketnyelv, tancsop_emelt, tancsop_gimn8, tancsop_gimn6, tancsop_gimn4,
tancsop_szakisk, tancsop_vilagbank, tancsop_szakmunk_szakisk, tancsop_techn, tancsop_eretts_utani,
tancsop_hagy_szakmunk, tancsop_felzark_szakisk, tancsop_alt_szakisk, tancsop_eretts_utani2.
Forward Wald változószelekciós
eljárás

Step
a
1 Constant -,713 ,077 85,791 1 ,000 ,490
Step
b
tancsop_nemzet ,073 ,026 7,733 1 ,005 1,076
2 tancsop_eretts_utani2 ,290 ,105 7,628 1 ,006 1,336
Constant
-,765 ,080 92,215 1 ,000 ,465
Step
c
tancsop_nemzet ,077 ,026 8,512 1 ,004 1,080
3 tancsop_vilagbank ,066 ,027 6,158 1 ,013 1,069
Constant -,816 ,083 97,081 1 ,000 ,442
Step
d
tancsop_normal ,023 ,010 4,939 1 ,026 1,023
4 tancsop_nemzet ,084 ,027 9,719 1 ,002 1,088
Constant -1,045 ,134 60,734 1 ,000 ,352
Step
e
tancsop_normal ,025 ,010 5,995 1 ,014 1,026
5 tancsop_nemzet ,084 ,027 9,555 1 ,002 1,088
Constant -1,090 ,137 63,489 1 ,000 ,336
a. Variable(s) entered on step 1: tancsop_eretts_utani2.
b. Variable(s) entered on step 2: tancsop_nemzet.
c. Variable(s) entered on step 3: tancsop_vilagbank.
d. Variable(s) entered on step 4: tancsop_normal.
e. Variable(s) entered on step 5: tancsop_ketnyelv.

Step
a
tancsop_normal ,025 ,010 5,995 1 ,014 1,026
1 tancsop_nemzet ,084 ,027 9,555 1 ,002 1,088
Constant -1,090 ,137 63,489 1 ,000 ,336
a. Variable(s) entered on step 1: tancsop_normal, tancsop_nemzet, tancsop_ketnyelv, tancsop_
vilagbank, tancsop_eretts_utani2.
Együtthatók tesztelése
• Ugyanúgy történik, mint lineáris regresszió
esetében
Sztenderdizált változók

Step
a
Ztancsop_normal ,198 ,081 5,995 1 ,014 1,219
1 Ztancsop_nemzet ,239 ,077 9,555 1 ,002 1,270
Ztancsop_ketnyelv ,141 ,077 3,403 1 ,065 1,152
Ztancsop_vilagbank ,251 ,081 9,679 1 ,002 1,285
Ztancsop_eretts_utani2 ,249 ,108 5,337 1 ,021 1,283
Constant -,670 ,078 74,739 1 ,000 ,512
a. Variable(s) entered on step 1: Ztancsop_normal, Ztancsop_nemzet, Ztancsop_ketnyelv, Ztancsop_
vilagbank, Ztancsop_eretts_utani2.
Kategória változók

Step
a
tancsop_normal ,025 ,010 5,743 1 ,017 1,025
1 tancsop_nemzet ,089 ,027 10,479 1 ,001 1,093
megyeijv ,597 ,311 3,675 1 ,055 1,816
egyebtel ,150 ,281 ,286 1 ,593 1,162
Constant -1,308 ,289 20,481 1 ,000 ,270
a. Variable(s) entered on step 1: tancsop_normal, tancsop_nemzet, tancsop_ketnyelv, tancsop_
vilagbank, tancsop_eretts_utani2, megyeijv, egyebtel.
Lineáris transzformáció
• A logisztikus regresszió érzéketlen a
lineáris transzformációra – ugyanúgy,
ahogy a lineáris regresszió
Meghatározó megfigyelések
• Leverage values, Cook féle D statisztika
ugyanúgy működik, mint a lineáris
regresszió esetében
Multikollinearitás
• Ugyanúgy probléma, mint lineáris
regresszió esetében, kezelése hasonló
• Tolerancia, VIF, kondíciós index ugyanúgy
működik, mint lineáris regresszió esetében
Illeszkedés jósága
• A hagyományos R2 mutatónak nincs
relevanciája
• Ún. pszeudó R2 mutatók
• Variancia arányként nem értelmezhető,
csak az illeszkedés jóságát mutatja
• Értéke 0 és 1 között van, de nem biztos,
hogy a 0 vagy 1 értéket felveszi
• Cox és Shell féle pszeudó R2:
– 1- [ ( l(0)/l(B) )^( 2/N ) ], ahol l(0) az
alapmodell esetén loglikelihood függvény
értéke, l(B) pedig a végső modell esetén
• Nagelkerke féle pszeudó R2:
– ( 1- [ ( l(0)/l(B) )^( 2/N ) ] ) / [ ( 1-l(0)^(2/N) ) ]
• Vannak más változatok is
Model Summary
-2 Log Cox & Snell Nagelkerke

Step likelihood R Square R Square
1 960,691a ,049 ,068
a. Estimation terminated at iteration number 4 because
parameter estimates changed by less than ,001.
• Kontingencia tábla
– A becsült valószínűségek alapján Yes (1) és
No (0) kategóriákba osztjuk a
megfigyeléseket. A vágás alapesetben a 0,5
értéknél történik
– A ténylegesen Yes (1) értékekkel
rendelkezőket hány esetben klasszifikáljuk
helyesen, illetve a ténylegesen No (0) értékkel
rendelkezőket hány esetben klasszifikáljuk
helyesen
Classification Tablea
Predicted
comeniusI Percentage
Observed ,00 1,00 Correct
Step 1 comeniusI ,00 497 21 95,9
1,00 233 31 11,7
Overall Percentage 67,5
a. The cut value is ,500
• A kontigencia táblában a vágási értéke
0,5-re van állítva alapbeállítások esetén.
• Érdekes megnézni azt az esetet is, amikor
a vágási érték a sokasági arány
Predicted
1,00 5 259 98,1
• Lorenz görbe (nem használatos)
• Rendezzük a megfigyeléseket a becsült
valószínűség szerint növekvő sorrendbe
• Számoljuk ki a következő arányt: ha az
összes megfigyelés α arányát választjuk
be a mintába, akkor a Yes (1) értékeknek
mekkora aránya lesz a mintában?
• Ha véletlenszerűen választunk, akkor az
arány α lesz, ha a becsült értékek alapján,
akkor ez vélhetőleg α-nál nagyobb
• ROC (Receiver Operating Characteristic)
görbe
• Hasonló a Lorenz görbéhez, de a
tengelyeken mást mérünk
– Vizszintes tengely (false positive rate): a
tényleges Yes (1) értékeknek hány százalékát
találja meg a modell
– Függőleges tengely (true positive rate): a
tényleges No (0) értékeknek hány százalékát
mondja Yes-nek
21/ (497+21) = 0,041 – vízszintes tengely
Predicted
1,00 233 31 11,7
31/ (233+31) = 0,117 – függőleges tengely

Area Under the Curve
Test Result Variable(s): Predicted probability

Area
,626
The test result variable(s): Predicted probability has at
least one tie between the positive actual state group and
the negative actual state group. Statistics may be biased.
• Mire akarjuk használni a logisztikus
regresszió eredményét
– Pl.: rangsor készítés: csak a becsült
valószínűségek egymáshoz viszonyított
értéke számít
– Pl.: pénzügyi tervezés: nem annyira a sorrend
a lényeges, hanem az, hogy ha a modell
10%-ot becsül, akkor tényleg 10% legyen a
bekövetkezés valószínűsége
• Képezzünk a becsült valószínűségek
alapján 20 osztályközt, és ellenőrizzük,
hogy minden osztályközben a kalkuláltnak
megfelelő-e a tényleges bekövetkezési
arány
• Hosmer Lemeshow teszt
• Az előbb bemutatott elven osztályközöket
készít, és azt teszteli, hogy a ténylegesen
bekövetkezett események megfelelnek-e a
várakozásoknak
Hosmer and Lemeshow Test
Step Chi-square df Sig.

1 11,302 7 ,126
Contingency Table for Hosmer and Lemeshow Test
comeniusI = ,00 comeniusI = 1,00

Observed Expected Observed Expected Total
Step 1 55 58,313 21 17,687 76
1 2 68 56,991 9 20,009 77
3 119 120,732 48 46,268 167
4 56 56,779 24 23,221 80
5 49 51,985 27 24,015 76
6 47 51,635 31 26,365 78
7 48 49,096 31 29,904 79
8 46 44,051 32 33,949 78
9 30 28,417 41 42,583 71

Tobbv Ea9 Logregresszio

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tobbv Ea9 Logregresszio

Uploaded by

Copyright:

Available Formats

Többváltozós adatelemzés

Π exp[ (Σb x )/(1+ Σb x ) ]^

• A maximum likelihood függvény

B S.E. Wald df Sig. Exp(B)

B S.E. Wald df Sig. Exp(B)

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

-2 Log Cox & Snell Nagelkerke

31/ (233+31) = 0,117 – függőleges tengely

Area Under the Curve

Test Result Variable(s): Predicted probability

Step Chi-square df Sig.

Contingency Table for Hosmer and Lemeshow Test

comeniusI = ,00 comeniusI = 1,00

You might also like