You are on page 1of 42

Többváltozós adatelemzés

9. előadás
‘Dummy dependent regression’
• Eredeményváltozó egy dummy váltzó (0/1
értékekkel)
• Magyarázó változók hasonlóak, mint
lineáris regresszió esetében (folytonos
vagy dummy változó)
• Logisztikus regresszió (logit)
• Probit
• Tobin féle regresszió (vegyes)
Logisztikus regresszió
• A magyarázó változók meghatározzák a
bekövetkezés valószínűségét (p)
• A bekövetkezés valószínűségére nem
lehet regressziót illeszteni, mert értékei 0
és 1 között vannak, a becsült
valószínűségek kilógnának ebből az
intervallumból.
• Nem mindegy, hogy a valószínűség 1%-
ról 2%-ra válotzik, vagy 49%-ról 50%-ra
Logisztikus regresszió
• Odds: p/(1-p)
– Értékei 0 és végtelen között lehetnek
• Ln odds: ln[ p/(1-p) ]
– Értékei a teljes számegyenesen előfordulnak
• Az ‘ln odds’ értékekre építünk regressziós
modellt:
• ln odds =b0+b1*x1+b2*x2+…+bn*xn+e
Becsült együtthatók értelmezése
• b0,b1,b2,…,bn becsült együtthatók
segítségével megkapható az
eredményváltozó bekövetkeztének a
valószínűsége:
ln ( p/(1-p) )= b0+b1*x1+b2*x2+…+bn*xn=
= Σbi*xi
p/ (1-p) = exp(Σbi*xi)
p = exp(Σbi*xi) / ( 1+exp(Σbi*xi) )
Becsült együtthatók értelmezése
• Az eredményváltozó bekövetkezésének
valószínűségét ha vizsgáljuk, egy-egy
változó hatása nem lokalizálható. A
válzotás nemcsak a vizsált változótól függ,
hanem a többi változótól is.
• Az ‘ln odds’-abn bekövetkezett változás
nem követhető.
• Köztes megoldás az odds-ra felírt
összefüggés:
• P / (1-p) =exp(Σbi*xi)
Paraméterbecslés
• Feladatunk a b0,b1,b2,…,bn együtthatók
értékének megbecslése.
• Az eredményváltozónak csak realizációi
állnak rendelkezése (0 vagy 1 értékek)
• Az ‘ln odds’ transzformáció nem működik
ezekre az értékekre:
– ln (0/1)=ln(0) nem értelmezett
– ln (1/0) nem értelmezett
Paraméterbecslés
• Maximum likelihood függvény:
– L(b0,b1,b2,…,bn)=

Π exp[ (Σb *x )/(1+ Σb *x ) ]^


i ij i ij
(yi)
*
exp[1/(1+ Σbi*xij)]^(1-y )i

• A maximum likelihood függvény


maximumát kell megkeresni
• Nincs rá zárt alak
Paraméterbecslés
• A paraméterbeslés numerikus eljárással
történik.
• A maximum likelihood függvény jól
viselkedő függvény (konkáv), aminek a
maximumát könnyen meg lehet találni (pl.:
Newton-Raphson módszer)
Paraméterek értelmezése
Paraméterek értelmezése

0,9

0,8

0,7

0,6

0,5

0,4

0,3
S19
S16 0,2

S13 0,1
S10 0

21
S7

19
17
15

S4
13
11
9
7

S1
5
3
1
Paraméterek értelmezése
• A valószínűségek szintvonalai egyenesek,
ha nincsenek négyzetes tagok a
modellben
Négyzetes tag -x

0,9

0,8

0,7

0,6

0,5

0,4
19
0,3
16
0,2
0,1 13

0 10
S21
S19

7
S17

S15

S13

4
S11

S9

S7

1
S5

S3

S1
Négyzetes tag –x,y

0,9

0,8

0,7

0,6

0,5

0,4
19
0,3
16
0,2
0,1 13

0 10
S21
S19

7
S17

S15

S13

4
S11

S9

S7

1
S5

S3

S1
Keresztszorzat

0,9

0,8

0,7

0,6

0,5

0,4

0,3
S19
S16 0,2

S13 0,1
S10 0

21
S7
19
17
15

S4
13
11
9
7

S1
5
3
1
Logisztikus regresszió
Variables in the Equation

B S.E. Wald df Sig. Exp(B)


Step
a
tancsop_normal ,035 ,012 9,076 1 ,003 1,036
1 tancsop_gyogyped -,012 ,043 ,082 1 ,775 ,988
tancsop_kiscsop ,041 ,061 ,442 1 ,506 1,041
tancsop_cigany ,026 ,029 ,794 1 ,373 1,026
tancsop_nemzet ,098 ,028 12,136 1 ,000 1,103
tancsop_ketnyelv ,129 ,081 2,504 1 ,114 1,138
tancsop_emelt ,029 ,019 2,356 1 ,125 1,030
tancsop_gimn8 ,002 ,048 ,002 1 ,961 1,002
tancsop_gimn6 ,079 ,058 1,849 1 ,174 1,082
tancsop_gimn4 ,014 ,030 ,219 1 ,640 1,014
tancsop_szakisk ,036 ,034 1,091 1 ,296 1,036
tancsop_vilagbank ,073 ,034 4,589 1 ,032 1,076
tancsop_szakmunk_
,005 ,067 ,006 1 ,940 1,005
szakisk
tancsop_techn ,072 ,080 ,813 1 ,367 1,075
tancsop_eretts_utani ,063 ,079 ,625 1 ,429 1,065
tancsop_hagy_szakmunk ,017 ,038 ,196 1 ,658 1,017
tancsop_felzark_szakisk -,099 ,160 ,387 1 ,534 ,905
tancsop_alt_szakisk ,010 ,035 ,087 1 ,768 1,010
tancsop_eretts_utani2 ,259 ,112 5,362 1 ,021 1,295
Constant -1,348 ,166 66,093 1 ,000 ,260
a. Variable(s) entered on step 1: tancsop_normal, tancsop_gyogyped, tancsop_kiscsop, tancsop_cigany,
tancsop_nemzet, tancsop_ketnyelv, tancsop_emelt, tancsop_gimn8, tancsop_gimn6, tancsop_gimn4,
tancsop_szakisk, tancsop_vilagbank, tancsop_szakmunk_szakisk, tancsop_techn, tancsop_eretts_utani,
tancsop_hagy_szakmunk, tancsop_felzark_szakisk, tancsop_alt_szakisk, tancsop_eretts_utani2.
Forward Wald változószelekciós
eljárás
Variables in the Equation

B S.E. Wald df Sig. Exp(B)


Step
a
tancsop_eretts_utani2 ,280 ,104 7,256 1 ,007 1,323
1 Constant -,713 ,077 85,791 1 ,000 ,490
Step
b
tancsop_nemzet ,073 ,026 7,733 1 ,005 1,076
2 tancsop_eretts_utani2 ,290 ,105 7,628 1 ,006 1,336
Constant
-,765 ,080 92,215 1 ,000 ,465

Step
c
tancsop_nemzet ,077 ,026 8,512 1 ,004 1,080
3 tancsop_vilagbank ,066 ,027 6,158 1 ,013 1,069
tancsop_eretts_utani2 ,232 ,104 5,008 1 ,025 1,262
Constant -,816 ,083 97,081 1 ,000 ,442
Step
d
tancsop_normal ,023 ,010 4,939 1 ,026 1,023
4 tancsop_nemzet ,084 ,027 9,719 1 ,002 1,088
tancsop_vilagbank ,086 ,028 9,122 1 ,003 1,089
tancsop_eretts_utani2 ,256 ,108 5,635 1 ,018 1,292
Constant -1,045 ,134 60,734 1 ,000 ,352
Step
e
tancsop_normal ,025 ,010 5,995 1 ,014 1,026
5 tancsop_nemzet ,084 ,027 9,555 1 ,002 1,088
tancsop_ketnyelv ,146 ,079 3,403 1 ,065 1,157
tancsop_vilagbank ,088 ,028 9,679 1 ,002 1,092
tancsop_eretts_utani2 ,250 ,108 5,337 1 ,021 1,285
Constant -1,090 ,137 63,489 1 ,000 ,336
a. Variable(s) entered on step 1: tancsop_eretts_utani2.
b. Variable(s) entered on step 2: tancsop_nemzet.
c. Variable(s) entered on step 3: tancsop_vilagbank.
d. Variable(s) entered on step 4: tancsop_normal.
e. Variable(s) entered on step 5: tancsop_ketnyelv.
Logisztikus regresszió

Variables in the Equation

B S.E. Wald df Sig. Exp(B)


Step
a
tancsop_normal ,025 ,010 5,995 1 ,014 1,026
1 tancsop_nemzet ,084 ,027 9,555 1 ,002 1,088
tancsop_ketnyelv ,146 ,079 3,403 1 ,065 1,157
tancsop_vilagbank ,088 ,028 9,679 1 ,002 1,092
tancsop_eretts_utani2 ,250 ,108 5,337 1 ,021 1,285
Constant -1,090 ,137 63,489 1 ,000 ,336
a. Variable(s) entered on step 1: tancsop_normal, tancsop_nemzet, tancsop_ketnyelv, tancsop_
vilagbank, tancsop_eretts_utani2.
Együtthatók tesztelése
• Ugyanúgy történik, mint lineáris regresszió
esetében
Sztenderdizált változók

Variables in the Equation

B S.E. Wald df Sig. Exp(B)


Step
a
Ztancsop_normal ,198 ,081 5,995 1 ,014 1,219
1 Ztancsop_nemzet ,239 ,077 9,555 1 ,002 1,270
Ztancsop_ketnyelv ,141 ,077 3,403 1 ,065 1,152
Ztancsop_vilagbank ,251 ,081 9,679 1 ,002 1,285
Ztancsop_eretts_utani2 ,249 ,108 5,337 1 ,021 1,283
Constant -,670 ,078 74,739 1 ,000 ,512
a. Variable(s) entered on step 1: Ztancsop_normal, Ztancsop_nemzet, Ztancsop_ketnyelv, Ztancsop_
vilagbank, Ztancsop_eretts_utani2.
Kategória változók

Variables in the Equation

B S.E. Wald df Sig. Exp(B)


Step
a
tancsop_normal ,025 ,010 5,743 1 ,017 1,025
1 tancsop_nemzet ,089 ,027 10,479 1 ,001 1,093
tancsop_ketnyelv ,137 ,079 3,003 1 ,083 1,147
tancsop_vilagbank ,078 ,029 7,159 1 ,007 1,081
tancsop_eretts_utani2 ,238 ,108 4,902 1 ,027 1,269
megyeijv ,597 ,311 3,675 1 ,055 1,816
egyebtel ,150 ,281 ,286 1 ,593 1,162
Constant -1,308 ,289 20,481 1 ,000 ,270
a. Variable(s) entered on step 1: tancsop_normal, tancsop_nemzet, tancsop_ketnyelv, tancsop_
vilagbank, tancsop_eretts_utani2, megyeijv, egyebtel.
Lineáris transzformáció
• A logisztikus regresszió érzéketlen a
lineáris transzformációra – ugyanúgy,
ahogy a lineáris regresszió
Meghatározó megfigyelések
• Leverage values, Cook féle D statisztika
ugyanúgy működik, mint a lineáris
regresszió esetében
Multikollinearitás
• Ugyanúgy probléma, mint lineáris
regresszió esetében, kezelése hasonló
• Tolerancia, VIF, kondíciós index ugyanúgy
működik, mint lineáris regresszió esetében
Illeszkedés jósága
• A hagyományos R2 mutatónak nincs
relevanciája
• Ún. pszeudó R2 mutatók
• Variancia arányként nem értelmezhető,
csak az illeszkedés jóságát mutatja
• Értéke 0 és 1 között van, de nem biztos,
hogy a 0 vagy 1 értéket felveszi
Illeszkedés jósága
• Cox és Shell féle pszeudó R2:
– 1- [ ( l(0)/l(B) )^( 2/N ) ], ahol l(0) az
alapmodell esetén loglikelihood függvény
értéke, l(B) pedig a végső modell esetén
• Nagelkerke féle pszeudó R2:
– ( 1- [ ( l(0)/l(B) )^( 2/N ) ] ) / [ ( 1-l(0)^(2/N) ) ]
• Vannak más változatok is
Illeszkedés jósága

Model Summary

-2 Log Cox & Snell Nagelkerke


Step likelihood R Square R Square
1 960,691a ,049 ,068
a. Estimation terminated at iteration number 4 because
parameter estimates changed by less than ,001.
Illeszkedés jósága
• Kontingencia tábla
– A becsült valószínűségek alapján Yes (1) és
No (0) kategóriákba osztjuk a
megfigyeléseket. A vágás alapesetben a 0,5
értéknél történik
– A ténylegesen Yes (1) értékekkel
rendelkezőket hány esetben klasszifikáljuk
helyesen, illetve a ténylegesen No (0) értékkel
rendelkezőket hány esetben klasszifikáljuk
helyesen
Illeszkedés jósága

Classification Tablea

Predicted

comeniusI Percentage
Observed ,00 1,00 Correct
Step 1 comeniusI ,00 497 21 95,9
1,00 233 31 11,7
Overall Percentage 67,5
a. The cut value is ,500
Illeszkedés jósága
• A kontigencia táblában a vágási értéke
0,5-re van állítva alapbeállítások esetén.
• Érdekes megnézni azt az esetet is, amikor
a vágási érték a sokasági arány
Illeszkedés jósága

Classification Tablea

Predicted

comeniusI Percentage
Observed ,00 1,00 Correct
Step 1 comeniusI ,00 16 502 3,1
1,00 5 259 98,1
Overall Percentage 35,2
a. The cut value is ,230
Illeszkedés jósága
• Lorenz görbe (nem használatos)
• Rendezzük a megfigyeléseket a becsült
valószínűség szerint növekvő sorrendbe
• Számoljuk ki a következő arányt: ha az
összes megfigyelés α arányát választjuk
be a mintába, akkor a Yes (1) értékeknek
mekkora aránya lesz a mintában?
• Ha véletlenszerűen választunk, akkor az
arány α lesz, ha a becsült értékek alapján,
akkor ez vélhetőleg α-nál nagyobb
Illeszkedés jósága
Illeszkedés jósága
• ROC (Receiver Operating Characteristic)
görbe
• Hasonló a Lorenz görbéhez, de a
tengelyeken mást mérünk
– Vizszintes tengely (false positive rate): a
tényleges Yes (1) értékeknek hány százalékát
találja meg a modell
– Függőleges tengely (true positive rate): a
tényleges No (0) értékeknek hány százalékát
mondja Yes-nek
Illeszkedés jósága
21/ (497+21) = 0,041 – vízszintes tengely
Classification Tablea

Predicted

comeniusI Percentage
Observed ,00 1,00 Correct
Step 1 comeniusI ,00 497 21 95,9
1,00 233 31 11,7
Overall Percentage 67,5
a. The cut value is ,500

31/ (233+31) = 0,117 – függőleges tengely


Illeszkedés jósága

Area Under the Curve

Test Result Variable(s): Predicted probability


Area
,626
The test result variable(s): Predicted probability has at
least one tie between the positive actual state group and
the negative actual state group. Statistics may be biased.
Illeszkedés jósága
• Mire akarjuk használni a logisztikus
regresszió eredményét
– Pl.: rangsor készítés: csak a becsült
valószínűségek egymáshoz viszonyított
értéke számít
– Pl.: pénzügyi tervezés: nem annyira a sorrend
a lényeges, hanem az, hogy ha a modell
10%-ot becsül, akkor tényleg 10% legyen a
bekövetkezés valószínűsége
Illeszkedés jósága
• Képezzünk a becsült valószínűségek
alapján 20 osztályközt, és ellenőrizzük,
hogy minden osztályközben a kalkuláltnak
megfelelő-e a tényleges bekövetkezési
arány
Illeszkedés jósága
Illeszkedés jósága
Illeszkedés jósága
• Hosmer Lemeshow teszt
• Az előbb bemutatott elven osztályközöket
készít, és azt teszteli, hogy a ténylegesen
bekövetkezett események megfelelnek-e a
várakozásoknak
Illeszkedés jósága
Hosmer and Lemeshow Test

Step Chi-square df Sig.


1 11,302 7 ,126

Contingency Table for Hosmer and Lemeshow Test

comeniusI = ,00 comeniusI = 1,00


Observed Expected Observed Expected Total
Step 1 55 58,313 21 17,687 76
1 2 68 56,991 9 20,009 77
3 119 120,732 48 46,268 167
4 56 56,779 24 23,221 80
5 49 51,985 27 24,015 76
6 47 51,635 31 26,365 78
7 48 49,096 31 29,904 79
8 46 44,051 32 33,949 78
9 30 28,417 41 42,583 71

You might also like