Professional Documents
Culture Documents
Tobbv Ea9 Logregresszio
Tobbv Ea9 Logregresszio
9. előadás
‘Dummy dependent regression’
• Eredeményváltozó egy dummy váltzó (0/1
értékekkel)
• Magyarázó változók hasonlóak, mint
lineáris regresszió esetében (folytonos
vagy dummy változó)
• Logisztikus regresszió (logit)
• Probit
• Tobin féle regresszió (vegyes)
Logisztikus regresszió
• A magyarázó változók meghatározzák a
bekövetkezés valószínűségét (p)
• A bekövetkezés valószínűségére nem
lehet regressziót illeszteni, mert értékei 0
és 1 között vannak, a becsült
valószínűségek kilógnának ebből az
intervallumból.
• Nem mindegy, hogy a valószínűség 1%-
ról 2%-ra válotzik, vagy 49%-ról 50%-ra
Logisztikus regresszió
• Odds: p/(1-p)
– Értékei 0 és végtelen között lehetnek
• Ln odds: ln[ p/(1-p) ]
– Értékei a teljes számegyenesen előfordulnak
• Az ‘ln odds’ értékekre építünk regressziós
modellt:
• ln odds =b0+b1*x1+b2*x2+…+bn*xn+e
Becsült együtthatók értelmezése
• b0,b1,b2,…,bn becsült együtthatók
segítségével megkapható az
eredményváltozó bekövetkeztének a
valószínűsége:
ln ( p/(1-p) )= b0+b1*x1+b2*x2+…+bn*xn=
= Σbi*xi
p/ (1-p) = exp(Σbi*xi)
p = exp(Σbi*xi) / ( 1+exp(Σbi*xi) )
Becsült együtthatók értelmezése
• Az eredményváltozó bekövetkezésének
valószínűségét ha vizsgáljuk, egy-egy
változó hatása nem lokalizálható. A
válzotás nemcsak a vizsált változótól függ,
hanem a többi változótól is.
• Az ‘ln odds’-abn bekövetkezett változás
nem követhető.
• Köztes megoldás az odds-ra felírt
összefüggés:
• P / (1-p) =exp(Σbi*xi)
Paraméterbecslés
• Feladatunk a b0,b1,b2,…,bn együtthatók
értékének megbecslése.
• Az eredményváltozónak csak realizációi
állnak rendelkezése (0 vagy 1 értékek)
• Az ‘ln odds’ transzformáció nem működik
ezekre az értékekre:
– ln (0/1)=ln(0) nem értelmezett
– ln (1/0) nem értelmezett
Paraméterbecslés
• Maximum likelihood függvény:
– L(b0,b1,b2,…,bn)=
0,9
0,8
0,7
0,6
0,5
0,4
0,3
S19
S16 0,2
S13 0,1
S10 0
21
S7
19
17
15
S4
13
11
9
7
S1
5
3
1
Paraméterek értelmezése
• A valószínűségek szintvonalai egyenesek,
ha nincsenek négyzetes tagok a
modellben
Négyzetes tag -x
0,9
0,8
0,7
0,6
0,5
0,4
19
0,3
16
0,2
0,1 13
0 10
S21
S19
7
S17
S15
S13
4
S11
S9
S7
1
S5
S3
S1
Négyzetes tag –x,y
0,9
0,8
0,7
0,6
0,5
0,4
19
0,3
16
0,2
0,1 13
0 10
S21
S19
7
S17
S15
S13
4
S11
S9
S7
1
S5
S3
S1
Keresztszorzat
0,9
0,8
0,7
0,6
0,5
0,4
0,3
S19
S16 0,2
S13 0,1
S10 0
21
S7
19
17
15
S4
13
11
9
7
S1
5
3
1
Logisztikus regresszió
Variables in the Equation
Step
c
tancsop_nemzet ,077 ,026 8,512 1 ,004 1,080
3 tancsop_vilagbank ,066 ,027 6,158 1 ,013 1,069
tancsop_eretts_utani2 ,232 ,104 5,008 1 ,025 1,262
Constant -,816 ,083 97,081 1 ,000 ,442
Step
d
tancsop_normal ,023 ,010 4,939 1 ,026 1,023
4 tancsop_nemzet ,084 ,027 9,719 1 ,002 1,088
tancsop_vilagbank ,086 ,028 9,122 1 ,003 1,089
tancsop_eretts_utani2 ,256 ,108 5,635 1 ,018 1,292
Constant -1,045 ,134 60,734 1 ,000 ,352
Step
e
tancsop_normal ,025 ,010 5,995 1 ,014 1,026
5 tancsop_nemzet ,084 ,027 9,555 1 ,002 1,088
tancsop_ketnyelv ,146 ,079 3,403 1 ,065 1,157
tancsop_vilagbank ,088 ,028 9,679 1 ,002 1,092
tancsop_eretts_utani2 ,250 ,108 5,337 1 ,021 1,285
Constant -1,090 ,137 63,489 1 ,000 ,336
a. Variable(s) entered on step 1: tancsop_eretts_utani2.
b. Variable(s) entered on step 2: tancsop_nemzet.
c. Variable(s) entered on step 3: tancsop_vilagbank.
d. Variable(s) entered on step 4: tancsop_normal.
e. Variable(s) entered on step 5: tancsop_ketnyelv.
Logisztikus regresszió
Model Summary
Classification Tablea
Predicted
comeniusI Percentage
Observed ,00 1,00 Correct
Step 1 comeniusI ,00 497 21 95,9
1,00 233 31 11,7
Overall Percentage 67,5
a. The cut value is ,500
Illeszkedés jósága
• A kontigencia táblában a vágási értéke
0,5-re van állítva alapbeállítások esetén.
• Érdekes megnézni azt az esetet is, amikor
a vágási érték a sokasági arány
Illeszkedés jósága
Classification Tablea
Predicted
comeniusI Percentage
Observed ,00 1,00 Correct
Step 1 comeniusI ,00 16 502 3,1
1,00 5 259 98,1
Overall Percentage 35,2
a. The cut value is ,230
Illeszkedés jósága
• Lorenz görbe (nem használatos)
• Rendezzük a megfigyeléseket a becsült
valószínűség szerint növekvő sorrendbe
• Számoljuk ki a következő arányt: ha az
összes megfigyelés α arányát választjuk
be a mintába, akkor a Yes (1) értékeknek
mekkora aránya lesz a mintában?
• Ha véletlenszerűen választunk, akkor az
arány α lesz, ha a becsült értékek alapján,
akkor ez vélhetőleg α-nál nagyobb
Illeszkedés jósága
Illeszkedés jósága
• ROC (Receiver Operating Characteristic)
görbe
• Hasonló a Lorenz görbéhez, de a
tengelyeken mást mérünk
– Vizszintes tengely (false positive rate): a
tényleges Yes (1) értékeknek hány százalékát
találja meg a modell
– Függőleges tengely (true positive rate): a
tényleges No (0) értékeknek hány százalékát
mondja Yes-nek
Illeszkedés jósága
21/ (497+21) = 0,041 – vízszintes tengely
Classification Tablea
Predicted
comeniusI Percentage
Observed ,00 1,00 Correct
Step 1 comeniusI ,00 497 21 95,9
1,00 233 31 11,7
Overall Percentage 67,5
a. The cut value is ,500