You are on page 1of 21

第 15 章  Logistic 與 Probit 迴

歸分析
 本章的學習主題 
1.Logistic 迴歸分析的概念
2.Logistic 迴歸的假設
3.Logit 轉換
4.Logistic 迴歸報表分析
5.Probit 迴歸模式
6.Probit 迴歸分析的評估
7.Probit 預測分析

企業研究方法第 15 章1
1
15.1 Logistic 迴歸的概念
Logistic 迴歸類似線性迴歸模式 。迴歸分析
是描述一個依變數與一個或多個預測變數之間
的關係,通常 Logistic 迴歸所探討結果的依
變數是 離散型 ,特別是其分類只有 二類 ( 例如
“是與否 ”、 “同意與不同意 ”、 “成功與失敗
” ) 或少數幾類時。

利用 Logistic 迴歸的目的是在於建立一個最精
簡和最能配適 (fit) 的分析結果 ,而且在實用上
合理的模式,建立模式後可用來預測依變數與
一組預測變數之間的關係。
企業研究方法第 15 章2
2
15.1 Logistic 迴歸的概念
成功 . . . . . . . … . . …. …………….……
(1)

Logistic 迴歸曲線

0.5
實際觀察值

失敗
(0) ….…..…..…….……… … . . . . . . . .

a c b

圖 15 – 1 Logistic 分析的概念

企業研究方法第 15 章3
3
15.2 Logistic 迴歸的假設
Logistic 迴歸的基本假設與其他多變量分析
之假設不同,因為它不需要假設分配類型,
在 Logistic 分配中, 自變數 (X) 對於依變數
(Y) 之影響方式是以指數的方式來變動 ,即
y=e 。此意味著 Logistic 迴歸無需具有符合
f(x)

常態分配的假設,但是如果預測變數為常態
分配的話,結果會比較可靠。 在 Logistic
迴歸分析中, 依變數必須為 類別變數
( category variable ), 而自變數可以是 類
別變數,也可以是連續變數 。

企業研究方法第 15 章4
4
15.3 Logistic 迴歸模式
令 p 表示某種事件成功的機率,它受因素 x

影響,即 p 與 x 之關係如下:
e f ( x)
P=
1 +e f ( x)
p
ln = f ( x ) = β0 + β1 X + β2 X 2 +⋅⋅⋅⋅⋅ + βk X k
1− p

稱之為 Logistic 迴歸模式。


企業研究方法第 15 章5
5
15.4 Logistic 迴歸分析的評估
下表是收集 125 位年齡從 21 歲到 69 歲成年人的資料,研究 年齡X與是否患
心臟病 (Y=0 表未患心臟病, Y=1 表患心臟病 ) 的關係。並依表 15 - 1 繪出Y
對X的散佈情形,如圖 15 – 2 所示。

表 15 -1 年齡 (X) 與罹患心臟病 (Y) 之關係表


X Y X Y X Y X Y X Y X Y X Y X Y X Y X Y
21 0 26 0 32 0 36 1 41 1 45 0 54 0 57 1 61 1 67 1 67
21 0 27 0 33 0 36 0 42 0 45 0 54 1 58 0 62 0 1
22 0 27 1 33 0 36 0 42 0 46 0 54 0 58 0 62 0 68 1
22 0 28 0 33 0 37 1 42 1 47 0 55 1 58 1 62 1 68 1 69
22 0 28 0 34 0 37 0 43 0 47 1 56 0 58 1 63 1 64 1
23 0 29 1 34 1 38 1 43 1 47 0 56 0 59 1 1
24 0 30 0 34 1 39 0 43 0 47 0 56 1 59 0 64 1
24 1 30 0 34 0 39 1 43 1 48 1 57 0 60 0 65 1
25 0 30 0 35 0 39 0 44 0 48 1 57 1 60 0 65 1
25 0 31 0 35 0 40 0 44 0 48 0 57 1 60 1 65 0
26 0 31 0 35 0 40 1 44 1 48 1 57 0 60 1 66 1
26 0 31 1 36 0 40 0 45 0 49 1 57 1 61 1 66 1

企業研究方法第 15 章6
6
15.4 Logistic 迴歸分析的評估
罹患者 (編碼為 1)的
心臟疾病受年齡影響之散佈圖 密集度集中在年齡
1.2
層高的地方。
層高的地方
1.0

.8

.6
患心臟病(

.4

.2
Y 未罹患者 (編碼為 0)集
0.0
中在年齡層低的地方。
年齡層低的地方
)

-.2
20 30 40 50 60 70
年齡(X)
年齡

圖 15-2 年齡 (X) 與罹患心臟病 (Y) 之關係圖


Y與X的相關係數為 0.4641 。 ( 使用直線廻歸模
式)
Y對X的簡單迴歸式為: Y = -0.268 + 0.01524 X
R 2 = 0.168
由於上述屬 0 、 1 之資料類別,所以由 R-square 僅達 0.168
可看出, 本範例不適合使用直線廻歸模式
企業研究方法第 15 章7
7
15.4 Logistic 迴歸分析的評估
當以 Logistic 迴歸作為考量,則設年齡X
與患心臟病機率的關係式為:
e b0 +b1 X
π( x ) =
1+ e b0 +b1 X

經過 Logistic 轉換:
π ( x)
g ( x) = ln = b0 + b1 X
1 − π ( x)

則此時與 X 呈線性關係,即可進行 Logistic


迴歸分析。

企業研究方法第 15 章8
8
15.4 Logistic 迴歸分析的評估
本範例經由 Logistic 分析所得之結果分析
如下: -2 Log Likelihood 147.970
Goodness of Fit 123.712

Cox & Snell –R^2 .164


Nagelkerke – R^2 .221

在迴歸模式的檢定中, -2 Log Likelihood


愈小且 Cox & Snell R2 越大表示模式配適度
越高,而表中之 Cox & Snell R2 = 0.164 與
Nagelkerke R2 = 0.221 均超過 R2 = 0.15 之
門檻設定值,顯示此一 Logistic 模式具
有顯著的解釋能力。
企業研究方法第 15 章9
9
15.4 Logistic 迴歸分析的評估
表 15-3 年齡 (X) 與罹患心臟病 (Y) 之 Logistic 模型檢定
Chi-Square df Significance
Model 22.418 1 0.000
Block 22.418 1 0.000
Step 22.418 1 0.000

表 15-4 年齡 (X) 與罹患心臟病 (Y) 之 Logistic 迴歸係數


Variable B S.E. Wald df Sig R Exp (B)
年齡 0.0712 0.0165 18.5247 1 0.0000 0.3114 1.0737
Constant -3.6064 0.8071 19.9648 1 0.0000

根據表 15-4 ,我們可以求得 Logistic 迴歸的方程式 :


p
ln =( f) x=−3.6064
+ 0.0712 X
1− p
企業研究方法第 15 章10
10
15.4 Logistic 迴歸分析的評估
在 Logistic 迴歸式,假設病患的年齡為 31 歲,以 X=31 代入
Logistic 迴歸式中,可得知其患有心臟病的機率為 :

e −0.36064
+ 0.0712*(31)
π(31) = −0.36064
= 0.19794309
+ 0.0712*(31)
< 0.5
1 +e
故判斷在年齡 X=31 歲的病患有心臟病的機率為
19.79%
如果想要知道年齡要超過多少歲,心臟病的機率會大
於 50% 。則可使用下列式子獲得 :
e −0.36064+ 0.0712* X
π ( X) = −0.36064
> 0.5
+ 0.0712* X
1 +e
⇒e −0.36064+ 0.0712*
> X +0.5*(1 −
e +0.36064 0.0712* X
)
⇒e −0.36064+ 0.0712*
> X 1
兩邊同取 ln後可得
⇒− 0.360+64 0.0712* >0
X
企業研究方法第 15 章11
⇒ X > 50. 65 11
15.4 Logistic 迴歸分析的
評估
在本書之研究架構中,我們以組織績效為
依變數,首先將公司之組織績效區分為兩
組 (1= 低組織績效, 2= 高組織績效 ) ,由
表 15 - 6 整理出在不同迴歸模式中,可以
看出各研究構面 ( 包括知識基礎能力、知
識處理能力與創新能力 ) 對於組織績效的
影響。

企業研究方法第 15 章12
12
15.4 Logistic 迴歸分析的評估
表 15-6 各構面與組織績效之 Logistic 迴歸分析
預測變數 依變數 = 組織績效 (1= 低組織績效: 2= 高組織績效 )
M1 M2 M3 M4 M5 M6 M7

知識基礎能力 Kit 0.138 -0.013 0.011 87.550


Kic 0.361 -0.003 0.013 -0.067
Kis 1.017*** 1.086*** 0.847*** 1.008***

知識處理能力 Kpac 0.955*** 1.118*** 0.818 1.023***


Kpp 0.390 0.295 0.204 0.187
Kpap 0.350 0.098 0.060 -0.008
Kpc -0.178 -0.325 -0.151 -0.348
創新 In 1.456*** 1.100*** 1.001 0.745**
Chi-Square 57.787 56.941 59.261 81.822 74.025 72.620 87.550
p-value 0.000 0.000 0.000 0.000 0.000 0.000 0.000
Hit ratio (%) 65.3 65.3 65.3 65.3 65.3 65.3 65.3
Cox & Snell - R^2 0.280 0.276 0.286 0.372 0.343 0.338 0.392
** p-value<0.05, *** p-value<0.01

: “ * ” 表示 p < 0.05 ;” ** “ 表示 p < 0.01 ;” *** “ 表示 p < 0.001

企業研究方法第 15 章13
13
15.4 Logistic 迴歸分析的評估

例如在模式一中,以知識基礎能力 ( 包含
科技能力 kit 、結構能力 kis 、文化能力
kic) 為自變數來預測組織績效的高低,整
個模型的卡方值為 57.787 , 而 P 值則為
0.000 ,表示模式一所求出的 Logistic 迴
歸式中, 預測變數對於組織績效上有顯著
的影響 ,而且是以指數分配的方式來影響
組織績效。其中結構能力 (kis) 的 P 值為顯
著,代表此變數能有效地預測組織績效。

企業研究方法第 15 章14
14
15.5 Probit 迴歸模式
Probit 迴歸分析與 Logistic 迴歸分析最大的不同點, 在於在 Probit
迴歸分析中依變數不再是二元變數(即 0 與 1 ),而是介於 0 到 1
之百分比變數。 Probit 迴歸分析時,與前節在 Logistic 分析時所導
出之模式相同。
即成功的機率: e f ( x)
P =
1 +e f ( x )

則失敗機率為:
1
1 −p =
1 +e f ( x )

= β 0 + 為:
f ( x) ratio)
故優勢比 (odd β1 X 1 + β 2 X 2 + ⋅ ⋅ ⋅ ⋅ ⋅ + β k X k

P
=e f ( x)

1− P
p
ln =f ( x ) =β0 +β1X +β2 X 2 +⋅⋅⋅⋅⋅+βk X k
1 −p

企業研究方法第 15 章15
15
15.6 Probit 迴歸模式之評估
表 15 - 7 是研究者欲了解 高績效的比例是否會隨
著創新程度、產業別、與社會資本、創業導向等因
素不同而有變化 ,假設這些數據符合 Probit 迴歸
模式,即代表下式:

Probit ( 有效比率 ) = b0 + b1 × 產業別 + b2 × 社會資本 +


b3 × 創業導向

我們接著進行 Probit 模式之假設:


H0 : Probit 模式配適度 (Goodness of fit) 佳
H1 : Probit 模式配適度 (Goodness of fit) 不佳

企業研究方法第 15 章16
16
15.6 Probit 迴歸模式之評估
表 15-7 創新程度對組織績效成果之研究
創新程度 產業別 社會資本 創業傾向 觀測數 有效數
低創新程度 1 4.14 3.75 8 1
2 4.69 3.44 4 1
3 4.35 3.88 5 3
4 4.24 2.53 8 2
5 3.93 2.88 9 2
中創新程度 1 4.64 4.12 27 19
2 4.86 4.34 13 5
3 4.78 4.13 20 14
4 4.57 3.89 14 8
5 4.7 3.71 15 10
高創新程度 1 5.65 5.64 23 21
2 5.29 6.44 6 5
3 5.5 4.8 11 11
4 5.4 5.13 5 5
5 5.58 5.11 8 8
註:「有效數」係指擁有高組織績效的個體 企業研究方法第 15 章17
17
15.6 Probit 迴歸模式之評估
進行 Probit 迴歸分析時, 要注意各自變數若不
是常態分析時,必須進行轉換 。例如將表 15
- 7 資料進行 Probit 分析時,結果如下:
模型的 適合度檢定 :
Pearson Goodness-of-Fit Chi Square = 11.217 DF = 9 P=
0.261
Parallelism Test Chi Square = 8.032 DF = 2 P=
0.018

模式之配適度卡方值為 11.217 , P 值為
0.261 ,因此我們無法拒絕虛無假設 H0 ,即表
示本案之資料所求出的 Probit 模式適合度
( Goodness of fit ) 合乎要求。
企業研究方法第 15 章18
18
表 15-8 Probit 分析表
Beta 係數 標準差 t值
( 常數項 )
低創新程度 -0.73726* 3.59542 -0.20505
中創新程度 0.34691 4.03514 0.08597
高創新程度 1.83116* 4.82839 0.37925
產業別 0.00823 0.09762 0.08430
社會資本 (sc) 0.23706* 0.79209 0.29929
創業導向 (eo) -0.28499* 0.39576 -0.72012
模式配適度卡方值 11.217
模式配適度 p 值 0.261
平行性檢定卡方值 8.032
平行性檢定 p 值 0.018
故這三種創新程度的 Probit 模式分別為:
1. 低創新程度 平行性檢定可以用來檢驗 Probit 迴
歸模式中,係數是否相等
Probit ( 有效比率 ) = -0.73726 + 0.00823× ( 產業別 ) + 0.23706×( 社會資本 ) – 0.28499×( 創
業傾向 )
2. 中創新程度
Probit ( 有效比率 ) = 0.34691 + 0.00823× ( 產業別 ) + 0.23706×( 社會資本 ) – 0.28499×( 創
業傾向 )
3. 高創新程度
Probit ( 有效比率 ) = 1.83116 + 0.00823× ( 產業別 ) + 0.23706×( 社會資本 ) – 0.28499×( 創
企業研究方法第 15 章19
業傾向 )
15.6 Probit 迴歸模式之評估
1. 模式的適合度檢定
   模式之配適度卡方值為 11.217 , P 值為 0.261 ,因此我
們無法拒絕虛無假設 H0 ,即表示本案之資料與 Probit 模式很
接近, 所求出的 Probit 模式適合度( Goodness of fit )合乎
要求 。

2. 平行性檢定
  所謂平行性檢定是檢定各組受測者之 Probit 迴歸模式的
係數是否相等, 在此模式中平行性檢定之卡方值為 8.032 , P
值為 0.018 ,因此我們拒絕假設 H0 ,即表示三種創新程度在
Probit 迴歸式中之常數項係數不可視為相同 。

3. 模式係數檢定
  在模式常數項的檢定中,三種創新程度 ( 低創新、中創新
、高創新 ) 的常數項之檢定統計量 (t 值 ) 皆不顯著,表示
Probit 模式的係數均顯著為 0 。 而在模式迴歸係數的檢定中
,產業別、社會資本、創業導向的迴歸係數之檢定統計量 (t
企業研究方法第 15 章20
值 ) 亦不顯著,表示其迴歸係數顯著為 0 。
實 預
際 測
值 15.7 Probit 預測分析 值
表 15-9 Probit 預測分析表
創新程 產業別 觀測值 反應次數 期望次數 預測落差 機率

1 1 8 1 1.657 -0.657 0.20716
1 2 4 1 1.111 -0.111 0.27781
1 3 5 3 1.078 1.922 0.21650
1 4 8 2 2.697 -0.697 0.33716
1 5 9 2 2.513 -0.513 0.27919
2 1 27 19 16.487 2.513 0.61062
2 2 13 5 7.926 -2.296 0.60973
2 3 20 14 12.569 1.431 0.62844
2 4 14 8 8.940 -0.940 0.63855
2 5 15 10 10.077 -0.077 0.67181
3 1 23 21 21.665 -0.665 0.94196
3 2 6 5 5.384 -0.384 0.89730
3 3 11 11 10.598 0.402 0.96341
3 4 5 5 4.769 0.231 0.95373
3 5 8 8 7.672 0.328 0.95896

例如在第一列的期望次數為 0.20716*8=1.657
企業研究方法第 15 章21
21