You are on page 1of 46

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

出版者的話

出版者的話 1
1
1

出版者的話

出版者的話 1 出版者的話 人類創造了科學技術,科學技術推動了人類的文明進程。兩者的

人類創造了科學技術,科學技術推動了人類的文明進程。兩者的 互動影響,今天已達到了前所未有的程度:人類的經濟發展和社會進 步的需要,為科學技術迅猛的創新,提供了強大的動力;科學技術的 發展,在急劇地改變著人類的思維方式、學習方式、工作方式、生活 方式、娛樂方式。科學技術已成為強大的社會生產力和巨大的社會資 本。現在,每個國家,每個地區,甚至每個單位,都把科學技術創 新、科學技術轉化為生產力作為頭等大事,搶占科學技術制高點,以 此來提高自己的綜合實力。 新中國成立 50 多年特別是改革開放 20 多年來,隨著經濟的蓬勃 發展,科學技術得到了長足的進步,兩彈一星、載人飛船、生物工 程、信息技術等正在大步追趕國際先進水平。科學技術轉化成的強大 生產力,對國民經濟發展和社會進步、對增強綜合國力產生了重大的 影響。 改革開放以來,在中國共產黨的"科教興國"方針的鼓舞下,舉國 上下,尊重科技,學習科技,普及科技,創新科技,應用科技,發展 科技,已蔚然成風。科技結碩果、神州盡彩虹的絢麗畫面,正在展示 於世人面前。自 16 世紀中葉中國科學技術失去世界領先地位後所形 成的中西科學技術的差距,現在正在縮小。重振中華科學技術雄風的 序幕已經拉開。 為了能使我國的科學技術水平在不久的將來趕上並達到世界先進 水平,我們不僅要自己進行科學技術創新,也要學習世界上一切國家 的先進科學技術;不僅要靠國內的科技工作者發展我國的科學技術,

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

2

2 Logistic 回歸模型──方法與應用
2 Logistic 回歸模型──方法與應用

Logistic 回歸模型──方法與應用

還要藉助海外學者特別是華人學者的力量。在這種思想的指導下,我 們萌生了組織海外學者編寫科技前沿叢書的想法。這一想法在海內外 學者中引起了強烈的反響:在他們中,有的出謀獻策,有的出資開 會,有的撰稿,有的審稿,有的願把稿酬作為基金,……海內外學者 的誠言樂行,極大地感染著我們,鼓舞著我們;這一想法得到了教育 部陳至立部長和分管我社的周遠清副部長的肯定和支持,這增加了我 們開展此項工作的決心和信心。根據各方面意見,經過反復研究,最 後將叢書定名為《當代科學前沿論叢》。《論叢》是我們獻給祖國母 親的 21 世紀的聖禮,企盼我國能在 21 世紀奪回三四百年前失去的科 學技術領先的地位。《論叢》如能在推動我國科學技術進步和"科教興 國"中有所作用,將是我們的最大欣慰。為了做好本《論叢》的出版工 作,我們邀請了國內一些著名科學家和在海外工作的部分優秀學者組 成《論叢》的專家委員會,幫助籌劃、組織和評議《論叢》的出版。 隨著學科的發展,專家委員會的成員可能會有所變化。我們向一切關 心和支持《論叢》出版工作的人士,表示衷心的感謝。由於缺乏經 驗,《論叢》出版後,編輯出版方面的不足,在所難免,誠望各方指 正。

高等教育出版社

2000 年 6 月
2000 年 6 月

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

內容簡介

內容簡介 1
1
1

內容簡介

內容簡介 1 內容簡介 在社會科學諸如社會學、心理學、人口學、政治學、經濟學以及

在社會科學諸如社會學、心理學、人口學、政治學、經濟學以及 公共衛生學當中,大量的觀測因變量是二分類測量(即 y=1 y=0)。 本書專題介紹了在分析二分類因變量時最常使用的統計分析模型 之一──logistic 回歸模型。本書深入淺出,理論聯繫實際,通過例題 分析,並結合計算機統計軟件的應用,詳細介紹、闡述了該模型及其 應用。同時,還介紹了如何將 logistic 回歸模型擴展到序次 logistic 回 歸模型和多項 logit 模型,以分析序次變量和多分類名義變量為因變量 的數據。 本書提供用 SAS SPSS 進行具體例題分析的計算機程序及相關 數據,並對這兩種軟件的模型估計結果進行詳盡的解釋和對比分析。 本書的讀者對象為社會科學各專業的教師及研究生,以及社會科學專 業研究人員。

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

序 1
1
1

王濟川 1947 年出生。1982 年四川大學經濟系畢業。 1986 年於美國康乃爾大學獲社會學碩士學 位,1990 年獲該校博士學位。1989 9 -1991 8 月於美國密執安大學人口研究 中心作博士後研究。現任美國俄亥俄州懷特 州立大學醫學院社區衛生系教授。 王濟川博士的主要研究領域為社會科學定量 分析方法、人口分析方法、毒品濫用及疾病 預防項目的評估。

郭志剛 1954 年出生。1982 年於中國人民大學工業 經濟系獲經濟學學士,1985 年於加拿大西 安大略大學獲社會學碩士,1990 年於中國 人民大學人口研究所獲法學博士。1992 10 月至 1994 1 月於美國布朗大學人口研 究中心作博士後研究。1985 年至 1999 年在 中國人民大學人口研究所工作。現任北京大 學社會學系教授。 郭志剛博士的主要研究領域為人口統計技 術、社會科學定量分析方法,以及人口、婚 姻、家庭、老年等社會問題的分析。曾編著 《社會科學研究的量化方法》、《社會統計 分析方法──SPSS 軟件應用》,並撰寫、編著、翻譯多部人口學研究著作,發表了大量 學術論文。

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

前 言

前 言 在過去的 20 年中,由於計算機技術和統計軟體的迅速發展,量化分析已經成為社會

在過去的 20 年中,由於計算機技術和統計軟體的迅速發展,量化分析已經成為社會 科學各個學科領域中廣為應用的技術方法。在社會科學諸如社會學、心理學、人口學、 政治學、經濟學以及公共衛生學當中,logistic 迴歸模型是對二元因變數(dichotomous dependent variable)(即 y=1 y=0)進行迴歸分析時最為普遍應用的多元量化分析方 法。根據 Hosmer 及其同事的統計(1991),在 19851989 年間,國際知名刊物《美國 公共衛生雜誌》上發表的文章中約有 20%579 篇文章中的 113 篇)應用了 logistic 迴歸 模型。雖然 logistic 迴歸已經達到了如此流行的程度,但不少使用這一模型的人對於該模 型的性質和原理仍無法充分理解,在實際應用中常有困惑的問題,對於模型結果的闡述也 不一致。並且,在很多應用該方法的研究中連模型擬合優度(goodness of fit)的評估也被 忽略了。比如,在上述所統計的 113 篇文章中,只有 5%6 篇文章)涉及到模型擬合優 度的評估 。 在現有的統計教科書中,一般都有 logistic 迴歸模型的內容。然而,在這些教科書中, logistic 迴歸往往不是作為中心內容,也缺乏關於這種方法的詳盡討論。有關專著在國外 很少,國內尚無。國外的一些專著中對於 logistic 迴歸模型的實際應用,特別是結合統計 軟體執行模型並對模型結果進行解釋方面較為欠缺。本書的主要目的是提供對於 logistic 迴歸模型的深入專題介紹,專注於這一方法本身的討論,以及模型結果的詳細闡述。作者 儘量以深入淺出的手法,旁徵博引,理論聯繫實際,大量運用例題並結合計算機統計軟體 的使用,介紹和討論該模型的原理及運用。讀者在學習本書內容之前應對多元迴歸和統計 推斷的基礎知識有所瞭解。 本書將採用國際上廣泛使用的統計軟體 SASStatistics Analysis System)和 SPSS Statistics Package for Social Sciences)來分析書中的例題。本書將提供用這兩種軟體進

Hosmer. Taber, and Lemeshow. 1991.
Hosmer. Taber, and Lemeshow. 1991.

Hosmer. Taber, and Lemeshow. 1991.

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

2

2 前 言
2 前 言

前 言

行具體例題分析的計算機程序,並對於這兩種軟體的模型估計結果進行詳細的解釋和對比 分析。本書中例題的主要資料是由作者模擬設計的,其原始資料可從下列網址下載: http:// www.hep.com.cn;http: //www.wright.edu/jichuan.wang http: //www.disa.pku.edu.cn∕課程 本書共由 8 章組成。 在第 1 章中,我們將首先討論分析二元因變數時所產生的問題,並討論經典的線性機 率模型(linear probability model, LPM)及其侷限性。然後介紹 logistic 迴歸模型。 在第 2 章中,我們將介紹 logistic 迴歸模型估計所用的最大概似估計法(maximum likelihood estimation, MLE)、模型估計的假設條件,以及最大概似估計的性質。此外, 還將介紹對分組資料進行 logit 分析的加權最小平方法(weighted least squares, WLS)。

3 章介紹 logistic 迴歸模型的評估,討論各種擬合優度(goodness of fit),預測準

確性(predictive accuracy)和模型卡方統計(model chi-square statistic)。

4 章關注於 logistic 模型迴歸係數意義的闡釋。除了討論發生比率(odds ratio)、

預測機率(predicted probability)和互動影響(interactions)外,這一章還要討論使用各

種不同編碼時分類自變數迴歸係數的意義和解釋。

5 章討論 logistic 迴歸係數的統計推斷(statistical inference)。

6 章的內容涉及模型的選擇,討論建立模型過程中的策略。

7 章關於模型的診斷,討論多元共線性(multicollinearity)、有問題的資料架構

problematic data configuration)、極端值(outliers)、特異影響案例(influential obser-

vations)和過離散分佈(overdispersion)等問題,以及這些問題的補救對策。 在最後一章中,我們將介紹與 logistic 迴歸類似的另外一種分析二元因變數的備選模 型──probit 模型。然後,將 logistic 迴歸模型擴展到次序 logistic 迴歸模型(ordered logistic regression model)和多項式 logit 模型(multinomial logit model),這些模型分別 用以解決次序變數和多分類名義變數為因變數的問題。

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

目 錄

目 錄 1 二元因變數與 logistic 迴歸模型     1.1 引言/ 2   1.2
1
1

二元因變數與 logistic 迴歸模型

 
1 二元因變數與 logistic 迴歸模型  
 

1.1 引言/ 2

 

1.2 線性機率模型( Linear Probability Model, LPM )/ 3

 

1.3 Logistic 迴歸模型/ 7

 
2
2

Logistic 迴歸模型估計

 
2 Logistic 迴歸模型估計  
2 Logistic 迴歸模型估計  
 
 

2.1 最大概似估計( Maximum Likelihood Estimation, MLE)/ 16

2.2 Logistic 迴歸模型估計的假設條件/ 20

 

2.3 最大概似估計的性質/ 21

 

2.4 模型估計的樣本規模/ 21

2.5 擬合 logistic 迴歸的示範模型/ 23

 

2.6 用分組資料作 logistic 迴歸分析/ 40

3
3

Logistic 迴歸模型評價

 
3 Logistic 迴歸模型評價  
3 Logistic 迴歸模型評價  
 

3.1 擬合優度( Goodness of fit)/ 68

3.1.1 皮爾遜 2 Pearson 2 )/ 68

68 3.1.1 皮爾遜 2 ( Pearson 2 )/ 68 3.1.2 離差( Deviance )/ 73 3.1.3 Hosmer-Lemeshow
68 3.1.1 皮爾遜 2 ( Pearson 2 )/ 68 3.1.2 離差( Deviance )/ 73 3.1.3 Hosmer-Lemeshow

3.1.2 離差( Deviance)/ 73

3.1.3 Hosmer-Lemeshow 擬合優度指標/ 77

3.1.4 訊息測量指標( Information Measures )/ 80

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

2

2 目 錄
2 目 錄

目 錄

3.2 Logistic 迴歸模型的預測準確性/ 86

3.2.1 R 2 指標( Analogous R 2 )/ 86

3.2.2 預測機率與測量值之間的關聯/ 90

3.2.3 分類表( Classification Table)/ 96

3.3 模型 2 統計( Model Chi-Square Statistic )/ 106

2 統計( Model Chi-Square Statistic )/ 106 Logistic 迴歸係數解釋 4.1

Logistic 迴歸係數解釋 迴歸係數解釋

4.1 發生比和發生比率(Odds and Odds Ratio )/ 111

4.2 按發生比率來解釋 logistic 迴歸係數/ 114

4.2.1 連續自變數的發生比率/ 115

4.2.2 二元自變數的發生比率/ 119

4.2.3 分類自變數的發生比率/ 121

4.3 用機率來解釋自變數的作用/ 133

4.4 預測機率/ 135

4.5 標準化係數/ 139

4.6 偏相關 (Partial Correlation )/ 146

Logistic 迴歸係數的統計推斷 迴歸係數的統計推斷

5.1 Logistic 迴歸係數的顯著性檢驗/ 150

5.1.1 Wald 檢驗/ 151

5.1.2 概似比檢驗/ 153

5.1.3 檢驗係數子集/ 161

5.2 Logistic 迴歸參數的可信區間/ 166

5.2.1 Logistic 迴歸係數的可信區間/ 167

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

目 錄

目 錄 3
3
3

5.2.2 發生比率的可信區間/ 169

5.2.3 事件機率的可信區間/ 173

建立模型169 5.2.3 事件機率的可信區間/ 173 6.1 選擇變數/ 180 6.1.1 篩選自變數/ 181

6.1 選擇變數/ 180

173 建立模型 6.1 選擇變數/ 180 6.1.1 篩選自變數/ 181 6.1.2 模型的比較/

6.1.1 篩選自變數/ 181

6.1.2 模型的比較/ 188

6.1.3 逐步模型選擇法/ 190

6.1.4 排除有意義的變數和包括沒有意義的變數/ 212

6.2 非線性與非加性( Nonlinearity and Nonadditivity )/ 213

6.2.1 非線性/ 214

6.2.2 非加性/ 220

Logistic 迴歸診斷 迴歸診斷

214 6.2.2 非加性/ 220 Logistic 迴歸診斷 7.1 過離散( Overdispersion )/ 228 7.2

7.1 過離散( Overdispersion )/ 228

7.2 空單元( Zero Cell Count)/ 232

7.3 完全分離 (Complete Separation )/ 233

7.4 多元共線性 (Multicollinearity)/ 236

7.5 特異值和特殊影響案例( Outliers and Influential Observa- tions )/ 241

7.5.1 殘差影響的測量/ 241

7.5.2 檢查特異值和特殊影響案例/ 250

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

4

4 目 錄
4 目 錄

目 錄

8
8

Logistic 迴歸的替代模型及擴展

8.1 Probit 模型/ 270

迴歸的替代模型及擴展 8.1 Probit 模型/ 270 8.1.1 Probit 模型的對數概似函數/ 270 8.1.2

8.1.1 Probit 模型的對數概似函數/ 270

8.1.2 擬合 probit 示範模型/ 271

8.1.3 Probit 模型的解釋/ 276

8.1.4 用分組資料建立 probit 模型/ 280

8.1.5 Logistic 迴歸模型與 probit 模型的比較/ 289

8.2 Logistic 迴歸擴展於多分類反應變數/ 291

8.2.1 累積 logistic 迴歸模型(Cumulative Logistic Regression Model )/ 292

8.2.2 多項 logit 模型( Multinomial Logit Model)/ 307

參考文獻/ 關鍵詞索引/
參考文獻/
關鍵詞索引/

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

TABLE OF

CONTEMTS

TABLE OF CONTEMTS 1 Dichotomous dependent variable and logistic regression model   1.1 Introduction / 2
1
1

Dichotomous dependent variable and logistic regression model

 

1.1 Introduction 2

1.2 Linear probability model (LPM)3

1.3 Logistic regression model 7

2
2

Estimation of logistic regression model

 
2 Estimation of logistic regression model  
 
 

2.1 Maximum likelihood estimation (MLE)16

 

2.2 Assumptions of logistic regression model estimation 20

2.3 Properties of MLE 21

2.4 Sample size for model estimation 21

2.5 Examples of logistic regression models 23

 

2.6 Logistic analysis with grouped data 40

3
3

Evaluation of logistic regression model

 
 
 
 

3.1 Goodness of fit 68

3.1.1 Pearson 2 68

3.1 Goodness of fit / 68 3.1.1 Pearson 2 / 68 3.1.2 Deviance / 73 3.1.3

3.1.2 Deviance 73

3.1.3 Hosmer-Lemeshow goodness of fit statistic 77

3.1.4 Information measures 80

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

2

2 TABLE Of CONTEMTS
2 TABLE Of CONTEMTS

TABLE Of CONTEMTS

3.2 Predictive accuracy of logistic regression model 86

3.2.1 Measures of analogous R 2 86

3.2.2 Association between predicted probability and observed response 90

3.2.3 Classification table 96

3.3 Model Chi-square statistic 106

Interpretation of logistic regression coefficientstable / 96 3.3 Model Chi-square statistic / 106 4.1 Odds and odds ratio / 111

/ 106 Interpretation of logistic regression coefficients 4.1 Odds and odds ratio / 111 4.2 Interpretating
/ 106 Interpretation of logistic regression coefficients 4.1 Odds and odds ratio / 111 4.2 Interpretating

4.1 Odds and odds ratio 111

4.2 Interpretating logistic regression coefficients in odds ratio 114

4.2.1 Odds ratio for continuous variable 115

4.2.2 Odds ratio for indicator variable 119

4.2.3 Odds ratio for categorical variable 121

4.3 Interpretating effect on probability 133

4.4 Predicted probabilities 135

4.5 Standardized coefficients 139

4.6 Partial correlation 146

Statistical inference for logi stic regression coefficients stic regression coefficients

Statistical inference for logi stic regression coefficients 5.1 Significance test of logist ic regression coefficients

5.1 Significance test of logistic regression coefficients 150

5.1.1 Wald test 151

5.1.2 Likelihood ratio test 153

5.1.3 Testing a subset of coefficients 161

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

TABLE OF CONTEMTS

TABLE OF CONTEMTS 3
3
3

5.2 Confidence intervals for logistic regression parameter estimate 166

5.2.1 Confidence intervals for logistic regression coefficient

167

5.2.2 Confidence intervals for odds ratio 169

5.2.3 Confidence intervals for predicted probabilities 173

Model buildingConfidence intervals for predicted probabilities / 173 6.1 Variable selection / 180 6.1.1 Screening candidates

6.1 Variable selection 180

/ 173 Model building 6.1 Variable selection / 180 6.1.1 Screening candidates of independent variables /

6.1.1 Screening candidates of independent variables 181

6.1.2 Model comparison 188

6.1.3 Stepwise computer model selection 190

6.1.4 Excluding relevant variables and including irrelevant variables 212

6.2 Nonlinearity and nonadditivity 213

6.2.1 Nonlinearity 214

6.2.2 Nonadditivity 220

Logistic regression model diagnostics6.2.1 Nonlinearity / 214 6.2.2 Nonadditivity / 220 7.1 Overdispersion / 228 7.2 Zero cell count

/ 220 Logistic regression model diagnostics 7.1 Overdispersion / 228 7.2 Zero cell count / 232

7.1 Overdispersion 228

7.2 Zero cell count 232

7.3 Complete separation 233

7.4 Multicollinearity 236

7.5 Outliers and influential observations 241

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

4

4 TABLE Of CONTEMTS
4 TABLE Of CONTEMTS

TABLE Of CONTEMTS

7.5.1 Residuals and measures of influence 241

7.5.2 Detecting Outliers and influential observations 250

8
8

Alternative model and extension of logistic regression

8.1 Probit model 270

extension of logistic regression 8.1 Probit model / 270 8.1.1 The log likelihood function of probit

8.1.1 The log likelihood function of probit model 270

8.1.2 Examples of probit model 271

8.1.3 Interpretation of probit model 276

8.1.4 Probit model with grouped data 280

8.1.5 Comparison between the logistic regression and probit models 289

8.2 Extension of logistic regression to polytomous response variables 291

8.2.1 Cumulative logistic regression model 292

8.2.2 Multinomial logit model 307

Reference / Subject index /
Reference /
Subject index /

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

1 CHAPTER 二元因變數與 logistic 迴 歸 模 型 引言 線性機率模型(Linear Probability Model, LPM)

1

CHAPTER

1 CHAPTER 二元因變數與 logistic 迴 歸 模 型 引言 線性機率模型(Linear Probability Model, LPM)

二元因變數與 logistic

引言 線性機率模型(Linear Probability Model, LPM) Logistic 迴歸模型

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

2

2 Logistic 迴歸模型── 方法及應用
2 Logistic 迴歸模型── 方法及應用

Logistic 迴歸模型──方法及應用

1.1 引 言

線性迴歸模型(linear regression model)在定量分析的實際研究中 也許是最流行的統計分析方法了。然而在許多情況下,線性迴歸會受 到限制。比如,當因變數是一個分類變數( categorical variable )而不是 一個連續變數( continuous variable )時,線性迴歸就不適用。實際上, 許多社會科學的觀察都只是分類的而不是連續的。比如,政治學中經 常研究的是否投票給某候選人。又如,經濟學研究中所涉及的是否銷 售或購買某種商品、是否簽訂一個合約等等。這種選擇量度通常分為 兩類,即「是」與「否」。在社會學和人口研究中,人們的社會行為 與生命事件的發生如犯罪、逃學、遷移、結婚、離婚、生育、患病等 等都可以按照二元變數來量測。在研究中,態度與偏好等心理現象經 常也是按幾個類型進行量測 的,如「強烈 反 對」、「反 對」、「中 立」、「支持」和「強烈支持」。此外,雖然一些量測在理論上可以 是連續變數,比如某件事物對於人們生活的重要程度,但是在實際調 查中卻常常按次序分類(如:「不重要」、「重要」、「非常重要」) 進行量測。還有的時候,人們甚至更願意將連續量度轉換為類型劃 分。一種常見的情況就是當分析學生升學考試成績的影響因子時,考 試分數可以被劃分成兩類:錄取分數以上和錄取分數以下。只要選定 一個分界點,連續變數便可以被轉換為二元變數。 在分析分類變數時,通常採用的一種統計方法是對數線性模型

log-linear model) 。在本書中,我們將提供對數線性模型的一種特

Feinberg, 1985 Agresti, 1990

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

Chapter1 二元因變數與 logistic 迴歸模型

Chapter1 二元因變數與 logistic 迴歸模型 3
3
3

殊形式── logistic 迴歸模型。當對數線性模型中的一個二元變數被當 作因變數並定義為一系列自變數的函數時,對數線性模型就變成了 logistic 迴歸模型。為了便利廣大讀者,我們將不從一般對數線性模型 的原理出發,而是按類似於線性迴歸模型的方式來描述 logistic 迴歸模 型。

1.2 線性機率模型 ( Linear Probability Model, LPM

我們知道,線性迴歸模型沒有對所使用的自變數值的量度加以限 制,只是要求每個自變數不能是其它自變數的完全線性組合( exact linear combination),並且自變數不能與誤差項相關。自變數可以是連 續的,也可以只取正數和 0 值(如百分比),或者都是整數(如一個 家庭的子女數),另外也可以是二元型的(如男性取 1 值,女性取 0 值)。然而,因變數卻必須是連續的。由於對迴歸方程中的自變數、 迴歸係數及殘差( residual error)的取值並無任何限制,因此作為一套 自變數 x 的函數的因變數 y 就必須能夠在負無窮 ∞至正無窮 + ∞之間 自由取值。然而,在實際資料中, y 可能只在有限區間取值。比如, 如果 y 是個人收入,測量值只是存在於一個相對很小的值域中(從最 低收入至最高收入之間)。如果我們假設收入是調查對象的年齡、受 教育年限、性別等變數的函數,那麼關於因變數為連續測量的假設也 許是個不錯的近似,因為所有的自變數也同樣是有一定限制的。換句 話說,沒有哪個自變數能真的取任何值。比如,年齡就被限制在壽命 的區間內;受教育年限可以在 0 至像 20 這樣的最大值中間;性別只能

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

4

4 Logistic 迴歸模型── 方法及應用
4 Logistic 迴歸模型── 方法及應用

Logistic 迴歸模型──方法及應用

被測量為兩個值(如 0 為女性、 1 為男性)。正因為如此,即使因變 數 y (收入)並不能自由取任何值,假設因變數為連續測量仍可被接 受。但是,如果因變數 y 只取分類值,尤其是只取二元值(即 0

1),就嚴重違反有關連續測量的假設,特別值得給予注意。

讓我們用一個例子來看看,要是在線性迴歸模型中的因變數只取 0 1 兩個值會怎樣。假設用一個普通最小平方法( ordinary least squares, OLS)線性迴歸模型來解釋是否購買某種家庭耐用消費品,如 VCD 的 消費情況。所採用的迴歸方程為:

VCD 的 消費情況。所採用的迴歸方程為: y i = + x i + e i 1.2.1 其中 x i

y i = + x i + e i

1.2.1

其中 x i 是第 i 個家庭的年收入, y i 是一個二元變數,於是有: 當第 i 個家庭在一段時間(如某年)內購買 VCD 機時, y i =1 ,否 則, y i =0。 假設隨機變數 x i 與殘差項 e i 無關(independent)。而殘差項 e i 是一 個平均值為 0 的隨機變數(random variable),且 e i e j 無關,若 i j。 (即殘差項之間不存在相關)。 因為 y i 只能取值為 0 1,當 x i 已給定的情況下, y i 的期望值

x i 已給定的情況下, y i 的期望值 ( expected value )為 E y i x i =

expected value)為

E y i

x i = E

的期望值 ( expected value )為 E y i x i = E = + x i

= + x i

+ x i + e i

1.2.2

由於 y i 的值不是 0 就是 1y i 的期望值實際上就是 Ey i x i = Py i = 1 x i , 它可以解釋為對於第 i 個家庭購買 VCD 的條件機率測 量。所以,公式 1.2.2 等號的左側可以視為事件發生的機率。正因為

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

Chapter1 二元因變數與 logistic 迴歸模型

Chapter1 二元因變數與 logistic 迴歸模型 5
5
5

如此,因變數為二元型的線性迴歸模型也被稱為線性機率模型(linear

probability model, LPM ), x i 每增加一個單位總是導致事件發生的機率

相對增加一個固定的量(Kmenta, 1986; Long, 1997)。迴歸係數 代表

相對於 x i 一個單位變化時的機率增量。與此對應,事件不發生的機率

應該為

P y i = 0

x i = 1

應該為 P y i = 0 x i = 1 + x i = 1 x

+ x i = 1

應該為 P y i = 0 x i = 1 + x i = 1 x

x i

從公式 1.2.1,我們可以得出線性機率模型的殘差項為

e i = y i

x i i

因為 y i 只能取 0 1 ,那麼

y i =0

時,有

e i = 0

y i =1

時,有

e i = 1

x i = i =

x i i

當 y i =1 時,有 e i = 1 x i = x i x i

x i

fe i )為殘差項的密度函數(density function),我們定義

y i =0 時,有 fe i = f i

y i =1

殘差的期望值等於

時,有 fe i =1 f i

E e i = f i ×

f ( e i ) =1 f i E e i = f i × x

x i + 1

f i × 1

=1 f i E e i = f i × x i + 1 f i

x i

1.2.3

因為殘差的期望值假設為 0 ,根據公式 1.2.3 ,我們有

f i = 1

0 ,根據公式 1.2.3 ,我們有 f i = 1 x i 按照定義, e i 的變異數( variance

x i

按照定義, e i 的變異數( variance),等於

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

6

6 Logistic 迴歸模型── 方法及應用
6 Logistic 迴歸模型── 方法及應用

Logistic 迴歸模型──方法及應用

e 0 = f i x i 2 + 1 f i 1 i x
e 0 = f i
x i 2 + 1 f i
1
i
x i 2
= 1
x i
+ x i 2 + + x i 1
x i 2
=
+ x i 1
x
i
0
= P y i =1
x
P
y i = 0
x
i
i

1.2.4

從公式 1.2.4 中可以看出,殘差的變異數與條件機率測量值有關, 因而也就與因變數的值變動有關。於是不同的測量值便有不同的變異 數。在統計中,這稱為變異數的異質性(heteroscedasticity )。 由於公式 1.2.1 中因變數的特殊性質,線性機率模型(LPM)的估 計和預測存在許多問題: 第一,由於在線性機率模型中殘差的異質性,參數估計的變異數 將是有偏的。因此,任何假設檢驗,比如 t 檢驗和 F 檢驗,都是無效 的,即使樣本很大也是如此。 第二,由線性機率模型估計的事件機率值( y i = + x i )在遇到很 大或很小的 x i 值時可能會超出 [0, 1] 區間。 最後,線性機率模型最嚴重的問題是它的函數形式。因為線性機 率模型是線性的,即無論 x i 取什麼值,其迴歸係數 和 都應是常

‹ ‹
取什麼值,其迴歸係數 和 都應是常 ‹ ‹ 數。然而,公式 1.2.1 中的截距 和斜率

數。然而,公式 1.2.1 中的截距 和斜率 對於所有 x i 值並不是常數, 而是有如下變化:

x i 值並不是常數, 而是有如下變化: 在 x i ≦ / 時,截距 = 0 且斜率 = 0 ,
x i 值並不是常數, 而是有如下變化: 在 x i ≦ / 時,截距 = 0 且斜率 = 0 ,

x i / 時,截距 = 0 且斜率 = 0

在 x i ≦ / 時,截距 = 0 且斜率 = 0 , 在 / ≦ x

/ x i (1 ) 時,截距 = 且斜率 =

≦ x i ≦ (1 ) 時,截距 = 且斜率 = , 在 x i ≧ (1
≦ x i ≦ (1 ) 時,截距 = 且斜率 = , 在 x i ≧ (1
≦ x i ≦ (1 ) 時,截距 = 且斜率 = , 在 x i ≧ (1
≦ x i ≦ (1 ) 時,截距 = 且斜率 = , 在 x i ≧ (1

x i (1 )/ 時,截距 =1 且斜率 =0

x i ≧ (1 )/ 時,截距 =1 且斜率 =0 。 圖 1.1

1.1 顯示了這種變數與自變數之間的關係。很明顯,以二元變 數作為因變數的模型在自變數與事件發生機率之間存在非線性關係。 而線性機率模型( LPM)不能擬合( fitting )這種非線性關係(見附註

1)。

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

Chapter1 二元因變數與 logistic 迴歸模型

Chapter1 二元因變數與 logistic 迴歸模型 7
7
7
y 1 0 1 x
y
1
0 1
x

圖 1.1 線性機率模型的圖示

1.3 Logistic 迴歸模型

由於普通最小平方法模型的不適宜性,建議使用非線性函數來分

析二元因變數。事件發生的條件機率 Py i =1x i )與 x i 之間的非線性 關係通常是單調函數,即隨著 x i 的增加 Py i =1 x i )也單調增加,或 者是隨著 x i 的減少 Py i =1x i )也單調減少。一個選擇便是值域在

0, 1)之間有著 S 形狀的曲線,這樣在 x i 趨近於負無窮大時,Ey i ) 趨近於 0 ,在 x i 趨近於正無窮大時,Ey i )趨近於 1。這種曲線類似 於一個隨機變數的累積分佈曲線。在二元因變數分析中曾使用多種分 佈函數(Cox, 1970)。然而,最常用的函數則是 logistic 分佈。另一種 可供選擇的分佈函數是標準常態分佈(normal distribution ),與之對應 的是 probit 模型(將在第 7 章介紹)。這裡我們先簡要地描述一下把 logistic 函數用於二元因變數分析的理論依據。 假設有一個理論上存在的連續反應變數 y * i 代表事件發生的可能 性,其值域為負無窮至正無窮。當該變數的值跨越一個臨界點 c (比 如 c =0 ),便導致事件發生。於是有:

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

8

8 Logistic 迴歸模型── 方法及應用
8 Logistic 迴歸模型── 方法及應用

Logistic 迴歸模型──方法及應用

y * i >0 時,

y i =1

在其他情況下, y i =0 。 這裡, y i 是實際觀察到的反應變數。 y i =1 表示事件發生, y i =0 表 示事件未發生。如果假設在反應變數 y * i 和自變數 x i 之間存在一種線 性關係,即

 

y * i = + x i + i

y * i = + x i + i
y * i = + x i + i

1.3.1

由公式 1.3.1,我們得到

P

y i = 1

x i = P

x i
x i

+ x i + i >0

y i = 1 x i = P x i + x i + i >0

= P i >

1.3.2

通常,假設公式 1.3.1 中誤差項 i logistic 分佈或標準常態分佈。 為了取得一個累積分佈函數(cumulative distribution function, CDF ),一 個變數的機率需要小於一個特定值。所以,我們必須改變公式 1.3.2 中 不等號的方向。由於 logistic 分佈和常態分佈都是對稱的,因此公式 1.3.2 可以改寫為:

1.3.2 可以改寫為: P y i = 1 x i = P i = F + x

P y i = 1

x i = P i

= F F

+ x i
+ x i

+ x i

1.3.3

其中 F i 的累積分佈函數。分佈函數的形式決定於公式 1.3.1 i 的 假設分佈。如果假設 i logistic 分佈,就得到 logistic 迴歸模型;如果 假設 i 為標準常態分佈,就得到 probit 模型( Long, 1997)。因為 y * i 不 能直接觀察,其量度既不能由 logistic 迴歸模型來決定,也不能由 probit

logistic 迴歸模型來決定,也不能由 probit

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

Chapter1 二元因變數與 logistic 迴歸模型

Chapter1 二元因變數與 logistic 迴歸模型 9
9
9

模型來決定。在 probit 模型中,誤差項 i 的變異數為 1 。而在 logistic 迴 歸模型中,誤差項 i 的變異數為 2 / 3 3.29 。在本書中,我們將主要 介紹 logistic 迴歸模型,然後在第 7 章對 probit 模型作一簡要介紹。標 準 logistic 分佈的平均值等於 0,變異數等於 2 / 3 3.29 。選擇這樣一個 變異數是因為它可以使累積分佈函數取得一個較簡單的公式:

P y i =1 x i = P i + x i 1 = 1+e
P y i =1 x i = P i + x i 1 = 1+e
P y i =1 x i = P i + x i 1 = 1+e
P y i =1 x i = P i + x i 1 = 1+e

P y i =1

x i = P i + x i 1 = 1+e i
x i = P i
+ x i
1
=
1+e i

1.3.4

這一函數稱為 Logistic 函數,它具有 S 型的分佈,圖 1.2 中給出它 的圖形。 如果我們將 i 在負無窮至正無窮區間變化時的函數值標示出來, 就得到了圖 1.2 中的圖形。注意在這一圖形的左側,當 i 趨近於負無 窮時,logistic 函數有

P y i =1 x i = 1/ 1 + e = 1/ 1+ e
P y i =1
x i = 1/
1 + e
=
1/ 1+ e
= 0
1.0
0.5
p =1/ 1 +
0.0
/
圖 1.2 logistic 函數的曲線圖

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

10

10 Logistic 迴歸模型── 方法及應用
10 Logistic 迴歸模型── 方法及應用

Logistic 迴歸模型──方法及應用

i 趨近於正無窮時,logistic 函數有

P

y i = 1 x i = 1/ 1 + e

= 1/ 1+ e e

=1
=1

正如圖形所示,無論 i 為任何值, logistic 函數 P y i =1

x i =1/ 1+ e i

的值域範圍均在 0 1 之間。logistic 函數的這一性質保證了由 logistic

模型估計的機率決不會大於 1 或小於 0logistic 函數的另一個性質也 是很有用的,即這個函數的形狀對於研究機率也很合適。如圖 1.2 所 示,如果我們從 i = ∞開始向右移動,當 i 增加時,這一函數的值

先是很緩慢地增加,然後轉向迅速增加,之後增加的速度又開始逐漸 減緩,最後當 i 趨近於 +∞時,函數值趨近於 1 logistic 函數的 S 型曲 線顯示, i 的作用對於某個案例發生某一事件的機率是變化的,在 i 值很小時其作用也很小,然而在中間階段對應的機率增加很快,但是 在 i 值增加到一定程度以後,機率就保持在幾乎不變的水準了。這

x i 處於中

間階段時的作用。這種非線性函數的形式有助於解決線性機率模型所 不能解決的問題。比如,就前面例題中提到的家庭購買 VCD 的機率 問題而言,並不是家庭收入每增加一定量,購買 VCD 的機率就固定 增加一定值。實際情況是,家庭收入在某一段水準內變化時對購買機 率的變化影響較大,而較低或較高收入對購買機率的變化影響都不 大。因為前者多買不起,後者則差不多都有了。 現在讓我們從 logistic 函數轉向 logistic 迴歸模型,它才是我們真正 的興趣所在。為了根據 logistic 函數取得 logistic 迴歸模型,我們將公式 1.3.4 重寫為:

說明, i P y i =1

1.3.4 重寫為: 說明, i 在 P y i =1 x i 接近於 0 或 1 時的作用要小於當
1.3.4 重寫為: 說明, i 在 P y i =1 x i 接近於 0 或 1 時的作用要小於當

x i 接近於 0 1 時的作用要小於當 P y i =1

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

Chapter1 二元因變數與 logistic 迴歸模型

Chapter1 二元因變數與 logistic 迴歸模型 11
11
11

P

y i = 1 x i =

1

logistic 迴歸模型 11 P y i = 1 x i = 1 + x i 1.3.5

+ x

i

1.3.5

其實,這就是當 i 為( + x i )時的累積分佈函數。在這裡, i 被 定義為一系列影響事件發生機率因子的線性函數,即

i = + x i 1.3.6 其中 x i 為自變數, 和
i =
i =

+ x i

1.3.6

其中 x i 為自變數, 和 分別為迴歸截距和迴歸係數。為了簡化,這 裡以一元迴歸為例。然而,同樣的原則也適用於多元迴歸。

x i = p i ,我們就能得

將事件發生的條件機率標記原則定為 P y i = 1 到下列 logistic 迴歸模型

P y i = 1 到下列 logistic 迴歸模型 1 p i = + x i 1+

1

p i =

+ x i 1+ e + x i e = 1+ e + x i
+ x i
1+ e
+ x i
e
= 1+ e + x i

1.3.7

其中, p i 為第 i 個案例發生事件的機率,它是一個由變數 x i 構成 的非線性函數(non-linear function)。然而這個非線性函數可以被轉換 為線性函數(linear function)。 首先,定義不發生事件的條件機率為

1

e + x i p i = 1 1 + e + x i =
e + x i
p i = 1
1 + e + x i
=
1 + x i
1 + e

1.3.8

那麼,事件發生機率與事件不發生機率之比為

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

12

12 Logistic 迴歸模型── 方法及應用
12 Logistic 迴歸模型── 方法及應用

Logistic 迴歸模型──方法及應用

p i p i = e + x i 1
p i
p i = e + x i
1

1.3.9

這個比被稱之為事件的發生比(the odds of experiencing an event), 簡稱為 odds 。我們將在第 4 章討論 odds 及其有關概念。odds 一定為正 值,因為 0< p i <1 ,而且沒有上界。將 odds 取自然對數就能夠得到一 個線性函數:

p i p i = + x i 1
p i
p i = + x i
1

1.3.10

公式 1.3.10 logistic 函數做了自然對數轉換,這稱作 logit 形式

logit form ),也稱作 y logit ,即 logity )。 這一轉換的重要性在於, logit y )有許多可利用的線性迴歸模型 的性質。logit y )對於其參數而言是線性的,並且與 x 的值有關,它 的值域為負無窮至正無窮。從公式 1.3.10 我們可以看出,當 odds 1 減少到 0 時, logity )為負值且絕對值越來越大;當 odds 1 增加到 正無窮時,它為正值且值越來越大。於是,我們就不為機率估計值會 超過機率值域的問題所困了。logit 模型的係數 和 可以按照一般迴歸 係數那樣來解釋。一個變數的作用如果是增加對數發生比( log odds) 的話,也就是增加事件發生的機率。反之亦然。 就概念而言,公式 1.3.7 表現的是「logistic 迴歸」,因為它是 logistic 分佈函數,而公式 1.3.10 則表現的是「logit 模型」,因為它採用的是 logit 形式。在有關文獻中,有時對 logistic 迴歸和 logit 模型是根據所用 自變數是否為連續變數來劃分。有些研究人員將以分類自變數(categorical independent variables )構成的模型稱為 logit 模型,而將既有分類自變數 又有連續自變數( continuous independent variables)的模型稱為 logistic

independent variables )的模型稱為 logistic 迴 (

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

Chapter1 二元因變數與 logistic 迴歸模型

Chapter1 二元因變數與 logistic 迴歸模型 13
Chapter1 二元因變數與 logistic 迴歸模型 13

13

歸模型。但有時為了方便,不管自變數是什麼類型,人們將 logistic 迴 歸模型統稱為 logit 模型。人們平常也將「 logistic 迴歸」、「 logistic

型」、「 logistic 迴歸模型」及「 logit 模型」的稱謂相互通用,來指同 一個模型(Feinberg, 1985; DeMaris, 1992; Liao, 1994)。本書中,我們統 一稱 logistic 迴歸模型。 儘管線性迴歸分析的原則也應用於 logistic 迴歸模型,但我們應當 記住, logistic 迴歸與線性迴歸是完全不同的。首先,線性迴歸的結果 變數(outcome variable )(或稱因變數(dependent variable)或反應變數

response variable ))與其自變數之間的關係是線性的,而 logistic 迴 歸中結果變數與自變數之間的關係是非線性的,儘管非線性關係可以 被轉換為線性關係。其次,我們在線性迴歸中通常假設,對應自變數 x i 的某個值,變數 y i 的測量值結果為常態分佈。但是在 logistic 迴歸 中,變數的測量值 y i 結果卻是二項分佈。最後,在 logistic 迴歸模型中 (即公式 1.3.10 ),線性迴歸模型中有的殘差項在此並不存在。 當有 k 個自變數時,公式 1.3.7 可擴展為:

K k x k i k =1 p i = e + 1 + e
K
k x k i
k =1
p i = e +
1 + e +
K
k x k i
k =1

1.3.11

那麼,相應的 logistic 迴歸模型將有下列形式:

K p i 1 p i = + k = 1 k x ki
K
p i
1
p i =
+ k = 1 k x ki

1.3.12

其中, p i = P y i = 1

x 1i , x 2i , , x Ki 為在給定系列自變數 x 1i , x 2 i , , x Ki

的值時的事件發生機率。

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

14

14 Logistic 迴歸模型── 方法及應用
14 Logistic 迴歸模型── 方法及應用

Logistic 迴歸模型──方法及應用

一旦我們擁有各個案例的觀測自變數 x 1 x K 值構成的樣本,以及 擁有其事件發生與否的測量值,我們就能夠使用這些訊息來分析和描 述在特定條件下事件的發生以及發生的機率。

附註:
附註:

Goldberger1964)建議一種兩步驟程序來解決這一問題。在第一步中

先採用最小平方法(Least Squares)將 y i x i 進行迴歸分析,估計出係數

mate )。在第二步中,再對殘差的變異數 Vari )進行估計。然後,採用 i 的標準誤差的倒數作為權數來進行加權最小平方法( weighted least squares, WLS)的迴歸。其權數 i 的計算公式為:

。這一步產生出公式 y i = + x i + i 中參數的一致性估計( consistent esti-

+ i 中參數的一致性估計( consistent esti- i = 1/SE = 1/ i = 1/ + x i
i = 1/SE = 1/ i = 1/ + x i 1
i = 1/SE
= 1/
i = 1/
+ x i
1
1/2 ‹ + x i ‹
1/2
+
x i

1/2

然後,將公式 1.2.1 的兩側分別乘以權數 i ,得到

1.2.1 的兩側分別乘以權數 i ,得到 i y i = i x i + i e i 可以證明(

i y i =

i x i + x i +

i e i e i

可以證明( Goldberger, 1964 ), i e i 有相同的變異數,因此再用普通最 小平方法將 i y i i x i 迴歸便能夠得到無偏的參數估計和有效的統計檢

i x i 仍然可能超出 0

驗。然而,所得到的事件發生機率的估計值 至 1 的範圍。

至 1 的範圍。 * ‹ * i +
至 1 的範圍。 * ‹ * i +

*

‹ * i +
*
i +

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

2 CHAPTER Logistic 迴歸模型估計 最大概似估計(Maximum Likelihood Estimation, MLE) Logistic

2

CHAPTER

2 CHAPTER Logistic 迴歸模型估計 最大概似估計(Maximum Likelihood Estimation, MLE) Logistic

Logistic

迴歸模型估計

最大概似估計(Maximum Likelihood Estimation, MLE) Logistic 迴歸模型估計的假設條件 最大概似估計的性質 模型估計的樣本規模 擬合 logistic 迴歸的示範模型 用分組資料作 logistic 迴歸分析

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

16

16 Logistic 迴歸模型── 方法及應用
16 Logistic 迴歸模型── 方法及應用

Logistic 迴歸模型──方法及應用

在第 1 章對 logistic 迴歸模型做了介紹以後,現在我們來介紹該模 型的估計。通常用來估計 logistic 迴歸模型的資料有兩種形式,即單個 案例資料與以分組形式構成的資料。單個案例資料,也稱微觀資料, 一般從抽樣調查中取得,每個案例的變數值反應一個觀察對象各方面 的情況,如 x 為自變數, y 為取值 0 1 的反應變數。分組資料,也 稱宏觀資料,來自於匯總水準。我們先介紹用微觀資料進行模型估 計,然後介紹一個轉形的 OLS 模型對分組資料做 logistic 迴歸分析,並 用分組資料來執行微觀水準的 logistic 迴歸模型。

2.1 最大概似估計 ( Maximum Likelihood Estimation, MLE

在線性迴歸中估計未知總體參數時主要採用最小平方法。這一方 法的原理是根據線性迴歸模型選擇參數估計值,使因變數的測量值與 模型估計值之間的離差平方值為最小。而最大概似估計法則是統計分 析中另一常用模型參數估計方法。在線性迴歸分析中,最大概似估計 法可以得到與最小平方法相同的結果。與最小平方法相比,最大概似 估計法既可以用於線性模型,也可以用於更為複雜的非線性估計。由 於 logistic 迴歸是非線性模型,因此最大概似估計法是最常用的模型估 計方法。 在應用最大概似估計法之前,我們先要建立一個函數,稱為概似 函數( likelihood function )。這一函數將觀測資料的機率表述為未知模 型參數的函數。模型參數的最大概似估計是選擇能夠使這一函數值達 到最大的參數估計值。換句話說,這套參數估計能夠透過模型以最大

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

Chapter2 Logistic 迴歸模型估計

Chapter2 Logistic 迴歸模型估計 17
Chapter2 Logistic 迴歸模型估計 17

17

機率再現樣本觀測資料。下面,我們介紹如何透過最大概似估計法來 估計 logistic 迴歸模型的參數。

假設有由 N 個案例構成的總體, Y 1 , , Y N 。從中隨機抽取 n 個案

例作為樣本,分別為 y 1 , , y n 。設 p i = Py i = 1

到結果 y i =1 的條件機率;而在同樣條件下得到結果 y i = 0 的條件機率

x i 為給定 x i 的條件下得

P y i = 0

x i =1 p i 。於是,得到一個測量值的機率為:

P

y i = p i y i 1

p i 1 y i

2.1.1

其中, y i = 1 y i = 0。式中 y i 或( 1 y i )只是表示對於一個特定觀測,

哪一項機率是有關的。當 y i = 1 時, P ( y i ) = p i = P y i = 1

x

,否則 P y i =

1

p i = P y i = 0

x i 。因為各項觀測相互獨立,所以它們的聯合分佈可

以表示為各邊際分佈的乘積:

L

以表示為各邊際分佈的乘積: L p i y i 1 i = 1 p i 1 y i 2.1.2

p i y i 1

i = 1

p i 1

y i

2.1.2

2.1.2 也稱為 n 個觀測的概似函數。在第 1 章中講過, p i = e + x i 1+ e + x i 。我們的目的是求出能夠使這一概似函數的值最大的 參數估計。也就是說,最大概似估計就是求解出具有最大可能取得所 給定的樣本觀測資料的參數估計。於是,最大概似估計的關鍵是估計 出參數 和 的值,並透過它們使式 2.1.2 取得最大值。然而,使概似 函數 L( )最大化的實際過程是非常困難的。一般方法是間接利用求 概似函數的自然對數(即 ln L ( ) )最大值,而不是直接對概似函數 本身求最大。因為 ln L ( ) L ( ) 的單調函數,使 ln L ( ) 取得最大 值的 值同樣使 L ( ) 取得最大值。透過分析 ln L ( ) ,式 2.1.2 中相乘 各項轉換為對數項的相加,於是使得數學運算變得較為容易。以式

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

18

18 Logistic 迴歸模型── 方法及應用
18 Logistic 迴歸模型── 方法及應用

Logistic 迴歸模型──方法及應用

1.3.10 作為示範,其 logistic 迴歸模型的對數概似值為:

n L = p i y i 1 y i p i 1 i =
n
L
=
p i y i 1
y i
p i 1
i = 1
=
p i = 1
y i
1
p i
i = 1
n
p
i
=
y i
1
p i
1
p i +
i
= 1
e + x i
n
=
y
+ x i +
1
i
1 + e + x i
i
= 1
n
=
y
+ x i
1 + e + x i
i
i
= 1

2.1.3

2.1.3 稱為對數概似函數(log likelihood function)。為了估計能

使 ln [ L ( )] 最大的總體參數 和 值,先分別對 和 求偏導數,然

後令它等於 0

和 求偏導數,然 後令它等於 0 : + x i L n e = y i 1 +
和 求偏導數,然 後令它等於 0 : + x i L n e = y i 1 +
和 求偏導數,然 後令它等於 0 : + x i L n e = y i 1 +
和 求偏導數,然 後令它等於 0 : + x i L n e = y i 1 +
和 求偏導數,然 後令它等於 0 : + x i L n e = y i 1 +
+ x i L n e = y i 1 + e + x i
+ x i
L
n e
=
y i
1 + e + x i
i = 1
+ x i
L
n e
=
y i
1
+ e + x i x i
i = 1

2.1.4

2.1.5

2.1.4 和式 2.1.5 稱為概似方程(likelihood equations)。如果模型

中有 k 個自變數,那麼就有 k + 1 個聯立方程來估計 和 1 , 2 , , k 的 值。在線性迴歸中,概似方程是透過把離差平方和分別對 和 求偏 導數後得到的,它對於未知參數都是線性的,因此很容易求解。但是 對於 logistic 迴歸,如式 2.1.4 和式 2.1.5 是 和 的非線性函數,所以求

解十分困難。實際上,不求助於現代計算機技術,幾乎是無法求解 的。最大概似估計法是利用疊代( iteration)計算完成的。其疊代程序 已經置於 logistic 迴歸軟體之中。所以,我們用不著關心具體的疊代方

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

Chapter2 Logistic 迴歸模型估計

Chapter2 Logistic 迴歸模型估計 19
Chapter2 Logistic 迴歸模型估計 19

19

法,因為計算機可以為我們處理好各種計算細節。對 logistic 迴歸模型 中最大概似估計方法感興趣的讀者,可參閱 McCullagh and Nelder 1983) 與 Eliason 1993 )。 由式 2.1.4 和式 2.1.5 提供的 和 值估計稱為最大概似估計( maximum likelihood estimates)。按照一般統計標記原則,我們用加「 ˆ」符號的 方法表示參數估計。於是,我們所感興趣的是 和 。它們是 和 的 模型估計值;而 p i 是條件機率 p i 的最大概似估計。這個值是在給定 x i 的條件下 y i =1 的條件機率的估計,它代表了 logistic 迴歸模型的擬合值 或預測值。當令偏導函數等於 0 時,由式 2.1.4 可以得到如下的結果:

0 時,由式 2.1.4 可以得到如下的結果: ‹ n i = 1 y i = n p i i
‹
0 時,由式 2.1.4 可以得到如下的結果: ‹ n i = 1 y i = n p i i
0 時,由式 2.1.4 可以得到如下的結果: ‹ n i = 1 y i = n p i i
n
n

i = 1

y i =

n p i i = 1 ‹
n
p i
i = 1

2.1.6

這意味著測量值 y i 之和等於預測機率之和。這一性質在評估模型 擬合情況時非常有用,我們將在第 3 章看到式 2.1.6 的應用。 最大概似估計的漸近變異數(asymptotic variance )和共變異數

covariance)可以由訊息矩陣的逆矩陣( inverse of the information matrix) 估計出來。訊息矩陣實際上是 ln L ( ) 二階導數的負值的期望值,可 以用下列形式表示:

以用下列形式表示: ( I = E 訊息矩陣的逆矩陣為: I 2 L 2 1 2.1.7

I

以用下列形式表示: ( I = E 訊息矩陣的逆矩陣為: I 2 L 2 1 2.1.7 2.1.8

= E

訊息矩陣的逆矩陣為:

I

2 L 2 1
2
L
2
1

2.1.7

2.1.8

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

20

20 Logistic 迴歸模型── 方法及應用
20 Logistic 迴歸模型── 方法及應用

Logistic 迴歸模型──方法及應用

‹

和 漸近變異數的估計就是訊息矩陣的逆矩陣中對角線上的元 素值,而對角線以外各元素值為各項參數之間的共變異數估計。

2.2 Logistic 迴歸模型估計的假設條件

Logistic 迴歸模型估計的一些假設條件與 OLS 迴歸中的十分類似。 首先,資料必須來自於隨機樣本。第二,因變數 y i 被假設為 K 個自變 數 x ki k = 1, 2, , K 的函數。第三,正如 OLS 迴歸, logistic 迴歸也對多 元共線性(multicollinearity )敏感。自變數之間存在的多元共線性會導 致標準誤差的膨脹。 Logistic 迴歸模型還有一些與 OLS 迴歸不同的假設。第一, logistic 迴歸的因變數 y i 是二分變數,這個變數只能取值 0 1。研究的興趣

x ki 。第二,正如公式 1.3.11 中所

在於事件發生的條件機率,即 P y i = 1

定義的, logistic 迴歸中因變數和各自變數之間的關係是非線性的。第 三,在 OLS 迴歸中要假設相同分佈性( homoscedasticity)或稱變異數 不變,類似的假設在 logistic 迴歸中卻不需要。最後, logistic 迴歸也沒 有關於自變數分佈的假設條件。各自變數可以是連續變數,也可以是 離散變數,還可以是虛擬變數( dummy variable )。並且,也不需要假 設它們之間存在多元常態分佈( multinormality )。但是,自變數之間 如果存在多元常態分佈關係將能夠增加模型的功效(power ),求解也 能夠提高穩定性(Tabachnick & Fidell, 1996)。

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

關鍵詞索引

關鍵詞索引 Deviance 殘差 243-244, 250, 254, 259, 261 Hosmer-Lemeshow 指標 77, 300 logit 12-13, 110, 115,

Deviance 殘差 243-244, 250, 254, 259, 261 Hosmer-Lemeshow 指標 77, 300

logit 12-13, 110, 115, 117, 118, 119, 125, 129, 133, 136, 137, 140, 141, 145, 150, 173, 174, 175, 214, 215, 216, 218, 218, 219, 222, 223, 224, 229, 232, 270, 277, 288, 290, 292, 294, 297, 298, 299, 299, 302, 307, 308, 309, 310, 311, 312, 313, 314, 315, 318, 318, 319, 320

logistic 函數

7, 9, 10, 12, 134, 136, 180, 214, 233, 289, 289, 290

logistic 迴歸

3, 8, 9, 10, 11, 12, 13, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 27, 28, 31, 33, 36, 37,

40, 41, 42, 53, 54, 57, 58, 59, 60, 61, 62, 64, 68, 69, 70, 72, 74, 75, 77, 78, 80, 80, 81, 86, 86, 87, 88, 90, 94, 97, 98, 99, 106, 110, 112, 113, 114, 115, 116, 120, 124, 125, 126, 127, 128, 130,

133, 134, 135, 135, 139, 140, 141, 143, 144, 145, 146, 150, 151, 166, 168, 169, 180, 181, 182, 185, 193, 212, 213, 214, 214, 216, 222, 228, 230, 231, 232, 233, 234, 235, 236, 241, 242, 244, 245, 246, 250, 251, 270, 271, 273, 276, 277, 278, 279, 280, 281, 281, 289, 290, 291, 292, 293, 294, 295, 297, 298, 299, 300, 302, 307, 309, 310, 315 Logistic 迴歸係數 150, 167 Logit 殘差 242, 244 probit 模型 7-9, 270, 271, 272, 273, 274, 275, 276, 277, 278, 280, 281, 285, 286, 287, 287, 289, 290, 291, 294, 307 Wald 檢驗 151, 160, 166 Z 統計量 151-152, 271

一劃

一致性 14, 21, 43, 68

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

330

330 Logistic 迴歸模型 ── 方法及應用
330 Logistic 迴歸模型 ── 方法及應用

Logistic 迴歸模型──方法及應用

一致性估計 14, 43 一般化 logit 模型 307 一階互動 221, 224

二劃

二元 logistic 迴歸 293, 315 二元反應變數 27, 54, 180, 270, 291, 294, 299, 313 二次項關係 219

四劃

互動作用 220-222, 224 分佈 274

分佈

分步 205-206 分組 205-206 分組資料 16, 40, 41, 42, 46, 47, 53, 54, 57, 58, 59, 60, 61, 62, 62, 63, 65, 180, 273, 276, 280, 281, 283, 284, 285, 286, 286, 288 分類表 36, 96, 97, 98, 99, 101, 103, 104, 105, 105 分類變數 2, 25, 41, 42, 63, 69, 114, 115, 121, 122, 124, 125, 126, 127, 129, 140, 147, 148, 153, 161, 162, 165, 233, 272, 276, 283, 285, 288, 302, 307, 311, 312, 313, 314 反應變數 7-8, 13, 16, 22, 23, 25, 27, 28, 29, 54, 68, 81, 90, 91, 93, 94, 95, 97, 101, 102, 150, 180, 181, 228, 233, 251, 270, 272, 273, 281, 291, 292, 293, 294, 296, 297, 298, 299, 300, 307, 308, 310, 311, 312, 313, 318

尺度分量 302

尺度因子 290

欠離散 229

74, 78, 79, 106, 108, 152, 153, 154, 162, 176, 189, 229, 232

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

關鍵詞索引

關鍵詞索引 331
關鍵詞索引 331

331

五劃

主影響 221, 224 加權最小平方法 14 功效 20, 53, 72, 80 可加性 221 可信度 167-169

可信區間 21-22, 150, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176

正確率

皮爾遜 273

98, 101, 103, 104, 105

皮爾遜

273-276, 284, 288

皮爾遜

68, 70, 70, 71, 74, 75, 76, 77, 78, 229, 230, 232, 232, 243, 244, 300

六劃

交互表

40, 54, 77, 94, 97, 181, 183, 184, 185, 186, 232

共變數

33, 37, 68, 75, 158, 284, 285, 289, 301, 302, 318

共變類型 68-71, 74, 75, 76, 77, 108, 157, 158, 159, 160, 164, 228, 229, 232, 273, 274, 284, 287, 288, 300, 315

同變異數性 44

名義測量 292

名義變數 121, 135, 181, 233

因子 2, 11, 23, 137, 138, 144, 222, 230, 236, 238, 239, 273, 275, 285, 290, 302, 310 多元共線性 20, 213, 228, 236, 237, 238, 239

多元常態分佈 20, 307 多分類反應變數 270, 291, 292, 307 多分類變數 114 多項 logit 模型 270, 292, 307, 308, 309, 310, 311, 312, 315, 318, 318, 319, 320, 321

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

332

332 Logistic 迴歸模型 ── 方法及應用
332 Logistic 迴歸模型 ── 方法及應用

Logistic 迴歸模型──方法及應用

次序相關指標 90, 92, 95

次序測量

214, 292, 292

次序變數

181, 214

自由格式

27, 32, 35

七劃

位置分量 302

完全分離

貝葉斯訊息標準 82

228, 233, 234, 235, 237, 239

八劃

空單元

228, 232, 233, 235, 237, 239

非加性

213-214, 220, 221

非標準化殘差 241, 244 非線性 6-7, 10, 11, 13, 16, 18, 20, 80, 118, 119, 213, 214, 215, 216, 219, 220, 221

非線性函數 10-11, 18

九劃

指定度 98, 101 相對風險 113, 121

十劃

效應編碼 124-125, 129, 130, 131, 131, 132, 133, 148, 314, 318 特異值 228-229, 241, 250, 251, 252, 259, 260, 261, 262 訊息測量指標 80, 84

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

關鍵詞索引

關鍵詞索引 333
關鍵詞索引 333

333

連結函數 214

十一劃

偏作用 134-135, 146, 221, 278, 279 偏相關 146-147 參照類 121-122, 124, 125, 126, 127, 128, 129, 131, 147, 164, 166, 216, 297, 309, 310, 311, 312, 313, 315 巢狀模型 77, 154, 155, 156, 157, 189 敏感度 98, 101 條件發生比率 172 異質因子 230

異變異數性 42, 44, 280, 281

第一類錯誤 150-151

第二類錯誤 151, 153

統計推斷 110, 150, 180 累積 logistic 迴歸模型 270, 292, 293, 294, 295, 297, 298, 299, 300, 302, 309, 310 累積分佈 7-9, 11, 271, 277, 290, 294 累積常態分佈 270, 278, 289

設計變數

124-126, 129, 148, 153, 181, 245

連結函數

Link Function 289, 301

連結函數

link function 302

連續變數

2, 12, 20, 23, 41, 75, 76, 110, 115, 116, 117, 118, 122, 125, 136, 146, 171, 172, 181,

214, 215, 220, 222, 233, 273, 292, 297, 311, 314

十二劃

最大概似估計 16-19, 21, 22, 36, 74, 89, 150, 160, 233

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

334

334 Logistic 迴歸模型 ── 方法及應用
334 Logistic 迴歸模型 ── 方法及應用

Logistic 迴歸模型──方法及應用

最小估計 44 單獨位置模型 302 普通最小平方法 4, 7, 14, 281 殘差 3-6, 13, 14, 41, 42, 43, 44, 44, 70, 72, 74, 87, 192, 192, 241, 242, 243, 244, 245, 246, 250, 251, 254, 255, 258, 259, 260, 261, 281 無效性 53

12, 28, 31, 41, 42, 46, 107, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121,

122, 124, 125, 126, 133, 134, 136, 137, 138, 140, 146, 150, 166, 169, 169, 170, 171, 172, 173,

231, 232, 238, 277, 280, 292, 294, 297, 298, 299, 300, 303, 305, 306, 307, 308, 310, 311, 315 發生比率 31, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 133, 137, 150, 167, 169, 169, 170, 171, 172, 231, 303, 315 結構方程模型 22, 236 虛擬變數 20, 23, 27, 63, 119, 121, 122, 124, 127, 129, 181, 215, 217, 218, 218, 219, 229, 273, 279, 280, 283, 297, 302, 312, 314 概似比 73, 81, 83, 87, 106, 153, 155, 156, 157, 163, 164, 181, 181, 315 概似函數 16-18, 73, 74, 154, 155, 156, 270, 271 準完全分離 234-235 過離散 71, 228, 229, 230, 231, 232, 273, 274

發生比

十三劃

零假設模型

83, 87, 106, 302

預測準確性

36, 68, 86, 89, 90, 96, 98, 103

預測機率 19, 69, 70, 75, 77, 78, 80, 90, 91, 93, 94, 97, 99, 103, 135, 136, 137, 141, 142, 167, 175, 241, 242, 277, 278

飽和模型 73-74, 82, 87, 157, 315

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

關鍵詞索引

關鍵詞索引 335
關鍵詞索引 335

335

十四劃

對比 41, 120, 124, 125, 127, 128, 129, 130, 166, 214, 261, 308, 310, 311, 315

對數概似函數

18, 73, 270, 271

對數線性模型

2-3, 32

槓桿度 244-246, 251, 257, 261

槓桿案例 241 槓桿點 251, 261, 262 漸近有效性 21

漸近常態性 21, 169

漸近無偏和有效 150 誤差平方和 74, 87 誤差項 3, 8, 9, 143, 212, 242, 281, 293 標記對比 125, 127, 130 標準化迴歸係數 139, 141 標準化殘差 241-242, 244, 245, 246 標準誤差 14, 20, 21, 31, 42, 44, 47, 47, 126, 150, 151, 153, 167, 168, 212, 213, 214, 228, 231, 233, 235, 236, 237, 239, 242, 271, 273, 274, 275, 311, 315 模型 106-108, 156, 157, 160, 162, 181, 205, 206, 212, 216, 223, 300

十五劃

線性函數

7, 10, 11, 11, 12, 18, 214, 229, 233

線性迴歸

2-5, 12, 13, 16, 18, 42, 74, 84, 86, 87, 106, 110, 119, 122, 135, 139, 145, 161, 180,

212, 213, 221, 222, 233, 236, 237, 238, 241, 242, 245, 251, 303

線性機率模型

3, 5, 6, 7, 10, 238

調整發生比率

116-117, 120, 169

學生化殘差 243-244, 250, 251, 255

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

336

336 Logistic 迴歸模型 ── 方法及應用
336 Logistic 迴歸模型 ── 方法及應用

Logistic 迴歸模型──方法及應用

機率界限 36, 96, 97, 101, 103, 104 機率離散變化法 136

十六劃

獨立於無關類型 308

錯誤否定率

98, 102

錯誤肯定率

98, 102

擬合優度 68, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 80, 86, 107, 108, 232, 272, 273, 274, 276, 287, 288, 291, 300, 302, 315

檢驗 71, 78, 156, 181

十七劃

簡化模型 155, 161 簡單對比 125

十八劃

離差 16, 18, 23, 27, 47, 53, 70, 71, 73, 74, 76, 77, 87, 99, 115, 117, 125, 130, 156, 157, 158, 159, 160, 162, 189, 212, 213, 214, 228, 236, 271, 314 離差統計值 158, 162

離差對比

125, 130

離散參數

229-230, 232, 274

離散變數

20, 136, 212

類確定係數 74, 88, 89, 303

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

關鍵詞索引

關鍵詞索引 337
關鍵詞索引 337

337

二十一劃

鑑別分析 99, 307

二十三劃

觀測資料對 90-92, 95

本試閱檔為五南所有。如欲購買此書,請至五南網站 www.wunan.com.tw

或來電(02)2705-5066

國家圖書館出版品預行編目資料

Logistic迴歸模型:方法及應用 Logistic

regression modelsmethods and application

王濟川,郭志剛著 ─臺北市:五