Logistic回歸模型－方法及應用Logistic Regression Models：Methods and Application

本試閱檔為五南所有。如欲購買此書，請至五南網站 www.wunan.com.
tw
或來電(02)2705-5066
本試閱檔為五南所有。如欲購買此書，請至五南網站 www.wunan.com.tw
或來電(02)2705-5066
出版者的話 1
出版者的話
人類創造了科學技術，科學技術推動了人類的文明進程。兩者的
互動影響，今天已達到了前所未有的程度：人類的經濟發展和社會進
步的需要，為科學技術迅猛的創新，提供了強大的動力；科學技術的
發展，在急劇地改變著人類的思維方式、學習方式、工作方式、生活
方式、娛樂方式。科學技術已成為強大的社會生產力和巨大的社會資
本。現在，每個國家，每個地區，甚至每個單位，都把科學技術創
新、科學技術轉化為生產力作為頭等大事，搶占科學技術制高點，以
此來提高自己的綜合實力。
新中國成立 50 多年特別是改革開放 20 多年來，隨著經濟的蓬勃
發展，科學技術得到了長足的進步，兩彈一星、載人飛船、生物工
程、信息技術等正在大步追趕國際先進水平。科學技術轉化成的強大
生產力，對國民經濟發展和社會進步、對增強綜合國力產生了重大的
影響。
改革開放以來，在中國共產黨的"科教興國"方針的鼓舞下，舉國
上下，尊重科技，學習科技，普及科技，創新科技，應用科技，發展
科技，已蔚然成風。科技結碩果、神州盡彩虹的絢麗畫面，正在展示
於世人面前。自 16 世紀中葉中國科學技術失去世界領先地位後所形
成的中西科學技術的差距，現在正在縮小。重振中華科學技術雄風的
序幕已經拉開。
為了能使我國的科學技術水平在不久的將來趕上並達到世界先進
水平，我們不僅要自己進行科學技術創新，也要學習世界上一切國家
的先進科學技術；不僅要靠國內的科技工作者發展我國的科學技術，
或來電(02)2705-5066
2 Logistic 回歸模型──方法與應用
還要藉助海外學者特別是華人學者的力量。在這種思想的指導下，我
們萌生了組織海外學者編寫科技前沿叢書的想法。這一想法在海內外
學者中引起了強烈的反響：在他們中，有的出謀獻策，有的出資開
會，有的撰稿，有的審稿，有的願把稿酬作為基金，……海內外學者
的誠言樂行，極大地感染著我們，鼓舞著我們；這一想法得到了教育
部陳至立部長和分管我社的周遠清副部長的肯定和支持，這增加了我
們開展此項工作的決心和信心。根據各方面意見，經過反復研究，最
後將叢書定名為《當代科學前沿論叢》。《論叢》是我們獻給祖國母
親的 21 世紀的聖禮，企盼我國能在 21 世紀奪回三四百年前失去的科
學技術領先的地位。《論叢》如能在推動我國科學技術進步和"科教興
國"中有所作用，將是我們的最大欣慰。為了做好本《論叢》的出版工
作，我們邀請了國內一些著名科學家和在海外工作的部分優秀學者組
成《論叢》的專家委員會，幫助籌劃、組織和評議《論叢》的出版。
隨著學科的發展，專家委員會的成員可能會有所變化。我們向一切關
心和支持《論叢》出版工作的人士，表示衷心的感謝。由於缺乏經
驗，《論叢》出版後，編輯出版方面的不足，在所難免，誠望各方指
正。
高等教育出版社
2000 年 6 月
或來電(02)2705-5066
內容簡介 1
內容簡介
在社會科學諸如社會學、心理學、人口學、政治學、經濟學以及
公共衛生學當中，大量的觀測因變量是二分類測量（即 y=1 或 y=0）。
本書專題介紹了在分析二分類因變量時最常使用的統計分析模型
之一──logistic 回歸模型。本書深入淺出，理論聯繫實際，通過例題
分析，並結合計算機統計軟件的應用，詳細介紹、闡述了該模型及其
應用。同時，還介紹了如何將 logistic 回歸模型擴展到序次 logistic 回
歸模型和多項 logit 模型，以分析序次變量和多分類名義變量為因變量
的數據。
本書提供用 SAS 和 SPSS 進行具體例題分析的計算機程序及相關
數據，並對這兩種軟件的模型估計結果進行詳盡的解釋和對比分析。
本書的讀者對象為社會科學各專業的教師及研究生，以及社會科學專
業研究人員。
或來電(02)2705-5066
序 1
王濟川
1947 年出生。1982 年四川大學經濟系畢業。
1986 年於美國康乃爾大學獲社會學碩士學
位，1990 年獲該校博士學位。1989 年 9
月-1991 年 8 月於美國密執安大學人口研究
中心作博士後研究。現任美國俄亥俄州懷特
州立大學醫學院社區衛生系教授。
王濟川博士的主要研究領域為社會科學定量
分析方法、人口分析方法、毒品濫用及疾病
預防項目的評估。
郭志剛
1954 年出生。1982 年於中國人民大學工業
經濟系獲經濟學學士，1985 年於加拿大西
安大略大學獲社會學碩士，1990 年於中國
人民大學人口研究所獲法學博士。1992 年
10 月至 1994 年 1 月於美國布朗大學人口研
究中心作博士後研究。1985 年至 1999 年在
中國人民大學人口研究所工作。現任北京大
學社會學系教授。
郭志剛博士的主要研究領域為人口統計技
術、社會科學定量分析方法，以及人口、婚
姻、家庭、老年等社會問題的分析。曾編著
《社會科學研究的量化方法》、《社會統計
分析方法──SPSS 軟件應用》，並撰寫、編著、翻譯多部人口學研究著作，發表了大量
學術論文。
或來電(02)2705-5066
前言
在過去的 20 年中，由於計算機技術和統計軟體的迅速發展，量化分析已經成為社會
科學各個學科領域中廣為應用的技術方法。在社會科學諸如社會學、心理學、人口學、
政治學、經濟學以及公共衛生學當中，logistic 迴歸模型是對二元因變數（dichotomous
dependent variable）（即 y = 1 或 y = 0）進行迴歸分析時最為普遍應用的多元量化分析方
法。根據 Hosmer 及其同事的統計（1991），在 1985～1989 年間，國際知名刊物《美國
公共衛生雜誌》上發表的文章中約有 20%（579 篇文章中的 113 篇）應用了 logistic 迴歸
模型。雖然 logistic 迴歸已經達到了如此流行的程度，但不少使用這一模型的人對於該模
型的性質和原理仍無法充分理解，在實際應用中常有困惑的問題，對於模型結果的闡述也
不一致。並且，在很多應用該方法的研究中連模型擬合優度（goodness of fit）的評估也被
忽略了。比如，在上述所統計的 113 篇文章中，只有 5%（6 篇文章）涉及到模型擬合優
度的評估。
在現有的統計教科書中，一般都有 logistic 迴歸模型的內容。然而，在這些教科書中，
logistic 迴歸往往不是作為中心內容，也缺乏關於這種方法的詳盡討論。有關專著在國外
很少，國內尚無。國外的一些專著中對於 logistic 迴歸模型的實際應用，特別是結合統計
軟體執行模型並對模型結果進行解釋方面較為欠缺。本書的主要目的是提供對於 logistic
迴歸模型的深入專題介紹，專注於這一方法本身的討論，以及模型結果的詳細闡述。作者
儘量以深入淺出的手法，旁徵博引，理論聯繫實際，大量運用例題並結合計算機統計軟體
的使用，介紹和討論該模型的原理及運用。讀者在學習本書內容之前應對多元迴歸和統計
推斷的基礎知識有所瞭解。
本書將採用國際上廣泛使用的統計軟體 SAS（Statistics Analysis System）和 SPSS
（Statistics Package for Social Sciences）來分析書中的例題。本書將提供用這兩種軟體進
Hosmer. Taber, and Lemeshow. 1991.
或來電(02)2705-5066
2 前言
行具體例題分析的計算機程序，並對於這兩種軟體的模型估計結果進行詳細的解釋和對比
分析。本書中例題的主要資料是由作者模擬設計的，其原始資料可從下列網址下載：
http:// www.hep.com.cn;http: //www.wright.edu/～jichuan.wang
http: //www.disa.pku.edu.cn∕課程
本書共由 8 章組成。
在第 1 章中，我們將首先討論分析二元因變數時所產生的問題，並討論經典的線性機
率模型（linear probability model, LPM）及其侷限性。然後介紹 logistic 迴歸模型。
在第 2 章中，我們將介紹 logistic 迴歸模型估計所用的最大概似估計法（maximum
likelihood estimation, MLE）、模型估計的假設條件，以及最大概似估計的性質。此外，
還將介紹對分組資料進行 logit 分析的加權最小平方法（weighted least squares, WLS）。
第 3 章介紹 logistic 迴歸模型的評估，討論各種擬合優度（goodness of fit），預測準
確性（predictive accuracy）和模型卡方統計（model chi-square statistic）。
第 4 章關注於 logistic 模型迴歸係數意義的闡釋。除了討論發生比率（odds ratio）、
預測機率（predicted probability）和互動影響（interactions）外，這一章還要討論使用各
種不同編碼時分類自變數迴歸係數的意義和解釋。
第 5 章討論 logistic 迴歸係數的統計推斷（statistical inference）。
第 6 章的內容涉及模型的選擇，討論建立模型過程中的策略。
第 7 章關於模型的診斷，討論多元共線性（multicollinearity）、有問題的資料架構
（problematic data configuration）、極端值（outliers）、特異影響案例（influential obser-
vations）和過離散分佈（overdispersion）等問題，以及這些問題的補救對策。
在最後一章中，我們將介紹與 logistic 迴歸類似的另外一種分析二元因變數的備選模
型──probit 模型。然後，將 logistic 迴歸模型擴展到次序 logistic 迴歸模型（ordered
logistic regression model）和多項式 logit 模型（multinomial logit model），這些模型分別
用以解決次序變數和多分類名義變數為因變數的問題。
或來電(02)2705-5066
目錄
1 二元因變數與 logistic 迴歸模型
1.1 引言／ 2
1.2 線性機率模型（Linear Probability Model, LPM）／ 3
1.3 Logistic 迴歸模型／ 7
2 Logistic 迴歸模型估計
2.1 最大概似估計（Maximum Likelihood Estimation, MLE）／ 16

2.2 Logistic 迴歸模型估計的假設條件／ 20
2.3 最大概似估計的性質／ 21
2.4 模型估計的樣本規模／ 21
2.5 擬合 logistic 迴歸的示範模型／ 23
2.6 用分組資料作 logistic 迴歸分析／ 40
3 Logistic 迴歸模型評價
3.1 擬合優度（Goodness of fit）／ 68

2 2
3.1.1 皮爾遜（Pearson ）／ 68
3.1.2 離差（Deviance）／ 73
3.1.3 Hosmer-Lemeshow 擬合優度指標／ 77
3.1.4 訊息測量指標（Information Measures）／ 80
或來電(02)2705-5066
2 目錄
3.2 Logistic 迴歸模型的預測準確性／ 86

3.2.1 類 R2指標（Analogous R2）／ 86
3.2.2 預測機率與測量值之間的關聯／ 90
3.2.3 分類表（Classification Table）／ 96
2
3.3 模型統計（Model Chi-Square Statistic）／ 106
4 Logistic 迴歸係數解釋
4.1 發生比和發生比率（Odds and Odds Ratio）／ 111

4.2 按發生比率來解釋 logistic 迴歸係數／ 114
4.2.1 連續自變數的發生比率／ 115
4.2.2 二元自變數的發生比率／ 119
4.2.3 分類自變數的發生比率／ 121
4.3 用機率來解釋自變數的作用／ 133
4.4 預測機率／ 135
4.5 標準化係數／ 139
4.6 偏相關（Partial Correlation）／ 146
5 Logistic 迴歸係數的統計推斷
5.1 Logistic 迴歸係數的顯著性檢驗／ 150

5.1.1 Wald 檢驗／ 151
5.1.2 概似比檢驗／ 153
5.1.3 檢驗係數子集／ 161
5.2 Logistic 迴歸參數的可信區間／ 166
5.2.1 Logistic 迴歸係數的可信區間／ 167
或來電(02)2705-5066
目錄 3
5.2.2 發生比率的可信區間／ 169

5.2.3 事件機率的可信區間／ 173
6 建立模型
6.1 選擇變數／ 180

6.1.1 篩選自變數／ 181
6.1.2 模型的比較／ 188
6.1.3 逐步模型選擇法／ 190
6.1.4 排除有意義的變數和包括沒有意義的變數／ 212
6.2 非線性與非加性（Nonlinearity and Nonadditivity）／ 213
6.2.1 非線性／ 214
6.2.2 非加性／ 220
7 Logistic 迴歸診斷
7.1 過離散（Overdispersion）／ 228

7.2 空單元（Zero Cell Count）／ 232
7.3 完全分離（Complete Separation）／ 233
7.4 多元共線性（Multicollinearity）／ 236
7.5 特異值和特殊影響案例（Outliers and Influential Observa-
tions）／ 241
7.5.1 殘差影響的測量／ 241
7.5.2 檢查特異值和特殊影響案例／ 250
或來電(02)2705-5066
4 目錄
8 Logistic 迴歸的替代模型及擴展
8.1 Probit 模型／ 270

8.1.1 Probit 模型的對數概似函數／ 270
8.1.2 擬合 probit 示範模型／ 271
8.1.3 Probit 模型的解釋／ 276
8.1.4 用分組資料建立 probit 模型／ 280
8.1.5 Logistic 迴歸模型與 probit 模型的比較／ 289
8.2 Logistic 迴歸擴展於多分類反應變數／ 291
8.2.1 累積 logistic 迴歸模型（Cumulative Logistic Regression
Model）／ 292
8.2.2 多項 logit 模型（Multinomial Logit Model）／ 307
參考文獻／
關鍵詞索引／
或來電(02)2705-5066
TABLE OF CONTEMTS
1 Dichotomous dependent variable and logistic regression model
1.1 Introduction ／ 2
1.2 Linear probability model (LPM)／ 3
1.3 Logistic regression model ／ 7
2 Estimation of logistic regression model
2.1 Maximum likelihood estimation (MLE)／ 16

2.2 Assumptions of logistic regression model estimation ／ 20
2.3 Properties of MLE ／ 21
2.4 Sample size for model estimation ／ 21
2.5 Examples of logistic regression models ／ 23
2.6 Logistic analysis with grouped data ／ 40
3 Evaluation of logistic regression model
3.1 Goodness of fit ／ 68

2
3.1.1 Pearson ／ 68
3.1.2 Deviance ／ 73
3.1.3 Hosmer-Lemeshow goodness of fit statistic ／ 77
3.1.4 Information measures ／ 80
或來電(02)2705-5066
2 TABLE Of CONTEMTS
3.2 Predictive accuracy of logistic regression model ／ 86

3.2.1 Measures of analogous R2／ 86
3.2.2 Association between predicted probability and observed
response ／ 90
3.2.3 Classification table ／ 96
3.3 Model Chi-square statistic ／ 106
4 Interpretation of logistic regression coefficients
4.1 Odds and odds ratio ／ 111

4.2 Interpretating logistic regression coefficients in odds ratio ／ 114
4.2.1 Odds ratio for continuous variable ／ 115
4.2.2 Odds ratio for indicator variable ／ 119
4.2.3 Odds ratio for categorical variable ／ 121
4.3 Interpretating effect on probability ／ 133
4.4 Predicted probabilities ／ 135
4.5 Standardized coefficients ／ 139
4.6 Partial correlation ／ 146
5 Statistical inference for logistic regression coefficients
5.1 Significance test of logistic regression coefficients ／ 150

5.1.1 Wald test ／ 151
5.1.2 Likelihood ratio test ／ 153
5.1.3 Testing a subset of coefficients ／ 161
或來電(02)2705-5066
TABLE OF CONTEMTS 3
5.2 Confidence intervals for logistic regression parameter

estimate ／ 166
5.2.1 Confidence intervals for logistic regression coefficient ／
167
5.2.2 Confidence intervals for odds ratio ／ 169
5.2.3 Confidence intervals for predicted probabilities ／ 173
6 Model building
6.1 Variable selection ／ 180

6.1.1 Screening candidates of independent variables ／ 181
6.1.2 Model comparison ／ 188
6.1.3 Stepwise computer model selection ／ 190
6.1.4 Excluding relevant variables and including irrelevant
variables ／ 212
6.2 Nonlinearity and nonadditivity ／ 213
6.2.1 Nonlinearity ／ 214
6.2.2 Nonadditivity ／ 220
7 Logistic regression model diagnostics
7.1 Overdispersion ／ 228

7.2 Zero cell count ／ 232
7.3 Complete separation ／ 233
7.4 Multicollinearity ／ 236
7.5 Outliers and influential observations ／ 241
或來電(02)2705-5066
4 TABLE Of CONTEMTS
7.5.1 Residuals and measures of influence ／ 241

7.5.2 Detecting Outliers and influential observations ／ 250
8 Alternative model and extension of logistic regression
8.1 Probit model ／ 270

8.1.1 The log likelihood function of probit model ／ 270
8.1.2 Examples of probit model ／ 271
8.1.3 Interpretation of probit model ／ 276
8.1.4 Probit model with grouped data ／ 280
8.1.5 Comparison between the logistic regression and probit
models ／ 289
8.2 Extension of logistic regression to polytomous response
variables ／ 291
8.2.1 Cumulative logistic regression model ／ 292
8.2.2 Multinomial logit model ／ 307
Reference ／
Subject index ／
或來電(02)2705-5066
CHAPTER 1
二元因變數與
logistic 迴歸模型
引言
線性機率模型（Linear Probability Model, LPM）
Logistic 迴歸模型
或來電(02)2705-5066
2 Logistic 迴歸模型──方法及應用
1.1 引言
線性迴歸模型（linear regression model）在定量分析的實際研究中

也許是最流行的統計分析方法了。然而在許多情況下，線性迴歸會受
到限制。比如，當因變數是一個分類變數（categorical variable）而不是
一個連續變數（continuous variable）時，線性迴歸就不適用。實際上，
許多社會科學的觀察都只是分類的而不是連續的。比如，政治學中經
常研究的是否投票給某候選人。又如，經濟學研究中所涉及的是否銷
售或購買某種商品、是否簽訂一個合約等等。這種選擇量度通常分為
兩類，即「是」與「否」。在社會學和人口研究中，人們的社會行為
與生命事件的發生如犯罪、逃學、遷移、結婚、離婚、生育、患病等
等都可以按照二元變數來量測。在研究中，態度與偏好等心理現象經
常也是按幾個類型進行量測的，如「強烈反對」、「反對」、「中
立」、「支持」和「強烈支持」。此外，雖然一些量測在理論上可以
是連續變數，比如某件事物對於人們生活的重要程度，但是在實際調
查中卻常常按次序分類（如：「不重要」、「重要」、「非常重要」）
進行量測。還有的時候，人們甚至更願意將連續量度轉換為類型劃
分。一種常見的情況就是當分析學生升學考試成績的影響因子時，考
試分數可以被劃分成兩類：錄取分數以上和錄取分數以下。只要選定
一個分界點，連續變數便可以被轉換為二元變數。
在分析分類變數時，通常採用的一種統計方法是對數線性模型
（log-linear model）。在本書中，我們將提供對數線性模型的一種特
Feinberg, 1985；Agresti, 1990
或來電(02)2705-5066
Chapter1 二元因變數與 logistic 迴歸模型 3
殊形式 ──logistic 迴歸模型。當對數線性模型中的一個二元變數被當
作因變數並定義為一系列自變數的函數時，對數線性模型就變成了
logistic 迴歸模型。為了便利廣大讀者，我們將不從一般對數線性模型
的原理出發，而是按類似於線性迴歸模型的方式來描述 logistic 迴歸模
型。
1.2 線性機率模型
（Linear Probability Model, LPM）
我們知道，線性迴歸模型沒有對所使用的自變數值的量度加以限
制，只是要求每個自變數不能是其它自變數的完全線性組合（exact
linear combination），並且自變數不能與誤差項相關。自變數可以是連
續的，也可以只取正數和 0 值（如百分比），或者都是整數（如一個
家庭的子女數），另外也可以是二元型的（如男性取 1 值，女性取 0
值）。然而，因變數卻必須是連續的。由於對迴歸方程中的自變數、
迴歸係數及殘差（residual error）的取值並無任何限制，因此作為一套
自變數 x 的函數的因變數 y 就必須能夠在負無窮 ∞至正無窮+∞之間
自由取值。然而，在實際資料中， y 可能只在有限區間取值。比如，
如果 y 是個人收入，測量值只是存在於一個相對很小的值域中（從最
低收入至最高收入之間）。如果我們假設收入是調查對象的年齡、受
教育年限、性別等變數的函數，那麼關於因變數為連續測量的假設也
許是個不錯的近似，因為所有的自變數也同樣是有一定限制的。換句
話說，沒有哪個自變數能真的取任何值。比如，年齡就被限制在壽命
的區間內；受教育年限可以在 0 至像 20 這樣的最大值中間；性別只能
或來電(02)2705-5066
被測量為兩個值（如 0 為女性、1 為男性）。正因為如此，即使因變
數 y（收入）並不能自由取任何值，假設因變數為連續測量仍可被接
受。但是，如果因變數 y 只取分類值，尤其是只取二元值（即 0 或
1），就嚴重違反有關連續測量的假設，特別值得給予注意。
讓我們用一個例子來看看，要是在線性迴歸模型中的因變數只取
0 和 1 兩個值會怎樣。假設用一個普通最小平方法（ordinary least squares,
OLS）線性迴歸模型來解釋是否購買某種家庭耐用消費品，如 VCD 的
消費情況。所採用的迴歸方程為：
yi = + xi + ei 1.2.1
其中 xi 是第 i 個家庭的年收入， yi 是一個二元變數，於是有：
當第 i 個家庭在一段時間（如某年）內購買 VCD 機時， yi =1，否
則， yi =0。
假設隨機變數 xi 與殘差項 ei 無關（independent）。而殘差項 ei 是一
個平均值為 0 的隨機變數（random variable），且 ei 與 ej 無關，若 i j。
（即殘差項之間不存在相關）。
因為 yi 只能取值為 0 或 1，當 xi 已給定的情況下， yi 的期望值
（expected value）為
E yi xi = E + xi + ei 1.2.2
= + xi
由於 yi 的值不是 0 就是 1， yi 的期望值實際上就是 E（ yi ∣ xi ）=
P（ yi = 1∣ xi ）,它可以解釋為對於第 i 個家庭購買 VCD 的條件機率測
量。所以，公式 1.2.2 等號的左側可以視為事件發生的機率。正因為
或來電(02)2705-5066
如此，因變數為二元型的線性迴歸模型也被稱為線性機率模型（linear
probability model, LPM）， xi 每增加一個單位總是導致事件發生的機率
相對增加一個固定的量（Kmenta, 1986; Long, 1997）。迴歸係數代表
相對於 xi 一個單位變化時的機率增量。與此對應，事件不發生的機率
應該為
P yi = 0 xi = 1 + xi = 1 xi
從公式 1.2.1，我們可以得出線性機率模型的殘差項為
ei = yi xi
因為 yi 只能取 0 或 1，那麼
當 yi =0 時，有 ei= 0 xi = xi
當 yi =1 時，有 ei= 1 xi
令 f（ ei ）為殘差項的密度函數（density function），我們定義
當 yi =0 時，有 f（ ei ）= fi
當 yi =1 時，有 f（ ei ）=1 fi
殘差的期望值等於
E ei = fi × xi + 1 fi × 1 xi 1.2.3
因為殘差的期望值假設為 0，根據公式 1.2.3，我們有
fi = 1 xi
按照定義， ei 的變異數（variance），等於
或來電(02)2705-5066
e0i = fi xi 2 + 1 f i 1 xi 2
1.2.4
= 1 xi + xi 2 + + xi 1 xi 2
= + xi 1 xi
= P yi =1 x0i P yi = 0 xi
從公式 1.2.4 中可以看出，殘差的變異數與條件機率測量值有關，

因而也就與因變數的值變動有關。於是不同的測量值便有不同的變異
數。在統計中，這稱為變異數的異質性（heteroscedasticity）。
由於公式 1.2.1 中因變數的特殊性質，線性機率模型（LPM）的估
計和預測存在許多問題：
第一，由於在線性機率模型中殘差的異質性，參數估計的變異數
將是有偏的。因此，任何假設檢驗，比如 t 檢驗和 F 檢驗，都是無效
的，即使樣本很大也是如此。
第二，由線性機率模型估計的事件機率值（yi = + xi）在遇到很 ‹
‹
大或很小的 xi 值時可能會超出 [0, 1] 區間。
最後，線性機率模型最嚴重的問題是它的函數形式。因為線性機
率模型是線性的，即無論 xi 取什麼值，其迴歸係數和都應是常
數。然而，公式 1.2.1 中的截距和斜率對於所有 xi 值並不是常數，
而是有如下變化：
在 xi ≦ / 時，截距 = 0 且斜率 = 0，
在 / ≦ xi ≦ (1 ) 時，截距= 且斜率= ，
在 xi ≧ (1 )/ 時，截距 =1 且斜率 =0。
圖 1.1 顯示了這種變數與自變數之間的關係。很明顯，以二元變
數作為因變數的模型在自變數與事件發生機率之間存在非線性關係。
而線性機率模型（LPM）不能擬合（fitting）這種非線性關係（見附註
1）。
或來電(02)2705-5066
0 1 x
圖 1.1 線性機率模型的圖示
1.3 Logistic 迴歸模型
由於普通最小平方法模型的不適宜性，建議使用非線性函數來分
析二元因變數。事件發生的條件機率P（ yi =1∣ xi ）與 xi 之間的非線性
關係通常是單調函數，即隨著 xi 的增加P（ yi =1∣ xi ）也單調增加，或
者是隨著 xi 的減少 P（ yi =1∣ xi ）也單調減少。一個選擇便是值域在
（0, 1）之間有著 S 形狀的曲線，這樣在 xi 趨近於負無窮大時，E（ yi ）
趨近於 0，在 xi 趨近於正無窮大時，E（ yi ）趨近於 1。這種曲線類似
於一個隨機變數的累積分佈曲線。在二元因變數分析中曾使用多種分
佈函數（Cox, 1970）。然而，最常用的函數則是 logistic 分佈。另一種
可供選擇的分佈函數是標準常態分佈（normal distribution），與之對應
的是 probit 模型（將在第 7 章介紹）。這裡我們先簡要地描述一下把
logistic 函數用於二元因變數分析的理論依據。
假設有一個理論上存在的連續反應變數 y*i 代表事件發生的可能
性，其值域為負無窮至正無窮。當該變數的值跨越一個臨界點 c（比
如 c =0），便導致事件發生。於是有：
或來電(02)2705-5066
當 y*i >0 時， yi =1，

在其他情況下， yi =0。
這裡， yi 是實際觀察到的反應變數。 yi =1 表示事件發生， yi =0 表
示事件未發生。如果假設在反應變數 y*i 和自變數 xi 之間存在一種線
性關係，即
y*i = + xi + i 1.3.1
由公式 1.3.1，我們得到
P yi = 1 xi = P + xi + i >0 1.3.2
=P i> xi
通常，假設公式 1.3.1 中誤差項 i 有 logistic 分佈或標準常態分佈。
為了取得一個累積分佈函數（cumulative distribution function, CDF），一
個變數的機率需要小於一個特定值。所以，我們必須改變公式 1.3.2 中
不等號的方向。由於 logistic 分佈和常態分佈都是對稱的，因此公式
1.3.2 可以改寫為：
P yi = 1 xi = P i + xi 1.3.3
=F + xi
其中 F 為 i 的累積分佈函數。分佈函數的形式決定於公式 1.3.1 中 i 的
假設分佈。如果假設 i 為 logistic 分佈，就得到 logistic 迴歸模型；如果
假設 i 為標準常態分佈，就得到 probit 模型（Long, 1997）。因為 y*i 不
能直接觀察，其量度既不能由 logistic 迴歸模型來決定，也不能由 probit
或來電(02)2705-5066
模型來決定。在 probit 模型中，誤差項 i 的變異數為 1。而在 logistic 迴
2
歸模型中，誤差項 i 的變異數為 / 3 3.29 。在本書中，我們將主要
介紹 logistic 迴歸模型，然後在第 7 章對 probit 模型作一簡要介紹。標
2
準 logistic 分佈的平均值等於 0，變異數等於 / 3 3.29 。選擇這樣一個
變異數是因為它可以使累積分佈函數取得一個較簡單的公式：
P yi=1 xi = P i + xi 1.3.4
1
=
1+e i
這一函數稱為 Logistic 函數，它具有 S 型的分佈，圖 1.2 中給出它
的圖形。
如果我們將 i 在負無窮至正無窮區間變化時的函數值標示出來，
就得到了圖 1.2 中的圖形。注意在這一圖形的左側，當 i 趨近於負無
窮時，logistic 函數有
P yi=1 xi = 1/ 1 + e
= 1/ 1+e
=0
1.0
0.5
p=1/ 1+
0.0
∞ / ∞
圖 1.2 logistic 函數的曲線圖
或來電(02)2705-5066
當 i 趨近於正無窮時，logistic 函數有
P yi = 1 xi = 1/ 1 + e
= 1/ 1+e
=1
正如圖形所示，無論 i 為任何值，logistic 函數 P yi=1 xi =1/ 1+e i
的值域範圍均在 0 至 1 之間。logistic 函數的這一性質保證了由 logistic
模型估計的機率決不會大於 1 或小於 0。logistic 函數的另一個性質也
是很有用的，即這個函數的形狀對於研究機率也很合適。如圖 1.2 所
示，如果我們從 i= ∞ 開始向右移動，當 i 增加時，這一函數的值
先是很緩慢地增加，然後轉向迅速增加，之後增加的速度又開始逐漸
減緩，最後當 i 趨近於 +∞ 時，函數值趨近於 1。logistic 函數的 S 型曲
線顯示， i 的作用對於某個案例發生某一事件的機率是變化的，在 i
值很小時其作用也很小，然而在中間階段對應的機率增加很快，但是
在 i 值增加到一定程度以後，機率就保持在幾乎不變的水準了。這
說明， i 在 P yi=1 xi 接近於 0 或 1 時的作用要小於當 P yi=1 xi 處於中
間階段時的作用。這種非線性函數的形式有助於解決線性機率模型所
不能解決的問題。比如，就前面例題中提到的家庭購買 VCD 的機率
問題而言，並不是家庭收入每增加一定量，購買 VCD 的機率就固定
增加一定值。實際情況是，家庭收入在某一段水準內變化時對購買機
率的變化影響較大，而較低或較高收入對購買機率的變化影響都不
大。因為前者多買不起，後者則差不多都有了。
現在讓我們從 logistic 函數轉向 logistic 迴歸模型，它才是我們真正
的興趣所在。為了根據 logistic 函數取得 logistic 迴歸模型，我們將公式
1.3.4 重寫為：
或來電(02)2705-5066
1
P yi = 1 xi = + xi 1.3.5
1+e
其實，這就是當 i 為（ + xi ）時的累積分佈函數。在這裡， i 被
定義為一系列影響事件發生機率因子的線性函數，即
i= + xi 1.3.6
其中 xi 為自變數，和分別為迴歸截距和迴歸係數。為了簡化，這
裡以一元迴歸為例。然而，同樣的原則也適用於多元迴歸。
將事件發生的條件機率標記原則定為 P yi = 1 xi = pi，我們就能得
到下列 logistic 迴歸模型
1
pi =
1+e + xi
e + xi
= 1.3.7
1+e + xi
其中， pi 為第 i 個案例發生事件的機率，它是一個由變數 xi 構成
的非線性函數（non-linear function）。然而這個非線性函數可以被轉換
為線性函數（linear function）。
首先，定義不發生事件的條件機率為
e + xi
1 pi = 1 + xi
1+e
1
= 1.3.8
1 + e + xi
那麼，事件發生機率與事件不發生機率之比為
或來電(02)2705-5066
pi + xi
=e 1.3.9
1 pi
這個比被稱之為事件的發生比（the odds of experiencing an event），

簡稱為 odds。我們將在第 4 章討論 odds 及其有關概念。odds 一定為正
值，因為 0< pi<1 ，而且沒有上界。將 odds 取自然對數就能夠得到一
個線性函數：
pi
= + xi 1.3.10
1 pi
公式 1.3.10 將 logistic 函數做了自然對數轉換，這稱作 logit 形式

（logit form），也稱作 y 的 logit，即 logit（ y ）。
這一轉換的重要性在於，logit（ y ）有許多可利用的線性迴歸模型
的性質。logit（ y ）對於其參數而言是線性的，並且與 x 的值有關，它
的值域為負無窮至正無窮。從公式 1.3.10 我們可以看出，當 odds 從 1
減少到 0 時，logit（ y ）為負值且絕對值越來越大；當 odds 從 1 增加到
正無窮時，它為正值且值越來越大。於是，我們就不為機率估計值會
超過機率值域的問題所困了。logit 模型的係數和可以按照一般迴歸
係數那樣來解釋。一個變數的作用如果是增加對數發生比（log odds）
的話，也就是增加事件發生的機率。反之亦然。
就概念而言，公式 1.3.7 表現的是「logistic 迴歸」，因為它是 logistic
分佈函數，而公式 1.3.10 則表現的是「logit 模型」，因為它採用的是
logit 形式。在有關文獻中，有時對 logistic 迴歸和 logit 模型是根據所用
自變數是否為連續變數來劃分。有些研究人員將以分類自變數（categorical
independent variables）構成的模型稱為 logit 模型，而將既有分類自變數
又有連續自變數（continuous independent variables）的模型稱為 logistic 迴
或來電(02)2705-5066
歸模型。但有時為了方便，不管自變數是什麼類型，人們將 logistic 迴
歸模型統稱為 logit 模型。人們平常也將「logistic 迴歸」、「logistic 模
型」、「logistic 迴歸模型」及「logit 模型」的稱謂相互通用，來指同
一個模型（Feinberg, 1985; DeMaris, 1992; Liao, 1994）。本書中，我們統
一稱 logistic 迴歸模型。
儘管線性迴歸分析的原則也應用於 logistic 迴歸模型，但我們應當
記住，logistic 迴歸與線性迴歸是完全不同的。首先，線性迴歸的結果
變數（outcome variable）（或稱因變數（dependent variable）或反應變數
（response variable））與其自變數之間的關係是線性的，而 logistic 迴
歸中結果變數與自變數之間的關係是非線性的，儘管非線性關係可以
被轉換為線性關係。其次，我們在線性迴歸中通常假設，對應自變數
xi 的某個值，變數 yi 的測量值結果為常態分佈。但是在 logistic 迴歸
中，變數的測量值 yi 結果卻是二項分佈。最後，在 logistic 迴歸模型中
（即公式 1.3.10），線性迴歸模型中有的殘差項在此並不存在。
當有 k 個自變數時，公式 1.3.7 可擴展為：
K
+ k xk i
e
pi = k=1
K 1.3.11
+ k xk i
1+e k=1
那麼，相應的 logistic 迴歸模型將有下列形式：
pi K
= + k xki 1.3.12
1 pi k=1
其中，pi = P yi = 1 x1i , x2i , … , xKi 為在給定系列自變數x1i, x2i, …, xKi

的值時的事件發生機率。
或來電(02)2705-5066
一旦我們擁有各個案例的觀測自變數 x1 至 xK 值構成的樣本，以及
擁有其事件發生與否的測量值，我們就能夠使用這些訊息來分析和描
述在特定條件下事件的發生以及發生的機率。
附註：
Goldberger（1964）建議一種兩步驟程序來解決這一問題。在第一步中
先採用最小平方法（Least Squares）將 yi 對 xi 進行迴歸分析，估計出係數
和。這一步產生出公式 yi = + xi + i 中參數的一致性估計（consistent esti-
mate）。在第二步中，再對殘差的變異數 Var（ i ）進行估計。然後，採用
i 的標準誤差的倒數作為權數來進行加權最小平方法（weighted least squares,
WLS）的迴歸。其權數 i 的計算公式為：
1/2
i = 1/SE i = 1/ i
‹
1/2
= 1/ + xi 1 + xi
‹
然後，將公式 1.2.1 的兩側分別乘以權數 i ，得到
* *
iy i = i+ ix i + ie i
可以證明（Goldberger, 1964）， iei 有相同的變異數，因此再用普通最

小平方法將 i yi 對 i xi 迴歸便能夠得到無偏的參數估計和有效的統計檢
‹
* *
i+ ix i 仍然可能超出 0
‹
驗。然而，所得到的事件發生機率的估計值
至 1 的範圍。
或來電(02)2705-5066
CHAPTER 2
Logistic
迴歸模型估計
最大概似估計（Maximum Likelihood Estimation, MLE）

Logistic 迴歸模型估計的假設條件
最大概似估計的性質
模型估計的樣本規模
擬合 logistic 迴歸的示範模型
用分組資料作 logistic 迴歸分析
或來電(02)2705-5066
在第 1 章對 logistic 迴歸模型做了介紹以後，現在我們來介紹該模
型的估計。通常用來估計 logistic 迴歸模型的資料有兩種形式，即單個
案例資料與以分組形式構成的資料。單個案例資料，也稱微觀資料，
一般從抽樣調查中取得，每個案例的變數值反應一個觀察對象各方面
的情況，如 x 為自變數， y 為取值 0 或 1 的反應變數。分組資料，也
稱宏觀資料，來自於匯總水準。我們先介紹用微觀資料進行模型估
計，然後介紹一個轉形的 OLS 模型對分組資料做 logistic 迴歸分析，並
用分組資料來執行微觀水準的 logistic 迴歸模型。
2.1 最大概似估計
（Maximum Likelihood Estimation, MLE）
在線性迴歸中估計未知總體參數時主要採用最小平方法。這一方
法的原理是根據線性迴歸模型選擇參數估計值，使因變數的測量值與
模型估計值之間的離差平方值為最小。而最大概似估計法則是統計分
析中另一常用模型參數估計方法。在線性迴歸分析中，最大概似估計
法可以得到與最小平方法相同的結果。與最小平方法相比，最大概似
估計法既可以用於線性模型，也可以用於更為複雜的非線性估計。由
於 logistic 迴歸是非線性模型，因此最大概似估計法是最常用的模型估
計方法。
在應用最大概似估計法之前，我們先要建立一個函數，稱為概似
函數（likelihood function）。這一函數將觀測資料的機率表述為未知模
型參數的函數。模型參數的最大概似估計是選擇能夠使這一函數值達
到最大的參數估計值。換句話說，這套參數估計能夠透過模型以最大
或來電(02)2705-5066
Chapter2 Logistic 迴歸模型估計 17
機率再現樣本觀測資料。下面，我們介紹如何透過最大概似估計法來
估計 logistic 迴歸模型的參數。
假設有由 N 個案例構成的總體，Y1 , …, YN 。從中隨機抽取 n 個案
例作為樣本，分別為 y1, …, yn 。設pi = P（yi = 1 xi 為給定 xi 的條件下得
到結果 yi =1 的條件機率；而在同樣條件下得到結果 yi = 0 的條件機率
為 P yi = 0 xi =1 pi。於是，得到一個測量值的機率為：
P yi = pi yi 1 pi 1 yi
2.1.1
其中， yi = 1 或 yi = 0。式中 yi 或（1 yi ）只是表示對於一個特定觀測，

哪一項機率是有關的。當 yi = 1 時，P ( yi ) = pi = P yi = 1 x ，否則 P yi =
1 p i = P y i = 0 xi 。因為各項觀測相互獨立，所以它們的聯合分佈可
以表示為各邊際分佈的乘積：
n
L = pi yi 1 pi 1 yi
2.1.2
i=1
式 2.1.2 也稱為 n 個觀測的概似函數。在第 1 章中講過，pi =
+ xi + xi
e 1+e 。我們的目的是求出能夠使這一概似函數的值最大的
參數估計。也就是說，最大概似估計就是求解出具有最大可能取得所
給定的樣本觀測資料的參數估計。於是，最大概似估計的關鍵是估計
出參數和的值，並透過它們使式 2.1.2 取得最大值。然而，使概似
函數 L（）最大化的實際過程是非常困難的。一般方法是間接利用求
概似函數的自然對數（即 ln L ( ) ）最大值，而不是直接對概似函數
本身求最大。因為 ln L ( ) 是 L ( )的單調函數，使 ln L ( ) 取得最大
值的值同樣使 L ( )取得最大值。透過分析 ln L ( ) ，式 2.1.2 中相乘
各項轉換為對數項的相加，於是使得數學運算變得較為容易。以式
或來電(02)2705-5066
1.3.10 作為示範，其 logistic 迴歸模型的對數概似值為：
n
L = pi yi 1 pi 1 yi
i=1
n
= yi pi = 1 yi 1 pi
i=1
n pi
= yi + 1 pi 2.1.3
i=1
1 pi
n e + xi
= yi + xi + 1 + xi
i=1
1+e
n
+ xi
= yi + xi 1+e
i=1
式 2.1.3 稱為對數概似函數（log likelihood function）。為了估計能

使 ln [L ( )] 最大的總體參數和值，先分別對和求偏導數，然
後令它等於 0：
L n e + xi
= yi + xi 2.1.4
i=1
1+e
L n e + xi
= yi + xi xi 2.1.5
i=1
1+e
式 2.1.4 和式 2.1.5 稱為概似方程（likelihood equations）。如果模型

中有 k 個自變數，那麼就有 k + 1 個聯立方程來估計和 1, 2, …, k 的
值。在線性迴歸中，概似方程是透過把離差平方和分別對和求偏
導數後得到的，它對於未知參數都是線性的，因此很容易求解。但是
對於 logistic 迴歸，如式 2.1.4 和式 2.1.5 是和的非線性函數，所以求
解十分困難。實際上，不求助於現代計算機技術，幾乎是無法求解
的。最大概似估計法是利用疊代（iteration）計算完成的。其疊代程序
已經置於 logistic 迴歸軟體之中。所以，我們用不著關心具體的疊代方
或來電(02)2705-5066
Chapter2 Logistic 迴歸模型估計 19
法，因為計算機可以為我們處理好各種計算細節。對 logistic 迴歸模型

中最大概似估計方法感興趣的讀者，可參閱 McCullagh and Nelder （1983）
與 Eliason （1993）。
由式 2.1.4 和式 2.1.5 提供的和值估計稱為最大概似估計（maximum
likelihood estimates）。按照一般統計標記原則，我們用加「ˆ」符號的
‹
‹
方法表示參數估計。於是，我們所感興趣的是和。它們是和的
模型估計值；而 pi 是條件機率 pi 的最大概似估計。這個值是在給定 xi
‹
的條件下 yi =1 的條件機率的估計，它代表了 logistic 迴歸模型的擬合值

或預測值。當令偏導函數等於 0 時，由式 2.1.4 可以得到如下的結果：
n n
yi = pi 2.1.6
‹
i=1 i=1
這意味著測量值 yi 之和等於預測機率之和。這一性質在評估模型
擬合情況時非常有用，我們將在第 3 章看到式 2.1.6 的應用。
最大概似估計的漸近變異數（asymptotic variance）和共變異數
（covariance）可以由訊息矩陣的逆矩陣（inverse of the information matrix）
估計出來。訊息矩陣實際上是 ln L ( ) 二階導數的負值的期望值，可
以用下列形式表示：
2
L
I =E 2 2.1.7
訊息矩陣的逆矩陣為：
1
I 2.1.8
或來電(02)2705-5066
‹
‹
和漸近變異數的估計就是訊息矩陣的逆矩陣中對角線上的元
素值，而對角線以外各元素值為各項參數之間的共變異數估計。
2.2 Logistic 迴歸模型估計的假設條件
Logistic 迴歸模型估計的一些假設條件與 OLS 迴歸中的十分類似。

首先，資料必須來自於隨機樣本。第二，因變數 yi 被假設為 K 個自變
數 xki k = 1, 2, …, K 的函數。第三，正如 OLS 迴歸，logistic 迴歸也對多
元共線性（multicollinearity）敏感。自變數之間存在的多元共線性會導
致標準誤差的膨脹。
Logistic 迴歸模型還有一些與 OLS 迴歸不同的假設。第一，logistic
迴歸的因變數 yi 是二分變數，這個變數只能取值 0 或 1。研究的興趣
在於事件發生的條件機率，即P yi = 1 xki 。第二，正如公式 1.3.11 中所
定義的，logistic 迴歸中因變數和各自變數之間的關係是非線性的。第
三，在 OLS 迴歸中要假設相同分佈性（homoscedasticity）或稱變異數
不變，類似的假設在 logistic 迴歸中卻不需要。最後，logistic 迴歸也沒
有關於自變數分佈的假設條件。各自變數可以是連續變數，也可以是
離散變數，還可以是虛擬變數（dummy variable）。並且，也不需要假
設它們之間存在多元常態分佈（multinormality）。但是，自變數之間
如果存在多元常態分佈關係將能夠增加模型的功效（power），求解也
能夠提高穩定性（Tabachnick & Fidell, 1996）。
或來電(02)2705-5066
關鍵詞索引
Deviance 殘差 243-244, 250, 254, 259, 261

Hosmer-Lemeshow 指標 77, 300
logit 12-13, 110, 115, 117, 118, 119, 125, 129, 133, 136, 137, 140, 141, 145, 150, 173, 174, 175,
214, 215, 216, 218, 218, 219, 222, 223, 224, 229, 232, 270, 277, 288, 290, 292, 294, 297, 298,
299, 299, 302, 307, 308, 309, 310, 311, 312, 313, 314, 315, 318, 318, 319, 320
logistic 函數 7, 9, 10, 12, 134, 136, 180, 214, 233, 289, 289, 290
logistic 迴歸 3, 8, 9, 10, 11, 12, 13, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 27, 28, 31, 33, 36, 37,
40, 41, 42, 53, 54, 57, 58, 59, 60, 61, 62, 64, 68, 69, 70, 72, 74, 75, 77, 78, 80, 80, 81, 86, 86,
87, 88, 90, 94, 97, 98, 99, 106, 110, 112, 113, 114, 115, 116, 120, 124, 125, 126, 127, 128, 130,
133, 134, 135, 135, 139, 140, 141, 143, 144, 145, 146, 150, 151, 166, 168, 169, 180, 181, 182,
185, 193, 212, 213, 214, 214, 216, 222, 228, 230, 231, 232, 233, 234, 235, 236, 241, 242, 244,
245, 246, 250, 251, 270, 271, 273, 276, 277, 278, 279, 280, 281, 281, 289, 290, 291, 292, 293,
294, 295, 297, 298, 299, 300, 302, 307, 309, 310, 315
Logistic 迴歸係數 150, 167
Logit 殘差 242, 244
probit 模型 7-9, 270, 271, 272, 273, 274, 275, 276, 277, 278, 280, 281, 285, 286, 287, 287, 289,
290, 291, 294, 307
Wald 檢驗 151, 160, 166
Z 統計量 151-152, 271
一劃
一致性 14, 21, 43, 68
或來電(02)2705-5066
一致性估計 14, 43
一般化 logit 模型 307
一階互動 221, 224
二劃
二元 logistic 迴歸 293, 315
二元反應變數 27, 54, 180, 270, 291, 294, 299, 313
二次項關係 219
四劃
互動作用 220-222, 224
分佈 274
分佈 74, 78, 79, 106, 108, 152, 153, 154, 162, 176, 189, 229, 232
分步 205-206
分組 205-206
分組資料 16, 40, 41, 42, 46, 47, 53, 54, 57, 58, 59, 60, 61, 62, 62, 63, 65, 180, 273, 276, 280,
281, 283, 284, 285, 286, 286, 288
分類表 36, 96, 97, 98, 99, 101, 103, 104, 105, 105
分類變數 2, 25, 41, 42, 63, 69, 114, 115, 121, 122, 124, 125, 126, 127, 129, 140, 147, 148, 153,
161, 162, 165, 233, 272, 276, 283, 285, 288, 302, 307, 311, 312, 313, 314
反應變數 7-8, 13, 16, 22, 23, 25, 27, 28, 29, 54, 68, 81, 90, 91, 93, 94, 95, 97, 101, 102, 150,
180, 181, 228, 233, 251, 270, 272, 273, 281, 291, 292, 293, 294, 296, 297, 298, 299, 300, 307,
308, 310, 311, 312, 313, 318
尺度分量 302
尺度因子 290
欠離散 229
或來電(02)2705-5066
關鍵詞索引 331
五劃
主影響 221, 224
加權最小平方法 14
功效 20, 53, 72, 80
可加性 221
可信度 167-169
可信區間 21-22, 150, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176
正確率 98, 101, 103, 104, 105
皮爾遜 273
皮爾遜 273-276, 284, 288
皮爾遜 68, 70, 70, 71, 74, 75, 76, 77, 78, 229, 230, 232, 232, 243, 244, 300
六劃
交互表 40, 54, 77, 94, 97, 181, 183, 184, 185, 186, 232
共變數 33, 37, 68, 75, 158, 284, 285, 289, 301, 302, 318
共變類型 68-71, 74, 75, 76, 77, 108, 157, 158, 159, 160, 164, 228, 229, 232, 273, 274, 284,
287, 288, 300, 315
同變異數性 44
名義測量 292
名義變數 121, 135, 181, 233
因子 2, 11, 23, 137, 138, 144, 222, 230, 236, 238, 239, 273, 275, 285, 290, 302, 310
多元共線性 20, 213, 228, 236, 237, 238, 239
多元常態分佈 20, 307
多分類反應變數 270, 291, 292, 307
多分類變數 114
多項 logit 模型 270, 292, 307, 308, 309, 310, 311, 312, 315, 318, 318, 319, 320, 321
或來電(02)2705-5066
次序相關指標 90, 92, 95

次序測量 214, 292, 292
次序變數 181, 214
自由格式 27, 32, 35
七劃
位置分量 302
完全分離 228, 233, 234, 235, 237, 239
貝葉斯訊息標準 82
八劃
空單元 228, 232, 233, 235, 237, 239
非加性 213-214, 220, 221
非標準化殘差 241, 244
非線性 6-7, 10, 11, 13, 16, 18, 20, 80, 118, 119, 213, 214, 215, 216, 219, 220, 221
非線性函數 10-11, 18
九劃
指定度 98, 101
相對風險 113, 121
十劃
效應編碼 124-125, 129, 130, 131, 131, 132, 133, 148, 314, 318
特異值 228-229, 241, 250, 251, 252, 259, 260, 261, 262
訊息測量指標 80, 84
或來電(02)2705-5066
關鍵詞索引 333
連結函數 214
十一劃
偏作用 134-135, 146, 221, 278, 279
偏相關 146-147
參照類 121-122, 124, 125, 126, 127, 128, 129, 131, 147, 164, 166, 216, 297, 309, 310, 311,
312, 313, 315
巢狀模型 77, 154, 155, 156, 157, 189
敏感度 98, 101
條件發生比率 172
異質因子 230
異變異數性 42, 44, 280, 281
第一類錯誤 150-151
第二類錯誤 151, 153
統計推斷 110, 150, 180
累積 logistic 迴歸模型 270, 292, 293, 294, 295, 297, 298, 299, 300, 302, 309, 310
累積分佈 7-9, 11, 271, 277, 290, 294
累積常態分佈 270, 278, 289
設計變數 124-126, 129, 148, 153, 181, 245
連結函數 Link Function 289, 301
連結函數 link function 302
連續變數 2, 12, 20, 23, 41, 75, 76, 110, 115, 116, 117, 118, 122, 125, 136, 146, 171, 172, 181,
214, 215, 220, 222, 233, 273, 292, 297, 311, 314
十二劃
最大概似估計 16-19, 21, 22, 36, 74, 89, 150, 160, 233
或來電(02)2705-5066
最小估計 44
單獨位置模型 302
普通最小平方法 4, 7, 14, 281
殘差 3-6, 13, 14, 41, 42, 43, 44, 44, 70, 72, 74, 87, 192, 192, 241, 242, 243, 244, 245, 246, 250,
251, 254, 255, 258, 259, 260, 261, 281
無效性 53
發生比 12, 28, 31, 41, 42, 46, 107, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121,
122, 124, 125, 126, 133, 134, 136, 137, 138, 140, 146, 150, 166, 169, 169, 170, 171, 172, 173,
231, 232, 238, 277, 280, 292, 294, 297, 298, 299, 300, 303, 305, 306, 307, 308, 310, 311, 315
發生比率 31, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 133, 137, 150,
167, 169, 169, 170, 171, 172, 231, 303, 315
結構方程模型 22, 236
虛擬變數 20, 23, 27, 63, 119, 121, 122, 124, 127, 129, 181, 215, 217, 218, 218, 219, 229, 273,
279, 280, 283, 297, 302, 312, 314
概似比 73, 81, 83, 87, 106, 153, 155, 156, 157, 163, 164, 181, 181, 315
概似函數 16-18, 73, 74, 154, 155, 156, 270, 271
準完全分離 234-235
過離散 71, 228, 229, 230, 231, 232, 273, 274
十三劃
零假設模型 83, 87, 106, 302
預測準確性 36, 68, 86, 89, 90, 96, 98, 103
預測機率 19, 69, 70, 75, 77, 78, 80, 90, 91, 93, 94, 97, 99, 103, 135, 136, 137, 141, 142, 167,
175, 241, 242, 277, 278
飽和模型 73-74, 82, 87, 157, 315
或來電(02)2705-5066
關鍵詞索引 335
十四劃
對比 41, 120, 124, 125, 127, 128, 129, 130, 166, 214, 261, 308, 310, 311, 315
對數概似函數 18, 73, 270, 271
對數線性模型 2-3, 32
槓桿度 244-246, 251, 257, 261
槓桿案例 241
槓桿點 251, 261, 262
漸近有效性 21
漸近常態性 21, 169
漸近無偏和有效 150
誤差平方和 74, 87
誤差項 3, 8, 9, 143, 212, 242, 281, 293
標記對比 125, 127, 130
標準化迴歸係數 139, 141
標準化殘差 241-242, 244, 245, 246
標準誤差 14, 20, 21, 31, 42, 44, 47, 47, 126, 150, 151, 153, 167, 168, 212, 213, 214, 228, 231,
233, 235, 236, 237, 239, 242, 271, 273, 274, 275, 311, 315
模型 106-108, 156, 157, 160, 162, 181, 205, 206, 212, 216, 223, 300
十五劃
線性函數 7, 10, 11, 11, 12, 18, 214, 229, 233
線性迴歸 2-5, 12, 13, 16, 18, 42, 74, 84, 86, 87, 106, 110, 119, 122, 135, 139, 145, 161, 180,
212, 213, 221, 222, 233, 236, 237, 238, 241, 242, 245, 251, 303
線性機率模型 3, 5, 6, 7, 10, 238
調整發生比率 116-117, 120, 169
學生化殘差 243-244, 250, 251, 255
或來電(02)2705-5066
機率界限 36, 96, 97, 101, 103, 104

機率離散變化法 136
十六劃
獨立於無關類型 308
錯誤否定率 98, 102
錯誤肯定率 98, 102
擬合優度 68, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 80, 86, 107, 108, 232, 272, 273, 274, 276,
287, 288, 291, 300, 302, 315
檢驗 71, 78, 156, 181
十七劃
簡化模型 155, 161
簡單對比 125
十八劃
離差 16, 18, 23, 27, 47, 53, 70, 71, 73, 74, 76, 77, 87, 99, 115, 117, 125, 130, 156, 157, 158,
159, 160, 162, 189, 212, 213, 214, 228, 236, 271, 314
離差統計值 158, 162
離差對比 125, 130
離散參數 229-230, 232, 274
離散變數 20, 136, 212
類確定係數 74, 88, 89, 303
或來電(02)2705-5066
關鍵詞索引 337
二十一劃
鑑別分析 99, 307
二十三劃
觀測資料對 90-92, 95
或來電(02)2705-5066
出版聲明
高等教育出版社(甲方)授予五南圖書股份有限公司(乙方)在臺灣地
區獨家出版發行本書繁體版的權利。未經對方許可，任何一方不
得將本書的上述權利轉讓第三方。甲方保證擁有上述權利，並保
證上述權利的行使不侵犯他人的版權。若因上述權利的行使侵犯
他人的版權，由甲方負全部責任，並賠償因此給乙方造成的經濟
損失。
國家圖書館出版品預行編目資料
Logistic 迴歸模型：方法及應用=Logistic
regression models：methods and application／
王濟川，郭志剛著.--二版.─臺北市：五
南, 2004 [民93]
面；　公分
參考書目：面
含索引
ISBN 978-957-11-3646-2 （平裝）
1.統計推論
511.7 93010421 5H03
Logistic迴歸模型―方法及應用
Logistic Regression Models：Methods and Application
作　　者 ─ 王濟川　郭志剛
發行人 ─ 楊榮川
總編輯 ─ 龐君豪
主編 ─ 穆文娟
責任編輯 ─ 田惠敏
出版者 ─ 五南圖書出版股份有限公司
地　　址：106台北市大安區和平東路二段339號4樓
電話：(02)2705-5066　傳真：(02)2706-6100
網　　址：http://www.wunan.com.tw
電子郵件：wunan@wunan.com.tw
劃撥帳號：01068953　
戶名：五南圖書出版股份有限公司
台中市駐區辦公室/台中市中區中山路6號
電話：(04)2223-0891　傳真：(04)2223-3549
高雄市駐區辦公室/高雄市新興區中山一路290號
電話：(07)2358-702　傳真：(07)2350-236
法律顧問元貞聯合法律事務所張澤平律師
出版日期 2 0 0 3 年 3 月初版一刷
　　　　 2 0 0 8 年 8 月二版三刷
定　　價新臺幣 3 8 0 元
本試閱檔為五南所有。如欲購買此書，請至五南網站
※版權所有．欲利用本書全部或部分內容，必須徵求本公司同意※ www.wunan.com.tw
或來電(02)2705-5066

Logistic回歸模型－方法及應用Logistic Regression Models：Methods and Application

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Logistic回歸模型－方法及應用Logistic Regression Models：Methods and Application

Uploaded by

Copyright:

Available Formats

本試閱檔為五南所有。如欲購買此書，請至五南網站 www.wunan.com.

Hosmer. Taber, and Lemeshow. 1991.

1 二元因變數與 logistic 迴歸模型

2.1 最大概似估計（Maximum Likelihood Estimation, MLE）／ 16

3.1 擬合優度（Goodness of fit）／ 68

3.2 Logistic 迴歸模型的預測準確性／ 86

4.1 發生比和發生比率（Odds and Odds Ratio）／ 111

5.1 Logistic 迴歸係數的顯著性檢驗／ 150

5.2.2 發生比率的可信區間／ 169

6.1 選擇變數／ 180

7.1 過離散（Overdispersion）／ 228

8.1 Probit 模型／ 270

1 Dichotomous dependent variable and logistic regression model

2 Estimation of logistic regression model

2.1 Maximum likelihood estimation (MLE)／ 16

3 Evaluation of logistic regression model

3.1 Goodness of fit ／ 68

3.2 Predictive accuracy of logistic regression model ／ 86

4 Interpretation of logistic regression coefficients

4.1 Odds and odds ratio ／ 111

5 Statistical inference for logistic regression coefficients

5.1 Significance test of logistic regression coefficients ／ 150

5.2 Confidence intervals for logistic regression parameter

6.1 Variable selection ／ 180

7 Logistic regression model diagnostics

7.1 Overdispersion ／ 228

7.5.1 Residuals and measures of influence ／ 241

8 Alternative model and extension of logistic regression

8.1 Probit model ／ 270

線 性 迴 歸 模 型 （linear regression model） 在 定 量 分 析 的 實 際 研 究 中

Feinberg, 1985；Agresti, 1990

從公式 1.2.4 中可以看出，殘差的變異數與條件機率測量值有關，

1.3 Logistic 迴歸模型

當 y*i >0 時 ， yi =1，

圖 1.2 logistic 函數的曲線圖

正如圖形所示，無論 i 為 任 何 值 ，logistic 函 數 P yi=1 xi =1/ 1+e i

這個 比 被 稱 之 為 事 件的 發 生 比 （the odds of experiencing an event），

公式 1.3.10 將 logistic 函 數 做 了 自然 對 數 轉 換 ， 這稱 作 logit 形式

其中，pi = P yi = 1 x1i , x2i , … , xKi 為在給定系列自變數x1i, x2i, …, xKi

可 以證 明（Goldberger, 1964）， iei 有相 同的 變異 數， 因此再 用普 通最

最大概似估計（Maximum Likelihood Estimation, MLE）

其中， yi = 1 或 yi = 0。式中 yi 或（1 yi ）只是表示對於一個特定觀測，

式 2.1.3 稱 為 對 數 概 似函 數 （log likelihood function） 。 為 了 估 計能

式 2.1.4 和 式 2.1.5 稱 為 概似 方 程 （likelihood equations） 。 如 果 模型

法，因為計算機可以為我們處理好各種計算細節。對 logistic 迴歸模型

的條件下 yi =1 的條件機率的估計，它代表了 logistic 迴歸模型的擬合值

2.2 Logistic 迴歸模型估計的假設條件

Logistic 迴歸模型估計的一些假設條件與 OLS 迴歸中的十分類似。

Deviance 殘差 243-244, 250, 254, 259, 261

次序相關指標 90, 92, 95

機率界限 36, 96, 97, 101, 103, 104

You might also like

線性迴歸模型（linear regression model）在定量分析的實際研究中

當 y*i >0 時， yi =1，

正如圖形所示，無論 i 為任何值，logistic 函數 P yi=1 xi =1/ 1+e i

這個比被稱之為事件的發生比（the odds of experiencing an event），

公式 1.3.10 將 logistic 函數做了自然對數轉換，這稱作 logit 形式

可以證明（Goldberger, 1964）， iei 有相同的變異數，因此再用普通最

式 2.1.3 稱為對數概似函數（log likelihood function）。為了估計能

式 2.1.4 和式 2.1.5 稱為概似方程（likelihood equations）。如果模型