You are on page 1of 26

第一章 1-1

第 10 章 簡單線性迴歸:
最小平方法
本章綜覽
變異數分析不適合用來說明當某變數變動一單位時 ,另
一變數變動的情形。本章將介紹另一種方法 :迴歸分析
(regression analysis) 。
迴歸分析 : 以數學和統計方法來確認一組變數中的系統性
部分,並依此解釋過去的現象和預測未來。

介紹單一變數的簡單線性迴歸模型 (simple linear regre


ssion model) 、最小平方法及其代數性質、衡量迴歸模
型好壞的配適度指標等。
簡單線性迴歸模型
簡單線性迴歸模型:利用一個線性模型來捕捉 {(Xi,Yi),i=
1,..,n} 這組雙變量隨機變數中 Yi 的系統性部分 g(Xi) 。
利用條件均數: E(Y|X ) = g(X)=α+βX ,
其中 α , β 為未知參數,需要我們去估計。
可以將 Y 表示為
Y = α+βX + U,
其中 U 代表不能由 α+βX 所描述的 Y 行為,亦
即 Y 與線性模型之間的誤差。
簡單線性迴歸模型
迴歸模型中的變數 Y 稱作應變數 (dependent variable 或 reg
ressand)
變數 X 稱作解釋變數 (explanatory variable 或 regressor) 。
參數 α 和 β 稱作迴歸係數 (regression coefficient) 。
α: 截距項,
β: 斜率。
線性迴歸中的「線性」二字是指模型為參數 ( 而非變數 ) 的線性
函數。
α+βX2 , α+βlogX 是線性迴歸模型。
α+ X β 不是線性迴歸模型。
最小平方法

估計迴歸係數最常用的方法之一就是普通最小平方 (ordin
ary least squares) ,又簡稱為最小平方法。
最小平方法的「認定條件」是:
Xi , i=1,2,…,n 之值不為常數。
除了上述認定條件之外,本章亦不對 (Xi, Yi) 的隨機機制
作任何限制。
最小平方法
找α 和 β 使模型誤差 Ui 的平方和極小。採用誤差平方和是為了避免正負誤差之間互相抵銷。
目標函數如下:

最小平方法所找的就是使誤差平方和 (或其平均) 最小的那條直線。


如果目標函數改變 ( 如 Ui 的絕對值之和),就會產生不同的迴歸線。

1 n 1 n
Q( ,  )   (Yi     X i ) 2   U i2 .
n i 1 n i 1
簡單線性迴歸模型

Y
可能的迴歸線

誤差

誤差

X
最小平方法
為使目標函數之值最小,必須解出以下的一階條件 (first o
rder condition) 。
 1 n
Q ( ,  )  2  (Yi    X i )  0,
 n i 1
 1 n
Q ( ,  )  2  (Yi    X i ) X i  0.
 n i 1

這兩個一階條件又稱作標準方程式 (normal equations)



最小平方法

ˆ n 和 ˆn 來代表。
n

 (X i  X n )(Yi  Yn )
n  i 1
n
,
(X
i 1
i  X n )2
 
 n  Yn   n X n .

Xi  X n ˆn
最小平方法
ˆ n 和ˆn
將最小平方估計式 代入設定的線性模型就可得到一條截距為 ,斜率為 的直線, 稱作 估計的迴歸線 (estimated regression line) 。

斜率係數估計式
̂ n n
衡量 X 的邊際效果:當 X 變動一單位時,估計的迴歸線會預測應變數
̂
Y 將變動 個單位。
截距係數 則表示當 X 為 0 時,估計的迴歸線所預測的應變數 Y 。
將樣本中的變數 Xi 代入估計的迴歸線,即可求得估計的應變數。

^ ^ ^
Y n  n X.
̂ n
̂ n
̂ n
最小平方法
Yˆi
應變數 Yi 與估計所得到的應變數 之間的差距稱為
最小平方法的第 i 個殘差 (residual) 。
Uˆ i  Yi  Yˆi
估計的應變數之實現值稱為配適值 (fitted value) ,殘差的
實現值稱為殘差值 (residual value) 。
最小平方法的代數性質

n ^
U
i 1
i  0.
n

 X Uˆ
i 1
i i 0
n

 YˆUˆ
i 1
i i 0

a n , bn 
簡單線性迴歸模型之比較
Yˆ  ˆn X
Yˆ  ˆ n  ˆn X

bn

an
配適度的衡量
不同的解釋變數可能都適合描述應變數 Y 的系統性部分。
如果可以衡量迴歸線的配適度 (goodness of fit) ,就可以
選擇配適度較高的迴歸線來描述應變數的系統性部分。所
以配適度的衡量指標就可以作為比較不同迴歸模型的基準

例如:用坪數來解釋房價的配適度比用房間數來解釋房價的配
適度高時,則前者是比較好的模型。
配適度的衡量 -- 平方和的分解
以下為不受資料衡量單位影響的配適度指標的推導過程 :

Y iYn  (Yˆi  Uˆ i )  Yn  (Yˆi  Yn )  Uˆ i ,


上式中第一項稱為總平方和 (TSS),第二項為迴歸平方和 (RSS),第三項為殘差平方和 (ESS)。

Y iYn  (Yˆi  Yˆn )  Uˆ i ,


n n n n
  (Y iYn )   (Yˆi  Yˆn )  Uˆ  2 (Yˆi  Yˆn )Uˆ i ,
2 2
i
2

i 1 i 1 i 1 i 1
n n n
  (Y iYn )   (Yˆi  Yˆn )  Uˆ i2 .
2 2

i 1 i 1 i 1
配適度的衡量 -- 平方和

總平方和 : 應變數 Yi 在樣本平均數周圍之總變動量。


迴歸平方和 : 估計的應變數 Yi 在其樣本平均數周圍之
總變動量,也就是迴歸模型所能描述的變動量。
殘差平方和 : 最小平方法殘差的總變動量,即是迴歸模型
無法捕捉的變動量。
配適度的衡量 -- 自由度
由於總平方和的計算中用到了樣本平均數,等於在資料中加了一
個限制條件,
 Y  Y   0
n

i n
i 1
故總平方和的自由度為 n-1 。
殘差來自最小平方法,必須服從兩條標準方程式的規範 ,因此損
失了兩個自由度,故殘差平方和的自由度為 n-2 。
總平方和自由度與殘差平方和自由度之差即為迴歸平方和之自
由度,此處為 1 。
配適度的衡量 -- 判定係數
判定係數 (coefficient of determination) :線性迴歸中最常用
的配適度指標。它衡量迴歸模型所能捕捉的變動量佔 Yi 總
變動量中的比例,通常以 R2 來代表。

n 。
判定係數又分成置中的與非置中的判定係數兩種
n
2
 (Yi Yˆn )
2
Uˆ i
置中的R 2  i 1
n  1 n
i 1
.
 (Yi Yn ) 2  (Yi Yn ) 2
i 1 i 1
n n

 Yˆi 2
Uˆ i2
非置中的R 2  i 1
n  1 i 1
n .
 Yi 2  Yi 2
i 1 i 1
配適度的衡量 -- 判定係數的性

R2 愈高代表迴歸模型所能捕捉到應變數的變動量佔總變
動量的比例愈高,故配適度較佳。
當 R2=1 ,迴歸平方和等於總平方和,此時迴歸模型沒有任何
殘差,稱作完全配適 (perfect fit) 。

當 R2=0 ,殘差平方和等於總平方和,此時迴歸模型對應變數
並無任何解釋能力。

若欲利用判定係數來比較不同模型的配適能力 ,這些模型
必須有相同的應變數。
配適度的衡量 -- 判定係數的性

Yi 的位置和比例變動均不會影響置中的判定係數。
Yi 的位置變動會改變非置中的判定係數,而比例變動則不
會影響非置中的判定係數。
Xi 單獨的變動對置中的或非置中的判定係數均無影響。
計算簡單線性迴歸模型的配適度也就是衡量應變數與解
釋變數之間的線性關聯度。
2 2
n  
n 
 i1
ˆ ˆ
 (Yi Yn )(Yi Yn ) 

 ( X i  X n )(Yi Yn ) 
 i1 
R 
2
 n   n 
  n   n 
.
 2

 (Yi Yn )   (Yi Yn ) 
 i1   i1
ˆ ˆ 2


 2

 (Yi Yn )   ( X i  X n ) 
 i1   i 1
2


實例分析

欲分析廣告費用 公司
公司 廣告費用(a(ai)i)
廣告費用 營業額(b(bi)i)
營業額
AA 4.8
4.8 31
31
(X) 如何影響公司的 BB 5.8 37
5.8 37
營業額 (Y) 。取得 CC 6.7
6.7 42
42
DD 7.2
7.2 43
43
一組 10 家公司的 EE 77 55
55
FF 12 62
年營業額和年度廣告 GG
12
15.4
62
76
15.4 76
費用的樣本資料如右 HH 15
15 84
84
II 16.8
16.8 90
90
表。 JJ 21 105
21 105
樣本平均數
樣本平均數 11.17
11.17 62.5
62.5
樣本變異數
樣本變異數 31.569
31.569 634.055
634.055
實例分析

設立模型為有截距項的迴歸模型,則
10

公司
公司
aa和平均
數的差
左欄的平 bb和平均
和平均 左欄的平
方方
和平均 左欄的平
數的差
左欄的平 第2欄和第4欄
方方
第2欄和第4欄
的乘積
 (a  a )(b  b )
i i
數的差 數的差 的乘積 ˆ  i 1
10
AA
 i
-6.37 40.5769 -31.5 992.25 200.655
-6.37 40.5769 -31.5 992.25 200.655 ( a  a ) 2
BB -5.37
-5.37 28.8369
28.8369 -25.5
-25.5 650.25
650.25 136.935
136.935 i 1
CC -4.47
-4.47 19.9809
19.9809 -20.5
-20.5 420.25
420.25 91.635
91.635 1249.550
DD -3.97
-3.97 15.7609
15.7609 -19.5
-19.5 380.25
380.25 77.415
77.415   4.397950.
EE -4.17 17.3889 -7.5 56.25 31.275 284.121
-4.17 17.3889 -7.5 56.25 31.275
FF 0.83 0.6889 -0.5 0.25 -0.415
GG
0.83
4.23
4.23
0.6889
17.8929
17.8929
-0.5
13.5
13.5
0.25
182.25
182.25
-0.415
57.105
57.105
ˆ  b  ˆa  13.3749.
HH 3.83
3.83 14.6689
14.6689 21.5
21.5 462.25
462.25 82.345
82.345
II 5.63
5.63 31.6969
31.6969 27.5
27.5 756.25
756.25 154.825
154.825
JJ 9.83
9.83 96.6289
96.6289 42.5
42.5 1806.25
1806.25 417.775
417.775
總和
總和 00 284.121
284.121 00 5706.5
5706.5 1249.55
1249.55
實例分析
下圖為估計的迴歸線圖,可驗證估計的迴歸線確實通過平
均值的 (11.17,62.5) 。


估計計的
的迴迴歸
歸線線圖

120
120
100
100
80
80
60
60
40
40
20
20
00 XX
00 55 10
10 15
15 20
20 25
25
實例分析
根據估計的迴歸線也可以計算出配適值與殘差值。
公司
公司 配適值
配適值 配適值與其樣本平均的平方
配適值與其樣本平均的平方
殘差值
殘差值 殘差平方
殘差平方
AA 34.485058
34.485058 784.836947
784.836947 -3.485058
-3.485058 12.145632
12.145632
BB 38.883008
38.883008 557.762287
557.762287 -1.883008
-1.883008 3.545721
3.545721
CC 42.841163
42.841163 386.469852
386.469852 -0.841163
-0.841163 0.707556
0.707556
DD 45.040138
45.040138 304.846763
304.846763 -2.040138
-2.040138 4.162165
4.162165
EE 44.160548
44.160548 336.335481
336.335481 10.839451
10.839451 117.493708
117.493708
FF 66.150298
66.150298 13.324679
13.324679 -4.150298
-4.150298 17.224977
17.224977
GG 81.103328
81.103328 346.083831
346.083831 -5.103328
-5.103328 26.043961
26.043961
HH 79.344148
79.344148 283.725338
283.725338 4.655851
4.655851 21.676953
21.676953
II 87.260458
87.260458 613.080305
613.080305 2.739541
2.739541 7.505087
7.505087
JJ 105.731848
105.731848 1868.992725
1868.992725 -0.731848
-0.731848 0.535602
0.535602
總和
總和 625
625 5495.458211
5495.458211 00 211.041366
211.041366
實例分析
當公司年營業額與年度廣告費用增加或衡量單位改變時 , 利
用最小平方法所得到的估計值與置中的判定係數綜合於下表。
不論資料發生位置變動或比例改變,置中的判定係數都不受影
響。

資料變動
資料變動 截距項
截距項 斜率項
斜率項 判定係數
判定係數
YY+2
+2 15.3748966
15.3748966 4.39795
4.39795 0.963
0.963
XX+2
+2 4.5789962
4.5789962 4.39795
4.39795 0.963
0.963
YY+2,X
+2,X+2+2 6.5789962
6.5789962 4.39795
4.39795 0.963
0.963
YY*10
*10 133.7489661
133.7489661 43.979501
43.979501 0.963
0.963
XX*10
*10 13.3748966
13.3748966 0.439795
0.439795 0.963
0.963
YY*10,X
*10,X*10
*10 133.7489661
133.7489661 4.39795
4.39795 0.963
0.963

You might also like