You are on page 1of 93

Chương 2: HỒI QUY BỘI (Multiple Regression)

□ Moâ hình hoài quy boäi


□ Phöông phaùp bình phöông beù
nhaát
□ Heä soá xaùc ñònh boäi
□ Caùc giaû ñònh cuûa moâ hình
□ Kieåm ñònh yù nghóa & Đa
cộng tuyến
□ Söû duïng phöông trình hoài quy
öôùc löôïng ñeå öôùc löôïng vaø döï
baùo
□ Bieán ñoäc laäp ñònh tính
2.1 Mô hình hồi quy bội
Phân tích hồi quy bội là nghiên cứu mối liên
hệ giữa một biến phụ thuộc Y với hai hay nhiều
biến độc lập còn gọi là biến giải thích (X i)
Mô hình hồi quy bội
Y = β0 + β1X1+ β2X2 +…+ βk Xk + ε
Trong đó:
β0 - Y intercept (tung độ gốc)
β1 - độ dốc (slope) của Y với biến X1 khi các biến
X2, X3, …,Xk cố định.
Giải thích tương tự với β2,…,βk
ε (epsilon) - Sai số ngẫu nhiên đại diện cho tất cả
yếu tố không phải là biến giải thích, có liên quan đến biến
Biến ngẫu nhiên ε được giả định có trung bình
hay giá trị kỳ vọng bằng 0. Hệ quả của sự giả định
này là trung bình hay giá trị kỳ vọng của Y, ký
hiệu E(Y) bằng:
β0 + β1X1+ β2X2 +…+ βk Xk
Phương trình mô tả giá trị trung bình của Y
trong mối liên hệ với X1, X2, …,Xk gọi là phương
trình hồi quy bội:
E(Y) = β0 + β1X1+ β2X2 +…+ βk Xk
β0, β1, β2,…, βk thường không biết cần phải được ước
lượng từ dữ liệu mẫu.
Một mẫu ngẫu nhiên đơn giản được sử dụng để tính b0,
b1, b2,…, bk của mẫu để từ đó ước lượng β0, β1, β2,…, βk
Phương trình hồi quy bội ước lượng (mẫu)
^𝑡 =𝑏0 +𝑏 1 𝑋 1 𝑡 +𝑏 2 𝑋 2 𝑡 +...+ 𝑏𝑘 𝑋 𝑘𝑡
𝑦

𝑇𝑟𝑜𝑛𝑔 do :
^𝑡
𝑦

b0 = Estimated intercept của β0


b1, b2, …, bk = Estimated slope coefficients
của β1, β2,…,βk
2.2 Phương pháp bình phương bé nhất

b0, b1, b2,…, bk là các ước lượng β0, β1, β2,…,


βk
Đối với quan sát thứ i, kết quả ước lượng là:
^
𝑦
¿ 𝑏𝑖0 +𝑏1 𝑋 𝑖 1+𝑏2 𝑋 𝑖2 +...+𝑏𝑘 𝑋 𝑖𝑘
Phần dư thứ i là chênh lệch giữa giá trị biến
phụ thuộc quan sát được và biến phụ thuộc ước
lượng. Vì vậy:
ei = Giá trị biến phụ thuộc quan sát được –
^
𝑦𝑖
(trừ) Giá trị biến phụ thuộc ước lượng (𝑒 𝑖 =𝑌 𝑖 −)
□ Các sai số (phần dư) có phân phối chuẩn.
□ Trung bình của các sai số bằng 0.
□ Các sai số có phương sai không đổi
(constant).
□ Mô hình sai số là độc lập.
Phương pháp bình phương bé nhất sử dụng dữ
liệu mẫu để tính ra các giá trị b0, b1, …bk sao cho
tổng các phần dư bình phương có giá trị nhỏ nhất.

∑ 𝑖 ∑ 𝑖 𝑦𝑖 ¿ −−>𝑀𝑖𝑛
Nghĩa là:
𝑒 = (2
𝑌 − ^ 2

Công thức tính các ước lượng bình phương


bé nhất rất phức tạp, chúng ta sử dụng phần mềm
SPSS hoặc Eviews để thực hiện tính toán đó.
Giải thích các hệ số

bi laø öôùc löôïng cuûa söï thay ñoåi


trong y töông öùng vôùi moät ñôn vò thay ñoåi
trong xi khi taát caû caùc bieán ñoäc laäp khaùc
ñöôïc giöõ khoâng thay ñoåi (có nghĩa là khi xi
thay đổi một đơn vị thì y thay đổi bi đơn vị khi tất
cả các biến độc lập khác giữ không thay đổi).
Ví dụ 2.1: Số lượng bán, giá bán và quảng cáo/ tuần của
bánh Pie tại 1 cửa hiệu. Dữ liệu mẫu của 15 tuần như sau:
Week Pie Sales (units per week), Y Price (usd), X1 Advertising (100 usd), X2
1 350 5.50 3.3
2 460 7.50 3.3
3 350 8.00 3.0
4 430 8.00 4.5
5 350 6.80 3.0
6 380 7.50 4.0
7 430 4.50 3.0
8 470 6.40 3.7
9 450 7.00 3.5
10 490 5.00 4.0
11 340 7.20 3.5
12 300 7.90 3.2
13 440 5.90 4.0
14 450 5.00 3.5

15 300 7.00 2.7


Ma trận tương quan
□ Tương quan giữa một biến phụ thuộc và
nhiều biến độc lập có thể tính bằng cách sử dụng
“Excel”
Data/ Data Analysis/ Correlation
□ Có thể kiểm tra ý nghĩa thống kê về
tương quan với t-test
Xem ví dụ 2.1
Bảng 2.1. Số liệu về số lượng bánh pie bán được , giá bán và chi phí QC quan sát
15 tuần
Week Pie Sales, Price Advertising Mô hình hồi quy bội:
Y (usd), X1 (100 usd),

𝑆𝑎𝑙𝑒𝑠=𝑏0 +𝑏1 (Pr𝑖𝑐𝑒)


X2
1 350 5.50 3.3
2 460 7.50 3.3
3 350 8.00 3.0
4 430 8.00 4.5 Ma trận tương quan
5 350 6.80 3.0
6 380 7.50 4.0
Pie Sales Price Advertising
7 430 4.50 3.0
Pie Sales 1
8 470 6.40 3.7
9 450 7.00 3.5 Price -0.44327 1
10 490 5.00 4.0
11 340 7.20 3.5
Advertising 0.55632 0.03044 1
12 300 7.90 3.2
13 440 5.90 4.0
14 450 5.00 3.5
15 300 7.00 2.7
Xử lý Với SPSS:
Để xây dựng phương trình hồi quy bội:
Analyze Regression  Linear
Nhắc lại:
Method:
• Enter (Đưa vào một lượt) là phuong pháp mặc định của
phương trình, các biến sẽ được đưa và mô hình cùng một
lúc
• Forward (Đưa dần vào): biến đầu tiên được đưa vào
phương trình là biến có tương quan lớn nhất.
• Backward: Các biến đều ở trong phương trình và tuần tự
loại trừ chúng bằng tiêu chuẩn loại trừ đã mặc định trong
SPSS.
• Stepwise: Là sự kết hợp giữa Forward và Backward, biến
đầu tiên chọn giống như Forward nhưng phương pháp loại
trừ được áp dụng theo tiêu chuẩn Backward.
Phương trình hồi quy ước lượng được là:

𝑆𝑎𝑙𝑒𝑠=306,526−24,975(Pr𝑖𝑐𝑒)+74,131(𝑎𝑑𝑣𝑒𝑟𝑡𝑖sin𝑔)
Từ phương trình trên, b1= -24,975, có nghĩa
là khi giá tăng lên 1 usd thì số lượng bán giảm
trung bình 24,975 cái với chi phí quảng cáo là giữ
cố định. Phân tích tương tự với b2.
RESIDUAL OUTPUT – Bảng 2.3 Kết quả rút ra từ việc xử lý bảng 2.1
Observation Predicted Pie Sales Residuals
1 413.7953606 -63.79536065
2 363.8451816 96.15481839
3 329.1183496 20.88165039
4 440.3147858 -10.31478584
5 359.088457 -9.088457029
6 415.7368519 -35.73685186
7 416.5311629 13.46883708
8 420.9701631 49.02983692
9 391.1589179 58.84108213
10 478.1745756 11.82542435
11 386.1639 -46.16389997
12 346.4420501 -46.44205006
13 455.6969951 -15.69699508
14 441.1090969 8.890903095
15 331.8541519 -31.85415188
2.3 Hệ số xác định
Để đánh giá mức độ phù hợp của mô hình
(model fit) đối với mô hình hồi quy bội, ta cũng
dựa vào hệ số xác định.
Trong mô hình hồi quy tuyến tính đơn, hệ số
xác định r2 = SSR/SST đo lường sự biến thiên
của Y được giải thích bởi biến độc lập X (đo
lường sự phù hợp đối với phương trình hồi quy
ước lượng).
Trong mô hình hồi quy bội, hệ số xác định
nó thể hiện phần biến thiên của Y được giải thích
bởi một tập hợp các biến độc lập được chọn.
Hệ số xác định trong hồi quy bội:

𝑆𝑎𝑖 so do hoi quy 𝑆𝑆𝑅


2
𝑅= =
𝑇𝑜𝑛𝑔 sai so 𝑆𝑆𝑇
𝑡𝑟𝑜𝑛𝑔 do:
SST=Tong binh phuong toan bo = ∑ ( 𝑌 𝑖 −𝑌 ¿ 2

𝑆𝑆𝑅=𝑇𝑜𝑛𝑔 binh phuong do hoi quy= ∑ ( 𝑦 𝑖 −𝑌 ¿


^ 2

𝑆𝑆𝐸=𝑇𝑜𝑛𝑔 binh phuong do sai so = ∑ ( 𝑌 𝑖 − ^𝑦 𝑖 ¿ 2

Mối liên hệ giữa: SST, SSR, SSE


SST = SSR + SSE
Bảng 2.4. Kết quả tính theo phương pháp thủ công
Yi Giá trị ước lượng, ^
𝑦𝑖 ¿ 2

350 413.795 2433,45 209.2467


460 363.845 3680,85 1259.172
350 329.118 2433.45 4929.676
430 440.315 940,65 1679.753
350 359.088 2433,45 1619.382
380 415.737 373,65 269.1848
430 416.531 940,65 295.88
470 420.970 4994,25 468.2967
450 391.159 2567,45 66.76658
490 478.175 8221,05 6216.467
340 386.164 3520,05 173.3462
300 346.442 9866,45 2797.135
440 455.697 1654,05 3177.238
450 441.109 2567,45 1745.493
300 331.854 9866,45 4552.99
SST=56493.35 SSR=29460,03
𝑌 =399,33
Từ ví dụ 2.1: 2 𝑆𝑆𝑅 29460 , 03
𝑅= = =0,521
𝑆𝑆𝑇 56493 , 35
52,1% biến thiên của số lượng bánh pie bán
được giải thích bởi phương trình hồi quy bội ước
lượng với hai biến độc lập giá bán và chi phí
quảng cáo (biến thiên trong giá cả và chi phí QC).
Khi đưa thêm biến độc lập vào mô hình thì
R2 sẽ tăng lên (khi đưa thêm biến độc lập vào mô
hình là nguyên nhân để sai số dự báo trở thành
nhỏ hơn, tức là giảm SSE. Bởi vì
SSR = SST – SSE, khi SSE trở thành nhỏ hơn thì
SSR trở thành lớn hơn và R2 sẽ tăng).
Nhiều nhà phân tích thích R2 điều chỉnh
(adjusting R2) hơn là đưa thêm biến vào mô hình
để tránh đánh giá quá cao ảnh hưởng của việc
thêm một biến độc lập vào tổng biến thiên được
giải thích bằng phương trình hồi quy ước lượng.
Ký hiệu:
n – số quan sát và k – số biến độc lập
Hệ số xác định điều chỉnh bội:
2 𝑛− 1
2
𝑅 =1 −(1 − 𝑅 )
𝑎
𝑛− 𝑘− 1
Từ ví dụ 2.1:
2 15 −1
𝑅 =1 −(1 − 0,52148)
𝑎 =0,4418
15 −2 −1
Bảng 2.5. Kết quả tính bằng SPSS 20.0

44,2 % biến thiên trong số lượng bán


được giải thích bởi biến thiên giá cả
và chi phí quảng cáo, 2 biến độc lập
được chọn trong mẫu
Bài tập tại lớp
Phương trình hồi quy ước lượng dựa trên
10 quan sát:
𝑦 =29,1270 +0,5906 𝑋 1 +0,4980 𝑋 2
Giá trị SST và SSR tương ứng là 6724,125
và 6216,375
1/ Tính SSE, R2 , R2a
2/ Giải thich về mức độ phù hợp.
Kiểm tra sự phù hợp của mô hình và biến khi
sử dụng mô hình hồi qui bội

Điều kiện về biến:


* Biến phụ thuộc phải là biến định lượng và
nhiều biến độc lập có thể là định lượng hay định
tính.
* Nếu biến phụ thuộc là biến định tính chúng ta
phải dùng họ tuyến tính tổng quát như Logit,
probit (không xem xét trong bài giảng này).
Các giả định của mô hình

□ Sai số ε là một biến ngẫu nhiên với trung


bình hay giá trị kỳ vọng bằng 0, nghĩa là, E(ε) =0,
đối với các giá trị đã cho X1, X2, …, Xk, giá trị
trung bình hay kỳ vọng của Y được cho bởi:
E(Y) = β0 + β1X1+ β2X2 +…+ βk Xk
□ E(Y) – Là trung bình (đại diện) của tất cả
các giá trị có thể có của Y có thể xãy ra đối với
các giá trị đã cho X1, X2, …, Xk
□ Phương sai của ε ký hiệu là σ2 là bằng nhau
với mọi giá trị của biến độc lập X1, X2, …, Xk
□ Các giá trị của ε độc lập với nhau

□ Sai số ε là một biến ngẫu nhiên có phân phối


chuẩn phản ánh độ lệch giữa giá trị Y và giá trị
kỳ vọng của Y được cho bởi β0 + β1X1+ β2X2 +…
+ βk Xk
2.4 Kiểm định mức ý nghĩa
(Kiểm định F đối với mức ý nghĩa toàn
bộ mô hình)

Mô hình hồi quy bội như đã xác định ở trên:


Y = β0 + β1X1+ β2X2 +…+ βkXk + ε

Sử dụng kiểm định F:


H0: β1 = β2 = …= βk= 0 (không có mối liên
hệ tuyến tính)
H1: Một hay nhiều hơn các tham số βj không
bằng không.
Trong hồi quy bội:
□ Tổng biến thiên (toàn bộ - SST) có n-1 bậc tự
do,
□ Tổng biến thiên do hồi quy (SSR) có k bậc tự do

□ Tổng biến thiên do sai số (SSE) có (n – k - 1)


bậc tự do, do đó: 𝑆𝑆𝑅 𝑆𝑆𝐸
𝑀𝑆𝑅= & MSE =
𝑘 𝑛 −𝑘 −1
𝑀𝑆𝑅
Thống kê kiểm định F: 𝐹 =
𝑀𝑆𝐸

Qui tắc bác bỏ H0:


F > Fα,k,n-k-1 Hoặc p-value ≤ α
Từ ví dụ 2.1:
Đặt giả thuyết:
H0: β1 = β2 = 0
H1: β1 và/ hay β2 không bằng không

𝑆𝑆𝑅 29460,03
𝑀𝑆𝑅= = =14730,0
𝑘 2
Fkiểm định = 14730/ 2252,8 =6,539
F2,12,0.05 = 3,89
Fkiểm định = 6,539 > F2,12,0.05 =3,89. Ta bác bỏ H0
Hay từ bảng xử lý bằng SPSS:
p-value = 0,012 < 0,05. Ta bác bỏ H0
Đủ bằng chứng để kết luận các biến độc lập đưa
vào giải thích một cách có ý nghĩa cho biến thiên biến phụ

thuộc, hay toàn bộ mô hình là có ý nghĩa thống kê.


Bảng 2.6. Phân tích phương sai đối với mô
hình hồi quy bội với 2 biến độc lập.
Nguồn biến Sum of Degree Mean Square F
thiên Squares of
Freedom

Regression SSR k 𝑆𝑆𝑅


𝑀𝑆𝑅=
𝑘 𝑀𝑆𝑅
𝐹=
𝑀𝑆𝐸
Error SSE n-k-1 𝑆𝑆𝐸
MSE =
𝑛−𝑘 −1

Total SST n-1


Testing for Significance: t Test
Nếu F cho thấy mối liên hệ hồi quy bội là
có ý nghĩa:
t - test có thể được tiến hành nhằm xác
định mức ý nghĩa của các tham số riêng
biệt.
t -test đối với mức ý nghĩa riêng biệt
Đối với tham số bất kỳ βi
H0: βi = 0
H1: βi ≠ 0
𝑏𝑖
Kiểm định thống kê: 𝑡 =
𝑆𝑏 𝑖

Quy tắc bác bỏ H0:

p-value ≤ α
Hoặc t ≤ - tn-k-1,α/2 hay t ≥ tn-k-1,α/2
Từ bảng trên với kết quả xử lý bằng SPSS:
b1 = -24,975 Sb1 = 10,832
b2 = 74,131 Sb2 = 25,967
ttest statistic = -24,9751/10,83213 = -2,31
và ttest statistic = 74,13096/25,96732 = 2,85
Sử dụng mức ý nghĩa 0.05, ta tính:
tn-k-1,α/2 = t15-2-1,0.025 = 2,179
Với 2,31 > 2,179, ta bác bỏ H0: β1 = 0
Với 2,85 > 2,179, ta bác bỏ H0: β2 = 0

Có bằng chứng là cả hai giá và chi phí


quảng cáo ảnh hưởng đến số bánh pie bán được
với mức ý nghĩa α=0.05
Ước lượng khoảng tin cậy cho độ dốc:

bi ± tn-k-1,α/2Sbi
Từ ví dụ: 2.1 (slide 14, ước lượng độ tin
cậy 95% cho β1 và β2.
Tự tương quan
Đối với mô hình hồi quy với dữ liệu thời gian
(Dữ liệu chuỗi) có mắc phải hiện tượng tự tương quan
– Sai số ngẫu nhiên tại các thời gian khác nhau là có
tương quan với nhau.

Quá trình kiểm định tự tương quan cho hồi quy


bội tương tự hồi quy đơn (đã trình bày trong phần
phân tích dữ liệu)

Sử dụng kiểm định tự tương quan (Durbin-


Watson); tiến hành qua 4 bước.
Thiết lập giả thuyết:
H0: Không tự tương quan (Corr(It, It-1 ) = 0)
H1: Tự tương quan.

Giá trị tới hạn: Với k = 2; n =15; α=0,05 tra bảng


Durbin-Watson xác định giá trị dL= 0,95 và dU = 1,54
Durbin-Watson = 1,683; trường hợp này không bác bỏ
H0; có nghĩa là không tự tương quan (Corr(It, It-1 ) = 0).
Tự Không Không có tự Không Tự
tương quyết tương quan quyết tương
quan định bậc nhất định quan
dương được được âm

4 - dU 4 - dL 4
0 dL dU 2

Nếu dU < DW < 4 – dU ; không bác bỏ H0, tức không có


tự tương quan.
Nếu DW < 2 thì xét tự tương quan dương; bác bỏ H0
nếu DW < dL.

Nếu DW > 2 thì xét tự tương quan âm; bác bỏ H0 nếu


DW > 4 - dL.
Tự Không Không có tự Không Tự
tương quyết tương quan quyết tương
quan định bậc nhất định quan
dương được được âm

4 – dU = 2,46 4
dL=0,95 dU =1,54 2
dL = 0,95 và dU = 1,54
(Tra trong bảng phân phối Durbin-Watson với α = 0.05 và n=15, k=2)

Durbin-Watson = 1,683; trường hợp trên không bác bỏ


H0, không có tự tương quan bậc nhất.
xem trường hợp tính DW thủ công qua bảng trong slide
dưới đây:
TT Y ei ei-1 (ei - ei-1 )2 2
𝑒𝑖
1 350 -63,80 - - 4070,44
413.80
2 460 96,15 -63,80 2558,4 9244,82
363.85
3 350 20,88 96,15 5665,57 435,97
329.12
4 430 -10,31 20,88 Tính tương tự
440.31
5 350 -9,09 -10,31 Tương tự
359.09
6 380 -35,74 -9,09 Tương tự
415.74
7 430 13,47 -35,74 …
416.53
8 470 49,03 13,47 …
420.97
9 450 58,84 49,03 …
391.16
10 490 11,83 58,84 …
478.17
11 340 -46,16 11,83 …
386.16
12 300 -46,44 -46,16 …
346.44
13 440 -15,70 -46,44 …
455.70
14 450 8,89 -15,70 …
441.11
15 300 -31,85 8,89 1659,75
331.85
Tổng 45498,7 0 27032,35
Từ bảng tính toán ở Slide trước:
15
𝐷𝑊 = ∑ ¿ ¿ ¿
𝑖= 2

Chú ý: Trong phương trình hồi quy tuyến tính phản


ánh ảnh hưởng của giá bán và chi phí quảng cáo đến
số lượng bán có xãy ra hiện tượng tự tương quan

(Giả định – Vì đây là dữ liệu chéo sẽ không có hi ện


tượng tự tương quan)
Kiểm tra mối quan hệ tuyến tính giữa
biến phụ thuộc Yi và các biến độc lập Xi

Từ file: HOIQUYBOI.sav
Continue
xong vào
save
Tiếp theo vào Plots
Kết quả xử lý bằng SPSS 20.0
Kết quả xử lý bằng SPSS 20.0
Kết quả xử lý bằng SPSS 20.0
Chúng ta thấy St.
Predicted Value và e
(Standard. Residual)
độc lập nhau và
phương sai của e
không thay đổi. Mô
hình hồi qui tuyến
tính là phù hợp (xem:
Nguyễn Đình Thọ
(2011), Phương pháp
nghiên cứu khoa học
trong kinh doanh (tr.
498-499)).
Phần dư phân tán ngẫu nhiên trong 1 vùng xung quanh
đường đi qua tung độ 0, thì giả định tuyến tính được thỏa
mãn.
Dựa vào phân phối tần số của phần dư, ta thấy μ gần như bằng
0 và độ lệch chuẩn = 0,926 xấp xỉ 1. Kết luận phần dư có phân ph ối
chuẩn.
Từ file: HOIQUYBOI.sav
Ta có thể dựa vào P-P Plot để kết luận phần dư có
phân phối chuẩn (xem phần hồi qui tuyến tính đơn).
Bài tập tại lớp 1: Bảng ANOVA đối với mô hình hồi
quy bội với 2 biến độc lập
Nguồn biến Bậc tự do Tổng bình Trung bình F
thiên phương bình phương
Hồi quy 2 30
Sai số 10 120
Total 12 150

1. Xác định TB bình phương do hồi quy và do sai số


2. Tính F
3. Với mức ý nghĩa 0.05, mối quan hệ có ý nghĩa thống
kê giữa Y và 2 biến độc lập?
4. Tính R2 và Ra2
Bài tập tại lớp 2:
Phương trình hồi quy ước lượng dựa trên 10
quan sát: 𝑦=29,1270+0,5906 𝑋 1 +0,4980 𝑋 2
Biết thêm: SST =6724,125;
SSR=6216,375; Sb1 = 0,0813; Sb2 =0,0567
1/ Kiểm định mức ý nghĩa theo X1, X2 và
Y. Sử dụng α=0.05
2/ β1 có ý nghĩa với α=0.05
3/ β2 có ý nghĩa với α=0.05
Đa cộng tuyến
□ Đa cộng tuyến là hiện tượng tồn tại mối liên
hệ ở mức độ cao giữa các biến độc lập.
□ Trong kiểm định t- test nhằm xác định mức ý
nghĩa của các tham số βi riêng biệt, khó khăn do
hiện tượng đa cộng tuyến là có thể kết luận
không có tham số riêng biệt (βi) khác không là
có ý nghĩa, trong khi F cho thấy mối liên hệ hồi
quy bội là có ý nghĩa.
Vấn đề này caàn thöïc hieän moïi noã löïc
ñeå traùnh ñöa vaøo caùc bieán ñoäc laäp maø
coù töông quan cao vôùi nhau.
Khi có hiện tượng đa cộng tuyến thì có sự
chồng chéo hay phân chia khả năng dự báo,
điều này dẫn đến kết quả nghịch lý là tuy mô
hình hồi quy thích hợp với dữ liệu nhưng không
có biến dự báo nào có sự ảnh hưởng đáng kể
trong việc dự báo biến phụ thuộc.
Nguyên nhân của hiện tượng đa cộng
tuyến:

(1) Vấn đề về thu thập số liệu: Do hiện tượng của mẫu,


có thể mẫu không mang tính đại diện. Mở rộng kích
thước mẫu thì hiện tượng đa cộng tuyến không còn
nữa.

(2) Trong mô hình hồi quy có chứa các biến giải thích
với lũy thừa bậc cao dần của biến giải thích.
(3) Trường hợp khi mô hình hồi quy có nhiều biến
giải thích hơn kích thước mẫu hay số quan sát.

(4) Do bản chất của mối liên hệ giữa các biến giải
thích, chẳng hạn vốn và lao động trong cùng ngành
thường có quan hệ tuyến tính khá chặt chẽ vì những
doanh nghiệp có nhiều vốn thường sử dụng nhiều lao
động.
Có thể nhận thấy hiện tượng đa cộng tuyến
qua các công cụ:

1/ Từ ma trận hệ số tương quan (correlation


matrix) tuyến tính giữa các biến độc lập, nếu một
biến có hệ số tương quan lớn với các biến còn lại
dễ xảy ra hiện tượng đa cộng tuyến, theo các nhà
thống kê,
| r | > 0.7
2/ Kiểm tra hiện tượng đa cộng tuyến qua hệ số
phóng đại phương sai VIF (Variance Inflation
Factor)
Để tính VIF, ta tính mối liên hệ giữa một biến độc
lập nào đó (được xem như biến phụ thuộc) với (k-1) biến
độc lập còn lại, thông qua Rj2. Hệ số phóng đại phương sai
VIF:
1
𝑉𝐼 𝐹 𝑗= 2
1−𝑅 𝑗
Rj2 - là hệ số xác định bội của biến độc lập X j (xem như
biến phụ thuộc) với tất cả các biến độc lập khác còn lại
Nếu VIF của một biến độc lập Xj nào đó > 10
thì biến này hầu như không có giá trị giải thích biến thiên
của Y trong mô hình MLR (Hair & ctg 2006). Tuy nhiên,
trong thực tế, nếu VIF > 2, chúng ta cần cẩn trọng
trong diễn giải các trọng số hồi qui.
Hệ số (1 - Rj2) được gọi là hệ số Tolerance

của biến Xj đó là phần riêng của Xj và hệ số


này càng nhỏ thì càng có dấu hiệu đa cộng
tuyến giữa các biến độc lập.
Từ file: HOIQUYBOI.sav

Kết quả bảng dưới đây cho thấy các VIF đều nhỏ hơn 2,
cho nên không có hiện tượng đa cộng tuyến.
Sử dụng phương trình hồi quy ước lượng để ước
lượng và dự báo

□ Thuû tuïc ñeå öôùc löôïng giaù trò trung bình cuûa Y
vaø dự báo moät giaù trò caù bieät cuûa Y trong hoài quy
boäi töông töï vôùi caùc thuû tuïc trong hoài quy ñôn .

□ Chuùng ta thay caùc giaù trò ñaõ cho cuûa x1, x2, . . . ,
xk vaøo phöông trình hoài quy öôùc löôïng vaø söû
duïng caùc giaù trò töông öùng cuûa y như là öôùc
löôïng ñieåm.
Từ ví dụ 2.1, ta đã xác định được phương trình
hồi quy ước lượng là:

¿
Dự báo số lượng bán được/tuần, với giá bán
là 5,5 usd và chi phí quảng cáo là 3,50 (100 usd):

¿
Biến độc lập định tính
(Dummy variables – Biến giả)
□ Trong nhieàu tình huoáng ta phaûi laøm vieäc vôùi
caùc bieán ñoäc laäp ñònh tính nhö giôùi tính (nam,
nöõ), phöông thöùc thanh toaùn (tieàn maët, seùc, theû
tín duïng), v.v…
□ Ví duï nhö biến x2 coù theå laø giôùi tính: trong ñoù

0 chỉ nam
x2 =
□ Trong tröôøng hôïp naøy, x2 ñöôïc
1 chægoïinöõ.
laø moät bieán
giaû hay bieán chæ baùo.
Ví dụ 2.2: Giám đốc kinh doanh của hãng sản xuất
xe gắn máy HD muốn xác định các nhân tố ảnh
hưởng đến số lượng xe gắn máy bán ở các đại lý.
Để phát triển kế hoạch kinh doanh, ông ta
chọn ngẫu nhiên 12 chủ đại lý. Từ 12 người này ông
đã nhận được: số xe bán ra trong tháng qua, thời
gian quảng cáo trên TV (phút), số nhân viên và chủ
đại lý đã (chưa) qua lớp đào tạo về bán hàng. Dữ
liệu cho trong bảng dưới đây:
Số xe Thời Số Đã Số xe Thời Số Đã
bán gian nhân qua bán gian nhân qua
tháng QC viên, đào tháng QC viên, đào
qua, trên X2 tạo, qua, trên X2 tạo,
Yi TV, X1 X3 Yi TV, X1 X3

127 18 10 Yes 161 25 14 Yes


138 15 15 No 180 26 17 Yes
159 22 14 Yes 102 15 7 No
144 23 12 Yes 163 24 16 Yes
139 17 12 No 106 18 10 No
128 16 12 Yes 149 25 11 Yes
Phöông trình hoài quy boäi
E(y ) = β0 + β1x1 + β2x2 + β3x3
Phöông trình hoài quy öôùc löôïng
^
𝑦 =𝑏 0 +𝑏1 𝑥 1 +𝑏2 𝑥2 +𝑏 3 𝑥 3

Trong đó:
Y = Số xe bán trong tháng
x1 = Thời gian quảng cáo TV
x2 = số nhân viên
x3 = 1 nếu chủ đại lý đã qua lớp bán hàng
x3 = 0 nếu chủ đại lý chưa qua lớp bán hàng
x3 ñöôïc xem nhö laø moät bieán giaû.
Thực hiện trên SPSS
□ Chọn Analyze → Regression → Linear
□ Đưa biến phụ thuộc vào Dependent
□ Đưa 1 hoặc nhiều biến độc lập (định lượng)
sang ô Independents
□ Chọn Enter ở ô Method (mặc định)
□ Click Statistics chọn Estimates và Model fit
(mặc định)
□ Chọn thêm Collinearity diagnostics (Xem xét
đa cộng tuyến), Durbin-Watson (xem xét tính độc lập
của phần dư), Casewise diagnostics (Xem xét outlier)
→ Continue
□ Vào Plots, chọn ZPRED chuyển sang hộp X : và
ZRESID chuyển sang hộp Y: (vẽ biểu đồ nhằm xem
xét giả định về phương sai không đổi).
□ Chọn produce all partial plots (để xem xét biểu đồ
phân tán giữa từng biến độc lập với biến phụ thuộc
→ Continue
Vào Save chọn Cook’s và Leverage values (để xem
xét Influential points và Leverage points → continue
→ OK
Kết quả xử lý bằng SPSS 20.0
Phương trình hồi quy ước lượng tìm được:

y  31,133  2,152QCTV  5, 014 NV  5, 665 DT

Với b1 = 2,152 cho biết số xe bán được kỳ vọng tăng


lên, khi quảng cáo trên TV tăng lên 1 phút (các biến
độc lập khác giữ nguyên không đổi)
Với b2 = 5,014 cho biết số xe bán được kỳ vọng tăng
lên, khi số nhân viên bán hàng tăng lên 1 người (các
biến độc lập khác giữ nguyên không đổi)
Với b3 = 5,665 cho biết số xe bán được kỳ vọng tăng
lên, khi chủ đại lý được trải qua lớp đào tạo bán hàng
so với chủ đại lý chưa qua lớp bán hàng (các biến độc
lập khác giữ nguyên không đổi)
Số xe kỳ vọng bán được với số nhân viên
đại lý là 20 người, quảng cáo bán hàng trên TV
15 phút và chủ đại lý đã qua lớp đào tạo về bán
hàng:

^𝑦 =31,133+2,152𝑄𝐶𝑇𝑉+5,014𝑁𝑉+5,665𝐷𝑇=31,133+2,152(15 )+ 5,014 (20 )+ 5,665=169,36


Phân tích phần dư

□ Ñoái vôùi hoài quy tuyeán tính ñôn bieåu ñoà


phaàn dö döïa vaøo y vaø bieåu ñoà phaàn dö döïa
vaøo X cung caáp cuøng moät thoâng tin.

□ Trong phaân tích hoài quy boäi söû duïng bieåu


ñoà phaàn dö döïa vaøo y ñeå xác ñònh xem caùc
giaû ñònh cuûa moâ hình được thoaû maõn
khoâng.
Các phần dư chuẩn hóa thường được sử dụng.
Phần dư chuẩn hóa 𝑌 𝑖 − 𝑦𝑖
đối với quan sát thứ i:
𝑆𝑌 − 𝑦
𝑖 𝑖

Trong đó: 𝑆 𝑌 − 𝑦 - Độ lệch


𝑖 𝑖
tiêu chuẩn của phân dư i,
𝑆 𝑌 − 𝑦 =𝑆 √ 1− h𝑖
𝑖 𝑖

S – Sai số chuẩn của ước lượng


hi – Tác dụng đòn bẩy (leverage) của quan sát thứ i.
Việc tính hi và 𝑆 𝑌 𝑖 − 𝑦 𝑖quá phức tạp để thực hiện
bằng tay.

Sử dụng phần mềm SPSS hoặc Excel để tính,


nếu phần dư chuẩn hóa của các quan sát thứ i
nằm trong khoảng từ - 2 đến +2, ta không có lý
do để nghi ngờ giả định biến sai số ε là có phân
phối chuẩn. Chúng ta kết luận giả định của mô
hình là thích hợp.
Từ ví dụ 2.1, xử lý bằng Excel:
RESIDUAL OUTPUT

Observation Predicted Pie Sales Residuals Standard Residuals


1 413.7953606 -63.79536065 -1.451789098
2 363.8451816 96.15481839 2.188192302
3 329.1183496 20.88165039 0.475203088
4 440.3147858 -10.31478584 -0.23473327
5 359.088457 -9.088457029 -0.206825742
6 415.7368519 -35.73685186 -0.81326246
7 416.5311629 13.46883708 0.306509919
8 420.9701631 49.02983692 1.11577052
9 391.1589179 58.84108213 1.339044731
10 478.1745756 11.82542435 0.269110825
11 386.1639 -46.16389997 -1.050550479
12 346.4420501 -46.44205006 -1.056880332
13 455.6969951 -15.69699508 -0.357216044
14 441.1090969 8.890903095 0.202330014
15 331.8541519 -31.85415188 -0.724903974
Normal Probability Plot
600
400
Pie Sales

200
0
0 20 40 60 80 100 120
Sample Percentile

Các phần dư chuẩn hóa đều nằm trong


khoảng (-2 đến +2). Chúng ta kết luận giả định
của mô hình là thích hợp.
Định giá các căn nhà dựa vào diện tích và có phòng tắm liền kề
Nhà Định giá, 1000 usd Diện tích, 100m2 Phòng tắm đi liền
1 84.4 2.00 Yes 1
2 77.4 1.71 No 0
3 75.7 1.45 No 0
4 85.9 1.76 Yes 1
5 79.1 1.93 No 0
6 70.4 1.20 Yes 1
7 75.8 1.55 Yes 1
8 85.9 1.93 Yes 1
9 78.5 1.59 Yes 1
10 79.2 1.50 Yes 1
11 86.7 1.90 Yes 1
12 79.3 1.39 Yes 1
13 74.5 1.54 No 0
14 83.8 1.89 Yes 1
15 76.8 1.59 No 0
BÀI TẬP
Yêu cầu:
1. Viết phương trình hồi quy bội. Giải thích
các tham số β1 và β2
2. Tính hệ số xác định, hệ số xác định điều
chỉnh
3. Kiểm định mức ý nghĩa theo X1, X2 và Y.
Sử dụng mức ý nghĩa 0.05
4. β1 và β2 có ý nghĩa với α =0.05

You might also like