You are on page 1of 65

HỌC PHẦN KINH TẾ LƯỢNG

CHƯƠNG 3

MÔ HÌNH HỒI QUY NHIỀU BIẾN

Giảng viên: T.S. TRỊNH THỊ HƯỜNG


Bộ môn : Phân tích dữ liệu kinh tế
Email: trinhthihuong@tmu.edu.vn
NỘI DUNG CHÍNH
3.1 Mô hình hồi quy nhiều biến

3.2 Khoảng tin cậy và kiểm định giả thuyết về các hệ


số hồi quy
3.2.1. Khoảng tin cậy của các hệ số hồi quy
3.2.2. Kiểm định giả thuyết về các hệ số hồi quy

3.3 Phân tích phương sai và kiểm định giả thuyết


đồng thời

3.4 Phân tích hồi quy và dự báo


Đặt vấn đề (1)
Nghiên cứu ảnh hưởng của học vấn (𝑒𝑑𝑢𝑐) đến tiền
lương (𝑤𝑎𝑔𝑒) và những yếu tố không quan sát được (U)
𝑤𝑎𝑔𝑒 = 𝛽0 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝑈 (1)
Ý nghĩa
𝛽1 : tác động của 𝑒𝑑𝑢𝑐 lên 𝑤𝑎𝑔𝑒 trong điều kiện các yếu
tố khác không thay đổi.
Trong các yếu tố không quan sát được (U), có thể chứa
số năm kinh nghiệm (𝑒𝑥𝑝𝑒𝑟).

Đồng thời, (1) thoải mãn giả thuyết cov 𝑈, 𝑒𝑑𝑢𝑐 = 0,


tức là giả thuyết trên có thể bao gồm giả thuyết kinh
nghiệm không tương quan với học vấn => Một giả
thuyết khá mong manh!!
Đặt vấn đề (2)
Nghiên cứu ảnh hưởng của học vấn (𝑒𝑑𝑢𝑐) và số năm kinh nghiệm
(𝑒𝑥𝑝𝑒𝑟 ) đến tiền lương (𝑤𝑎𝑔𝑒) và những yếu tố không quan sát được (U)
𝑤𝑎𝑔𝑒 = 𝛽0 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝛽2 𝑒𝑥𝑝𝑒𝑟 + 𝑈 (2)
Ý nghĩa
𝛽1 : tác động của 𝑒𝑑𝑢𝑐 lên 𝑤𝑎𝑔𝑒 trong điều kiện các yếu tố khác không
thay đổi.

𝛽2 : tác động của 𝑒𝑥𝑝𝑒𝑟 lên 𝑤𝑎𝑔𝑒 trong điều kiện các yếu tố khác không
thay đổi.

So với mô hình (1), yếu tố số năm kinh nghiệm (𝑒𝑥𝑝𝑒𝑟 ) được tách tường
minh nên ta có thể đo lường tác động của số năm kinh nghiệm (𝑒𝑥𝑝𝑒𝑟 )
đến tiền lương trong điều kiện các yếu tố khác, bao gồm cả học vấn,
không đổi
3.1 Mô hình hồi quy nhiều biến và phương
pháp bình phương nhỏ nhất
3.1.1 Mô hình hồi quy nhiều biến

𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 +. . . +𝛽𝑘 𝑋𝑘𝑖 + 𝑈𝑖 (3.1)

Trong đó:
Yi giá trị của biến phụ thuộc Y ( 𝑖 = 1, 𝑛 )
𝛽1 hệ số chặn (hệ số tự do)
𝛽𝑗 hệ số góc (hệ số hồi quy riêng) của biến giải thích
Xj ( 𝑗 = 2, 𝑘 )
Ui sai số ngẫu nhiên
Mô hình hồi quy mẫu xây dựng dựa trên mẫu ngẫu nhiên

kích thước n (𝑌𝑖 , 𝑋2𝑖 , 𝑋3𝑖 , . . . , 𝑋𝑘𝑖 ), 𝑖 = 1, 𝑛


𝑌෠𝑖 = 𝛽መ1 + 𝛽መ2 𝑋2𝑖 + 𝛽መ3 𝑋3𝑖 +. . . +𝛽መ𝑘 𝑋𝑘𝑖 (3.2)
Trong đó:
𝑌෡𝑖 ước lượng của Yi ( 𝑖 = 1, 𝑛 )

𝛽෡𝑗 ước lượng của hệ số hồi quy tổng thể 𝛽𝑗 (𝑗 = 1, 𝑘)


Ta ký hiệu
𝑌1 𝛽1
𝑌= 𝑌2 𝛽= 𝛽2
… …
𝑌𝑛 𝛽𝑛

1 𝑋21 𝑋31 … 𝑋𝑘1


𝑋= 1 𝑋22 𝑋32 … 𝑋𝑘2
… … … … …
1 𝑋2𝑛 𝑋3𝑛 … 𝑋𝑘𝑛

Thì mô hình hồi quy tổng thể (3.1) có thể biểu


diễn dưới dạng ma trận:
Y = X𝛽 + 𝑈 (3.3)
Tương tự, nếu ta ký hiệu

 Yˆ1   ˆ1 
   
 Yˆ2   ˆ 
Yˆ =   ˆ =  2 
 ...   ... 
 Yˆ   ˆ 
 n  k
Thì mô hình hồi quy mẫu (3.2) có thể biểu diễn
dưới dạng ma trận như sau:
෡ = X𝛽መ
Y (3.4)
3.1.2 Các giả thiết cơ bản của MHHQ nhiều biến

Giả thiết 1. Các biến giải thích Xj (j = 2, 𝑘 ) không phải biến


ngẫu nhiên, giá trị của chúng là xác định
Giả thiết 2. Kỳ vọng toán của các sai số ngẫu nhiên Ui bằng
không, 𝐸 𝑈𝑖 = 𝐸 𝑈| 𝑋𝑖 = 0, ∀𝑖

𝜎 2 (∀𝑖 = 𝑗)
Giả thiết 3. 𝐸(𝑈𝑖 . 𝑈𝑗 ) = ൝
0(∀𝑖 ≠ 𝑗)
Giả thiết 4. Hạng ma trận X bằng k
rank(X) = k
Giả thuyết này có nghĩa giữa các biến Xj không có
hiện tượng cộng tuyến hay các cột của ma trận X
độc lập tuyến tính

Giả thiết 5. 𝑈𝑖 ~ 𝑁 (0, 𝜎 2 ) (∀𝑖)


3.1.3 Phương pháp bình phương nhỏ nhất

Xét hàm hồi quy tổng thể và hàm hồi quy mẫu
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 +. . . +𝛽𝑘 𝑋𝑘𝑖 + 𝑈𝑖 3.1
𝑌෠𝑖 = 𝛽መ1 + 𝛽መ2 𝑋2𝑖 + 𝛽መ3 𝑋3𝑖 +. . . +𝛽መ𝑘 𝑋𝑘𝑖 (3.2)

hoặc ở dạng ma trận


Y = X𝛽 + 𝑈 3.3
෡ = X𝛽መ
Y (3.4)
Ta ký hiệu các phần dư ei:
𝑒𝑖 = 𝑌𝑖 − 𝑌෠𝑖
Các phần dư này cũng có thể biểu diễn dưới dạng
ma trận như sau:

 e1   Y1   Yˆ1 
     
 e 2   Y2   Yˆ2 
e =   =   −   = Y − Ŷ = Y − Xˆ
... ...  ... 
   
 e   Y   Yˆ 
 n  n  n
Theo phương pháp bình phương nhỏ nhất, khi xây

dựng hàm hồi quy mẫu, các hệ số hồi quy mẫu 𝛽መ𝑗
phải được xác định sao cho tổng bình phương các
phần dư đạt giá trị nhỏ nhất, tức là:

෍ 𝑒𝑖2 → 𝑚𝑖𝑛
Ta có σ 𝑒𝑖2 = 𝑒 𝑇 𝑒
𝜕(𝑒 𝑇 𝑒)
෍ 𝑒𝑖2 → min ⇔ =0
𝜕𝛽መ

Giải phương trình trên ta được:

𝛽መ = 𝑋 𝑇 𝑋 −1 . 𝑋 𝑇 𝑌 (3.5)

Các ước lượng 𝛽መ𝑗 được xác định theo công


thức (3.5) được gọi là các ước lượng bình
phương nhỏ nhất.
Ma trận XTX được xác định như sau:

 1 1 ... 1  1 X 21 ... X k1 
  
 X 21 X 22 ... X 2 n  1 X 22 ... X k 2 
XTX =
... ... ... ...  ... ... ... ... 
  
X ... X kn  1 X 2 n ... X kn 
 k1 X k2

 n
 X 2i X 3i ... X ki 

  X 2i X X X X X2i ki 
2
...
= 2i 2i 3i

... ... ... ... ...
 
X  X ki X 2i  X ki X 3i ...  X ki 
2
 ki
Ma trận XTY cũng được xác định tương tự:

 1 1 ... 1  Y1    Yi 
    
 X 21 X 22 ... X 2 n  Y2    Yi X 2i 
XTY =   = 
... ... ... ... ... ...
    
X ... X kn  Yn    Yi X ki 
 k1 X k2
Bài tập: Xây dựng hàm hồi quy
mẫu trong trường hợp 𝑘 = 3,
cụ thể mô hình
𝑌 ෢1 + 𝛽
෡𝑖 = 𝛽 ෢2 𝑋𝑖 + 𝛽
෢2 𝑍𝑖
Ví dụ 3.1 Nghiên cứu mối quan hệ phụ thuộc giữa doanh số bán ra
với chi phí dành cho quảng cáo và giá bán, người ta thu thập được các
số liệu sau đây tại 10 cửa hàng cùng kinh doanh một loại mặt hàng:
Yi 84 90 92 96 100 108 120 126 130 136
Xi 8 9 10 9 10 12 13 14 14 15

Zi 9 8 8 7 7 8 7 7 6 6
Trong đó:
Yi: doanh số bán ra trong một tháng của cửa hàng thứ i (triệu
đồng)
Xi: chi phí dành cho quảng cáo trong một tháng của cửa hàng thứ
i (triệu đồng)
Zi: giá bán của cửa hàng thứ i (ngàn đồng/1sản phẩm)
Bằng phương pháp bình phương nhỏ nhất và dựa vào số liệu trên, hãy
xây dựng hàm hồi quy mẫu dưới dạng sau:
𝑌෠𝑖 = 𝛽መ1 + 𝛽መ2 𝑋𝑖 + 𝛽መ3 𝑍𝑖
Đáp số:
෍ 𝑌𝑖

1082
𝑇
𝑋 𝑌= ෍ 𝑌𝑖 𝑋𝑖 = 12746
7766
෍ 𝑌𝑖 𝑍𝑖

𝑛 ෍ 𝑋𝑖 ෍ 𝑍𝑖

10 114 73
𝑇
𝑋 𝑋= ෍ 𝑋𝑖 ෍ 𝑋𝑖2 ෍ 𝑋𝑖 𝑍𝑖 = 114 1356 816
73 816 541
෍ 𝑍𝑖 ෍ 𝑍𝑖 𝑋𝑖 ෍ 𝑍𝑖2

𝑋 𝑇 𝑋 = 1944

𝐴𝟏𝟏 𝐴𝟐𝟏 𝐴𝟑𝟏 67740 −2106 −5964



𝑋 𝑇𝑋 = 𝐴𝟏𝟐 𝐴𝟐𝟐 𝐴𝟑𝟐 = −2106 81 162
𝐴𝟏𝟑 𝐴𝟐𝟑 𝐴𝟑𝟑 −5964 162 564
1 ෫ 1 67740 −2106 −5964
𝑋𝑇 𝑋 −1
= 𝑇 𝑋𝑇 𝑋 = −2106 81 162
𝑋 𝑋 1944
−5964 162 564

𝛽መ = 𝑋 𝑇 𝑋 −1 . 𝑋 𝑇 𝑌
1 67740 −2106 −5964 1082 69,53704
= −2106 81 162 12746 = 6,08333
1944
−5964 162 564 7766 −4,20370

𝑌෠𝑖 = 69,53704 + 6,08333𝑋𝑖 − 4,20370𝑍𝑖


Ý nghĩa của các hệ số hồi quy

𝛽መ2 = 6.08333 : Khi giá bán không đổi, chi phí dành cho
quảng cáo tăng lên 1 triệu đồng, thì doanh số bán ra trung
bình của cửa hàng tăng lên 6.08333 triệu đồng.

𝛽መ3 = −4.2037: Khi chi phí dành cho quảng cáo không
đổi, giá bán tăng lên 1ngàn đồng/ 1 đv sản phẩm, thì doanh
số bán ra trung bình của cửa hàng giảm xuống 4.2037 triệu
đồng.
Lưu ý: Diễn giải phương trình hồi quy OLS
 Xét mô hình hồi quy mẫu
෢1 + 𝛽
𝑌෠ = 𝛽 ෢2 𝑋1 + 𝛽෢ 3 𝑋2 (*)
❖Hệ số chặn 𝛽෢1 là giá trị dự đoán của Y khi 𝑋1 = 0 và 𝑋2 =
0. Việc gán 𝑋1 = 𝑋2 = 0 có thể có ý nghĩa hoặc không.
❖Các ước lượng 𝛽 ෢2 và 𝛽෢3 cho biết tác động trong điều kiện
yếu tố khác không đổi.
Δ𝑌෠ = 𝛽෢2 Δ𝑋1 + 𝛽෢ 3 Δ𝑋2 (**)
Ví dụ: Khi 𝑋2 cố định thì Δ𝑋2 = 0, khi đó
෢2 Δ𝑋1
Δ𝑌෠ = 𝛽
Ý nghĩa: Khi cố định 𝑋2 và 𝑋1 tăng 1 đơn vị (Δ𝑋1 = 1), thì
෢2 đơn vị.
giá trị Y thay đổi 𝛽
Ví dụ với dữ liệu thực: Các yếu tố tác động đến
điểm GPA ở bậc đại học (n = 141)
 GPA là từ viết tắt của từ Grade Point Average
 colGPA: Điểm trung bình (GPA) đại học
 hsGPA: Điểm GPA ở trung học
 ACT: Điểm kiểm tra thành tích Câu hỏi:
 Tính các số đặc trưng của biến colGPA
 Xây dựng hàm hồi quy mẫu
෣ =𝛽
𝒄𝒐𝒍𝑮𝑷𝑨 ෢1 + 𝛽
෢2 ℎ𝑠𝐺𝑃𝐴 + 𝛽෢3 𝐴𝐶𝑇
- Hệ số chặn 𝛽෢1 có ý nghĩa không?
෢2 và 𝛽
- Ý nghĩa của các hệ số ước lượng 𝛽 ෢3
෣ = 1.28628 + 0.453456 ℎ𝑠𝐺𝑃𝐴 + 0.009426 𝐴𝐶𝑇
𝒄𝒐𝒍𝑮𝑷𝑨

Hệ số chặn (1, 286328) cho biết điểm trung bình đại


học (COLPGA) dự báo nếu cả HSGPA và ACT đều
bằng 0 => Hệ số chặn không có ý nghĩa.
Hệ số ℎ𝑠𝐺𝑃𝐴 là 0.045356
Nếu giữ ACT không đổi, một điểm tăng thêm của
hsGPA sẽ dẫn đến tăng 0.453456 điểm colGPA.
Chọn hai sinh viên A và B có cùng điểm số ACT, nhưng
điểm hsGPA của A cao hơn của B một điểm, chúng ta
dự báo sinh viên A có điểm ColGPA cao hơn 0.453456
điểm.
Ví dụ với dữ liệu thực: Phương trình lương
theo giờ (n = 526)
 Wage: tiền lương 1 h làm việc (USD)
 Educ: Số năm đi học (năm)
 Exper: Số năm kinh nghiệm trên thị trường lao động
(năm)
 Tenure: Số năm đảm nhiệm công việc hiện tại (năm)
 Tính các số đặc trưng của biến “Wage”
 Xây dựng hàm hồi quy mẫu

log(𝑤𝑎𝑔𝑒) =𝛽 ෢1 + 𝛽
෢2 𝑒𝑑𝑢𝑐 + 𝛽෢ ෢
3 𝑒𝑥𝑝𝑒𝑟 + 𝛽4 𝑡𝑒𝑛𝑢𝑟𝑒
- Hệ số chặn 𝛽෢1 có ý nghĩa không?
෢2 và 𝛽
- Ý nghĩa của các hệ số ước lượng 𝛽 ෢3
Giải thích ý nghĩa!

𝑙𝑜𝑔(𝑤𝑎𝑔𝑒) = 0.284360 + 0.092029𝑒𝑑𝑢𝑐 +
0.004121 𝑒𝑥𝑝𝑒𝑟 + 0.022067 𝑡𝑒𝑛𝑢𝑟𝑒
 Hệ số của educ là 0.092029 có nghĩa là, trong điều kiện exper
và tenure không đổi, một năm đi học tăng thêm sẽ dẫn đến
một lượng tăng trong log(wage) là 0.092029; tương đương
tăng 9.2%
 Ngoài ra, nếu chọn ra hai người có cùng mức kinh nghiệm và
thâm niên công tác, hệ số của educ cho biết mức chênh lệch
trong tiền lương dự báo khi số năm đi học khác nhau 1 năm.
3.1.4 Các tính chất của ước lượng BPNN

1. Đường hồi quy mẫu đi qua điểm trung bình mẫu,


tức là: (𝑌, 𝑋2 , . . . 𝑋𝑘 )

𝑌 = 𝛽መ1 + 𝛽መ2 𝑋2 +. . . +𝛽መ𝑘 𝑋𝑘

trong đó:
1 1
𝑌 = ෍ 𝑌𝑖 , 𝑋𝑗 = ෍ 𝑋𝑗𝑖 (𝑗 = 2, 𝑘)
𝑛 𝑛
2. Giá trị trung bình của các giá trị 𝑌෠𝑖 được xác định theo
hàm hồi quy mẫu bằng giá trị trung bình của biến phụ
thuộc, tức là:
1
𝑌෠ = ෍ 𝑌෠𝑖 = 𝑌
𝑛
3. Tổng các phần dư của hàm hồi quy mẫu bằng 0:
σ 𝑒𝑖 = 0
4. Các phần dư ei không tương quan với 𝑌෠𝑖 :
෍ 𝑒𝑖 𝑌෠𝑖 = 0

5. Các phần dư ei không tương quan với 𝑋𝑗𝑖 :


෍ 𝑒𝑖 𝑋𝑗𝑖 = 0(𝑗 = 2, 𝑘)
6. (Định lý Gauss – Markov): Với các giả thuyết của
mô hình hồi quy tuyến tính cổ điển thì các ước lượng

bình phương nhỏ nhất 𝛽መ𝑗 là các ước lượng tuyến


tính, không chệch và có phương sai nhỏ nhất trong
lớp các ước lượng tuyến tính, không chệch của

𝛽𝑗 (𝑗 = 1, 𝑘) .
3.2 Khoảng tin cậy và kiểm định giả thuyết về các
hệ số hồi quy

Xét hàm hồi quy tổng thể và hàm hồi quy mẫu

𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 +. . . +𝛽𝑘 𝑋𝑘𝑖 + 𝑈𝑖 3.1


𝑌෠𝑖 = 𝛽መ1 + 𝛽መ2 𝑋2𝑖 + 𝛽መ3 𝑋3𝑖 +. . . +𝛽መ𝑘 𝑋𝑘𝑖 (3.2)
3.2.1 Ma trận hiệp phương sai của hệ số hồi quy
mẫu

Ma trận hiệp phương sai của hệ số hồi quy mẫu,


መ là ma trận được xác định như
kí hiệu cov( 𝛽),
sau:
መ = 𝐸[(𝛽መ − 𝛽)(𝛽መ − 𝛽)𝑇 ]
cov( 𝛽) (3.6)
 Var( ˆ1 ) cov( ˆ1, ˆ2 ) ... cov( ˆ1 , ˆk ) 
 
 cov( ˆ , ˆ ) Var( ˆ ) ... cov( ˆ2 , ˆk ) 
cov( ˆ ) =  2 1 2
 (3.7)
 ... ... ... ... 
 cov( ˆ , ˆ ) cov( ˆ , ˆ ) ... Var( ˆk ) 
 k 1 k 2

Ma trận hiệp phương sai của các hệ số hồi quy mẫu là


ma trận vuông cấp k, đối xứng qua đường chéo chính

và phần tử thứ j trên đường chéo chính là 𝑉𝑎𝑟(𝛽መ𝑗 ).


Có thể chứng minh được rằng:
መ = 𝜎 2 (𝑋 𝑇 𝑋)−1
cov( 𝛽) (3.8)
Do vậy ta có:

𝜎2
𝑉𝑎𝑟 𝛽መ𝑗 = 𝐴𝑗𝑗 (3.9)
𝑋𝑇𝑋

Trong thực hành khi sử dụng công thức (3.8) và (3.9),


do phương sai chưa biết, nên người ta thường thay 𝜎 2
bằng ước lượng không chệch của nó là:

σ 2
𝑒𝑖
𝜎ො 2 = (3.10)
𝑛−𝑘
Trong thực hành người ta thường sử dụng công thức sau đây để
xác định σ 𝑒𝑖2 :

෍ 𝑒𝑖2 = 𝑒 𝑇 𝑒 = 𝑌 𝑇 𝑌 − 𝛽መ 𝑇 𝑋 𝑇 𝑌 3.11

Nếu khai triển công thức (3.11) ta được:

෍ 𝑒𝑖2 = ෍ 𝑌𝑖2 − 𝛽መ1 ෍ 𝑌𝑖 + 𝛽መ2 ෍ 𝑌𝑖 𝑋2𝑖 +. . . +𝛽መ𝑘 ෍ 𝑌𝑖 𝑋𝑘𝑖 (3.12)


Câu hỏi: Cho mô hình hồi quy mẫu
𝑌෠𝑖 = 𝛽መ1 + 𝛽መ2 𝑋𝑖 + 𝛽መ3 𝑍𝑖

Viết công thức tính tổng bình phương các phần dư


σ 𝑒𝑖2 ?

Ước lượng không chệch 𝜎ො 2 của 𝜎 2 ?

Phương sai của hệ số hồi quy 𝛽መ2 và 𝛽መ3 ? 𝑉𝑎𝑟 𝛽መ2 và


𝑉𝑎𝑟 𝛽መ3 ?
Câu hỏi: Cho mô hình hồi quy mẫu
𝑌෠𝑖 = 𝛽መ1 + 𝛽መ2 𝑋𝑖 + 𝛽መ3 𝑍𝑖
ĐÁP ÁN: Trên mẫu, ta có:

❖ Viết công thức tính tổng bình phương các phần dư σ 𝑒𝑖2

෡ 𝟏 ෍ 𝒀𝒊 + 𝜷
෍ 𝒆𝟐𝒊 = ෍ 𝒀𝟐𝒊 − 𝜷 ෡ 𝟐 ෍ 𝒀𝒊 𝑿𝒊 + 𝜷
෡ 𝟐 ෍ 𝒀𝒊 𝒁𝒊

❖ Ước lượng không chệch 𝜎ො 2 của 𝜎 2


σ 𝟐
𝒆 𝒊
ෝ𝟐 =
𝝈
𝒏−𝒌
Trong đó, n: số quan sát và k = 3.
❖ Phương sai của hệ số hồi quy 𝛽መ2 và 𝛽መ3 ? 𝑉𝑎𝑟 𝛽መ2 và 𝑉𝑎𝑟 𝛽መ3
ෝ𝟐
𝝈 ෝ𝟐
𝝈
෡𝟐 =
𝑽𝒂𝒓 𝜷 ෡𝟑 =
𝑨𝟐𝟐 ; 𝑽𝒂𝒓 𝜷 𝑨𝟑𝟑
𝑿𝑻 𝑿 𝑿𝑻 𝑿
3.2.2 Khoảng tin cậy của các hệ số hồi quy
Từ giả thuyết 5 về phân phối chuẩn của sai số ngẫu
nhiên, có thể suy ra:

𝛽መ𝑗 ~ 𝑁 (𝛽𝑗 , 𝑉𝑎𝑟(𝛽መ𝑗 )) (𝑗 = 1, 𝑘)


Do 𝜎 2 ta chưa biết mà phải thay bằng ước lượng
không chệch của nó là 𝜎ො 2 , nên

𝛽መ𝑗 − 𝛽𝑗
𝑇= ~ 𝑇 (𝑛 − 𝑘) (𝑗 = 1, 𝑘)
𝑠𝑒(𝛽መ𝑗 )
Bài toán: Xác định khoảng tin cậy
𝜸 = 𝟏 − 𝜶 của hệ số hồi quy 𝜷𝒋
Trả lời
෡𝑗 −𝛽𝑗
𝛽
Xây dựng thống kê: 𝑇= ෡𝑗 )
𝑠𝑒(𝛽
𝑛−𝑘
Với độ tin cậy 𝛾 = 1 − 𝛼, tìm phân vị Student 𝑡𝛼 sao cho
2
𝑛−𝑘
𝑃( 𝑇 < 𝑡𝛼 )=𝛾
2
𝑛−𝑘 𝑛−𝑘
𝑃(𝛽መ𝑗 − 𝑡𝛼 ∗ 𝑠𝑒 𝛽መ𝑗 < 𝛽𝑗 < 𝛽መ𝑗 + 𝑡𝛼 ∗ 𝑠𝑒 𝛽መ𝑗 ) = 𝛾
2 2

ෝ2
𝜎 σ 𝑒𝑖2
Trong đó, 𝑠𝑒 𝛽መ𝑗 = 𝐴𝑗𝑗 và 2
𝜎ො =
𝑋𝑇𝑋 𝑛−𝑘
Từ đó, với độ tin cậy 𝛾 = 1 − 𝛼, Khoảng tin cậy của 𝛽𝑗 là:
𝑛−𝑘 𝑛−𝑘
𝛽መ𝑗 −𝑡𝛼 ∗ 𝑠𝑒 𝛽መ𝑗 , 𝛽መ𝑗 + 𝑡𝛼 ∗ 𝑠𝑒 𝛽መ𝑗
2 2
Ví dụ 3.1 Nghiên cứu mối quan hệ phụ thuộc giữa doanh số bán ra với chi phí dành
cho quảng cáo và giá bán, người ta thu thập được các số liệu sau đây tại 10 cửa
hàng cùng kinh doanh một loại mặt hàng:

Yi 84 90 92 9 100 108 120 12 130 136


6 6
Xi 8 9 10 9 10 12 13 14 14 15

Zi 9 8 8 7 7 8 7 7 6 6

Trong đó:
Yi: doanh số bán ra trong một tháng của cửa hàng thứ i (triệu đồng)
X i: chi phí dành cho quảng cáo trong một tháng của cửa hàng thứ i (triệu
đồng)
Zi: giá bán của cửa hàng thứ i (ngàn đồng/1sản phẩm)

a) Bằng phương pháp bình phương nhỏ nhất và dựa vào số liệu trên, hãy xây dựng
hàm hồi quy mẫu dưới dạng sau:
𝑌෠𝑖 = 𝛽መ1 + 𝛽መ2 𝑋𝑖 + 𝛽መ3 𝑍𝑖

b) Xác định khoảng tin cậy 𝟗𝟓% của 𝜷𝟐 .


Lời giải
NỘI DUNG CHÍNH
3.1 Mô hình hồi quy nhiều biến

3.2 Khoảng tin cậy và kiểm định giả thuyết về các hệ


số hồi quy
3.2.1. Khoảng tin cậy của các hệ số hồi quy
3.2.2. Kiểm định giả thuyết về các hệ số hồi quy

3.3 Phân tích phương sai và kiểm định giả thuyết


đồng thời

3.4 Phân tích hồi quy và dự báo


3.2.3 Kiểm định giả thuyết về các hệ số hồi
quy

Xem xét phương trình tiền lương (các giải thuyết của mô hình hồi
quy tuyến tính cổ điển được thoải mãn)
𝐥𝐨𝐠 𝒘𝒂𝒈𝒆 = 𝜷𝟏 + 𝜷𝟐 𝒆𝒅𝒖𝒄 + 𝜷𝟑 𝒆𝒙𝒑𝒆𝒓 + 𝜷𝟒 𝒕𝒆𝒏𝒖𝒓𝒆 + 𝑼 (1)

𝛽2 là tham số của tổng thể => KHÔNG bao giờ biết chính xác
Mục đích: Lập giả thuyết về giá trị của hệ số 𝛽𝑗 và dùng suy diễn
thống kê để kiểm định giả thuyết này.
3.2.3 Kiểm định giả thuyết về các hệ số hồi
quy
Giả sử với mức ý nghĩa  cho trước và 𝛽𝑗∗ là giá trị giả định của 𝛽𝑗 ,
ta cần kiểm định giả thuyết:

𝐻0 : 𝛽𝑗 = 𝛽𝑗∗

𝐻1 : 𝛽𝑗 ≠ 𝛽𝑗∗ (𝛽𝑗 < 𝛽𝑗∗ , 𝛽𝑗 > 𝛽𝑗∗ )
Ta xây dựng tiêu chuẩn kiểm định

𝛽መ𝑗 − 𝛽𝑗∗
𝑇=
𝑠𝑒(𝛽መ𝑗 )

Nếu H0 đúng thì T~𝑇 (𝑛−𝑘)


3.2.3 Kiểm định giả thuyết về các hệ số hồi
quy
Loại giả 𝑯𝟎 𝑯𝟏 𝑾𝟎
thuyết
Hai phía 𝛽𝑗 = 𝛽𝑗∗ 𝛽𝑗 ≠ 𝛽𝑗∗ 𝑊𝛼 = {𝑡: 𝑡 > 𝑡𝛼
(𝑛−𝑘)
}
2
Trái 𝛽𝑗 = 𝛽𝑗∗ 𝛽𝑗 < 𝛽𝑗∗ 𝑊𝛼 = {𝑡: 𝑡 < −𝑡𝛼
(𝑛−𝑘)
}
Phải 𝛽𝑗 = 𝛽𝑗∗ 𝛽𝑗 > 𝛽𝑗∗ (𝑛−𝑘)
𝑊𝛼 = {𝑡: 𝑡 > 𝑡𝛼 }
3.2.3 Kiểm định giả thuyết về các hệ số hồi
quy
Kiểm định giả thuyết không và giả thuyết đối hai phía
𝐻0 : 𝛽𝑗 = 0

𝐻1 : 𝛽𝑗 ≠ 0

Ý nghĩa của giả thuyết đối là gì?


෡𝑗
𝛽
Ta xây dựng tiêu chuẩn kiểm định: 𝑇 = ෡𝑗 )
𝑠𝑒(𝛽

Nếu H0 đúng thì T~𝑇 (𝑛−𝑘)


Lưu ý: Với mức ý nghĩa 𝛼 , nếu bác bỏ giả thuyết H0 thì ta nói 𝑥𝑗 có ảnh
hưởng đến Y (hay có ý nghĩa thống kê tại mức ý nghĩa 𝛼).
Nếu không có cơ sở bác bỏ giả thuyết H0 thì ta nói 𝑥𝑗 KHÔNG có ảnh
hưởng đến Y (hay KHÔNG có ý nghĩa thống kê tại mức ý nghĩa 𝛼).
Ví dụ 3.1 Nghiên cứu mối quan hệ phụ thuộc giữa doanh số bán ra với chi phí dành
cho quảng cáo và giá bán, người ta thu thập được các số liệu sau đây tại 10 cửa
hàng cùng kinh doanh một loại mặt hàng:

Yi 84 90 92 9 100 108 120 12 130 136


6 6
Xi 8 9 10 9 10 12 13 14 14 15

Zi 9 8 8 7 7 8 7 7 6 6

Trong đó:
Yi: doanh số bán ra trong một tháng của cửa hàng thứ i (triệu đồng)
X i: chi phí dành cho quảng cáo trong một tháng của cửa hàng thứ i (triệu
đồng)
Zi: giá bán của cửa hàng thứ i (ngàn đồng/1sản phẩm)

a) Bằng phương pháp bình phương nhỏ nhất và dựa vào số liệu trên, hãy xây dựng
hàm hồi quy mẫu dưới dạng sau:
𝑌෠𝑖 = 𝛽መ1 + 𝛽መ2 𝑋𝑖 + 𝛽መ3 𝑍𝑖
b) Xác định khoảng tin cậy 95% của 𝛽2 .
c) Với mức ý nghĩa 𝜶 = 𝟎. 𝟎𝟓, kiểm định giải thuyết: chi phí quảng cáo không
ảnh hưởng tới doanh số bán ra.
Lời giải:
Ví dụ với dữ liệu thực: Các yếu tố tác động đến
điểm GPA ở bậc đại học (n = 141)

Câu hỏi: Với mức ý nghĩa 𝛼 = 0.05, kiểm định giả


thuyết ACT có ảnh hưởng tới điểm COLGPA?
3.3 Phân tích phương sai và kiểm định giả thuyết đồng
thời

3.3.1 Hệ số xác định bội


Xét hàm hồi quy tổng thể và hàm hồi quy mẫu:
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 +. . . +𝛽𝑘 𝑋𝑘𝑖 + 𝑈𝑖 (3.1)
𝑌෠𝑖 = 𝛽መ1 + 𝛽መ2 𝑋2𝑖 + 𝛽መ3 𝑋3𝑖 +. . . +𝛽መ𝑘 𝑋𝑘𝑖 (3.2)
Ta có
1. 𝑇𝑆𝑆 = σ(𝑌𝑖 − 𝑌)2 (Total sum of squares: Tổng bình phương độ lệch toàn phần)
2. 𝐸𝑆𝑆 = σ(𝑌෠𝑖 − 𝑌)
෠ 2 = σ(𝑌෠𝑖 − 𝑌)2
(𝐸𝑥𝑝𝑙𝑎𝑖𝑛𝑒𝑑 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠: 𝑇ổ𝑛𝑔 𝑏ì𝑛ℎ 𝑝ℎươ𝑛𝑔 độ 𝑙ệ𝑐ℎ đượ𝑐 𝑔𝑖ả𝑖 𝑡ℎí𝑐ℎ)
1. 𝑅𝑆𝑆 = σ(𝑌𝑖 − 𝑌෠𝑖 )2 Residual sum of squares: tổng bình phương phần dư
2. Ta chứng minh được hệ thức sau:
𝑇𝑆𝑆 = 𝐸𝑆𝑆 + 𝑅𝑆𝑆
Định nghĩa 1: Hệ số xác định bội R2 được định nghĩa
như sau:

𝐸𝑆𝑆 𝑅𝑆𝑆
R2 = =1−
𝑇𝑆𝑆 𝑇𝑆𝑆

Trong thực hành ta có thể sử dụng công thức:


𝛽መ 𝑇 𝑋 𝑇 𝑌 − 𝑛 𝑌ത 2
𝑅2 =
𝑌 𝑇 𝑌 − 𝑛𝑌ത 2
Nếu khai triển ta được
𝛽መ1 σ 𝑌𝑖 + 𝛽መ2 σ 𝑌𝑖 𝑋2𝑖 +. . . +𝛽መ𝑘 σ 𝑌𝑖 𝑋𝑘𝑖 − 𝑛𝑌ത 2
𝑅2 =
σ 𝑌𝑖2 − 𝑛𝑌ത 2
σ 𝑌𝑖2 −σ 𝑒𝑖2 −𝑛𝑌ത 2 σ 𝑒𝑖2
= σ 𝑌𝑖2 −𝑛𝑌ത 2
=1 −σ
𝑌𝑖2 −𝑛𝑌ത 2
Tính chất:
1. 0  R2  1
- Nếu R2 = 1, hàm hồi quy có thể coi là hoàn hảo
- Nếu R2 = 0, hàm hồi quy đưa ra là không phù hợp
Vì thế R2 được dùng làm thước đo mức độ phù hợp của
hàm hồi quy

2. R2 là hàm không giảm, phụ thuộc vào số biến giải


thích có trong mô hình

Tuy nhiên không thể dùng R2 làm tiêu chuẩn để xét việc
đưa thêm hay không đưa thêm biến độc lập mới vào mô
hình mà phải dùng hệ số xác định bội đã điều chỉnh
Định nghĩa 2: Hệ số xác định bội đã điều chỉnh,
ký hiệu 𝑅ത 2 được định nghĩa như sau:

𝑛−1
𝑅ത 2 = 1 − (1 − 𝑅2 )
𝑛−𝑘
ഥ 𝟐 có các tính chất:
𝑹
1. Nếu k > 1 thì 𝑅ത 2 < 𝑅2 ≤ 1
và 𝑅ത 2 cũng là hàm không giảm đối với số biến giải
thích có trong mô hình
2. 𝑅ത 2 có thể nhận giá trị âm dù R2 luôn dương
Vậy khi nào cần đưa thêm biến độc lập mới vào
mô hình? Có thể chứng minh được rằng việc đưa
thêm biến giải thích mới vào mô hình là cần thiết
2
chừng nào 𝑅 còn tăng lên và hệ số hồi quy của
biến mới Xj là j  0 (có ý nghĩa thống kê mức
0.1, 0.05, 0.01)
3.3.2 Kiểm định giả thuyết đồng thời

Xét giả thuyết


𝐻0 : 𝛽2 = 𝛽3 =. . . = 𝛽𝑘 = 0

𝐻1 : ∃ í𝑡 𝑛ℎấ𝑡 𝑚ộ𝑡 𝛽𝑗 ≠ 0(𝑗 = 2, 𝑘)

hay giả thuyết tương đương là


𝐻0 : 𝑅2 = 0

𝐻1 : 𝑅2 > 0
Giải bài toán kiểm định: Tiêu chuẩn kiểm định??
Ta xây dựng tiêu chuẩn kiểm định:

𝑅2 𝑛 − 𝑘
𝐹= 2
.
1−𝑅 𝑘−1
Nếu H0 đúng thì F~F(k-1, n-k): Phân phối fisher (k-1, n-
k) bậc tự do.
(𝑘−1,𝑛−𝑘)
𝑃(𝐹 > 𝑓𝛼 )=𝛼
(𝑘−1,𝑛−𝑘)
𝑊𝛼 = 𝑓𝑡𝑛 : 𝑓𝑡𝑛 > 𝑓𝛼
Ví dụ 3.1 Nghiên cứu mối quan hệ phụ thuộc giữa doanh số bán ra với chi phí dành
cho quảng cáo và giá bán, người ta thu thập được các số liệu sau đây tại 10 cửa
hàng cùng kinh doanh một loại mặt hàng:

Yi 84 90 92 9 100 108 120 12 130 136


6 6
Xi 8 9 10 9 10 12 13 14 14 15

Zi 9 8 8 7 7 8 7 7 6 6

Trong đó:
Yi: doanh số bán ra trong một tháng của cửa hàng thứ i (triệu đồng)
X i: chi phí dành cho quảng cáo trong một tháng của cửa hàng thứ i (triệu
đồng)
Zi: giá bán của cửa hàng thứ i (ngàn đồng/1sản phẩm)

a) Bằng phương pháp bình phương nhỏ nhất và dựa vào số liệu trên, hãy xây dựng
hàm hồi quy mẫu dưới dạng sau:
𝑌෠𝑖 = 𝛽መ1 + 𝛽መ2 𝑋𝑖 + 𝛽መ3 𝑍𝑖
d) Với mức ý nghĩa 𝜶 = 𝟎. 𝟎𝟓, kiểm định giả thuyết: chi phí dành cho quảng
cáo và giá bán của của hang đều không ảnh hưởng tới doanh số bán ra.
(Dạng bài: Kiểm định giả thuyết đồng thời)
d) Với mức ý nghĩa 𝜶 = 𝟎. 𝟎𝟓, kiểm định giả thuyết: chi phí dành cho quảng cáo và giá
bán của của hang đều không ảnh hưởng tới doanh số bán ra.
(Dạng bài: Kiểm định giả thuyết đồng thời)
Giải:
Với mức ý nghĩa 𝛼 = 0.05, kiểm định giả thuyết

𝐻0 : 𝛽2 = 𝛽3 = 0

𝐻1 : 𝛽2 ≠ 0 ℎ𝑜ặ𝑐 𝛽3 ≠ 0.
hay giả thuyết tương đương là
𝐻0 : 𝑅2 = 0

𝐻1 : 𝑅2 > 0
𝑅2 𝑛−𝑘
Xây dựng tiêu chuẩn kiểm định: 𝐹 = .
1−𝑅2 𝑘−1
(𝑘−1,𝑛−𝑘) (2,7)
Nếu H0 đúng thì F~F(k-1, n-k) = F(2, 7). Tìm phân vị Fisher 𝑓𝛼 = 𝑓0.05 =
4.74
𝑘−1,𝑛−𝑘
𝑃 𝐹 > 𝑓𝛼 = 𝛼 ℎ𝑜ặ𝑐𝑃 𝐹 > 4.74 = 0.05.
Miền bác bỏ: 𝑊𝛼 = 𝑓: 𝑓 > 4.74
Trên mẫu
3.4 Phân tích hồi quy và dự báo

Xét hàm hồi quy tổng thể và hàm hồi quy mẫu
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 +. . . +𝛽𝑘 𝑋𝑘𝑖 + 𝑈𝑖 3.1
𝑌෠𝑖 = 𝛽መ1 + 𝛽መ2 𝑋2𝑖 + 𝛽መ3 𝑋3𝑖 +. . . +𝛽መ𝑘 𝑋𝑘𝑖 (3.2)

hoặc ở dạng ma trận


Y = X𝛽 + 𝑈 (3.3)
෡ = X𝛽መ
Y (3.4)
Bài toán đặt ra: với các giá trị cho trước của biến giải
thích X2=X20, X3=X30, ..., Xk=Xk0 hoặc có thể ký hiệu
1
𝑋20
𝑋0 = 𝑋30
...
𝑋𝑘0
cần dự báo giá trị trung bình E(Y/X0) hoặc giá trị cá biệt
Y=Y0 khi X=X0
3.4.1 Dự báo giá trị trung bình
Với độ tin cậy  = 1 –  cần dự báo E(Y/X0)
Ước lượng điểm của E(Y/X0) là:
𝑌෠0 = 𝑋0𝑇 . 𝛽መ = 𝛽መ1 + 𝛽መ2 𝑋20 + 𝛽መ3 𝑋30 +. . . +𝛽መ𝑘 𝑋𝑘0
Do 𝜎 2 chưa biết nên thống kê

𝑌෠0 − 𝐸(𝑌/𝑋0 )
𝑇= ~ 𝑇 (𝑛 − 𝑘)

𝑠𝑒(𝑌0 )

ta tìm giá trị phân vị 𝑡𝛼/2 (𝑛 − 𝑘) sao cho:

𝑃 𝑇 < 𝑡𝛼/2 (𝑛 − 𝑘) = 1 − 𝛼 = 𝛾
𝑃 𝑇 < 𝑡𝛼/2 (𝑛 − 𝑘) = 1 − 𝛼 = 𝛾
𝑌෠0 − 𝐸(𝑌/𝑋0 )
𝑃 < 𝑡𝛼/2 (𝑛 − 𝑘) = 1 − 𝛼 = 𝛾
𝑠𝑒(𝑌෠0 )
𝑃൫𝑌෠0 − 𝑡𝛼/2 (𝑛 − 𝑘). 𝑠𝑒(𝑌෠0 ) < 𝐸(𝑌/𝑋0 )
< 𝑌෠0 + 𝑡𝛼/2 (𝑛 − 𝑘). 𝑠𝑒(𝑌෠0 )൯ = 1 − 𝛼 = 𝛾

𝑌෠0 − 𝑡𝛼/2 (𝑛 − 𝑘). 𝑠𝑒(𝑌෠0 ) ; 𝑌෠0 + 𝑡𝛼 (𝑛 − 𝑘). 𝑠𝑒(𝑌෠0 )


2
Trong đó
መ 𝑋0 = 𝜎 2 . 𝑋0𝑇 . (𝑋 𝑇 𝑋)−1 𝑋0
𝑉𝑎𝑟(𝑌෠0 ) = 𝑋0𝑇 . cov( 𝛽).
𝑠𝑒(𝑌෠0 ) = 𝑉𝑎𝑟(𝑌෠0 ) = 𝜎 𝑋0𝑇 . (𝑋 𝑇 𝑋)−1 𝑋0
3.4.2 Dự báo giá trị cá biệt

Với độ tin cậy  cần dự báo giá trị Y=Y0 khi X=X0

Ước lượng điểm của Y0 vẫn là:


𝑌෠0 = 𝑋0𝑇 . 𝛽መ = 𝛽መ1 + 𝛽መ2 𝑋20 + 𝛽መ3 𝑋30 +. . . +𝛽መ𝑘 𝑋𝑘0
Hoàn toàn tương tự ta xây dựng thống kê
𝑌0 − 𝑌෠0
𝑇= ~𝑇 𝑛 − 𝑘

𝑠𝑒 𝑌0 − 𝑌0

Bằng phép biến đổi tương đương ta cũng suy ra được khoảng
tin cậy của Y0 là
൫𝑌෠0 − 𝑡𝛼/2 (𝑛 − 𝑘). 𝑠𝑒(𝑌0
− 𝑌෠0 ) ; 𝑌෠0 + 𝑡𝛼/2 (𝑛 − 𝑘). 𝑠𝑒(𝑌0 − 𝑌෠0 )൯
Trong đó
𝑉𝑎𝑟(𝑌0 − 𝑌෠0 ) = 𝑉𝑎𝑟(𝑌෠0 ) + 𝜎 2
𝑠𝑒(𝑌0 − 𝑌෠0 ) = 𝑉𝑎𝑟(𝑌0 − 𝑌෠0 )
Ví dụ: Xét tiếp ví dụ 3.1. Với độ tin cậy  = 0,98 hãy
dự báo doanh số bán ra trung bình trong một tháng
của các cửa hàng có chi phí dành cho quảng cáo là 10
triệu đồng/ tháng và giá bán là 8 ngàn đồng/ đơn vị.

You might also like