Mô Hình H I Qui B I - seminaTKUD

MÔ HÌNH HỒI QUY BỘI
NCS: NGUYỄN THANH NGA – HỌC VIỆN NGÂN HÀNG
HÀ NỘI, 9/2021
NỘI DUNG
1. Phân tích tương quan

2. Mô hình hồi quy bội
✓ Phương pháp OLS.
✓ Phương pháp MLE.
✓ Khoảng tin cậy, kiểm định giả thuyết của các hệ số hồi quy.
✓ Đánh giá sự phù hợp của mô hình.
✓ Phân tích hồi quy và dự báo .
3. Thực hành trên phần mềm R
1. PHÂN TÍCH TƯƠNG QUAN
• Phân tích tương quan: là phép phân tích được sử dụng để đo lường mối
quan hệ giữa các biến định lượng trong nghiên cứu
• Có 3 hệ số tương quan được sử dụng thông dụng nhất: hệ số tương quan
Pearson; hệ số tương quan Spearman; hệ số tương quan Kendall
Hệ số tương quan Pearson : là chỉ số thống kê dùng để đo lường mối liên hệ tuyến tính
giữa hai biến X và Y. Kí hiệu: 𝜌𝑋𝑌
𝑐𝑜𝑣(𝑋, 𝑌)
𝜌𝑋𝑌 =
𝜎𝑋 . 𝜎𝑌
Trong đó,
𝑐𝑜𝑣(𝑋, 𝑌): hiệp phương sai của X và Y.
𝜎𝑋 , 𝜎𝑌 : độ lệch chuẩn của X, Y.
Tính chất:
• −1 ≤ 𝜌𝑋𝑌 ≤ 1
➢ 𝜌𝑋𝑌 = 0 thì X, Y không có tương quan
➢ 𝜌𝑋𝑌 < 0: X , Y có mối liên hệ nghịch chiều ( X tăng thì Y giảm, và ngược lại)
➢ 𝜌𝑋𝑌 > 0: X , Y có mối liên hệ thuận chiều ( X tăng thì Y tăng, và ngược lại)
➢ 𝜌𝑋𝑌 : càng lớn thì mối liên hệ tuyến tính của X và Y càng mạnh
• 𝜌𝑋𝑌 = 𝜌𝑌𝑋
Hệ số tương quan mẫu, kí hiệu: 𝑟𝑋𝑌 , được tính dựa trên mẫu n quan sát
𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 ,…, 𝑥𝑛 , 𝑦𝑛 và dùng làm ước lượng cho 𝜌𝑋𝑌
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ . 𝑦𝑖 − 𝑦ത
𝑟𝑋𝑌 =
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2 . σ𝑛𝑖=1 𝑦𝑖 − 𝑦ത 2
σ𝑛
𝑖=1 𝑥𝑖 .𝑦𝑖 −𝑛𝑥ҧ 𝑦
ത
=
σ𝑛 2 ത 2 . σ𝑛
𝑖=1 𝑥𝑖 −𝑛𝑦
2 ത2
𝑖=1 𝑦𝑖 −𝑛𝑦
Trong thực hành thống kê, chúng ta dựa vào độ lớn của giá trị 𝑟𝑋𝑌 để đánh
giá mối tương quan giữa X và Y, cụ thể
𝑟𝑋𝑌 < 0.4: Ta nói X, Y có tương quan yếu
0.4 ≤ 𝑟𝑋𝑌 < 0.6: Ta nói X, Y có tương quan trung bình
0.6 ≤ 𝑟𝑋𝑌 < 0.8: Ta nói X, Y có tương quan mạnh
𝑟𝑋𝑌 ≥ 0.8: Ta nói X, Y có tương quan rất mạnh
Hệ số tương quan Spearman: Khi dữ liệu quan sát của (X, Y) không tuân theo phân phối chuẩn
hoặc có các giá trị quan sát bất thường (outlier) ta sử dụng hệ số tương quan Spearman thay cho hệ
số Pearson. Nếu mẫu dữ liệu quan 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 ,…, 𝑥𝑛 , 𝑦𝑛 là hoàn toàn khác nhau, thì
6 σ𝑛𝑖=1 𝑑𝑖2
𝜌=1−
𝑛(𝑛2 − 1)
Trong đó, 𝑑𝑖 là hiệu hai hạng của mỗi cặp quan sát 𝑥𝑖 , 𝑦𝑖 .
𝜌 > 0: X và Y có mối quan hệ thuận chiều
𝜌 < 0: X và Y có mối quan hệ nghịch chiều
𝜌 = 0: Y không có xu hướng tăng khi X tăng hay giảm (và ngược lại)
Hệ số tương quan Kendall: Được ước tính dựa trên việc tìm các cặp giá trị
𝑥𝑖 , 𝑦𝑖 của 𝑋, 𝑌 “song hành” với nhau. Một cặp giá trị 𝑥𝑖 , 𝑦𝑖 song hành
ở đây tức là hiệu (độ khác biệt) trên trục hoành có cùng dấu hiệu (dương hay
âm) với hiệu trên trục tung.
𝑠ố 𝑐ặ𝑝 𝑠𝑜𝑛𝑔 ℎà𝑛ℎ −𝑠ố 𝑐ặ𝑝 𝑘ℎô𝑛𝑔 𝑠𝑜𝑛𝑔 ℎà𝑛ℎ
𝜏= 𝑛(𝑛−1) .
2
Nếu hai biến X và Y không có tương quan với nhau thì số cặp song hành sẽ
bằng số cặp không song hành.
2. MÔ HÌNH HỒI QUY BỘI (MULTIPLE REGRESSION MODEL)
Đặt vấn đề
Bài toán: Đánh giá tác động của các hình thức quảng cáo (youtube,
facebook, newspaper) lên doanh thu (sales) của cửa hàng dựa trên dữ liệu
quan sát của 200 cửa hàng.
Giải quyết: Xây dựng được mô hình phản ánh mối liên hệ giữa biến doanh
thu (sale) với các biến (youtube, facebook, newspaper).
Mô hình hồi quy tổng thể
𝑌 = 𝛽1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 +. . . +𝛽𝑘 𝑋𝑘 + 𝑢 (2.1)
Trong đó,
Y là biến phụ thuộc.
𝑋2 , 𝑋3 , …, 𝑋𝑘 : các biến độc lập.
𝛽1 : hệ số chặn.
𝛽𝑗 (𝑗 = 2, … , 𝑘): hệ số góc (hệ số hồi quy riêng) của biến độc lập 𝑋𝑗 .
𝑢: sai số ngẫu nhiên, 𝑢~𝑁(0, 𝜎 2 ).
E(Y|𝑋2 , 𝑋3 , … , 𝑋𝑘 ) = 𝛽1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 +. . . +𝛽𝑘 𝑋𝑘 : hàm hồi quy tổng thể (PRF). (2.2)
Ý nghĩa của các hệ số hồi qui

- Hệ số chặn 𝛽1 cho biết giá trị trung bình của biến phụ thuộc Y khi các biến độc
lập nhận giá trị 0.
- Hệ số góc 𝛽𝑗 ( hệ số hồi qui riêng – partial coefficient) thể hiện tác động riêng
phần của biến độc lập 𝑋𝑗 lên giá trị trung bình của biến phụ thuộc Y khi các yếu
tố 𝑋𝑠 (𝑠 ≠ 𝑗) là không đổi.
Vấn đề đặt ra:
Cần ước lượng các hệ số 𝛽𝑗 (𝑗 = 1,2, . . , 𝑘) của mô hình hồi qui tổng thể dựa trên
mẫu dữ liệu quan sát được.
Giả sử có mẫu ngẫu nhiên kích thước n: 𝑋2𝑖 , 𝑋3𝑖 , … , 𝑋𝑘𝑖 , 𝑌𝑖 , 𝑖 = 1, 2, … , 𝑛
Kí hiệu: 𝛽መ1 , 𝛽መ2 , … , 𝛽መ𝑘 là các ước lượng của 𝛽1 , 𝛽2 , … , 𝛽𝑘 dựa trên mẫu quan sát
Hàm hồi qui mẫu (SRF)
𝑌෠ = 𝛽መ1 + 𝛽መ2 𝑋2 + ⋯ + 𝛽መ𝑘 𝑋𝑘 (2.3)
Tại mỗi quan sát thứ i, 𝑖 = 1, 2, … , 𝑛

𝑌෠𝑖 = 𝛽መ1 + 𝛽መ2 𝑋2𝑖 + 𝛽መ3 𝑋3𝑖 + ⋯ + 𝛽መ𝑘 𝑋𝑘𝑖 (2.4)
Đặt, 𝑒𝑖 = 𝑌𝑖 − 𝑌෡𝑖 được gọi là phần dư

Ta có:
𝑌𝑖 = 𝛽መ1 + 𝛽መ2 𝑋2𝑖 + 𝛽መ3 𝑋3𝑖 + ⋯ + 𝛽መ𝑘 𝑋𝑖𝑘 + 𝑒𝑖 (2.5)
Đặt
𝑌1 1 𝑋21 𝑋31 … 𝑋𝑘1 𝑌෠1 𝛽መ1 𝑒1

𝑌= 𝑌2 ;𝑋= 1 𝑋22 𝑋32 … 𝑋𝑘2 ; 𝑌෠ = 𝑌෠2 ; 𝛽መ = 𝛽መ2 e= 𝑒2
… … … … … … … … …
𝑌𝑛 1 𝑋2𝑛 𝑋3𝑛 … 𝑋𝑘𝑛 𝑌෠𝑛 𝛽መ𝑘 𝑒𝑘
Ta có:
𝑌෠ = 𝑋𝛽መ (2.6)
𝑌 = 𝑌෠ + 𝑒 = 𝑋𝛽መ + 𝑒 (2.7)
Các giả thiết của mô hình hồi quy bội
Giả thiết 1. Mô hình có dạng tuyến tính, cụ thể là tuyến tính theo các
tham số của mô hình.
Giả thiết 2. Các biến độc lập 𝑋𝑗 , j = 2, 𝑘 phi ngẫu nhiên, giá trị của
chúng là xác định, 𝑉(𝑋𝑗 ) ≠ 0.
Giả thiết 3. Các sai số ngẫu nhiên 𝑢𝑖 ~𝑁 0, 𝜎 2 , ∀𝑖
Các giả thiết của mô hình hồi quy bội
Giả thiết 4. Giữa các biến độc lập 𝑋𝑖 , 𝑖 = 2, 𝑘 không có hiện tượng
đa cộng tuyến, tức là không có biến 𝑋𝑖 nào được biểu thị tuyến
tính qua các biến còn lại.
Giả thuyết 5. Các sai số ngẫu nhiên không tương quan với nhau
𝑐𝑜𝑣 𝑢𝑖 , 𝑢𝑗 = 0 (∀𝑖 ≠ 𝑗)
PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT (OLS)
Mục đích: Tìm các ước lượng để mô hình ước lượng “gần nhất” với dữ liệu quan sát.
Các hệ số hồi quy mẫu 𝛽መ𝑗 , j = 1, 𝑘 được xác định sao cho tổng bình phương các phần dư đạt giá trị nhỏ nhất,
tức là:
𝑛
෍ 𝑒𝑖2 → 𝑚𝑖𝑛
𝑖=1
Ở đó
2
σ𝑛𝑖=1 𝑒𝑖2 = σ𝑛𝑖=1 𝑌𝑖 − 𝑌෠𝑖 (2.8)
2
= σ𝑛𝑖=1 𝑌𝑖 − 𝛽መ1 − 𝛽መ2 𝑋2𝑖 − 𝛽መ3 𝑋3𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘𝑖
= 𝑒𝑇𝑒
Khi đó, 𝛽መ = 𝛽መ1 , 𝛽መ2 , … , 𝛽መ𝑘 thỏa mãn

𝜕(𝑒 𝑇 𝑒)
=0
𝜕𝛽መ
Ta có,
𝛽መ = 𝑋 𝑇 𝑋 −1 . 𝑋 𝑇 𝑌 (2.9)
 1 1 ... 1  1 X 21 ... X k1   1 1 ... 1  Y1    Yi 

       
 X 21 X 22 ... X 2 n  1 X 22 ... X k 2  T  X 21 X 22 ... X 2 n  Y2    Yi X 2i 
X X =
T
X Y = =
... ... ... ...  ... ... ... ...  ... ... ... ... ...  ... 
  
     
X ... X kn  1 X 2 n  X ... X kn  Yn    Yi X ki 
 k1 X k 2 ... X kn   k1 X k 2
Các tính chất của ước lượng OLS
1. Đường hồi quy mẫu (SRF) đi qua điểm trung bình mẫu, tức là: (𝑌, 𝑋2 , . . . 𝑋𝑘 )
𝑌 = 𝛽መ1 + 𝛽መ2 𝑋2 +. . . +𝛽መ𝑘 . 𝑋𝑘

trong đó:
𝑛 𝑛
1 1
𝑌 = ෍ 𝑌𝑖 , 𝑋𝑗 = ෍ 𝑋𝑗𝑖 𝑗 = 2, 𝑘 .
𝑛 𝑛
𝑖=1 𝑖=1
2. Giá trị trung bình của các giá trị 𝑌෠𝑖 được xác định theo hàm hồi quy mẫu
bằng giá trị trung bình của biến phụ thuộc, tức là:
𝑛
1
𝑌෠ = ෍ 𝑌෠𝑖 = 𝑌
𝑛
𝑖=1
3. Tổng các phần dư bằng 0: σ𝑛𝑖=1 𝑒𝑖 = 0.
4. Các phần dư ei không tương quan với 𝑌෠𝑖

σ𝑛𝑖=1 𝑒𝑖 𝑌෠𝑖 = 0.
5. Các phần dư ei không tương quan với 𝑋𝑗𝑖

σ𝑛𝑖=1 𝑒𝑖 𝑋𝑗𝑖 = 0 (𝑗 = 2, 𝑘).
Định lý Gauss – Markov: Với các giả thuyết của mô hình hồi quy tuyến
tính bội thì các ước lượng bình phương nhỏ nhất 𝛽መ𝑗 là các ước lượng tuyến
tính, không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến
tính, không chệch của 𝛽𝑗 (𝑗 = 1, 𝑘) .
Ta nói rằng các ước lượng 𝛽መ𝑗 , 𝑗 = 1, 𝑘 có tính chất BLUE (The Best Linear
Unbiased Estimator).
Tính chất BLUE của các ước lượng OLS
1. Tuyến tính: Các ước lượng 𝛽መ𝑗 , j = 1, 𝑘 là tổ hợp tuyến tính của
các 𝑌1 , 𝑌2 , … , 𝑌𝑛 .
2. Không chệch: 𝐸 𝛽መ𝑗 = 𝛽𝑗 , j = 1, 𝑘.
3. Phương sai nhỏ nhất: Giả sử 𝛽෩𝑗 là một ước lượng tuyến tính của 𝛽𝑗
thì
𝑉 𝛽መ𝑗 ≤ 𝑉 𝛽෩𝑗 .
Tính vững của các ước lượng OLS
Các ước lượng 𝛽መ𝑗 , j = 1, 𝑘 là các ước lượng vững (consistency estimator)
của 𝛽𝑗 , j = 1, 𝑘. Tức là
lim 𝑃 𝛽መ𝑗 − 𝛽𝑗 > 𝜀 = 0
𝑛→∞
PHƯƠNG PHÁP HỢP LÝ CỰC ĐẠI (MLE)
Mục đích: Chọn các ước lượng sao cho xác suất xảy ra của dữ liệu là lớn nhất
Do 𝑢𝑖 ~𝑁 0, 𝜎 2
Nên với 𝑋2𝑖 , 𝑋3𝑖 , … , 𝑋𝑘𝑖 cho trước thì Yi ~𝑁(𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 +. . . +𝛽𝑘 𝑋𝑘𝑖 , 𝜎 2 ), ∀𝑖
Ta có:
1 − 𝑌𝑖 −𝛽1 −𝛽2 𝑋2𝑖 −𝛽3 𝑋3𝑖 −⋯−𝛽𝑘 𝑋𝑘𝑖 2
𝑓 𝑌𝑖 |𝑋2𝑖 , 𝑋3𝑖 , … , 𝑋𝑘𝑖 = 𝑒 2𝜎 2
𝜎 2𝜋
Mục đích: Chọn các ước lượng sao cho xác suất xảy ra của dữ liệu là lớn nhất
Hàm hợp lý của dãy biến ngẫu nhiên 𝑌1 , 𝑌2 , … , 𝑌𝑛 là

ℒ 𝛽1 , 𝛽2 , … , 𝛽𝑘 , 𝜎 2 = 𝑓 𝑌1 , 𝑌2 , … , 𝑌𝑛 |𝛽1 , 𝛽2 , … , 𝛽𝑘 , 𝜎 2
1
2 −𝑛/2 − 2 σ𝑛
𝑖=1 𝑌𝑖 −𝛽1 −𝛽2 𝑋2𝑖 −𝛽3 𝑋3𝑖 −⋯−𝛽𝑘 𝑋𝑘𝑖 2
= 2𝜋𝜎 . 𝑒 2𝜎
Do đó,
𝑛
𝑛 2
1 2
lnℒ = − ln𝜎 −𝑛 ln( 2𝜋) − 2 ෍ 𝑌𝑖 − 𝛽1 − 𝛽2 𝑋2𝑖 − 𝛽3 𝑋3𝑖 − ⋯ − 𝛽𝑘 𝑋𝑘𝑖
2 2𝜎
𝑖=1
Tìm 𝛽1 , 𝛽2 , … , 𝛽𝑘 , 𝜎 2 làm cực đại hàm lnℒ.

Kết quả ước lượng của 𝜷 = (𝜷𝟏 , 𝜷𝟐 , … , 𝜷𝒌 ) của phương pháp MLE và OLS là như nhau
𝛽መ = 𝑋 𝑇 𝑋 −1 . 𝑋 𝑇 𝑌
Thay 𝛽 = (𝛽1 , 𝛽2 , … , 𝛽𝑘 ) bởi 𝛽መ = 𝛽መ1 , 𝛽መ2 , … , 𝛽መ𝑘 . Ta có ước lượng MLE của 𝜎 2
𝑛
1 2
𝜎෤ 2
= . ෍ 𝑌𝑖 − 𝛽መ1 − 𝛽መ2 𝑋2𝑖 − 𝛽መ3 𝑋3𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘𝑖
𝑛
𝑖=1
Nhận xét:
𝑛
• 𝜎෤ 2 là một ước lượng chệch của 𝜎 2 (E(𝜎෤ 2 ) = 𝜎 2 ).
𝑛−𝑘
1 2 σ 𝑒𝑖2
• 𝜎ො 2 : = . σ𝑛𝑖=1 𝑌𝑖 − 𝛽መ1 − 𝛽መ2 𝑋2𝑖 − 𝛽መ3 𝑋3𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘𝑖 = là ước lượng không chệch
𝑛−𝑘 𝑛−𝑘
của 𝜎2.
KHOẢNG ƯỚC LƯỢNG CỦA HỆ SỐ HỒI QUY
Phân phối của 𝛽መ𝑗 , 𝑗 = 1, … , 𝑘 và 𝜎ො 2 có các tính chất sau:

Định lý:
1. Véc tơ 𝛽መ1 , 𝛽መ2 , … , 𝛽መ𝑘 có phân phối chuẩn với trung bình là 𝛽1 , 𝛽2 , … , 𝛽𝑘 và ma trận
hiệp phương sai có dạng
መ = 𝜎 2 (𝑋 𝑇 𝑋)−1
cov( 𝛽)
Do đó, V(𝛽መ𝑗 ) được ước lượng bằng cách thay 𝜎 2 bởi ước lượng không chệch 𝜎ො 2 .
2. 𝜎ො 2 độc lập với 𝛽መ𝑗 , 𝑗 = 1, … , 𝑘

𝜎2
(𝑛−𝑘)ෝ 2
3. ~𝜒 𝑛 − 𝑘 ( phân phối khi bình phương với 𝑛 − 𝑘 bậc tự do).
𝜎2
KHOẢNG ƯỚC LƯỢNG CỦA THAM SỐ HỒI QUY
Khoảng ước lượng của các tham số 𝜷𝒋 , j= 𝟏, 𝒌

Ta có
෡𝑗 −𝛽𝑗
𝛽
𝑡= ෡𝑗 ) ~𝑡 𝑛 − 𝑘 (𝑗 = 1, 𝑘).
𝑠𝑒(𝛽
Khoảng ước lượng của 𝛽𝑗 với độ tin cậy 1 − 𝛼:
𝛽መ𝑗 −𝑡𝛼Τ2 𝑛 − 𝑘 . 𝑠𝑒 𝛽መ𝑗 , 𝛽መ𝑗 + 𝑡𝛼Τ2 𝑛 − 𝑘 . 𝑠𝑒 𝛽መ𝑗 .

KHOẢNG ƯỚC LƯỢNG CỦA HỆ SỐ HỒI QUY
Khoảng ước lượng của tham số 𝝈𝟐

Ta có
𝜎2
(𝑛−𝑘)ෝ 2
~𝜒 𝑛−𝑘 .
𝜎2
Khoảng ước lượng của 𝜎 2 với độ tin cậy 1 − 𝛼 là
(𝑛 −𝑘)𝜎ො 2 (𝑛 −𝑘)𝜎ො 2
2 , 2 .
𝜒𝛼Τ2 𝑛 − 𝑘 𝜒1−𝛼Τ2 𝑛 − 𝑘
KIỂM ĐỊNH CÁC HỆ SỐ HỒI QUY
Kiểm định cặp giả thuyết:
𝐻0 : 𝛽𝑗 = 𝛽𝑗∗
൝
𝐻1 : 𝛽𝑗 ≠ 𝛽𝑗∗ (𝛽𝑗 < 𝛽𝑗∗ , 𝛽𝑗 > 𝛽𝑗∗ )
Tiêu chuẩn kiểm định
𝛽መ𝑗 − 𝛽𝑗∗
𝑡=
𝑠𝑒(𝛽መ𝑗 )
Nếu H0 đúng thì t~𝑡 𝑛 − 𝑘 .

KIỂM ĐỊNH CÁC HỆ SỐ HỒI QUY
KIỂM ĐỊNH PHƯƠNG SAI CỦA SAI SỐ NGẪU NHIÊN
Kiểm định cặp giả thuyết
𝐻0 : 𝜎 2 = 𝜎02
൝
𝐻1 : 𝜎 2 ≠ 𝜎02 (𝜎 2 < 𝜎02 , 𝜎 2 > 𝜎02 )
(𝑛−𝑘)ෝ𝜎2
𝜒0 = .
𝜎02
Nếu 𝐻0 đúng thì 𝜒0 ~𝜒 2 𝑛 − 𝑘 .

KIỂM ĐỊNH PHƯƠNG SAI CỦA SAI SỐ NGẪU NHIÊN
ĐÁNH GIÁ SỰ PHÙ HỢP CỦA MÔ HÌNH
𝑌𝑖 − 𝑌ത = 𝑌𝑖 − 𝑌෠𝑖 + 𝑌෠𝑖 − 𝑌ത
Lấy bình phương hai vế
2 2
𝑌𝑖 − 𝑌ത 2 = 𝑌𝑖 − 𝑌෠𝑖 + 𝑌෠𝑖 − 𝑌ത + 2 𝑌𝑖 − 𝑌෠𝑖 𝑌෠𝑖 − 𝑌ത
Lấy tổng i từ 1, 2, …, n. Ta có
𝑛 𝑛 𝑛 𝑛
2 2
෍ 𝑌𝑖 − 𝑌ത 2 = ෍ 𝑌𝑖 − 𝑌෠𝑖 + ෍ 𝑌෠𝑖 − 𝑌ത + 2 ෍ 𝑌𝑖 − 𝑌෠𝑖 𝑌෠𝑖 − 𝑌ത
𝑖=1 𝑖=1 𝑖=1 𝑖=1
=0
𝑛 𝑛 𝑛
2 2
෍ 𝑌𝑖 − 𝑌ത 2
= ෍ 𝑌𝑖 − 𝑌෠𝑖 + ෍ 𝑌෠𝑖 − 𝑌ത
𝑖=1 𝑖=1 𝑖=1
𝐓𝐒𝐒 = σ𝒏𝒊=𝟏 𝒀𝒊 − 𝒀
ഥ 𝟐 : Tổng bình phương toàn bộ (Total Sum of Squares)
• Sự biến thiên của toàn bộ biến phụ thuộc Y

• Chỉ phụ thuộc biến Y, không phụ thuộc vào dạng của mô hình
𝟐
RSS = σ𝒏𝒊=𝟏 𝒀𝒊 − 𝒀
෡𝒊 = σ𝒏𝒊=𝟏 𝒆𝒊 𝟐 : Tổng bình phương các phần dư (Residual Sum of Squares)
• Sự biến thiên của Y mà không được giải thích bởi 𝑋2 , 𝑋3 , …, 𝑋𝑘

𝒏 𝟐
෡ ഥ
ESS = 𝒊=𝟏 𝒀𝒊 − 𝒀 : Tổng bình phương giải thích(𝑬𝒙𝒑𝒍𝒂𝒊𝒏𝒆𝒅 𝑺𝒖𝒎 𝒐𝒇 𝑺𝒒𝒖𝒂𝒓𝒆𝒔)
σ
• Sự biến thiên của Y được giải thích bởi 𝑋2 , 𝑋3 , …, 𝑋𝑘

Giải thích về số bậc tự do
• Các phần dư 𝑒1 , 𝑒2 , … , 𝑒𝑛 có 𝑘 điều kiện, cụ thể
σ𝑛𝑖=1 𝑒𝑖 = 0; σ𝑛𝑖=1 𝑋𝑗𝑖 𝑒𝑖 = 0 (𝑗 = 2, 𝑘)

Do đó, RSS = σ𝑛𝑖=1 𝑒𝑖 2 có 𝑛 − 𝑘 bậc tự do
ത 𝑌2 − 𝑌;
• Các 𝑌1 − 𝑌; ത … . ; 𝑌𝑛 − 𝑌ത thỏa mãn điều kiện
𝑛
෍ 𝑌𝑖 − 𝑌ത = 0
𝑖=1
Do đó, 𝑇𝑆𝑆 = σ𝑛𝑖=1 𝑌𝑖 − 𝑌ത 2

có 𝑛 − 1 bậc tự do
2
• ESS = σ𝑛𝑖=1 ෠ ത
𝑌𝑖 − 𝑌 : có 𝑘 − 1 bậc tự do vì phụ thuộc vào các biến độc lập 𝑋2 , 𝑋3 , …, 𝑋𝑘 .
Phân tích phương sai (ANOVA)
Nguồn biến thiên Tổng bình phương Bậc tự do Tổng bình phương trung
bình
𝑛
Từ hàm hồi quy (ESS) 2
෍ 𝑌෠𝑖 − 𝑌ത 𝑘−1 ESSΤ(𝑘 − 1)
𝑖=1
𝑛
Từ phần dư (RSS) 2
෍ 𝑌𝑖 − 𝑌෠𝑖 𝑛−𝑘 RSS/ 𝑛 − 𝑘
𝑖=1
𝑛
Tổng biến thiên (TSS)
෍ 𝑌𝑖 − 𝑌ത 2
𝑛−1 TSS/(𝑛 − 1)
𝑖=1
Hệ số xác định 𝑹𝟐
𝑇𝑆𝑆 = 𝐸𝑆𝑆 + 𝑅𝑆𝑆

𝐸𝑆𝑆 𝑅𝑆𝑆
R2 = =1−
𝑇𝑆𝑆 𝑇𝑆𝑆
Nhận xét:
• 0 ≤ R2 ≤ 1
• R2 là tỷ lệ (phần trăm) sự thay đổi của biến phụ thuộc được giải thích bởi các biến độc lập trong mô
hình.
• R2 càng cao thì mô hình càng phù hợp với dữ liệu.
• R2 là hàm không giảm và phụ thuộc vào số biến độc lập của mô hình (do khi số biến độc lập tăng thì
tổng phần dư RSS giảm).
ഥ𝟐
Hệ số xác định điều chỉnh 𝑹
Mục đích: Đánh giá mức độ phù hợp của mô hình trong đó có xét đến yếu tố ảnh hưởng
của số biến trong mô hình
𝐸𝑆𝑆/(𝑘 − 1) 𝑛−1
𝑅ത 2 = = 1 − (1 − 𝑅2 )
𝑇𝑆𝑆/(𝑛 − 1) 𝑛−𝑘
Nhận xét:
- Khi đưa thêm biến mới vào mô hình thì 𝑅2 luôn tăng, nhưng 𝑅ത 2 có thể tăng hoặc giảm.
- Khi k > 1 thì 𝑅ത 2 < R2 ≤ 1. Như vậy, khi tăng số biến độc lập lên thì 𝑅ത 2 nếu tăng thì vẫn
tăng ít hơn so với R2 .
- 𝑅ത 2 có thể nhận giá trị âm dù R2 luôn dương.
ഥ 𝟐 hay 𝑹𝟐 ???
Nên dùng 𝑹
Theo Theil (Introduction to Econometrics, 1978)“…dùng 𝑅ത 2 tốt hơn 𝑅 2 bởi vì 𝑅 2 cho ra một bức tranh
quá lạc quan về độ thích hợp của mô hình hồi qui, đặc biệt trong trường hợp số biến độc lập không quá bé
so với kích thước mẫu”.
ഥ 𝟐 hay 𝑹𝟐 :
Quan điểm về 𝑹
Arthur S. Goldberger, Khóa học Kinh tế lượng, Havard U. Press, Cambridge, Massachsetts,1991, trang 178.
đã phát biểu: “Đứng trên quan điểm của chúng tôi, 𝑹𝟐 có một vai trò rất khiêm tốn trongphân tích hồi quy,
nó là một đại lượng đo của độ thích hợp của hồi quy tuyến tính bình phương tối thiểu (LS) mẫu trong một
tập hợp các dữ liệu. Không có yếu tố nào trong mô hình hồi quy cổ điển CR [CLRM] đòi hỏi rằng 𝑹𝟐 phải
cao. Như vậy, một 𝑹𝟐 cao không phải là bằng chứng có lợi cho mô hình và một 𝑹𝟐 thấp không phải là bằng
chứng bất lợi cho nó…”
Mục đích: Biến 𝑋𝑗 có tác động (có ảnh hưởng) lên biến phụ thuộc Y?
Kiểm định cặp giả thuyết
𝐻0 : 𝛽𝑗 = 0
൝
𝐻1 : 𝛽𝑗 ≠ 0
෡𝑗
𝛽
Tiêu chuẩn kiểm định: t = ෡𝑗 ).
𝑠𝑒(𝛽
Khi 𝐻0 đúng, t~𝑡 𝑛 − 𝑘 .

Với mức ý nghĩa 𝛼 cho trước, nếu 𝑡 > 𝑡𝛼Τ2 𝑛 − 𝑘 thì bác bỏ 𝐻0 .
Mục đích: Kiểm định giả thuyết không có biến độc lập nào trong mô hình có tác động lên biến
phụ thuộc.
𝑌 = 𝛽1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 +. . . +𝛽𝑘 𝑋𝑘 + 𝑢
Kiểm định cặp giả thuyết:
𝐻0 : 𝛽2 = 𝛽3 =. . . = 𝛽𝑘 = 0
൝
𝐻1 : 𝛽22 + 𝛽32 + ⋯ + 𝛽𝑘2 ≠ 0

𝑅2 𝑛 − 𝑘
𝐹= .
1 − 𝑅2 𝑘 − 1
Khi 𝐻0 đúng thì 𝐹 có phân phối Fisher 𝑘 − 1, 𝑛 − 𝑘 bậc tự do
Với mức ý nghĩa 𝛼 cho trước, nếu 𝐹 > 𝐹𝛼 𝑘 − 1, 𝑛 − 𝑘 thì bác bỏ 𝐻0 .
Chỉ số AIC ( Akaike Information Criterion)
Chỉ số AIC là chỉ số đo lường dựa trên sự kết hợp giữa độ phức tạp và khả năng tiên
lượng của mô hình
𝐴𝐼𝐶 = −2𝑙𝑛 𝐿 + 2𝑘 (1)
Trong đó, 𝑙𝑛 𝐿 là giá trị cực đại của 𝑙𝑛 hàm hợp lý, cụ thể
−𝑛 𝑅𝑆𝑆
𝑙𝑛 𝐿 = 1 + 𝑙𝑛 2𝜋 + 𝑙𝑛 (2)
2 𝑛
Mô hình có giá trị AIC thấp hơn được xem là mô hình tốt hơn.
Trong R, sử dụng hàm step() (package: stats)để tìm mô hình tối ưu theo chỉ số AIC.
Chỉ số BIC (Bayesian Information Criterion)
Chỉ số BIC được xây dựng dựa trên phương pháp Bayes với cơ sở mô hình có xác
suất hậu nghiệm cao hơn là mô hình tốt hơn.
𝐵𝐼𝐶 = −2 ln 𝐿 + 𝑘𝑙𝑛(𝑛)
Trong đó, 𝑙𝑛 𝐿 là giá trị cực đại của 𝑙𝑛 hàm hợp lý, cụ thể
−𝑛 𝑅𝑆𝑆
𝑙𝑛 𝐿 = 1 + 𝑙𝑛 2𝜋 + 𝑙𝑛
2 𝑛
Mô hình có giá trị BIC thấp hơn được xem là mô hình tốt hơn.
Trong R, sử dụng hàm bma() (package BMA) để tìm mô hình tối ưu theo chỉ số BIC.
PHÂN TÍCH HỒI QUY VÀ DỰ BÁO
Xét mô hình hồi qui bội

𝑌 = 𝛽1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 +. . . +𝛽𝑘 𝑋𝑘 + 𝑢
Hàm hồi qui mẫu

𝑌 = 𝛽መ1 + 𝛽መ2 𝑋2 + ⋯ + 𝛽መ𝑘 𝑋𝑘 + 𝑒
Bài toán đặt ra: với các giá trị cho trước của các biến độc lập, chẳng hạn X0 = 𝑋20 , 𝑋30 , …, 𝑋𝑘0 , ta cần dự
báo giá trị trung bình 𝐸(𝑌|𝑋0 ) và giá trị cá biệt của Y là 𝑌0 bằng bao nhiêu?
Dự báo giá trị trung bình
1. Ước lượng điểm của 𝐸(𝑌|𝑋0 ) là

𝑌෠0 = 𝑋0𝑇 𝛽መ = 𝛽መ1 + 𝛽መ2 𝑋20 + 𝛽መ3 𝑋30 + ⋯ + 𝛽መ𝑘 𝑋𝑘0
2. Ta có,
𝑌෠0 −𝐸(𝑌0 /𝑋0 )
𝑡= ~ 𝑡 (𝑛 − 𝑘).
𝑠𝑒(𝑌෠0 )
Khoảng ước lượng của 𝐸(𝑌|𝑋0 ) với độ tin cậy 1 − 𝛼

𝑌෠0 − 𝑡𝛼Τ2 𝑛 − 𝑘 . 𝑠𝑒(𝑌෠0 ) ; 𝑌෠0 + 𝑡𝛼Τ2 𝑛 − 𝑘 . 𝑠𝑒(𝑌෠0 )
Chú ý:
𝑉 𝑌෠0 = 𝑉 𝑋0𝑇 𝛽መ = 𝑋0𝑇 V 𝛽መ 𝑋0 = 𝜎 2 𝑋0𝑇 𝑋 𝑇 𝑋 −1 𝑋
0
vì 𝜎 2 chưa biết nên được ước lượng bởi 𝜎ො 2 . Khi đó, 𝑠𝑒 𝑌෠0 = 𝜎ො 2 𝑋0𝑇 𝑋 𝑇 𝑋 −1 𝑋
0
Dự báo giá trị cá biệt

1. Ước lượng điểm của giá trị cá biệt 𝑌0 là
𝑌෠0 = 𝛽መ1 + 𝛽መ2 𝑋20 + 𝛽መ3 𝑋30 + ⋯ + 𝛽መ𝑘 𝑋𝑘0
2. Ta có,
𝑌෠0 − 𝑌0
𝑡= ~𝑡 𝑛 − 𝑘
෠
𝑠𝑒 𝑌0 − 𝑌0
Khoảng ước lượng của 𝑌0 với độ tin cậy 1 − 𝛼,
𝑌෠0 − 𝑡𝛼Τ2 𝑛 − 𝑘 . 𝑠𝑒(𝑌෠0 − 𝑌0 ) ; 𝑌෠0 + 𝑡𝛼Τ2 𝑛 − 𝑘 . 𝑠𝑒(𝑌෠0 − 𝑌0 )
Chú ý: 𝑉(𝑌෠0 − 𝑌0 ) = 𝑉(𝑌෠0 ) + 𝜎 2 , nên 𝑠𝑒(𝑌෠0 − 𝑌0 ) = 𝑉(𝑌෠0 ) + 𝜎ො 2

THỰC HÀNH TRÊN PHẦN MỀM R
Dữ liệu
Marketing.csv, phân tích ảnh hưởng của các hình thức quảng cáo lên doanh thu
Phân tích tương quan
Ước lượng mô hình
Kiểm định mô hình
Dự báo
Phân tích tương quan
Tính hệ số tương quan giữa hai biến
Kiểm định tương quan giữa hai biến

Chạy mô hình tuyến tính và xem kết quả
Kết quả UL của các tham số

Ví dụ hồi qui
R^2
R^2 hiệu chỉnh

Pvale cho kiểm định
từng tham số hồi qui =0
P_value cho kiểm

định các tham số hồi
qui đồng thời = 0
Khoảng tin cậy cho các tham số hồi qui
Mô hình Độ tin cậy

Dự báo

Mô Hình H I Qui B I - seminaTKUD

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Mô Hình H I Qui B I - seminaTKUD

Uploaded by

Copyright:

Available Formats

MÔ HÌNH HỒI QUY BỘI

NCS: NGUYỄN THANH NGA – HỌC VIỆN NGÂN HÀNG

1. Phân tích tương quan

Ý nghĩa của các hệ số hồi qui

Giả sử có mẫu ngẫu nhiên kích thước n: 𝑋2𝑖 , 𝑋3𝑖 , … , 𝑋𝑘𝑖 , 𝑌𝑖 , 𝑖 = 1, 2, … , 𝑛

Tại mỗi quan sát thứ i, 𝑖 = 1, 2, … , 𝑛

Đặt, 𝑒𝑖 = 𝑌𝑖 − 𝑌෡𝑖 được gọi là phần dư

𝑌1 1 𝑋21 𝑋31 … 𝑋𝑘1 𝑌෠1 𝛽መ1 𝑒1

Các giả thiết của mô hình hồi quy bội

Các giả thiết của mô hình hồi quy bội

Khi đó, 𝛽መ = 𝛽መ1 , 𝛽መ2 , … , 𝛽መ𝑘 thỏa mãn

 1 1 ... 1  1 X 21 ... X k1   1 1 ... 1  Y1    Yi 

Các tính chất của ước lượng OLS

𝑌 = 𝛽መ1 + 𝛽መ2 𝑋2 +. . . +𝛽መ𝑘 . 𝑋𝑘

Các tính chất của ước lượng OLS

Các tính chất của ước lượng OLS

4. Các phần dư ei không tương quan với 𝑌෠𝑖

5. Các phần dư ei không tương quan với 𝑋𝑗𝑖

Các tính chất của ước lượng OLS

Tính vững của các ước lượng OLS

Hàm hợp lý của dãy biến ngẫu nhiên 𝑌1 , 𝑌2 , … , 𝑌𝑛 là

Tìm 𝛽1 , 𝛽2 , … , 𝛽𝑘 , 𝜎 2 làm cực đại hàm lnℒ.

Phân phối của 𝛽መ𝑗 , 𝑗 = 1, … , 𝑘 và 𝜎ො 2 có các tính chất sau:

2. 𝜎ො 2 độc lập với 𝛽መ𝑗 , 𝑗 = 1, … , 𝑘

Khoảng ước lượng của các tham số 𝜷𝒋 , j= 𝟏, 𝒌

Khoảng ước lượng của 𝛽𝑗 với độ tin cậy 1 − 𝛼:

𝛽መ𝑗 −𝑡𝛼Τ2 𝑛 − 𝑘 . 𝑠𝑒 𝛽መ𝑗 , 𝛽መ𝑗 + 𝑡𝛼Τ2 𝑛 − 𝑘 . 𝑠𝑒 𝛽መ𝑗 .

Khoảng ước lượng của tham số 𝝈𝟐

Khoảng ước lượng của 𝜎 2 với độ tin cậy 1 − 𝛼 là

Kiểm định cặp giả thuyết:

Nếu H0 đúng thì t~𝑡 𝑛 − 𝑘 .

Kiểm định cặp giả thuyết

Nếu 𝐻0 đúng thì 𝜒0 ~𝜒 2 𝑛 − 𝑘 .

• Sự biến thiên của toàn bộ biến phụ thuộc Y

• Sự biến thiên của Y mà không được giải thích bởi 𝑋2 , 𝑋3 , …, 𝑋𝑘

• Sự biến thiên của Y được giải thích bởi 𝑋2 , 𝑋3 , …, 𝑋𝑘

Giải thích về số bậc tự do

• Các phần dư 𝑒1 , 𝑒2 , … , 𝑒𝑛 có 𝑘 điều kiện, cụ thể

σ𝑛𝑖=1 𝑒𝑖 = 0; σ𝑛𝑖=1 𝑋𝑗𝑖 𝑒𝑖 = 0 (𝑗 = 2, 𝑘)

Do đó, 𝑇𝑆𝑆 = σ𝑛𝑖=1 𝑌𝑖 − 𝑌ത 2

Phân tích phương sai (ANOVA)

𝑇𝑆𝑆 = 𝐸𝑆𝑆 + 𝑅𝑆𝑆

Khi 𝐻0 đúng, t~𝑡 𝑛 − 𝑘 .

Tiêu chuẩn kiểm định

Chỉ số AIC ( Akaike Information Criterion)

Chỉ số BIC (Bayesian Information Criterion)

Xét mô hình hồi qui bội

Hàm hồi qui mẫu

Dự báo giá trị trung bình

1. Ước lượng điểm của 𝐸(𝑌|𝑋0 ) là

Khoảng ước lượng của 𝐸(𝑌|𝑋0 ) với độ tin cậy 1 − 𝛼

Dự báo giá trị cá biệt

Chú ý: 𝑉(𝑌෠0 − 𝑌0 ) = 𝑉(𝑌෠0 ) + 𝜎 2 , nên 𝑠𝑒(𝑌෠0 − 𝑌0 ) = 𝑉(𝑌෠0 ) + 𝜎ො 2

Phân tích tương quan

Ước lượng mô hình

Kiểm định mô hình

Tính hệ số tương quan giữa hai biến

Kiểm định tương quan giữa hai biến

Kết quả UL của các tham số

R^2 hiệu chỉnh

P_value cho kiểm

Khoảng tin cậy cho các tham số hồi qui

Mô hình Độ tin cậy