You are on page 1of 55

MÔ HÌNH HỒI QUY BỘI

NCS: NGUYỄN THANH NGA – HỌC VIỆN NGÂN HÀNG

HÀ NỘI, 9/2021
NỘI DUNG

1. Phân tích tương quan


2. Mô hình hồi quy bội
✓ Phương pháp OLS.
✓ Phương pháp MLE.
✓ Khoảng tin cậy, kiểm định giả thuyết của các hệ số hồi quy.
✓ Đánh giá sự phù hợp của mô hình.
✓ Phân tích hồi quy và dự báo .
3. Thực hành trên phần mềm R
1. PHÂN TÍCH TƯƠNG QUAN

• Phân tích tương quan: là phép phân tích được sử dụng để đo lường mối
quan hệ giữa các biến định lượng trong nghiên cứu
• Có 3 hệ số tương quan được sử dụng thông dụng nhất: hệ số tương quan
Pearson; hệ số tương quan Spearman; hệ số tương quan Kendall
1. PHÂN TÍCH TƯƠNG QUAN

Hệ số tương quan Pearson : là chỉ số thống kê dùng để đo lường mối liên hệ tuyến tính
giữa hai biến X và Y. Kí hiệu: 𝜌𝑋𝑌

𝑐𝑜𝑣(𝑋, 𝑌)
𝜌𝑋𝑌 =
𝜎𝑋 . 𝜎𝑌
Trong đó,
𝑐𝑜𝑣(𝑋, 𝑌): hiệp phương sai của X và Y.
𝜎𝑋 , 𝜎𝑌 : độ lệch chuẩn của X, Y.
1. PHÂN TÍCH TƯƠNG QUAN

Tính chất:
• −1 ≤ 𝜌𝑋𝑌 ≤ 1
➢ 𝜌𝑋𝑌 = 0 thì X, Y không có tương quan
➢ 𝜌𝑋𝑌 < 0: X , Y có mối liên hệ nghịch chiều ( X tăng thì Y giảm, và ngược lại)
➢ 𝜌𝑋𝑌 > 0: X , Y có mối liên hệ thuận chiều ( X tăng thì Y tăng, và ngược lại)
➢ 𝜌𝑋𝑌 : càng lớn thì mối liên hệ tuyến tính của X và Y càng mạnh
• 𝜌𝑋𝑌 = 𝜌𝑌𝑋
1. PHÂN TÍCH TƯƠNG QUAN

Hệ số tương quan mẫu, kí hiệu: 𝑟𝑋𝑌 , được tính dựa trên mẫu n quan sát
𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 ,…, 𝑥𝑛 , 𝑦𝑛 và dùng làm ước lượng cho 𝜌𝑋𝑌
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ . 𝑦𝑖 − 𝑦ത
𝑟𝑋𝑌 =
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2 . σ𝑛𝑖=1 𝑦𝑖 − 𝑦ത 2

σ𝑛
𝑖=1 𝑥𝑖 .𝑦𝑖 −𝑛𝑥ҧ 𝑦

=
σ𝑛 2 ത 2 . σ𝑛
𝑖=1 𝑥𝑖 −𝑛𝑦
2 ത2
𝑖=1 𝑦𝑖 −𝑛𝑦
1. PHÂN TÍCH TƯƠNG QUAN

Trong thực hành thống kê, chúng ta dựa vào độ lớn của giá trị 𝑟𝑋𝑌 để đánh
giá mối tương quan giữa X và Y, cụ thể
𝑟𝑋𝑌 < 0.4: Ta nói X, Y có tương quan yếu
0.4 ≤ 𝑟𝑋𝑌 < 0.6: Ta nói X, Y có tương quan trung bình
0.6 ≤ 𝑟𝑋𝑌 < 0.8: Ta nói X, Y có tương quan mạnh
𝑟𝑋𝑌 ≥ 0.8: Ta nói X, Y có tương quan rất mạnh
1. PHÂN TÍCH TƯƠNG QUAN
1. PHÂN TÍCH TƯƠNG QUAN

Hệ số tương quan Spearman: Khi dữ liệu quan sát của (X, Y) không tuân theo phân phối chuẩn
hoặc có các giá trị quan sát bất thường (outlier) ta sử dụng hệ số tương quan Spearman thay cho hệ
số Pearson. Nếu mẫu dữ liệu quan 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 ,…, 𝑥𝑛 , 𝑦𝑛 là hoàn toàn khác nhau, thì
6 σ𝑛𝑖=1 𝑑𝑖2
𝜌=1−
𝑛(𝑛2 − 1)
Trong đó, 𝑑𝑖 là hiệu hai hạng của mỗi cặp quan sát 𝑥𝑖 , 𝑦𝑖 .
𝜌 > 0: X và Y có mối quan hệ thuận chiều
𝜌 < 0: X và Y có mối quan hệ nghịch chiều
𝜌 = 0: Y không có xu hướng tăng khi X tăng hay giảm (và ngược lại)
1. PHÂN TÍCH TƯƠNG QUAN

Hệ số tương quan Kendall: Được ước tính dựa trên việc tìm các cặp giá trị
𝑥𝑖 , 𝑦𝑖 của 𝑋, 𝑌 “song hành” với nhau. Một cặp giá trị 𝑥𝑖 , 𝑦𝑖 song hành
ở đây tức là hiệu (độ khác biệt) trên trục hoành có cùng dấu hiệu (dương hay
âm) với hiệu trên trục tung.
𝑠ố 𝑐ặ𝑝 𝑠𝑜𝑛𝑔 ℎà𝑛ℎ −𝑠ố 𝑐ặ𝑝 𝑘ℎô𝑛𝑔 𝑠𝑜𝑛𝑔 ℎà𝑛ℎ
𝜏= 𝑛(𝑛−1) .
2

Nếu hai biến X và Y không có tương quan với nhau thì số cặp song hành sẽ
bằng số cặp không song hành.
2. MÔ HÌNH HỒI QUY BỘI (MULTIPLE REGRESSION MODEL)

Đặt vấn đề
Bài toán: Đánh giá tác động của các hình thức quảng cáo (youtube,
facebook, newspaper) lên doanh thu (sales) của cửa hàng dựa trên dữ liệu
quan sát của 200 cửa hàng.

Giải quyết: Xây dựng được mô hình phản ánh mối liên hệ giữa biến doanh
thu (sale) với các biến (youtube, facebook, newspaper).
2. MÔ HÌNH HỒI QUY BỘI (MULTIPLE REGRESSION MODEL)
Mô hình hồi quy tổng thể
𝑌 = 𝛽1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 +. . . +𝛽𝑘 𝑋𝑘 + 𝑢 (2.1)
Trong đó,
Y là biến phụ thuộc.
𝑋2 , 𝑋3 , …, 𝑋𝑘 : các biến độc lập.
𝛽1 : hệ số chặn.
𝛽𝑗 (𝑗 = 2, … , 𝑘): hệ số góc (hệ số hồi quy riêng) của biến độc lập 𝑋𝑗 .
𝑢: sai số ngẫu nhiên, 𝑢~𝑁(0, 𝜎 2 ).
E(Y|𝑋2 , 𝑋3 , … , 𝑋𝑘 ) = 𝛽1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 +. . . +𝛽𝑘 𝑋𝑘 : hàm hồi quy tổng thể (PRF). (2.2)
2. MÔ HÌNH HỒI QUY BỘI (MULTIPLE REGRESSION MODEL)

Ý nghĩa của các hệ số hồi qui


- Hệ số chặn 𝛽1 cho biết giá trị trung bình của biến phụ thuộc Y khi các biến độc
lập nhận giá trị 0.
- Hệ số góc 𝛽𝑗 ( hệ số hồi qui riêng – partial coefficient) thể hiện tác động riêng
phần của biến độc lập 𝑋𝑗 lên giá trị trung bình của biến phụ thuộc Y khi các yếu
tố 𝑋𝑠 (𝑠 ≠ 𝑗) là không đổi.
Vấn đề đặt ra:
Cần ước lượng các hệ số 𝛽𝑗 (𝑗 = 1,2, . . , 𝑘) của mô hình hồi qui tổng thể dựa trên
mẫu dữ liệu quan sát được.
2. MÔ HÌNH HỒI QUY BỘI (MULTIPLE REGRESSION MODEL)

Giả sử có mẫu ngẫu nhiên kích thước n: 𝑋2𝑖 , 𝑋3𝑖 , … , 𝑋𝑘𝑖 , 𝑌𝑖 , 𝑖 = 1, 2, … , 𝑛

Kí hiệu: 𝛽መ1 , 𝛽መ2 , … , 𝛽መ𝑘 là các ước lượng của 𝛽1 , 𝛽2 , … , 𝛽𝑘 dựa trên mẫu quan sát
Hàm hồi qui mẫu (SRF)
𝑌෠ = 𝛽መ1 + 𝛽መ2 𝑋2 + ⋯ + 𝛽መ𝑘 𝑋𝑘 (2.3)

Tại mỗi quan sát thứ i, 𝑖 = 1, 2, … , 𝑛


𝑌෠𝑖 = 𝛽መ1 + 𝛽መ2 𝑋2𝑖 + 𝛽መ3 𝑋3𝑖 + ⋯ + 𝛽መ𝑘 𝑋𝑘𝑖 (2.4)

Đặt, 𝑒𝑖 = 𝑌𝑖 − 𝑌෡𝑖 được gọi là phần dư


Ta có:
𝑌𝑖 = 𝛽መ1 + 𝛽መ2 𝑋2𝑖 + 𝛽መ3 𝑋3𝑖 + ⋯ + 𝛽መ𝑘 𝑋𝑖𝑘 + 𝑒𝑖 (2.5)
2. MÔ HÌNH HỒI QUY BỘI (MULTIPLE REGRESSION MODEL)

Đặt

𝑌1 1 𝑋21 𝑋31 … 𝑋𝑘1 𝑌෠1 𝛽መ1 𝑒1


𝑌= 𝑌2 ;𝑋= 1 𝑋22 𝑋32 … 𝑋𝑘2 ; 𝑌෠ = 𝑌෠2 ; 𝛽መ = 𝛽መ2 e= 𝑒2
… … … … … … … … …
𝑌𝑛 1 𝑋2𝑛 𝑋3𝑛 … 𝑋𝑘𝑛 𝑌෠𝑛 𝛽መ𝑘 𝑒𝑘

Ta có:
𝑌෠ = 𝑋𝛽መ (2.6)

𝑌 = 𝑌෠ + 𝑒 = 𝑋𝛽መ + 𝑒 (2.7)
2. MÔ HÌNH HỒI QUY BỘI (MULTIPLE REGRESSION MODEL)

Các giả thiết của mô hình hồi quy bội

Giả thiết 1. Mô hình có dạng tuyến tính, cụ thể là tuyến tính theo các
tham số của mô hình.
Giả thiết 2. Các biến độc lập 𝑋𝑗 , j = 2, 𝑘 phi ngẫu nhiên, giá trị của
chúng là xác định, 𝑉(𝑋𝑗 ) ≠ 0.
Giả thiết 3. Các sai số ngẫu nhiên 𝑢𝑖 ~𝑁 0, 𝜎 2 , ∀𝑖
2. MÔ HÌNH HỒI QUY BỘI (MULTIPLE REGRESSION MODEL)

Các giả thiết của mô hình hồi quy bội

Giả thiết 4. Giữa các biến độc lập 𝑋𝑖 , 𝑖 = 2, 𝑘 không có hiện tượng
đa cộng tuyến, tức là không có biến 𝑋𝑖 nào được biểu thị tuyến
tính qua các biến còn lại.
Giả thuyết 5. Các sai số ngẫu nhiên không tương quan với nhau
𝑐𝑜𝑣 𝑢𝑖 , 𝑢𝑗 = 0 (∀𝑖 ≠ 𝑗)
2. MÔ HÌNH HỒI QUY BỘI (MULTIPLE REGRESSION MODEL)
PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT (OLS)
Mục đích: Tìm các ước lượng để mô hình ước lượng “gần nhất” với dữ liệu quan sát.

Các hệ số hồi quy mẫu 𝛽መ𝑗 , j = 1, 𝑘 được xác định sao cho tổng bình phương các phần dư đạt giá trị nhỏ nhất,
tức là:
𝑛

෍ 𝑒𝑖2 → 𝑚𝑖𝑛
𝑖=1

Ở đó
2
σ𝑛𝑖=1 𝑒𝑖2 = σ𝑛𝑖=1 𝑌𝑖 − 𝑌෠𝑖 (2.8)
2
= σ𝑛𝑖=1 𝑌𝑖 − 𝛽መ1 − 𝛽መ2 𝑋2𝑖 − 𝛽መ3 𝑋3𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘𝑖
= 𝑒𝑇𝑒
PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT (OLS)

Khi đó, 𝛽መ = 𝛽መ1 , 𝛽መ2 , … , 𝛽መ𝑘 thỏa mãn


𝜕(𝑒 𝑇 𝑒)
=0
𝜕𝛽መ
Ta có,
𝛽መ = 𝑋 𝑇 𝑋 −1 . 𝑋 𝑇 𝑌 (2.9)

 1 1 ... 1  1 X 21 ... X k1   1 1 ... 1  Y1    Yi 


       
 X 21 X 22 ... X 2 n  1 X 22 ... X k 2  T  X 21 X 22 ... X 2 n  Y2    Yi X 2i 
X X =
T
X Y = =
... ... ... ...  ... ... ... ...  ... ... ... ... ...  ... 
  
     
X ... X kn  1 X 2 n  X ... X kn  Yn    Yi X ki 
 k1 X k 2 ... X kn   k1 X k 2
PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT (OLS)

Các tính chất của ước lượng OLS

1. Đường hồi quy mẫu (SRF) đi qua điểm trung bình mẫu, tức là: (𝑌, 𝑋2 , . . . 𝑋𝑘 )

𝑌 = 𝛽መ1 + 𝛽መ2 𝑋2 +. . . +𝛽መ𝑘 . 𝑋𝑘


trong đó:
𝑛 𝑛
1 1
𝑌 = ෍ 𝑌𝑖 , 𝑋𝑗 = ෍ 𝑋𝑗𝑖 𝑗 = 2, 𝑘 .
𝑛 𝑛
𝑖=1 𝑖=1
PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT (OLS)

Các tính chất của ước lượng OLS

2. Giá trị trung bình của các giá trị 𝑌෠𝑖 được xác định theo hàm hồi quy mẫu
bằng giá trị trung bình của biến phụ thuộc, tức là:

𝑛
1
𝑌෠ = ෍ 𝑌෠𝑖 = 𝑌
𝑛
𝑖=1
3. Tổng các phần dư bằng 0: σ𝑛𝑖=1 𝑒𝑖 = 0.
PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT (OLS)

Các tính chất của ước lượng OLS

4. Các phần dư ei không tương quan với 𝑌෠𝑖


σ𝑛𝑖=1 𝑒𝑖 𝑌෠𝑖 = 0.

5. Các phần dư ei không tương quan với 𝑋𝑗𝑖


σ𝑛𝑖=1 𝑒𝑖 𝑋𝑗𝑖 = 0 (𝑗 = 2, 𝑘).
PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT (OLS)

Các tính chất của ước lượng OLS

Định lý Gauss – Markov: Với các giả thuyết của mô hình hồi quy tuyến
tính bội thì các ước lượng bình phương nhỏ nhất 𝛽መ𝑗 là các ước lượng tuyến
tính, không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến
tính, không chệch của 𝛽𝑗 (𝑗 = 1, 𝑘) .

Ta nói rằng các ước lượng 𝛽መ𝑗 , 𝑗 = 1, 𝑘 có tính chất BLUE (The Best Linear
Unbiased Estimator).
PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT (OLS)
Tính chất BLUE của các ước lượng OLS

1. Tuyến tính: Các ước lượng 𝛽መ𝑗 , j = 1, 𝑘 là tổ hợp tuyến tính của
các 𝑌1 , 𝑌2 , … , 𝑌𝑛 .
2. Không chệch: 𝐸 𝛽መ𝑗 = 𝛽𝑗 , j = 1, 𝑘.

3. Phương sai nhỏ nhất: Giả sử 𝛽෩𝑗 là một ước lượng tuyến tính của 𝛽𝑗
thì
𝑉 𝛽መ𝑗 ≤ 𝑉 𝛽෩𝑗 .
PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT (OLS)

Tính vững của các ước lượng OLS

Các ước lượng 𝛽መ𝑗 , j = 1, 𝑘 là các ước lượng vững (consistency estimator)
của 𝛽𝑗 , j = 1, 𝑘. Tức là
lim 𝑃 𝛽መ𝑗 − 𝛽𝑗 > 𝜀 = 0
𝑛→∞
PHƯƠNG PHÁP HỢP LÝ CỰC ĐẠI (MLE)

Mục đích: Chọn các ước lượng sao cho xác suất xảy ra của dữ liệu là lớn nhất

Do 𝑢𝑖 ~𝑁 0, 𝜎 2
Nên với 𝑋2𝑖 , 𝑋3𝑖 , … , 𝑋𝑘𝑖 cho trước thì Yi ~𝑁(𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 +. . . +𝛽𝑘 𝑋𝑘𝑖 , 𝜎 2 ), ∀𝑖
Ta có:
1 − 𝑌𝑖 −𝛽1 −𝛽2 𝑋2𝑖 −𝛽3 𝑋3𝑖 −⋯−𝛽𝑘 𝑋𝑘𝑖 2
𝑓 𝑌𝑖 |𝑋2𝑖 , 𝑋3𝑖 , … , 𝑋𝑘𝑖 = 𝑒 2𝜎 2
𝜎 2𝜋
PHƯƠNG PHÁP HỢP LÝ CỰC ĐẠI (MLE)

Mục đích: Chọn các ước lượng sao cho xác suất xảy ra của dữ liệu là lớn nhất

Hàm hợp lý của dãy biến ngẫu nhiên 𝑌1 , 𝑌2 , … , 𝑌𝑛 là


ℒ 𝛽1 , 𝛽2 , … , 𝛽𝑘 , 𝜎 2 = 𝑓 𝑌1 , 𝑌2 , … , 𝑌𝑛 |𝛽1 , 𝛽2 , … , 𝛽𝑘 , 𝜎 2
1
2 −𝑛/2 − 2 σ𝑛
𝑖=1 𝑌𝑖 −𝛽1 −𝛽2 𝑋2𝑖 −𝛽3 𝑋3𝑖 −⋯−𝛽𝑘 𝑋𝑘𝑖 2
= 2𝜋𝜎 . 𝑒 2𝜎

Do đó,
𝑛
𝑛 2
1 2
lnℒ = − ln𝜎 −𝑛 ln( 2𝜋) − 2 ෍ 𝑌𝑖 − 𝛽1 − 𝛽2 𝑋2𝑖 − 𝛽3 𝑋3𝑖 − ⋯ − 𝛽𝑘 𝑋𝑘𝑖
2 2𝜎
𝑖=1

Tìm 𝛽1 , 𝛽2 , … , 𝛽𝑘 , 𝜎 2 làm cực đại hàm lnℒ.


PHƯƠNG PHÁP HỢP LÝ CỰC ĐẠI (MLE)
Kết quả ước lượng của 𝜷 = (𝜷𝟏 , 𝜷𝟐 , … , 𝜷𝒌 ) của phương pháp MLE và OLS là như nhau
𝛽መ = 𝑋 𝑇 𝑋 −1 . 𝑋 𝑇 𝑌

Thay 𝛽 = (𝛽1 , 𝛽2 , … , 𝛽𝑘 ) bởi 𝛽መ = 𝛽መ1 , 𝛽መ2 , … , 𝛽መ𝑘 . Ta có ước lượng MLE của 𝜎 2
𝑛
1 2
𝜎෤ 2
= . ෍ 𝑌𝑖 − 𝛽መ1 − 𝛽መ2 𝑋2𝑖 − 𝛽መ3 𝑋3𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘𝑖
𝑛
𝑖=1

Nhận xét:
𝑛
• 𝜎෤ 2 là một ước lượng chệch của 𝜎 2 (E(𝜎෤ 2 ) = 𝜎 2 ).
𝑛−𝑘

1 2 σ 𝑒𝑖2
• 𝜎ො 2 : = . σ𝑛𝑖=1 𝑌𝑖 − 𝛽መ1 − 𝛽መ2 𝑋2𝑖 − 𝛽መ3 𝑋3𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘𝑖 = là ước lượng không chệch
𝑛−𝑘 𝑛−𝑘
của 𝜎2.
KHOẢNG ƯỚC LƯỢNG CỦA HỆ SỐ HỒI QUY

Phân phối của 𝛽መ𝑗 , 𝑗 = 1, … , 𝑘 và 𝜎ො 2 có các tính chất sau:


Định lý:
1. Véc tơ 𝛽መ1 , 𝛽መ2 , … , 𝛽መ𝑘 có phân phối chuẩn với trung bình là 𝛽1 , 𝛽2 , … , 𝛽𝑘 và ma trận
hiệp phương sai có dạng
መ = 𝜎 2 (𝑋 𝑇 𝑋)−1
cov( 𝛽)

Do đó, V(𝛽መ𝑗 ) được ước lượng bằng cách thay 𝜎 2 bởi ước lượng không chệch 𝜎ො 2 .

2. 𝜎ො 2 độc lập với 𝛽መ𝑗 , 𝑗 = 1, … , 𝑘


𝜎2
(𝑛−𝑘)ෝ 2
3. ~𝜒 𝑛 − 𝑘 ( phân phối khi bình phương với 𝑛 − 𝑘 bậc tự do).
𝜎2
KHOẢNG ƯỚC LƯỢNG CỦA THAM SỐ HỒI QUY

Khoảng ước lượng của các tham số 𝜷𝒋 , j= 𝟏, 𝒌


Ta có
෡𝑗 −𝛽𝑗
𝛽
𝑡= ෡𝑗 ) ~𝑡 𝑛 − 𝑘 (𝑗 = 1, 𝑘).
𝑠𝑒(𝛽

Khoảng ước lượng của 𝛽𝑗 với độ tin cậy 1 − 𝛼:

𝛽መ𝑗 −𝑡𝛼Τ2 𝑛 − 𝑘 . 𝑠𝑒 𝛽መ𝑗 , 𝛽መ𝑗 + 𝑡𝛼Τ2 𝑛 − 𝑘 . 𝑠𝑒 𝛽መ𝑗 .


KHOẢNG ƯỚC LƯỢNG CỦA HỆ SỐ HỒI QUY

Khoảng ước lượng của tham số 𝝈𝟐


Ta có
𝜎2
(𝑛−𝑘)ෝ 2
~𝜒 𝑛−𝑘 .
𝜎2

Khoảng ước lượng của 𝜎 2 với độ tin cậy 1 − 𝛼 là

(𝑛 −𝑘)𝜎ො 2 (𝑛 −𝑘)𝜎ො 2
2 , 2 .
𝜒𝛼Τ2 𝑛 − 𝑘 𝜒1−𝛼Τ2 𝑛 − 𝑘
KIỂM ĐỊNH CÁC HỆ SỐ HỒI QUY

Kiểm định cặp giả thuyết:

𝐻0 : 𝛽𝑗 = 𝛽𝑗∗

𝐻1 : 𝛽𝑗 ≠ 𝛽𝑗∗ (𝛽𝑗 < 𝛽𝑗∗ , 𝛽𝑗 > 𝛽𝑗∗ )
Tiêu chuẩn kiểm định

𝛽መ𝑗 − 𝛽𝑗∗
𝑡=
𝑠𝑒(𝛽መ𝑗 )

Nếu H0 đúng thì t~𝑡 𝑛 − 𝑘 .


KIỂM ĐỊNH CÁC HỆ SỐ HỒI QUY
KIỂM ĐỊNH PHƯƠNG SAI CỦA SAI SỐ NGẪU NHIÊN

Kiểm định cặp giả thuyết

𝐻0 : 𝜎 2 = 𝜎02

𝐻1 : 𝜎 2 ≠ 𝜎02 (𝜎 2 < 𝜎02 , 𝜎 2 > 𝜎02 )
Tiêu chuẩn kiểm định
(𝑛−𝑘)ෝ𝜎2
𝜒0 = .
𝜎02

Nếu 𝐻0 đúng thì 𝜒0 ~𝜒 2 𝑛 − 𝑘 .


KIỂM ĐỊNH PHƯƠNG SAI CỦA SAI SỐ NGẪU NHIÊN
ĐÁNH GIÁ SỰ PHÙ HỢP CỦA MÔ HÌNH

𝑌𝑖 − 𝑌ത = 𝑌𝑖 − 𝑌෠𝑖 + 𝑌෠𝑖 − 𝑌ത
Lấy bình phương hai vế
2 2
𝑌𝑖 − 𝑌ത 2 = 𝑌𝑖 − 𝑌෠𝑖 + 𝑌෠𝑖 − 𝑌ത + 2 𝑌𝑖 − 𝑌෠𝑖 𝑌෠𝑖 − 𝑌ത
Lấy tổng i từ 1, 2, …, n. Ta có
𝑛 𝑛 𝑛 𝑛
2 2
෍ 𝑌𝑖 − 𝑌ത 2 = ෍ 𝑌𝑖 − 𝑌෠𝑖 + ෍ 𝑌෠𝑖 − 𝑌ത + 2 ෍ 𝑌𝑖 − 𝑌෠𝑖 𝑌෠𝑖 − 𝑌ത
𝑖=1 𝑖=1 𝑖=1 𝑖=1
=0
ĐÁNH GIÁ SỰ PHÙ HỢP CỦA MÔ HÌNH
𝑛 𝑛 𝑛
2 2
෍ 𝑌𝑖 − 𝑌ത 2
= ෍ 𝑌𝑖 − 𝑌෠𝑖 + ෍ 𝑌෠𝑖 − 𝑌ത
𝑖=1 𝑖=1 𝑖=1

𝐓𝐒𝐒 = σ𝒏𝒊=𝟏 𝒀𝒊 − 𝒀
ഥ 𝟐 : Tổng bình phương toàn bộ (Total Sum of Squares)

• Sự biến thiên của toàn bộ biến phụ thuộc Y


• Chỉ phụ thuộc biến Y, không phụ thuộc vào dạng của mô hình
𝟐
RSS = σ𝒏𝒊=𝟏 𝒀𝒊 − 𝒀
෡𝒊 = σ𝒏𝒊=𝟏 𝒆𝒊 𝟐 : Tổng bình phương các phần dư (Residual Sum of Squares)

• Sự biến thiên của Y mà không được giải thích bởi 𝑋2 , 𝑋3 , …, 𝑋𝑘


𝒏 𝟐
෡ ഥ
ESS = 𝒊=𝟏 𝒀𝒊 − 𝒀 : Tổng bình phương giải thích(𝑬𝒙𝒑𝒍𝒂𝒊𝒏𝒆𝒅 𝑺𝒖𝒎 𝒐𝒇 𝑺𝒒𝒖𝒂𝒓𝒆𝒔)
σ

• Sự biến thiên của Y được giải thích bởi 𝑋2 , 𝑋3 , …, 𝑋𝑘


ĐÁNH GIÁ SỰ PHÙ HỢP CỦA MÔ HÌNH

Giải thích về số bậc tự do

• Các phần dư 𝑒1 , 𝑒2 , … , 𝑒𝑛 có 𝑘 điều kiện, cụ thể

σ𝑛𝑖=1 𝑒𝑖 = 0; σ𝑛𝑖=1 𝑋𝑗𝑖 𝑒𝑖 = 0 (𝑗 = 2, 𝑘)


Do đó, RSS = σ𝑛𝑖=1 𝑒𝑖 2 có 𝑛 − 𝑘 bậc tự do
ത 𝑌2 − 𝑌;
• Các 𝑌1 − 𝑌; ത … . ; 𝑌𝑛 − 𝑌ത thỏa mãn điều kiện
𝑛

෍ 𝑌𝑖 − 𝑌ത = 0
𝑖=1

Do đó, 𝑇𝑆𝑆 = σ𝑛𝑖=1 𝑌𝑖 − 𝑌ത 2


có 𝑛 − 1 bậc tự do
2
• ESS = σ𝑛𝑖=1 ෠ ത
𝑌𝑖 − 𝑌 : có 𝑘 − 1 bậc tự do vì phụ thuộc vào các biến độc lập 𝑋2 , 𝑋3 , …, 𝑋𝑘 .
ĐÁNH GIÁ SỰ PHÙ HỢP CỦA MÔ HÌNH

Phân tích phương sai (ANOVA)

Nguồn biến thiên Tổng bình phương Bậc tự do Tổng bình phương trung
bình
𝑛
Từ hàm hồi quy (ESS) 2
෍ 𝑌෠𝑖 − 𝑌ത 𝑘−1 ESSΤ(𝑘 − 1)
𝑖=1
𝑛
Từ phần dư (RSS) 2
෍ 𝑌𝑖 − 𝑌෠𝑖 𝑛−𝑘 RSS/ 𝑛 − 𝑘
𝑖=1
𝑛
Tổng biến thiên (TSS)
෍ 𝑌𝑖 − 𝑌ത 2
𝑛−1 TSS/(𝑛 − 1)
𝑖=1
ĐÁNH GIÁ SỰ PHÙ HỢP CỦA MÔ HÌNH
Hệ số xác định 𝑹𝟐

𝑇𝑆𝑆 = 𝐸𝑆𝑆 + 𝑅𝑆𝑆


𝐸𝑆𝑆 𝑅𝑆𝑆
R2 = =1−
𝑇𝑆𝑆 𝑇𝑆𝑆
Nhận xét:
• 0 ≤ R2 ≤ 1
• R2 là tỷ lệ (phần trăm) sự thay đổi của biến phụ thuộc được giải thích bởi các biến độc lập trong mô
hình.
• R2 càng cao thì mô hình càng phù hợp với dữ liệu.
• R2 là hàm không giảm và phụ thuộc vào số biến độc lập của mô hình (do khi số biến độc lập tăng thì
tổng phần dư RSS giảm).
ĐÁNH GIÁ SỰ PHÙ HỢP CỦA MÔ HÌNH

ഥ𝟐
Hệ số xác định điều chỉnh 𝑹

Mục đích: Đánh giá mức độ phù hợp của mô hình trong đó có xét đến yếu tố ảnh hưởng
của số biến trong mô hình
𝐸𝑆𝑆/(𝑘 − 1) 𝑛−1
𝑅ത 2 = = 1 − (1 − 𝑅2 )
𝑇𝑆𝑆/(𝑛 − 1) 𝑛−𝑘
Nhận xét:
- Khi đưa thêm biến mới vào mô hình thì 𝑅2 luôn tăng, nhưng 𝑅ത 2 có thể tăng hoặc giảm.
- Khi k > 1 thì 𝑅ത 2 < R2 ≤ 1. Như vậy, khi tăng số biến độc lập lên thì 𝑅ത 2 nếu tăng thì vẫn
tăng ít hơn so với R2 .
- 𝑅ത 2 có thể nhận giá trị âm dù R2 luôn dương.
ĐÁNH GIÁ SỰ PHÙ HỢP CỦA MÔ HÌNH

ഥ 𝟐 hay 𝑹𝟐 ???
Nên dùng 𝑹
Theo Theil (Introduction to Econometrics, 1978)“…dùng 𝑅ത 2 tốt hơn 𝑅 2 bởi vì 𝑅 2 cho ra một bức tranh
quá lạc quan về độ thích hợp của mô hình hồi qui, đặc biệt trong trường hợp số biến độc lập không quá bé
so với kích thước mẫu”.
ഥ 𝟐 hay 𝑹𝟐 :
Quan điểm về 𝑹
Arthur S. Goldberger, Khóa học Kinh tế lượng, Havard U. Press, Cambridge, Massachsetts,1991, trang 178.
đã phát biểu: “Đứng trên quan điểm của chúng tôi, 𝑹𝟐 có một vai trò rất khiêm tốn trongphân tích hồi quy,
nó là một đại lượng đo của độ thích hợp của hồi quy tuyến tính bình phương tối thiểu (LS) mẫu trong một
tập hợp các dữ liệu. Không có yếu tố nào trong mô hình hồi quy cổ điển CR [CLRM] đòi hỏi rằng 𝑹𝟐 phải
cao. Như vậy, một 𝑹𝟐 cao không phải là bằng chứng có lợi cho mô hình và một 𝑹𝟐 thấp không phải là bằng
chứng bất lợi cho nó…”
ĐÁNH GIÁ SỰ PHÙ HỢP CỦA MÔ HÌNH

Mục đích: Biến 𝑋𝑗 có tác động (có ảnh hưởng) lên biến phụ thuộc Y?
Kiểm định cặp giả thuyết

𝐻0 : 𝛽𝑗 = 0

𝐻1 : 𝛽𝑗 ≠ 0

෡𝑗
𝛽
Tiêu chuẩn kiểm định: t = ෡𝑗 ).
𝑠𝑒(𝛽

Khi 𝐻0 đúng, t~𝑡 𝑛 − 𝑘 .


Với mức ý nghĩa 𝛼 cho trước, nếu 𝑡 > 𝑡𝛼Τ2 𝑛 − 𝑘 thì bác bỏ 𝐻0 .
ĐÁNH GIÁ SỰ PHÙ HỢP CỦA MÔ HÌNH
Mục đích: Kiểm định giả thuyết không có biến độc lập nào trong mô hình có tác động lên biến
phụ thuộc.
𝑌 = 𝛽1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 +. . . +𝛽𝑘 𝑋𝑘 + 𝑢
Kiểm định cặp giả thuyết:

𝐻0 : 𝛽2 = 𝛽3 =. . . = 𝛽𝑘 = 0

𝐻1 : 𝛽22 + 𝛽32 + ⋯ + 𝛽𝑘2 ≠ 0

Tiêu chuẩn kiểm định


𝑅2 𝑛 − 𝑘
𝐹= .
1 − 𝑅2 𝑘 − 1
Khi 𝐻0 đúng thì 𝐹 có phân phối Fisher 𝑘 − 1, 𝑛 − 𝑘 bậc tự do
Với mức ý nghĩa 𝛼 cho trước, nếu 𝐹 > 𝐹𝛼 𝑘 − 1, 𝑛 − 𝑘 thì bác bỏ 𝐻0 .
ĐÁNH GIÁ SỰ PHÙ HỢP CỦA MÔ HÌNH

Chỉ số AIC ( Akaike Information Criterion)

Chỉ số AIC là chỉ số đo lường dựa trên sự kết hợp giữa độ phức tạp và khả năng tiên
lượng của mô hình
𝐴𝐼𝐶 = −2𝑙𝑛 𝐿 + 2𝑘 (1)
Trong đó, 𝑙𝑛 𝐿 là giá trị cực đại của 𝑙𝑛 hàm hợp lý, cụ thể

−𝑛 𝑅𝑆𝑆
𝑙𝑛 𝐿 = 1 + 𝑙𝑛 2𝜋 + 𝑙𝑛 (2)
2 𝑛

Mô hình có giá trị AIC thấp hơn được xem là mô hình tốt hơn.
Trong R, sử dụng hàm step() (package: stats)để tìm mô hình tối ưu theo chỉ số AIC.
ĐÁNH GIÁ SỰ PHÙ HỢP CỦA MÔ HÌNH

Chỉ số BIC (Bayesian Information Criterion)

Chỉ số BIC được xây dựng dựa trên phương pháp Bayes với cơ sở mô hình có xác
suất hậu nghiệm cao hơn là mô hình tốt hơn.
𝐵𝐼𝐶 = −2 ln 𝐿 + 𝑘𝑙𝑛(𝑛)
Trong đó, 𝑙𝑛 𝐿 là giá trị cực đại của 𝑙𝑛 hàm hợp lý, cụ thể

−𝑛 𝑅𝑆𝑆
𝑙𝑛 𝐿 = 1 + 𝑙𝑛 2𝜋 + 𝑙𝑛
2 𝑛

Mô hình có giá trị BIC thấp hơn được xem là mô hình tốt hơn.
Trong R, sử dụng hàm bma() (package BMA) để tìm mô hình tối ưu theo chỉ số BIC.
PHÂN TÍCH HỒI QUY VÀ DỰ BÁO

Xét mô hình hồi qui bội


𝑌 = 𝛽1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 +. . . +𝛽𝑘 𝑋𝑘 + 𝑢

Hàm hồi qui mẫu


𝑌 = 𝛽መ1 + 𝛽መ2 𝑋2 + ⋯ + 𝛽መ𝑘 𝑋𝑘 + 𝑒
Bài toán đặt ra: với các giá trị cho trước của các biến độc lập, chẳng hạn X0 = 𝑋20 , 𝑋30 , …, 𝑋𝑘0 , ta cần dự
báo giá trị trung bình 𝐸(𝑌|𝑋0 ) và giá trị cá biệt của Y là 𝑌0 bằng bao nhiêu?
PHÂN TÍCH HỒI QUY VÀ DỰ BÁO

Dự báo giá trị trung bình

1. Ước lượng điểm của 𝐸(𝑌|𝑋0 ) là


𝑌෠0 = 𝑋0𝑇 𝛽መ = 𝛽መ1 + 𝛽መ2 𝑋20 + 𝛽መ3 𝑋30 + ⋯ + 𝛽መ𝑘 𝑋𝑘0
2. Ta có,
𝑌෠0 −𝐸(𝑌0 /𝑋0 )
𝑡= ~ 𝑡 (𝑛 − 𝑘).
𝑠𝑒(𝑌෠0 )

Khoảng ước lượng của 𝐸(𝑌|𝑋0 ) với độ tin cậy 1 − 𝛼


𝑌෠0 − 𝑡𝛼Τ2 𝑛 − 𝑘 . 𝑠𝑒(𝑌෠0 ) ; 𝑌෠0 + 𝑡𝛼Τ2 𝑛 − 𝑘 . 𝑠𝑒(𝑌෠0 )
Chú ý:
𝑉 𝑌෠0 = 𝑉 𝑋0𝑇 𝛽መ = 𝑋0𝑇 V 𝛽መ 𝑋0 = 𝜎 2 𝑋0𝑇 𝑋 𝑇 𝑋 −1 𝑋
0

vì 𝜎 2 chưa biết nên được ước lượng bởi 𝜎ො 2 . Khi đó, 𝑠𝑒 𝑌෠0 = 𝜎ො 2 𝑋0𝑇 𝑋 𝑇 𝑋 −1 𝑋
0
PHÂN TÍCH HỒI QUY VÀ DỰ BÁO

Dự báo giá trị cá biệt


1. Ước lượng điểm của giá trị cá biệt 𝑌0 là
𝑌෠0 = 𝛽መ1 + 𝛽መ2 𝑋20 + 𝛽መ3 𝑋30 + ⋯ + 𝛽መ𝑘 𝑋𝑘0
2. Ta có,
𝑌෠0 − 𝑌0
𝑡= ~𝑡 𝑛 − 𝑘

𝑠𝑒 𝑌0 − 𝑌0
Khoảng ước lượng của 𝑌0 với độ tin cậy 1 − 𝛼,
𝑌෠0 − 𝑡𝛼Τ2 𝑛 − 𝑘 . 𝑠𝑒(𝑌෠0 − 𝑌0 ) ; 𝑌෠0 + 𝑡𝛼Τ2 𝑛 − 𝑘 . 𝑠𝑒(𝑌෠0 − 𝑌0 )

Chú ý: 𝑉(𝑌෠0 − 𝑌0 ) = 𝑉(𝑌෠0 ) + 𝜎 2 , nên 𝑠𝑒(𝑌෠0 − 𝑌0 ) = 𝑉(𝑌෠0 ) + 𝜎ො 2


THỰC HÀNH TRÊN PHẦN MỀM R
Dữ liệu
Marketing.csv, phân tích ảnh hưởng của các hình thức quảng cáo lên doanh thu

Phân tích tương quan

Ước lượng mô hình

Kiểm định mô hình

Dự báo
THỰC HÀNH TRÊN PHẦN MỀM R
Phân tích tương quan

Tính hệ số tương quan giữa hai biến

Kiểm định tương quan giữa hai biến


THỰC HÀNH TRÊN PHẦN MỀM R
Chạy mô hình tuyến tính và xem kết quả

Kết quả UL của các tham số


Ví dụ hồi qui

R^2

R^2 hiệu chỉnh


Pvale cho kiểm định
từng tham số hồi qui =0

P_value cho kiểm


định các tham số hồi
qui đồng thời = 0
THỰC HÀNH TRÊN PHẦN MỀM R

Khoảng tin cậy cho các tham số hồi qui

Mô hình Độ tin cậy


THỰC HÀNH TRÊN PHẦN MỀM R

Dự báo

You might also like