You are on page 1of 140

Bài 1: Kinh tế luợng là gì

BÀI 1. KINH TẾ LƯỢNG LÀ GÌ

Mục tiêu

Sau khi kết thúc bài này, học viên sẽ hiểu


được những vấn đề sau đây:
 Một số định nghĩa về kinh tế lượng.
 Tại sao chúng ta lại sử dụng kinh tế
lượng và sự khác biệt của nó với
những môn học khác.
 Phương pháp luận của kinh tế lượng.

Hướng dẫn học Nội dung

 Đọc tài liệu để có được những ý tưởng  Kinh tế lượng là gì.


chính.  Phân biệt mô hình kinh tế lượng và
 Nghe kỹ bài giảng của giảng viên. mô hình kinh tế thông thường.
 Tập trung vào ví dụ minh họa cho phương  Phương pháp luận của kinh tế lượng.
pháp luận của kinh tế lượng nhằm hiểu
được môn học được ứng dụng như thế nào
trong thực tế.

STA301_Bài 1_v1.0013101214 1
Bài 1: Kinh tế luợng là gì

TÌNH HUỐNG DẪN NHẬP

Tình huống 1
Ngân hàng Nhà nước Việt Nam có ý định điều chỉnh tỉ giá
VNĐ/USD nhằm tăng xuất khẩu cho nền kinh tế. Theo lý thuyết, tỉ
giá tăng lên thì xuất khẩu cũng tăng.

Câu hỏi
Vấn đề đặt ra cho các nhà hoạch định chính sách là nếu tỉ giá tăng lên 1000 đồng thì lượng
xuất khẩu sẽ tăng lên bao nhiêu?

Tình huống 2
Tổng giám đốc Công ty sữa Vinamilk biết rằng khi giảm giá sữa tươi
đóng hộp dành cho trẻ em loại 180ml thì lượng hàng bán sẽ tăng lên.

Câu hỏi
Vậy, ở mức giá hiện tại, nên giảm giá đi bao nhiêu % để doanh số bán hàng hoặc lợi nhuận lớn
nhất cho công ty?

Để trả lời được những câu hỏi như trên bằng các con số cụ thể, người ta sẽ sử dụng phương pháp
kinh tế lượng.

2 STA301_Bài 1_v1.0013101214
Bài 1: Kinh tế luợng là gì

1.1. Kinh tế lượng là gì


Có rất nhiều định nghĩa khác nhau về kinh tế lượng, tuy nhiên ta có thể đưa ra một
định nghĩa đơn giản về kinh tế lượng như sau: “Kinh tế lượng là việc sử dụng các
phương pháp thống kê toán học trong kinh tế”.
Trong tiếng Anh, thuật ngữ được sử dụng là “Econometrics”. Thuật ngữ này có nghĩa
là đo lường kinh tế (economy = kinh tế, metrics = đo lường).
CHÚ Ý
Không giống như thống kê kinh tế mà trong đó chủ yếu quan tâm đến các dữ liệu thống kê,
kinh tế lượng là một hợp nhất của lý thuyết kinh tế, các phương pháp toán học và các
phương pháp suy luận thống kê. Phương pháp toán học được dùng ở đây chủ yếu là các
phương pháp thống kê toán học và lý thuyết xác suất.

Kinh tế học quan tâm đến những vấn đề sau:

 Ước lượng mối liên hệ kinh tế.


Ví dụ:
Ước lượng quan hệ giữa cung và cầu của các sản phẩm và dịch vụ.
Ước lượng mức độ ảnh hưởng của quảng cáo đến doanh thu và lợi nhuận của
doanh nghiệp.
Ước lượng giá cổ phiếu trên thị trường chứng khoán với đặc trưng của công ty
phát hành cổ phiếu và tình trạng của nền kinh tế.
 Đối chiếu giữa lý thuyết với thực tế, kiểm định sự phù hợp giữa lý thuyết và thực tế.
Ví dụ:
Một cửa hàng thực phẩm muốn xác định chiến dịch quảng cáo, tiếp thị có tác động
làm tăng doanh thu hay không.
Kiểm định về tính co giãn của giá cả phụ thuộc vào thu nhập của người dân.
Kiểm định về ảnh hưởng của quy mô hoạt động của công ty lên mức độ tăng hay
giảm của lợi nhuận.
 Các giả thuyết liên quan đến các hành vi kinh tế.
Ví dụ:
Các công ty cần có dự báo về doanh thu, lợi nhuận, chi phí sản xuất và lượng hàng
tồn kho.
Dự báo về nhu cầu sử dụng năng lượng của một vùng hay toàn bộ khu vực.
Dự báo về chỉ số chứng khoán và giá cổ phiếu.

3
Bài 1: Kinh tế luợng là gì

Việc ứng dụng các công cụ thống kê để xử lý các dữ liệu kinh tế đã được phát triển từ
rất lâu. Tuy nhiên, trước bất kỳ một phân tích thống kê tới các dữ liệu thì điều quan
trọng và cần thiết đó là đưa ra công thức toán học có liên quan đến lý thuyết kinh tế.
Ví dụ: Theo dõi dữ liệu về thu nhập và chi tiêu của hộ gia đình ta đưa ra mô hình toán
học cho mối liên hệ giữa hai đại lượng đó như sau:
y    x  u

trong đó:
y : là chi tiêu của hộ gia đình
x : thu nhập của hộ gia đình
u : nhiễu ngẫu nhiên
,  : là các hệ số.

1.2. Mô hình kinh tế và mô hình kinh tế lượng


Phần việc đầu tiên cần làm khi nghiên cứu kinh tế lượng đó là thiết lập một mô hình
kinh tế lượng. Vậy mô hình kinh tế lượng là gì?
Mô hình kinh tế lượng là một biểu diễn đơn giản của quá trình trong thế giới thực.
Ví dụ: Thiết lập mối quan hệ của quá trình cung và cầu trong sản xuất.
Việc xây dựng mô hình trong hệ thống kinh tế, xã hội phải được dựa trên một cấu trúc
lôgic, cấu trúc này mô tả hành vi của các đối tượng trong hệ thống. Mô hình trong
kinh tế học được thiết lập dưới dạng một phương trình toán học, nó mô tả hành vi kinh
tế của các biến có liên quan trong mô hình. Mô hình
được thiết lập có thể là một phương trình hay hệ
phương trình toán học.
 Mô hình kinh tế là tập hợp các giả thiết mô tả
các hành vi trong kinh tế.
 Mô hình kinh tế lượng bao gồm:
o Tập hợp các hành vi kinh tế trong mô hình
kinh tế và được biểu diễn dưới dạng phương
trình. Trong phương trình có chứa các biến
quan sát và các nhiễu ngẫu nhiên.
o Phân phối xác suất của các nhiễu ngẫu nhiên.

1.3. Mục đích và phương pháp luận của kinh tế lượng


Mục đích của kinh tế lượng là:
 Thiết lập mô hình và các công thức từ các nghiên cứu thực nghiệm;
 Ước lượng và kiểm nghiệm mô hình dựa vào các dữ liệu thực nghiệm;
 Sử dụng mô hình để dự báo và ra quyết định.
Khi tiến hành nghiên cứu kinh tế lượng cần thực hiện các bước được thể hiện trong sơ
đồ sau:

4 STA301_Bài 1_v1.0013101214
Bài 1: Kinh tế luợng là gì

Nêu lên các giả thuyết


kinh tế

Thiết lập các mô hình

Thu thập số liệu

Ước lượng các tham số của


mô hình

Kiểm định giả thuyết

Diễn dịch kết quả

Dự báo

Ra các quyết định và các


chính sách

Bước 1: Nêu các giả thuyết kinh tế


Tại bước đầu tiên này, ta cần đặt ra các câu hỏi nghiên
cứu, hay chính là giả thuyết về các mối quan hệ giữa các
biến kinh tế. Các câu hỏi đặt ra cần phù hợp với ý nghĩa
thực tế và giúp giải đáp được các vần đề cần quan tâm.
Bước 2: Thiết lập mô hình
Mô hình toán học cần được thiết lập để mô tả mối quan
hệ giữa các biến số kinh tế, mối quan hệ được thể hiện
dưới dạng một hoặc nhiều phương trình, trong đó chứa
biến phụ thuộc là biến mà ta muốn giải thích về hành vi
của nó (biến này cũng còn có tên gọi là biến hồi quy) và
có thể có một hoặc nhiều biến có ảnh hưởng đến biến
phụ thuộc và ta gọi các biến này là biến độc lập hay là biến giải thích.
Việc lựa chọn biến phụ thuộc, các biến độc lập và mô hình toán học (thể hiện qua các
phương trình) được xuất phát từ lý thuyết kinh tế hoặc các nghiên cứu trong quá khứ
hoặc từ trực giác.
Ví dụ: Ta thấy rằng lợi nhuận của một công ty sẽ phụ thuộc vào giá bán và số lượng
bán ra các sản phẩm của công ty đó, số người sử dụng, mức thu nhập, chi phí

5
Bài 1: Kinh tế luợng là gì

nguyên vật liệu, … Lúc ấy trong mô hình, lợi nhuận là biến hồi quy, còn giá bán, lượng
bán ra, số người sử dụng, mức thu nhập, chi phí nguyên vật liệu, … là các biến độc lập.
Bước 3: Thu thập số liệu
Để ước lượng cho mô hình kinh tế lượng mà ta đưa ra thì cần phải có dữ liệu thu thập
được về các biến độc lập và biến phụ thuộc. Thông thường kinh tế lượng đòi hỏi số
liệu có kích thước (cỡ) mẫu khá lớn.
Nếu trong mô hình ta quan tâm tới việc giải thích
sự thay đổi của biến phụ thuộc theo thời gian thì ta
cần phải có các dữ liệu thu thập tại các thời điểm
khác nhau và được gọi là dữ liệu theo dõi dọc theo
thời gian (gọi tắt là dữ liệu theo dõi dọc). Dữ liệu
chuỗi thời gian là một dạng đặc biệt của dữ liệu
theo dõi dọc, khi có các thời điểm thu thập cách
đều nhau (theo từng ngày, từng tuần, từng tháng hay từng quý, ...).
Nếu trong mô hình ta muốn giải thích sự thay đổi của biến phụ thuộc theo không gian
thì ta cần có số liệu thu thập tại một thời điểm định trước. Số liệu như vậy được gọi là
dữ liệu theo dõi cắt ngang (gọi tắt là dữ liệu cắt ngang) hoặc dữ liệu theo không gian.
Ví dụ: Ta muốn giải thích về nhu cầu nhà ở tại các thành phố thì ta cần phải thu thập
số liệu từ các thành phố khác nhau trong một khoảng thời gian xác định. Số liệu này
được xếp vào loại số liệu theo dõi cắt ngang.
Ta cũng thường gặp một loại dữ liệu khác có dạng tổng hợp của hai dạng số liệu trên
đây. Chẳng hạn ta xét mối quan hệ giữa chi tiêu và thu nhập thì dữ liệu có thể là dữ
liệu về chi tiêu và thu nhập của một gia đình được ghi lại định kỳ tại những thời điểm
trong một khoảng thời gian dài (dữ liệu theo dõi dọc), hoặc của một nhóm gia đình tại
một thời điểm nhất định nào đó (dữ liệu cắt ngang), song cũng có thể là dữ liệu của
một nhóm gia đình cùng ghi lại tại nhiều thời điểm trong một khoảng thời gian (dữ
liệu dạng bảng).
Từ những ý trên, ta thấy việc thu thập dữ liệu và xử lý dữ liệu là những vấn đề quan
trọng cần được xác định thích hợp cho từng mục đích nghiên cứu.
Bước 4: Ước lượng tham số của mô hình
Khi đã thiết lập được mô hình và thu thập dữ liệu phù hợp thì nhiệm vụ quan trọng là
phải ước lượng cho những tham số chưa biết trong mô hình.
Ví dụ: Ta đã có mô hình về chi tiêu và thu nhập của hộ gia đình là:

Y    X  u.

Với một bộ dữ liệu về chi tiêu Y và thu nhập X, biết được dạng phân phối xác suất của
u, ta cần ước lượng các hệ số  và  , để từ đó xác định được mức độ phụ thuộc của
Y vào X.
Bước 5: Kiểm định giả thuyết
Vì dữ liệu thường được thu thập trên một mẫu rút ra từ tổng thể nghiên cứu nên thông
tin do dữ liệu cung cấp không phản ánh đầy đủ toàn bộ thông tin của tổng thể cần
nghiên cứu, từ đó việc ước lượng các tham số dựa trên dữ liệu chỉ cho các đánh giá

6 STA301_Bài 1_v1.0013101214
Bài 1: Kinh tế luợng là gì

gần đúng. Mặt khác mô hình kinh tế lượng mà ta thiết lập chịu ảnh hưởng của lý
thuyết kinh tế được xác lập từ trước và ảnh hưởng của các kết quả nghiên cứu trong
quá khứ, do đó kết quả có được khi ta ước lượng mô hình có thể chưa phù hợp với
thực tế hoặc chưa giải thích được hết sự ảnh hưởng của các biến kinh tế. Vì vậy ta cần
kiểm định giả thuyết về các tham số và về sự phù hợp của mô hình.
Bước 6: Diễn dịch kết quả
Việc diễn giải kết quả phải dựa trên lý thuyết kinh tế để phân tích và đánh giá kết quả
nhận được, xem xét kết quả đạt được có phù hợp với lý thuyết kinh tế hay không.
Đồng thời việc diễn giải phải giúp giải thích các phát hiện thu được từ kết quả phân
tích, so sánh kết quả của nghiên cứu đang tiến hành với kết quả của các nghiên cứu
trước đó.
Bước 7: Dự báo
Khi mô hình đã phù hợp với lý thuyết kinh tế tức là
ta đã khẳng định được tính đúng đắn của mô hình
mà ta đã lập, lúc đó có thể sử dụng mô hình để dự
báo quy luật về các hiện tượng có thể trở thành hiện
thực trong tương lai.
Bước 8: Đưa ra quyết định và các chính sách
Khi đã khẳng định mô hình xây dựng được là phù
hợp với lý thuyết kinh tế và đưa ra được kết quả dự
báo cho các biến kinh tế trong mô hình, ta có thể dựa vào kết quả dự báo đó để đưa ra
các quyết định và đề xuất các chính sách thích hợp.

7
Bài 1: Kinh tế luợng là gì

TÓM LƯỢC CUỐI BÀI


 Kinh tế lượng là một khoa học xã hội trong đó các công cụ như kinh tế, toán học, thống kê
toán và thống kê kinh tế được áp dụng để phân tích các vấn đề kinh tế.
 Mô hình kinh tế là một mô hình tất định, thể hiện quan hệ giữa các biến kinh tế.
Ví dụ: Theo dõi quan hệ giữa thu nhập (X) và chi tiêu (Y) của hộ gia đình ta đưa ra mô hình
toán học cho mối liên hệ như sau:
Mô hình kinh tế: Y = β 1 + β2 X
Mô hình kinh tế lượng: Y = β 1 + β2 X + u
trong đó u là yếu tố ngẫu nhiên, thể hiện ảnh hưởng của các yếu tố ngoài biến X lên biến Y.
 Phương pháp luận của Kinh tế lượng:
Nêu lên các giả thuyết kinh tế
Thiết lập mô hình toán học
Thiết lập mô hình kinh tế lượng
Thu thập số liệu
Ước lượng mô hình kinh tế lượng
Kiểm định giả thuyết
Dự báo
Dùng mô hình cho việc ra quyết định.

8 STA301_Bài 1_v1.0013101214
Bài 1: Kinh tế luợng là gì

CÂU HỎI THƯỜNG GẶP

1. Tại sao ta nên sử dụng phương pháp kinh tế lượng trong nghiên cứu kinh tế?

2. Kinh tế lượng có thể thay thế được các phương pháp nghiên cứu kinh tế khác hay không?

3. Mục tiêu chính của kinh tế lượng trong nghiên cứu kinh tế xã hội là gì?

4. Kinh tế lượng khác với kinh tế học thông thường như thế nào?

5. Kinh tế lượng sử dụng thống kê kinh tế như thế nào?

6. Tại sao trong mô hình kinh tế lượng cần phải đưa vào yếu tố ngẫu nhiên?

7. Khi nghiên cứu một vấn đề bằng phương pháp kinh tế lượng, có thực sự cần thiết phải theo
đúng các bước như trong phương pháp luận đã nêu hay không?

8. Ta có nên tin tưởng hoàn toàn vào các kết quả đưa ra bằng phương pháp kinh tế lượng
hay không?

CÂU HỎI TRẮC NGHIỆM

1. Phương pháp kinh tế lượng là phương pháp duy nhất cho các nhà kinh tế học trong nghiên
cứu định lượng.
A. Đúng.
B. Sai.

2. Theo một trong các định nghĩa về kinh tế lượng thì kinh tế lượng là sự kết hợp của một số các
môn khoa học sau đây trừ:
A. Kinh tế học.
B. Thống kê toán.
C. Mô hình Toán kinh tế.
D. Tâm lí học.

3. Sự khác nhau giữa mô hình kinh tế lượng và mô hình kinh tế thông thường là ở chỗ:
A. Mô hình kinh tế là một mô hình tất định thể hiện các hành vi hay các mối quan hệ kinh tế
giữa các biến kinh tế trong khi mô hình kinh tế lượng bao gồm phần tất định và phần
ngẫu nhiên.
B. Hai mô hình là như nhau về mặt cấu trúc.
C. Mô hình kinh tế chỉ có các kí hiệu bằng chữ, còn mô hình kinh tế lượng dùng các số.
D. Mô hình kinh tế phản ánh các mối quan hệ kinh tế, còn mô hình kinh tế lượng thì không.

4. Các điều sau đây đều là mục đích nghiên cứu của kinh tế lượng trừ:
A. Thiết lập mô hình và các công thức từ các nghiên cứu thực nghiệm.
B. Ước lượng và kiểm nghiệm mô hình dựa vào các dữ liệu thực nghiệm.

9
Bài 1: Kinh tế luợng là gì

C. Sử dụng mô hình để dự báo và ra quyết định.


D. Sử dụng mô hình để kiểm nghiệm tính xác thực của số liệu.

5. Các bước sau đây đều thuộc về phương pháp luận của kinh tế lượng trừ:
A. Thiết lập các mô hình.
B. Thu thập số liệu.
C. Tính các chỉ số kinh tế từ số liệu thu thập được.
D. Ra các quyết định và các chính sách.

6. Khi nghiên cứu bằng phương pháp kinh tế lượng, ta không cần sử dụng mô hình kinh tế
A. Đúng.
B. Sai.

7. Muốn ước lượng được một mô hình kinh tế lượng, nhất thiết ta cần có số liệu về các biến
liên quan.
A. Đúng.
B. Sai.

10 STA301_Bài 1_v1.0013101214
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản

BÀI 2. PHÂN TÍCH HỒI QUY VÀ MỘT SỐ Ý TƯỞNG CƠ BẢN

Mục tiêu

Sau khi kết thúc bài, học viên sẽ hiểu


được những vấn đề sau đây:
 Khái niệm phân tích hồi quy.
 Số liệu trong phân tích hồi quy.
 Mô hình hồi quy tổng thể (PRF).
 Mô hình hồi quy mẫu (SRF).
 Quan niệm tuyến tính trong phân tích
hồi quy.
 Ý nghĩa của nhiễu ngẫu nhiên trong
mô hình.

Nội dung Hướng dẫn học

 Khái niệm phân tích hồi quy.  Đọc tài liệu để có được những ý
 Số liệu trong phân tích hồi quy. tưởng chính.
 Mô hình hồi quy tổng thể (PRF).  Lấy các ví dụ để minh họa cho khái
 Mô hình hồi quy mẫu (SRF). niệm phân tích hồi quy.

 Quan niệm tuyến tính trong phân tích hồi quy.  Tập trung để hiểu rõ và phân biệt 2
khái niệm hàm hồi quy tổng thể và
 Ý nghĩa của nhiễu ngẫu nhiên trong mô hình.
hàm hồi quy mẫu.
 Hiểu rõ vai trò của nhiễu ngẫu nhiên
Thời lựợng (sai số ngẫu nhiên) trong mô hình.

 5 tiết

v1.0 11
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản

TÌNH HUỐNG DẪN NHẬP

Tình huống
Ban giám hiệu Viện Đại học Mở quan tâm tới kết quả học tập năm
đầu tiên của sinh viên có bị ảnh hưởng bởi điểm thi đầu vào của
sinh viên hay không. Để tiến hành nghiên cứu, họ sẽ chọn ra ngẫu
nhiên 100 sinh viên đã học hết năm đầu tiên trong trường rồi lấy
thông tin về điểm thi đầu vào (X) và điểm trung bình chung năm
thứ nhất (Y). Nhà nghiên cứu sau khi thực hiên các mô tả thống kê để
xem xét mối quan hệ giữa X và Y đã quyết định sử dụng mô hình hồi quy tuyến tính
dạng E  Y / X i   1  2 X i . Với mẫu ở trên, người ta đã ước lượng được mô hình hồi quy mẫu
có dạng:
Ŷi  3.25  0.75X i

Câu hỏi Với kết quả này, các nhà nghiên cứu sẽ kết luận gì về sự ảnh hưởng của điểm
thi đầu vào tới điểm trung bình học tập năm thứ nhất của sinh viên Viện đại
học Mở?
Với kết quả này, ta có thể suy ra rằng điểm thi đầu vào là có ảnh hưởng đến điểm trung bình
năm thứ nhất. Cụ thể, khi điểm thi đầu vào tăng lên 1 điểm thì điểm trung bình chung năm thứ
nhất của sinh viên sẽ tăng trung bình là 0,75 điểm.

12 v1.0
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản

2.1. Khái niệm phân tích hồi quy


Trong cuộc sống hàng ngày, chúng ta thường gặp tình huống khi phải thành lập mối
quan hệ giữa hai đại lượng. Đôi khi mối quan hệ đó là hoàn hảo. Ví dụ, quan hệ
chuyển đổi giữa một loại tiền tệ và loại tiền tệ khác được chi phối bởi tỷ suất chuyển
đổi giữa chúng. Tại một thời điểm xác định, một đô la Mỹ được đổi thành 18000 đồng
Việt Nam. Vào cùng ngày, không quan trọng ai là người đang giao dịch, tỷ suất chuyển
đổi vẫn như vậy. Quan hệ hoàn hảo này được mô tả bởi một công thức toán học:
Di  18000E i (2.1)
Trong công thức (2.1) D là giá trị Đồng Việt Nam (VND), E là giá trị của đô la Mỹ
(USD), chỉ số dưới i là giao dịch thứ i. Trong thực tế, người ta cần trả phí cho quá
trình trao đổi, chẳng hạn 2000 VND cho mỗi giao dịch và như vậy công thức có thể cần
có phí trao đổi trong đó, như công thức (2.2). Tuy vậy mối quan hệ vẫn là hoàn hảo.
Di  2000  18000E i (2.2)
Ví dụ về giao dịch tiền tệ mô tả một quan hệ hoàn hảo, bởi vì với mỗi đô la Mỹ được
đưa cho quầy giao dịch tiền tệ, chúng ta biết một cách chính xác là bao nhiêu đồng
Việt Nam chúng ta sẽ nhận lại. Quan hệ tuyến tính hoàn hảo thường được mô tả bằng
đồ thị là một đường thẳng ở đó tất cả các điểm dữ liệu rơi vào đường thẳng này. Mô
hình toán học của quan hệ tuyến tính hoàn hảo được cho bởi công thức:
Yi  b1  b 2 X i (2.3)
trong đó, chỉ số dưới i được dùng để chỉ trường hợp thứ i. Như vậy, khi có một quan
hệ tuyến tính hoàn hảo giữa hai đại lượng X và Y, ta hoàn toàn có thể dự đoán được
giá trị của Y khi biết trước giá trị cụ thể của X .
Tuy nhiên không phải mọi mối quan hệ đều là hoàn hảo. Đôi khi xảy ra trường hợp
mà đại lượng Y không thể dự báo hoặc không thể giải thích được một cách hoàn toàn
qua giá trị của đại lượng X. Phần dư (hoặc nhiễu) là một thuật ngữ dùng để mô tả bất
cứ đại lượng nào còn lại của Y mà không giải thích được bởi X. Về mặt toán học, với
mỗi điểm dữ liệu, phần dư là sự sai khác giữa giá trị quan sát được và giá trị được dự
báo qua X của Y. Quan hệ không hoàn hảo giữa Y và X được biểu thị qua công thức
(2.4). Công thức này gần như đồng nhất với công thức (2.3), chỉ khác ở phần dư u
được cộng thêm vào.
Yi  b1  b 2 X i  u i (2.4)
Tổng của tất cả các phần dư đưa ra một dấu hiệu của việc giải thích hiệu lực tác động
của X đối với Y. Khi phần dư nhỏ, thì X là một dự báo mạnh của Y (hay giữa X và Y
có quan hệ tuyến tính mạnh). Còn khi phần dư lớn, X là một dự báo yếu của Y (hay
giữa X và T có quan hệ tuyến tính yếu). Theo biểu đồ, những dấu chấm của điểm dữ
liệu gần với đường dự báo khi X là một dự báo mạnh của Y, còn những dấu chấm
phân tán xa đường dự báo khi X là dự báo yếu của Y. Điều này được mô tả dưới dạng
biểu đồ trên Hình 2.1.
Phương trình (2.4) biểu diễn mô hình hồi quy tuyến tính đơn, nội dung xuất phát và
đơn giản nhất trong các nghiên cứu về phân tích hồi quy. Từ đó, ta có thể từng bước
xây dựng các mô hình phức tạp hơn, thiết kế các công cụ đa dạng hơn để giải quyết
các vấn đề trong kinh tế lượng.

v1.0 13
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản

Quan hệ tuyến tính mạnh Quan hệ tuyến tính yếu


Hình 2.1 Mức độ quan hệ tuyến tính giữa hai biến.

Phân tích hồi quy là một trong những công cụ cơ bản


của kinh tế lượng. Phân tích hồi quy là mô tả mối quan
hệ phụ thuộc của một biến (thường được gọi là biến
phụ thuộc hay biến được giải thích) vào một hay
nhiều biến khác (thường được gọi là biến độc lập hay
biến giải thích).
Ta ký hiệu biến được giải thích (biến phụ thuộc) là Y
và các biến giải thích (biến độc lập) là X1 , X 2 ,..., X k .
Thuật ngữ hồi quy được Francis Galton sử dụng khi
ông nghiên cứu các mối quan hệ giữa chiều cao của
Francis Galton
những đứa trẻ và chiều cao của bố mẹ chúng. Ông thấy
(1822-1911)
rằng mặc dù bố mẹ cao hoặc thấp thì cũng có những đứa
trẻ thấp hoặc cao nhưng có một xu thế là chiều cao của những đứa trẻ sẽ hội tụ về một
chiều cao trung bình nào đó phụ thuộc một phần vào chiều cao của bố mẹ.
Trường hợp số biến giải thích k = 1 thì ta gọi là hồi quy đơn, nếu số biến giải thích k >1
thì ta gọi là hồi quy bội.
Ví dụ 1: Mô hình hồi quy đơn với một biến phụ thuộc Y và một biến độc lập X, trong đó
Y = mức chi tiêu
X = thu nhập
Ví dụ 2: Mô hình hồi quy bội với biến phụ thuộc Y và
hai biến độc lập X1 và X 2 , trong đó
Y = doanh thu của công ty
X1 = chi phí cho quảng cáo
X 2 = lương trả cho nhân viên tiếp thị
Trong ví dụ 1 ta xác định mối quan hệ của mức chi
tiêu Y và mức thu nhập X. Trong ví dụ 2 ta xác định
mối quan hệ giữa doanh thu Y và chi phí cho quảng cáo X1 và tiền lương trả cho nhân
viên tiếp thị X 2 .
Phân tích hồi quy giải quyết những vấn đề sau:

14 v1.0
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản

 Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập.
Trong ví dụ 1, ta cần ước lượng mức chi tiêu trung bình khi biết mức thu nhập X.
 Dự báo giá trị của Y khi biết được giá trị của biến giải thích X.
 Kiểm định giả thuyết và bản chất của sự phụ thuộc và xác định hiệu quả tác động
của biến độc lập lên biến phụ thuộc.
Khi mô tả mối quan hệ giữa biến phụ thuộc và các biến độc lập cũng cần phân biệt
rõ các kiểu quan hệ sau:
o Quan hệ tất định hay còn gọi là quan hệ toán học giữa X và Y, quan hệ này
được cho dưới dạng một hàm số Y  f (X) , cứ cho một giá trị của X ta sẽ xác
định được một giá trị của Y. Biểu thức (2.3) mô tả một mối quan hệ tất định
giữa X và Y.
o Quan hệ thống kê là quan hệ mà không xác định được giá trị duy nhất của Y
khi cho biết giá trị của X mà ta chỉ biết được giá trị của Y theo một xác suất
nào đó, hay nói cách khác ta chỉ xác định được phân bố xác suất của Y khi biết
giá trị của X. Biểu thức (2.4) tương ứng với một mối quan hệ như vậy giữa X
và Y.
Trong phân tích hồi quy ta đề cập tới kiểu quan hệ loại 2 trên đây, chứ không chọn
kiểu quan hệ loại 1 làm đối tượng nghiên cứu.
Ví dụ 3: Xét ví dụ 1 về mối quan hệ giữa chi tiêu Y và
thu nhập X. Giả sử mối quan hệ đó được biểu diễn qua
phương trình
Y  b1  b 2 X  u
trong đó b1  1,5 , b 2  0,9 , còn u là yếu tố ngẫu nhiên
và u = 0,2 với xác suất ½ , u = –0,2 với xác suất ½ .
Khi đó nếu biết giá trị của X là bằng 1 thì giá trị của Y là
Y = 2,6 với xác suất ½ ,
Y = 2,2 với xác suất ½ .
Nếu u có phân bố chuẩn N(1; 2 ) , khi đó với mỗi giá trị của X thì Y sẽ có phân bố
chuẩn. Ta có đồ thị trong trường hợp này cho trong Hình 2.2.

Y Kỳ vọng có điều kiện


E(Y|xi)

Phân phối của Y


với X=x0

Hình 2.2. Quan hệ ngẫu nhiên giữa X và Y với sai số ngẫu nhiên u có phân bố chuẩn.

v1.0 15
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản

Trong hình 2.2, đại lượng Y không nhận giá trị tất định, các giá trị của Y được xác
định một cách ngẫu nhiên, phụ thuộc vào giá trị của đại lượng ngẫu nhiên u.
Đường thẳng tất định Y biểu diễn giá trị trung bình của Y ứng với từng giá trị cho
trước của X. Đối với mỗi giá trị cố định của X thì Y có thể nhận những giá trị khác
nhau tập trung xung quanh giá trung bình của Y trên đường thẳng đó. Với mỗi giá trị
X 0 của X, giá trị của Y có phân bố chuẩn trên đường thẳng X  X 0 (song song với
trục tung). Mối quan hệ giữa X và Y như vậy được gọi là mối quan hệ ngẫu nhiên và u
được gọi là sai số hoặc nhiễu ngẫu nhiên.
Tổng quát hơn, quan hệ giữa X và Y có thể có dạng

Y    X  u

với u là nhiễu ngẫu nhiên có một phân phối xác suất xác định nào đó. Trong phương
trình trên thành phần    X là thành phần tất định của Y còn u là thành phần ngẫu
nhiên của Y, các tham số ,  được gọi là các hệ số hồi quy, những hệ số này sẽ được
ước lượng từ dữ liệu quan sát của X và Y.

2.2. Hàm hồi quy tổng thể


Cho hai biến X và Y, ta đã biết kỳ vọng có điều kiện của Y với điều kiện X, ký hiệu là
E(Y | X) , là một hàm của biến X, ta có
E(Y | X)  f (X) (2.5)
trong đó f (X) là hàm của biến giải thích X, còn được gọi là hàm hồi quy tổng thể,
viết tắt là (PRF) (population regression function).
Trong phương trình (2.5) nếu hàm f có dạng tuyến tính thì ta có mô hình hồi quy
tuyến tính đơn của Y theo X. Khi đó ta có hàm hồi quy tổng thể (2.5) có dạng
E(Y | X)  f (X)  1  2 X , (2.6)

trong đó 1 và 2 là các tham số chưa biết và gọi là các hệ số hồi quy,


1 : được gọi là hệ số chặn,
2 : được gọi là hệ số dốc (hoặc hệ số góc).
Phương trình (2.6) gọi là phương trình hồi quy tuyến tính đơn. Trong các phương trình
hồi quy, thuật ngữ “tuyến tính” có hai nghĩa như sau:
 Tuyến tính đối với biến:
Ví dụ: Phương trình E(Y | X)  1  2 X là tuyến tính đối với biến, phương trình
E(Y | X)  1  2 X 2 không tuyến tính với biến.
 Tuyến tính đối với tham số: hàm E(Y | X) chỉ tuyến tính theo tham số  .
Ví dụ: Phương trình E(Y | X)  1  2 X là phương trình tuyến tính đối với các
tham số và biến, còn phương trình E(Y | X)  1  2 X 2 là phương trình tuyến tính
đối với tham số nhưng không tuyến tính đối với biến.
Thông thường trong các mô hình hồi quy, ta xét tính tuyến tính theo biến.

16 v1.0
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản

2.3. Hàm hồi quy mẫu


Trong thực tế không thể nghiên cứu được toàn bộ tổng thể, do đó chỉ có thể đưa
ra dạng của hàm hồi quy tổng thể chứ không thể xác định được hàm này một
cách hoàn toàn chính xác. Để ước lượng được hàm hồi quy tổng thể phải dựa vào một
mẫu được rút ra ngẫu nhiên từ tổng thể. Giả sử đã có mẫu ngẫu nhiên
(X1 , Y1 ), (X 2 , Y2 ),..., (X n , Yn ) , hàm hồi quy được xây dựng dựa trên mẫu đó được gọi
là hàm hồi quy mẫu, viết tắt là SRF (Sample Regression Function).
Ví dụ: Để nghiên cứu sự phụ thuộc giữa năng suất lúa (Y) với lượng phân bón (X) ta
lấy một mẫu ngẫu nhiên và thu được giá trị mẫu như sau:
X 30 33 37 41 44 46 49 52 57 60

Y 50 55 57 63 64 67 71 75 78 92

Khi X nhận giá trị Xi thì giá trị của E(Y | X) bằng E(Y | X i ) , nhưng do Y chưa xác
định được nên E(Y | X i ) cũng chưa biết. Vậy ta ký hiệu Ŷi là một ước lượng của
E(Y | X i ) dựa trên số liệu mẫu (Y1 , Y2 ,..., Yn ) . Ta thay E(Y | X i ) bằng ước lượng
tương ứng Ŷi vào phương trình hồi quy tổng thể (PRF) ta thu được phương trình:

Ŷi  ˆ 1  ˆ 2 X i , (2.7)

trong đó ̂1 là ước lượng của 1 , ̂2 là ước lượng của 2 , phương trình (2.7) được gọi
là phương trình hồi quy mẫu trong hàm hồi quy mẫu (SRF).

2.4. Sai số ngẫu nhiên trong mô hình hồi quy


Giả sử ta có hàm hồi quy tổng thể:
E(Y | X)  f (X).
Với mỗi giá trị của X thì E(Y | X) là kỳ vọng của Y khi
X nhận một giá trị cụ thể, khi đó giá trị của biến ngẫu
nhiên Y sẽ dao động quanh giá trị kỳ vọng E(Y | X) .
Ký hiệu u là độ sai lệch giữa Y và E(Y | X)
u  Y  E(Y | X)
Từ đó ta có
Y  E(Y | X)  u. (2.8)
Khi X nhận giá trị Xi thì Y nhận giá trị Yi , vì vậy ta có
Yi  E(Y | X i )  u i (2.9)
u i là độ sai lệch giữa quan sát thứ i và giá trị E(Y | X i ) , được gọi là sai số ngẫu nhiên
(hay nhiễu ngẫu nhiên), bao gồm những giá trị mà ta không thể quan sát được. Nếu
E(Y | X i ) có dạng tuyến tính tức là E(Y | X i )  1  2 X i , thì phương trình (2.9) có dạng:
Yi  1  2 X i  u i (2.10)
Từ phương trình (2.9) ta lấy kỳ vọng có điều kiện theo 2 về ta thu được
E(Yi | X i )  E  E(Y | X i )  u i | X i   E(Y | X i )  E(u i | X i ) .

v1.0 17
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản

Từ đó ta có: E(u i | X i )  0 .
Phương trình (2.9) cho ta thấy rằng ngoài các biến giải
thích trong mô hình vẫn còn những yếu tố khác ảnh
hưởng đến biến phụ thuộc mà những biến này ta không
thể quan sát được. Vì vậy ta gộp chúng lại và gọi đó là
các sai số ngẫu nhiên khi biểu diễn Y qua các biến giải
thích X. Nhưng về mặt trung bình thì sự ảnh hưởng của
các nhiễu ngẫu nhiên này đến biến phụ thuộc là bằng 0.
Như vậy, các yếu tố ảnh hưởng đến biến phụ thuộc mà không có thông tin cụ thể đều
được đưa vào phần sai số ngẫu nhiên. Vậy liệu có thể đưa ra được hết các yếu tố ảnh
hưởng đến biến phụ thuộc hay không và khi ấy có thể loại bỏ được sự có mặt của
nhiễu ngẫu nhiên u i hay không. Câu trả lời là sai số ngẫu nhiên vẫn luôn tồn tại vì một
số lý do như sau:
 Việc xác định được hết các yếu tố có ảnh hưởng đến biến phụ thuộc Y là rất khó,
nó giống như chúng ta cần nghiên cứu toàn bộ tổng thể;
 Do điều kiện kỹ thuật và kinh tế nên ta muốn có một số mô hình đơn giản nhất, tức
là một mô hình mà với một lượng vừa đủ biến giải thích ta cũng có thể giải thích
được cho hành vi của biến phụ thuộc. Vì thế cần gộp vào u i thay thế cho các biến
giải thích khác mà có ảnh hưởng nhỏ đến hành vi của biến phụ thuộc.
Với những lý do như trên thì sự tồn tại của yếu tố ngẫu nhiên u i như là một sự tất yếu.
Giả sử ta có phương trình hồi quy tuyến tính tổng thể có dạng (2.10). Dựa vào thông
tin của mẫu ta có phương trình ước lượng cho phương trình đó là
Yi  ˆ 1  ˆ 2 X i  uˆ i , (2.11)

trong đó û i là ước lượng của u i . Từ phương trình (2.7) và (2.11) ta có


ˆ  uˆ
Yi  Y (2.12)
i i

Trên đồ thị ta có thể biểu diễn phương trình hồi quy mẫu (SRF) và hồi quy tổng thể
(PRF) như hình 2.3:

Đýờng hồi quy mẫu


ˆ0  
y1   ˆ1 x1

Đường hồi quy tổng thể


y1  0  1 x1

Hình 2.3. Đường hồi quy tổng thể và đường hồi quy mẫu.

18 v1.0
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản

Bài toán đặt ra là cần tìm một phương pháp và đưa ra các điều kiện để dựa vào thông
tin mẫu ta thu được (SRF) là một ước lượng tốt nhất cho phương trình hồi qui tổng thể
(PRF). Hay nói cách khác, ta cần xác định hệ số ước lượng ˆ , ˆ có độ sai lệch đối
1 2

với 1 , 2 là nhỏ nhất.


Trong chương sau sẽ giải thích bài toán trên, tìm được các hệ số ˆ 1 , ˆ 2 sao cho tổng
bình phương các sai số là nhỏ nhất, đồng thời cũng tìm ra các hệ số ˆ 1 , ˆ 2 là các ước
lượng không chệch cho 1 , 2 (ước lượng không chệch của một tham số sẽ đảm bảo
xấp xỉ tốt giá trị thực của tham số đó khi cỡ mẫu đủ lớn).

v1.0 19
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản

TÓM LƯỢC CUỐI BÀI


 Phân tích hồi quy (Regression Analysis): Phân tích hồi quy là nghiên cứu sự phụ thuộc của
một biến (thường được gọi là biến phụ thuộc hay biến được giải thích) vào một hay nhiều
biến khác (thường được gọi là biến độc lập hay biến giải thích).
 Hàm hồi quy tổng thể: Giả sử ta cần xem xét sự phụ thuộc của Y vào X. Nếu như ta biết
được toàn bộ tổng thể, trung bình có điều kiện của Y sẽ là 1 hàm số của X:
E(Y/Xi) = β1 + β2Xi (1)
β1: hệ số chặn, β2: hệ số góc
Mô hình (1) gọi là mô hình hồi qui tổng thể PRF.
 Hàm hồi qui mẫu: Có một mẫu ngẫu nhiên từ tổng thể  X1 , Y1  , ... ,  X n , Yn  . Ta ước lượng
được các tham số trong mô hình (1), mô hình ước lượng có dạng:

Ŷi  ˆ 1  ˆ 2 X i (2)

trong đó Ŷi là ước lượng của E(Y/Xi ); ̂1 và ̂2 là ước lượng của β1 và β2.
Mô hình (2) gọi là mô hình hồi quy mẫu (SRF).
 Bản chất của nhiễu ngẫu nhiên(ui): Là phần chênh lệch giữa giá trị quan sát và trung bình
có điều kiện của Y:
Yi – E(Y/Xi) = ui hay Yi = β1 + β2 Xi + ui (3)
Mô hình (3) được gọi là dạng ngẫu nhiên của PRF.
ui có thể dùng để đại diện cho ảnh hưởng của các biến ngoài mô hình lên biến Y. Ta giả thiết
là tổng hợp các ảnh hưởng này bằng 0, hay E(ui /Xi) = 0.

20 v1.0
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản

CÂU HỎI THƯỜNG GẶP


1. Mục đích chính của kỹ thuật phân tích hồi quy là gì?
2. Thuật ngữ hồi quy tuyến tính có thể được hiểu như thế nào trong phân tích hồi quy?
3. Trong các mô hình hồi quy tuyến tính, có thể không sử dụng hệ số chặn hay không?
4. Việc sử dụng hồi quy đơn và hồi quy bội như thế nào trong thực tế?
5. Tại sao lại cần đưa ra khái niệm hàm hồi quy tổng thể?
6. Hàm hồi quy mẫu sẽ cho biết điều gì? Có những cách thể hiện nào cho hàm hồi quy mẫu và
hàm hồi quy tổng thể?
7. Khái niệm về sai số ngẫu nhiên và phần dư có thể được hiểu thế nào?

BÀI TẬP TRẮC NGHIỆM


1. Phân tích hồi quy là nghiên cứu về quan hệ phụ thuộc lẫn nhau (quan hệ qua lại) giữa biến
phụ thuộc và biến độc lập.
A. Đúng.
B. Sai.
2. Trong phân tích hồi quy, có thể có nhiều biến phụ thuộc và nhiều biến độc lập.
A. Đúng.
B. Sai.
3. Trong phân tích hồi quy, hồi quy tuyến tính là thường muốn nói tới tuyến tính theo các biến số.
A. Đúng.
B. Sai.
4. Mô hình hồi quy tổng thể 2 biến (PRF) có thể được viết dưới dạng:
A. Yi  1  2 X 2i

B. Ŷi  ˆ 1  ˆ 2 X 2i
C. Yi  1  2 X 2i  u i

D. Yi  ˆ 1  ˆ 2 X 2i  uˆ i
5. Mô hình hồi quy mẫu 2 biến (SRF) có thể được viết dưới dạng:
A. Yi  1  2 X 2i

B. Ŷi  ˆ 1  ˆ 2 X 2i
C. Yi  1  2 X 2i  u i

D. Yi  ˆ 1  ˆ 2 X 2i  uˆ i
6. Trong mô hình 2 biến Yi  1  2 X 2i  u i ,  1 và 2 được gọi là:
A. Hệ số hồi quy riêng.
B. Hệ số góc (độ dốc) và hệ số chặn.

v1.0 21
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản

C. hệ số chặn và hệ số góc (độ dốc).


D. Hệ số chặn và hệ số hồi quy riêng.
7. Trong mô hình hồi quy tuyến tính đơn, hệ số góc cho biết:
A. Hệ số co dãn của Y theo X.
B. Thay đổi trung bình của Y với mỗi 1 đơn vị thay đổi của X.
C. Thay đổi trung bình của X với mỗi 1 đơn vị thay đổi của Y.
D. Tỉ số Y/X.
8. Sai số ngẫu nhiên trong mô hình kinh tế lượng thể hiện những điều sau đây trừ:
A. Sai số của các biến khi thực hiện các phép đo.
B. Ảnh hưởng của các yếu tố ngoài mô hình lên biến phụ thuộc.
C. Các biến độc lập không hoàn toàn tương ứng với biến trong mô hình lý thuyết.
D. Sai số khi thực hiện phương pháp OLS để ước lượng mô hình.
9. Từ 1 mẫu ngẫu nhiên, ta có thể ước lượng được các mô hình hồi quy mẫu khác nhau.
A. Đúng.
B. Sai.
10. Các phần dư trong mô hình hồi quy mẫu là ước lượng của các sai số ngẫu nhiên trong mô
hình hồi quy tổng thể.
A. Đúng.
B. Sai

22 v1.0
Bài 3: Mô hình hồi quy tuyến tính đơn

BÀI 3. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN

Mục tiêu

Sau khi kết thúc bài, học viên sẽ hiểu


được những vấn đề sau đây:
 Ý tưởng của phương pháp bình phương
tối thiểu (OLS) và cách sử dụng OLS để
ước lượng các hệ số hồi quy.
 Ý nghĩa của các hệ số hồi quy ước lượng.
 Các giả thiết cơ bản của phương pháp OLS.
 Hệ số xác định r2 đo độ phù hợp của
hàm hồi quy.
 Khoảng tin cậy và kiểm định giả
thuyết cho các hệ số hồi quy.
 Phân tích phương sai – kiểm định về
sự phù hợp của mô hình.
 Dự báo.

Nội dung Hướng dẫn học

• Phương pháp OLS.  Đề nghị học viên ôn lại phần ước lượng
• Các giả thiết cơ bản của phương pháp bình và kiểm định giả thiết trong môn lý
phương tối thiểu. thiết xác suất và thống kê toán.
• Hệ số xác định r2 đo độ phù hợp của hàm  Theo dõi kỹ bài giảng.
hồi quy mẫu.  Xem các ví dụ cho mỗi phần bài giảng.
• Ước lượng khoảng cho hệ số hồi quy.  Làm các ví dụ và trả lời câu hỏi trắc nghiệm.
• Kiểm định giả thuyết về các hệ số hồi quy.
• Phân tích phương sai trong mô hình hồi quy.
• Dự báo.

STA301_Bài 3_v1.0013101214 23
Bài 3: Mô hình hồi quy tuyến tính đơn

TÌNH HUỐNG DẪN NHẬP

Tình huống
Công ty dầu ăn Tường An đang xem xét việc giảm giá bán sản
phẩm (loại bình 5 lít) để tăng lượng hàng bán ra, đồng thời quảng
bá sản phẩm của mình đến khách hàng. Người quản lí của công ty
muốn tính toán xem nếu sản phẩm này được giảm giá đi 1000
đồng/lít thì lượng hàng trung bình bán ra sẽ thay đổi thế nào. Đồng
thời, nếu như giảm giá 1000 đồng cho 1 lít mà lượng hàng bán
thêm được là nhiều hơn 50000 sản phẩm thì công ty sẽ tiến hành 1
chiến dịch khuyến mại trong 1 tháng với giá giảm đi là 10000/lít.
Để tiến hành nghiên cứu này, phòng marketing của công ty đã dựa vào các số liệu bán
hàng của công ty trong vòng 15 tháng qua (n =15 quan sát) để thu thập số liệu về giá bán
(P) và lượng bán (Q) cho loại dầu ăn này. Nghiên cứu viên sau khi tiến hành các thống
kê mô tả đã quyết định dùng hàm cầu dạng tuyến tính để xem xét ảnh hưởng của giá đến
lượng bán: Qi  1  2 Pi  u i .
Dùng số liệu của mẫu, ước lượng được hàm hồi quy mẫu có dạng

Q̂i  6227  30.43Pi .

Câu hỏi
 Theo kết quả của mô hình, khi giá giảm 1 đơn vị, lượng hàng bán ra thay đổi thế nào?
 Liệu khi giá giảm đi 1000 đồng 1 lít thì lượng hàng bán thêm lớn hơn được 50000 sản phẩm
như các nhà nghiên cứu muốn kiểm tra không?
 Giá bán quyết định bao nhiêu % trong sự thay đổi của lượng bán?
 Nếu giá bán là 150000 đồng 1 bình thì lượng bán dự báo là bao nhiêu?

24 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn

Nội dung bài này giới thiệu một mô hình hồi quy đơn giản nhất và đưa ra các phương pháp ước
lượng, kiểm định giả thiết và dự báo. Đó là mô hình hồi quy tuyến tính đơn hay còn được gọi là
mô hình hồi quy 2 biến, mô hình đề cập đến một biến độc lập X và một biến phụ thuộc Y.
Trong bài này chúng ta sẽ ước lượng hàm hồi quy tổng thể PRF dựa trên thông tin mẫu. Mặc dù
có rất nhiều phương pháp ước lượng hàm hồi quy tổng thể nhưng chúng ta sẽ sử dụng phương
pháp thường dùng là phương pháp bình phương tối thiểu (OLS) (Ordinary Least Square).

3.1. Ước lượng tham số hồi quy bằng phương pháp bình phương tối thiểu

BÀI TOÁN
Cho biến độc lập X và biến phụ thuộc Y, giả sử ta có hàm
hồi quy tổng thể (PRF) có dạng tuyến tính:
Yi  E(Y | X i )  u i  1  2 X i  u i (3.1)
Với một mẫu quan sát (X1 , Y1 ),(X 2 , Y2 ),...,(X n , Yn )
Ta có: hàm hồi quy mẫu (SRF)
Ŷi  ˆ 1  ˆ 2 X i (3.2)

và: Yi  ˆ 1  ˆ 2 X i  uˆ i  Y
ˆ  uˆ
i i (3.3)
x  Xi  x
ˆ 1 , ˆ 2 là các ước lượng của  i , û i là ước lượng
 yi  Yi  y
của u i , û i được coi là phần dư.

ˆ .
Từ (3.3) ta có: û i  Yi  Yi

Vấn đề đặt ra là sử dụng các dữ liệu của X và Y để tìm ước lượng tốt nhất cho 1 , 2
thỏa mãn tổng bình phương các phần dư đạt giá trị nhỏ nhất.
Tức là ta cần phải xác định ˆ 1 , ˆ 2 sao cho:
n n
f (ˆ 1 , ˆ 2 )   uˆ i 2   (Yi  ˆ 1  ˆ 2 X i ) 2 đạt min.
i 1 i 1

Trong các bài giảng về giải tích nhiều biến ta đã được


trang bị phương pháp tìm giá trị cực tiểu, cực đại của
hàm f (X, Y) . Vậy để hàm f (ˆ , ˆ ) đạt giá trị nhỏ nhất
1 2

thì ˆ 1 , ˆ 2 phải là nghiệm của hệ phương trình

 f (ˆ 1 , ˆ 2 ) n
   2(Yi  ˆ 1  ˆ 2 X i )  0
 ˆ 1 i 1
 (3.4)
 f (ˆ 1 , ˆ 2 )  2X (Y  ˆ  ˆ X )  0
n

 ˆ  i i 1 2 i
 2 i 1

 ˆ ˆ n n

 1 2  i  Yi
n   X 
 i 1 i 1
Suy ra:  n n n
(3.5)
ˆ
 X
 1 i 1 i
 ˆ
2 
i 1
X 2
i  
i 1
X i Yi

25
Bài 3: Mô hình hồi quy tuyến tính đơn

Ta có:

1 n 1 n 1 n
X  i
n i 1
X ; Y   i
n i 1
Y ; XY   Xi Yi
n i 1
1 n 1 n
X 2   X i2 ; Y 2   Yi2 .
n i 1 n i 1

Phương trình (3.5) dẫn đến:

ˆ 1  ˆ 2 X  Y
 (3.6)
ˆ 1X  ˆ 2 X  XY
2

Giải hệ phương trình (3.6) ta thu được nghiệm

ˆ XY  (X)(Y)
2 
 X 2  (X) 2 (3.7)
ˆ ˆ
1  Y  2 X
n n
Ta đặt SYY   (Yi  Y) 2   Yi2  n(Y) 2  nY 2  n(Y) 2
i 1 i 1

n n
SXX   (X i  X) 2   X i2  n(X) 2  nX 2  n(X) 2
i 1 i 1
n n
SXY   (X i  X)(Yi  Y)   X i Yi  n(X)(Y)  nXY  n(X)(Y)
i 1 i 1

Khi đó (3.7) có thể viết lại là


ˆ SXY
2  S
 XX
ˆ  Y  ˆ X
 1 2

Phương pháp tìm các ước lượng ˆ 1 , ˆ 2 như trên được gọi là phương pháp bình phương
tối thiểu.

3.1.1. Tính chất của tham số hồi quy mẫu ước lượng bằng phương pháp bình
phương tối thiểu.
Phương pháp bình phương tối thiểu đem lại các ước lượng với các tính chất như sau:
 Ứng với một mẫu ((X , Y ), (X , Y ),...(X , Y )) cho trước, hệ số ˆ , ˆ được xác
1 1 2 2 n n 1 2

định duy nhất.


 Đường thẳng của phương trình hồi quy mẫu (SRF) Ŷi  ˆ 1  ˆ 2 X i đi qua điểm có
toạ độ giá trị trung bình (X, Y).
 Giá trị trung bình của các ước lượng của Ŷi bằng giá trị trung bình của các quan sát
Yi tức là: Ŷi  Y hay
1 n 1 n
 i n
n i 1
Ŷ 
i 1
Yi .

26 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn

 Giá trị trung bình các phần dư û i bằng 0


n

 û
i 1
i  0.

 Các phần dư û i và Ŷi không tương quan, tức là:


n

 û Yˆ  0.
i 1
i i

 Các phần dư û i và X i không tương quan, tức là:


n

 û X
i 1
i i  0.

Bây giờ ta sẽ chứng minh một số tính chất trên:


o Hiển nhiên vì hệ phương trình (3.6) có nghiệm duy nhất.
o Hiển nhiên vì giá trị của ˆ , ˆ là một hàm của mẫu.
1 2

o Thay điểm (X, Y) vào phương trình hồi quy mẫu, ta có:

Y  ˆ 1  ˆ 2 X

 ˆ 1  Y  ˆ 2 X .

 
n n
o ˆ  1 Y
Ta có: Y ˆ  1  ˆ  ˆ X
i 1 2 i
n i 1 n i 1

 ˆ 1  ˆ 2 X
 Y.

o ˆ . Suy ra ngay
Ta có: û i  Yi  Yi

n n n n

 û i   (Yi  Yˆ i )   Yi   Yˆ i  nY  nYˆ  0.
i 1 i 1 i 1 i 1

o Rõ ràng từ:
n n n n

 û i Yˆ i   (Yi  Yˆ i )Yˆ i   Yi Yˆ i   Yˆ i2
i 1 i 1 i 1 i 1

n n
  Yi (ˆ 1  ˆ 2 X i )   (ˆ 1  ˆ 2 X i ) 2
i 1 i 1

 nˆ 1Y  nˆ 2 XY  n(ˆ 12  2ˆ 1ˆ 2 X  ˆ 22 X 2 )

1 n
 
n i 1
ˆ  ˆ (ˆ  ˆ X)  ˆ (ˆ X  ˆ X 2 )  (ˆ 2  2ˆ ˆ X  ˆ 2 X 2 )  0.
û i Yi 1 1 2 2 1 2 1 1 2 2

n
Vậy  û Yˆ  0.
i 1
i i (3.8)

27
Bài 3: Mô hình hồi quy tuyến tính đơn
n n
o Dễ dàng thấy  uˆ i Yˆ i   uˆ i (ˆ 1  ˆ 2 Xi )
i 1 i 1

n n
 ˆ 1  uˆ i  ˆ 2  uˆ i X i .
i 1 i 1

Từ tính chất 4 và 5 ta có
n n

 uˆ   uˆ Yˆ  0 .
i 1
i
i 1
i i

n
Vậy ta có:  û X
i 1
i i  0.

VÍ DỤ 3.1
Thu thập số liệu về điểm học tập của học sinh và mức thu nhập hàng năm của bố mẹ ta
có bảng số liệu sau:
Thu nhập (x) (triệu/năm) 45 60 30 90 75 45 105 60
Điểm trung bình (y) 8.75 7.5 6.25 8.75 7.5 5.0 9.5 6.5
Hãy tìm hàm hồi quy mẫu và tính các đặc trưng của nó

3.1.2. Các giả thiết cơ bản của phương pháp bình phương tối thiểu
Khi phân tích hồi quy, mục đích của chúng ta là tìm phương trình hồi quy mẫu thông
qua việc ước lượng các hệ số 1 , 2 . Dựa vào dữ liệu mẫu ta thu được các ước lượng
tương ứng là ˆ 1 , ˆ 2 . Nhưng ˆ 1 , ˆ 2 là các ước lượng điểm của 1 , 2 . Vì thế ta chưa biết
được chất lượng của các ước lượng này thế nào. Ta cần đưa ra một số các giả thiết của
phương trình bình phương tối thiểu để thu được các
ước lượng tốt nhất cho 1 , 2 . Từ đó ta cũng sẽ thu
được giá trị Ŷi là ước lượng tốt nhất cho E(Y | X i ) .
Chất lượng của các ước lượng sẽ phụ thuộc vào các
yếu tố sau:
 Dạng hàm của mô hình được chọn.
 Phụ thuộc vào các X i và u i .
 Phụ thuộc vào cỡ của mẫu.
Vấn đề về dạng hàm của mô hình được lựa chọn chúng ta sẽ xem xét ở bài 7. Ta sẽ
đưa ra các giả thiết cho X i và u i để các ước lượng thu được không chệch và có
phương sai nhỏ nhất.
 Giả thiết 1: Biến giải thích X có giá trị quan sát Xi khác với ít nhất 1 giá trị còn
lại, tức là phương sai mẫu hiệu chỉnh không suy biến:

1 n
S'2X   (Xi  X)2  0.
n  1 i 1

28 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn

 Giả thiết 2: Giá trị trung bình của sai số có thể mang dấu âm hoặc dương đối với
mỗi giá trị quan sát nhưng về mặt trung bình thì bằng 0.
 Giả thiết 3: Các giá trị của X được cho trước và không ngẫu nhiên, tức là mỗi X i
được cho trước và không phải là biến ngẫu nhiên. Điều đó có nghĩa là X i và u i
là không tương quan với nhau.

CoV(Xi , u i )  E(X i u i )  E(X i )  E(u i )


 X i E(u i )  X i E(u i )  0.

Giả thiết này có một ý nghĩa rất quan trọng là nếu X và u có được tương quan thì
khi X thay đổi, u cũng sẽ thay đổi. Vì thế giá trị kỳ vọng của Y sẽ khác 1  2 X.
 Giả thiết 4: Phương sai sai số thuần nhất (không đổi)

Var(u i )  Var(u j )  2 i  j .

 Giả thiết 5: Không có tương quan giữa các u i , tức là:

CoV(u i , u j )  0 i  j .

Với các giả thiết đã nêu, khi đó ta có tính chất của các ước lượng theo phương pháp
bình phương tối thiểu như sau:
Định lý Gauss-Markov
Giả sử ta có mô hình hồi quy tuyến tính, khi đó với
các giả thiết 1-5 ta có ước lượng bình phương tối
thiểu là các ước lượng tuyến tính không chệch và có
phương sai nhỏ nhất trong lớp các ước lượng tuyến
tính không chệch.
Định lý Gauss-Markov cho một khẳng định là các
ước lượng ˆ 1 , ˆ 2 của 1 , 2 có được bằng phương pháp bình phương tối thiểu là các
ước lượng không chệch và có phương sai tối thiểu trong các ước lượng không chệch
của 1 , 2 .

3.1.3. Sai số của phương pháp bình phương tối thiểu


Trong phần 3.1 ta có các ước lượng ˆ 1 , ˆ 2 của 1 , 2 theo phương pháp bình phương tối
thiểu là

XY  (X)(Y)
ˆ 2 
X 2  (X) 2
ˆ  Y  ˆ X .
1 2

 x i  X i  X
Đặt: 
 yi  Yi  Y

29
Bài 3: Mô hình hồi quy tuyến tính đơn

Khi đó ta có:
ˆ 1  Y  ˆ 2 X
n n
ˆ 2   x i yi x 2
i .
i 1 i 1

Với các giả thiết 1-5 của phương pháp bình phương nhỏ nhất, ta có phương sai và độ
lệch chuẩn của các ước lượng là
2 
Var(ˆ 2 )  n ; se(ˆ 2 )  ;
n
 xi 2

i 1
x 2
i
i 1

n n

 Xi2 X 2
i
Var(ˆ 1 )  i 1
n
 2 ; se(ˆ 1 )  i 1
n
,
n x 2
i n x 2
i
i 1 i 1

với   Var(u i ) , se: sai số tiêu chuẩn (standard error).


Do 2 chưa biết nên dựa vào dữ liệu mẫu đã cho ta
thu được ước lượng của 2 là ̂2 được xác định
bằng công thức sau:
n n

 uˆ 2
i  uˆ 2
i
ˆ 2  i 1
 ˆ  i 1

n2 n2
̂ là sai số tiêu chuẩn của ước lượng (standard error of the estimate).

3.2. Hệ số xác định r 2 đo độ phù hợp của hàm hồi quy mẫu:
Cho hai biến X và Y, để xác định mối quan hệ của X và Y có dạng tuyến tính hay
không ta đưa ra một đại lượng để đo mức độ phụ thuộc tuyến tính giữa X và Y.
Ta có: Y Y ˆ  uˆ
i i i

ˆ  Y  uˆ  Y
 Yi  Y  Y ˆ Y
ˆ  uˆ
i i i i

 yi  yˆ i  uˆ i (3.9)
Bình phương hai vế của (3.9) ta có:
n n n n

 yi2   yˆ i2   uˆ i2  2 yˆ i uˆ i
i 1 i 1 i 1 i 1

n n
  yˆ i2   uˆ i2
i 1 i 1

n n
 ˆ 22  x i2   uˆ i2 (3.10)
i 1 i 1

30 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn
n n
Đặt: TSS   yi2   (Yi  Y) 2 (3.11)
i 1 i 1

TSS (Total sum of squares) gọi là tổng bình phương các sai lệch giữa Yi với giá trị
trung bình Y .
n n n
ESS   (Yi
ˆ ) 2   yˆ 2  ˆ 2  x 2
ˆ Y
i i 2 i (3.12)
i 1 i 1 i 1

ESS (Explained sum of squares) là tổng bình phương các


sai lệch giữa giá trị Ŷi và trung bình của nó.

n
RSS   uˆ i2 . (3.13) (3.12)
i 1

RSS (Residual sum of squares) là tổng tất cả các bình


phương sai lệch giữa giá trị quan sát Yi và giá trị Ŷi nhận
được từ hàm hồi quy hay gọi là tổng các phần dư.
Từ (3.10), (3.11), ( 3.12), (3.13) ta có:

TSS  ESS  RSS (3.14)

Chia hai vế cho TSS ta có:

ESS RSS
1 
TSS TSS
n n

 (Yˆ i  Y)2  uˆ i
2

 i 1
n
 n
i 1
(3.15)
 (Y  Y)  (Y  Y)
i 1
i
2

i 1
i
2

ESS 
ˆ  Y) 2
(Yi
Đặt: r 2   i 1 .
TSS n
 (Y  Y)
i 1
i
2

RSS
Từ (3.14) và (3.15) ta có: r 2  1  (3.16)
TSS
n n n

 ŷ i
2
ˆ 22  x i2 ˆ 22  (X i  X) 2
S2
Ta có: r 2 i 1
n
 n
i 1
 n
i 1
 ˆ 2 2X (3.17)
SY
 yi2
i 1
 yi2
i 1
 (Yi  Y)2
i 1

1 n 1 n
trong đó: S2X  
n  1 i 1
(X i  X) 2 ; S2Y  
n  1 i 1
(Yi  Y) 2

31
Bài 3: Mô hình hồi quy tuyến tính đơn
n

x y i i
là phương sai mẫu của X và Y. Ngoài ra vì ˆ 2  i 1
n
nên (3.17) có thể được viết
x
i 1
2
i

lại như sau:


2
 n 
  x i yi 
r 2  n i 1 n  (3.18)
 x i2  yi2
i 1 i 1

Từ (3.18) ta có:
n n
1 n n

 x i yi  X Y
i i  (  i 
n i 1
X )( Yi )
r i 1
 i 1 i 1
n n n n

x
i 1
2
i y
i 1
2
i  (Xi  X)2  (Yi  Y)2
i 1 i 1

n n n
n  X i Yi  ( X i )( Yi )
 i 1 i 1 i 1

 n
2
n n
 n

  i  i   i
  
2 2
n X ( X ) n Y ( Yi ) 2 
 i 1 i 1   i 1 i 1 
Ta thấy rằng r chính là hệ số tương quan mẫu của X và Y.
Các tính chất của hệ số tương quan:
 r có thể âm hoặc dương.

 1  r  1.

 r có tính chất đối xứng r(X, Y)  r(Y, X).


 Nếu X  aX  c và Y  bY  d, a, b > 0, c, d là
hằng số ta có r(X, Y)  r(Y, X) .
 Nếu X,Y độc lập thì r = 0.
 r đo độ phụ thuộc tuyến tính giữa X và Y.

3.3. Phân bố xác suất của các tham số hồi quy mẫu
Trong phần trước ta đã thu được các ước lượng
điểm của 1 và 2 theo phương pháp bình phương
nhỏ nhất (OLS) dựa trên các giả thiết cơ bản về sai
số ngẫu nhiên u i là:
 E(u i )  0.
 Var(u i )  2 .
 Cov(u i , u j )  0 , i  j .

32 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn

Khi đó các ước lượng điểm thu được tương ứng là ˆ 1 , ˆ 2 có tính chất không chệch và
có phương sai nhỏ nhất. Tuy nhiên, các ước lượng điểm không cho ta biết được độ sai
lệch của chúng so với giá trị thực, vì vậy ước lượng khoảng cho ta nhiều thông tin hơn
so với ước lượng điểm. Để có thể tìm được ước lượng khoảng cho các tham số 1 , 2
chúng ta cần xác định được phân phối xác suất của ̂1 và ̂2 . Các phân phối xác suất
này phụ thuộc vào phân phối xác suất của u i . Vậy ta đưa thêm giả thiết về phân phối
xác suất của u i như sau:
Giả thiết: u i có phân phối chuẩn N(0; 2 ) ,
Với giả thiết thêm vào đó, ˆ 1 , ˆ 2 còn có các tính chất sau:
 ˆ 1 , ˆ 2 là các ước lượng vững, tức là khi cỡ mẫu đủ lớn thì chúng hội tụ đến giá trị
1 , 2 .

 ̂1 có phân phối chuẩn với


n

X 2
i
E(ˆ 1 )  1 , Var(ˆ 1 )  12  i 1
n
2 (3.19)
n x 2
i
i 1

tức là ˆ 1  N(1 ; 12 ) . Từ đó biến ngẫu nhiên

ˆ 1  1
Z
1

có phân phối chuẩn tắc N(0;1).


 2 có phân phối chuẩn với:

2
E(ˆ 2 )  2 , Var(ˆ 2 )   22  n
(3.20)
x
i 1
2
i

ˆ  2
tức là ˆ 2  N(2 ; 22 ) . Do đó biến ngẫu nhiên Z  2 có phân phối chuẩn tắc
2
N(0;1).
(n  2)ˆ 2
 Thống kê  2  có phân phối khi-bình phương với n  2 bậc tự do.
2
 Các ước lượng ˆ 1 , ˆ 2 có phương sai nhỏ nhất trong số các ước lượng không chệch
của 1 , 2 .
Ta có Yi  1  2 X i  u i . Từ giả thiết của u i ta thu được các thống kê Z và  2 có
quy luật phân phối chuẩn tắc và khi bình phương với (n  2) bậc tự do. Vậy ta có
thể tìm được khoảng ước lượng cho các tham số 1 , 2 và  2 .

33
Bài 3: Mô hình hồi quy tuyến tính đơn

3.4. Ước lượng khoảng cho hệ số hồi quy


Trong mục 3.3 với giả thiết về phân phối chuẩn
N(0;  2 ) của u i ta có:

ˆ 1  N(1 ; 12 )

ˆ 2  N(2 ; 22 )

với các phương sai 12 , 22 được xác định trong
(3.19) và (3.20). Tuy nhiên vì phương sai  2 chưa biết, nên các phương sai 12 ,  22 cũng
chưa biết, vì vậy ta dùng ước lượng không chệch của  2 là:
n

 û 2
i
RSS
ˆ 2  i 1
 .
n2 n2
Khi đó các thống kê:
ˆ 1  1 ˆ  2
T1  và T2  2
Se(ˆ 1 ) Se(ˆ 2 )

với: Se(ˆ 1 )  Var(ˆ 1 ) ; se(ˆ 2 )  Var(ˆ 2 ) .

Các thống kê này có phân phối student với (n – 2) bậc tự do. Đồng thời, thống kê
ˆ 2
  (n  2) 2
2


có phân phối khi bình phương với (n – 2) bậc tự do.

3.4.1. Khoảng ước lượng cho β1

Với độ tin cậy 1  cho trước, ta có:


P  t (n  2)  T1  t (n
2

 2)

 1  ,
2

 2)
với t (n

2
là phân vị mức 
2 của phân phối Student
T1 , tức là:

 2) ˆ 1  1 (n  2)
P{ t (n   t2 }  1  .
se(ˆ 1 )

2

Từ đó dẫn đến
P{ˆ 1  t (n

2
 2)
se(ˆ 1 )  1  ˆ 1  t (n

2
 2)
se(ˆ 1 )}  1   .

Vậy với mẫu cụ thể ta có khoảng ước lượng cho 1 là:

1  (ˆ 1  t (n

2
 2)
se(ˆ 1 ); ˆ 1  t (n

2
 2)
se(ˆ 1 )) .

34 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn

3.4.2. Khoảng ước lượng cho β 2


Tương tự như trên ta có, với độ tin cậy 1  cho
trước thì:

 ˆ  2 
 2) 
P  t (n  2)  T2  2  t (n
   1  .
 2 Se(ˆ 2 ) 2 

Từ đó,


P ˆ 2  t (n  2)Se(ˆ 2 )  2  ˆ 2  t (n
2

 2)
2

Se(ˆ 2 )  1   .

Vậy với mỗi mẫu cụ thể ta có khoảng ước lượng cho 2 là:


2  ˆ 2  t (n  2)Se(ˆ 2 ); ˆ 2  t (n
2

 2)
2
Se(ˆ 2 ) 
3.4.3. Khoảng ước lượng cho σ 2
Ta thấy thống kê
(n  2)ˆ 2
  2

2
có phân phối khi-bình phương với (n-2) bậc tự do.
Do đó:
(n  2)ˆ 2
P{ 2
1 / 2;n  2  2
 2 / 2;n  2 }  1  
 2

với 12 / 2;n  2 và  2 / 2;n  2 là các giá trị phân vị mức 1   / 2 và  / 2 của phân phối
 2 (n  2) .
Từ đó ta có:
 (n  2)ˆ 2 (n  2)ˆ 2 
P 2  2  2   1  .
  / 2;n  2 1 / 2;n  2 

Vậy với mẫu cụ thể và độ tin cậy 1  , ta có khoảng ước lượng cho  2 là:
(n  2)ˆ 2 (n  2)ˆ 2
2  ( ; ).
2 / 2;n  2 12 / 2;n  2

3.5. Kiểm định giả thuyết về các hệ số hồi quy


Kiểm định giả thuyết thống kê là một trong những nhiệm vụ quan trọng của nhà kinh
tế lượng. Chẳng hạn, trong mô hình hồi quy (3.1) ta thấy nếu 2  0 thì Y sẽ độc lập
với X, tức là X không ảnh hưởng tới sự thay đổi của Y . Tuy nhiên, ta lại chưa biết 2
có bằng 0 hay không vì vậy ta cần kiểm định giả thuyết này.
Trong các mục trước, chúng ta đã đưa ra các ước lượng điểm và ước lượng khoảng
cho hệ số hồi quy 1 , 2 . Các ước lượng khoảng này sẽ giúp ta giải quyết bài toán
kiểm định giả thuyết về 1 , 2 .

35
Bài 3: Mô hình hồi quy tuyến tính đơn

Ta đã biết bài toán kiểm định giả thuyết gồm các bước cơ bản sau:
 Bước 1: Thiết lập giả thuyết H 0 và đối thuyết H1 .
 Bước 2: Xây dựng tiêu chuẩn thống kê để kiểm định, xác định quy luật phân phối
xác suất của tiêu chuẩn thống kê khi giả thuyết H 0 được cho là đúng.
 Bước 3: Xây dựng miền bác bỏ giả thiết W ứng với mức ý nghĩa  cho trước.
 Bước 4: So sánh giá trị mẫu (quan sát được) của tiêu chuẩn thống kê ở bước thứ 2
với miền bác bỏ giả thuyết W ở bước 3 để đưa ra kết luận bác bỏ hay chấp nhận
giả thuyết H 0 .

3.5.1. Kiểm định giả thuyết cho β1

Ta đưa giả thuyết H 0 : 1  1* và đối thuyết H1 : 1  1* hoặc H1 : 1  1* hoặc H1 :
1  1* .
Chú ý rằng nếu giả thiết H0 là đúng thì: thống kê
ˆ  
T1  1 1 có phân phối Student với n – 2 bậc
Se(ˆ 1 )
tự do. Ta sẽ dựa vào thống kê này để tiến hành kiểm
định giả thuyết cho 1 . Ta có các bài toán kiểm định
giả thuyết sau:
Bài toán 1: Kiểm định hai phía

H 0 : 1  1
*


H1 : 1  1
*

Miền bác bỏ: W  (;  t (n-2)


 / 2 )  (t  / 2 ;  ) với t p
(n-2) (n-2)
là phân vị mức p (p =  /2) của
phân phối Student T1 .
Bài toán 2: Kiểm định một phía (phải)
H 0 : 1  1*

H1 : 1  1
*

Miền bác bỏ: W=  t (n-2)


 ;   , với t 
(n-2)
là phân vị
mức  của phân phối Student T1 .
Bài toán 3: Kiểm định một phía (trái)
H 0 : 1  1*

H1 : 1  1
*

Miền bác bỏ: W  (;  t (n-2)


 ).

3.5.2. Kiểm định giả thuyết cho β 2

Ta có giả thuyết H 0 : 2  *2 với đối thuyết H1 : 2  *2 hoặc H1 : 2  *2 hoặc
H1 : 2  *2 .

36 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn

Trong mục 3.4 ta cũng thấy nếu giả thuyết H 0 đúng


thì thống kê
ˆ 2  2
T2 
Se(ˆ 2 )
có phân phối Student với n – 2 bậc tự do. Do đó, ta có
thể tiến hành các bài toán kiểm định giả thuyết sau
cho 2 :
Bài toán 1: Kiểm định hai phía
H 0 : 2  *2

H1 : 2  2
*

Miền bác bỏ: W  (;  t (n-2)


 / 2 )  (t  / 2 ;  )
(n-2)

t (n-2)
p là phân vị mức p của phân phối Student T2 .
Bài toán 2: Kiểm định một phía (phải)

H 0 : 2  *2

H1 : 2  2
*

Miền bác bỏ: W  (t (n-2)


 ; ) , với t (n-2)
 là phân vị mức  của phân phối Student T2 .
Bài toán 3: Kiểm định một phía (trái)

H 0 : 2  *2

H1 : 2  2
*

Miền bác bỏ: W  (;  t (n-2)


 ).

3.5.3. Kiểm định giả thuyết cho phương sai σ 2

Giả thuyết H 0 :  2  02 , với một trong các đối thuyết

H1 :  2  02 , H1 : 2  02 , H1 :  2  02 .

Ta có nếu H 0 đúng thì thống kê

(n  2)ˆ 2
2 
2

có phân phối khi bình phương với n – 2 bậc tự do. Áp dụng kết quả đó, ta có thể giải
quyết các bài toán kiểm định đối với  2 như sau:
Bài toán 1: Kiểm định hai phía

H 0 :  2  02

H1 :   0
2 2

37
Bài 3: Mô hình hồi quy tuyến tính đơn

Miền bác bỏ: W  (0; 1-2  / 2;n  2 )  ( 2 / 2;n  2 ; )

trong đó  2p;n  2 là phân vị mức p của phân phối  2 .


Bài toán 2: Kiểm định một phía (phải)

H 0 :   0
2 2


H1 :   0
2 2

Miền bác bỏ W=  2 ;n  2 ;+  .

Bài toán 3: Kiểm định một phía (trái)


H 0 :  2  02

H1 :   0
2 2

Miền bác bỏ: W=  0; 1-2  ;n  2  .

CHÚ Ý
Phương pháp kiểm định trên được gọi là phương pháp kiểm định theo miền tiêu chuẩn mà
ta đã biết trong giáo trình xác suất thống kê. Ngoài phương pháp trên ta còn có phương
pháp kiểm định giả thuyết theo p-value xác suất ý nghĩa, phương pháp này cũng đã được giới
thiệu trong giáo trình xác suất-thống kê.

3.5.4. Phương pháp xác suất ý nghĩa (p-value)


ˆ i  *i
Với một mẫu cụ thể ta có giá trị quan sát của thống kê Ti (i  1, 2) là: t iqs 
Se(ˆ i )
Ta có: p-value  P Ti  t iqs  i  1, 2
Xác suất này gọi là xác suất ý nghĩa, đây chính là
xác suất mắc sai lầm loại 1 (tức là xác suất để bác bỏ
H 0 khi H 0 đúng).
Ta thấy rằng nếu xác suất ý nghĩa càng cao thì hậu quả
việc bác bỏ H 0 khi H 0 đúng càng nghiêm trọng, nếu
xác suất ý nghĩa càng nhỏ thì hậu quả của việc bác bỏ
sai H 0 càng ít nghiêm trọng. Vậy khi đã cho trước mức
ý nghĩa  (đây là xác suất giới hạn để được bác bỏ H 0 ), nếu xác suất ý nghĩa không
vượt quá  thì ta có thể bác bỏ H 0 mà không sợ phạm sai lầm nghiêm trọng, còn nếu
xác suất ý nghĩa lớn hơn  thì chưa có cơ sở để bác bỏ H 0 .
Bây giờ ta có thể sử dụng xác suất ý nghĩa để tiến hành các bài toán kiểm định đối
với các tham số 1 , 2 .
 Kiểm định hai phía
H 0 : i  *i
 i = 1, 2
H1 : i  i
*

38 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn

ˆ i  *i
Bước 1: Tính t iqs  ;
Se(ˆ ) i

Bước 2: Tính p-value

p-value = P Ti  t iqs hoặc Ti   t iqs 

 
 2P Ti  t iqs .

Bước 3: So sánh xác suất ý nghĩa đó với mức ý nghĩa  đã xác định từ trước, nếu
p-value   thì bác bỏ H 0 , còn nếu p-value   thì chấp nhận giả thuyết H 0 .
 Kiểm định một phía (phải)
H 0 : i  *i
 i =1, 2
H1 : i  i
*

Bước 1: Từ mẫu số liệu có được, thành lập thống kê

ˆ i  *i
t iqs  ;
Se(ˆ i )

Bước 2: Từ thống kê đó, tính xác suất ý nghĩa p-value = P Ti  t iqs  .
Bước 3: So sánh xác suất ý nghĩa đó với mức ý nghĩa  đã xác định từ trước, nếu
p-value   thì bác bỏ giả thuyết H 0 , còn nếu p-value   thì chấp nhận giả
thuyết H 0 .
 Kiểm định một phía (trái)

 H 0 : i  i
*

 i = 1, 2
 H1 : i  i
*

ˆ i  *i
Bước 1: Tính t iqs  ;
Se(*i )

Bước 2: Tính p-value = 1  P T  t iqs  .


Bước 3: So sánh xác suất ý nghĩa đó với mức ý nghĩa  đã xác định từ trước, nếu
p-value   thì bác bỏ giả thuyết H 0 , còn nếu p-value   thì chấp nhận giả
thuyết H 0 .

VÍ DỤ 3.2
Từ ví dụ 3.1 hãy:
a) Tìm khoảng ước lượng cho các hệ số hồi quy với độ tin cậy 95%.
b) Với mức ý nghĩa 5% có thể kết luận thu nhập của bố, mẹ có ảnh hưởng tới kết quả học
tập của con cái hay không?
c) Tính ESS, TSS.

39
Bài 3: Mô hình hồi quy tuyến tính đơn

Giải: Theo báo cáo của Eviews cho ví dụ 3.1 ta có:

a) Ta có các giá trị ước lượng của 1 , 2 là ˆ 1  4.785256, ˆ 2  0.042094 và sai số


chuẩn là: Se(ˆ 1 )  1.195385, Se(ˆ 2 )  0.017601. Vì cỡ mẫu n = 8, với mức tin

0.025  2.364624 . Vậy ta có các


cậy   0.05 , tra bảng phân phối student ta có: t (7)
khoảng ước lượng cho 1 , 2 là:

1   4.785265  2.364624x1.195385; 4.786265  2.36462x1.195385 


 1  1.958629; 7.611901 .

Tương tự ta có: 2   2.78634; 2.86693  .

b) Ta cần kiểm định bài toán sau:


H 0 : 2  0

H1 : 2  0
Cách 1: Ta có giá trị tiêu chuẩn thống kê của bài
toán trên là:

ˆ 2 0.042094
t2    0.0539 .
Se(ˆ 2 ) 0.017601

0.025  2.364624 .
Với mức ý nghĩa 5%, tra bảng phân phối student ta có: t (7)
Vậy miền bác bỏ của bài toán là: W =  ;  2.364624    2.364624;    .
Ta thấy giá trị tiêu chuẩn thống kê t 2  W , do đó chưa bác bỏ được H0. Như vậy
có thể kết luận thu nhập của bố mẹ không ảnh hưởng đến kết quả học tập của con
cái một cách có ý nghĩa.
Cách 2: Ta thấy giá trị p- value = 0.0539 > 0.05 vì vậy chưa thể bác bỏ được H0.

40 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn

c) Từ kết quả trong bảng ta có r2 = 0.488035, RSS = 8.155499, do đó theo công thức

RSS
r2  1
TSS

ta có : TSS = RSS/(1– r2) = 8.155499/ (1– 0.488035) = 15.9288.


Đồng thời ta lại có công thức: TSS = ESS + RSS,
do đó ta có: ESS = TSS – RSS = 15.9288 – 8.155499 = 7.774301.

3.6. Phân tích phương sai trong phương trình hồi quy
Trong phần này chúng ta xét bài toán kiểm định giả
thuyết về hệ số hồi quy 2 theo một phương pháp
khác, đó là phương pháp phân tích phương sai.
H :   0
Ta xét bài toán kiểm định  0 2 (*)
H1 : 2  0
Giả thuyết H 0 nói lên rằng biến X không ảnh
hưởng tới Y, khi đó ta bác bỏ giả thuyết H 0 cũng có nghĩa là ta bác bỏ giả thuyết cho
rằng biến X không có ảnh hưởng tới biến Y.
Trong các phần trước ta thấy nếu như giả thuyết H 0 là đúng, tức là: 2  0 , thì thống kê

(n  2)ˆ 2 RSS
 2
2 

ESS
có phân phối khi - bình phương với n – 2 bậc tự do, còn thống kê
2
cũng có có phân phối khi-bình phương với 1 bậc tự do. Mặt khác hai thống kê đó độc
lập với nhau, vậy thống kê

ESS
1  TSSr 2 r2 n2
F  
RSS (1  r ) TSS
2
1 r 2
1
n2 n2

có phân phối Fisher với số bậc tự do là: 1; n  2  . Từ đó, với mức ý nghĩa  cho
trước, miền bác bỏ cho bài toán kiểm định đang xét là W=  f  1; n  2  ;   .
Ý nghĩa: Cách tiếp cận theo hướng phân tích phương sai như trên cho phép ta đưa ra
các phán đoán về độ phù hợp của mô hình hồi quy đang xét. Cụ thể, nếu thống kê F có
giá trị rất lớn (ứng với xác suất ý nghĩa rất nhỏ) thì ta có thể kết luận mô hình được lập
phù hợp với số liệu quan sát. Còn nếu thống kê F có giá trị nhỏ đến mức xác suất ý
nghĩa tương ứng của nó lớn hơn mức ý nghĩa đã định (bằng 5% chẳng hạn) thì rõ ràng
mô hình là không phù hợp với số liệu, lúc đó cần tìm mô hình khác.
Ta có bảng phân tích phương sai ngắn gọn như sau:

41
Bài 3: Mô hình hồi quy tuyến tính đơn

Nguồn biến thiên Tổng bình phương Bậc tự do Phương sai


n
X ˆ2  x i2
ESS   1 ESS
i 1 1

n n2 RSS
Phần dư RSS  u
i 1
2
i n2

Tổng TSS n 1

3.7. Ứng dụng của phân tích hồi quy, bài toán dự báo
Một trong các ứng dụng của phân tích hồi quy là dự báo
cho biết giá trị của X là X 0 , ta cần dự báo giá trị của Y là
Y0 , khi đó thay giá trị X 0 vào phương trình hồi quy mẫu
ta nhận được giá trị ước lượng của Y là Ŷ0 thỏa mãn
phương trình: Ŷ0  ˆ 1  ˆ 2 X 0 .
Giá trị thực Y0 thỏa mãn phương trình Y0  1  2 X 0  u 0 , với u 0 là sai số.

Ta có : Ŷ0  Y0  (ˆ 1  1 )  (ˆ 2  2 )X 0  u 0 .

Đồng thời

E(ˆ 1 )  1 ; E(ˆ 2 )  2 và E(u 0 )  0.

ˆ  Y )  0  E(Y
Do đó: E(Y ˆ )Y .
0 0 0 0

Vậy ước lượng Ŷ0 là một ước lượng không chệch của Y0 .
Ngoài ra, phương sai của Ŷ0  Y0 được tính theo

ˆ  Y )  Var[(ˆ   )  (ˆ   )X  u ]
Var(Y0 0 1 1 2 2 0 0

 Var(ˆ 1  1 )  (X 0 ) 2 Var(ˆ 2  2 )  2X 0 Cov(ˆ 1  1 ; ˆ 2  2 )  Var(u 0 )

 1 X2  2 x0
2
X
 2       2x 0  2  2
 n Sxx  Sxx Sxx

 1 (X 0  X) 2  2
  1  
2
X
 n Sxx 
n n n
trong đó: Sxx   X i2   (X i  X) 2   X i2  n(X) 2 .
i 1 i 1 i 1

Do phương sai 2 chưa biết, ta thay 2 bằng ước lượng không chệch ̂2 .
Ŷ0  Y0
Khi đó ta có thống kê t  có phân phối Student với n – 2 bậc tự do.
Se(Yˆ Y )
0 0

Vậy với mức ý nghĩa  cho trước ta có khoảng ước lượng Y0 là:

42 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn

ỨNG DỤNG
ˆ  t n  2Se(Y
Y ˆ Y )Y Y
ˆ  t n  2Se(Y
ˆ Y ) (3.21)
0  0 0 0 0  0 0
2 2

Công thức (3.21) cho ta khoảng ước lượng về giá trị Y0 của Y khi cho biết trước giá
trị X 0 của X.
Bài toán trên có thể phát biểu dưới một dạng tương đương khác như sau (Bài toán dự
báo giá trị trung bình): Cho trước giá trị X 0 của X, cần ước lượng giá trị trung bình
của Y khi X  X 0 , tức là ước lượng giá trị E(Y | X  X 0 ) .
Ta có:
E(Y | X 0 )  1  2 X 0 ,

Ŷ0  ˆ 1  ˆ 2 X 0 .

Từ đó, kết hợp với (3.19) và (3.20), ta thấy


Ŷ0  E(Y | X 0 )  (ˆ 1  1 )  (ˆ 2  2 )X 0

ˆ 2 1 (X 0  X) 2 
Var(Y0  E(Y | X 0 ))     .
n Sxx 
Do  2 chưa biết, ta dùng ước lượng ̂ 2 , dẫn đến:
2
ˆ  E(Y | X ))  ˆ 2  1  (X 0  X)  .
2
Var(Y0 0  
n Sxx 

Ký hiệu: ˆ  E(Y | X )) ,
S2Yˆ  Var(Y
0
0 0

khi ấy thống kê
Ŷ0  E(Y | X 0 )
t .
SŶ
0

có phân phối Student với n – 2 bậc tự do.


Áp dụng kết quả trên, ta có thể ước lượng giá trị trung bình có điều kiện
E(Y | X 0 ) bằng biểu thức sau:
ỨNG DỤNG
ˆ  t n  2S ˆ  E(Y | X )  Y
Y ˆ  t n  2S ˆ (3.22)
0  Y 0
0 0  Y 0
2 2

43
Bài 3: Mô hình hồi quy tuyến tính đơn

TÓM LƯỢC CUỐI BÀI


 Phương pháp OLS
Giả sử có 1 mẫu về 2 biến X và Y.
Ta cần ước lượng các tham số trong mô hình PRF: Yi  E  Y | X i   u i  1  2 X i  u i

tức là đi tìm các hệ số trong mô hình: Yi  ˆ i  ˆ i X i  uˆ i  Y


ˆ  uˆ .
i i

Ý tưởng của phương pháp OLS là tìm 1 đường SRF sao cho các giá trị ước lượng Ŷi càng
gần với các giá trị quan sát Yi càng tốt. Vì vậy, ta đi tìm min cho hàm sau:

 
n n
f ˆ 1 , ˆ 2   u i2   (Yi  ˆ 1  ˆ 2 X i ) 2 .
i 1 i 1

Như vậy phương pháp OLS sẽ tối thiểu hóa tổng bình phương các phần dư:
n
RSS   uˆ i2  min .
i 1

x y i i
Ta có công thức cho các hệ số ước lượng là: ˆ 1  Y  ˆ 2 X ; ˆ 2  i 1
n

x
i 1
2
i

với x i  X i  X, yi  Yi  Y.

 Các hệ số ước lượng trong mô hình


Hệ số ˆ 1 , ˆ 2 được xác định duy nhất ứng với một mẫu  Xi , Yi 

ˆ 1 , ˆ 2 là các ước lượng điểm của 1 , 2 .


 Các giả thiết cơ bản của phương pháp OLS và các khuyết tật tương ứng của mô hình
Dưới đây là các giả thiết cần lưu ý:
Giả thiết 1: Mô hình hồi quy phải có dạng tuyến tính.
Giả thiết 2: Các giá trị của X được giả thiết là phi ngẫu nhiên và không tương quan với các
sai số ngẫu nhiên, tức là :
CoV  X i , u i   E  X i u i   E  X i   E  u i 
 X i E  u i   X i E  u i   0.

Giả thiết 3: Trung bình của các nhiễu ngẫu nhiên bằng 0: E( u i /Xi) = 0.

Giả thiết 4: Phương sai của các nhiễu ngẫu nhiên là không đổi: Var  u i   Var  u j    2 .
Chú ý: Giả thiết 4 không thoả mãn, ta nói có hiện tương phương sai của sai số thay đổi.
Giả thiết 5: Không có tương quan giữa các nhiễu ngẫu nhiên: CoV  u i , u j   0 .
Chú ý: Giả thiết 5 không thoả mãn, ta nói có hiện tương tự tương quan.
Giả thiết 6: Số quan sát n phải lớn hơn tổng số tham số trong mô hình.

44 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn

 Định lí Gaus-Markov: Với các giả thiết đã cho của phương pháp bình phương tối thiểu thoả
mãn, ước lượng bình phương tối thiểu là các ước lượng tuyến tính không chệch và có phương
sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch.
 r2 đo độ phù hợp của hàm hồi quy, giá trị của r2 cho biết bao nhiêu phần trăm sự biến thiên
của biến Y được giải thích bởi biến X hoặc bởi hàm hồi quy mẫu.
 Ý nghĩa khoảng tin cậy:

KTC cho β1:     


1  ˆ 1  t na  2Se ˆ 1 ; ˆ 1  t na  2 Se ˆ 1
2 2

KTC cho β1 cho biết trung bình của Y thay đổi thế nào khi X = 0.
KTC cho β2:

    
2  ˆ 2  t na 2 2Se ˆ 2 ; ˆ 2  t na 2 2 Se ˆ 2

KTC cho β2 cho biết trung bình của Y thay đổi thế nào khi biến X thay đổi 1 đơn vị.
 Kiểm định giả thiết: Trong mô hình E(Y/Xi) = β1 + β2Xi: Ta muốn kiểm tra H0: βj = βj*
(j = 1,2).
Kiểm định Gt cho β1 = β1* cho biết trung bình của Y có bằng β1* khi X = 0 hay không.
Kiểm định Gt cho β2 = β2* cho biết tốc độ thay đổi của trung bình của Y khi biến X thay đổi
1 đơn vị có bằng β2* hay không.
 Phân tích phương sai – kiểm định về sự phù hợp của mô hình.
Để kiểm định sự phù hợp của mô hình hồi quy tuyến tính so với số liệu, ta có thể tính các
tổng bình phương sai số ESS, RSS và TSS, từ đó xác định thống kê F có phân phối Fisher rồi
tiến hành kiểm định giả thuyết đối với thống kê đó.
 Dự báo.
Từ số liệu mẫu, ta ước lượng được mô hình hồi quy thực nghiệm, từ đó có thể dự báo được
giá trị của biến phụ thuộc mỗi khi có một giá trị mới của biến độc lập.

45
Bài 3: Mô hình hồi quy tuyến tính đơn

CÂU HỎI THƯỜNG GẶP

1. Ngoài phương pháp OLS thì có phương pháp nào khác để ước lượng mô hình hồi quy
mẫu không?
2. Trong phương pháp OLS, trong mọi trường hợp, ta đều phải giải hệ phương trình để tìm các
ước lượng đúng không?
3. Nếu một mô hình hồi quy bội với nhiều biến thì việc dùng phương pháp OLS có thuận
tiện không?
4. Khi ước lượng các hệ số bằng OLS, làm thế nào để đánh giá được chất lượng của chúng?
5. Tại sao phải xem xét các giả thiết của phương pháp OLS?
6. Để đánh giá độ phù hợp của mô hình hồi quy với các số liệu của mẫu, ta dùng tiêu chí nào?
7. Có nhất thiết phải xây dựng được mô hình hồi quy mẫu với r2 phải lớn?
8. Trong kiểm định giả thiết, việc dùng phương pháp xác suất ý nghĩa (p-value) có thể thay cho
phương pháp kiểm định thông thường hay không?

CÂU HỎI TRẮC NGHIỆM

1. Công thức nào sau đây thể hiện phương pháp bình phương tối thiểu (OLS)?

 û      û    Yˆ  Y   min
n n n n
A. ˆ  min
Yi  Y B.
i i i i i
i 1 i 1 i 1 i 1

2 2

 û      û    
n n n n
C. 2 ˆ
Yi  Y  min D. 2 ˆ
Yi  Y  max
i i i i
i 1 i 1 i 1 i 1

2. Cho mô hình hồi quy: Ŷ = 20 + 0.75X. Tính giá trị phần dư tại điểm X = 100, Y = 90
A. 5 B–5
C. 0 D. 15.
3. Bậc tự do trong kiểm định t với mô hình 2 biến và có 20 quan sát là:
A. 20 B. 22
C. 18 D. 2
4. R2 cho biết:
A. Tương quan giữa X và Y. B. Sự biến thiên của Y.
C. Hiệp phương sai giữa X và Y. D. Phần biến thiên của Y được giả thích bởi X
5. Cho mô hình với TSS = 0.9243, RSS = 0.2137. Tìm r2
A. 0.7688 B. 0.2312
C. 0.3007 D. 0

46 STA301_Bài 3_v1.0013101214
Bài 4: Mô hình hồi quy bội

BÀI 4. MÔ HÌNH HỒI QUY BỘI

Mục tiêu

Sau khi kết thúc bài, học viên sẽ hiểu


được những vấn đề sau đây:
 Mô hình hồi quy bội có 2 biến và mô
hình tổng quát k biến.
 Ý nghĩa của các hệ số hồi quy ước lượng.
 Hệ số xác định bội và hệ số xác định
bội đã hiệu chỉnh.
 Khoảng tin cậy và kiểm định giả thiết
cho các hệ số hồi quy.
 Kiểm định về sự phù hợp của mô
hình hay ảnh hưởng của tất cả các
biến độc lập.
 Dự báo trong mô hình hồi quy bội.

Nội dung Hướng dẫn học

 Mô hình hồi quy bội gồm 2 biến độc lập.  Đề nghị học viên ôn lại phần ước
 Mô hình hồi quy bội gồm k biến (k-1 biến lượng và kiểm định giả thiết trong môn
độc lập). lý thuyết xác suất và thống kê toán.
 Phương pháp OLS cho mô hình hồi quy bội.  Theo dõi kỹ bài giảng.
 Hệ số xác định bội và hệ số xác định bội đã  Xem các ví dụ cho mỗi phần bài giảng.
hiệu chỉnh.  Làm các ví dụ và trả lời câu hỏi
 Ước lượng khoảng tin cậy và kiểm định giả trắc nghiệm
thuyết cho hệ số hồi quy.
 Kiểm định về sự phù hợp của mô hình
hồi quy.
 Dự báo trong mô hình hồi quy bội.

STA301_Bài 4_v1.0013101214 47
Bài 4: Mô hình hồi quy bội

TÌNH HUỐNG DẪN NHẬP

Tình huống
Hội đồng quản trị của công ty may Đức Giang đang muốn xem xét
ảnh hưởng của 2 yếu tố đầu vào của sản xuất là Vốn (V, tỉ đồng) và
Lao động (L, người) lên sản lượng (SL, triệu sản phẩm) của công ty.
Cụ thể, họ muốn đưa ra quyết định về việc có nên tiếp tục mở rộng
sản xuất, thu hẹp lại hay giữ nguyên như hiện tại. Để tiến hành nghiên
cứu này, phòng kế hoạch của công ty thu thập số liệu về vốn đầu tư,
lao động sử dụng và sản lượng sản xuất ra trong 30 tháng qua tại công ty (có n = 30 quan sát).
Mô hình dùng để nghiên cứu có dạng
log(SLi) = β1 + β2log(Vi) + β3log(Li)+ui
Dùng số liệu của mẫu, ước lượng được hàm hồi quy mẫu có dạng,
 )  0.424816  0.7358log(V )  0.9489 log(L ).
log(SL i i i

Câu hỏi
 Vậy công ty Đức Giang nên tăng, giảm hay giữ nguyên quy mô sản xuất?
 Liệu cả 2 biến vốn và lao động cùng không có ảnh hưởng đến sản lượng có đúng không?
 Giả sử trong tháng tới, công ty quyết định sử dụng lượng vốn là 10 tỉ đồng và lao động là
3000 thì sản lượng dự báo là bao nhiêu?

48 STA301_Bài 4_v1.0013101214
Bài 4: Mô hình hồi quy bội

Trong bài trước chúng ta đã nghiên cứu mô hình hồi quy tuyến tính đơn giản, đó là hồi quy tuyến
tính đơn, trong mô hình này chúng ta đã nghiên cứu các mối quan hệ giữa một biến được giải
thích là Y và một biến giải thích X. Bài này chúng ta mở rộng nghiên cứu sang mô hình hồi quy
tuyến tính bội với một biến được giải thích Y và (k – 1) biến giải thích X 2 ,..., X k . Trong thực tế
mô hình hồi quy tuyến tính bội được sử dụng rộng rãi vì đối với nhiều trường hợp nó giải thích
về hành vi của biến phụ thuộc (biến được giải thích) Y tốt hơn mô hình hồi quy tuyến tính đơn.
Ví dụ trong bài trước chúng ta xét mối quan hệ giữa thu nhập và chi tiêu nhưng thực tế chi tiêu
không chỉ phụ thuộc vào thu nhập mà nó còn phụ thuộc vào các yếu tố khác, chẳng hạn như:
niềm tin vào nền kinh tế, độ tuổi, nghề nghiệp, địa lý… Vì vậy mô hình hồi quy đơn khó giải
thích được hành vi của biến phụ thuộc Y. Do đó việc mở rộng mô hình hồi quy tuyến tính bội sẽ
giúp chúng ta giải thích được rõ hơn về biến phụ thuộc Y.
BÀI TOÁN
Mô hình hồi quy tuyến tính bội là mô hình nghiên cứu mối quan hệ giữa một biến phụ
thuộc Y và (k – 1) biến độc lập X 2 , X 3 ,..., X k có dạng:
Yi  1  2 X 2i  3 X 3i  ...  k X k  u i
Trong đó E(u i )  0, E(u i | X 2i , X 3i ,..., X ki )  0

Cov  u i , u j   0 i  j

Cov(X 2i ,u i )  0;Cov(X 3i , u i )  0;...,Cov  X ki , u i   0

Var(u i )   2 , i .

4.1. Mô hình hồi quy với hai biến giải thích


Định nghĩa: Mô hình hồi quy tổng thể (PRF) với hai biến giải thích có dạng như sau:
Yi  1  2 X 2i  3 X 3i  u i (4.1)
với Y là biến phụ thuộc; X 2 , X 3 là các biến độc lập, Yi , X 2i , X 3i là các quan sát thứ i
của Y, X 2 , X 3 ; u là nhiễu ngẫu nhiên, u i là nhiễu tại quan sát thứ i; 1 là hệ số chặn
(hệ số tự do), bằng giá trị trung bình của Y khi X 2  X 3  0 ; 2 , 3 là các hệ số hồi
quy riêng hay còn gọi là hệ số của các biến độc lập, 2 chỉ sự thay đổi của Y khi X 3
cố định và X 2 tăng hoặc giảm 1 đơn vị, còn 3 chỉ sự thay đổi của Y khi X 3 tăng
hoặc giảm 1 đơn vị và X 2 cố định.
Trong mô hình hồi quy hai biến (4.1) ta có các giả thiết sau:
 E(u i )  0, E(u i | X 2i , X 3i )  0.

 Các u i không tương quan, tức là

Cov(u i , u j )  0, i  j.

 u i không tương quan với X 2i , X 3i , tức là

Cov(X 2i ,u i )  0;Cov(X 3i , u i )  0.

 u i có phương sai không thay đổi, tức là: Var(u i )   2 , i.

STA301_Bài 4_v1.0013101214 49
Bài 4: Mô hình hồi quy bội

4.2. Ước lượng tham số của mô hình hồi quy


Tương tự trong bài 3, bài toán đặt ra là từ các dữ liệu quan sát chúng ta cần ước lượng
các hệ số hồi quy 1 , 2 , 3 của mô hình (4.1). Phương pháp ta sẽ sử dụng sau đó chính
là phương pháp bình phương tối thiểu OLS. Hàm hồi quy mẫu (SRF) được xây dựng
từ n quan sát (Yi , X 2 , X3 ) có dạng:

Ŷi  ˆ 1  ˆ 2 X 2i  ˆ 3 X 3i (4.2)

Và Yi  ˆ 1  ˆ 2 X 2i  ˆ 3 X 3i  uˆ i  Y
ˆ  uˆ
i i

trong đó ˆ 1 , ˆ 2 , ˆ 3 là ước lượng của 1 , 2 , 3 , û i là ước lượng của u i , phần dư của


quan sát thứ i.
Từ (4.2) ta có:

 
n n 2
 û i2   Yi  ˆ 1  ˆ 2 X 2i  ˆ 3X3i
i 1 i 1
(4.3)

n
Ta cần xác định ˆ 1 , ˆ 2 , ˆ 3 sao cho  û
i 1
2
i trong (4.3) đạt giá trị nhỏ nhất.

n
Theo lý thuyết giải tích nhiều biến, ta thấy để  û
i 1
2
i đạt giá trị nhỏ nhất thì ˆ 1 , ˆ 2 , ˆ 3

phải là nghiệm của hệ phương trình



ˆ  ˆ X  ˆ X  Y
 1 2 2 3 3

ˆ n n n n

1  X 2i  ˆ 2  X 2i  ˆ 3  X 2i X 3i   Yi X 2i
2
(4.4)
 i 1 i 1 i 1 i 1
 n n n n

ˆ 1  X 3i  ˆ 2  X 2i X 3i  ˆ 3  X 3i   Yi X 3i
2

 i 1 i 1 i 1 i 1

trong đó
1 n 1 n
X2   2i 3 n 
n i 1
X , X 
i 1
X 3i

1 n
Y  Yi .
n i 1
Hệ phương trình (4.4) được gọi là hệ phương trình chuẩn và phương pháp xác định
ˆ 1 , ˆ 2 , ˆ 3 như trên được gọi là phương pháp bình phương tối thiểu (OLS).
Nghiệm của phương trình (4.4) là:
ˆ 1  Y  ˆ 2 X 2  ˆ 3 X 3
n n n n

y x x i 2i
2
3i   yi x 3i  x 2i x 3i
ˆ 2  i 1 i 1 i 1 i 1
2
n
 n
 n


i 1
x  x    x 2i x 3i 
i 1
2
2i
 i 1 
2
3i

n n n n

 yi x 3i  x 3i2   yi x 3i  x 2i x 3i
ˆ 3  i 1
n
i 1
n
i 1
n
i 1

x x
i 1
2
2i
i 1
2
3i  ( x 2i x 3i ) 2
i 1

50 STA301_Bài 4_v1.0013101214
Bài 4: Mô hình hồi quy bội

2 r23

Cov ˆ 2 ; ˆ 3    n 2  n 2 
.
1  r  2
23   x 2i    x 3i 
 i 1   i 1 
với yi  Yi  Y, x 2i  X 2i  X 2 , x 3i  X 3i  X 3 .
Ta thấy rằng  2 là phương sai của u i và  2 là chưa biết. Vì vậy ta thay  2 bằng ước
lượng không chênh lệch của nó là
n

 û 2
i
RSS
ˆ 2  i 1
 .
n 3 n 3

CHÚ Ý
2
 n 
 X X   X  X    x 2i x 3i 
2

 n i 1 
2 3 2 3
r232 
S S 2 2
 2 
n
2 
  x 2i   x 3i 
X2 X3

 i 1  i 1 

4.3. Phương sai và độ lệch chuẩn của các ước lượng bình phương tối thiểu
Ta đã thu được các ước lượng cho các hệ số hồi quy bằng phương pháp OLS. Để tìm
các ước lượng khoảng và tiến hành kiểm định các hệ số hồi quy, ta cần xác định
phương sai và độ lệch chuẩn của các ước lượng thu được trên đây.
Phương sai và độ lệch chuẩn của các ước lượng hệ số hồi quy theo phương pháp bình
phương tối thiểu được cho bởi các công thức
2
 
Var ˆ 2  n  
; Se ˆ 2  Var ˆ 2 ;  
 x 1  r 
i 1
2
2i
2
23

2
 
Var ˆ 3  n  
; Se ˆ 3  Var ˆ 3 ,  
 x 3i2 1  r232 
i 1

với r23 là hệ số tương quan giữa X 2 và X 3 .

4.4. Mô hình hồi quy bội

4.4.1. Khái niệm:


Mô hình hồi quy bội là mô hình có hàm hồi quy tổng
thể (PRF) gồm một biến phụ thuộc Y và k – 1 biến độc
lập X 2 , X 3 ,..., X k có dạng như sau:
Yi  1  2 X 2i  3 X 3i  ...  k X ki  u i (4.5)
trong đó 1 là hệ số chặn, hệ số tự do, nó cho ta biết
trung bình của Y khi X 2 , X 3 ,..., X k bằng 0.

STA301_Bài 4_v1.0013101214 51
Bài 4: Mô hình hồi quy bội

 j ( j  1, 2,..., k) là các hệ số hồi quy riêng, nó cho ta biết sự thay đổi của Y khi X j
thay đổi một đơn vị còn các X h  h  j bằng 0,
u i là các nhiễu ngẫu nhiên.
Phương trình (4.5) có thể được viết chi tiết dưới dạng hệ phương trình sau:
Y1  1  2 X 21  3 X 31  ...  k X k1  u1
Y     X   X  ...   X  u
 2 1 2 22 3 32 k k2 2
 (4.6)
...............................................................
Yn  1  2 X 2n  3 X 3n  ...  k X kn  u n

 Y1  1 X 21 X 31 ... X k1 
   
 Y2  1 X 22 X 32 ... X k 2 
Đặt Y   . ; X   . . . ... . 
   
 .  . . . ... 
Y   X kn 
 n 1 X 2n X 3n

 u1   1 
   
 u2   2 
u   . ;    . 
   
 .   . 
u   
 n  n
khi đó hệ phương trình (4.6) có thể viết dưới dạng phương trình ma trận
Y  X  u (4.7)

4.4.2. Các giả thiết cơ bản


Ta đưa ra các giả thiết cơ bản cho mô hình hồi quy nội
bội như sau:
Giả thiết 1:
Ma trận ngẫu nhiên u có kỳ vọng bằng 0, tức là:
 E  u1    0 
   
 E u2    0 
E u   .    . 
   
 .  .
 E u   0
 n   
Giả thiết 2:
Các thành phần trong ma trận u là không tương quan, tức là: E  u i u j   0 i j

E  u i u i   2

hoặc ta có thể viết dưới dạng: E  uu T   2 I , với I là ma trận đơn vị cấp n.

52 STA301_Bài 4_v1.0013101214
Bài 4: Mô hình hồi quy bội

Giả thiết 3: Các u i có phân bố chuẩn N  0, 2  i  1, n .

Giả thiết 4: Các X 2 , X 3 ,..., X k không có quan hệ tuyến tính.

4.4.3. Ước lượng các tham số bằng OLS


Với giả thiết trên, ta cần dựa vào dữ liệu
 Yi , X 2i , X3i ,..., X ki  ,  i  1, n  quan sát được để tìm ước

lượng véc tơ hệ số    1 , 2 ,..., k  của mô hình hồi quy


T

bội (4.7).

 
T
Ký hiệu ˆ  ˆ 1 , ˆ 2 ,..., ˆ k là ước lượng của  , khi đó ta có
phương trình hồi quy mẫu (SRF)


Yi  ˆ 1  ˆ 2 X 2i  ˆ 3 X 3i  ...  ˆ k X ki  uˆ i i  1, n . 
 
n
Ta cần tìm các hệ số ˆ 1 , ˆ 2 ,..., ˆ k sao cho tổng các phần dư  û
i 1
2
i đạt giá trị

nhỏ nhất.
Kết quả của phương pháp giải tích cho thấy véc tơ ước lượng trên đây thỏa mãn
phương trình ma trận

 XX  ˆ  XY (4.8)

trong đó X, Y tương ứng là các ma trận chuyển vị của X và Y . Từ giả thiết 4 dẫn
đến sự tồn tại ma trận nghịch đảo của XX và do đó

ˆ   XX  XY.
1

Biểu thức này được gọi là phương trình cơ bản của phương pháp OLS.

4.5. Các tính chất của ước lượng bình phương nhỏ nhất
Xét mô hình hồi quy bội
Yi  1  2 X 2i  3 X 3i  ...  k X ki  u i .
Giống như mô hình hồi quy đơn, mô hình hồi quy bội này có
các tính chất sau:
 Đường hồi quy bội đi qua điểm  Y, X 2 , X 3 ,..., X k  .

 Ŷ  Y .
n
 u
i 1
i  0.

n
 u i không tương quan với X pi ,  p  2,3,..., k  , u X
i 1
i pi 0.

STA301_Bài 4_v1.0013101214 53
Bài 4: Mô hình hồi quy bội
n
 Các u i không tương quan với Ŷi :  u Yˆ  0 .
i 1
i i

 ̂i là các ước lượng tuyến tính không chệch và có phương sai nhỏ nhất cho các


i i  1, k . 
4.6. Hệ số xác định bội R 2 và hệ số xác định hiệu chỉnh
Trong mô hình hồi quy tuyến tính đơn ta đã đưa ra hệ
số xác định

ESS RSS
r2   1 .
TSS TSS

Từ công thức trên ta thấy khi r 2 càng lớn thì tổng bình
phương sai số dự báo càng nhỏ, do đó mô hình hồi quy
càng phù hợp. Vì vậy hệ số r 2 còn được dùng để đo độ
phù hợp của mô hình. Tương tự cho mô hình hồi quy bội ta cũng xây dựng hệ số xác
ESS RSS
định ký hiệu là R 2 được xác định bởi công thức: R 2   1 .
TSS TSS
Dễ dàng chứng minh được rằng

ˆ XY  nY 2
R2  . (4.9)
YY  nY 2

Từ các công thức trên có thể thấy hệ số xác định R 2 có tính chất sau:
 0  R 2  1.
 Nếu R 2  1 khi đó đường hồi quy giải thích 100% sự thay đổi của Y bởi vì khi đó:
n

 û
i 1
2
i 0.

 Nếu R 2  0 khi đó mô hình không giải thích được sự thay đổi của Y.
 Nếu số biến độc lập càng tăng thì hệ số R 2 càng lớn, hay nói cách khác R 2 là một
hàm tăng theo các biến giải thích.
Như vậy, tính phù hợp của mô hình hồi quy tăng lên
khi có nhiều biến giải thích trong mô hình hơn. Tuy
nhiên, người ta luôn muốn dùng một số lượng biến
giải thích vừa đủ sao cho vẫn có được mô hình phù
hợp mà không quá tốn kém khi phải thu thập thông
tin của quá nhiều biến giải thích. Hơn nữa, nhiều
khi đưa thêm một số biến độc lập vào mô hình thì
tác động riêng phần của các biến độc lập đó tới biến phụ thuộc lại không thực sự có ý
nghĩa thống kê. Vậy cần có tiêu chuẩn đánh giá sự phù hợp của mô hình, trong đó có
cân nhắc đến số lượng biến giải thích của mô hình. Một trong số các tiêu chuẩn như vậy
là hệ số xác định hiệu chỉnh R 2 của R 2 , cho bằng biểu thức

54 STA301_Bài 4_v1.0013101214
Bài 4: Mô hình hồi quy bội
n

 û 2
i /(n  k)
R  1
2 i 1
n
.
y
i 1
2
i /(n  1)

trong đó n là số quan sát, k – 1 là số biến độc lập trong mô hình.


Dễ dàng thấy có mối quan hệ giữa R 2 và R 2 , cụ thể là:
(n  1)
R 2  1  (1  R 2 ) .
(n  k)
Từ đó R 2 có các tính chất sau:
 Nếu k > 1 thì R 2  R 2  1 ;
 Khi số biến độc lập k –1 tăng lên thì R 2 cũng tăng lên nhưng tăng chậm hơn so với R 2 ;
 R 2  0 , nhưng R 2 có thể âm. Khi R 2 nhận giá trị âm thì để cho tiện, thường thì
người ta gán lại cho nó giá trị bằng 0.
Trong thực hành, khi muốn đánh giá sự phù hợp của mô hình thì R 2 hay được dùng
hơn so với R 2 , vì nếu dùng R 2 ta dễ đưa ra một hình ảnh lạc quan quá mức về sự phù
hợp của mô hình, nhất là đối với các bài toán mà số lượng biến giải thích không nhỏ
hơn nhiều lắm so với số lượng quan sát. Tuy nhiên, quan điểm này còn được điều
chỉnh tùy theo bài toán cụ thể. Hơn nữa, ngoài hai thống kê R 2 và R 2 , người ta còn
dùng một số tiêu chuẩn khác để đánh giá tính phù hợp của mô hình, chẳng hạn như:
quy tắc thông tin Akaike hay quy tắc dự báo Amemiya.

4.7. Quan hệ giữa hệ số xác định và tiêu chuẩn kiểm định F


Xét mô hình hồi quy bội (4.5):
Yi  1  2 X 2i  3 X 3i  ...  k X ki  u i , i  1, n
Mô hình được gọi là không có hiệu lực giải thích, hay nói cách khác không giải thích
được sự thay đổi của biến Y, nếu toàn bộ các hệ số hồi quy riêng đều bằng 0. Vì vậy để
kiểm định sức mạnh hay mức ý nghĩa của mô hình ta cần kiểm định bài toán sau:
H 0 : 2  3  ...  k  0
 (4.10)
H1 : i  0
Để giải quyết bài toán kiểm định trên, ta dùng tiêu chuẩn thống kê sau:
(ˆ XY  nY 2 ) / k
F ~ F(k  1, n  k)
(YY  ˆ XY) /(n  k  1)
Khi giả thiết thống kê F có phân phối Fisher với k – 1 và n – k bậc tự do. Vậy với
mức ý nghĩa  ta có quy tắc kiểm định:
 Nếu Fqs  F  k  1, n  k  thì bác bỏ H 0 .
 Nếu Fqs  F  k  1, n  k  thì chưa bác bỏ H 0 .
Quan hệ giữa hệ số xác định R 2 và thống kê F được diễn giải như sau: Từ (4.5) và
(4.9), ta thấy bài toán kiểm định (4.10) tương đương với bài toán kiểm định
H 0 : R  0
2

 (4.11)
H1 : R  0
2

STA301_Bài 4_v1.0013101214 55
Bài 4: Mô hình hồi quy bội

ˆ XY  nY 2
Mặt khác: R 2  .
YY  nY 2

R 2 /  k  1
Do đó ta có: F  .
(1  R 2 ) /(n  k)

Vậy thống kê F cũng là tiêu chuẩn thống kê cho bài toán kiểm định (4.11).
Ví dụ 1
Một công ty muốn mở rộng thị trường kinh doanh tại
một thành phố. Trước khi quyết định mở chi nhánh tại
thành phố đó, công ty đã tiến hành nghiên cứu thị
trường bằng cách tiến hành quảng cáo và chào bán sản
phẩm của mình từ đó xem xét khả năng tiêu thụ sản
phẩm. Thu thập số liệu trong 10 tuần về số sản phẩm
bán được trong một tuần, giá sản phẩm X 2 và chi phí
cho quảng cáo X 3 ta có bảng số liệu sau:
Giá sản phẩm Cho phí quảng cáo Số sản phẩm bán ra/tuần
4.92 4.79 425
5.5 3.61 467
5.54 5.49 296
5.11 2.78 626
5.62 5.74 165
5.24 1.34 515
4.15 5.81 270
4.02 3.39 689
5.77 3.74 413
4.57 3.59 561

Phân tích số liệu bằng Evievs ta thu được báo cáo:

56 STA301_Bài 4_v1.0013101214
Bài 4: Mô hình hồi quy bội

Dựa vào kết quả báo cáo trong Evievs ta xây dựng được mô hình hồi quy tuyến tính 3
biến chỉ sự phụ thuộc của sản phẩm bán được Y với chi phí quảng cáo X 3 và giá thành sản
phẩm X 2 qua biểu thức

Ŷ  ˆ 1  ˆ 2 X 2  ˆ 3 X 3

với ˆ 1  1360.84 , ˆ 2  110.2952 , ˆ 3  89.82406 . Ngoài ra còn có hệ số xác định


bội R 2  0.772974 , hệ số xác định hiệu chỉnh (Adjusted R-Squared) R 2  0.708110 ,
giá trị tiêu chuẩn thống kê F (F-Static) Fqs2  11.91675 . Vậy mô hình hồi quy cụ thể là:

Ŷ  1360.84  110.2952X 2  89.82406X 3 .

Đối với mô hình này, ta cần đặt ra câu hỏi: Với mức ý nghĩa   0.05 thì giá bán và
chi phí quảng cáo có ảnh hưởng đến số lượng sản phẩm bán ra hay không?
Để trả lời cho câu hỏi này, ta cần kiểm định bài toán:

 H 0 :  2  3  0

 H1 : 2 , 3  0

hoặc kiểm định bài toán tương đương là:

H 0 : R 2  0

H1 : R  0
2

Cả hai bài toán trên đều có thể giải quyết bằng cách sử dụng thống kê F . Ta có
Fqs  11.91675 . Với n = 10, k = 2, tra bảng phân phối Fisher hoặc dùng lệnh Excel ta
tìm được phân vị F0.05  2;7   4.77 . Rõ ràng Fqs  F0.05  2;7  , vậy ta bác bỏ H 0 , kết
luận giá bán của sản phẩm và chi phí cho quảng cáo có ảnh hưởng đến số lượng sản
phẩm bán ra.
Hai bài toán kiểm định trên còn có thể giải quyết bằng cách so sánh xác suất ý nghĩa
tương ứng với mức ý nghĩa đã định. Kết quả của Eviews cho thấy xác suất ý nghĩa của
thống kê F (Prob(F-statistic)) có giá trị bằng 0.005575, nhỏ hơn 0.05, vậy có thể bác
bỏ giả thuyết H 0 .

4.8. Ước lượng khoảng cho hệ số hồi quy


Giả sử trong mô hình hồi quy (4.7), véc tơ nhiễu ngẫu nhiên u có phân phối chuẩn

N(0; 2 ) . Khi đó ta có véc tơ hệ số hồi quy ̂ có phân phối chuẩn N , 2  XX 
1
,
các thành phần của véc tơ đó cũng có phân phối chuẩn ˆ i ~ N  ;  2  , (i  1, k) , với
 2 chưa biết và nó có ước lượng không chệch là:
n
ˆ 2   u i2  n  k .
i 1

STA301_Bài 4_v1.0013101214 57
Bài 4: Mô hình hồi quy bội

ˆ i  i
Các thống kê t  đều có phân phối student với (n – k) bậc tự do. Do vậy, với
 
Se ˆ i

độ tin cậy 1  ta có khoảng ước lượng cho i là:

ˆ i  se(ˆ i )t n / 2k  i  ˆ i  se(ˆ i )t n / 2k ; i  1, k (4.12)


trong đó t n / 2k là phân vị của phân phối Student với (n – k) bậc tự do ứng với mức ý
nghĩa  / 2 , giá trị này có thể thu được bằng cách tra bảng hoặc dùng lệnh thích hợp
trong Excel.
Ví dụ 2: Từ dữ liệu trong ví dụ 1 hãy tìm ước lượng khoảng của hệ số hồi quy riêng
với độ tin cậy 95%.
Trong bảng kết quả của Eviews ta đã có:
ˆ  1360.84 ,
1 ˆ  110.2952 , 2

ˆ 3  89.82406
Trong cột Std.Error ta có:

   
Se ˆ 1  258.4298 , Se ˆ 2  47.91851 , Se ˆ 3  20.69356 .  
Ta thấy n  10 , k  3 , 1    0.95    0.05 . Từ đó tra bảng hoặc sử dụng Excel
(dùng lệnh Tinv(0.05,7)), ta sẽ có t 0.025
7
 2.365 . Thay các thông số tương ứng vào
(4.12), ta thu được các ước lượng khoảng của 2 và 3 lần lượt là:
110.2952  47.91851 2.365  2  110.2952  47.91851 2.365
 223.622  2  3.032 .
89.82406  20.69365  2.365  3  89.82406  20.69365  2.365
 138.765  3  40.8836 .

4.9. Kiểm định giả thuyết cho các hệ số hồi quy


Để so sánh các hệ số hồi quy với các giá trị giả định cho trước, ta có các giả thuyết
H 0 : i  *i (i  1, k)
đi kèm với một trong số các đối thuyết tương ứng H1 : i  *i hoặc H1 : i  *i hoặc
H1 : i  *i .

ˆ i  *i
Với giả thuyết về sai số ngẫu nhiên u như trong phần 4.4 ta thấy thống kê t i 
Se ˆ  i

có phân phối Student với n – k bậc tự do. Dựa vào kết quả đó ta có thể giải quyết một
loạt bài toán kiểm định so sánh ước lượng của các hệ số trong mô hình hồi quy tuyến
tính bội như sau:
H 0 : i  i
*

Bài toán 1: 
H1 : i  i
*

Miền bác bỏ: W  (;  t (n/2k ) )  (t (n k )


 / 2 ; ).

58 STA301_Bài 4_v1.0013101214
Bài 4: Mô hình hồi quy bội

H 0 : i  i
*

Bài toán 2: 
H1 : i  i
*

k )
Miền bác bỏ: W  (t (n
 ; ).

H 0 : i  *i
Bài toán 3: 
H1 : i  i
*

Miền bác bỏ: W  (;  t (n  k ) )

Sử dụng phần mềm Eviews chúng ta có thể tính được ngay giá trị tiêu chuẩn của
thống kê t i và xác suất ý nghĩa p tương ứng, từ đó có thể giải quyết bài toán theo hai
cách sau:
 Cách 1:
k )
Tìm phân vị t (n
/2 và miền bác bỏ W rồi so sánh tiêu chuẩn thống kê t i với W để
đưa ra kết luận.
 Cách 2:
So sánh xác suất ý nghĩa p với mức ý nghĩa  đã định trước như sau:
o Đối với Bài toán 1, nếu p   thì bác bỏ giả thuyết H 0 , còn nếu p   thì
chấp nhận H 0 .
o Đối với các Bài toán 2 và 3, nếu p / 2   thì bác bỏ giả thuyết H 0 , còn nếu
p / 2   thì chấp nhận H 0 .
Ví dụ 3: Xét số liệu trong ví dụ 1, với mức ý nghĩa   0.05 có thể cho rằng khi giá
sản phẩm tăng thì doanh số bán hàng sẽ giảm không?
Ta có phương trình hồi quy:
Y  0  2 X 2  3 X 3  u .

Nếu 2 âm thì Y phụ thuộc nghịch biến với X 2 , tức là X 2 tăng thì Y giảm. Vậy để
trả lời cho câu hỏi trên ta cần lập bài toán kiểm định giả thuyết
H 0 : 2  0

H1 : 2  0
Với kết quả của Eviews đưa ra ở phần trên, ta có:
ˆ 2 110.2952
t2    2.30172 .
se(ˆ 2 ) 47.91851
k )
 t 0.05  1.895 .
7
Mặt khác, với n  10, k  3,   0.05 , ta có t (n

Vậy miền bác bỏ của bài toán này là


W  (; 1.895) .
Rõ ràng ta có t 2  W , do đó ta có thể bác bỏ giả thuyết H 0 , chấp nhận H1 và đưa ra
kết luận 2  0 .

STA301_Bài 4_v1.0013101214 59
Bài 4: Mô hình hồi quy bội

Nếu giải quyết theo Cách 2 thì ta có xác suất ý nghĩa p bằng 0.0549, vậy
p / 2  0.0549 / 2    0.05 .
Do đó có thể bác bỏ giả thuyết H 0 .

4.10. Dự báo cho mô hình hồi quy tuyến tính bội


Một trong những ứng dụng quan trọng của hồi quy là
dự báo, bài toán đặt ra là dựa vào mô hình hồi quy hãy
dự báo giá trị của Y khi biết giá trị của X là X  . Xét
mô hình hồi quy
Ŷ  ˆ  ˆ X  ...  ˆ X  Xˆ .
1 2 2 k k

với X  (1, X 2 , X 3 ,..., X k ) ; ˆ  (ˆ 1 , ˆ 2 , ˆ 3 ,..., ˆ k ) ' .


Cho trước giá trị của các biến độc
lập X  X  (1, X2 , X3 ,..., Xk ) , khi đó giá trị dự báo
của Y là Ŷ :
Ŷ  E(Y | X2 , X3 ,..., Xk )  ˆ 1  ˆ 2 X2  ˆ 3X3  ...  ˆ k Xk .
Ví dụ 4: Xét số liệu trong ví dụ 1, hãy dự báo doanh số bán hàng trung bình khi giá
sản phẩm là 4.5 và chi phí quảng cáo là 3.2.
Ta có:
Ŷ  1360.84  110.2952X 2  89.824606X 3 .
Vậy với X2  4.5 và X3  3.2 , ta có:
Ŷ  E  Y | X 2  4.5, X 3  3.2   1360.84  110.2952  4.5  89.824606  3.2  577.07 .

60 STA301_Bài 4_v1.0013101214
Bài 4: Mô hình hồi quy bội

TÓM LƯỢC CUỐI BÀI


 Mô hình hồi quy bội gồm 2 biến độc lập:
Giả sử nghiên cứu sự phụ thuộc của Y vào 2 biến X2 và X3. Mô hình có dạng:
E  Y / X 2i , X 3i   1  2 X 2i  3 X 3i

hoặc Yi  1  2 X 2i  3 X 3i  u i

1 là hệ số chặn (hệ số tự do): giá trị trung bình của Y khi X2 = X3 = 0,


2 và 3 là các hệ số hồi quy riêng, chỉ sự thay đổi của trung bình của Y khi riêng X2 và X3
tăng hoặc giảm 1 đơn vị và biến còn lại cố định.
 Mô hình hồi quy bội gồm k biến (k–1 biến độc lập): Yi  1  2 X 2i  3 X 3i  ...  k X ki  u i .
Mô hình này có 1 biến phụ thuộc và k–1 biến độc lập (k biến)
Các hệ số hồi quy riêng βj thể hiện ảnh hưởng của riêng từng biến độc lập Xj lên trung bình
của Y khi các biến khác được giữ không đổi.
 Phương pháp OLS cho mô hình hồi quy bội.
Trong mô hình k biến chú ý công thức sau:
n

 û 2
i
RSS
ˆ 2  i 1
 .
nk nk
 Hệ số xác định bội R2 và hệ số xác định bội đã hiệu chỉnh.
Để đo độ phù hợp của hàm hồi quy, dùng R2. Giá trị của R2 cho biết bao nhiêu % sự biến
thiên của biến phụ thuộc được giải thích bởi đồng thời các biến độc lập hoặc được giải thích
bởi hàm hồi quy mẫu
ERR RSS
R2   1 .
TSS nk
Vì khi đưa thêm biến độc lập vào mô hình, R2 luôn luôn tăng lên nên người ta sử dụng hệ số
xác định bội đã điều chỉnh để xem xét việc có nên đưa thêm biến mới vào mô hình hay không:
n 1
R 2  1  1  R 2 
nk
R2  R2 0  R2  1
Hệ số R 2 có thể âm.
 Khoảng tin cậy với độ tin cậy 1  cho hệ số βi là:

   
ˆ i  Se ˆ t    i  ˆ i  Se ˆ t   i  1, k .
n k

2
n k

Khoảng tin cậy này cho biết khi Xi tăng hoặc giảm 1 đơn vị thì trung bình của biến phụ thuộc
sẽ thay đổi trong khoảng nào.
 Kiểm định về sự phù hợp của mô hình hồi quy
ˆ  
Tiêu chuẩn kiểm định: t i  i i
Se ˆ i  
STA301_Bài 4_v1.0013101214 61
Bài 4: Mô hình hồi quy bội

H 0 : i  i
*

Bài toán 1: 
H1 : i  i
*

   
Miền bác bỏ: W= ;  t n  k   t n  k  ;  .
2 2

H 0 : i  *i
Bài toán 2: 
H1 : i  i
*

 
Miền bác bỏ: W= t n  k  ;  .

H 0 : i  *i
Bài toán 3: 
H1 : i  i
*


Miền bác bỏ: W= ;  t n  k  . 

62 STA301_Bài 4_v1.0013101214
Bài 4: Mô hình hồi quy bội

CÂU HỎI THƯỜNG GẶP

1. Trong mô hình hồi quy bội, các giả thiết của phương pháp OLS có khác gì so với mô hình
hồi quy đơn?

2. Vai trò của các hệ số hồi quy trong mô hình hồi quy bội khác thế nào so với mô hình hồi quy đơn?

3. Hệ số xác định bội trong mô hình hồi quy bội cho biết điều gì?

4. Tại sao lại cần đưa ra khái niệm hệ số xác định bội đã điều chỉnh trong hàm hồi quy bội?

5. Khi nào thi nên đưa thêm biến độc lập mới vào mô hình nếu sử dụng hệ số xác định bội đã
điều chỉnh?

6. Khi nào thi ta cần xây dựng khoảng tin cậy cho các hệ số hồi quy?

7. Khi nào thì dùng khoảng tin cậy đối xứng, bên phải hoặc bên trái?

8. Kiểm định giả thiết về một hệ số hồi quy bằng 0 có ý nghĩa gì, kiểm định hệ số hồi quy bằng
một giá trị cụ thể có ý nghĩa gì?

9. Kiểm định F về sự phù hợp của mô hình hồi quy có ý nghĩa gì?

CÂU HỎI TRẮC NGHIỆM

1. Cho mô hình hồi quy Ŷ = 10 – 3X1 + 2.5X2. Điều khẳng định nào sau đây đúng?
A. X2 quan trọng hơn X1 vì dấu của hệ số là dương.
B. Khi X1 giảm 3 đơn vị, Y giảm 1 đơn vị.
C. Khi X2 giảm 2.5 đơn vị, Y giảm 1 đơn vị.
D. Khi X1 giảm 1 đơn vị, Y tăng 3 đơn vị.

2. Hệ số xác định bội đã điều chỉnh liên quan tới điều chỉnh R2 qua:
A. Tổng số tham số trong mô hình hồi quy.
B. Số biến phụ thuộc trong mô hình và kích thước mẫu.
C. Số biến độc lập trong mô hình và kích thước mẫu.
D. Hệ số tương quan và mức ý nghĩa.

3. Để kiểm định sự phù hợp của hàm hồi quy một mô hình gồm 5 biến độc lập và có 30 quan
sát, bậc tự do trong giá trị phân vị F là:
A. 5 và 30 B. 6 và 29
C. 5 và 24 D. 6 và 25
4. Mô hình hồi quy có dạng Ŷ  8  3X1  5X 2  4X 3 . Khi X3 tăng 1 đơn vị, với X1 và X2 giữ
không đổi, Y sẽ:
A. Tăng 1 đơn vị. B. Tăng 12 đơn vị.
C. Giảm 4 đơn vị. D. Giảm 16 đơn vị.

STA301_Bài 4_v1.0013101214 63
Bài 4: Mô hình hồi quy bội

5. Từ mô hình hồi quy với 3 biến độc lập và có 25 quan sát, tính được R2 = 0.769. Giá trị của
hệ số xác định bội đã hiệu chỉnh là:
A. 0.385 B. 0.877
C. 0.591 D. 0.736
6. Một mô hình hồi quy bội thì có:
A. Chỉ duy nhất 1 biến độc lập. B. Chỉ duy nhất 2 biến độc lập.
C. Nhiều hơn 1 biến độc lập. D. Nhiều hơn 1 biến phụ thuộc.
7. Cho mô hình hồi quy: Ŷ  2  3X1  4X 2  5X 3 , 1 đơn vị tăng của X1, X2 và X3 giữ không
đổi, sẽ dẫn đến:
A. Tăng 3 đơn vị của Y. B. Giảm 3 đơn vị của Y.
C. Đơn vị 8 đơn vị của Y. D. Không có lựa chọn nào ở trên.
8. Để kiểm định sự phù hợp của mô hình hồi quy có 4 biến độc lập, giả thuyết H0 là:
A. H 0 : 2  3  4  5  1. B. H 0 : 1  2  3  4  5 .
C. H 0 : 2  3  4  5  0. D. H 0 : 1  2  3  4  5  0.
9. Trong mô hình hồi quy bội, giá trị của hệ số R2 nằm trong khoảng:
A. 1 và +1. B. 0 và +1.
C. 1 và 0. D. không có lựa chọn nào ở trên.
10. Để kiểm định về sự phù hợp của mô hình hồi quy bội, ta kiểm định sự bằng không của tất cả
các hệ số hồi quy bằng kiểm định:
A. Kiểm định t. B. Kiểm định z.
C. Kiểm định F. D. Không có lựa chọn nào ở trên.

64 STA301_Bài 4_v1.0013101214
Bài 5: Đa cộng tuyến

BÀI 5. ĐA CỘNG TUYẾN

Mục tiêu

Sau khi kết thúc bài, học viên sẽ hiểu


được những vấn đề sau đây:
• Hiện tượng đa cộng tuyến (ĐCT) xảy
ra khi nào?
• Phân biệt ĐCT hoàn hảo và không
hoàn hảo.
• Hậu quả của ĐCT.
• Phát hiện ĐCT.
• Các biện pháp khắc phục ĐCT.

Nội dung Hướng dẫn học

• ĐCT là gì? • Đọc tài liệu để có được những ý


• Phân biệt ĐCT hoàn hảo và không hoàn hảo. tưởng chính.
• Hậu quả của ĐCT. • Nghe thật kỹ bài giảng của giảng viên
• Phát hiện ĐCT. để nắm được bản chất của hiện tượng.

• Khắc phục ĐCT. • Tập trung vào phần khái niệm, các
biện pháp phát hiện và khắc phục.

Thời lượng

• 6 tiết

65
Bài 5: Đa cộng tuyến

TÌNH HUỐNG DẪN NHẬP

Tình huống
Các nhà quản lí siêu thị BigC, muốn xem xét việc giảm giá mặt
hàng thịt gà để kích thích tiêu dùng. Để thực hiện điều này, các
nghiên cứu viên muốn dùng phương pháp Kinh tế lượng trong
đó biến phụ thuộc được chọn chính là tiêu dùng của mặt hàng
thịt gà của dân chúng, các biến độc lập sẽ là thu nhập của người
tiêu dùng, giá của thịt gà và giá của thịt lợn là mặt hàng cạnh
tranh với thịt gà tại các thời điểm quan sát.
Vấn đề đặt ra trong nghiên cứu là chọn các biến độc lập vào trong mô hình. Vì lạm phát là tình
trạng chung của cả nền kinh tế nên các mặt hàng thường có tình trạng cùng tăng giá hoặc cùng
giảm giá, nhất là những mặt hàng thiết yếu như thịt gà và thịt lợn. Nếu như các nhà nghiên cứu
chọn cả giá thịt gà và giá thịt lợn làm biến độc lập trong mô hình, chúng sẽ có quan hệ cùng
tăng hoặc cùng giảm. Vì thế khi tiến hành phân tích bằng mô hình kinh tế lượng, sẽ khó để
phân tách ảnh hưởng của từng biến này lên tiêu dùng về thị gà hoặc sẽ gây ra các hậu quả về
mặt kỹ thuật trong quá trình phân tích.

Câu hỏi
• Vậy trong tình huống như thế này thì các nhà nghiên cứu cần có biện pháp gì?
• Trong bài học sau đây, học viên sẽ được xem xét một khuyết tật của mô hình kinh tế lượng
trong tình huống nêu trên, đó là đa cộng tuyến. Làm thế nào để phát hiện và khắc phục hiện
tượng này khi xem xét một mô hình với nhiều biến độc lập?

66
Bài 5: Đa cộng tuyến

Trong bài trước chúng ta xét mô hình hồi quy bội với giả thiết
các biến giải thích X i độc lập tuyến tính với nhau. Tiếp theo đây
chúng ta sẽ xét bài toán hồi quy bội khi giả thiết về tính độc lập
tuyến tính đó bị phá vỡ và sẽ đưa ra cách thức phát hiện và biện
pháp khắc phục hiện tượng giả thiết đó bị vi phạm.
Trong mô hình hồi quy ở bài trước thì các hệ số hồi quy đối với
một biến cụ thể là số đo tác động riêng phần của biến tương ứng
khi tất cả các biến khác trong mô hình được giữ cố định. Nếu tính
độc lập bị phá vỡ, tức là các biến giải thích có tương quan thì chúng ta không thể chỉ cho một
biến thay đổi và giữ các biến còn lại cố định. Do vậy chúng ta không thể tách biệt sự ảnh hưởng
riêng phần của một biến nào đó.

5.1. Khái niệm đa cộng tuyến

5.1.1. Đa cộng tuyến hoàn hảo


Bài toán
Các biến X 2 , X 3 ,..., X k gọi là các đa cộng tuyến hoàn hảo hay còn gọi là đa cộng
tuyến chính xác nếu tồn tại λ 2 ,..., λ k không đồng thời bằng không sao cho:
λ 2 X 2 + λ 3 X 3 + ... + λ k X k = 0 (5.1)

5.1.2. Đa cộng tuyến không hoàn hảo (gần đa cộng tuyến)


Bài toán
Các biến X 2 , X 3 ,..., X k gọi là các đa cộng tuyến không hoàn hảo nếu tồn tại λ 2 ,..., λ k
không đồng thời bằng không sao cho:
λ 2 X 2 + λ 3 X 3 + ... + λ k X k + v = 0 (5.2)
trong đó v là sai số ngẫu nhiên.
Trong (5.2) giả sử ∃λ i ≠ 0 khi đó ta biểu diễn:
λ2 λ λ v
Xi = − X 2 − 3 X 3 − ... − k X k − (5.3)
λi λi λi λi
Từ (5.3) ta thấy hiện tượng đa cộng tuyến xảy ra khi
một biến là tổ hợp tuyến tính của các biến còn lại và
một sai số ngẫu nhiên, hay nói cách khác là có một
biến biểu diễn xấp xỉ tuyến tính qua các biến còn lại.
Một số nguyên nhân gây ra hiện tượng đa cộng tuyến:
• Các biến độc lập trong mô hình có tương quan cao;
• Số quan sát nhỏ hơn số biến độc lập;
• Phương pháp thu thập số liệu.

5.2. Ước lượng khi có đa cộng tuyến hoàn hảo


Chúng ta sẽ thấy rằng khi có hiện tượng đa cộng tuyến hoàn hảo thì các hệ số hồi quy
có thể không xác định và sai số tiêu chuẩn của chúng có thể bằng vô cùng. Để đơn
giản chúng ta xét mô hình hồi quy 3 biến

67
Bài 5: Đa cộng tuyến

(
Yi = βˆ 1 + βˆ 2 X 2i + βˆ 3 X 3i + u i , i = 1, n . ) (5.4)

Đặt: yi = Yi − Y, x 2i = X 2i − X 2 , x 3i = X 3i − X 3 , ta có

yi = βˆ 2 x 2i + βˆ 3 x 3i + u i (5.5)

Trong phần hồi quy bội ta đã có các ước lượng βˆ 2 , βˆ 3 là:


n n n n

∑ yi x 2i ∑ x 3i2 − ∑ yi x 3i ∑ x 2i x 3i
βˆ 2 = i =1 i =1 i =1 i =1
2
(5.6)
n
⎛ n
⎞ n


i =1
x ∑ x − ⎜ ∑ x 2i x 3i ⎟
2
2i
i =1 ⎝ i =1
2
3i

n n n n

∑ yi x 3i ∑ x 22i − ∑ yi x 2i ∑ x 2i x 3i
βˆ 3 = i =1 i =1 i =1 i =1
2
(5.7)
n n
⎛ n


i =1
x 22i ∑ x 3i2 − ⎜ ∑ x 2i x 3i ⎟
i =1 ⎝ i =1 ⎠
Nếu có hiện tượng đa cộng tuyến hoàn hảo thì ta có:
X 3i = λX 2i ⇒ x 3i = λx 2i .
Thay vào biểu thức (5.6) và (5.7), ta có:
0
βˆ 2 = βˆ 3 = (5.8)
0
Rõ ràng (5.8) là không xác định.Vậy trường hợp đa cộng tuyến hoàn hảo chúng ta
không ước lượng được các hệ số hồi quy riêng βˆ , βˆ cho mô hình (5.4). 2 3

5.3. Ước lượng khi có đa cộng tuyến không hoàn hảo


Trong thực tế hiếm khi xảy ra trường hợp đa cộng
tuyến hoàn hảo vì các biến độc lập hiếm khi có quan
hệ thực sự tuyến tính với nhau. Vì vậy nếu có hiện
tượng đa cộng tuyến thì thường chỉ xảy ra hiện tượng
đa cộng tuyến không hoàn hảo. Để đơn giản, ta cũng
xét mô hình hồi quy 3 biến với đa cộng tuyến không
hoàn hảo
Yi = βˆ 1 + βˆ 2 X 2i + βˆ 3 X 3i + u i , ( i = 1, n ) (5.9)

với u i là các nhiễu ngẫu nhiên không tương quan với các biến độc lập. Khi đó giữa
hai biến độc lập X 2 , X 3 có sự đa cộng tuyến không hoàn hảo, nghĩa là

X 3i = λX 2i + vi (5.10)

với λ ≠ 0 , vi là các nhiễu ngẫu nhiên không tương quan với X 2i và X 3i , tức là
n n

∑ X 2i vi = 0 ,
i =1
∑X
i =1
3i vi = 0.

68
Bài 5: Đa cộng tuyến

Từ (5.10) ta cũng có: x 3i = λx 2i + vi (5.11)


n n
và ∑ x 2i vi = 0 ,
i =1
∑x
i =1
3i vi = 0.

Ta có ước lượng cho β̂2 là:


n
⎛ 2 n 2 n
2⎞ ⎛
n n
⎞ n
∑ y x
i 2i ⎜ λ
⎝ i =1
∑ x 2i + ∑ v i ⎟ ⎜ ∑ i 2i
− λ
⎠ ⎝ i =1
y x + ∑ y i i ⎟ ∑ λx 2i
v
⎠ i =1
2

βˆ 2 = i =1 i =1 i =1
2
(5.12)
n
⎛ n n
⎞ ⎛ n

∑i =1
x 22i ⎜ λ 2 ∑ x 22i + ∑ vi2 ⎟ − ⎜ λ ∑ x 22i ⎟
⎝ i =1 i =1 ⎠ ⎝ i =1 ⎠
Tương tự ta cũng có biểu thức của β̂3 .

5.4. Hậu quả của hiện tượng đa cộng tuyến


Ta xét trường hợp mô hình có hiện tượng đa cộng
tuyến không hoàn hảo, tức là biến độc lập X i có thể
xấp xỉ tuyến tính theo các biến X 2 , X 3 ,..., X k . Đối với
mô hình hồi quy 3 biến thì X 3 có thể xấp xỉ theo X 2 ,
nghĩa là hệ số tương quan riêng r23 có giá trị tuyệt đối
xấp xỉ 1.
Trong chương mô hình hồi quy bội ta đã có biểu thức:
σ2
( )
Var βˆ 2 = n
(5.13)
∑ x (1 − r )
i =1
2
2i
2
23

σ2
( )
Var βˆ 3 = n
(5.14)
∑ x (1 − r )
i =1
2
3i
2
23

đồng thời với độ tin cậy 95% ta có khoảng ước lượng cho β2 , β3 là :

( ( )
βi ∈ βˆ i − 1.96Se βˆ i ; βˆ i + 1.96Se βˆ i ( )) (5.15)

với ( ) ( )
Se βˆ i = Var βˆ i , ( i = 2,3) .

Ta thấy rằng khi r23 xấp xỉ 1 thì:

( )
• Phương sai Var βˆ 2 , Var βˆ 3 gần với ∞ ; ( )
• Khoảng ước lượng của β2 , β3 lớn, hay nói cách khác là khoảng ước lượng tiến tới
( −∞, +∞ ) . Vì vậy ước lượng hệ số trở lên khó có hiệu lực, tức là không có ý nghĩa,
vì khoảng ước lượng quá lớn.
Để kiểm định giả thuyết H 0 : βi = 0 , i = 2,3 , ta dùng các tiêu chuẩn thống kê

βˆ i
ti = , i = 2,3 .
se(βˆ i )

69
Bài 5: Đa cộng tuyến

Tuy nhiên, cả hai thống kê này đều tiến dần tới 0 do Se(βˆ i ) → ∞ , vì vậy khả năng
chấp nhận giả thuyết H 0 sẽ rất lớn. Điều này mâu thuẫn với thực tế vì rõ ràng mức
tiêu dùng nội địa phụ thuộc vào các nguồn thu X 2 , X 3 .

CHÚ Ý
Nếu trong mô hình có hiện tượng đa cộng tuyến thì mô hình hồi quy không giải thích được
mối quan hệ giữa các biến..

5.5. Phát hiện hiện tượng đa cộng tuyến


Ta đã thấy hậu quả của hiện tượng đa cộng tuyến
trong mô hình hồi quy. Vì vậy vấn đề quan trọng là
làm thế nào để phát hiện ra hiện tượng đa cộng
tuyến và biện pháp khắc phục ra sao.
Một số quy tắc để phát hiện ra hiện tượng đa
cộng tuyến:
• Hệ số xác định R 2 lớn nhưng giá trị của thống kê t lại nhỏ: Khi thấy trong mô
hình hồi quy có hệ số xác định R 2 khá cao ( R 2 > 0.8) nhưng các giá trị thống kê
t i thấp và xác suất ý nghĩa tương ứng tương đối cao thì có thể kết luận đã có hiện
tượng đa cộng tuyến.
• Hệ số tương quan giữa các biến độc lập có giá trị tuyệt đối lớn: Ta có thể tính các
hệ số tương quan rij giữa các biến độc lập. Nếu rij khá gần 1 thì kết luận có hiện
tượng đa cộng tuyến.
Ta xét ví dụ sau:
Ví dụ 1: Trong nghiên cứu của Klein và Golberger (1985) về mối quan hệ giữa tiêu
dùng nội địa Y, thu nhập từ lương X 2 , thu nhập khác phi nông nghiệp X 3 , thu nhập từ
nông nghiệp X 4 của kinh tế Mỹ từ năm 1928 đến 1950, các số liệu năm 1942 và 1944
bị khuyết. Klein và Golberger thực hiện mô hình hồi quy của tiêu dùng nội địa Y theo
3 loại thu nhập X 2 , X 3 , X 4 .

Năm Y X2 X3 X4

1928 52.8 39.21 17.73 4.39

1929 62.2 42.31 20.29 4.60

1930 58.6 40.37 18.83 3.25

1931 56.6 39.15 17.44 2.61

1932 51.6 34.00 14.76 1.67

1933 51.1 33.59 13.39 2.44

1934 54 36.88 13.93 2.39

1935 57.2 39.27 14.67 5.00

70
Bài 5: Đa cộng tuyến

1936 62.8 45.51 17.20 3.93

1937 65 46.06 17.15 5.48

1938 63.9 44.16 15.92 4.37

1939 67.5 47.68 17.59 4.51

1940 71.3 50.79 18.49 4.90

1941 76.6 57.78 19.18 6.37

1945 86.3 78.97 19.12 8.42

1946 95.7 73.54 19.76 9.27

1947 98.3 74.92 17.55 8.87

1948 100.3 74.01 19.17 9.30

1949 103.2 75.51 20.20 6.95

1950 108.9 80.97 22.12 7.15

Ta có mô hình hồi quy: Y = βˆ 1 + βˆ 2 X 2 + βˆ 3 X 3 + βˆ 4 X 4 .


Rõ ràng giữa các biến thu nhập X 2 , X3 , X 4 có hiện tượng đa cộng tuyến vì khi kinh tế
tăng trưởng thì các loại thu nhập X 2 , X3 , X 4 cũng tăng.
Thực hiện các thủ tục tương ứng của phần mềm Eviews ta thu được kết quả trong
bảng sau:

Theo kết quả trong bảng trên ta có mô hình ước lượng được như sau:
Y = 7.304002 + 1.135052X 2 + 0.4053X 3 − 0.405888X 4 .

71
Bài 5: Đa cộng tuyến

Rõ ràng hệ số xác định của mô hình R 2 = 0.954028 là khá cao, trong khi đó các thống
kê t i của các hệ số hồi quy β3 và β4 có giá trị rất thấp, cụ thể là t 3 = 0.628347,
t 4 = −0.367274 với các xác suất ý nghĩa tương ứng bằng 0.5386 và 0.7182, do đó ta
phải chấp nhận các giả thuyết: H 0 : βi = 0 , i = 3, 4 .

5.6. Biện pháp khắc phục hiện tượng đa cộng tuyến


Trong phần trước chúng ta đã thấy được hậu quả của hiện tượng đa cộng tuyến trong
mô hình hồi quy và cách phát hiện hiện tượng đa cộng tuyến. Phần này đưa ra các
biện pháp khắc phục.
• Sử dụng thông tin tiên nghiệm
Mấu chốt của hiện tượng đa cộng tuyến là
thông tin mẫu vì vậy một trong những biện
pháp khắc phục là sử dụng thông tin tiên
nghiệm (là các thông tin đã biết từ trước về mô
hình) hoặc thông tin bên ngoài để ước lượng
các hệ số hồi quy.
Ta xét ví dụ sau :
Thiết lập một phương trình sản xuất của một quá trình sản xuất ta có phương trình :

Yi = β1Lβi 2 K βi 3 e ui (5.16)

trong đó Yi là lượng sản phẩm được sản xuất ở thời kỳ thứ i, Li là lượng lao động
ở thời kỳ thứ i, K i là nguồn vốn có được trong thời kỳ thứ i, U i là nhiễu ngẫu
nhiên, β1 , β2 , β3 là các hằng số cần ước lượng. Lấy lôgarit 2 vế của (5.16) ta có:

ln Yi = ln β1 + β2 ln ( Li ) + β3 ln ( K i ) + u i (5.17)

Đặt: Yi* = ln Yi ; L*i = ln ( Li ) ; K*i = ln ( K i ) , khi đó phương trình (5.16) chuyển thành

Yi* = ln β1 + β2 L*i + β3K *i + u i (5.18)

Nếu tương quan giữa K và L cao, tức là có hiện


tượng đa cộng tuyến, khi đó phương sai của các
ước lượng β2 , β3 sẽ lớn. Tuy nhiên, nếu ta lại
biết được từ nguồn thông tin bên ngoài là ngành
sản xuất này có quy mô không đổi, tức là
β2 + β3 = const (chẳng hạn β2 + β3 = 1 ), thì khi
đó ta có:

Yi* = ln β1 + β2 L*i + (1 − β2 ) K*i + u i

= ln β1 + β2 ( L*i − K*i ) + K *i + u i ,

Yi* − K*i = ln β1 + β2 ( L*i − K*i ) + u i . (5.19)

72
Bài 5: Đa cộng tuyến

Đặt: Yi** = Yi* − K *i ; X**


i = L i − K i , khi đó phương trình (5.16) được đưa về
* *

Yi** = ln β1 + β2 X**
i + ui (5.20)

Rõ ràng (5.20) là phương trình hồi quy đơn, do đó ta có thể ước lượng được các hệ
số ln β1 , β2 và từ đó tính được ước lượng của β3 .
• Loại bỏ biến đa cộng tuyến
Biện pháp bỏ biến trong mô hình đa cộng tuyến là biện pháp đơn giản nhất. Ta
thấy rằng hiện tượng đa cộng tuyến xảy ra khi biến độc lập nào đó có biểu diễn
tuyến tính hoặc gần tuyến tính qua các biến độc lập khác. Vì thế ta hãy loại biến đó
ra khỏi mô hình, nhưng vấn đề đặt ra là không chỉ có một biến biểu diễn tuyến tính
qua các biến khác mà có nhiều biến như vậy. Vì vậy ta cần dựa vào một số quy tắc
để quyết định bỏ biến nào trong số các biến độc lập của mô hình. Hai quy tắc
thường được áp dụng trước tiên khi gặp phải hiện tượng đa cộng tuyến là khảo sát
hệ số tương quan cặp giữa các biến độc lập và sử dụng các mô hình hồi quy phụ.
Cụ thể:
o Khi giữa hai biến độc lập nào đó có mối tương quan tuyến tính mạnh (hệ số
tương quan giữa hai biến có giá trị tuyệt đối rất gần 1), ta có thể dựa vào ý
nghĩa thực tế để cân nhắc loại bỏ một trong hai biến đó ra khỏi phương trình
hồi quy.
o Các mô hình hồi quy phụ với một biến độc lập nào đó được hồi quy theo các
biến độc lập còn lại có thể được sử dụng để xác định biến cần loại bỏ khỏi mô
hình. Nếu hệ số xác định của mô hình hồi quy phụ có giá trị lớn (trên 80%
chẳng hạn), ta có thể khẳng định biến được giải thích trong mô hình hồi quy
phụ được xấp xỉ tuyến tính qua các biến độc lập còn lại, do đó có thể bị loại ra
khỏi danh sách các biến độc lập của mô hình hồi quy chính.
• Sử dụng sai phân cấp 1
Khi số liệu có cấu trúc chuỗi thời gian, ta có thể sử dụng phương pháp sai phân để
giảm bớt tính đa cộng tuyến trong số liệu, chẳng hạn xét mô hình hồi quy 3 biến
Yt = β1 + β2 X 2t + β3 X 3t + u t (5.21)

trong đó t là chỉ số quan sát theo các thời điểm cách đều nhau. Giả sử giữa hai biến
độc lập X 2t và X 3t có hiện tượng cộng tuyến. Để giảm tính đa cộng tuyến ta có
thể sử dụng phương pháp sai phân như sau: Phương trình (5.13) cũng đúng với giai
đoạn t-1, tức là:
Yt −1 = β1 + β2 X 2t −1 + β3 X 3t −1 + u t −1 (5.22)

Trừ (5.21) và (5.22) cho nhau, ta nhận được


Yt − Yt −1 = β2 ( X 2t − X 2t −1 ) + β3 ( X 3t − X 3t −1 ) + u t − u t −1

Đặt:
ΔYt = Yt − Yt −1 ;

ΔX 2t = X 2t − X 2t −1 ;

73
Bài 5: Đa cộng tuyến

ΔX 3t = X 3t − X 3t −1 ;

ΔU t = u t − u t −1 .

ta có: ΔYt = β2 ΔX 2t + β3 ΔX 3t + Δu t (5.23)

Mô hình (5.23) có thể khắc phục được hiện tượng


đa cộng tuyến giữa các biến độc lập. Tuy nhiên giải
pháp này có thể làm nảy sinh một vấn đề là sai số
ngẫu nhiên Δu t có thể không thỏa mãn giả thiết
của mô hình hồi quy là không tương quan với
nhau. Vì vậy biện pháp này có thể gây ra hậu quả
nghiêm trọng hơn.
• Tăng quan sát :
Hiện tượng đa cộng tuyến có thể xuất hiện do cỡ mẫu nhỏ. Vì vậy chúng ta có thể
tăng thêm số quan sát đủ lớn. Nhưng chúng ta biết rằng khi tăng thêm số quan sát
thì chúng ta lại phải tăng thêm chi phí cũng như thời gian lấy mẫu.
Ví dụ 2: Thông tin về chi phí tiêu dùng Y, thu nhập X 2 và tiền tích lũy X 3 ta có bảng số
liệu sau :

Y 70 65 90 95 110 115 120 140 155 150

X2 80 100 120 140 160 180 200 220 240 260

X3 810 1009 1273 1425 1633 1876 2052 2201 2435 2686

Dùng thủ tục hồi quy của Eviews ta thu được phương trình hồi quy
Yi = 24.7747 + 0.941537X 2i − 0.042435X 3i (5.24)
với các sai sô tiêu chuẩn

( )
Se βˆ 1 = 6.7525;

( )
Se βˆ 2 = 0.822898;

( )
Se βˆ 3 = 0.808664 .

và giá trị của các thống kê

t1 = 3.668972, t 2 = 1.144172, t 3 = −0.526062

R 2 = 0.963504, R 2 = 0.953077.

Ta thấy rằng hệ số xác định R 2 của mô hình rất gần 1, trong khi đó thống kê t3 lại có
giá trị rất gần 0, tương ứng với xác suất ý nghĩa khá lớn. Vậy hiện tượng đa cộng
tuyến xảy ra trong mô hình này.

74
Bài 5: Đa cộng tuyến

Để tìm cách khắc phục hiện tượng đa cộng tuyến, ta xét mô hình hồi quy phụ của X 2
theo X 3 , chạy thủ tục của Eviews thu được kết quả:

X 2 = −0.368271 + 0.09792X 3 + u

t 2 = 62.04047 , R 22 = 0.997926 .

Vậy ta thấy tương quan của X 2 và X 3 khá lớn. Điều này một mặt khẳng định một lần
nữa sự có mặt của hiện tượng đa cộng tuyến, mặt khác cũng gợi ý việc loại bỏ bớt
biến độc lập ra khỏi mô hình là một giải pháp xử lý hiện tượng đa cộng tuyến.
Ta xét mô hình hồi quy sau khi lần lượt loại các biến độc lập X 2 , X 3 ra khỏi mô hình:
• Khi loại X 2 ta có

75
Bài 5: Đa cộng tuyến

Yi = 24.41104 + 0.049764X 3i

( )
Se βˆ 1 = 6.874097, t1 = 3.551164

Se ( βˆ ) = 0.003744, t
3 3 = 13.29166

R12 = 0.956679, R12 = 0.951264

• Loại X 3 , ta có:

Yi = 24.45455 + 0.509091X 2i

( )
Se βˆ 1 = 6.413817, t1 = 3.812791

Se ( βˆ ) = 0.035743, t
2 2 = 14.24317

R 22 = 0.962062, R 22 = 0.957319 .

Ta thấy R12 < R 22 nên bỏ biến X 3 ra khỏi mô hình là hợp lý.

76
Bài 5: Đa cộng tuyến

TÓM LƯỢC CUỐI BÀI


• ĐCT là gì?
Mô hình nhiều biến độc lập:
E(Y X i ) = β1 + β2 X 2i + ... + βk X ki (k ≥ 3)

Các biến độc lập có quan hệ cộng tuyến (ví dụ có quan hệ bậc nhất với nhau thì) mô hình có
hiện tượng đa cộng tuyến (multicollinearity).
• Phân biệt ĐCT hoàn hảo và không hoàn hảo
Xét mô hình: Y = β1 + β2 X 2 + β3 X 3 + u.
Đa cộng tuyến hoàn hảo: nếu X 2 = λX 3 .
Đa cộng tuyến không hoàn hảo: nếu X 2 = λX 3 + v.
• Hậu quả của ĐCT
Ước lượng OLS khi có hiện tượng đa cộng tuyến cao:
Vẫn là ước lượng tuyến tính không chệch tốt nhất trong lớp các ước lượng tuyến tính không
chệch.Tuy nhiên nó không tốt, như sau:
o Phương sai của các ước lượng lớn => Độ chính xác thấp.
o Khoảng tin cậy thường rộng.
2
o Tỷ số t thường nhỏ => Các hệ số không có ý nghĩa nhưng R vẫn lớn.
o Dấu hệ số ước lượng có thể sai.

• Phát hiện ĐCT:


Dựa trên kết quả hồi quy; một số dấu hiệu sau đây có thể cho biết có ĐCT trong mô hình:
2
o R cao nhưng tỉ số t lại thấp (nhiều biến độc lập không có ý nghĩa.
o Dấu của hệ số ước lượng có thể sai so với kì vọng ban đầu.
o Hệ số tương quan riêng giữa các biến độc lập cao.

• Các biện pháp khắc phục ĐCT:


o Thêm thông tin.
o Sử dụng thông tin tiên nghiệm.
o Bỏ bớt biến.
o Nếu không quá nghiêm trọng thì không cần khắc phục.

77
Bài 5: Đa cộng tuyến

CÂU HỎI THƯỜNG GẶP


1. Trong mô hình hồi quy đơn có xảy ra hiện tượng đa cộng tuyến hay không ?
2. Trong 2 loại đa cộng tuyến hoàn hảo và không hoàn hảo, loại nào thường gặp hơn trong thực
tế và vì sao?
3. Có phải khi nào ta cũng có đa cộng tuyến trong mô hình hồi quy bội vì giữa các biến kinh tế
thường tồn tại một quan hệ nào đó?
4. Các hậu quả của đa cộng tuyến gần hoàn hảo được thể hiện thế nào?
5. Đa cộng tuyến xảy ra có ảnh hưởng gì đến tính chất của các ước lượng của các hệ số hồi quy?
6. Có thể nhận biết được đa cộng tuyến xảy ra mà không cần thực hiện các kiểm định?
7. Khi thực hiện hồi quy phụ để phát hiện ra đa cộng tuyến, có nhất thiết phải thành lập tất cả
các hàm hồi quy phụ có thể không?
8. Trong các biện pháp khắc phục đa cộng tuyến thì biện pháp nào phổ biến?

CÂU HỎI TRẮC NGHIỆM


1. Khi các biến độc lập tương quan với nhau trong mô hình hồi quy bội, hiện tượng này gọi là:
A. Phương sai của sai số thay đổi. B. Phương sai của sai số không đổi.
C. Đa cộng tuyến. D. Tự tương quan.
2. Nếu có đa cộng tuyến thì:
A. Khó phân tách ảnh hưởng của từng biến độc lập lên biến phụ thuộc.
B. Sai số tiêu chuẩn của các hệ số hồi quy lớn.
C. Các giá trị t quan sát trong kiểm định t nhỏ.
D. Tất cả các điều trên đều đúng.
3. Điều nào sau đây là đúng đối với đa cộng tuyến:
A. Nó xảy ra ở hầu hết các mô hình hồi quy bội.
B. Hầu hết đa cộng tuyến là không hoàn hảo hoặc gần hoàn hảo.
C. Là hiện tượng khi các biến độc lập tương quan với nhau.
D. Tất cả các điều trên là đúng.
4. Các phương pháp có thể dùng để khắc phụ đa cộng tuyến là:
A. Dùng phương trình sai phân cấp 1. B. Dùng thông tin tiên nghiệm.
C. Dùng cách bỏ biến. D. Các cách ở trên đều đúng.
5. Đa cộng tuyến có thể được phát hiện bằng các cách sau đây trừ:
A. Dùng hàm hồi quy phụ.
B. Dùng dấu hiệu nhận biết trong kết quả hồi quy.
C. Dùng đồ thị các phần dư.
D. Dùng ma trận hệ số tương quan của các biến độc lập.

78
Bài 6: Phương sai số thay đổi

BÀI 6. PHƯƠNG SAI SAI SỐ THAY ĐỔI

Mục tiêu

Sau khi kết thúc bài, học viên sẽ hiểu


được những vấn đề sau đây:
 Hiện tượng phương sai của sai số
(PSSS) thay đổi xảy ra khi nào?
 Hậu quả của PSSS thay đổi.
 Phát hiện PSSS thay đổi
 Các biện pháp khắc phục PSSS thay đổi

Nội dung Hướng dẫn học

 PSSS thay đổi là gì?  Cần nắm được bản chất của hiện
 Hậu quả của PSSS thay đổi. tượng, đó là khi giả thiết của phương
 Phát hiện PSSS thay đổi. pháp OLS không thỏa mãn.

 Khắc phục PSSS thay đổi.  Tập trung vào hậu quả chính của hiện
tượng này đó là làm cho các ước
lượng OLS sẽ là các ước lượng không
hiệu quả.
 Hiểu rõ ý tưởng của các phương pháp
phát hiện ra hiện tượng.
 Hiểu rõ ý tưởng của các phương pháp
khắc phục hiện tượng.

STA301_Bài 6_v1.0013101214 79
Bài 6: Phương sai số thay đổi

TÌNH HUỐNG DẪN NHẬP

Tình huống
Ngân hàng Đầu tư và phát triển Việt Nam BIDV nghiên cứu về tiết
kiệm phụ thuộc vào tiêu dùng của người dân Hà Nội và người dân Lai
Châu cũng như các tỉnh ở miền Bắc, xảy ra khả năng là sự phân tán
của tiết kiệm của người dân Lai Châu sẽ nhỏ hơn so với phân tán
trong tiết kiệm của người dân Hà Nội.
Khi nghiên cứu một vấn đề nào đó bằng phương pháp kinh tế lượng,
ta đều sử dụng một mô hình hồi quy. Và để ước lượng mô hình hồi
quy, ta thường dùng phương pháp OLS (bài học số 3). Tuy nhiên, để
thực hiện được phương pháp OLS thì về mặt kỹ thuật, một giả thiết
trong mô hình cần thỏa mãn. Đó là giả thiết về sự bằng nhau của các
nhiễu ngẫu nhiên. Về bản chất thì giả thiết này muốn ngụ ý rằng sự phân tán trong các quan
sát của biến phụ thuộc là như nhau.

Câu hỏi
Vấn đề đặt ra, khi Ngân hàng BIDV nghiên cứu vấn đề trên bằng phương pháp kinh tế lượng
thì hậu quả sự phân tán tiết kiệm của người dân Hà Nội và Lai Châu khác nhau như vậy là gì?

80 STA301_Bài 6_v1.0013101214
Bài 6: Phương sai số thay đổi

Trong các bài trước chúng ta đã dùng phương pháp bình phương bé nhất để ước lượng các hệ số
của mô hình hồi quy. Để phương pháp đó có hiệu quả, ta phải xét mô hình hồi quy dưới một số
giả thiết, trong đó có một giả thiết rất quan trọng là các nhiễu ngẫu nhiên u i có phương sai không
đổi. Một câu hỏi đặt ra là nếu giả thiết này bị vi phạm thì hậu quả sẽ thế nào? Đồng thời, làm thế
nào để phát hiện hiện tượng giả thiết đó bị vi phạm và khắc phục hiện tượng đó bằng cách nào?
Bài này xem xét các vấn đề nêu trên.

6.1. Nguyên nhân của hiện tượng phương sai sai số thay đổi

BÀI TOÁN
Thông thường mô hình hồi quy tuyến tính

Yi  1  2 X 2i  3 X 3i  ...  k X ki  u i (6.1)

được nghiên cứu với giả thiết các nhiễu ngẫu nhiên u i có
phương sai không đổi,

Var  u i   E  u i2    2 , i  1, n (6.2)

Vậy khi điều kiện (6.2), tức là các u i có phương sai thay đổi,

Var  u i   Var  u j  i  j

thì mô hình (6.1) bị ảnh hưởng như thế nào?

Có nhiều nguyên nhân làm phương sai của các sai số u i khác nhau, có thể kể đến một
số nguyên nhân như sau:
 Trong số liệu có hiệu ứng "học tập", giống như thời gian luyện tập sẽ giúp thành
tích thi đấu của vận động viên ngày càng ổn định, tức là phương sai của sai số sẽ
giảm dần.
 Số liệu bị ảnh hưởng của hiện tượng "mỏi" hoặc "lão hóa". Chẳng hạn như vào đầu
ca làm việc, công nhân sẽ tỉnh táo hơn và ít sai sót hơn so với các thời điểm sau;
máy móc mới sẽ cho ra các sản phẩm đồng đều hơn so với thời gian sau đó, khi
dần dần các chi tiết máy bị mòn.
 Quy mô của quan sát ảnh hưởng đến độ "tự do" của số liệu. Ví dụ khi tiến hành
điều tra về chi phí tiêu dùng và thu nhập của hộ gia đình, ta thấy những hộ gia đình
có thu nhập thấp thì việc chi tiêu của họ không mấy linh động, phần lớn thu nhập
của những hộ này sẽ tập trung vào các nhu cầu thiết yếu như thực phẩm, quần áo,
chỗ ở, đi lại. Như thế chi tiêu của nhóm có thu nhập thấp tương đối đồng đều,
không biến động nhiều. Trong khi đó đối với nhóm có thu nhập cao thì ngoài việc
chi cho những nhu cầu thiết yếu, họ còn có khả năng lựa chọn chi tiêu cho du lịch,
giải trí, hoặc đầu tư hay không vào các lĩnh vực bất động sản, chứng khoán, … Do
vậy biến động về chi tiêu của nhóm này sẽ lớn.
 Định dạng mô hình sai, điều này xảy ra do có sự bỏ sót biến hoặc dạng hàm hồi
quy không được lựa chọn phù hợp.

STA301_Bài 6_v1.0013101214 81
Bài 6: Phương sai số thay đổi

 Do tác động của các quan sát ngoại lai, là những quan sát có giá trị quá nhỏ hoặc
quá lớn so với những quan sát khác trong mẫu.
 Kỹ thuật thu thập số liệu không đồng đều, cung cấp số liệu với chất lượng khác nhau.

6.2. Hậu quả của phương sai sai số thay đổi


Khi giả thiết phương sai sai số không thay đổi của mô
hình hồi quy bị phá vỡ thì sẽ dẫn tới một số hậu quả như
 Các ước lượng bình phương nhỏ nhất của các hệ số
tuy vẫn là ước lượng không chệch nhưng không
phải là ước lượng hiệu quả, tức là không phải là ước
lượng có phương sai bé nhất;
 Phân phối xác suất của các thống kê sử dụng trong
mô hình không xấp xỉ phân phối t hoặc phân phối F
như đòi hỏi của cơ sở lý thuyết, do đó việc sử dụng
các khoảng tin cậy hay tiến hành kiểm định giả thuyết dựa trên hai phân phối đó sẽ
không còn đáng tin cậy và dễ dẫn tới các kết luận sai lầm.

6.3. Phát hiện hiện tượng phương sai sai số thay đổi
Sau đây chúng ta sẽ xem xét một số các phép kiểm định để phát hiện có hiện tượng
phương sai sai số thay đổi. Xét mô hình hồi quy bội
Yi  1  2 X 2i  3 X 3i  ...  k X ki  u i (6.3)

với: E  u i2   i2  i  1, n  .
Để phát hiện hiện tượng phương sai sai số thay đổi, ta có thể sử dụng một trong ba mô
hình hồi quy phụ sau đây :
i2  1   2 Z2i  3 Z3i  ...   p Zpi ; (6.3a)

i  1   2 Z2i   3 Z3i  ...   p Zpi ; (6.3b)

ln i2  1   2 Z2i   3 Z3i  ...   p Zpi ; (6.3c)

 i2  exp  1   2 Z2i  3 Z3i  ...   p Zpi  .

Các mô hình hồi quy phụ này chứa p hệ số chưa biết và Zp là các biến với những
giá trị đã biết (có thể một số Zp hoặc là tất các biến đó được thành lập từ các biến
độc lập X i của mô hình hồi quy (6.3)).

BÀI TOÁN

H 0 :  2  3  ...   p  0
Bài toán kiểm định: 
H1 :  i  0
Nếu giả thuyết H 0 được chấp nhận thì có nghĩa là phương sai sai số trong mô hình (6.3)
không thay đổi, ngược lại là có hiện tượng phương sai thay đổi.

82 STA301_Bài 6_v1.0013101214
Bài 6: Phương sai số thay đổi

Bài toán kiểm định trên được thực hiện cho các mô hình hồi quy phụ nhằm đưa ra kết
luận về tính thuần nhất của phương sai sai số trong mô hình hồi quy chính, cung cấp
các phép kiểm định cụ thể bao gồm
 Kiểm định Breusch-Pagan sử dụng mô hình (6.3a);
 Kiểm định Glejser sử dụng mô hình (6.3b);
 Kiểm định Harvey-Godfrey sử dụng mô hình (6.3c).
Ngoài ra, còn có thể kể tới kiểm định Park như
một trường hợp đặc biệt của kiểm định Harvey-
Godfrey.
Trong các phép kiểm định trên, dữ liệu của i2
được ước lượng từ (6.3) bằng phương pháp OLS,
sau đó ta lấy û i2 thay cho i2 , û i thay cho i và
ln  uˆ i2  thay cho ln  i2  . Các bước tiến hành như sau:

Bước 1: Dùng phương pháp OLS để ước lượng các hệ số ̂i trong phương trình hồi
quy (6.3).
Bước 2: Tính các phần dư:
û i  Yi  1  2 X 2i  ...  k X ki .
Bước 3a: Bình phương các phần dư û i để gán vào i2 rồi ước lượng các hệ số ̂i của
mô hình hồi quy phụ (6.3a) bằng phương pháp OLS.
Bước 3b: Tính giá trị tuyệt đối û i của các phần dư để gán vào vị trí của i trong mô
hình hồi quy phụ (6.3b) và thực hiện phương pháp OLS để tìm các ước lượng ̂i .
Bước 3c: Lấy ln  uˆ i2  thế vào vị trí của ln  i2  trong mô hình hồi quy phụ (6.3c) và
ước lượng bằng phương pháp OLS để tìm ̂i .
Bước 4: Tính giá trị tiêu chuẩn thống kê  2  nR 2 với n là số quan sát (cỡ mẫu), R 2
là hệ số xác định.
Bước 5: Tính xác suất ý nghĩa P  P  2p 1   2  , trong đó  2p 1 là biến ngẫu nhiên có
phân phối khi-bình phương với p-1 bậc tự do.
Bước 6: Với mức ý nghĩa  đã định (thường  được cho bằng 5%), nếu p   thì
bác bỏ giả thuyết H 0 và kết luận có sự biến động của phương sai sai số, nếu ngược lại
thì chấp nhận giả thuyết và khẳng định tính thuần nhất của phương sai sai số trong
mô hình hồi quy.
Chú ý: Có thể thay thế việc tính xác suất ý nghĩa P của bước 5 bằng việc tra bảng phân
phối khi-bình phương với p-1 bậc tự do để tìm giá trị tới hạn  2p 1 () . Tiếp đó so sánh
giá trị của tiêu chuẩn thống kê  2 với giá trị tới hạn  2p 1 tìm được, nếu  2   2p 1 ()
thì bác bỏ giả thuyết H 0 .
Ngoài các phương pháp kiểm định trên còn có các phương pháp kiểm định White và
kiểm định F cũng được dùng để kiểm định tính thuần nhất của các phương sai sai số
trong các mô hình hồi quy tuyến tính. Cụ thể,

STA301_Bài 6_v1.0013101214 83
Bài 6: Phương sai số thay đổi

 Kiểm định White:


Để đơn giản ta xét mô hình 3 biến

Yi  1  2 X 2i  3 X 3i  u i (6.4)

i2  1   2 X 2i  3 X3i   4 X 22i  5 X 3i2   6 X 2i X 3i (6.5)

Phép kiểm định White được tiến hành theo các bước sau:
Bước 1: Ước lượng mô hình (6.4) bằng phương pháp OLS để tìm được các
phần dư û i .
Bước 2: Ước lượng mô hình (6.5) với i2 được thay bằng û i2 .
Bước 3: Tính giá trị thống kê  2  nR 2 của mô hình (6.5) và xác định giá trị
tới hạn  2 (5) .
Bước 4: So sánh giá trị thống kê với giá trị tới hạn, nếu  2  2  5  thì bác bỏ giả
thuyết H 0 : 1   2  ...   6  0 , ngược lại thì chấp nhận giả thuyết đó.
Việc chấp nhận giả thuyết trên đồng nghĩa với việc khẳng định trong mô hình hồi
quy (6.4) không có hiện tượng phương sai sai số thay đổi, nếu ngược lại thì ta phải
kết luận giả thuyết phương sai sai số thuần nhất bị vi phạm.
 Kiểm định F
Ta sử dụng mô hình hồi quy phụ

i2  1   2  E  Yi  
2
(6.6)

trong đó i2 , E  Yi  chưa biết và được thay bằng các ước lượng û i2 , Y
ˆ 2 có được từ hồi
i

quy gốc (6.6). Trong mô hình hồi quy này, xét thống kê
2
 ˆ 2 
F   
 Se  ˆ 2  

là một thống kê có phân phối Fisher với (1, n – 2)


bậc tự do.
Với mức ý nghĩa  đã định (thường được cho bằng
5%), tra bảng phân phối Fisher với bậc tự do (1, n-2) để tìm ra giá trị tới hạn
F  F 1, n  2  (giá trị tới hạn này bằng phân vị mức 1  của phân phối Fisher
tương ứng). So sánh giá trị thống kê F tính được ở trên với giá trị tới hạn này. Nếu
F  F 1, n  2  thì bác bỏ giả thuyết H 0 :  2  0 , ngược lại thì chấp nhận giả
thuyết. Việc chấp nhận giả thuyết này tương đương với việc khẳng định không có
biến động đáng kể của phương sai sai số trong mô hình (6.3).
Ví dụ : Theo số liệu báo cáo phát triển thống kê ở 73 nước đang phát triển, trong
năm 1988 bao gồm nợ nước ngoài D88 và tổng sản phẩm quốc nội Y88 , đơn vị
được tính bằng triệu USD.

84 STA301_Bài 6_v1.0013101214
Bài 6: Phương sai số thay đổi

Ta thực hiện hồi quy D88 theo Y88 ta được kết quả từ hồi quy này ta tính được giá
trị các phần dư û i và được ký hiệu là U88 . Kết quả của mô hình hồi này được cho
trong bảng sau:

Để kiểm tra xem trong mô hình trên, có hiện tượng phương sai sai số thay đổi hay
không, ta lần lượt tiến hành các phép kiểm định khác nhau như sau:
 Kiểm định Glejser. Thực hiện hồi quy U88 theo Y88 (ở đây chọn Z là Y88 )

U88  1   2 Y88 .

ta thu được kết quả sau:

STA301_Bài 6_v1.0013101214 85
Bài 6: Phương sai số thay đổi

Với mô hình hồi quy phụ ước lượng được trong bảng trên, ta xét bài toán kiểm định

H 0 :  2  0

H1 :  2  0

Kết quả trong bảng cho thấy t 2  5.698195 tương ứng với xác suất ý nghĩa rất nhỏ
(Prob=0.000). Vậy với mức ý nghĩa 5% ta có thể bác bỏ giả thuyết H 0 , kết luận có
sự thay đổi của phương sai sai số.
 Kiểm định Breusch – Pagan :Thực hiện hồi quy của biến U88
2
theo Y88

2
U88  1   2 Y88

ta được kết quả sau:

H :   0
Áp dụng bài toán kiểm định  0 2
H1 :  2  0

ta có t 2  5.198727 , Prob = 0.000, tức là xác suất ý


nghĩa nhỏ hơn 5%. Vậy có thể bác bỏ giả thuyết
H 0 , kết luận phương sai sai số không thuần nhất.
 Kiểm định White: Ước lượng mô hình hồi quy
2
U88  1   2 Y88  3Y882 .

Bằng phần mềm Eviews, ta có kết quả trong bảng sau:

86 STA301_Bài 6_v1.0013101214
Bài 6: Phương sai số thay đổi

Với kết quả đó, ta kiểm định giả thuyết


H 0 :  2  3  0

H1 : i  0
Ta có: n  73, R 2  0.4786 , do đó:  2  nR 2  34.93 .
Với mức ý nghĩa   5% , tra bảng phân phối khi-bình
phương, ta thu được giá trị tới hạn  0.05
2
 2   5.99 . So sánh hai giá trị trên với
nhau, ta thấy  2  34.93  5.99 . Vậy có thể bác bỏ giả thuyết H 0 và khẳng định có
hiện tượng phương sai sai số thay đổi.
 Kiểm định F: Đối với kiểm định này, ta thực hiện hồi quy phụ
2
U88  1   2 Y882 .

với Ŷ88 là giá trị ước lượng được khi thực hiện hồi quy D88 theo Y88 . Ký hiệu Ŷ88
là Y88f , sử dụng phần mềm Eviews để ước lượng mô hình trên, ta có

STA301_Bài 6_v1.0013101214 87
Bài 6: Phương sai số thay đổi

Xét bài toán kiểm định


H 0 :  2  0

H1 :  2  0
Ta có t 2  3.138253 , Prob = 0.0025 <   0.05 . Vậy ta bác bỏ giả thuyết H 0 ,
khẳng định có hiện tượng phương sai sai số thay đổi.
Chú ý: Ta thấy cả bốn phương pháp kiểm định trên đều đưa ra cùng một kết luận đối
với hiện tượng phương sai sai số thay đổi. Trong thực hành không nhất thiết phải thực
hiện tất cả bốn phép kiểm định đó, mà chỉ cần lựa chọn thực hiện một phép kiểm định
là đủ.

6.4. Biện pháp khắc phục hiện tượng không thuần nhất của phương sai sai số
Mô hình hồi quy có hiện tượng phương sai sai số thay đổi có thể gây ra những hậu quả
như đã trình bày ở phần trước. Nó phá hủy tính không chệch, tính vững của các ước
lượng. Vì vậy cần phải có biện pháp khắc phục hiện tượng đó.
Ta xét hai trường hợp:
 Đã biết phương sai i2 của các sai số;
 Chưa biết phương sai i2 của các sai số.
Trường hợp 1 : Đối với trường hợp i2 đã biết thì
để giải quyết vấn đề, ta có thể dùng phương pháp
hồi quy có trọng số như sẽ trình bày tiếp sau đây.
Để đơn giản ta xét mô hình hồi quy hai biến
Yi  1  2 X 2i  u i (6.7)

ứng với phương trình hồi qui mẫu

Yi  ˆ 1  ˆ 2 X 2i  uˆ i

Giả sử các độ lệch tiêu chuẩn của sai số i  0 đã biết. Đặt biến hằng số X1i  1 , lúc
đó (6.7) được đưa về dạng
Yi  1X1i  2 X 2i  u i (6.8)

Chia cả hai vế của phương trình trên cho i , ta thu được

Yi X X u
 1 1i  2 2i  i .
i i i i

Đặt
Yi * X1i * X 2i * u i
Yi*  ; X1i  ; X 2i  ; ui  .
i i i i

Khi đó (6.8) được viết lại thành

Yi*  1X1i*  2 X*2i  u *i . (6.9)

88 STA301_Bài 6_v1.0013101214
Bài 6: Phương sai số thay đổi

Trong phương trình trên ta có


1 1
E(u *i )  E( u i )  E(u i )
i i

1 2 1
i )  E(
E(u *2 u )  2 E(u i 2 )  1 .
2 i
i i

Vậy mô hình hồi quy (6.9) có phương sai của sai số u*i không đổi. Khi đó áp dụng
phương pháp OLS thông thường, ta thu được các ước lượng ˆ 1* , ˆ 2* của 1 , 2 trong
(6.9) cũng là các ước lượng của mô hình (6.7).
Trường hợp 2: Khi chưa biết phương sai sai số i2 , ta sẽ lần lượt xét các trường hợp
riêng như sau:
 Nếu phương sai sai số tỷ lệ với bình phương biến giải thích X, tức là
E(u i2 )   2 X i2

thì ta có thể biến đổi mô hình gốc (6.7) thành


Yi 1 u 1
  2  i  1  2  vi .
Xi Xi Xi Xi

Mô hình này có phương sai sai số vi không đổi và ta có thể dùng phương pháp
OLS thông thường để ước lượng các hệ số 1 , 2 của mô hình.
 Nếu phương sai sai số tỷ lệ với bình phương của kỳ vọng Y, tức là
E(u i2 )  2 (E(Yi )) 2

ta có thể biến đổi mô hình gốc (6.7) về thành


Yi   ui
 1  2 Xi   1  2X i  vi .
E(Yi ) E(Yi ) E(Yi ) E(Yi )

Mô hình này lại trở thành mô hình có phương sai sai số vi không đổi.
 Nếu dạng hàm là sai thì định dạng lại mô hình.
Người ta thường định dạng lại mô hình bắt đầu
bằng cách dùng mô hình lôgarit.
Chẳng hạn, trước tiên người ta dùng mô hình log
tuyến tính
Yi  1  2 ln X i  u i .

Nếu mô hình này vẫn là định dạng sai thì người ta


hiệu chỉnh bằng mô hình log - log tuyến tính
ln Yi  1  2 ln X i  u i

STA301_Bài 6_v1.0013101214 89
Bài 6: Phương sai số thay đổi

TÓM LƯỢC CUỐI BÀI


• Hiện tượng phương sai của sai số thay đổi
Mô hình Yi  1  2 X 2i  3 X 3i  u i
Trong phương pháp OLS có giả thiết: Var  u i   2 , phương sai sai số không đổi (đồng đều)
Homoscedasticity
Nếu Var  u i   i2  Var  u j  , i  j PSSS thay đổi (không đồng đều) Heteroscedasticity

 Nguyên nhân PSSS thay đổi:


o Bản chất Kinh tế xã hội: Sự dao động của biến phụ thuộc trong những điều kiện khác
nhau không giống nhau.
o Quá trình thu thập số liệu không chính xác.
o Xử lý, làm tròn số liệu.
• Hậu quả:
o Các ước lượng là không chệch nhưng không tốt nhất (không thoả mãn tính chất ước
lượng hiệu quả trong phương pháp OLS).
o Kiểm định T, F mất hiệu lực (kết quả không đáng tin cậy).
• Phát hiện PSSS thay đổi
o Kiểm định White:
Mô hình ban đầu: E(Y/X)= β1+ β2X2+β3X3.
Lập hàm hồi quy phụ, trường hợp có tích chéo (cross terms)
i2  1   2 X 2i   3 X 3i   4 X 22i  5 X3i2   6 X 2i X 3i  vi .

H0: Mô hình đầu có PSSS đồng đều.


H1: Mô hình đầu có PSSS thay đổi.
Kiểm định F:  qs
2
 nR 2 .

o Kiểm định:  2
Nếu  qs
2
  2  5  : bác bỏ giả thuyết H0.
• Các biện pháp khắc phục PSSS thay đổi

90 STA301_Bài 6_v1.0013101214
Bài 6: Phương sai số thay đổi

CÂU HỎI CUỐI BÀI

1. Phương sai của sai số thay đổi có thực sự là một khuyết tật nghiêm trọng trong phân tích hồi quy?
2. Hậu quả của PSSS thay đổi khác thế nào so với hậu quả của đa cộng tuyến?
3. Nếu như không biết được các nhiễu ngẫu nhiên thì làm thế nào để có thể nhận định về hiện
tượng PSSS thay đổi trong mô hình?
4. Ý tưởng của phương pháp dùng đồ thị phần dư để phát hiện PSSS thay đổi trong mô hình là gì?
5. Ý tưởng của các phương pháp dùng kiểm định phát hiện ra PSSS thay đổi là gì?
6. Có nên áp dụng tất cả các phương pháp kiểm định để phát hiện PSSS thay đổi hay không?
7. Trong các phần mềm có sẵn các kiểm định phát hiện PSSS thay đổi hay không?
8. Ý tưởng của các phương pháp khắc phục PSSS thay đổi là gì?

BÀI TẬP TRẮC NGHIỆM

1. Khi phương sai của các nhiễu ngẫu nhiên không bằng nhau, hiện tượng này gọi là:
A. Phương sai của sai số thay đổi. B. Phương sai của sai số không đổi.
C. Đa cộng tuyến. D. Tự tương quan.
2. Có thể luôn luôn chứng tỏ được rằng không có PSSS thay đổi trong mô hình hồi quy:
A. Đúng.
B. Sai.
3. Phương sai của sai số thay đổi chỉ xảy ra với số liệu theo chuỗi thời gian:
A. Đúng.
B. Sai.
4. Trong kiểm định Glejser phát hiện PSSS thay đổi, giá trị nào sẽ được sử dụng cho biến phụ
thuộc trong mô hình hồi quy phụ:
A. Sai số tiêu chuẩn của hàm hồi quy.
B. Bình phương của phần dư.
C. Phần dư.
D. Giá trị tuyệt đối của các phần dư.
5. Trong kiểm định White phát hiện PSSS thay đổi, nếu mô hình ban đầu có 2 biến độc lập thì
trong mô hình hồi quy phụ có bao nhiêu biến độc lập (không có tích chéo).
A. 2 B. 3
C. 4 D. 5
6. Khi mô hình có PSSS thay đổi, ta luôn có thể khắc phục nó bằng cách sử dụng lôgarit của
các biến trong mô hình.
A. Đúng.
B. Sai.

STA301_Bài 6_v1.0013101214 91
Bài 6: Phương sai số thay đổi

7. Nếu trong kiểm định White để phát hiện PSSS thay đổi, tính được thống kê khi bình phương
là 1.624 với p-value tương ứng là 0.444, sử dụng mức ý nghĩa 0.05. Vậy kết luận là:
A. Có PSSS thay đổi.
B. Không có PSSS thay đổi.
C. Không có kết luận với những thông tin ở trên.
8. Nếu trong mô hình có phương sai của sai số thay đổi, nó làm cho:
A. Phương sai của các ước lượng OLS không phải là nhỏ nhất.
B. Các ước lượng OLS không phải là tuyến tính.
C. Không ảnh hưởng gì đến các ước lượng OLS.
D. Không ước lượng được các tham số bằng phương pháp OLS.
9. Phương pháp dùng đồ thị để phát hiện ra PSSS thay đổi là:
A. Vẽ đồ thị của X lần lượt theo từng biến độc lập.
B. Vẽ đồ thị của phần dư với lần lượt các biến độc lập.
C. Vẽ đồ thị của bình phương các phần dư với lần lượt các biến độc lập.
D. B hoặc C.

92 STA301_Bài 6_v1.0013101214
Bài 7: Lựa chọn mô hình hồi quy

BÀI 7. LỰA CHỌN MÔ HÌNH HỒI QUY

Mục tiêu

Sau khi kết thúc bài, học viên sẽ hiểu


được những vấn đề sau đây:
 Các thuộc tính của một mô hình tốt.
 Các loại sai lầm về định dạng của
mô hình.
 Hậu quả khi chọn mô hình định dạng sai.
 Kiểm định phát hiện mô hình định
dạng sai.
 Giới thiệu mô hình dạng lôga tuyến tính.
 Giới thiệu mô hình với biến giả.

Nội dung Hướng dẫn học

 Tiêu chuẩn cho một mô hình tốt.  Ôn lại các bài học trước để hiểu được
 Các loại sai lầm định dạng của mô hình. các loại mô hình hồi quy.
 Hậu quả nếu một mô hình định dạng sai.  Tập trung phân biệt các hậu quả xảy
 Các kiểm định phát hiện sai lầm định dạng. ra khi có một loại sai lầm định dạng
nào đó.
 Các loại mô hình với biến giả.
 Tập trung vào các phương pháp kiểm
định để phát hiện các sai lầm định dạng.
 Tập trung hiểu rõ bản chất của việc
đưa biến giả vào mô hình và các loại
mô hình có biến giả.
 Xem xét kỹ các ví dụ trong giáo trình
và bài giảng.

STA301_Bài 7_v1.0013101214 93
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[

TÌNH HUỐNG DẪN NHẬP

Tình huống
Tình huống 1: Trong tình huống của bài học số 4, chúng ta đã sử dụng
mô hình dưới dạng lôgarit của các biến. Một nhà nghiên cứu khác lại đề
xuất sử dụng dạng tuyến tính của các biến (là dạng ban đầu). Vậy dạng
mô hình nào tốt hơn để phân tích trong tình huống này?
Tình huống 2: Một nhà nghiên cứu về bình đẳng giới muốn xem
xét việc liệu thu nhập của người lao động có bị ảnh hưởng bởi giới
tính của họ hay không. Nhà nghiên cứu này xem xét mô hình hồi quy
E(TN/Di) = β1 + β2Di
trong đó TN là thu nhập, D là biến giả, nhận giá trị bằng 1 nếu là nam, bằng 0 nếu là nữ.

Câu hỏi
 Với mô hình này làm thế nào để kết luận về liệu có ảnh hưởng của giới tính đến thu nhập
hay không?
 Trong bài học số 7, ta sẽ xem xét việc lựa chọn một mô hình tốt sẽ dựa trên các tiêu chí
nào? Và chúng ta sẽ trả lời được câu hỏi thu nhập có bị ảnh hưởng bởi giới tính hay không.

94 STA301_Bài 7_v1.0013101214
Bài 7: Lựa chọn mô hình hồi quy
ơ

Trong phần trình bày ở các bài trước, ta giả định rằng một mô hình
hồi quy được lựa chọn là một mô hình đúng, nghĩa là hiện tượng cần
nghiên cứu được mô hình hóa đúng với bản chất và phù hợp với quy
luật vốn có của nó. Tuy nhiên, thông thường ở bước ban đầu ta chưa
biết rõ về bản chất và quy luật của hiện tượng, mà phải dựa vào số
liệu để khám phá ra bản chất và quy luật đó. Vậy thế nào là một mô
hình tốt, có phải một mô hình hồi quy có các phần dư càng nhỏ thì
càng tốt hay không, hay một mô hình phải có phương trình hồi quy
thật phức tạp, thật đẹp về mặt toán học mới là tốt?

7.1. Các thuộc tính của một mô hình tốt

BÀI TOÁN
Xét hai mô hình hồi quy tuyến tính
Yi  1  2 X 2i  3 X 3i  ...  k X ki  u i , (7.1)
Yi  1  2 X 2i  3 X 3i  ...  m X mi  vi , (7.2)
trong đó m  k (do vậy sai số u i có xu thế nhỏ hơn sai số vi ). Có thể kết luận là mô
hình (7.1) tốt hơn mô hình (7.2) không? Hơn nữa, có phải một mô hình hồi quy phi tuyến
nào đó (mô hình lôgarit chẳng hạn) sẽ tốt hơn hai mô hình tuyến tính đó không?
Nói rộng ra, mô hình phải có những tính chất gì sẽ được coi là một mô hình đúng đắn?
Việc đánh giá một mô hình có đúng đắn, phù hợp với bản chất của hiện tượng hay
không phải được dựa trên những tiêu chuẩn nhất định. A.C. Harvey đã đưa ra các tiêu
chuẩn để đánh giá chất lượng của mô hình hồi quy. Các tiêu chuẩn này đã được vận
dụng rộng rãi trong thực tế, bao gồm:
 Tính tiết kiệm: Mô hình càng đơn giản càng tốt, tuy
nhiên phải chứa đựng những biến độc lập chủ yếu
ảnh hưởng đến biến phụ thuộc để giải thích được
các hiện tượng cần nghiên cứu.
Việc đánh giá biến độc lập nào ảnh hưởng một
cách có ý nghĩa đến biến phụ thuộc, một mặt phải
dựa trên ý nghĩa thực tế của mô hình. Mặt khác có thể
dựa vào phép kiểm định về các hệ số trong phương
trình hồi quy.
 Tính xác định: Các tham số ước lượng được phải có tính ổn định và duy nhất đối với
một tập số liệu cho trước.
Chẳng hạn, nếu hiện tượng đa cộng tuyến không được xử lý thì tính xác định
không được đảm bảo, vì các tham số ước lượng được có thể có độ biến động lớn
và khi đó việc thay đổi một vài quan sát trong số liệu có thể làm cho các tham số
ước lượng được thay đổi rất nhiều. Vậy việc khử đa cộng tuyến có thể giúp cho mô
hình hồi quy có tính xác định.
 Tính thích hợp: Các biến độc lập giải thích được sự thay đổi của biến phụ thuộc
càng nhiều càng tốt.
Hệ số xác định của mô hình hồi quy tuyến tính cung cấp một thước đo để đánh giá
tính thích hợp của mô hình so với số liệu.

v1.0 95
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[

 Tính bền vững về mặt lý thuyết: Mô hình phải phù hợp với cơ sở lý thuyết nền tảng.
Chẳng hạn, các giả thiết về tính độc lập của các quan sát, tính phân phối chuẩn và
phương sai thuần nhất của sai số, ... sẽ đảm bảo về mặt lý thuyết của mô hình hồi
quy tuyến tính cổ điển.
 Có khả năng dự báo tốt: Mô hình tốt là một mô hình có khả năng cung cấp các kết
quả dự báo càng sát với thực tế càng tốt.

7.2. Cách tiếp cận lựa chọn mô hình


Để lựa chọn được mô hình hồi quy thích hợp với bộ số liệu và mục tiêu nghiên cứu, ta
có thể tiến hành lần lượt theo các bước sau:
 Bước 1: Xác định danh sách các biến độc lập có
thể có trong mô hình. Dựa vào ý nghĩa thực tế của
bài toán đã được đặt ta, ta cần liệt kê tất cả những
biến độc lập có thể có của mô hình, là những biến
có khả năng ảnh hưởng đến giá trị của biến phụ
thuộc. Những biến này có thể đã có sẵn trong danh
sách các biến của bộ số liệu, song cũng có thể là
biến được tạo ra từ các biến trong danh sách đó thông qua các phép biến đổi.
 Bước 2: Kiểm tra sự vi phạm các giả thiết của mô hình hồi quy. Bước này bao
gồm việc tiến hành kiểm định các vấn đề như đa cộng tuyến, phương sai thay đổi,
tự tương quan, phân bố không chuẩn của sai số, ... và khắc phục các vi phạm phát
hiện được.
 Bước 3: Chọn dạng hàm hồi quy. Dạng hàm hồi quy có thể được xác định dựa trên
kiến thức chuyên ngành liên quan đến số liệu hoặc dựa vào dạng hàm đã được sử
dụng trong các nghiên cứu trước đó. Bên cạnh đó, có thể xác định dạng hàm hồi
quy thông qua việc khảo sát các đồ thị biểu diễn sơ bộ mối quan hệ giữa biến độc
lập và biến phụ thuộc. Chẳng hạn nếu trên đồ thị, các chấm tương ứng với các
quan sát của tập số liệu nằm tập trung hai bên một đường thẳng nào đó, thì có thể
chọn dạng hàm hồi quy tuyến tính. Còn nếu các chấm đó lại nằm hai bên một
đường cong thì có thể dựa vào dạng của đường cong đó mà đưa ra dạng hàm hồi
quy phi tuyến thích hợp.
 Bước 4: Áp dụng các tiêu chuẩn để đánh giá và lựa
chọn mô hình. Hệ số xác định là một thước đo
thường được dùng đầu tiên để đánh giá chất lượng
của mô hình hồi quy. Nếu hệ số xác định có giá trị
lớn hơn 50% thì có thể coi mô hình khá phù hợp
với tập số liệu. Còn nếu hệ số xác định nhỏ hơn
30% thì có thể khẳng định mô hình không phù hợp
và nên tìm mô hình khác.
Ngoài hệ số xác định, còn có một số tiêu chuẩn khác có thể dùng để đánh giá các
mô hình hồi quy như:
o Tiêu chuẩn log-hợp lý (log-likelihood):

n n 1 n
L   ln 2  ln(2)   u i2 .
2 2 2 i 1

96 STA301_Bài 7_v1.0013101214
Bài 7: Lựa chọn mô hình hồi quy
ơ

Có thể chứng minh L có phân phối tiệm cận với phân phối khi bình phương.
Giá trị này càng lớn (tương ứng với xác suất ý nghĩa càng nhỏ) thì càng tốt, vì
cho thấy mô hình đang xét rất khác biệt với mô hình “tầm thường” (là mô hình
cho rằng không hề có quan hệ giữa các biến độc
lập và biến phụ thuộc). Trong thực hành, giá trị
của hàm L được ước lượng bằng công thức:
n RSS
L   (1  ln(2)  ln( )) .
2 n
o Tiêu chuẩn AIC (Akaike info criterion):
RSS 2k / n
AIC  ( ).e ,
n
trong đó k là số tham số trong mô hình hồi quy. Giá trị AIC này càng nhỏ thì
mô hình càng phù hợp với số liệu.
o Tiêu chuẩn Schwarz (Schwarz criterion):
RSS k / n
SC  ( ).n
n
trong đó k là số tham số trong mô hình hồi quy. Giá trị SC này càng nhỏ thì mô
hình càng phù hợp với số liệu.
Hệ số xác định được dùng để đánh giá sự phù hợp của mô hình hồi quy nhiều
khi chưa nói lên đầy đủ chất lượng của mô hình vì một số lý do sau đây:
 Nếu hai mô hình hồi quy chứa danh sách các
biến độc lập khác nhau thì hệ xác định của
hai mô hình đó (có thể bằng nhau) không
giúp kết luận được mô hình nào tốt hơn;
 Có thể việc loại bỏ bớt một số biến nào đó ra
khỏi phương trình hồi quy tuy làm giảm hệ số
xác định, song về thực chất lại không làm giảm
đáng kể chất lượng của mô hình. Mặt khác,
trong thực hành, nhiều khi dùng ít biến độc lập trong mô hình thì “kinh tế”
hơn, mặc dù sai số ước lượng có thể lớn hơn.
Như vậy, cần dựa vào các phép kiểm định để đánh giá, lựa chọn mô hình. Tiêu
chuẩn F dưới đây có thể giúp tiến hành một trong những phép kiểm định như vậy:
o Tiêu chuẩn F (F criterion). Với mô hình hồi quy (7.1) ta xét bài toán kiểm định:

BÀI TOÁN KIỂM ĐỊNH 1

H 0 : 2  3  ...  k  0

H1 : i  0
Việc chấp nhận giả thuyết H 0 có nghĩa là tất cả các biến độc lập không hề ảnh
hưởng đến giá trị của biến phụ thuộc. Ngược lại, việc bác bỏ giả thuyết H 0 có
nghĩa có ít nhất một biến độc lập nào đó có tác động đến biến phụ thuộc, tức là mô
hình hồi quy phù hợp với số liệu ở một mức độ nhất định.

v1.0 97
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[

Để giải quyết bài toán kiểm định này, ta thiết lập tỷ số:

R2 / k
F ,
(1  R 2 ) /(n  k  1)

trong đó R 2 là hệ số xác định của mô hình hồi quy, k là số tham số trong mô


hình, n là số lượng các quan sát trong bộ số liệu. Tỷ số này có phân phối xấp
xỉ phân phối Fisher với bậc tự do (k, n – k –1). Qua đó có thể xác định được
xác suất ý nghĩa (p-value) tương ứng, được dùng so sánh với mức ý nghĩa đã
cho (5% chẳng hạn) để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết H 0 .

Ta xét lại ví dụ ở bài trước về số liệu báo cáo phát triển thống kê ở 73 nước
đang phát triển năm 1988, trong đó biến phụ thuộc là nợ nước ngoài D88 và
biến độc lập là tổng sản phẩm quốc nội Y88 . Thực hiện hồi quy D88 theo Y88 ,
ta có kết quả trong bảng sau:

Trong bảng trên, ta thấy mô hình có hệ số xác định lớn hơn 77%, cho biết mô
hình hồi quy này phù hợp với tập số liệu. Kết luận đó cũng khẳng định qua giá
trị 244.9136 của thống kê F, tương ứng với xác suất ý nghĩa bằng 0.000000
(rất nhỏ). Ngoài ra, bảng còn cung cấp giá trị của các tiêu chuẩn AIC, SC và
log - hợp lý.

7.3. So sánh hai mô hình hồi quy


Cùng với hệ số xác định, các tiêu chuẩn từ 1 đến 4 trên đây đều có thể dùng để đánh
giá chất lượng của mô hình. Tuy nhiên sự đánh giá đó mới đề cập đến sự phù hợp của

98 STA301_Bài 7_v1.0013101214
Bài 7: Lựa chọn mô hình hồi quy
ơ

mô hình với bộ số liệu, chứ chưa đánh giá so sánh về chất lượng của các mô hình.
Như vậy, cần dựa vào các phép kiểm định để đánh giá, lựa chọn mô hình. Với hai mô
hình hồi quy (7.1) và (7.2), ta xét bài toán kiểm định:
BÀI TOÁN KIỂM ĐỊNH 2

H 0 : m 1  m  2  ...  k  0

H1 : i  0,i  {m  1, m  2,..., k}
Việc chấp nhận giả thuyết H 0 có nghĩa các biến độc lập X m 1 , X m  2 ,..., X k không có vai
trò đáng kể đối với biến Y , tức là hai mô hình (7.1) và (7.2) là như nhau về khả năng dự
báo giá trị của biến phụ thuộc. Ngược lại, việc bác bỏ giả thuyết H 0 có nghĩa mô hình (7.1)
với nhiều biến độc lập hơn, sai số hồi quy nhỏ hơn, sẽ cung cấp dự báo chính xác hơn cho
biến phụ thuộc.
Trong thực hành, nếu giả thuyết H 0 được chấp nhận
thì rõ ràng nên chọn mô hình (7.2) vì số biến độc lập ít
hơn, nên có lợi hơn về mặt kinh tế. Còn nếu giả thuyết
bị bác bỏ thì nên chọn mô hình (7.1), vì dự báo sẽ cho
kết quả thực sự chính xác hơn.
Để giải quyết bài toán kiểm định này, ta thiết lập tỷ số

n  k R 2k  R 2m
F  ,
k  m 1  R 2k

trong đó R 2k là hệ số xác định của mô hình (7.1) với k tham số, R 2m là hệ số xác định
của mô hình (7.2) với m tham số, n là số lượng các quan sát trong bộ số liệu. Tỷ số
này có phân phối xấp xỉ phân phối Fisher với bậc tự do (n – k, k – m), qua đó có thể
xác định được xác suất ý nghĩa (p-value) tương ứng, được dùng để đưa ra kết luận
chấp nhận hay bác bỏ giả thuyết H 0 .

7.4. Hậu quả của việc chọn mô hình không phù hợp
Giáo sư Rick Nordheim đã khẳng định rằng trong Thống kê ứng dụng, không có khái
niệm về mô hình đúng hay sai, mà chỉ có mô hình phù hợp hay không phù hợp với
thực tế, mô hình có phản ánh được bản chất của hiện tượng được nghiên cứu hay
không. Đây là quan điểm xuất phát từ thực nghiệm và là quan điểm chung của tất cả
các nhà làm ứng dụng. Vì vậy, ta luôn phải xét đến tính phù hợp của mô hình mỗi khi
giải quyết một bài toán hồi quy. Việc chọn mô hình không phù hợp có thể do một
trong những nguyên nhân sau gây ra:
 Chọn dạng hàm không thích hợp. Dạng hàm hồi
quy không thích hợp có thể dẫn đến các hậu quả sau:
o Các hệ số hồi quy bị ước lượng chệch, thậm chí
dấu của hệ số hồi quy bị sai, dẫn đến những
diễn giải mâu thuẫn với thực tế;
o Hệ số xác định thể hiện độ phù hợp của mô
hình với số liệu có thể không cao;

v1.0 99
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[

o Có thể có rất ít hệ số hồi quy ước lượng được có ý nghĩa thống kê;
o Phần dư của các quan sát có thể có thể lớn về giá trị tuyệt đối và có xu thế biến
động mang tính hệ thống. Điều này có thể dẫn đến sự vi phạm các giả thiết cơ
bản của mô hình hồi quy.
 Bỏ sót biến: Việc bỏ sót biến cũng có thể gây ra hậu quả nghiêm trọng. Giả sử mô
hình phù hợp thực sự phải là

Y  0  1X1  2 X 2  u ,

nhưng ta lại sử dụng mô hình

Y   0  1X1  v

nghĩa là biến X 2 bị thiếu, trong khi biến này thực


sự ảnh hưởng đến biến phụ thuộc. Điều này có thể dẫn đến những hậu quả khác
nhau. Nếu biến X 2 tương quan với biến X1 thì các ước lượng  0 và  1 của  0 và
1 sẽ là những ước lượng chệch và không vững của 0 và 1 , tức là

E( 0 )  0 ; E( 1 )  1 .

Thực vậy, vì hai biến X1 và X 2 tương quan với nhau nên ta có

X 2   0  1X1   ,

với  0 , 1 và  lần lượt là các hệ số hồi quy và sai số trong mô hình hồi quy biến
X 2 theo biến X1 . Lúc đó,

E( 1 )  1  2 1 ; E( 0 )  0  2 (X 2  1X1 ) .

Do vậy, tùy theo dấu của 2 1 mà  1 sẽ cho ước lượng quá cao hoặc quá thấp so
với giá trị thực của 1 .
Trong trường hợp X 2 và X1 không tương quan với nhau thì 1  0 và khi đó  1 là
ước lượng không chệch của 1 , nhưng  0 lại là ước lượng chệch của 0 , nếu
X2  0 .
Ngoài ra, việc bỏ sót biến còn dẫn đến hậu quả là ước lượng phương sai của sai số
cũng như của phương sai của các hệ số hồi quy đều là những ước lượng chệch, kéo
theo tính không chính xác của các khoảng tin cậy và vì vậy phương pháp kiểm
định thông thường không còn hiệu lực.
 Thừa biến: Việc đưa vào mô hình những biến không thích hợp cũng đem lại
những nguy hại đáng kể. Thật vậy, giả sử mô hình phù hợp là

Y  0  1X1  u , (7.3)

nhưng ta lại sử dụng mô hình

Y   0  1X1   2 X 2  v (7.4)

100 STA301_Bài 7_v1.0013101214


Bài 7: Lựa chọn mô hình hồi quy
ơ

nghĩa là dùng thừa biến X 2 . Khi đó các hệ số hồi


quy ước lượng được từ mô hình (7.4) vẫn là các
ước lượng vững, không chệch, nghĩa là ta vẫn có
E( 0 )  0 ; E( 1 )  1 và E( 2 )  2  0 .
Đồng thời, phương sai của của sai số vẫn được ước
lượng một cách không chệch, do đó khoảng tin cậy
vẫn được xác định tương đối chính xác và phương pháp kiểm định thông thường
vẫn có hiệu lực. Tuy nhiên các ước lượng thu được từ mô hình (7.4) không phải là
ước lượng hiệu quả, vì phương sai của chúng sẽ lớn hơn phương sai của ước lượng
tương ứng thu được từ mô hình (7.3). Hệ quả là các khoảng tin cậy của các hệ số
sẽ rộng hơn, do đó vai trò của một biến độc lập đối với biến phụ thuộc có thể bị
đánh giá sai (khoảng tin cậy ước lượng quá rộng sẽ có khả năng chứa điểm 0 - thể
hiện biến độc lập không ảnh hưởng đến biến phụ thuộc, trong khi nếu được ước
lượng đúng thì khoảng tin cậy không chứa điểm 0 - chứng tỏ biến độc lập tác động
một cách có ý nghĩa lên biến phụ thuộc).

7.5. Kiểm định phát hiện sự bỏ sót biến


Với một tập số liệu cho trước, giả sử ta sử dụng mô
hình hồi quy
Yi  0  1X i  u i . (7.5)

Vấn đề đặt ra là ngoài biến X ảnh hưởng đến biến


phụ thuộc Y, còn có biến độc lập nào khác có ảnh
hưởng quan trọng đến Y mà chưa được đưa vào mô hình hay không? Lúc đó, ta cần
giải quyết bài toán kiểm định sau:
BÀI TOÁN KIỂM ĐỊNH 3

H 0 : Không có hiện tượng bỏ sót biến độc lập trong mô hình (7.5)

H1 : Có hiện tượng bỏ sót biến độc lập trong mô hình (7.5)

Việc chấp nhận giả thuyết H 0 có nghĩa mô hình (7.5) đã chứa đủ số biến độc lập thực sự
ảnh hưởng tới biến phụ thuộc, những ảnh hưởng thực sự của các biến độc lập khác chưa có
mặt, nếu có thì đã được thể hiện một cách gián tiếp thông qua ảnh hưởng của các biến độc
lập đã có mặt trong mô hình. Ngược lại, việc bác bỏ giả thuyết H 0 có nghĩa là mô hình
(7.5) chưa chứa đủ số biến độc lập cần thiết, biến phụ thuộc Y còn chịu ảnh hưởng quan
trọng của một hay nhiều biến độc lập nào đó chưa có mặt trong mô hình.

Để kiểm tra xem trong mô hình (7.5) còn bỏ sót biến độc lập W hay không, ta xét mô
hình hồi quy đầy đủ hơn, với sự có mặt của biến độc lập W
Yi   0  1X i   2 Wi  vi . (7.6)

Với mô hình này, ta xét hai trường hợp như sau:


 Trường hợp 1: Có số liệu về biến W. Trong trường hợp này, ta có thể giải quyết
bài toán 3 bằng nhiều cách khác nhau, chẳng hạn như:

v1.0 101
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[

o Cách 1: Dùng kiểm định t. Để kiểm tra xem có phải biến W đã bị bỏ sót khi
dùng mô hình hồi quy (7.5) hay không, ta có thể tiến hành hồi quy theo mô
hình (7.6) và kiểm định giả thuyết  2  0 . Lúc đó, nếu giả thuyết này bị bác
bỏ thì thực sự biến W đã bị bỏ sót. Ngược lại, nếu giả thuyết  2  0 được chấp
nhận thì không có hiện tượng bỏ sót biến W, vì bất kể biến đó có mặt trong mô
hình hồi quy hay không, ta đều thu được chất lượng dự báo của mô hình như nhau.
o Cách 2: Sử dụng hàm log-hợp lý. Xét thống
kê LR  2(l1  l0 ) , trong đó l1 và l0 tương
ứng là giá trị lớn nhất của lôgarit hàm hợp lý
ứng với mô hình (7.6) và (7.5). Khi giả thuyết
H 0 đúng, thống kê LR có phân phối tiệm cận
phân phối khi bình phương với 1 bậc tự do
(  2 (1) ). Nếu LR   2 (1) (  thường được lấy
bằng 5%) thì ta bác bỏ H 0 và kết luận có hiện
tượng bỏ sót biến độc lập W.
o Cách 3: Sử dụng Bài toán kiểm định 2. Ta có thể áp dụng bài toán kiểm định
2 để so sánh hai mô hình (7.6) và (7.5) thay cho việc so sánh hai mô hình (7.1)
và (7.2). Khi ấy, việc giả thuyết được chấp nhận (chất lượng của hai mô hình
như nhau) đồng nghĩa việc không có hiện tượng bỏ sót biến W. Ngược lại, nếu
giả thuyết bị bác bỏ thì có nghĩa biến W đã bị bỏ sót trong mô hình hình quy.
Chú ý: Trên đây đã trình bày 3 cách phát hiện việc bỏ sót 1 biến độc lập W trong
mô hình hồi quy. Tuy nhiên, Cách 2 và Cách 3 còn có thể dùng để phát hiện việc
bỏ sót một nhóm biến độc lập trong mô hình.
Thật vậy, khi giải quyết bài toán kiểm định 2, so sánh hai mô hình (7.1) chứa k – 1
biến độc lập với mô hình (7.2) chứa m – 1 biến độc lập (m < k), về thực chất ta đã
kiểm tra xem nhóm k – m biến độc lập có mặt trong mô hình (7.1) nhưng không có
mặt trong (7.2) có phải là nhóm biến bị bỏ sót nếu chỉ dùng mô hình hồi quy (7.2)
hay không.
Cũng có thể sử dụng hàm log-hợp lý để giải quyết bài toán kiểm định trên bằng
cách lập thống kê LR  2(lk  lm ) , trong đó lk và lm tương ứng là giá trị lớn nhất
của lôgarit hàm hợp lý ứng với mô hình (7.1) và (7.2). Khi giả thuyết H 0 đúng,
thống kê LR có phân phối tiệm cận phân phối khi bình phương với k – m bậc tự do
(  2 (k  m) ), từ đó ta có thể tính được xác suất ý nghĩa của phép kiểm định để đưa
ra kết luận thống kê về việc liệu có phải nhóm biến độc lập bị bỏ sót hay không.
 Trường hợp 2: Không có số liệu về biến W . Khi không có số liệu của biến độc
lập bị nghi là đã bị bỏ sót trong mô hình (7.5), ta có thể sử dụng các thông tin của
các giá trị dự báo thu được từ mô hình (7.5) để xem các biến độc lập trong mô hình
đó đã cung cấp cho biến phụ thuộc một lượng thông tin đạt đến mức bão hòa hay
chưa, tức là liệu có còn thiếu một phần thông tin của biến bị bỏ sót nào đó ảnh
hưởng đến biến phụ thuộc nữa hay không? Cụ thể, ta lần lượt tiến hành các bước
như sau:

102 STA301_Bài 7_v1.0013101214


Bài 7: Lựa chọn mô hình hồi quy
ơ

o Bước 1: Dùng số liệu để ước lượng các giá trị ̂0 và ̂1 của các hệ số hồi quy
trong mô hình (7.5);
o Bước 2: Dùng các hệ số ̂0 và ̂1 và các giá trị quan sát được của biến độc lập
để ước lượng các giá trị của biến phụ thuộc
Ŷi  ˆ 0  ˆ 1X i .

Biến Ŷ với các giá trị trên được gọi là biến dự báo. Từ biến dự báo này, ta lập
thêm các biến phụ Ŷ 2 , Ŷ 3 và Ŷ 4 . Có thể thấy
biến Ŷ chứa phần thông tin của biến phụ thuộc
được thể hiện qua biến độc lập X. Đồng thời có
thể cho rằng các biến Ŷ 2 , Ŷ 3 và Ŷ 4 có thể còn
chứa một phần thông tin khác của biến phụ
thuộc chưa được mô tả qua biến X. Như vậy, để
kiểm tra xem mô hình (7.5) có bỏ sót biến độc
lập nào đó hay không, ta có thể tiến hành kiểm
định để biết liệu các biến Ŷ 2 , Ŷ 3 và Ŷ 4 đúng
là nhóm biến bị bỏ sót hay không.
Tới đây, ta có thể tiếp tục giải quyết bài toán bằng một số cách khác nhau, chẳng
hạn như:
o Bước 3: Ta kiểm định giả thuyết H 0 :  2   3   4  0 bằng cách dùng thống kê

n  k R 2k  R 2m
F 
k  m 1  R 2k

với n là số quan sát có trong số liệu, k=5, m=2, còn R 2k và R 2m lần lượt là hệ
số xác định của các mô hình (*) và (7.5). Thống kê này có phân phối Fisher với
bậc tự do n – 5 và k  m  3 , qua đó tính được xác suất ý nghĩa để đưa ra kết
luận chấp nhận hay bác bỏ giả thuyết H 0 . Việc chấp nhận giả thuyết cho phép
khẳng định không có hiện tượng bỏ sót biến. Còn khi giả thuyết bị bác bỏ thì
có nghĩa trong mô hình (7.5) còn sót biến độc lập.
Tới đây, ta có thể tiếp tục giải quyết bài toán bằng một số cách khác nhau, chẳng
hạn như:
o Áp dụng bài toán kiểm định 2 để kiểm tra xem có phải nhóm các biến Ŷ 2 , Ŷ 3
và Ŷ 4 đã bị bỏ sót khi dùng mô hình hồi quy (7.5) hay không, ta xét mô hình
hồi quy (7.5),
Yi  0  1X i  u i ,

và mô hình
ˆ2  Y
Yi   0  1X i   2 Y ˆ3 ˆ4
i 3 i   4 Yi  v i . (*)

o Phương pháp kiểm định nhân tử Lagrange. Phương pháp này được tiến hành,
bắt đầu bằng Bước 1 và Bước 2 như đã nói ở trên, với một bổ sung nhỏ:

v1.0 103
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[

 Thứ nhất: Dùng các hệ số ̂0 và ̂1 và các giá trị quan sát được của biến
độc lập để thu ước lượng biến phụ thuộc Ŷ và biến phụ Ŷ 2 , Ŷ 3 , Ŷ 4 , đồng
thời xác định các giá trị của biến phần dư
ˆ ; i  1, 2,..., n .
û i  Yi  Yi

 Thứ hai: Xét phương trình hồi quy


ˆ2  Y
û i   0  1X i   2 Y ˆ3 ˆ4
i 3 i   4 Yi  v i

và dùng số liệu để ước lượng hệ số xác định R 2 của phương trình hồi quy đó;
 Thứ ba: Lập giả thuyết H 0 :  2   3   4  0
và dùng thống kê nR 2 để kiểm định giả
thuyết ấy. Thống kê này có phân phối khi
bình phương với 3 bậc tự do, qua đó tính
được xác suất ý nghĩa để đưa ra kết luận
chấp nhận hay bác bỏ giả thuyết H 0 . Việc
chấp nhận giả thuyết này đồng nghĩa với
việc khẳng định không có hiện tượng bỏ sót
biến. Ngược lại, nếu giả thuyết bị bác bỏ thì
mô hình (7.5) còn bỏ sót biến độc lập.
Chú ý: Trong Trường hợp 2 này, ta chỉ có thể đưa ra kết luận về chất lượng
của mô hình, khẳng định mô hình có bỏ sót biến hay không, mà không xác định
được chính xác biến bị bỏ sót. Nếu biết chắc chắn là có hiện tượng bỏ sót biến
và cần xác định rõ biến bị bỏ sót thì cần dựa vào kinh nghiệm và kiến thức của
chuyên ngành có số liệu. Lúc ấy có thể tiến hành bổ sung số liệu của biến bị bỏ
sót để cải tiến mô hình.

7.6. Kiểm định phát hiện hiện tượng thừa biến


Ta thấy bài toán kiểm định phát hiện hiện tượng thừa
biến độc lập trong mô hình hồi quy chính là một phần
của bài toán “ngược” đối với bài toán kiểm định 3
nhằm phát hiện sự bỏ sót biến độc lập trong mô hình,
với giả thuyết của bài toán này được đổi thành đối
thuyết của bài toán kia, và ngược lại, đối thuyết được
chuyển tương ứng thành giả thuyết, hơn nữa đã có số
liệu của biến W , là biến đang bị nghi vấn là biến thừa trong mô hình. Như vậy, hoàn
toàn có thể dùng các phương pháp đã trình bày cho trường hợp 1, mục 7.5 trên đây, để
phát hiện hiện tượng thừa biến.

7.7. Lựa chọn giữa mô hình hồi quy tuyến tính và mô hình hồi quy lôga tuyến tính
Một trong các giả thiết của mô hình hồi quy tuyến tính là giả thiết về tính phân bố
chuẩn của các phần dư (hay còn được gọi là sai số). Dễ dàng thấy nếu phần dư của mô
hình hồi quy có phân bố chuẩn thì bản thân biến phụ thuộc cũng phải có phân bố
chuẩn. Tuy nhiên, trong thực hành rất hay gặp phải những biến phụ thuộc không có
phân bố chuẩn mà lại có phân bố lôga-chuẩn. Thí dụ, với số liệu về thu nhập trên đầu

104 STA301_Bài 7_v1.0013101214


Bài 7: Lựa chọn mô hình hồi quy
ơ

người năm 1999 của các hộ gia đình ở huyện Ba Vì, ta có biểu đồ tần số bên trái trong
hình dưới đây. Rõ ràng biểu đồ đó không đối xứng và “biến thu nhập trên đầu người”
(incomecapita) không có phân bố chuẩn. Tuy nhiên, nếu ta lập biến mới logincocapita
bằng cách lấy loga cơ số 10 của biến trên đây thì ta sẽ có đồ thị tần số phía bên phải
với dạng của phân bố chuẩn.

Trong trường hợp này, để dự báo thu nhập trên đầu người”, rõ ràng mô hình hồi quy
tuyến tính với biến phụ thuộc logincocapita sẽ phù hợp hơn mô hình hồi quy tuyến tính
với biến phụ thuộc incomecapita. Lúc đó, thay vì dùng mô hình
Y   0  1X  v , (7.7)
ta nên dùng mô hình
log10 (Y)  0  1X  u . (7.8)

Dùng phương pháp bình phương bé nhất để ước các hệ số hồi quy ̂0 và ̂1 của phương
trình hồi quy tuyến tính trên, từ đó ta có thể xây dựng công thức để dự báo giá trị của
biến phụ thuộc nguyên thủy Y qua biểu thức:
ˆ ˆ ˆ ˆ
Ŷ  100 1X  100 .(10X )1 . (7.9)

Mô hình (7.8) được gọi là mô hình lôga tuyến tính. Bên cạnh mô hình đó, người ta còn
hay dùng mô hình log-log tuyến tính, được thành lập bằng cách lấy lôga cả biến phụ
thuộc lẫn biến độc lập trước khi đưa các biến đó vào mô hình hồi quy tuyến tính thông
thường, nếu cả biến phụ thuộc và biến độc lập đều là những biến nhận giá trị dương
log10 (Y)   0  1 log10 (X)  W . (7.10)

Với các giá trị ̂ 0 và ̂1 của phương trình hồi quy tuyến
tính trên ước lượng được bằng phương pháp bình phương
bé nhất, ta có thể xây dựng công thức để dự báo giá trị
của biến phụ thuộc nguyên thủy Y như sau:
ˆ ˆ ˆ ˆ
Ŷ  100 1 log(X)  100 .(X)1 . (7.11)

Trên đây, các mô hình (7.8)-(7.11) được trình bày cho


trường hợp hồi quy đơn, tức là khi phương trình hồi quy chỉ chứa một biến độc lập.
Mô hình hồi quy bội tương ứng với nhiều biến độc lập cũng có thể trình bày hoàn toàn
tương tự.

v1.0 105
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[

Các mô hình hồi quy lôga tuyến tính và log-log tuyến tính, mặc dù khó giải thích về ý
nghĩa thực tế hơn so với mô hình hồi quy tuyến tính thông thường, nhưng nhiều khi lại
giúp giải quyết được một số vướng mắc của mô hình hồi quy tuyến tính, chẳng hạn
như vấn đề về phương sai sai số thay đổi đã đề cập đến trong bài trước.

7.8. Bản chất của biến giả và mô hình hồi quy với biến giải thích là biến giả
Mô hình hồi quy thường được dùng để dự báo giá trị định lượng của biến phụ thuộc
theo giá trị đã biết của một hoặc nhiều biến độc lập. Trên đây chúng ta đã đề cập đến
trường hợp các biến độc lập là các biến định lượng, mà giá trị chúng có thể nhận được
là các số đo. Tuy nhiên, trong thực hành có nhiều trường hợp có những biến độc lập,
yếu tố ảnh hưởng đến giá trị của biến phụ thuộc, lại không phải là biến định lượng mà
là biến định tính (còn được gọi là biến định danh, biến phân hạng hay biến chất) với
các giá trị có thể nhận được của biến không phải là các con số, mà lại là các thuộc
tính, tính chất, đặc điểm, ... nào đó của đối tượng.
Thí dụ, để xây dựng mô hình dự báo chi phí của một khách nước ngoài dành cho một
chuyến du lịch được thực hiện tại Việt Nam, ta cần xét tới mọi yếu tố có thể ảnh
hưởng đến khả năng sẵn sàng chi trả của khách. Các yếu tố đó có thể bao gồm tuổi,
giới tính, quốc tịch của khách, thời gian (số ngày) thực hiện của chuyến du lịch, mùa
tiến hành chuyến du lịch, ... Có thể thấy trong các yếu tố đó, chỉ có “tuổi” và “thời
gian” là hai biến định lượng, còn lại đều không phải là các biến định lượng.
Như vậy, trước tiên ta cần mã hóa lại các biến định tính
để có các biến nhận các giá trị số đại diện cho biến
định tính trong phương trình. Có thể dùng các biến giả
nhị phân (chỉ nhận hai giá trị 0-1) để mã hóa lại các
biến định tính. Cách mã hoá bằng các biến giả như vậy
khá đơn giản và có thể giúp diễn giải các hệ số ước lượng
được của phương trình hồi quy một cách rất rõ ràng.
Chẳng hạn, ta có thể mã hóa biến giới tính thành biến
giả GT nhận giá trị 0 nếu khách hàng là nam giới, nhận giá trị 1 nếu khách hàng là phụ
nữ. Lúc đó khi ước lượng chi phí của khách du lịch theo giới tính bằng mô hình hồi quy
Y   0  1GT  u ,
trong đó Y là chi phí của khách hàng, u là sai số, thì hệ số chặn  0 chính bằng giá trị
chi phí trung bình của nhóm khách hàng nữ,
 0  E(Y GT  0) .

Đồng thời, hệ số dốc 1 chính là giá trị chênh lệch giữa chi phí trung bình của nhóm
khách hàng nam so với chi phí trung bình nhóm khách hàng nữ, tức là tổng  0  1
của hai hệ số hồi quy có giá trị đúng bằng giá trị chi phí trung bình của nhóm khách
hàng nữ,
 0  1  E(Y GT  1) .

Phép kiểm định giả thuyết H 0 : 1  0 về sự bằng không của hệ số dốc trong mô hình
này cho phép chúng ta đưa ra kết luận về việc liệu chi phí của nhóm khách hàng nam
có ngang bằng với chi phí của nhóm khách hàng nữ hay không.

106 STA301_Bài 7_v1.0013101214


Bài 7: Lựa chọn mô hình hồi quy
ơ

Việc sử dụng biến giả trong mô hình hồi quy có thể mở rộng cho trường hợp biến định
tính nhận nhiều giá trị, tức là khi biến định tính xác định nhiều nhóm các quan sát ứng
với nhiều phạm trù khác nhau. Chẳng hạn, giả sử khách du lịch trong nghiên cứu có các
quốc tịch Pháp, Nga, Nhật, Mỹ, Trung Quốc và Việt Nam. Lúc đó ta có thể dùng 5 biến
giả D1 , D2 , D3 , D4 và D5 để mã hóa biến định tính “quốc tịch” như trong bảng sau:

Quốc tịch D1 D2 D3 D4 D5

Pháp 1 0 0 0 0

Nga 0 1 0 0 0

Nhật 0 0 1 0 0

Mỹ 0 0 0 1 0

Trung Quốc 0 0 0 0 1

Việt Nam 0 0 0 0 0

Trong bảng trên, biến D1 ứng với nhóm khách mang quốc tịch Pháp, nhận giá trị 1 đối
với quan sát của khách Pháp, nhận giá trị 0 đối với các quan sát nhóm khác; biến D2
ứng với nhóm khách mang quốc tịch Nga, nhận giá trị
1 đối với quan sát của khách đến từ nước Nga, nhận
giá trị 0 đối với các quan sát nhóm khác; ... Riêng đối
với nhóm quan sát ứng với khách nội địa Việt Nam, tất
cả các biến giả từ D1 đến D5 đều nhận giá trị bằng 0.
Nhóm này được lấy làm nhóm “nền” (hay còn gọi là
nhóm “chứng”), với các kết quả được lấy làm mức cơ
sở để so sánh với kết quả của các nhóm khác. Chẳng hạn, khi dùng mô hình hồi quy
Y  0  1D1  2 D 2  3 D3  4 D 4  5 D5  u. (7.12)
để dự đoán mức chi phí của khách du lịch phụ thuộc vào quốc tịch của khách, kết quả
ước lượng được của hệ số chặn 0 cho biết mức chi phí trung bình của nhóm khách
nội địa
0  E(Y D1  D 2  D3  D 4  D5  0)

Chi phí trung bình này của nhóm “nền” được lấy làm “mức sàn” để so chi phí của các
nhóm khách đến từ các nước khác. Thí dụ, từ (7.12), chi phí trung bình của nhóm
khách Pháp được ước lượng bằng 0  1

0  1  E(Y D1  1)

chênh lệch chi phí của nhóm khách Pháp so với nhóm khách nội địa được ước lượng
bằng 1 ; chi phí trung bình của nhóm khách Nga được ước lượng bằng 0  2

0  2  E(Y D 2  1)

chênh lệch chi phí của nhóm khách Nga so với nhóm khách nội địa được ước lượng
bằng 2 ; ...

v1.0 107
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[

Các phép kiểm định H10 : 1  0 , H 02 : 2  0 , H30 : 3  0 , H 04 : 4  0 và H50 : 5  0 sẽ


lần lượt cung cấp các kết luận so sánh chi phí trung
bình của từng nhóm khách phân theo quốc tịch với chi
phí trung bình của nhóm khách nội địa.
Chú ý: Các phép kiểm định trên chỉ so sánh chi phí
trung bình của các nhóm khách nước ngoài với chi phí
của nhóm “nền” (khách nội địa), chứ không so sánh
được chi phí trung bình của các nhóm khách nước ngoài
với nhau.

7.9. Mô hình hồi quy với một biến lượng và một biến chất
Sau đây chúng ta xây dựng mô hình dự báo chi phí của khách du lịch, với giả thiết chi
phí đó vừa tỷ lệ với thời gian của chuyến du lịch, vừa phụ thuộc vào đặc thù riêng liên
quan đến quốc tịch của khách du lịch. Lúc đó trong danh sách các biến độc lập của mô
hình sẽ vừa xuất hiện biến định lượng (biến TG chỉ thời gian tính theo ngày của
chuyến du lịch), vừa có biến định tính là biến biểu diễn quốc tịch của khách du lịch.
Trong mô hình hồi quy, biến định tính này được mã hóa lại thành các biến giả như đã
trình bày trên đây. Ta xét phương trình hồi quy
Y  0  1D1  2 D 2  3 D3  4 D 4  5 D5  TG  u . (7.13)
Ta thấy trong mô hình này, hệ số dốc  cho biết chi
phí hàng ngày của khách du lịch, không phân biệt
người khách đó đến từ nước nào. Như vậy hệ số này
đại diện cho tính chất chung của tất cả các khách về
mặt chi tiêu cho mỗi ngày trong chuyến du lịch. Các hệ
số còn lại thể hiện đặc thù riêng của các nhóm khách
du lịch đến từ các nước khác nhau. Có thể nói mô hình
(7.13) là mô hình tổng hợp của 6 mô hình hồi quy
tuyến tính đơn có cùng hệ số dốc, mỗi mô hình cho biết quy luật chi tiêu của khách
hàng đến từ một nước. Cụ thể, với các hệ số ước lượng được từ (7.13), ta có thể dự
báo chi phí của khách du lịch nội địa theo phương trình
ˆ  ˆ  ˆ TG ;
Y 0

chi phí của khách Pháp bằng


ˆ  (ˆ  ˆ )  ˆ TG ;
Y 0 1

chi phí của khách Nga bằng


ˆ  (ˆ  ˆ )  ˆ TG ;
Y 0 2

chi phí của khách Nhật bằng


ˆ  (ˆ  ˆ )  ˆ TG ;
Y 0 3

ˆ  (ˆ  ˆ )  ˆ TG ;
chi phí của khách Mỹ bằng: Y 0 4

ˆ  (ˆ  ˆ )  ˆ TG .
chi phí của khách Trung Quốc bằng: Y 0 5

108 STA301_Bài 7_v1.0013101214


Bài 7: Lựa chọn mô hình hồi quy
ơ

Trên đồ thị mô tả quan hệ của chi phí theo thời gian thực hiện chuyến du lịch, các
đường hồi qui của các phương trình hồi quy đơn tương ứng với các phương trình trên
đây sẽ thể hiện thành các đường thẳng có cùng hệ số dốc và do đó song song với nhau.
Y

0  k

0  1

0
TG
Vì các mô hình hồi quy trên đây có chung hệ số dốc, chỉ có thể khác nhau hệ số chặn,
nên các phép kiểm định H10 : 1  0 , H 02 : 2  0 , H30 : 3  0 , H 04 : 4  0 và
H50 : 5  0 về thực chất sẽ lần lượt cung cấp các kết luận so sánh mô hình hồi quy dự
báo chi phí của từng nhóm khách phân theo quốc tịch với mô hình tương ứng của
nhóm khách nội địa. Nếu giả thuyết H 0k : k  0 được chấp nhận thì hai mô hình
ˆ  (ˆ  ˆ )  ˆ TG và Y
Y ˆ  ˆ  ˆ TG được coi là như nhau, chi phí của khách du lịch
0 k 0

của hai nhóm đó có thể dự báo theo cùng một phương trình hồi quy.

7.10. Mô hình hồi quy với một biến lượng và hai biến chất
Ta có thể đưa thêm vào mô hình (7.13) để có mô hình dự báo chi phí của khách du
lịch theo biến thời gian thực hiện chuyến du lịch (TG - biến lượng) và hai biến chất là
giới tính (GT) và quốc tịch của khách du lịch. Biến giới tính được mã hóa lại thành
các biến giả như đã nói phía trên và ta có mô hình hồi quy mới như sau:
Y   0  1GT  1D1  2 D 2  3 D3  4 D 4  5 D5  TG  u . (7.14)
Với mô hình này, hệ số dốc  vẫn thể hiện quy luật chung về chi phí hàng ngày của
khách du lịch. Trong khi đó, hệ số chặn được tách thành nhiều phần, mô tả các đặc thù
riêng của từng nhóm khách về chi phí ban đầu. Cụ thể, hệ số 1 cho biết sự khác nhau
giữa khách nam và khách nữ; các hệ số 1 , 2 , 3 , 4 , 5 biểu diễn sự khác biệt về chi
phí ban đầu giữa những nhóm khách du lịch đến từ các nước khác nhau; riêng hệ số
 0 lại cho biết phần giống nhau, chung cho mọi nhóm khách, về chi phí ban đầu.
Như vậy, mô hình (7.14) có thể coi là mô hình gộp chung của 12 hồi quy riêng rẽ, do
đó vừa thể hiện được quy luật chung của tất cả các nhóm đối tượng, vừa biểu diễn
được những đặc thù riêng của mỗi nhóm. Từ phương trình hồi quy (7.14) ta có thể rút
ra hai phương trình hồi quy cho biết quy luật về chi phí của hai nhóm khách nam và
nữ nội địa,
Y   0  TG  u (đối với nam),
Y   0  1  TG  u (đối với nữ);

v1.0 109
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[

hai phương trình hồi quy tương ứng với hai nhóm khách nam và nữ người Pháp,
Y  ( 0  1 )  TG  u (đối với nam),

Y  ( 0  1  1 )  TG  u (đối với nữ);

...
và cuối cùng là hai phương trình tương ứng với hai nhóm khách nam và nữ người
Trung Quốc,
Y  ( 0  5 )  TG  u (đối với nam),

Y  ( 0  1  5 )  TG  u (đối với nữ).

Trên đồ thị, 12 phương trình hồi quy trên đây sẽ tương ứng với 12 đường thẳng song
song với nhau, có chung độ dốc và chỉ khác nhau về vị trí cắt nhau với trục tung.
Các kết quả kiểm định các hệ số của mô hình (7.14) sẽ giúp so sánh hệ số chặn của 12
mô hình trên đây. Cụ thể, phép kiểm định giả thuyết H 0 : 1  0 cho phép chúng ta
đưa ra kết luận về việc liệu yếu tố giới tính của khách du lịch có vai trò mang tính
thống kê đối với hệ số chặn của các mô hình hay không. Còn các phép kiểm định
H10 : 1  0 ; H 02 : 2  0 ; H30 : 3  0 ; H 04 : 4  0 và H50 : 5  0 sẽ lần lượt cung cấp
các kết luận đánh giá ảnh hưởng của yếu tố quốc tịch của khách du lịch đối với hệ số
chặn trong các mô hình riêng rẽ (so sánh hệ số chặn trong mỗi mô hình với hệ số chặn
của mô hình ứng với nhóm khách nội địa).

7.11. Sử dụng biến giả trong phân tích mùa


Tại các thời điểm khác nhau trong năm, có sự khác
nhau về giá phòng của các khách sạn và giá các dịch
vụ khác đi kèm. Do vậy, cần sử dụng biến giả để xây
dựng mô hình biểu diễn được đặc điểm “mùa” của quy
luật. Trong thực tế, đối với các địa phương, các mùa
“cao điểm”, “thấp điểm” đối với du lịch thường kéo
dài khác nhau và vào quãng thời gian khác nhau trong
năm. Tuy nhiên, để tiện trình bày, ta tạm coi một năm có bốn mùa “Xuân”, “Hạ”,
“Thu” và “Đông”. Lúc đó, ta có thể dùng ba biến giả M1 , M 2 và M 3 để mã hóa biến
“Mùa” theo bảng sau:
Mùa M1 M2 M3
Xuân 1 0 0
Hạ 0 1 0
Thu 0 0 1
Đông 0 0 0

Ta sẽ kết hợp các biến giả trên đây với biến định lượng biến TG (chỉ thời gian tính
theo ngày của chuyến du lịch) để tạo ra các biến định lượng mới là TG1  M1 *TG ,
TG 2  M 2 *TG và TG 3  M 3 *TG , từ đó xây dựng và tiến hành phân tích mô hình
Y     0 TG  1TG1   2 TG 2   3TG 3  u . (7.15)

110 STA301_Bài 7_v1.0013101214


Bài 7: Lựa chọn mô hình hồi quy
ơ

Mô hình này có thể được coi là mô hình gộp chung của bốn mô hình tương ứng với
quy luật của bốn mùa. Bốn mô hình của bốn mùa có chung hệ số chặn  , chỉ khác
nhau ở hệ số dốc. Đối với mùa Xuân, phương trình hồi quy (7.15) thu gọn thành

Y    (  0  1 )TG  u .

Các phương trình tương ứng với các mùa còn lại lần lượt sẽ là:

Y    (  0   2 )TG  u (mùa Hạ); (7.15b)

Y    (  0   3 )TG  u (mùa Thu) (7.15c)


Y     0 TG  u (mùa Đông). (7.15d)

Các phép kiểm định H10 : 1  0 , H 02 :  2  0 và


H30 :  3  0 được thực hiện khi phân tích mô hình
(7.15) sẽ lần lượt cung cấp các kết luận so sánh hệ số
dốc của từng mô hình (7.15a), (7.15b) và (7.15c) với
hệ số dốc của mô hình (7.15d), cho biết chi phí hàng
ngày của khách du lịch vào mỗi mùa Xuân, Hạ và
Thu có khác biệt một cách có ý nghĩa thống kê so
với chi phí hàng ngày của khách du lịch vào mùa
Đông hay không.
Chú ý:
 Với việc chọn nhóm các quan sát của mùa Đông làm nhóm “nền” (các biến giả
M1 , M2 và M3 nhận giá trị bằng 0 tại nhóm này), các phép kiểm định trên chỉ giúp
so sánh hệ số dốc trong mô hình hồi quy của các mùa khác với hệ số dốc trong mô
hình tương ứng của mùa Đông, chứ không so sánh được hệ số dốc trong các mô
hình ứng với các mùa Xuân, Hạ và Thu với nhau. Tuy nhiên, bằng cách chọn lại
nhóm nền và lập các biến giả một cách thích hợp,
hoàn toàn có thể tiến hành kiểm định so sánh các
cặp hệ số dốc tùy ý nào đó.
 Có thể kết hợp mô hình (7.15) với mô hình (7.13)
hoặc (7.14) để có một mô hình diễn tả được cả quy
luật chung và các quy luật riêng cho các nhóm
khách du lịch và cho các mùa trong năm. Chẳng
hạn, kết hợp (7.15) với (7.13), ta sẽ có mô hình
Y  0  1GT 1D1 2 D2 3D3 4D4 5D5  0TG  1TG1  2TG2  3TG3  u
biểu diễn được các đặc thù về mùa và đặc thù về quốc tịch của các nhóm khách
du lịch.
 Trong các mục từ 7.8 đến 7.11, thí dụ về chi phí của khách du lịch được dùng minh
họa cho việc sử dụng biến giả để xây dựng các mô hình. Tuy nhiên, các mô hình này
có thể sử dụng rộng rãi cho nhiều nghiên cứu khác có cấu trúc số liệu phù hợp.

v1.0 111
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[

7.12. Hồi quy tuyến tính từng khúc


Mô hình hồi quy tuyến tính thường là mô hình thuận tiện cho việc giải thích ý nghĩa
thực tế của các kết quả phân tích thu được. Tuy nhiên, có thể quy luật tuyến tính của
mô hình không phải mang tính toàn cục mà chỉ mang tính cục bộ, tức là chỉ đúng đối
với từng khoảng tương đối ngắn trong miền giá trị của một biến độc lập. Khi đó, mô
hình hồi quy tuyến tính từng khúc sẽ cung cấp một giải pháp khá phù hợp.
Thí dụ, xét mô hình mô tả quan hệ giữa thu nhập của sinh
viên sau khi ra trường phụ thuộc vào thâm niên công tác,
trong đó có xét đến ảnh hưởng của chính sách điều chỉnh
mức lương tối thiểu được nhà nước tiến hành hàng năm.
Trong mô hình này, thu nhập Y được ấn định là biến phụ
thuộc cùng với biến độc lập chính là TN (thâm niên), số
liệu được quan sát bắt đầu từ ngày 01/01/2004 đến hết
năm 2009 và giả sử việc điều chỉnh mức lương tối thiểu
được thực hiện đều đặn vào ngày 01 tháng 01 hàng năm. Lúc đó, ta có thể dùng 5 biến
giả N1 , N 2 , N3 , N 4 và N5 để biểu diễn khoảng thời gian của các năm như trong
bảng sau:
Năm N1 N2 N3 N4 N5
2005 1 0 0 0 0
2006 0 1 0 0 0
2007 0 0 1 0 0
2008 0 0 0 1 0
2009 0 0 0 0 1
2004 0 0 0 0 0
Ta thành lập các biến định lượng mới là TN1  N1 *TN , TN 2  N 2 *TN ,
TN3  N3 *TN , TN 4  N 4 *TN và TN5  N5 *TN , từ đó xây dựng và tiến hành
phân tích mô hình
Y   0  1 N1   2 N 2   3 N 3   4 N 4  5 N 5 
  0 TN  1TN1   2TN 2   3TN 3   4TN 4   5TN 5  u .

Đây là một mô hình hồi quy tuyến tính từng khúc, là mô hình tổng hợp của 6 mô hình
hồi quy tuyến tính đơn tương ứng với từng năm từ 2004 đến 2009 như sau:
Y   0   0 TN  u (năm 2004);

Y  ( 0  1 )  (  0  1 )TN  u (năm 2005);

Y  ( 0   2 )  (  0   2 )TN  u (năm 2006);

Y  ( 0   3 )  (  0   3 )TN  u (năm 2007);

Y  ( 0   4 )  (  0   4 )TN  (năm 2008);

Y  ( 0   5 )  (  0   5 )TN  u (năm 2009).

112 STA301_Bài 7_v1.0013101214


Bài 7: Lựa chọn mô hình hồi quy
ơ

Chú ý:
 Mặc dù trong thực hành, đối với số liệu dạng giống như trong thí dụ nêu trên, có
thể tiến hành tách tập số liệu thành 6 tập số liệu của các năm và xây dựng các mô
hình hồi quy tuyến tính riêng rẽ cho từng năm bằng cách sử dụng lần lượt các tập
số liệu nhỏ. Tuy nhiên mô hình tuyến tính từng khúc trình bày trên đây cung cấp
hình ảnh tổng hợp, không rời rạc. Hơn nữa, bằng các phép kiểm định trong phân
tích mô hình tuyến tính từng khúc, ta có thể so sánh các hệ số hồi quy giữa các mô
hình hồi quy của các năm.
 Nếu các quan sát trong một khoảng thời gian của mô hình tuyến tính từng khúc có
sự phụ thuộc vào nhau, thì nên sử dụng phương pháp “Phân tích nhiều mức”
(Multi-level analysis) thay cho mô hình tuyến tính từng khúc. Có thể tham khảo
(chẳng hạn trên mạng Internet) các tài liệu khác để biết thêm về phương pháp
“Phân tích nhiều mức”.

7.13. Mô hình hồi quy đa thức


Mô hình hồi quy tuyến tính là mô hình khá đơn giản,
có các hệ số dễ dàng ước lượng được bằng các thuật
toán quen thuộc, hơn nữa lại khá thuận tiện cho việc
diễn giải ý nghĩa thực tế của mô hình. Tuy nhiên, trong
thực hành lại có nhiều bài toán không phù hợp với mô
hình tuyến tính mà phù hợp với mô hình phi tuyến.
Chẳng hạn khi có một mặt hàng mới được tung ra thị
trường, số lượng hàng tiêu thụ trong mỗi tháng sẽ tăng
lên rất nhanh do tính hấp dẫn của mặt hàng. Nhưng sau
một thời gian, thị trường sẽ dần dần bão hòa đối với mặt hàng đó và số lượng tiêu thụ
mặt hàng đó sẽ từng bước chững lại rồi giảm xuống. Đối với trường hợp này, một mô
hình phi tuyến sẽ thích hợp hơn mô hình tuyến tính. Trong số các mô hình phi tuyến,
bên cạnh mô hình hồi quy lôga tuyến tính đã nói tới trong mục 7.7, các mô hình hồi
quy đa thức cũng là những mô hình hay được xét đến. Sau đây chúng ta sẽ xem xét
mô hình hồi quy đa thức bậc hai, các mô hình đa thức bậc cao hơn có thể được xây
dựng hoàn toàn tương tự.
Mô hình hồi quy đa thức bậc hai với m biến độc lập có dạng tổng quát là
m m m
Y     i X i    X Xij i j , (7.16)
i 1 i 1 j1

trong đó Y là biến phụ thuộc, Xi ;i  1, 2,..., m; là các


biến độc lập; , i ,  ij ;i, j  1, 2,..., m; là các hệ số hồi
quy cần ước lượng, còn  là sai số hồi quy. Bằng cách
lập các biến mới
Zij  Xi X j ; i, j  1, 2,..., m;
mô hình hồi quy trên đây sẽ chuyển về dạng
m m m
Y     i X i    Z ij ij . (7.17)
i 1 i 1 j1

v1.0 113
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[

Đây là mô hình hồi quy tuyến tính thông thường với m  m 2 biến độc lập. Sử dụng
các thủ tục ước lượng đối với mô hình hồi quy tuyến tính bội, ta tìm được các giá trị
ước lượng của các hệ số hồi quy trong mô hình (7.17), đó cũng chính là các hệ số của
mô hình hồi quy đa thức bậc hai (7.16) đang được xét đến.
Chú ý:
Trong mô hình hồi quy tuyến tính bội (7.17) trên đây, thường có hiện tượng đa cộng
tuyến giữa biến Xi và biến Zii , i  1, 2,..., m . Do vậy, trước khi tiến hành ước lượng
các hệ số của mô hình, ta nên xử lý hiện tượng đa cộng tuyến trong tập hợp m  m 2
biến độc lập của mô hình.

7.14. Ảnh hưởng tương tác


Trong mô hình hồi quy bội với một biến phụ thuộc và nhiều biến độc lập, ngoài ảnh
hưởng riêng rẽ của từng biến độc lập, biến phụ thuộc có thể còn chịu ảnh hưởng của
sự tương tác giữa các cặp biến độc lập, giữa bộ ba, bộ bốn các biến độc lập, ... Các
ảnh hưởng tương tác có thể làm giá trị của biến phụ thuộc tăng lên, song tương tác
cũng có thể làm giá trị của biến phụ thuộc giảm xuống.
Trong mô hình (7.17) trên đây, hệ số  ij cho ta biết ảnh
hưởng tương tác của hai biến độc lập Xi và X j tác
động lên giá trị của biến phụ thuộc Y . Phép kiểm định
giả thuyết H ij0 :  ij  0 cho phép chúng ta đưa ra kết
luận về ảnh hưởng của sự tương tác đó. Nếu giả thuyết
được chấp nhận thì ta có thể kết luận sự tương tác
không gây ra tác động mang tính thống kê đối với giá
trị của Y . Nếu ngược lại, giả thuyết bị bác bỏ, thì tương tác của hai biến độc lập Xi
và X j có tác động thực sự lên giá trị của biến phụ thuộc Y . Khi đó, nếu  ij  0 thì giá
trị của Y sẽ tăng lên khi cả Xi và X j tăng lên (tương tác có tác động đồng biến); còn
nếu  ij  0 thì giá trị của Y sẽ tăng lên khi cả Xi và X j tăng lên (tương tác có tác
động nghịch biến).
Chú ý:
 Việc diễn giải ảnh hưởng của tương tác sẽ rõ ràng và dễ hiểu hơn, khi các biến độc
lập đều là các biến nhị phân (chỉ nhận hai giá trị 0-1). Tuy nhiên, sự tương tác có
thể xuất hiện giữa các biến định tính, giữa các biến định lượng, cũng như giữa biến
định và biến định lượng (trước khi đưa vào mô hình hồi quy để xét tính tương tác,
các biến định tính nên được đưa về các biến nhị phân bằng cách sử dụng biến giả).
 Mô hình (7.17) giúp chúng ta phân tích các tương tác bộ đôi giữa các biến độc lập.
Để phân tích các tương tác bộ ba, bộ bốn, ... giữa các biến độc lập, ta cần sử dụng
các mô hình hồi quy đa thức bậc cao hơn, được thành lập một cách thích hợp.

114 STA301_Bài 7_v1.0013101214


Bài 7: Lựa chọn mô hình hồi quy
ơ

TÓM LƯỢC CUỐI BÀI


 Một mô hình được coi là có những thuộc tính tốt cần có những tiêu chuẩn sau:
o Có khả năng sự báo tốt.
o Phải mô tả được lí thuyết kinh tế liên quan .
o Không có những quan hệ giữa các biến độc lập và các yếu tố ngẫu nhiên.
o Giá trị của các tham số phải ổn định, nếu không dự báo sẽ không đáng tin cậy.
o Mô hình phải phản ánh được số liệu (các nhiễu phải thực sự ngẫu nhiên).
o Mô hình phải là phù hợp nhất trong số các mô hình có thể có.

• Các loại sai lầm định dạng của mô hình?


Ví dụ: Giả sử ta có mô hình hàm tổng chi phí dạng bậc 3 như sau:
Yi  1  2 X i1  3 X i2  4 X i3  u i (1)

Khi thiết lập một mô hình ta có thể mắc phải các sai lầm về mặt định dạng như sau:
o Mô hình bị thiếu biến cần thiết: nếu ta ước lượng mô hình (1) trên không có biến Xi3.
o Mô hình bị thừa biến: Nếu trong mô hình (1) ở trên ta đưa thêm cả biến Xi4.
o Nếu ta ước lượng mô hình dưới dạng lôga của các biến trong khi thực thế mô hình đúng
có dạng tuyến tính, ta nói mô hình sai dạng hàm.
o Định dạng sai cho sai số ngẫu nhiên.
o Giả thiết về nhiễu ngẫu nhiên phân phối chuẩn.

• Hậu quả nếu một mô hình định dạng sai.


o Mô hình thừa biến.
o Dạng hàm sai & thiếu biến.
Do vậy:
Khoảng tin cậy và kiểm định giả thiết thường cho kết quả không đúng về các tham số.
Dự báo dựa trên các mô hình này thường không đáng tin cậy.
• Các kiểm định phát hiện sai lầm định dạng.
o Kiểm định thừa biến.
Kiểm định thừa 1 biến: kiểm định T.
Kiểm định thừa từ 2 biến trở lên: Kiểm định F (thu hẹp của hàm hồi quy).
o Dạng hàm sai & thiếu biến: Kiểm định RESET.
• Phương pháp biến giả:
o Trong mô hình hồi quy, khi xem xét sự phụ thuộc của biến Y vào các yếu tố định tính
(thu nhập vào giới tính, trình độ học vấn,...), ta cần lượng hóa các biến định tính này.
o Để lượng hóa các biến định tính này, ta sử dụng biến giả (Dummy variables). 1 biến giả D
được thành lập nhận 2 giá trị 0 (nếu một thuộc tính nào đó xuất hiện) và 1 (nếu thuộc tính
đó không xuất hiện).
o Biến giả trong mô hình hồi quy được sử dụng giống như các biến định lượng thông thường.

v1.0 115
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[

CÂU HỎI THƯỜNG GẶP


1. Tại sao phải đánh giá và lựa chọn mô hình trong phân tích hồi quy?
2. Nếu nhiễu ngẫu nhiên của mô hình không có phân phối chuẩn như giả thiết, hậu quả sẽ như
thế nào?
3. Hậu quả của việc mô hình bị định dạng sai là gì?
4. Làm thế nào để phát hiện ra các loại sai lầm định dạng nêu trên?
5. Tại sao ta chỉ xem xét phương pháp biến giả khi muốn nghiên cứu ảnh hưởng của biến định
tính lên biến phụ thuộc?
6. Tại sao số biến giả được thiết lập cho một biến định tính phải ít hơn số thuộc tính của biến đó là 1?
7. Các biến giả trong mô hình hồi quy được sử dụng có khác gì với các biến định lượng thông
thường không?
8. Nếu trong mô hình có cả biến lượng và biến chất thì nên xây dựng mô hình như thế nào?

BÀI TẬP TRẮC NGHIỆM


1. Các loại khuyết tật sau đây được gọi là các sai lầm định dạng của mô hình:
A. Mô hình thiếu biến cần thiết. B. Mô hình thừa biến.
C. Mô hình bị sai dạng hàm. D. Tất cả các loại trên.
2. Trong phương pháp biến giả, biến giả có thể nhận bất cứ giá trị bằng số nào:
A. Đúng. B. Sai.
3. Nếu biến độc lập gồm có 2 biến định tính, mỗi biến định tính gồm 3 thuộc tính, nếu sử dụng
phương pháp biến giả, số biến giả được thiết lập trong mô hình là:
A. 3 B. 4
C. 5 D. 6
4. Trong phân tích hồi quy, chỉ có biến độc lập mới có thể là biến định tính:
A. Đúng. B. Sai.
5. Nếu mô hình có biến giả, ta không thể sử dụng phương pháp OLS để ước lượng mô hình.
A. Đúng. B. Sai.
6. Nếu một mô hình có biến độc lập bao gồm 1 biến định lượng và 2 biến định tính, mỗi biến có
2 thuộc tính, khi đó mô hình có bao nhiêu biến độc lập nếu ta giả thiết các thuộc tính khác
nhau cả hệ số chặn và hệ số góc, đồng thời có tương tác giữa 2 biến định tính:
A. 3 B. 4
C. 5 D. 6.
7. Khi đặt biến giả trong mô hình, ta có thể cho bất cứ thuộc tính nào nhận giá trị bằng 0 hoặc
bằng 1.
A. Đúng. B. Sai.

116 STA301_Bài 7_v1.0013101214


Bài 8: Tự tương quan

BÀI 8. TỰ TƯƠNG QUAN

Mục tiêu

Sau khi kết thúc bài, học viên sẽ hiểu


được những vấn đề sau đây:
 Hiện tượng Tự Tương Quan (TTQ) xảy
ra khi nào?
 Nguyên nhân và hậu quả của TTQ.
 Làm thế nào để phát hiện TTQ.
 Các biện pháp khắc phục TTQ.

Nội dung Hướng dẫn học

 TTQ là gì?  Cần nắm được bản chất của hiện


 Nguyên nhân và hậu quả của TTQ. tượng đó là khi một giả thiết của
 Phát hiện hiện tượng TTQ trong mô hình. phương pháp OLS không thỏa mãn.

 Khắc phục TTQ.  Tập trung vào hậu quả chính của hiện
tượng này đó là làm cho các ước
lương OLS sẽ là các ước lượng không
hiệu quả.
 Hiểu rõ ý tưởng của các phương pháp
phát hiện ra hiện tượng.
 Hiểu rõ ý tưởng của các phương pháp
khắc phục hiện tượng.

STA301_Bài 8_v1.0013101214 117


Bài 8: Tự tương quan

TÌNH HUỐNG DẪN NHẬP

Tình huống
Khi nghiên cứu một vấn đề nào đó bằng phương pháp kinh tế lượng,
ta đều sử dụng một mô hình hồi quy và để ước lượng mô hình hồi quy,
ta thường dùng phương pháp OLS (bài học số 3). Tuy nhiên, để thực
hiện được phương pháp OLS thì về mặt kỹ thuật, một giả thiết trong
mô hình cần thỏa mãn. Đó là giả thiết về sự không có sự tương quan
giữa các nhiễu ngẫu nhiên (không có tự tương quan). Về bản chất thì
giả thiết này muốn ngụ ý rằng quan sát của biến phụ thuộc ở thời điểm
này sẽ không có quan hệ với quan sát của biến phụ thuộc ở thời điểm khác.
Ta lấy ví dụ cụ thể, Việt Nam khi nghiên cứu về GDP phụ thuộc vào vốn đầu tư theo các năm.
Vì GDP của Việt Nam nói riêng và các quốc gia trên thế giới nói chung thay đổi thường có
tính chu kì nên các quan sát ở thời điểm khác nhau thường có quan hệ nào đó với nhau.

Câu hỏi
Vấn đề là hậu quả của việc giả thiết trong mô hình kinh tế lượng không thỏa mãn là gì?

118 STA301_Bài 8_v1.0013101214


Bài 8: Tự tương quan

Mô hình hồi quy tuyến tính cổ điển đã dựa vào một giả thiết hết sức quan trọng là giữa các sai số
ngẫu nhiên u i không có sự tương quan, tức là E  u i u j   0 , i  j . Tuy nhiên trong thực tế, đối
với số liệu dạng chuẩn thời gian, giả thiết này thường hay bị vi phạm. Do vậy các câu hỏi đặt ra
là trong trường hợp này ta còn có thể áp dụng phương pháp OLS hay không, sự vi phạm giả thiết
này sẽ dẫn tới hậu quả gì và biện pháp khắc phục hiện tượng đó bằng biện pháp nào. Bài này sẽ
giải quyết các vấn đề nêu trên.

8.1. Bản chất của hiện tượng tự tương quan.


Mô hình hồi quy được gọi là có hiện tượng tự tương
quan nếu các sai số ngẫu nhiên u i không độc lập với
nhau, tức là Cov  u i , u j   0, i  j . Bản chất của vấn
đề là do đâu. Trong các bài đầu đã chỉ ra nguyên nhân
sự có mặt trong mô hình của yếu tố ngẫu nhiên u i ,
được gọi là sai số ngẫu nhiên, đó là:
 Có những biến nào bị loại khỏi mô hình;
 Bản chất phi tuyến của mô hình bị bỏ qua;
 Có các yếu tố ngẫu nhiên và các tác động không dự đoán được.
Các nhân tố trên đây có thể dẫn đến hiện tượng các sai số tương quan với nhau.
Giả sử trong mô hình có hiện tượng tự tương quan, tức là

Cov  u t , u s   0, t  s

Khi đó sai số ở giai đoạn t là tương quan với sai số ở giai đoạn s. Ta có biểu diễn hiện
tượng tự tương quan qua sự phụ thuộc giữa các sai số theo phương trình như sau:
BÀI TOÁN
Giả thiết 1: Trong mô hình
Yt  1  2 X t  u t (8.1)

Sai số u t phụ thuộc vào sai số u t 1 ở giai đoạn t –1 theo phương trình

u t  u t 1   t (8.2)
với 1    1 .
Giả thiết 2: Các sai số  t trong (8.2) là độc lập với nhau và

E   t   0;E   2t   2  

8.2. Ước lượng bình phương nhỏ nhất khi có tự tương quan
Xét mô hình hồi quy có hiện tượng tự tương quan

Yt  1  2 X 2t  3 X 3t  ...  k X kt  u t (8.3)

u t  u t 1   t , 1    1

STA301_Bài 8_v1.0013101214 119


Bài 8: Tự tương quan

Ta sẽ áp dụng phương pháp OLS để ước lượng phương


trình hồi quy (8.3). Do các giả thiết của OLS bị phá vỡ
nên ta cần phải biến đổi (8.3) để đưa về dạng thích hợp.
Cochrane và Orcutt đã đưa ra phương pháp biến đổi như
sau. Từ (8.3) ta có

Y t 1  1  2 X 2 t 1  3 X 3 t 1  ...  k X k  t 1  u t 1 (8.4)

Ta lấy (8.3) trừ đi (8.4) nhân với  , ta có :


Yt  Y t 1  1 1     2 X 2t  X 2 t 1 
   
 3 X 3t  X 3 t 1  ...  k X kt  X k  t 1  u t  u t 1 . (8.4)

Đặt: Yt*  Yt  Y t 1 ;

X*it  X it  X i t 1 ,i  2,3,..., k ;

1*  1 1    .

Từ đó dẫn đến

Yt*  1*  2 X*2t  3X*3t  ...  k X*kt   t . (8.5)

Mô hình này trở thành mô hình hồi quy tuyến tính thông thường với các giả thiết cần
thiết được đảm bảo.Vậy áp dụng OLS cho (8.5) ta ước lượng được các hệ số hồi quy.

8.3. Phát hiện hiện tượng tự tương quan.


Trong mục này chúng ta xem xét một số phương
pháp xác định hiện tượng tự tương quan của mô hình
hồi quy.
 Kiểm định Durlin – Watson
Kiểm định Durlin – Watson là một trong những
phép kiểm định được dùng đầu tiên và khá hiệu quả
để phát hiện hiện tượng tự tương quan trong mô
hình hồi quy. Xét mô hình hồi quy

Yt  1  2 X 2t  3 X 3t  ...  k X kt  u t (8.6)

Rõ ràng nếu giữa các sai số có hiện tượng tự tương quan bậc 1 thì mối quan hệ
giữa chúng có thể biểu diễn dưới dạng phương trình hồi quy

u t  u t 1   t , 1    1 .

Khi ấy việc kiểm định tính tự tương quan bậc 1 của sai số trong mô hình (8.6) có
thể tiến hành thông qua thống kê Durbin – Watson

120 STA301_Bài 8_v1.0013101214


Bài 8: Tự tương quan
n

  uˆ  uˆ t 1 
2
t
d t 2
n
(8.7)
 û
t 1
t
2

Ta có thể biến đổi (8.7) để thu được công thức sau:

d  2(1 
 uˆ uˆ t t 1
)  2(1  ˆ ) ,
u 2
t

với ̂ là ước lượng của  . Do | ˆ | 1 nên 0  d  4 . Khi d  2 thì   0 , do đó


nếu giá trị thống kê d  2 thì có thể kết luận trong mô hình không có tự tương
quan bậc một giữa các sai số. Ta có thể thiết lập giả thuyết H 0 :   0 với đối
thuyết H1 :   0 hoặc H1 :   0 . Dựa trên lý luận đó, có thể tiến hành các bước
kiểm định như sau:
o Bước 1 : Ước lượng mô hình OLS và tính phần dư û t .
o Bước 2: Tính giá trị thống kê Durbin – Watson (8.7) và tra bảng giá trị tới hạn
của thống kê Durbin – Watson để có các giá trị tới hạn trên d U và giá trị tới
hạn dưới d L của thống kê đó.
o Bước 3a: Xét bài toán kiểm định (tương quan chuỗi dương)

H 0 :   0

 H1 :   0

Khi đó,
Nếu d  d L thì bác bỏ giả thuyết H 0 ;
Nếu d  d U chấp nhận giả thuyết H 0 ;
Nếu d L  d  d U thì chưa kết luận được gì.
o Bước 3b: Xét bài toán kiểm định (tương quan
chuỗi âm)

H 0 :   0

 H1 :   0

Nếu d  4  d U thì chấp nhận H 0 ;


Nếu 4  d U  d  4  d L thì chưa có kết luận ;
Nếu 4  d L  d  4 thì bác bỏ H 0 ;
Kết hợp hai trường hợp trên, ta có quy tắc kiểm định Durbin – Waston như
trong sơ đồ sau:

STA301_Bài 8_v1.0013101214 121


Bài 8: Tự tương quan

H1 :   0 H1 :   0

Bác bỏ 0 Chưa kết luận Chấp nhận 0 Chưa kết luận Bác bỏ 0

0 dL dU 2 4 – dU 4 – dL 4
 Phương pháp kiểm định Breusch-Godfrey
Phương pháp kiểm định Durbin – Watson trên đây chỉ cho phép phát hiện tự tương
quan bậc một, tức là chỉ cho biết quan sát tại mỗi thời điểm có phụ thuộc vào quan
sát ở thời điểm liền kề hay không. Phương pháp đó không phát hiện được tự tương
quan bậc cao hơn 1, tức là không cho biết liệu có mối quan hệ giữa các quan sát ở
cách xa nhau hơn 1 hay không. Khi cỡ mẫu lớn, tức là khi số liệu được quan sát ở
khoảng thời gian dài, ta có thể sử dụng phương pháp Breusch-Godfrey để phát
hiện quan hệ tự tương quan bậc cao. Xét mô hình
Yt  1  2 X 2t  ...  k X kt  u t . (8.8)
Giả sử mối quan hệ giữa các thành phần nhiễu u t có thể được biểu diễn thành
phương trình tự hồi quy
u t  1u t 1  2 u t  2  ...  p u t  p   t , (8.9)
trong đó  t là thành phần nhiễu ngẫu nhiên thuần túy có kỳ vọng bằng 0 và
phương sai không đổi. Ta có bài toán kiểm định giả thuyết
H 0 : 1  2  ...  p  0

H1 : i  0,i  1, 2,..., p
Khi giả thuyết H 0 được chấp nhận thì ta có thể khẳng định trong mô hình hồi quy
(8.8) không có hiện tượng tự tương quan bậc nhỏ hơn hoặc bằng p, tức là có sự
độc lập giữa các quan sát không cách xa nhau quá p bước trong chuỗi thời gian.
Mô hình (8.9) được hiểu như mô hình hồi quy bội với p biến độc lập, do đó ta có
thể dùng phương pháp  2 để kiểm định giả thuyết H 0 (do vậy phương pháp này
còn được gọi là phương pháp kiểm định  2 ). Các bước kiểm định được tiến hành
như sau:
Bước 1: Ước lượng mô hình hồi quy gốc (8.8) để tính các phần dư û t .
Bước 2: Với các phần thu được, lập bộ số liệu mới gồm n - p quan sát để tiến hành
ước lượng mô hình (8.9) và thu được hệ số xác định R 2 của mô hình này. Khi đó
thống kê  2   n  p  R 2 có phân phối khi-bình phương với p bậc tự do.

Bước 3: Với mức ý nghĩa  đã định, tìm giá trị tới hạn  2 (p) để so sánh với giá
trị của thống kê tính được ở bước trên, rồi đưa ra quyết định bác bỏ giả thuyết H 0
nếu  2  2 (p) , ngược lại thì ta chấp nhận H 0 và kết luận có tính độc lập giữa các
quan sát trong mô hình (8.8).

122 STA301_Bài 8_v1.0013101214


Bài 8: Tự tương quan

Ví dụ 1: Nghiên cứu về tình hình phát triển sản xuất trong khu vực công nghiệp của
Việt Nam theo dõi trong các năm từ năm 1976 đến năm 1995, ta có bảng số liệu với
các con số hàng năm về tổng sản lượng Y, tổng lực lượng lao động X 2 và tổng số vốn
đầu X 3 của toàn ngành như sau:
Năm X2 X3 Y
1976 2.000000 2.000000 46266.00
1977 5.657601 2.000000 58865.00
1978 2.000000 3.998823 37392.00
1979 5.657601 3.998823 107915.0
1980 2.000000 6.001443 133026.0
1981 10.38124 2.000000 127848.0
1982 5.657601 6.001443 154107.0
1983 10.38124 3.998823 226500.0
1984 10.38124 6.001443 146649.0
1985 2.000000 2.000000 31448.00
1986 2.000000 3.998823 70778.00
1987 5.657601 2.000000 70658.00
1988 5.657601 3.998823 118409.0
1989 2.000000 6.001443 90536.00
1990 10.38124 2.000000 73843.00
1991 5.657601 6.001443 159804.0
1992 10.38124 3.998823 225100.0
1993 10.38124 6.001443 167678.0
1994 5.657601 3.998823 88699.00
1995 2.000000 2.000000 53852.00

Ta cần biết trong mô hình hồi quy của Y theo hai biến độc lập X 2 , X 3 có sự tương
quan của các sai số hay không. Sử dụng phần mềm Eviews để tiến hành phép kiểm
định Durbin – Waston, ta có kết quả sau:
Dependent Variable: Y
Method: Least Squares
Date: 11/11/09 Time: 18:12

Sample: 1 20
Included observations: 20
Variable Coefficient Std. Error t-Statistic Prob.
C -21717.59 22180.83 -0.979116 0.3413
X2 10751.92 2165.515 4.965061 0.0001
X3 17662.45 4533.201 3.896242 0.0012
R-squared 0.715471 Mean dependent var 109468.7
Adjusted R-squared 0.681997 S.D. dependent var 57734.42
S.E. of regression 32557.46 Akaike info criterion 23.75688
Sum squared resid 1.80E+10 Schwarz criterion 23.90624
Log likelihood -234.5688 F-statistic 21.37391
Durbin-Watson stat 2.289076 Prob(F-statistic) 0.000023

STA301_Bài 8_v1.0013101214 123


Bài 8: Tự tương quan

Trong bảng trên ta thấy giá trị thống kê Durbin – Waston là d = 2.289076. Tra bảng giá
trị tới hạn Durbin – Waston với k = 3 (k’= 2), n = 20, ta có dU = 1.54 , 4 – dU = 2.46 ,
dL = 1.1. Rõ ràng dU < d < 4 – dU. Như vậy ta có thể chấp nhận H 0 , kết luận trong mô
hình không có tương quan chuỗi bậc 1 dương hay âm.
Ví dụ 2: Ta có thể áp dụng tiêu chuẩn  2 để giải quyết bài toán của ví dụ 1. Cụ thể,
với phần mềm Eviews sau khi có kết quả của hồi quy gốc, ta vào mục View
(Residualtest/Serial Corelation LM test) rồi nhấn Enter vào ô Lay Specification, gõ số
1 để cuối cùng thu được kết quả trong bảng sau:
Breusch-Godfrey Serial Correlation LM Test:

F-statistic 0.656872 Probability 0.429557


Obs*R-squared 0.788709 Probability 0.374491

Test Equation:
Dependent Variable: RESID
Method: Least Squares
Date: 11/11/09 Time: 18:39
Presample missing value lagged residuals set to zero.

Variable Coefficient Std. Error t-Statistic Prob.

C -11367.66 26435.77 -0.430011 0.6729


X2 1162.180 2615.772 0.444297 0.6628
X3 1127.969 4786.457 0.235659 0.8167
RESID(-1) -0.250009 0.308472 -0.810476 0.4296

R-squared 0.039435 Mean dependent var -2.56E-11


Adjusted R-squared -0.140670 S.D. dependent var 30796.28
S.E. of regression 32891.09 Akaike info criterion 23.81665
Sum squared resid 1.73E+10 Schwarz criterion 24.01579
Log likelihood -234.1665 F-statistic 0.218957
Durbin-Watson stat 2.191546 Prob(F-statistic) 0.881803

Trong báo cáo biến RESID(-1) chính là sai số u t 1 ở giai đoạn t-1. Ta còn có
Obs*R _ Squared chính là giá trị  n  1 R 2 . Như vậy

 2  (n  1)R 2  0.788709 .
Tra bảng phân phối khi-bình phương với 1 bậc tự do, ta được giá trị:  0.05
2
1  3.841 .
So sánh giá trị của thống kê với giá trị tới hạn, ta thấy
 2  0.788709 < 0.05
2
(1)  3.841 . Từ đó, ta chấp nhận giả thuyết H 0 và kết luận trong
mô hình không có sự tự tương quan bậc 1 giữa các sai số.
Chú ý: Ta có thể dùng giá trị xác suất ý nghĩa của thống kê để tiến hành kiểm định.
Cụ thể, ứng với  2  0.788709 là xác suất ý nghĩa bằng 0.374491. So sánh xác suất
đó với mức ý nghĩa α = 0.05, ta thấy 0.374491 > 0.05, do đó có thể chấp nhận giả
thuyết H0 và kết luận giống như trên.

124 STA301_Bài 8_v1.0013101214


Bài 8: Tự tương quan

8.4. Hậu quả của hiện tượng tự tương quan


Trong bài 3 và 4 ta đã chỉ ra rằng với giả thiết không tương quan thì các ước lượng
của mô hình hồi quy tuyến tính thu được bằng phương pháp OLS sẽ có tính chất
không chệch và hiệu quả. Giả thiết này bị vi phạm, tức là khi trong mô hình có hiện
tượng tự tương quan, thì sẽ dẫn đến các hậu quả như:
 Làm cho các thống kê t ứng với các hệ số hồi quy có thể nhận giá trị lớn bất
thường, tức là làm tăng ý nghĩa các hệ số hồi quy một cách hình thức, trong khi
thực tế lại không phải như vậy. Đồng thời, các phương sai của các ước lượng sẽ có
tính chệch và do đó các phép kiểm định t và F không còn hiệu lực;
 Các dự báo không hiệu quả.

8.5. Biện pháp khắc phục hiện tượng tự tương quan


Chúng ta đã thấy hiện tượng tự tương quan trong mô hình hồi quy gây ra những hậu
quả nghiêm trọng. Vậy cần thiết phải có biện pháp khắc phục hiện tượng đó. Có thể
xem xét một số biện pháp sau đây:
 Nếu cấu trúc của tự tương quan đã biết dưới dạng:

u t  u t 1   t ,   1

 t thỏa mãn giả thiết của OLS,  đã biết. Khi đó sử


dụng phương pháp ước lượng Cochrane – Orcutt ta đưa
mô hình về dạng mô hình không có tự tương quan.
 Nếu  chưa biết khi đó ta có hai cách khắc phục là
o Dùng phương pháp sai phân.
o Trước tiên ta sẽ ước lượng  theo cách đã làm
như khi xác định giá trị thống kê Durbin – Waston
đã thực hiện phía trên. Sau đó có thể lấy giá trị ước lượng đó để sử dụng
phương pháp ước lượng Cochrane – Orcutt để đưa mô hình về dạng mô hình
không có tự tương quan.

STA301_Bài 8_v1.0013101214 125


Bài 8: Tự tương quan

TÓM LƯỢC CUỐI BÀI


 Hiện tượng TTQ xảy ra khi nào?
o Mô hình Yi  1  2 X 2i  3 X 3i  u i .
o Trong phương pháp OLS có giả thiết: cov(ui; uj) = 0 với i ≠ j.
o Nếu giả thiết này không thỏa mãn cov(ui; uj) ≠ 0 với i ≠ j, trong mô hình có hiện tượng TTQ.
o Các dạng của tự tương quan:
u t  u t 1   t . Suy ra, tự tương quan bậc nhất: AR(1).
u t  1u t 1  ...  p u t  p   t Suy ra TTQ bậc p: AR(p),
 t là sai số ngẫu nhiên, thỏa mãn các giả thiết của OLS.
 Nguyên nhân của TTQ
o Hiện tượng quán tính của các chuỗi thời gian.
o Hiện tượng mạng nhện trong kinh tế.
o Quá trình xử lí, nội ngoại suy số liệu.
o Mô hình thiếu biến hoặc dạng hàm sai.
 Hậu quả khi có tự tương quan:
o Các ước lượng là không chệch nhưng không tốt nhất (không thoả mãn tính chất ước lượng
hiệu quả trong phương pháp OLS).
o Kiểm định T, F mất hiệu lực (kết quả không đáng tin cậy).
 Các biện pháp khắc phục TTQ:
Dùng phương pháp sai phân cấp 1.
Giả sử TTQ có dạng AR(1): u t  u t 1   t .
Ước lượng hệ số tự tương quan (bằng thống kê d-DW, rồi sau đó dùng phương pháp bình
phương tối thiểu tổng quát (GLS) dựa trên hệ số ước lượng này, như sau:
Đặt Y  Y  ˆ Y  1 ; X  X  ˆ X  1 .
Thực hiện OLS hàm hồi quy theo biến mới: Y* = β1+ β2X* + v.

126 STA301_Bài 8_v1.0013101214


Bài 8: Tự tương quan

CÂU HỎI THƯỜNG GẶP

1. Hiện tượng tự tương quan thường xảy ra với loại số liệu nào và vì sao?

2. Cấu trúc của TTQ có thể là bậc 1 hoặc bậc cao. Vậy làm thế nào để xác định đúng cấu trúc này?

3. Khi TTQ xảy ra, hậu quả của nó cho mô hình là như thế nào?

4. Trong các phương pháp phát hiện TTQ, ý tưởng chủ đạo là gì?

5. Phương pháp kiểm định Durbin-Watson dựa trên giả thiết gì, có sử dụng để phát hiện TTQ
bậc cao hay không?

6. Trong kiểm định Durbin-Watson, có khoảng giá trị của thống kê d mà ta không thể kết luận
có TTQ hay không, khi đó cần làm thế nào?

7. Phương pháp chung của khắc phục TTQ có ý tưởng như thế nào?

8. Phương pháp Cochrance Orcutt dùng để làm gì trong việc khắc phục hiện tượng TTQ?

BÀI TẬP TRẮC NGHIỆM

1. Khi các nhiễu ngẫu nhiên tương quan với nhau, hiện tượng này gọi là:
A. Phương sai của sai số thay đổi.
B. Phương sai của sai số không đổi.
C. Đa cộng tuyến.
D. Tự tương quan.

2. Nếu trong mô hình có tự tương quan, nó làm cho:


A. Phương sai của các ước lượng OLS không phải là nhỏ nhất.
B. Các ước lượng OLS không phải là tuyến tính.
C. Không ảnh hưởng gì đến các ước lượng OLS.
D. Không ước lượng được các tham số bằng phương pháp OLS.

3. Tự tương quan thường xảy ra với các số liệu theo chuỗi thời gian
A. Đúng.
B. Sai.

4. Nếu thống kê Durbin – Watson có giá trị gần 0, hiện tượng nào xảy ra:
A. Phương sai của sai số thay đổi.
B. Nhiễu ngẫu nhiên không có phân phối chuẩn.
C. Đa cộng tuyến.
D. Tự tương quan.

5. Giá trị của thống kê Durbin-Watson nằm trong khoảng:


A. 4  d  4 B. 2  d  2
C. 0  d  4 D. 0  d  2 .

STA301_Bài 8_v1.0013101214 127


Bài 8: Tự tương quan

6. Dùng kiểm đinh Durbin-Watson có thể phát hiện ra tự tương quan với cấu trúc tự hồi quy
bậc cao.
A. Đúng. B. Sai.

7. Kết quả hồi quy cho thống kê Durbin-Watson là 0.370186. Điều đó chứng tỏ rằng:
A. Có tự tương quan âm vì thống kê DW nhỏ.
B. Có tự tương quan dương vì thống kê DW nhỏ.
C. Không có tự tương quan âm hay dương vì thống kê DW nhỏ.

8. Kết quả hồi quy cho thống kê Durbin-Watson là 2.00006. Điều đó chứng tỏ rằng:
A. Có tự tương quan âm vì thống kê DW gần 2.
B. Có tự tương quan dương vì thống kê DW gần 2.
C. Không có tự tương quan âm hay dương vì thống kê DW gần 2.

9. Nếu d L  d  d U , ta không có kết luận về tự tương quan bậc 1 trong mô hình hồi quy:
A. Đúng. B. Sai.

10. Giả sử ta kiểm định tự tương quan bậc 3 bằng kiểm định Breusch-Godfrey Serial Correlation
LM Test (dùng Eviews) có thống kê khi bình phương là 6.357 với p-value tương ứng là
0.09545. Với mức ý nghĩa 0.05, kết luận là:
A. Không có tự tương quan bậc 3.
B. Có tự tương quan bậc 3.
C. Không có kết luận về tự tương quan bậc 3.

128 STA301_Bài 8_v1.0013101214


Đáp án – Kinh tế lượng

ĐÁP ÁN
Bài 1: KINH TẾ LƯỢNG LÀ GÌ?

CÂU HỎI THƯỜNG GẶP


1. Tại sao ta nên sử dụng phương pháp kinh tế lượng trong nghiên cứu kinh tế?
Đã từ lâu thì việc nghiên cứu các vấn đề kinh tế và xã hội nói chung ngoài các phương pháp
định tính truyền thống đã có xu hướng sử dụng các phương pháp định lượng. Việc sử dụng
phương pháp kinh tế lượng với công cụ chính là phân tích hồi quy cho phép đánh giá được
ảnh hưởng được đo lường bằng các giá trị bằng số cụ thể cho các mối quan hệ kinh tế giữa
các biến, từ đó nó sẽ trở thành một kênh bổ xung quan trọng trong quá trình dự báo cũng như
ra các quyết định về mặt chính sách.
2. Kinh tế lượng có thể thay thế được các phương pháp nghiên cứu kinh tế khác hay không?
Ta cần khẳng định đây là một trong những phương pháp được sử dụng trong nghiên cứu. Nó
không thay thế hoàn toàn được các phương pháp nghiên cứu khác bởi vì những điều kiện để
thực hiện nó cả về mặt kỹ thuật cũng như là nguồn lực không phải lúc nào cũng đáp ứng
được hoàn toàn.
3. Mục tiêu chính của kinh tế lượng trong nghiên cứu kinh tế xã hội là gì?
Đó là việc tiến hành các dự báo và tiếp theo là ứng dụng của dự báo trong việc đề ra các
quyết sách kinh tế, cả ở phạm vi vi mô lẫn vĩ mô.
4. Kinh tế lượng khác với kinh tế học thông thường như thế nào?
Kinh tế học thì từ lâu đã được biết tới như một môn học nghiên cứu về các mối quan hệ giữa
các biến số trong kinh tế. Các hành vi kinh tế trong kinh tế học được thể hiện dưới dạng các
mô hình toán học. Còn kinh tế lượng sẽ sử dụng các mô hình kinh tế này cùng với các số liệu
liên quan đến các biến để kiểm chứng lại mô hình và các giả thiết bằng thực nghiệm, từ đó
đưa ra các dự báo và quyết sách.
5. Kinh tế lượng sử dụng thống kê kinh tế như thế nào?
Thống kê kinh tế chủ yếu sẽ liên quan tới việc thu thập và xử lí các số liệu kinh tế bằng các
công cụ mô tả thống kê cũng như các phương pháp suy luận thống kê cơ bản. Kinh tế lượng
(KTL) sẽ phải sử dụng các số liệu thu thập được trong thống kê kinh tế để kiểm chứng lại
mô hình và các giả thuyết kinh tế. Đồng thời KTL cũng sử dụng các phương pháp toán thống
kê để thực hiện các suy diễn thống kê ở một mức độ cao hơn trong các mối quan hệ kinh tế
phức tạp.
6. Tại sao trong mô hình kinh tế lượng cần phải đưa vào yếu tố ngẫu nhiên?
Vì trong mô hình kinh tế lượng, hành vi kinh tế của các biến không thể hiện dưới dạng một
mô hình toán học tất định. Ngoài các biến có thể xem xét trong mô hình, ta còn có ảnh hưởng
của các yếu tố khác. Để thể hiện những ảnh hưởng này, ta dùng yếu tố ngẫu nhiên làm đặc
trưng cho chúng.
7. Khi nghiên cứu một vấn đề bằng phương pháp kinh tế lượng, có thực sự cần thiết phải
theo đúng các bước như trong phương pháp luận đã nêu hay không?
Ta cần theo đúng như phương pháp luận vì mục đích chính trong nghiên cứu của ta là trả lời
cho câu hỏi đặt ra từ đầu. Câu hỏi này lại liên quan đến nhiều các giả thiết về hành vi của các

STA301_Đáp án_v1.0013101214 129


Đáp án – Kinh tế lượng

biến kinh tế. Hơn nữa, mục đích của chúng ta là tìm hiểu về mối quan hệ thực sự trong tổng
thể, nên ta cũng cần có những kỹ thuật suy diễn thống kê. Tóm lại, đi theo một quá trình như
đã nêu cho phép ta thực hiện nghiên cứu bằng phương pháp kinh tế lượng một cách khoa học
và chặt chẽ nhất.
8. Ta có nên tin tưởng hoàn toàn vào các kết quả đưa ra bằng phương pháp kinh tế
lượng hay không?
Phương pháp nghiên cứu nào trong kinh tế xã hội đều có những sai số. Việc căn cứ vào các
kết quả dự báo của kinh tế lượng cũng chỉ có tính tương đối. Ta cần có những đối chiếu và
lựa chọn những phương pháp thích hợp cho từng loại nghiên cứu để có thể đạt được kết quả
phù hợp nhất.

BÀI TẬP TRẮC NGHIỆM


1. A 2. D 3. A 4. D 5. C 6. B 7. A

Bài 2: PHÂN TÍCH HỒI QUY VÀ MỘT SỐ Ý TƯỞNG CƠ BẢN

TÌNH HUỐNG DẪN NHẬP


Với kết quả này, ta có thể suy ra rằng điểm thi đầu vào là có ảnh hưởng đến điểm ttrung bình
năm thứ nhất. Cụ thể, khi điểm thi đầu vào tăng lên một điểm thì điểm trung bình chung năm thứ
nhất của sinh viên sẽ tăng trung bình là 0,75 điểm.

CÂU HỎI THƯỜNG GẶP


1. Mục đích chính của kỹ thuật phân tích hồi quy là gì?
Trong phân tích hồi quy, ta muốn đánh giá ảnh hưởng của một hoặc nhiều biến lên 1 biến
khác, nên mục đích chính của phân tích hồi quy chính là việc xem xét khi một hoặc một số
các biến kinh tế thay đổi một lượng cụ thể thì biến mà ta quan tâm sẽ bị ảnh hưởng như thế
nào. Từ việc đánh giá này, ta có thể tiến hành dự báo cho giá trị của biến ta quan tâm với các
giá trị đã cho của các biến khác.
2. Thuật ngữ hồi quy tuyến tính có thể được hiểu như thế nào trong phân tích hồi quy?
Ở đây có thể hiểu tuyến tính là tuyến tính theo các tham số trong mô hình hoặc là tuyến tính
theo các biến độc lập. Trong phân tích hồi quy, ta muốn sử dung tuyến tính theo các tham số
bởi vì các tham số sẽ thể hiện ảnh hưởng của biến độc lập lên biến phụ thuộc. Nếu không
phải tuyến tính theo các biến, ta có thể sử dụng các biến đổi biến số để đưa về tuyến tính theo
các biến một cách dễ dàng.
3. Trong các mô hình hồi quy tuyến tính, có thể không sử dung hệ số chặn hay không?
Việc sử dụng hệ số chặn trong mô hình cho phép đánh giá giá trị trung bình của biến phụ
thuộc khi các biến độc lập bằng 0. Đồng thời, giới thiệu hệ số chặn cho phép ta xây dựng hệ
thống lý thuyết một cách nhất quán. Tất nhiên, nếu ta có những chứng cứ xác thực rằng nếu
biến độc lập bằng 0 thì biến phụ thuộc cũng bằng 0 thì có thể dùng mô hình tuyến tính không
có hệ số chặn (ví dụ như khi thu nhập bằng 0 thì thuế thu nhập bằng 0).
4. Việc sử dụng hồi quy đơn và hồi quy bội như thế nào trong thực tế?
Thông thường, hồi quy đơn chỉ được sử dụng cho nhưng phân tích đơn giản. Trong thực tế
thì các mối quan hệ kinh tế là phức tạp, các biến sẽ bị ảnh hưởng bởi nhiều yếu tố khác nhau
nên việc sử dụng mô hình hồi quy bội để nghiên cứu sẽ phổ biến.

130 STA301_Đáp án_v1.0013101214


Đáp án – Kinh tế lượng

5. Tại sao lại cần đưa ra khái niệm hàm hồi quy tổng thể?
Mục đích chính của chúng ta trong phân tích hồi quy là biết được bản chất của các mối quan
hệ kinh tế cho cả một quá trình hay cả một tổng thể. Vì thế, ta cần có một mô hình kinh tế
lượng để thể hiện quan hệ này, trong đó các tham số được hiểu như là thể hiện quan hệ chính
xác và đúng đắn giữa biến độc lập và biến phụ thuộc.
6. Hàm hồi quy mẫu sẽ cho biết điều gì?
 Thông thường thì trong các nghiên cứu kinh tế xã hội ta không biết được toàn bộ, ta chỉ
có thể biết được một phần của nó. Từ phần biết được này, ta có thể xây dựng mô hình
hành vi của các biến dựa trên mô hình hồi quy tổng thể đã có (hàm hồi quy mẫu). Từ đó,
ta sử dụng thông tin của mẫu để suy luận về cho tổng thể chưa biết. Như vậy hàm hồi quy
mẫu có thể được coi là một ước lượng của hàm hồi quy tổng thể.
 Có những cách thể hiện nào cho hàm hồi quy mẫu và hàm hồi quy tổng thể?
Với dạng hàm tuyến tính ta đều có thể dùng dạng hàm cho giá trị trung bình hoặc giá trị
cá biệt của biến phụ thuộc để thể hiện hàm tổng thể và mẫu :
E(Y | X i )  1  2 X i (1) Yi  1  2 X i  u i (2)

Ŷ1  ˆ 1  ˆ 2 X i (3) Yi  ˆ 1  ˆ 2 X i  uˆ i (4)


(1) và (2) là dạng tổng thể, (3) và (4) là dạng mẫu.
7. Khái niệm về sai số ngẫu nhiên và phần dư có thể được hiểu thế nào?
Sai số ngẫu nhiên là thể hiện ảnh hưởng những yếu tố ngoài mô hình lên biến phụ thuộc. Sai
số ngẫu nhiên thường gắn với tổng thể, khi ta không biết tổng thể ta cũng không biết sai số
ngẫu nhiên. Từ một mẫu lấy ra trong tổng thể, ta có thể ước lượng được các sai số ngẫu nhiên
và gọi chúng là phần dư. Như vậy, phần dư là thể hiện của sai số ngẫu nhiên thông qua mẫu.

BÀI TẬP TRẮC NGHIỆM


1.B 2.B 3.B 4.C 5.B 6.C 7.B 8. D 9. B 10.A

Bài 3: MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN


TÌNH HUỐNG DẪN NHẬP
 Theo kết quả của mô hình, khi giá giảm 1 đơn vị, lượng hàng bán ra thay đổi thế nào?
Gợi ý: Tìm khoảng tin cậy cho hệ số β2.
 Liệu khi giá giảm đi 1000 đồng 1 lít thì lượng hàng bán thêm lớn hơn được 50000 sản phẩm
như các nhà nghiên cứu muôn kiểm tra không?
Gợi ý: Kiểm định cặp giả thiết H0: β2 = –50
H1: β2 < – 50.
Kết luận: không bác bỏ H0.
 Giá bán quyết định bao nhiêu % trong sự thay đổi của lượng bán?
Gợi ý: Tìm được R2 = 0.762, tức là 76.2% sự thay đổi trong lượng bán được giải thích
bởi giá bán.
 Nếu giá bán là 150000 đồng 1 bình thì lượng bán dự báo là bao nhiêu?
Gợi ý: Thay vào tính được Q tại P = 150 là: 1662.5 (nghìn sản phẩm).

STA301_Đáp án_v1.0013101214 131


Đáp án – Kinh tế lượng

CÂU HỎI THƯỜNG GẶP


1. Ngoài phương pháp OLS thì có phương pháp nào khác để ước lượng mô hình hồi quy
mẫu không?
Trong thống kê toán và kinh tế lượng còn các phương pháp khác để ước lượng tham số trong
mô hình như phương pháp ước lượng hợp lí tối đa, phương pháp moment. Tuy nhiên trong
bài học này, vì ta chủ yếu sẽ sử dụng mô hình tuyến tính với tính đơn giản của phương pháp
nên OLS được giới thiệu.
2. Trong phương pháp OLS, trong mọi trường hợp, ta đều phải giải hệ phương trình để
tìm các ước lượng đúng không?
Đúng. Vì bản chất của phương pháp này là đi tìm giá trị bé nhất cho tổng bình phương các
phần dư, nên ta phải sử dụng công thức giải thích toán học để thực hiện điều này.
3. Nếu một mô hình hồi quy bội với nhiều biến thì việc dùng phương pháp OLS có thuận
tiện không?
Việc tính toán bằng tay cho mô hình hồi quy bội sẽ không thuận tiện. Tuy nhiên, các phần
mềm kinh tế lượng và thống kê đều có thể ước lượng được các hệ số bằng OLS hay bằng các
phương pháp khác rất dễ dàng.
4. Khi ước lượng các hệ số bằng OLS, làm thế nào để đánh giá được chất lượng của chúng?
Ta có thể thông qua các sai số tiêu chuẩn của các hệ số. Vì chúng là các ước lượng điểm của
các tham số nên một cách khác để đánh giá chất lượng của chúng là thông qua các tiêu chuẩn
của một ước lượng điểm như ước lượng tuyến tính, không chệch, vững và hiệu quả.
5. Tại sao phải xem xét các giả thiết của phương pháp OLS?
Phương pháp OLS được thực hiện và cho các giá trị ước lượng của các tham số dựa trên một
hệ thống các giả thiết. Nếu các giả thiết này không thỏa mãn thì một số bước mà ta có trong
phương pháp luận của môn học sẽ không được thực hiện một cách hoàn toàn hoặc cho kết
quả đáng tin cậy. Chính vì thế, trong áp dụng phương pháp OLS, ta luôn cần kiểm tra các giả
thiết đặt ra cho phương pháp này.
6. Để đánh giá độ phù hợp của mô hình hồi quy với các số liệu của mẫu, ta dùng tiêu chí nào?
Ta dùng hệ số xác định R2. Thông thường R2 càng lớn thì thể hiện rằng biến độc lập giải
thích càng nhiều cho sự biến thiên của biến phụ thuộc.
7. Có nhất thiết phải xây dựng được mô hình hồi quy mẫu với R2 phải lớn? Không hoàn
toàn vì trong nhiều nghiên cứu, mục đích chính của ta là tiến hành xem xét ảnh hưởng của X
lên Y đồng thời dự báo, nên R2 nhỏ không nhất thiết là kết quả hồi quy không tốt. Nếu có R2
lớn thì rất tốt, nhưng nếu nó không thực sự lớn thì vẫn không phải là nghiêm trọng miễn sao
biến độc lập có ý nghĩa trong mô hình.
8. Trong kiểm định giả thiết, việc dùng phương pháp xác suất (p-value) có thể thay cho
phương pháp kiểm định thông thường hay không?
Ngày nay, với sự hỗ trợ của các phầm mềm, việc tính toán giá trị p-value cho các giá trị của
thống kê kiểm định là rất dễ dàng. Vì thế ta có thể sử dụng luôn p-value để tiến hành các
kiểm định giả thiết theo nguyên tắc:
Viết cặp giả thiết
Nếu p-value < α : bác bỏ H0.
Nếu p-value ≥ α : không bác bỏ H0.

132 STA301_Đáp án_v1.0013101214


Đáp án – Kinh tế lượng

BÀI TẬP TRẮC NGHIỆM

1. C 2. B 3. C 4. D 5. A

Bài 4: MÔ HÌNH HỒI QUY BỘI

TÌNH HUỐNG DẪN NHẬP


Chạy mô hình ta có kết quả sau:
Dependent Variable: LOG(SL) Method: Least Squares
Sample: 1 30 Included observations: 30
Variable Coefficient Std. Error t-Statistic Prob.
C 0.424816 0.137808 3.082671 0.0047
LOG(V) 0.735804 0.065794 11.18348 0.0000
LOG(L) 0.948994 0.062905 15.08606 0.0000
-----------------------------------------------------------------------------------------
R-squared 0.918339 Mean dependent var -1.532700
Adjusted R-squared 0.912290 S.D. dependent var 1.453766
S.E. of regression 0.430545 Akaike info criterion 1.247110
Sum squared resid 5.00496 Schwarz criterion 1.387229
Log likelihood -15.70664 F-statistic 151.8180
Durbin-Watson stat 2.192857 Prob(F-statistic) 0.000000
-----------------------------------------------------------------------------------------
 Với kết quả như trên, tổng 2 hệ số ước lượng của biến log(V) và log(L) là
0,7358 + 0,949 = 1,6848 > 1, vì thế công ty cần tăng quy mô sản xuất để tận dụng lợi suất
tăng theo quy mô.
 Ta kiểm định cặp giả thiết: H0: β2 = β3 = 0 H1: Ít nhất 1 hệ số khác 0.
Dùng tiêu chuẩn kiểm định F: Từ Eviews, ta có Fqs=151,818 với p-value = 0.0000< α = 0.05:
vì thế ta bác bỏ giả thiết H0. Tức là có ít nhất một trong hai yếu tố vốn và lao động có ảnh
hưởng đến sản lượng.
 Thay vào mô hình hồi quy mẫu để tìm một ước lượng điểm cho sản lượng tại V=10 và L = 3000

log(SLˆ i )  0.424816  0.7358log(10)  0.9489 log(3000)  4.46

Vậy sản lượng dự báo là: e4.46 = 86.49 (triệu sp).

CÂU HỎI THƯỜNG GẶP


1. Trong mô hình hồi quy bội, các giả thiết của phương pháp OLS có khác gì so với mô
hình hồi quy đơn?
Vì trong mô hình hồi quy bội, ta có ít nhất hai biến độc lập nên ngoài các giả thiết đã nêu
trong mô hình hồi quy đơn, còn có thêm một giả thiết về quan hệ giữa các biến độc lập. Đó là
giữa chúng không có quan hệ cộng tuyến ở mức độ cao với nhau. Giả thiết này nhằm đảm
bảo rằng ta có thể tách bạch được ảnh hưởng của riêng từng biến độc lập lên biến phụ thuộc.
2. Vai trò của các hệ số hồi quy trong mô hình hồi quy bội khác thế nào so với mô hình hồi
quy đơn?

STA301_Đáp án_v1.0013101214 133


Đáp án – Kinh tế lượng

Trong mô hình bội, hệ số chặn cũng đóng vai trò là trung bình của Y khi tất cả các biến độc
lập bằng 0. Tuy nhiên hệ số góc trong mô hình hồi quy bội thể hiện ảnh hưởng của riêng từng
biến độc lập lên biến phụ thuộc Y khi các biến độc lập khác được giữ không đổi.
3. Hệ số xác định bội trong mô hình hồi quy bội cho biết điều gì?
Hệ số này cho biết độ phù hợp của cả mô hình hồi quy, tức là bao nhiêu phần trăm sự biến
thiên trong biến phụ phuộc là được giải thích bởi mô hình hồi quy. Nếu hệ số xác định trong
mô hình hồi quy bội bằng không tức là toàn bộ các biến độc lập trong mô hình không giải
thích cho sự thay đổi của biến phụ thuộc.
4. Tại sao lại cần đưa ra khái niệm hệ số xác định bội đã điều chỉnh trong hàm hồi quy bội?
Vì khi ta đưa thêm biến độc lập vào mô hình hồi quy thì hệ số R2 luôn tăng lên (do ảnh
hưởng của các biến độc lâp tăng lên), nên để quyết định việc đưa biến độc lập mới vào trong
mô hình, người ta dùng hệ số xác định bội đã điều chỉnh vì giá trị của nó khi đưa thêm biến
mới có thể tăng, giảm hoặc không đổi.
5. Khi nào thi nên đưa thêm biến độc lập mới vào mô hình nếu sử dụng hệ số xác định bội
đã điều chỉnh?
Ta sẽ quyết định đưa thêm biến mới vào mô hình nếu như thấy hệ số xác định bội đã điều
chỉnh tăng thêm. Đồng thời sự có mặt của biến mới trong mô hình là có ý nghĩa (sử dụng
kiểm định t).
6. Khi nào thi ta cần xây dựng khoảng tin cậy cho các hệ số hồi quy?
Nếu ta muốn biết một biến độc lập nào đó thay đổi một đơn vị và dẫn tới thay đổi trong trung
bình của biến phụ thuộc là như thế nào thì ta tìm khoảng tin cậy cho hệ số tương ứng của biến
phụ thuộc.
7. Khi nào thì dùng khoảng tin cậy đối xứng, bên phải hoặc bên trái?
Khi ta muốn biết trung bình biến Y thay đổi trong khoảng nào nếu một biến độc lập thay đổi
một đơn vị, ta dùng khoảng tin cậy đối xứng. Nếu ta muốn biết trung bình biến Y thay đổi tối
đa bao nhiêu, ta dùng KTC bên trái, ngược lại dùng KTC bên phải (cần chú ý nếu quan hệ
giữa biến phụ thuộc và độc lập mà ngược chiều thì khoảng tin cậy bên phải dùng để ước
lượng giá trị tối đa và ngược lại).
8. Kiểm định gả thiết về một hệ số hồi quy bằng 0 có ý nghĩa gì, kiểm định hệ số hồi quy
bằng 1 giá trị cụ thể có ý nghĩa gì?
Khi kiểm định một hệ số βj gắn với biến Xj bằng 0, ta muốn kiểm định về ý nghĩa sự có mặt
của riêng biến Xj trong mô hình, nói cách khác là kiểm tra xem Xj có ảnh hưởng gì đến Y
trong mô hình hồi quy hay không. Còn kiểm định βj bằng một giá trị cụ thể là đi kiểm tra về
tốc độ thay đổi của trung bình của Y khi biến X tương ứng hay đổi một đơn vị.
9. Kiểm định F về sự phù hợp của mô hình hồi quy có ý nghĩa gì?
Kiểm định F cho biết mô hình hồi quy có phù hợp hay không bằng cách so sánh phần biến
thiên gây ra bởi hàm hồi quy mẫu và phần biến thiên gây ra bởi phần dư. Kiểm định này
chính là kết quả của phân tích phương sai. Nếu ta bác bỏ H0 tức là có ít nhất 1 biến độc lập sẽ
có ảnh hưởng đến biến phụ thuộc.

BÀI TẬP TRẮC NGHIỆM

1. D 2. C 3. C 4. C 5. D 6. C 7. B 8. C 9. B 10. C

134 STA301_Đáp án_v1.0013101214


Đáp án – Kinh tế lượng

Bài 5: ĐA CỘNG TUYẾN

TÌNH HUỐNG DẪN NHẬP


Gợi ý: Thông thường để tránh hiện tương đa cộng tuyến trong mô hình hồi quy bội, người ta có
thể dựa vào những biện pháp sau:
1. Khi có thông tin về các biến độc lập, nên chọn các biến mà ít có quan hệ cộng tuyến với nhau.
2. Nếu các biến độc lập có thể có các quan hệ thì nên lấy mẫu với kích thước lớn.
3. Sử dụng việc biến đổi biến số trong mô hình.
Nếu một biến độc lập có quan hệ với các biến độc lập còn lại, có thể tiến hành bỏ biến.

CÂU HỎI THƯỜNG GẶP


1. Trong mô hình hồi quy đơn có xảy ra hiện tượng đa cộng tuyến hay không ?
Không vì đa cộng tuyến chỉ xảy ra khi giữa các biến độc lập có quan hệ tuyến tính với nhau.
Vì vậy, ta chỉ nói tới đa cộng tuyến khi xem xét một mô hình hồi quy bội.
2. Trong hai loại đa cộng tuyến hoàn hảo và không hoàn hảo, loại nào thường gặp hơn
trong thực tế và vì sao?
Đa cộng tuyến hoàn hảo xảy ra khi giữa các biến độc lập có một quan hệ tuyến tính hoàn
toàn. Tức là mối quan hệ này đúng cho mọi quan sát. Còn đa cộng tuyến không hoàn hảo tức
là khi các quan hệ giữa các biến độc lập không hoàn toàn chặt chẽ về mặt tuyến tính. Rõ ràng
là trường hợp hoàn hảo là rất hiếm gặp trong thực tế. Ta sẽ chỉ thấy các quan hệ ở đây là
không hoặc gần hoàn hảo.
3. Có phải khi nào ta cũng có đa cộng tuyến trong mô hình hồi quy bội vì giữa các biến
kinh tế thường tồn tại một quan hệ nào đó?
Điều này không nhất thiết đúng vì 2 lí do:
Thứ nhất, các biến kinh tế có thể có một quan hệ cộng tuyến nào đó nhưng nếu quan hệ này
không thực sự khăng khít thì có thể không có đa cộng tuyến.
Thứ hai, giữa các biến độc lập có thể có quan hệ nhưng là các quan hệ phi tuyến, khi đó cũng
có thể không có đa cộng tuyến.
Tuy nhiên, đa cộng tuyến là khá phổ biến trong mô hình hồi quy bội, cho nên khi xem xét
hiện tượng này, ta chủ yếu quan tâm đến mức độ của nó. Nếu nó tồn tại nhưng không ở mức
độ thực sự lớn thì có thể chấp nhận được trong mô hình.
4. Các hậu quả của đa cộng tuyến gần hoàn hảo được thể hiện thế nào?
Vì quan hệ tuyến tính giữa các biến độc lập là khăng khít nên hệ số tương quan giữa chúng
cao. Từ đó dẫn đến sai số tiêu chuẩn của các hệ số hồi quy lớn. Tiếp tục dẫn đến hậu quả là
các khoảng tin cậy cho các hệ số hồi quy rộng, các kiểm định t về ý nghĩa của biến độc lập
trong mô hình thường không có ý nghĩa, tức là ta thường phải chấp nhận các giả thiết là các
tham số bằng 0, mặc dù hệ số xác định bội vẫn lớn.
5. Đa cộng tuyến xảy ra có ảnh hưởng gì đến tính chất của các ước lượng của các hệ
số hồi quy?
Về cơ bản là không có ảnh hưởng gì, tức là các hệ số nhận được bằng phương pháp OLS vẫn
thỏa mãn tính chất BLUE.

STA301_Đáp án_v1.0013101214 135


Đáp án – Kinh tế lượng

6. Có thể nhận biết được đa cộng tuyến xảy ra mà không cần thực hiện các kiểm định?
Có, ta có thể căn cứ vào những dấu hiệu của đa cộng tuyến trong kết quả ước lượng của mô
hình. Các tỉ số t thấp (ít biến độc lập có ý nghĩa) mặc dù hệ số xác định bội vẫn cao. Bên
cạnh đó, dấu hiệu kì vọng của các hệ số có thể sai. Đó là các dấu hiệu đặc trưng cho biết có
đa cộng tuyến xảy ra.
7. Khi thực hiện hồi quy phụ để phát hiện ra đa cộng tuyến, có nhất thiết phải thành lập
tất cả các hàm hồi quy phụ có thể không?
Về mặt nguyên tắc là ta sẽ thành lập tất cả các hàm hồi quy phụ rồi kiểm tra về sự phù hợp của
các hàm hồi quy phụ này. Tuy nhiên, nếu như một hàm hồi quy phụ được sử dụng và đã cho
kết luận về đa cộng tuyến tồn tại thì không cần thiết thành lập thêm hàm hồi quy phụ nữa.
8. Trong các biện pháp khắc phục đa cộng tuyến thì biện pháp nào phổ biến?
Thực chất thì tùy vào tình hình thực tế của nghiên cứu và điều kiện có thể để đưa ra các biện
pháp khắc phục thích hợp. Ví dụ, nếu ta có thể lấy thêm các quan sát thì đây là biện pháp nên
sử dụng trước tiên. Việc biến đổi mô hình hoặc sử dụng thông tin tiên nghiệm cũng có thể
được áp dụng rộng rãi. Biện pháp bỏ biến cần xem xét kĩ hơn vì việc thu thập số liệu về biến
đó đã có thể mất nhiều công sức.

BÀI TẬP TRẮC NGHIỆM

1. C 2. D 3. D 4. D 5. C

Bài 6: PHƯƠNG SAI SAI SỐ THAY ĐỔI

TÌNH HUỐNG DẪN NHẬP


Gợi ý: Trong bài học số 6 này, ban đọc sẽ tìm hiểu về một khuyết tật của mô hình gọi là phương
sai của sai số thay đổi. Bạn đọc sẽ biết làm thế nào để phát hiện sự tồn tại của nó trong mô hình
và làm thế nào để khắc phục nó khi nó tồn tại. Đồng thời bạn đọc có thể giải quyết vấn đề đặt ra
của Ngân hàng Đầu tư và Phát triển Việt Nam.
Nhìn chung, trong phạm vi môn học của chúng ta, có thể dựa vào các công cụ sẵn có của phần
mềm kinh tế lượng để thực hiện những việc trên đây:
1. Trong phần mềm Eviews, có thể xem xét đồ thị phần dư theo ước lượng của biến phụ thuộc hoặc
theo biến độc lập để có gợi ý về hiện tượng này tồn tại trong mô hình.
2. Trong phần mềm Eviews, có thể dùng kiểm định White (dùng p-value) để phát hiện.
3. Nếu có hiện tượng nay trong mô hình, có thể khắc phục nó bằng cách chuyển các biến về
dạng lôgarit hoặc biến đổi biến số của mô hình.

CÂU HỎI THƯỜNG GẶP


1. Phương sai của sai số thay đổi có thực sự là một khuyết tật nghiêm trọng trong phân
tích hồi quy?
Đây là một khuyết tật cần phát hiện và khắc phục (nếu có) trong phân tích hồi quy vì nó sẽ ảnh
hưởng tới các kết quả phân tích trong việc suy luận từ hàm hồi quy mẫu về hàm hồi quy tổng thể.
2. Hậu quả của PSSS thay đổi khác thế nào so với hậu quả của đa cộng tuyến?
Trong khi đa cộng tuyến không làm mất tính chất BLUE của các ước lượng OLS thì PSSS
thay đổi nếu xảy ra sẽ làm cho các ước lượng nhận được bằng phương pháp OLS không còn

136 STA301_Đáp án_v1.0013101214


Đáp án – Kinh tế lượng

là các ước lượng hiệu quả. Vì thế các kiểm định t và kiểm định F sẽ cho các kết quả không
đáng tin cậy.
3. Nếu như không biết được các nhiễu ngẫu nhiên thì làm thế nào để có thể nhận định về
hiện tượng PSSS thay đổi trong mô hình?
Mặc dù không biết nhiễu ngẫu nhiên nhưng ta có thể căn cứ vào ước lượng của chúng là các
phần dư để xem xét liệu có PSSS thay đổi xảy ra hay không. Các phương pháp phổ biến
thường dùng là dùng đồ thị các phần dư hoặc dùng các kiểm định phát hiện dựa trên giả thiết
về sự thay đổi của các phần dư theo một biến nào đó.
4. Ý tưởng của phương pháp dùng đồ thị phần dư để phát hiện PSSS thay đổi trong mô
hình là gì?
Ta biết PSSS thay đổi xảy ra khi các nhiễu ngẫu nhiên có phương sai khác nhau với các giá
trị khác nhau của biến phụ thuộc hoặc biến độc lập. Ta sẽ dùng ước lượng của các nhiễu ngẫu
nhiên là các phần dư để vẽ đồ thị thay đổi của chúng theo biến phụ thuộc hoặc biến độc lập.
Nếu đồ thị thể hiện xu thế thay đổi của các phần dư này khi các biến tương ứng tăng lên hoặc
giảm đi thì có thể cho rằng có PSSS thay đổi trong mô hình.
5. Ý tưởng của các phương pháp dùng kiểm định phát hiện ra PSSS thay đổi là gì?
Mỗi phương pháp dùng kiểm định để phát hiện PSSS thay đổi, đều dựa trên một giả thiết về
sự thay đổi của phương sai của các nhiễu ngẫu nhiên theo một biến nào đó. Căn cứ vào giả
thiết này, ta đi ước lượng các mô hình hồi quy phụ tương ứng và kiểm định về sự phù hợp
của chúng. Nếu chúng phù hợp tức là hàm hồi quy ban đầu có PSSS thay đổi và ngược lại.
Trong các hàm hồi quy phụ này, các phương sai của nhiễu ngẫu nhiên chưa biết nên ta
thường dùng các phần dư để tiến hành ước lượng mô hình.
6. Có nên áp dụng tất cả các phương pháp kiểm định để phát hiện PSSS thay đổi hay không?
Ở đây cũng giống như khám để phát hiện ra bệnh trong mô hình, nếu bằng phương pháp này
chưa phát hiện ra thì ta có thể áp dụng phương pháp khác. Tất nhiên nếu dùng một phương
pháp nào đó và khẳng định có khuyết tật thì cũng là đủ. Tuy nhiên việc dùng nhiều phương
pháp một lúc cũng có tác dụng trong việc tìm nguyên nhân và từ đó đưa ra biện pháp khắc phục
tương ứng.
7. Trong các phần mềm có sẵn các kiểm định phát hiện PSSS thay đổi hay không?
Mỗi phần mềm kinh tế lương (EVIEWS, MFIT,...) thì người viết thường đưa sẵn vào ít nhất
một thủ tục kiểm định để phát hiện PSSS thay đổi. Trong các thủ tục đó thì các thống kê
dùng làm tiêu chuẩn kiểm định được tính toán sẵn cùng với các p-value tương ứng. Việc sử
dụng các thủ tục này rất thuận tiện cho người học vì chỉ cần đọc bảng kết quả và dùng
phương pháp p-value để kiểm định.
8. Ý tưởng của các phương pháp khắc phục PSSS thay đổi là gì?
Đó là căn cứ vào giả thiết nêu ra về sự thay đổi của phương sai của sai số ngẫu nhiên theo
một biến nào đó. Từ đó tìm cách biến đổi mô hình hồi quy về dạng và nhiễu ngẫu nhiên
mới sẽ có phương sai đồng đều. Đây chính là nội dung của phương pháp bình phương tối
thiểu tổng quát.

BÀI TẬP TRẮC NGHIỆM

1. A 2. B 3. B 4. D 5. C 6. B 7. B 8. A 9. D

STA301_Đáp án_v1.0013101214 137


Đáp án – Kinh tế lượng

Bài 7: LỰA CHỌN MÔ HÌNH HỒI QUY

TÌNH HUỐNG DẪN NHẬP


Gợi ý: Với tình huống trên đây, ta dễ dàng nhận ra thu nhập của nam là β1 + β2 còn thu nhập của
nữ là β1. Vì thế để kiểm tra xem có chênh lệch trong thu nhập giữa nam và nữ hay không, ta sẽ
kiểm định giả thiết H0: β2 = 0 bằng kiểm định t cho mô hình hồi quy trên. Nếu β2 = 0, tức là giới
tính không ảnh hưởng đến thu nhập và ngược lại.
Bạn học có thể xem thêm các dạng khác nhau của mô hình với biến giả để hiểu thêm về ứng
dụng của phương pháp này trong giáo trình và slides bài giảng.

CÂU HỎI THƯỜNG GẶP


1. Tại sao phải đánh giá và lựa chọn mô hình trong phân tích hồi quy?
Khi đặt ra một vấn đề nghiên cứu bằng phương pháp kinh tế lượng, căn cứ vào lí thuyết và
các giả định kinh tế, ta cần thiết lập mô hình kinh tế và mô hình kinh tế lượng tương ứng.
Vấn đề là chọn mô hình như thế nào cho nó phù hợp nhất có thể được với các số liệu quan
sát. Có các tiêu chuẩn để đánh giá một mô hình. Một mô hình đạt được các tiêu chuẩn đặt ra
và không có những sai lầm về mặt định dạng sẽ rất hữu hiệu trong việc dùng nó cho các ứng
dụng như dự báo hoặc suy luận thống kê về tổng thể.
2. Nếu nhiễu ngẫu nhiên của mô hình không có phân phối chuẩn như giả thiết, hậu quả sẽ
như thế nào?
Cũng giống như khuyết tật PSSS thay đổi, nếu nhiễu ngẫu nhiên không có phân phối chuẩn,
ta sẽ không tiến hành được các suy diễn thống kê về các hệ số hồi quy và giả thiết căn bản là
dựa trên phân phối chuẩn của của các hệ số này.
3. Hậu quả của việc mô hình bị định dạng sai là gì?
Mô hình bị định dạng sai có thể phân loại thành các dạng như mô hình bị thiếu biến, mô hình
thừa biến hay mô hình bị sai dạng hàm hồi quy. Nếu mô hịnh bị thiếu biến hoặc định dạng
hàm sai, ta cũng sẽ bị hậu quả là cac hệ số ước lượng được sẽ không phải là các ước lượng
tốt nhất. Vì vậy làm cho các kiểm định t, F cho các kết quả không đáng tin cậy. Nếu mô hình
bị thừa biến, ta cũng có những hậu quả tương tự như trên.
4. Làm thế nào để phát hiện ra các loại sai lầm định dạng nêu trên?
Đối với việc phát hiện mô hình có thừa biến hay không, ta sử dụng kiểm định F xem có thể
bỏ bớt biến ra khỏi mô hình hồi quy không. Đối với loại sai lầm định dạng là thiếu biến hoặc
mô hình sai dạng hàm, ta có thể sử dụng kiểm định RAMSAY để phát hiện. Đối với giả thiết
về tính chuẩn của nhiễu ngẫu nhiên, ta có thể sử dụng kiểm định Jacque-Bera để phát hiện.
Các kiểm định này đều có sẵn trong các phần mềm về kinh tế lượng, người học có thể sử
dụng phương pháp p-value để tiến hành kiểm định phát hiện.
5. Tại sao ta chỉ xem xét phương pháp biến giả khi muốn nghiên cứu ảnh hưởng của biến
định tính lên biến phụ thuộc?
Nếu biến phụ thuộc cũng là biến định tính thì sao ? Trong trường hợp đơn giản ta đang xem
xét, ta chỉ giới hạn biến định tính là các biến độc lập, khi đó phương pháp biến giả sẽ được sử
dụng. Còn nếu biến phụ thuộc cũng là biến định tính thì ta sẽ phải sử dụng các mô hình dạng
khác mà sẽ không sử dụng biến giả cho biến phụ thuộc. Các mô hình dạng này sẽ nghiên cứu
ảnh hưởng của xác suất để biến phụ thuộc nhận các thuộc tính khác nhau vào các biến độc lập.

138 STA301_Đáp án_v1.0013101214


Đáp án – Kinh tế lượng

6. Tại sao số biến giả được thiết lập cho một biến định tính phải ít hơn số thuộc tính của
biến đó là 1?
Nếu ta đặt số biến giả bằng với số thuộc tính của biến định tính thì tổng của các biến giả luôn
bằng 1, vì thế sẽ vi phạm một giả thiết trong mô hình hồi quy bội là không có đa cộng tuyến.
7. Các biến giả trong mô hình hồi quy được sử dụng có khác gì với các biến định lượng
thông thường không?
Các biến giả được sử dụng giống như các biến định lượng, các ước lượng, kiểm định và các
suy luận khác cho hệ số của biến giả vẫn được sử dụng các kỹ thuật đã trình bày. Tuy nhiên,
người học cần lưu ý khi giải thích ý nghĩa hệ số của biến giải thích trong mô hình vì chúng bây
giờ thể hiện ảnh chênh lệch giữa các phạm trù khác nhau của một hoặc nhiều biến định tính.
8. Nếu trong mô hình có cả biến lượng và biến chất thì nên xây dựng mô hình như thế nào?
Một cách đầy đủ nhất, ta nên xây dựng mô hình trong đó thể hiện cả sự khác nhau trong hệ số
chặn lẫn hệ số góc. Khi đó, ta có thể dùng các kiểm định thích hợp để kiểm tra xem là các mô
hình của các thuộc tính sẽ khác nhau về hệ số chặn, hệ số góc hay cả hai hệ số.

BÀI TẬP TRẮC NGHIỆM

1. D 2. B 3. B 4. B 5. B 6. D 7. A

BÀI 8 : TỰ TƯƠNG QUAN

TÌNH HUỐNG DẪN NHẬP


Gợi ý: Cũng giống như phương sai sai số thay đổi, ta cần khẳng định ngay là nếu giả thiết nay
không thỏa mãn việc sử dụng mô hình kinh tế lượng trong phân tích sẽ cho các kết quả không
đáng tin cậy vì tính chất của các ước lượng OLS không đảm bảo.
Trong bài học số 8 này, bạn đọc sẽ tìm hiểu về một khuyết tật này của mô hình. Bạn đọc sẽ biết làm
thế nào để phát hiện sự tồn tại của nó trong mô hình và làm thế nào để khắc phục nó khi nó tồn tại.
Nhìn chung, trong phạm vi môn học của chúng ta, có thể dựa vào các công cụ sẵn có của phần
mềm kinh tế lượng để thực hiện những việc trên đây:
1. Trong phần mềm Eviews, có thể xem xét đồ thị phần dư theo các phần dư trễ của nó để kiểm
tra xem hiện tượng này tồn tại trong mô hình.
2. Trong phần mềm Eviews, có thể dùng kiểm định bằng nhân tử Lagrange (dùng p-value) để
phát hiện.
Nếu có hiện tượng này trong mô hình, có thể khắc phục nó bằng cách chuyển các biến về dạng
sai phân cấp 1, 2,... tùy thuộc vào cấu trúc của nó trong mô hình.

CÂU HỎI THƯỜNG GẶP


1. Hiện tượng tự tương quan thường xảy ra với loại số liệu nào và vì sao?
Hiện tượng TTQ hay còn gọi là tương quan chuỗi thường xảy ra với số liệu theo chuỗi thời
gian vì các số liệu kinh tế xã hội thường có tính quán tính cao. Do đó giá trị của biến quan sát
ở các thời kỳ khác khác nhau thường có quan hệ nào đó với nhau và dẫn tới hiện tượng TTQ.

STA301_Đáp án_v1.0013101214 139


Đáp án – Kinh tế lượng

2. Cấu trúc của TTQ có thể là bậc 1 hoặc bậc cao. Vậy làm thế nào để xác định đúng cấu
trúc này?
Ta có thể dùng các mô tả thống kê, cụ thể là dùng cả đồ thị phần dư để nhận định về cấu trúc
của TTQ. Ta có thể vẽ đồ thị phần dư thứ t với phần dư thứ t-1, hay t-2, ...Từ đó biết được sẽ
có những quan hê bậc 1, bậc 2 ,... tồn tại hay không.
3. Khi TTQ xảy ra, hậu quả của nó cho mô hình là như thế nào?
Cũng giống như các khuyết tật PSSS thay đổi hay định dạng mô hình hồi quy sai, TTQ xảy ra
trong mô hình sẽ dẫn tới các ước lượng nhận được bằng phương pháp OLS sẽ không thỏa
mãn tính chất tốt nhất.Vì thế các suy diễn thống kê như xây dựng khoảng tin cậy hoặc các
kiểm định t và F sẽ cho các kết quả không đáng tin cậy.
4. Trong các phương pháp phát hiện TTQ, ý tưởng chủ đạo là gì?
Đó là đặt ra các giả thiết về cấu trúc của TTQ, sau đó đi ước lượng các mô hình hồi quy phụ
để tìm ra cấu trúc là đúng hay sai.
5. Phương pháp kiểm định Durbin-Watson dựa trên giả thiết gì, có sử dụng để phát hiện
TTQ bậc cao hay không?
Kiểm định Durbin-Watson dùng để phát hiện TTQ bậc 1, AR(1) trong mô hình hồi quy. Có
một số giả thiết đối với kiểm định này: Mô hình không có biến trễ của biến phụ thuộc, không
bị mất quan sát.

6. Trong kiểm định Durbin-Watson, có khoảng giá trị của thống kê d mà ta không thể kết
luận có TTQ hay không, khi đó cần làm thế nào?
Kiểm định DW là kiểm định dễ dàng thực hiện và việc tính toán thống kê DW được cho sẵn
trong tất cả các phần mềm thống kê. Tuy nhiên trong kiểm định này, có 2 khoảng giá trị của
DW mà ta không có quyết định về TTQ trong mô hình. Nếu vậy ta sẽ tiếp tục sử dụng các
kiểm định khác thay thế mà các điều kiện thực hiện được nới lỏng hơn như kiểm định bằng
nhân tử Lagrange.
7. Phương pháp chung của khắc phục TTQ có ý tưởng như thế nào?
Đó là việc dùng các phương trình sai phân (cấp 1 hoặc cấp cao hơn). Khi ta biết được cấu
trúc của TTQ, ta có thể biến đổi mô hình về dạng mới trong đó các biến phụ thuộc và độc lập
là chênh lệch giữa quan sát thứ t và quan sát trễ sau khi đã nhân với cấu trúc của TTQ tương
ứng. Với việc sử dụng phép biến đổi như thế này, nhiễu ngẫu nhiên của mô hình mới sẽ thỏa
mãn các tính chất của OLS, và sẽ không có TTQ.
8. Phương pháp Cochrance Orcutt dùng để làm gì trong việc khắc phục hiện tượng TTQ?
Đây là một thủ tục lặp dùng để ước lượng cấu trúc của TTQ khi ta chưa biết cấu trúc này. Sau
khi ước lượng được cấu trúc này, ta thay vào phương trình sai phân để khắc phục TTQ.

BÀI TẬP TRẮC NGHIỆM

1. D 2. A 3. A 4. D 5. C 6. B 7. B 8. C 9. A 10.A

140 STA301_Đáp án_v1.0013101214

You might also like