Professional Documents
Culture Documents
Mục tiêu
STA301_Bài 1_v1.0013101214 1
Bài 1: Kinh tế luợng là gì
Tình huống 1
Ngân hàng Nhà nước Việt Nam có ý định điều chỉnh tỉ giá
VNĐ/USD nhằm tăng xuất khẩu cho nền kinh tế. Theo lý thuyết, tỉ
giá tăng lên thì xuất khẩu cũng tăng.
Câu hỏi
Vấn đề đặt ra cho các nhà hoạch định chính sách là nếu tỉ giá tăng lên 1000 đồng thì lượng
xuất khẩu sẽ tăng lên bao nhiêu?
Tình huống 2
Tổng giám đốc Công ty sữa Vinamilk biết rằng khi giảm giá sữa tươi
đóng hộp dành cho trẻ em loại 180ml thì lượng hàng bán sẽ tăng lên.
Câu hỏi
Vậy, ở mức giá hiện tại, nên giảm giá đi bao nhiêu % để doanh số bán hàng hoặc lợi nhuận lớn
nhất cho công ty?
Để trả lời được những câu hỏi như trên bằng các con số cụ thể, người ta sẽ sử dụng phương pháp
kinh tế lượng.
2 STA301_Bài 1_v1.0013101214
Bài 1: Kinh tế luợng là gì
3
Bài 1: Kinh tế luợng là gì
Việc ứng dụng các công cụ thống kê để xử lý các dữ liệu kinh tế đã được phát triển từ
rất lâu. Tuy nhiên, trước bất kỳ một phân tích thống kê tới các dữ liệu thì điều quan
trọng và cần thiết đó là đưa ra công thức toán học có liên quan đến lý thuyết kinh tế.
Ví dụ: Theo dõi dữ liệu về thu nhập và chi tiêu của hộ gia đình ta đưa ra mô hình toán
học cho mối liên hệ giữa hai đại lượng đó như sau:
y x u
trong đó:
y : là chi tiêu của hộ gia đình
x : thu nhập của hộ gia đình
u : nhiễu ngẫu nhiên
, : là các hệ số.
4 STA301_Bài 1_v1.0013101214
Bài 1: Kinh tế luợng là gì
Dự báo
5
Bài 1: Kinh tế luợng là gì
nguyên vật liệu, … Lúc ấy trong mô hình, lợi nhuận là biến hồi quy, còn giá bán, lượng
bán ra, số người sử dụng, mức thu nhập, chi phí nguyên vật liệu, … là các biến độc lập.
Bước 3: Thu thập số liệu
Để ước lượng cho mô hình kinh tế lượng mà ta đưa ra thì cần phải có dữ liệu thu thập
được về các biến độc lập và biến phụ thuộc. Thông thường kinh tế lượng đòi hỏi số
liệu có kích thước (cỡ) mẫu khá lớn.
Nếu trong mô hình ta quan tâm tới việc giải thích
sự thay đổi của biến phụ thuộc theo thời gian thì ta
cần phải có các dữ liệu thu thập tại các thời điểm
khác nhau và được gọi là dữ liệu theo dõi dọc theo
thời gian (gọi tắt là dữ liệu theo dõi dọc). Dữ liệu
chuỗi thời gian là một dạng đặc biệt của dữ liệu
theo dõi dọc, khi có các thời điểm thu thập cách
đều nhau (theo từng ngày, từng tuần, từng tháng hay từng quý, ...).
Nếu trong mô hình ta muốn giải thích sự thay đổi của biến phụ thuộc theo không gian
thì ta cần có số liệu thu thập tại một thời điểm định trước. Số liệu như vậy được gọi là
dữ liệu theo dõi cắt ngang (gọi tắt là dữ liệu cắt ngang) hoặc dữ liệu theo không gian.
Ví dụ: Ta muốn giải thích về nhu cầu nhà ở tại các thành phố thì ta cần phải thu thập
số liệu từ các thành phố khác nhau trong một khoảng thời gian xác định. Số liệu này
được xếp vào loại số liệu theo dõi cắt ngang.
Ta cũng thường gặp một loại dữ liệu khác có dạng tổng hợp của hai dạng số liệu trên
đây. Chẳng hạn ta xét mối quan hệ giữa chi tiêu và thu nhập thì dữ liệu có thể là dữ
liệu về chi tiêu và thu nhập của một gia đình được ghi lại định kỳ tại những thời điểm
trong một khoảng thời gian dài (dữ liệu theo dõi dọc), hoặc của một nhóm gia đình tại
một thời điểm nhất định nào đó (dữ liệu cắt ngang), song cũng có thể là dữ liệu của
một nhóm gia đình cùng ghi lại tại nhiều thời điểm trong một khoảng thời gian (dữ
liệu dạng bảng).
Từ những ý trên, ta thấy việc thu thập dữ liệu và xử lý dữ liệu là những vấn đề quan
trọng cần được xác định thích hợp cho từng mục đích nghiên cứu.
Bước 4: Ước lượng tham số của mô hình
Khi đã thiết lập được mô hình và thu thập dữ liệu phù hợp thì nhiệm vụ quan trọng là
phải ước lượng cho những tham số chưa biết trong mô hình.
Ví dụ: Ta đã có mô hình về chi tiêu và thu nhập của hộ gia đình là:
Y X u.
Với một bộ dữ liệu về chi tiêu Y và thu nhập X, biết được dạng phân phối xác suất của
u, ta cần ước lượng các hệ số và , để từ đó xác định được mức độ phụ thuộc của
Y vào X.
Bước 5: Kiểm định giả thuyết
Vì dữ liệu thường được thu thập trên một mẫu rút ra từ tổng thể nghiên cứu nên thông
tin do dữ liệu cung cấp không phản ánh đầy đủ toàn bộ thông tin của tổng thể cần
nghiên cứu, từ đó việc ước lượng các tham số dựa trên dữ liệu chỉ cho các đánh giá
6 STA301_Bài 1_v1.0013101214
Bài 1: Kinh tế luợng là gì
gần đúng. Mặt khác mô hình kinh tế lượng mà ta thiết lập chịu ảnh hưởng của lý
thuyết kinh tế được xác lập từ trước và ảnh hưởng của các kết quả nghiên cứu trong
quá khứ, do đó kết quả có được khi ta ước lượng mô hình có thể chưa phù hợp với
thực tế hoặc chưa giải thích được hết sự ảnh hưởng của các biến kinh tế. Vì vậy ta cần
kiểm định giả thuyết về các tham số và về sự phù hợp của mô hình.
Bước 6: Diễn dịch kết quả
Việc diễn giải kết quả phải dựa trên lý thuyết kinh tế để phân tích và đánh giá kết quả
nhận được, xem xét kết quả đạt được có phù hợp với lý thuyết kinh tế hay không.
Đồng thời việc diễn giải phải giúp giải thích các phát hiện thu được từ kết quả phân
tích, so sánh kết quả của nghiên cứu đang tiến hành với kết quả của các nghiên cứu
trước đó.
Bước 7: Dự báo
Khi mô hình đã phù hợp với lý thuyết kinh tế tức là
ta đã khẳng định được tính đúng đắn của mô hình
mà ta đã lập, lúc đó có thể sử dụng mô hình để dự
báo quy luật về các hiện tượng có thể trở thành hiện
thực trong tương lai.
Bước 8: Đưa ra quyết định và các chính sách
Khi đã khẳng định mô hình xây dựng được là phù
hợp với lý thuyết kinh tế và đưa ra được kết quả dự
báo cho các biến kinh tế trong mô hình, ta có thể dựa vào kết quả dự báo đó để đưa ra
các quyết định và đề xuất các chính sách thích hợp.
7
Bài 1: Kinh tế luợng là gì
8 STA301_Bài 1_v1.0013101214
Bài 1: Kinh tế luợng là gì
1. Tại sao ta nên sử dụng phương pháp kinh tế lượng trong nghiên cứu kinh tế?
2. Kinh tế lượng có thể thay thế được các phương pháp nghiên cứu kinh tế khác hay không?
3. Mục tiêu chính của kinh tế lượng trong nghiên cứu kinh tế xã hội là gì?
4. Kinh tế lượng khác với kinh tế học thông thường như thế nào?
6. Tại sao trong mô hình kinh tế lượng cần phải đưa vào yếu tố ngẫu nhiên?
7. Khi nghiên cứu một vấn đề bằng phương pháp kinh tế lượng, có thực sự cần thiết phải theo
đúng các bước như trong phương pháp luận đã nêu hay không?
8. Ta có nên tin tưởng hoàn toàn vào các kết quả đưa ra bằng phương pháp kinh tế lượng
hay không?
1. Phương pháp kinh tế lượng là phương pháp duy nhất cho các nhà kinh tế học trong nghiên
cứu định lượng.
A. Đúng.
B. Sai.
2. Theo một trong các định nghĩa về kinh tế lượng thì kinh tế lượng là sự kết hợp của một số các
môn khoa học sau đây trừ:
A. Kinh tế học.
B. Thống kê toán.
C. Mô hình Toán kinh tế.
D. Tâm lí học.
3. Sự khác nhau giữa mô hình kinh tế lượng và mô hình kinh tế thông thường là ở chỗ:
A. Mô hình kinh tế là một mô hình tất định thể hiện các hành vi hay các mối quan hệ kinh tế
giữa các biến kinh tế trong khi mô hình kinh tế lượng bao gồm phần tất định và phần
ngẫu nhiên.
B. Hai mô hình là như nhau về mặt cấu trúc.
C. Mô hình kinh tế chỉ có các kí hiệu bằng chữ, còn mô hình kinh tế lượng dùng các số.
D. Mô hình kinh tế phản ánh các mối quan hệ kinh tế, còn mô hình kinh tế lượng thì không.
4. Các điều sau đây đều là mục đích nghiên cứu của kinh tế lượng trừ:
A. Thiết lập mô hình và các công thức từ các nghiên cứu thực nghiệm.
B. Ước lượng và kiểm nghiệm mô hình dựa vào các dữ liệu thực nghiệm.
9
Bài 1: Kinh tế luợng là gì
5. Các bước sau đây đều thuộc về phương pháp luận của kinh tế lượng trừ:
A. Thiết lập các mô hình.
B. Thu thập số liệu.
C. Tính các chỉ số kinh tế từ số liệu thu thập được.
D. Ra các quyết định và các chính sách.
6. Khi nghiên cứu bằng phương pháp kinh tế lượng, ta không cần sử dụng mô hình kinh tế
A. Đúng.
B. Sai.
7. Muốn ước lượng được một mô hình kinh tế lượng, nhất thiết ta cần có số liệu về các biến
liên quan.
A. Đúng.
B. Sai.
10 STA301_Bài 1_v1.0013101214
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản
Mục tiêu
Khái niệm phân tích hồi quy. Đọc tài liệu để có được những ý
Số liệu trong phân tích hồi quy. tưởng chính.
Mô hình hồi quy tổng thể (PRF). Lấy các ví dụ để minh họa cho khái
Mô hình hồi quy mẫu (SRF). niệm phân tích hồi quy.
Quan niệm tuyến tính trong phân tích hồi quy. Tập trung để hiểu rõ và phân biệt 2
khái niệm hàm hồi quy tổng thể và
Ý nghĩa của nhiễu ngẫu nhiên trong mô hình.
hàm hồi quy mẫu.
Hiểu rõ vai trò của nhiễu ngẫu nhiên
Thời lựợng (sai số ngẫu nhiên) trong mô hình.
5 tiết
v1.0 11
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản
Tình huống
Ban giám hiệu Viện Đại học Mở quan tâm tới kết quả học tập năm
đầu tiên của sinh viên có bị ảnh hưởng bởi điểm thi đầu vào của
sinh viên hay không. Để tiến hành nghiên cứu, họ sẽ chọn ra ngẫu
nhiên 100 sinh viên đã học hết năm đầu tiên trong trường rồi lấy
thông tin về điểm thi đầu vào (X) và điểm trung bình chung năm
thứ nhất (Y). Nhà nghiên cứu sau khi thực hiên các mô tả thống kê để
xem xét mối quan hệ giữa X và Y đã quyết định sử dụng mô hình hồi quy tuyến tính
dạng E Y / X i 1 2 X i . Với mẫu ở trên, người ta đã ước lượng được mô hình hồi quy mẫu
có dạng:
Ŷi 3.25 0.75X i
Câu hỏi Với kết quả này, các nhà nghiên cứu sẽ kết luận gì về sự ảnh hưởng của điểm
thi đầu vào tới điểm trung bình học tập năm thứ nhất của sinh viên Viện đại
học Mở?
Với kết quả này, ta có thể suy ra rằng điểm thi đầu vào là có ảnh hưởng đến điểm trung bình
năm thứ nhất. Cụ thể, khi điểm thi đầu vào tăng lên 1 điểm thì điểm trung bình chung năm thứ
nhất của sinh viên sẽ tăng trung bình là 0,75 điểm.
12 v1.0
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản
v1.0 13
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản
14 v1.0
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản
Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập.
Trong ví dụ 1, ta cần ước lượng mức chi tiêu trung bình khi biết mức thu nhập X.
Dự báo giá trị của Y khi biết được giá trị của biến giải thích X.
Kiểm định giả thuyết và bản chất của sự phụ thuộc và xác định hiệu quả tác động
của biến độc lập lên biến phụ thuộc.
Khi mô tả mối quan hệ giữa biến phụ thuộc và các biến độc lập cũng cần phân biệt
rõ các kiểu quan hệ sau:
o Quan hệ tất định hay còn gọi là quan hệ toán học giữa X và Y, quan hệ này
được cho dưới dạng một hàm số Y f (X) , cứ cho một giá trị của X ta sẽ xác
định được một giá trị của Y. Biểu thức (2.3) mô tả một mối quan hệ tất định
giữa X và Y.
o Quan hệ thống kê là quan hệ mà không xác định được giá trị duy nhất của Y
khi cho biết giá trị của X mà ta chỉ biết được giá trị của Y theo một xác suất
nào đó, hay nói cách khác ta chỉ xác định được phân bố xác suất của Y khi biết
giá trị của X. Biểu thức (2.4) tương ứng với một mối quan hệ như vậy giữa X
và Y.
Trong phân tích hồi quy ta đề cập tới kiểu quan hệ loại 2 trên đây, chứ không chọn
kiểu quan hệ loại 1 làm đối tượng nghiên cứu.
Ví dụ 3: Xét ví dụ 1 về mối quan hệ giữa chi tiêu Y và
thu nhập X. Giả sử mối quan hệ đó được biểu diễn qua
phương trình
Y b1 b 2 X u
trong đó b1 1,5 , b 2 0,9 , còn u là yếu tố ngẫu nhiên
và u = 0,2 với xác suất ½ , u = –0,2 với xác suất ½ .
Khi đó nếu biết giá trị của X là bằng 1 thì giá trị của Y là
Y = 2,6 với xác suất ½ ,
Y = 2,2 với xác suất ½ .
Nếu u có phân bố chuẩn N(1; 2 ) , khi đó với mỗi giá trị của X thì Y sẽ có phân bố
chuẩn. Ta có đồ thị trong trường hợp này cho trong Hình 2.2.
Hình 2.2. Quan hệ ngẫu nhiên giữa X và Y với sai số ngẫu nhiên u có phân bố chuẩn.
v1.0 15
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản
Trong hình 2.2, đại lượng Y không nhận giá trị tất định, các giá trị của Y được xác
định một cách ngẫu nhiên, phụ thuộc vào giá trị của đại lượng ngẫu nhiên u.
Đường thẳng tất định Y biểu diễn giá trị trung bình của Y ứng với từng giá trị cho
trước của X. Đối với mỗi giá trị cố định của X thì Y có thể nhận những giá trị khác
nhau tập trung xung quanh giá trung bình của Y trên đường thẳng đó. Với mỗi giá trị
X 0 của X, giá trị của Y có phân bố chuẩn trên đường thẳng X X 0 (song song với
trục tung). Mối quan hệ giữa X và Y như vậy được gọi là mối quan hệ ngẫu nhiên và u
được gọi là sai số hoặc nhiễu ngẫu nhiên.
Tổng quát hơn, quan hệ giữa X và Y có thể có dạng
Y X u
với u là nhiễu ngẫu nhiên có một phân phối xác suất xác định nào đó. Trong phương
trình trên thành phần X là thành phần tất định của Y còn u là thành phần ngẫu
nhiên của Y, các tham số , được gọi là các hệ số hồi quy, những hệ số này sẽ được
ước lượng từ dữ liệu quan sát của X và Y.
16 v1.0
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản
Y 50 55 57 63 64 67 71 75 78 92
Khi X nhận giá trị Xi thì giá trị của E(Y | X) bằng E(Y | X i ) , nhưng do Y chưa xác
định được nên E(Y | X i ) cũng chưa biết. Vậy ta ký hiệu Ŷi là một ước lượng của
E(Y | X i ) dựa trên số liệu mẫu (Y1 , Y2 ,..., Yn ) . Ta thay E(Y | X i ) bằng ước lượng
tương ứng Ŷi vào phương trình hồi quy tổng thể (PRF) ta thu được phương trình:
Ŷi ˆ 1 ˆ 2 X i , (2.7)
trong đó ̂1 là ước lượng của 1 , ̂2 là ước lượng của 2 , phương trình (2.7) được gọi
là phương trình hồi quy mẫu trong hàm hồi quy mẫu (SRF).
v1.0 17
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản
Từ đó ta có: E(u i | X i ) 0 .
Phương trình (2.9) cho ta thấy rằng ngoài các biến giải
thích trong mô hình vẫn còn những yếu tố khác ảnh
hưởng đến biến phụ thuộc mà những biến này ta không
thể quan sát được. Vì vậy ta gộp chúng lại và gọi đó là
các sai số ngẫu nhiên khi biểu diễn Y qua các biến giải
thích X. Nhưng về mặt trung bình thì sự ảnh hưởng của
các nhiễu ngẫu nhiên này đến biến phụ thuộc là bằng 0.
Như vậy, các yếu tố ảnh hưởng đến biến phụ thuộc mà không có thông tin cụ thể đều
được đưa vào phần sai số ngẫu nhiên. Vậy liệu có thể đưa ra được hết các yếu tố ảnh
hưởng đến biến phụ thuộc hay không và khi ấy có thể loại bỏ được sự có mặt của
nhiễu ngẫu nhiên u i hay không. Câu trả lời là sai số ngẫu nhiên vẫn luôn tồn tại vì một
số lý do như sau:
Việc xác định được hết các yếu tố có ảnh hưởng đến biến phụ thuộc Y là rất khó,
nó giống như chúng ta cần nghiên cứu toàn bộ tổng thể;
Do điều kiện kỹ thuật và kinh tế nên ta muốn có một số mô hình đơn giản nhất, tức
là một mô hình mà với một lượng vừa đủ biến giải thích ta cũng có thể giải thích
được cho hành vi của biến phụ thuộc. Vì thế cần gộp vào u i thay thế cho các biến
giải thích khác mà có ảnh hưởng nhỏ đến hành vi của biến phụ thuộc.
Với những lý do như trên thì sự tồn tại của yếu tố ngẫu nhiên u i như là một sự tất yếu.
Giả sử ta có phương trình hồi quy tuyến tính tổng thể có dạng (2.10). Dựa vào thông
tin của mẫu ta có phương trình ước lượng cho phương trình đó là
Yi ˆ 1 ˆ 2 X i uˆ i , (2.11)
Trên đồ thị ta có thể biểu diễn phương trình hồi quy mẫu (SRF) và hồi quy tổng thể
(PRF) như hình 2.3:
Hình 2.3. Đường hồi quy tổng thể và đường hồi quy mẫu.
18 v1.0
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản
Bài toán đặt ra là cần tìm một phương pháp và đưa ra các điều kiện để dựa vào thông
tin mẫu ta thu được (SRF) là một ước lượng tốt nhất cho phương trình hồi qui tổng thể
(PRF). Hay nói cách khác, ta cần xác định hệ số ước lượng ˆ , ˆ có độ sai lệch đối
1 2
v1.0 19
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản
Ŷi ˆ 1 ˆ 2 X i (2)
trong đó Ŷi là ước lượng của E(Y/Xi ); ̂1 và ̂2 là ước lượng của β1 và β2.
Mô hình (2) gọi là mô hình hồi quy mẫu (SRF).
Bản chất của nhiễu ngẫu nhiên(ui): Là phần chênh lệch giữa giá trị quan sát và trung bình
có điều kiện của Y:
Yi – E(Y/Xi) = ui hay Yi = β1 + β2 Xi + ui (3)
Mô hình (3) được gọi là dạng ngẫu nhiên của PRF.
ui có thể dùng để đại diện cho ảnh hưởng của các biến ngoài mô hình lên biến Y. Ta giả thiết
là tổng hợp các ảnh hưởng này bằng 0, hay E(ui /Xi) = 0.
20 v1.0
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản
B. Ŷi ˆ 1 ˆ 2 X 2i
C. Yi 1 2 X 2i u i
D. Yi ˆ 1 ˆ 2 X 2i uˆ i
5. Mô hình hồi quy mẫu 2 biến (SRF) có thể được viết dưới dạng:
A. Yi 1 2 X 2i
B. Ŷi ˆ 1 ˆ 2 X 2i
C. Yi 1 2 X 2i u i
D. Yi ˆ 1 ˆ 2 X 2i uˆ i
6. Trong mô hình 2 biến Yi 1 2 X 2i u i , 1 và 2 được gọi là:
A. Hệ số hồi quy riêng.
B. Hệ số góc (độ dốc) và hệ số chặn.
v1.0 21
Bài 2: Phân tích hồi quy và một số ý tưởng cơ bản
22 v1.0
Bài 3: Mô hình hồi quy tuyến tính đơn
Mục tiêu
• Phương pháp OLS. Đề nghị học viên ôn lại phần ước lượng
• Các giả thiết cơ bản của phương pháp bình và kiểm định giả thiết trong môn lý
phương tối thiểu. thiết xác suất và thống kê toán.
• Hệ số xác định r2 đo độ phù hợp của hàm Theo dõi kỹ bài giảng.
hồi quy mẫu. Xem các ví dụ cho mỗi phần bài giảng.
• Ước lượng khoảng cho hệ số hồi quy. Làm các ví dụ và trả lời câu hỏi trắc nghiệm.
• Kiểm định giả thuyết về các hệ số hồi quy.
• Phân tích phương sai trong mô hình hồi quy.
• Dự báo.
STA301_Bài 3_v1.0013101214 23
Bài 3: Mô hình hồi quy tuyến tính đơn
Tình huống
Công ty dầu ăn Tường An đang xem xét việc giảm giá bán sản
phẩm (loại bình 5 lít) để tăng lượng hàng bán ra, đồng thời quảng
bá sản phẩm của mình đến khách hàng. Người quản lí của công ty
muốn tính toán xem nếu sản phẩm này được giảm giá đi 1000
đồng/lít thì lượng hàng trung bình bán ra sẽ thay đổi thế nào. Đồng
thời, nếu như giảm giá 1000 đồng cho 1 lít mà lượng hàng bán
thêm được là nhiều hơn 50000 sản phẩm thì công ty sẽ tiến hành 1
chiến dịch khuyến mại trong 1 tháng với giá giảm đi là 10000/lít.
Để tiến hành nghiên cứu này, phòng marketing của công ty đã dựa vào các số liệu bán
hàng của công ty trong vòng 15 tháng qua (n =15 quan sát) để thu thập số liệu về giá bán
(P) và lượng bán (Q) cho loại dầu ăn này. Nghiên cứu viên sau khi tiến hành các thống
kê mô tả đã quyết định dùng hàm cầu dạng tuyến tính để xem xét ảnh hưởng của giá đến
lượng bán: Qi 1 2 Pi u i .
Dùng số liệu của mẫu, ước lượng được hàm hồi quy mẫu có dạng
Câu hỏi
Theo kết quả của mô hình, khi giá giảm 1 đơn vị, lượng hàng bán ra thay đổi thế nào?
Liệu khi giá giảm đi 1000 đồng 1 lít thì lượng hàng bán thêm lớn hơn được 50000 sản phẩm
như các nhà nghiên cứu muốn kiểm tra không?
Giá bán quyết định bao nhiêu % trong sự thay đổi của lượng bán?
Nếu giá bán là 150000 đồng 1 bình thì lượng bán dự báo là bao nhiêu?
24 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn
Nội dung bài này giới thiệu một mô hình hồi quy đơn giản nhất và đưa ra các phương pháp ước
lượng, kiểm định giả thiết và dự báo. Đó là mô hình hồi quy tuyến tính đơn hay còn được gọi là
mô hình hồi quy 2 biến, mô hình đề cập đến một biến độc lập X và một biến phụ thuộc Y.
Trong bài này chúng ta sẽ ước lượng hàm hồi quy tổng thể PRF dựa trên thông tin mẫu. Mặc dù
có rất nhiều phương pháp ước lượng hàm hồi quy tổng thể nhưng chúng ta sẽ sử dụng phương
pháp thường dùng là phương pháp bình phương tối thiểu (OLS) (Ordinary Least Square).
3.1. Ước lượng tham số hồi quy bằng phương pháp bình phương tối thiểu
BÀI TOÁN
Cho biến độc lập X và biến phụ thuộc Y, giả sử ta có hàm
hồi quy tổng thể (PRF) có dạng tuyến tính:
Yi E(Y | X i ) u i 1 2 X i u i (3.1)
Với một mẫu quan sát (X1 , Y1 ),(X 2 , Y2 ),...,(X n , Yn )
Ta có: hàm hồi quy mẫu (SRF)
Ŷi ˆ 1 ˆ 2 X i (3.2)
và: Yi ˆ 1 ˆ 2 X i uˆ i Y
ˆ uˆ
i i (3.3)
x Xi x
ˆ 1 , ˆ 2 là các ước lượng của i , û i là ước lượng
yi Yi y
của u i , û i được coi là phần dư.
ˆ .
Từ (3.3) ta có: û i Yi Yi
Vấn đề đặt ra là sử dụng các dữ liệu của X và Y để tìm ước lượng tốt nhất cho 1 , 2
thỏa mãn tổng bình phương các phần dư đạt giá trị nhỏ nhất.
Tức là ta cần phải xác định ˆ 1 , ˆ 2 sao cho:
n n
f (ˆ 1 , ˆ 2 ) uˆ i 2 (Yi ˆ 1 ˆ 2 X i ) 2 đạt min.
i 1 i 1
f (ˆ 1 , ˆ 2 ) n
2(Yi ˆ 1 ˆ 2 X i ) 0
ˆ 1 i 1
(3.4)
f (ˆ 1 , ˆ 2 ) 2X (Y ˆ ˆ X ) 0
n
ˆ i i 1 2 i
2 i 1
ˆ ˆ n n
1 2 i Yi
n X
i 1 i 1
Suy ra: n n n
(3.5)
ˆ
X
1 i 1 i
ˆ
2
i 1
X 2
i
i 1
X i Yi
25
Bài 3: Mô hình hồi quy tuyến tính đơn
Ta có:
1 n 1 n 1 n
X i
n i 1
X ; Y i
n i 1
Y ; XY Xi Yi
n i 1
1 n 1 n
X 2 X i2 ; Y 2 Yi2 .
n i 1 n i 1
ˆ 1 ˆ 2 X Y
(3.6)
ˆ 1X ˆ 2 X XY
2
ˆ XY (X)(Y)
2
X 2 (X) 2 (3.7)
ˆ ˆ
1 Y 2 X
n n
Ta đặt SYY (Yi Y) 2 Yi2 n(Y) 2 nY 2 n(Y) 2
i 1 i 1
n n
SXX (X i X) 2 X i2 n(X) 2 nX 2 n(X) 2
i 1 i 1
n n
SXY (X i X)(Yi Y) X i Yi n(X)(Y) nXY n(X)(Y)
i 1 i 1
Phương pháp tìm các ước lượng ˆ 1 , ˆ 2 như trên được gọi là phương pháp bình phương
tối thiểu.
3.1.1. Tính chất của tham số hồi quy mẫu ước lượng bằng phương pháp bình
phương tối thiểu.
Phương pháp bình phương tối thiểu đem lại các ước lượng với các tính chất như sau:
Ứng với một mẫu ((X , Y ), (X , Y ),...(X , Y )) cho trước, hệ số ˆ , ˆ được xác
1 1 2 2 n n 1 2
26 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn
û
i 1
i 0.
û Yˆ 0.
i 1
i i
û X
i 1
i i 0.
o Thay điểm (X, Y) vào phương trình hồi quy mẫu, ta có:
Y ˆ 1 ˆ 2 X
ˆ 1 Y ˆ 2 X .
n n
o ˆ 1 Y
Ta có: Y ˆ 1 ˆ ˆ X
i 1 2 i
n i 1 n i 1
ˆ 1 ˆ 2 X
Y.
o ˆ . Suy ra ngay
Ta có: û i Yi Yi
n n n n
û i (Yi Yˆ i ) Yi Yˆ i nY nYˆ 0.
i 1 i 1 i 1 i 1
o Rõ ràng từ:
n n n n
û i Yˆ i (Yi Yˆ i )Yˆ i Yi Yˆ i Yˆ i2
i 1 i 1 i 1 i 1
n n
Yi (ˆ 1 ˆ 2 X i ) (ˆ 1 ˆ 2 X i ) 2
i 1 i 1
1 n
n i 1
ˆ ˆ (ˆ ˆ X) ˆ (ˆ X ˆ X 2 ) (ˆ 2 2ˆ ˆ X ˆ 2 X 2 ) 0.
û i Yi 1 1 2 2 1 2 1 1 2 2
n
Vậy û Yˆ 0.
i 1
i i (3.8)
27
Bài 3: Mô hình hồi quy tuyến tính đơn
n n
o Dễ dàng thấy uˆ i Yˆ i uˆ i (ˆ 1 ˆ 2 Xi )
i 1 i 1
n n
ˆ 1 uˆ i ˆ 2 uˆ i X i .
i 1 i 1
Từ tính chất 4 và 5 ta có
n n
uˆ uˆ Yˆ 0 .
i 1
i
i 1
i i
n
Vậy ta có: û X
i 1
i i 0.
VÍ DỤ 3.1
Thu thập số liệu về điểm học tập của học sinh và mức thu nhập hàng năm của bố mẹ ta
có bảng số liệu sau:
Thu nhập (x) (triệu/năm) 45 60 30 90 75 45 105 60
Điểm trung bình (y) 8.75 7.5 6.25 8.75 7.5 5.0 9.5 6.5
Hãy tìm hàm hồi quy mẫu và tính các đặc trưng của nó
3.1.2. Các giả thiết cơ bản của phương pháp bình phương tối thiểu
Khi phân tích hồi quy, mục đích của chúng ta là tìm phương trình hồi quy mẫu thông
qua việc ước lượng các hệ số 1 , 2 . Dựa vào dữ liệu mẫu ta thu được các ước lượng
tương ứng là ˆ 1 , ˆ 2 . Nhưng ˆ 1 , ˆ 2 là các ước lượng điểm của 1 , 2 . Vì thế ta chưa biết
được chất lượng của các ước lượng này thế nào. Ta cần đưa ra một số các giả thiết của
phương trình bình phương tối thiểu để thu được các
ước lượng tốt nhất cho 1 , 2 . Từ đó ta cũng sẽ thu
được giá trị Ŷi là ước lượng tốt nhất cho E(Y | X i ) .
Chất lượng của các ước lượng sẽ phụ thuộc vào các
yếu tố sau:
Dạng hàm của mô hình được chọn.
Phụ thuộc vào các X i và u i .
Phụ thuộc vào cỡ của mẫu.
Vấn đề về dạng hàm của mô hình được lựa chọn chúng ta sẽ xem xét ở bài 7. Ta sẽ
đưa ra các giả thiết cho X i và u i để các ước lượng thu được không chệch và có
phương sai nhỏ nhất.
Giả thiết 1: Biến giải thích X có giá trị quan sát Xi khác với ít nhất 1 giá trị còn
lại, tức là phương sai mẫu hiệu chỉnh không suy biến:
1 n
S'2X (Xi X)2 0.
n 1 i 1
28 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn
Giả thiết 2: Giá trị trung bình của sai số có thể mang dấu âm hoặc dương đối với
mỗi giá trị quan sát nhưng về mặt trung bình thì bằng 0.
Giả thiết 3: Các giá trị của X được cho trước và không ngẫu nhiên, tức là mỗi X i
được cho trước và không phải là biến ngẫu nhiên. Điều đó có nghĩa là X i và u i
là không tương quan với nhau.
Giả thiết này có một ý nghĩa rất quan trọng là nếu X và u có được tương quan thì
khi X thay đổi, u cũng sẽ thay đổi. Vì thế giá trị kỳ vọng của Y sẽ khác 1 2 X.
Giả thiết 4: Phương sai sai số thuần nhất (không đổi)
Var(u i ) Var(u j ) 2 i j .
CoV(u i , u j ) 0 i j .
Với các giả thiết đã nêu, khi đó ta có tính chất của các ước lượng theo phương pháp
bình phương tối thiểu như sau:
Định lý Gauss-Markov
Giả sử ta có mô hình hồi quy tuyến tính, khi đó với
các giả thiết 1-5 ta có ước lượng bình phương tối
thiểu là các ước lượng tuyến tính không chệch và có
phương sai nhỏ nhất trong lớp các ước lượng tuyến
tính không chệch.
Định lý Gauss-Markov cho một khẳng định là các
ước lượng ˆ 1 , ˆ 2 của 1 , 2 có được bằng phương pháp bình phương tối thiểu là các
ước lượng không chệch và có phương sai tối thiểu trong các ước lượng không chệch
của 1 , 2 .
XY (X)(Y)
ˆ 2
X 2 (X) 2
ˆ Y ˆ X .
1 2
x i X i X
Đặt:
yi Yi Y
29
Bài 3: Mô hình hồi quy tuyến tính đơn
Khi đó ta có:
ˆ 1 Y ˆ 2 X
n n
ˆ 2 x i yi x 2
i .
i 1 i 1
Với các giả thiết 1-5 của phương pháp bình phương nhỏ nhất, ta có phương sai và độ
lệch chuẩn của các ước lượng là
2
Var(ˆ 2 ) n ; se(ˆ 2 ) ;
n
xi 2
i 1
x 2
i
i 1
n n
Xi2 X 2
i
Var(ˆ 1 ) i 1
n
2 ; se(ˆ 1 ) i 1
n
,
n x 2
i n x 2
i
i 1 i 1
uˆ 2
i uˆ 2
i
ˆ 2 i 1
ˆ i 1
n2 n2
̂ là sai số tiêu chuẩn của ước lượng (standard error of the estimate).
3.2. Hệ số xác định r 2 đo độ phù hợp của hàm hồi quy mẫu:
Cho hai biến X và Y, để xác định mối quan hệ của X và Y có dạng tuyến tính hay
không ta đưa ra một đại lượng để đo mức độ phụ thuộc tuyến tính giữa X và Y.
Ta có: Y Y ˆ uˆ
i i i
ˆ Y uˆ Y
Yi Y Y ˆ Y
ˆ uˆ
i i i i
yi yˆ i uˆ i (3.9)
Bình phương hai vế của (3.9) ta có:
n n n n
yi2 yˆ i2 uˆ i2 2 yˆ i uˆ i
i 1 i 1 i 1 i 1
n n
yˆ i2 uˆ i2
i 1 i 1
n n
ˆ 22 x i2 uˆ i2 (3.10)
i 1 i 1
30 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn
n n
Đặt: TSS yi2 (Yi Y) 2 (3.11)
i 1 i 1
TSS (Total sum of squares) gọi là tổng bình phương các sai lệch giữa Yi với giá trị
trung bình Y .
n n n
ESS (Yi
ˆ ) 2 yˆ 2 ˆ 2 x 2
ˆ Y
i i 2 i (3.12)
i 1 i 1 i 1
n
RSS uˆ i2 . (3.13) (3.12)
i 1
ESS RSS
1
TSS TSS
n n
(Yˆ i Y)2 uˆ i
2
i 1
n
n
i 1
(3.15)
(Y Y) (Y Y)
i 1
i
2
i 1
i
2
ESS
ˆ Y) 2
(Yi
Đặt: r 2 i 1 .
TSS n
(Y Y)
i 1
i
2
RSS
Từ (3.14) và (3.15) ta có: r 2 1 (3.16)
TSS
n n n
ŷ i
2
ˆ 22 x i2 ˆ 22 (X i X) 2
S2
Ta có: r 2 i 1
n
n
i 1
n
i 1
ˆ 2 2X (3.17)
SY
yi2
i 1
yi2
i 1
(Yi Y)2
i 1
1 n 1 n
trong đó: S2X
n 1 i 1
(X i X) 2 ; S2Y
n 1 i 1
(Yi Y) 2
31
Bài 3: Mô hình hồi quy tuyến tính đơn
n
x y i i
là phương sai mẫu của X và Y. Ngoài ra vì ˆ 2 i 1
n
nên (3.17) có thể được viết
x
i 1
2
i
Từ (3.18) ta có:
n n
1 n n
x i yi X Y
i i ( i
n i 1
X )( Yi )
r i 1
i 1 i 1
n n n n
x
i 1
2
i y
i 1
2
i (Xi X)2 (Yi Y)2
i 1 i 1
n n n
n X i Yi ( X i )( Yi )
i 1 i 1 i 1
n
2
n n
n
i i i
2 2
n X ( X ) n Y ( Yi ) 2
i 1 i 1 i 1 i 1
Ta thấy rằng r chính là hệ số tương quan mẫu của X và Y.
Các tính chất của hệ số tương quan:
r có thể âm hoặc dương.
1 r 1.
3.3. Phân bố xác suất của các tham số hồi quy mẫu
Trong phần trước ta đã thu được các ước lượng
điểm của 1 và 2 theo phương pháp bình phương
nhỏ nhất (OLS) dựa trên các giả thiết cơ bản về sai
số ngẫu nhiên u i là:
E(u i ) 0.
Var(u i ) 2 .
Cov(u i , u j ) 0 , i j .
32 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn
Khi đó các ước lượng điểm thu được tương ứng là ˆ 1 , ˆ 2 có tính chất không chệch và
có phương sai nhỏ nhất. Tuy nhiên, các ước lượng điểm không cho ta biết được độ sai
lệch của chúng so với giá trị thực, vì vậy ước lượng khoảng cho ta nhiều thông tin hơn
so với ước lượng điểm. Để có thể tìm được ước lượng khoảng cho các tham số 1 , 2
chúng ta cần xác định được phân phối xác suất của ̂1 và ̂2 . Các phân phối xác suất
này phụ thuộc vào phân phối xác suất của u i . Vậy ta đưa thêm giả thiết về phân phối
xác suất của u i như sau:
Giả thiết: u i có phân phối chuẩn N(0; 2 ) ,
Với giả thiết thêm vào đó, ˆ 1 , ˆ 2 còn có các tính chất sau:
ˆ 1 , ˆ 2 là các ước lượng vững, tức là khi cỡ mẫu đủ lớn thì chúng hội tụ đến giá trị
1 , 2 .
X 2
i
E(ˆ 1 ) 1 , Var(ˆ 1 ) 12 i 1
n
2 (3.19)
n x 2
i
i 1
ˆ 1 1
Z
1
2
E(ˆ 2 ) 2 , Var(ˆ 2 ) 22 n
(3.20)
x
i 1
2
i
ˆ 2
tức là ˆ 2 N(2 ; 22 ) . Do đó biến ngẫu nhiên Z 2 có phân phối chuẩn tắc
2
N(0;1).
(n 2)ˆ 2
Thống kê 2 có phân phối khi-bình phương với n 2 bậc tự do.
2
Các ước lượng ˆ 1 , ˆ 2 có phương sai nhỏ nhất trong số các ước lượng không chệch
của 1 , 2 .
Ta có Yi 1 2 X i u i . Từ giả thiết của u i ta thu được các thống kê Z và 2 có
quy luật phân phối chuẩn tắc và khi bình phương với (n 2) bậc tự do. Vậy ta có
thể tìm được khoảng ước lượng cho các tham số 1 , 2 và 2 .
33
Bài 3: Mô hình hồi quy tuyến tính đơn
ˆ 1 N(1 ; 12 )
ˆ 2 N(2 ; 22 )
với các phương sai 12 , 22 được xác định trong
(3.19) và (3.20). Tuy nhiên vì phương sai 2 chưa biết, nên các phương sai 12 , 22 cũng
chưa biết, vì vậy ta dùng ước lượng không chệch của 2 là:
n
û 2
i
RSS
ˆ 2 i 1
.
n2 n2
Khi đó các thống kê:
ˆ 1 1 ˆ 2
T1 và T2 2
Se(ˆ 1 ) Se(ˆ 2 )
Các thống kê này có phân phối student với (n – 2) bậc tự do. Đồng thời, thống kê
ˆ 2
(n 2) 2
2
có phân phối khi bình phương với (n – 2) bậc tự do.
P t (n 2) T1 t (n
2
2)
1 ,
2
2)
với t (n
2
là phân vị mức
2 của phân phối Student
T1 , tức là:
2) ˆ 1 1 (n 2)
P{ t (n t2 } 1 .
se(ˆ 1 )
2
Từ đó dẫn đến
P{ˆ 1 t (n
2
2)
se(ˆ 1 ) 1 ˆ 1 t (n
2
2)
se(ˆ 1 )} 1 .
1 (ˆ 1 t (n
2
2)
se(ˆ 1 ); ˆ 1 t (n
2
2)
se(ˆ 1 )) .
34 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn
ˆ 2
2)
P t (n 2) T2 2 t (n
1 .
2 Se(ˆ 2 ) 2
Từ đó,
P ˆ 2 t (n 2)Se(ˆ 2 ) 2 ˆ 2 t (n
2
2)
2
Se(ˆ 2 ) 1 .
Vậy với mỗi mẫu cụ thể ta có khoảng ước lượng cho 2 là:
2 ˆ 2 t (n 2)Se(ˆ 2 ); ˆ 2 t (n
2
2)
2
Se(ˆ 2 )
3.4.3. Khoảng ước lượng cho σ 2
Ta thấy thống kê
(n 2)ˆ 2
2
2
có phân phối khi-bình phương với (n-2) bậc tự do.
Do đó:
(n 2)ˆ 2
P{ 2
1 / 2;n 2 2
2 / 2;n 2 } 1
2
với 12 / 2;n 2 và 2 / 2;n 2 là các giá trị phân vị mức 1 / 2 và / 2 của phân phối
2 (n 2) .
Từ đó ta có:
(n 2)ˆ 2 (n 2)ˆ 2
P 2 2 2 1 .
/ 2;n 2 1 / 2;n 2
Vậy với mẫu cụ thể và độ tin cậy 1 , ta có khoảng ước lượng cho 2 là:
(n 2)ˆ 2 (n 2)ˆ 2
2 ( ; ).
2 / 2;n 2 12 / 2;n 2
35
Bài 3: Mô hình hồi quy tuyến tính đơn
Ta đã biết bài toán kiểm định giả thuyết gồm các bước cơ bản sau:
Bước 1: Thiết lập giả thuyết H 0 và đối thuyết H1 .
Bước 2: Xây dựng tiêu chuẩn thống kê để kiểm định, xác định quy luật phân phối
xác suất của tiêu chuẩn thống kê khi giả thuyết H 0 được cho là đúng.
Bước 3: Xây dựng miền bác bỏ giả thiết W ứng với mức ý nghĩa cho trước.
Bước 4: So sánh giá trị mẫu (quan sát được) của tiêu chuẩn thống kê ở bước thứ 2
với miền bác bỏ giả thuyết W ở bước 3 để đưa ra kết luận bác bỏ hay chấp nhận
giả thuyết H 0 .
Ta đưa giả thuyết H 0 : 1 1* và đối thuyết H1 : 1 1* hoặc H1 : 1 1* hoặc H1 :
1 1* .
Chú ý rằng nếu giả thiết H0 là đúng thì: thống kê
ˆ
T1 1 1 có phân phối Student với n – 2 bậc
Se(ˆ 1 )
tự do. Ta sẽ dựa vào thống kê này để tiến hành kiểm
định giả thuyết cho 1 . Ta có các bài toán kiểm định
giả thuyết sau:
Bài toán 1: Kiểm định hai phía
H 0 : 1 1
*
H1 : 1 1
*
Ta có giả thuyết H 0 : 2 *2 với đối thuyết H1 : 2 *2 hoặc H1 : 2 *2 hoặc
H1 : 2 *2 .
36 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn
t (n-2)
p là phân vị mức p của phân phối Student T2 .
Bài toán 2: Kiểm định một phía (phải)
H 0 : 2 *2
H1 : 2 2
*
H 0 : 2 *2
H1 : 2 2
*
(n 2)ˆ 2
2
2
có phân phối khi bình phương với n – 2 bậc tự do. Áp dụng kết quả đó, ta có thể giải
quyết các bài toán kiểm định đối với 2 như sau:
Bài toán 1: Kiểm định hai phía
H 0 : 2 02
H1 : 0
2 2
37
Bài 3: Mô hình hồi quy tuyến tính đơn
H 0 : 0
2 2
H1 : 0
2 2
CHÚ Ý
Phương pháp kiểm định trên được gọi là phương pháp kiểm định theo miền tiêu chuẩn mà
ta đã biết trong giáo trình xác suất thống kê. Ngoài phương pháp trên ta còn có phương
pháp kiểm định giả thuyết theo p-value xác suất ý nghĩa, phương pháp này cũng đã được giới
thiệu trong giáo trình xác suất-thống kê.
38 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn
ˆ i *i
Bước 1: Tính t iqs ;
Se(ˆ ) i
2P Ti t iqs .
Bước 3: So sánh xác suất ý nghĩa đó với mức ý nghĩa đã xác định từ trước, nếu
p-value thì bác bỏ H 0 , còn nếu p-value thì chấp nhận giả thuyết H 0 .
Kiểm định một phía (phải)
H 0 : i *i
i =1, 2
H1 : i i
*
ˆ i *i
t iqs ;
Se(ˆ i )
Bước 2: Từ thống kê đó, tính xác suất ý nghĩa p-value = P Ti t iqs .
Bước 3: So sánh xác suất ý nghĩa đó với mức ý nghĩa đã xác định từ trước, nếu
p-value thì bác bỏ giả thuyết H 0 , còn nếu p-value thì chấp nhận giả
thuyết H 0 .
Kiểm định một phía (trái)
H 0 : i i
*
i = 1, 2
H1 : i i
*
ˆ i *i
Bước 1: Tính t iqs ;
Se(*i )
VÍ DỤ 3.2
Từ ví dụ 3.1 hãy:
a) Tìm khoảng ước lượng cho các hệ số hồi quy với độ tin cậy 95%.
b) Với mức ý nghĩa 5% có thể kết luận thu nhập của bố, mẹ có ảnh hưởng tới kết quả học
tập của con cái hay không?
c) Tính ESS, TSS.
39
Bài 3: Mô hình hồi quy tuyến tính đơn
ˆ 2 0.042094
t2 0.0539 .
Se(ˆ 2 ) 0.017601
0.025 2.364624 .
Với mức ý nghĩa 5%, tra bảng phân phối student ta có: t (7)
Vậy miền bác bỏ của bài toán là: W = ; 2.364624 2.364624; .
Ta thấy giá trị tiêu chuẩn thống kê t 2 W , do đó chưa bác bỏ được H0. Như vậy
có thể kết luận thu nhập của bố mẹ không ảnh hưởng đến kết quả học tập của con
cái một cách có ý nghĩa.
Cách 2: Ta thấy giá trị p- value = 0.0539 > 0.05 vì vậy chưa thể bác bỏ được H0.
40 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn
c) Từ kết quả trong bảng ta có r2 = 0.488035, RSS = 8.155499, do đó theo công thức
RSS
r2 1
TSS
3.6. Phân tích phương sai trong phương trình hồi quy
Trong phần này chúng ta xét bài toán kiểm định giả
thuyết về hệ số hồi quy 2 theo một phương pháp
khác, đó là phương pháp phân tích phương sai.
H : 0
Ta xét bài toán kiểm định 0 2 (*)
H1 : 2 0
Giả thuyết H 0 nói lên rằng biến X không ảnh
hưởng tới Y, khi đó ta bác bỏ giả thuyết H 0 cũng có nghĩa là ta bác bỏ giả thuyết cho
rằng biến X không có ảnh hưởng tới biến Y.
Trong các phần trước ta thấy nếu như giả thuyết H 0 là đúng, tức là: 2 0 , thì thống kê
(n 2)ˆ 2 RSS
2
2
ESS
có phân phối khi - bình phương với n – 2 bậc tự do, còn thống kê
2
cũng có có phân phối khi-bình phương với 1 bậc tự do. Mặt khác hai thống kê đó độc
lập với nhau, vậy thống kê
ESS
1 TSSr 2 r2 n2
F
RSS (1 r ) TSS
2
1 r 2
1
n2 n2
có phân phối Fisher với số bậc tự do là: 1; n 2 . Từ đó, với mức ý nghĩa cho
trước, miền bác bỏ cho bài toán kiểm định đang xét là W= f 1; n 2 ; .
Ý nghĩa: Cách tiếp cận theo hướng phân tích phương sai như trên cho phép ta đưa ra
các phán đoán về độ phù hợp của mô hình hồi quy đang xét. Cụ thể, nếu thống kê F có
giá trị rất lớn (ứng với xác suất ý nghĩa rất nhỏ) thì ta có thể kết luận mô hình được lập
phù hợp với số liệu quan sát. Còn nếu thống kê F có giá trị nhỏ đến mức xác suất ý
nghĩa tương ứng của nó lớn hơn mức ý nghĩa đã định (bằng 5% chẳng hạn) thì rõ ràng
mô hình là không phù hợp với số liệu, lúc đó cần tìm mô hình khác.
Ta có bảng phân tích phương sai ngắn gọn như sau:
41
Bài 3: Mô hình hồi quy tuyến tính đơn
n n2 RSS
Phần dư RSS u
i 1
2
i n2
Tổng TSS n 1
3.7. Ứng dụng của phân tích hồi quy, bài toán dự báo
Một trong các ứng dụng của phân tích hồi quy là dự báo
cho biết giá trị của X là X 0 , ta cần dự báo giá trị của Y là
Y0 , khi đó thay giá trị X 0 vào phương trình hồi quy mẫu
ta nhận được giá trị ước lượng của Y là Ŷ0 thỏa mãn
phương trình: Ŷ0 ˆ 1 ˆ 2 X 0 .
Giá trị thực Y0 thỏa mãn phương trình Y0 1 2 X 0 u 0 , với u 0 là sai số.
Đồng thời
ˆ Y ) 0 E(Y
Do đó: E(Y ˆ )Y .
0 0 0 0
Vậy ước lượng Ŷ0 là một ước lượng không chệch của Y0 .
Ngoài ra, phương sai của Ŷ0 Y0 được tính theo
ˆ Y ) Var[(ˆ ) (ˆ )X u ]
Var(Y0 0 1 1 2 2 0 0
1 X2 2 x0
2
X
2 2x 0 2 2
n Sxx Sxx Sxx
1 (X 0 X) 2 2
1
2
X
n Sxx
n n n
trong đó: Sxx X i2 (X i X) 2 X i2 n(X) 2 .
i 1 i 1 i 1
Do phương sai 2 chưa biết, ta thay 2 bằng ước lượng không chệch ̂2 .
Ŷ0 Y0
Khi đó ta có thống kê t có phân phối Student với n – 2 bậc tự do.
Se(Yˆ Y )
0 0
Vậy với mức ý nghĩa cho trước ta có khoảng ước lượng Y0 là:
42 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn
ỨNG DỤNG
ˆ t n 2Se(Y
Y ˆ Y )Y Y
ˆ t n 2Se(Y
ˆ Y ) (3.21)
0 0 0 0 0 0 0
2 2
Công thức (3.21) cho ta khoảng ước lượng về giá trị Y0 của Y khi cho biết trước giá
trị X 0 của X.
Bài toán trên có thể phát biểu dưới một dạng tương đương khác như sau (Bài toán dự
báo giá trị trung bình): Cho trước giá trị X 0 của X, cần ước lượng giá trị trung bình
của Y khi X X 0 , tức là ước lượng giá trị E(Y | X X 0 ) .
Ta có:
E(Y | X 0 ) 1 2 X 0 ,
Ŷ0 ˆ 1 ˆ 2 X 0 .
ˆ 2 1 (X 0 X) 2
Var(Y0 E(Y | X 0 )) .
n Sxx
Do 2 chưa biết, ta dùng ước lượng ̂ 2 , dẫn đến:
2
ˆ E(Y | X )) ˆ 2 1 (X 0 X) .
2
Var(Y0 0
n Sxx
Ký hiệu: ˆ E(Y | X )) ,
S2Yˆ Var(Y
0
0 0
khi ấy thống kê
Ŷ0 E(Y | X 0 )
t .
SŶ
0
43
Bài 3: Mô hình hồi quy tuyến tính đơn
Ý tưởng của phương pháp OLS là tìm 1 đường SRF sao cho các giá trị ước lượng Ŷi càng
gần với các giá trị quan sát Yi càng tốt. Vì vậy, ta đi tìm min cho hàm sau:
n n
f ˆ 1 , ˆ 2 u i2 (Yi ˆ 1 ˆ 2 X i ) 2 .
i 1 i 1
Như vậy phương pháp OLS sẽ tối thiểu hóa tổng bình phương các phần dư:
n
RSS uˆ i2 min .
i 1
x y i i
Ta có công thức cho các hệ số ước lượng là: ˆ 1 Y ˆ 2 X ; ˆ 2 i 1
n
x
i 1
2
i
với x i X i X, yi Yi Y.
Giả thiết 3: Trung bình của các nhiễu ngẫu nhiên bằng 0: E( u i /Xi) = 0.
Giả thiết 4: Phương sai của các nhiễu ngẫu nhiên là không đổi: Var u i Var u j 2 .
Chú ý: Giả thiết 4 không thoả mãn, ta nói có hiện tương phương sai của sai số thay đổi.
Giả thiết 5: Không có tương quan giữa các nhiễu ngẫu nhiên: CoV u i , u j 0 .
Chú ý: Giả thiết 5 không thoả mãn, ta nói có hiện tương tự tương quan.
Giả thiết 6: Số quan sát n phải lớn hơn tổng số tham số trong mô hình.
44 STA301_Bài 3_v1.0013101214
Bài 3: Mô hình hồi quy tuyến tính đơn
Định lí Gaus-Markov: Với các giả thiết đã cho của phương pháp bình phương tối thiểu thoả
mãn, ước lượng bình phương tối thiểu là các ước lượng tuyến tính không chệch và có phương
sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch.
r2 đo độ phù hợp của hàm hồi quy, giá trị của r2 cho biết bao nhiêu phần trăm sự biến thiên
của biến Y được giải thích bởi biến X hoặc bởi hàm hồi quy mẫu.
Ý nghĩa khoảng tin cậy:
KTC cho β1 cho biết trung bình của Y thay đổi thế nào khi X = 0.
KTC cho β2:
2 ˆ 2 t na 2 2Se ˆ 2 ; ˆ 2 t na 2 2 Se ˆ 2
KTC cho β2 cho biết trung bình của Y thay đổi thế nào khi biến X thay đổi 1 đơn vị.
Kiểm định giả thiết: Trong mô hình E(Y/Xi) = β1 + β2Xi: Ta muốn kiểm tra H0: βj = βj*
(j = 1,2).
Kiểm định Gt cho β1 = β1* cho biết trung bình của Y có bằng β1* khi X = 0 hay không.
Kiểm định Gt cho β2 = β2* cho biết tốc độ thay đổi của trung bình của Y khi biến X thay đổi
1 đơn vị có bằng β2* hay không.
Phân tích phương sai – kiểm định về sự phù hợp của mô hình.
Để kiểm định sự phù hợp của mô hình hồi quy tuyến tính so với số liệu, ta có thể tính các
tổng bình phương sai số ESS, RSS và TSS, từ đó xác định thống kê F có phân phối Fisher rồi
tiến hành kiểm định giả thuyết đối với thống kê đó.
Dự báo.
Từ số liệu mẫu, ta ước lượng được mô hình hồi quy thực nghiệm, từ đó có thể dự báo được
giá trị của biến phụ thuộc mỗi khi có một giá trị mới của biến độc lập.
45
Bài 3: Mô hình hồi quy tuyến tính đơn
1. Ngoài phương pháp OLS thì có phương pháp nào khác để ước lượng mô hình hồi quy
mẫu không?
2. Trong phương pháp OLS, trong mọi trường hợp, ta đều phải giải hệ phương trình để tìm các
ước lượng đúng không?
3. Nếu một mô hình hồi quy bội với nhiều biến thì việc dùng phương pháp OLS có thuận
tiện không?
4. Khi ước lượng các hệ số bằng OLS, làm thế nào để đánh giá được chất lượng của chúng?
5. Tại sao phải xem xét các giả thiết của phương pháp OLS?
6. Để đánh giá độ phù hợp của mô hình hồi quy với các số liệu của mẫu, ta dùng tiêu chí nào?
7. Có nhất thiết phải xây dựng được mô hình hồi quy mẫu với r2 phải lớn?
8. Trong kiểm định giả thiết, việc dùng phương pháp xác suất ý nghĩa (p-value) có thể thay cho
phương pháp kiểm định thông thường hay không?
1. Công thức nào sau đây thể hiện phương pháp bình phương tối thiểu (OLS)?
û û Yˆ Y min
n n n n
A. ˆ min
Yi Y B.
i i i i i
i 1 i 1 i 1 i 1
2 2
û û
n n n n
C. 2 ˆ
Yi Y min D. 2 ˆ
Yi Y max
i i i i
i 1 i 1 i 1 i 1
2. Cho mô hình hồi quy: Ŷ = 20 + 0.75X. Tính giá trị phần dư tại điểm X = 100, Y = 90
A. 5 B–5
C. 0 D. 15.
3. Bậc tự do trong kiểm định t với mô hình 2 biến và có 20 quan sát là:
A. 20 B. 22
C. 18 D. 2
4. R2 cho biết:
A. Tương quan giữa X và Y. B. Sự biến thiên của Y.
C. Hiệp phương sai giữa X và Y. D. Phần biến thiên của Y được giả thích bởi X
5. Cho mô hình với TSS = 0.9243, RSS = 0.2137. Tìm r2
A. 0.7688 B. 0.2312
C. 0.3007 D. 0
46 STA301_Bài 3_v1.0013101214
Bài 4: Mô hình hồi quy bội
Mục tiêu
Mô hình hồi quy bội gồm 2 biến độc lập. Đề nghị học viên ôn lại phần ước
Mô hình hồi quy bội gồm k biến (k-1 biến lượng và kiểm định giả thiết trong môn
độc lập). lý thuyết xác suất và thống kê toán.
Phương pháp OLS cho mô hình hồi quy bội. Theo dõi kỹ bài giảng.
Hệ số xác định bội và hệ số xác định bội đã Xem các ví dụ cho mỗi phần bài giảng.
hiệu chỉnh. Làm các ví dụ và trả lời câu hỏi
Ước lượng khoảng tin cậy và kiểm định giả trắc nghiệm
thuyết cho hệ số hồi quy.
Kiểm định về sự phù hợp của mô hình
hồi quy.
Dự báo trong mô hình hồi quy bội.
STA301_Bài 4_v1.0013101214 47
Bài 4: Mô hình hồi quy bội
Tình huống
Hội đồng quản trị của công ty may Đức Giang đang muốn xem xét
ảnh hưởng của 2 yếu tố đầu vào của sản xuất là Vốn (V, tỉ đồng) và
Lao động (L, người) lên sản lượng (SL, triệu sản phẩm) của công ty.
Cụ thể, họ muốn đưa ra quyết định về việc có nên tiếp tục mở rộng
sản xuất, thu hẹp lại hay giữ nguyên như hiện tại. Để tiến hành nghiên
cứu này, phòng kế hoạch của công ty thu thập số liệu về vốn đầu tư,
lao động sử dụng và sản lượng sản xuất ra trong 30 tháng qua tại công ty (có n = 30 quan sát).
Mô hình dùng để nghiên cứu có dạng
log(SLi) = β1 + β2log(Vi) + β3log(Li)+ui
Dùng số liệu của mẫu, ước lượng được hàm hồi quy mẫu có dạng,
) 0.424816 0.7358log(V ) 0.9489 log(L ).
log(SL i i i
Câu hỏi
Vậy công ty Đức Giang nên tăng, giảm hay giữ nguyên quy mô sản xuất?
Liệu cả 2 biến vốn và lao động cùng không có ảnh hưởng đến sản lượng có đúng không?
Giả sử trong tháng tới, công ty quyết định sử dụng lượng vốn là 10 tỉ đồng và lao động là
3000 thì sản lượng dự báo là bao nhiêu?
48 STA301_Bài 4_v1.0013101214
Bài 4: Mô hình hồi quy bội
Trong bài trước chúng ta đã nghiên cứu mô hình hồi quy tuyến tính đơn giản, đó là hồi quy tuyến
tính đơn, trong mô hình này chúng ta đã nghiên cứu các mối quan hệ giữa một biến được giải
thích là Y và một biến giải thích X. Bài này chúng ta mở rộng nghiên cứu sang mô hình hồi quy
tuyến tính bội với một biến được giải thích Y và (k – 1) biến giải thích X 2 ,..., X k . Trong thực tế
mô hình hồi quy tuyến tính bội được sử dụng rộng rãi vì đối với nhiều trường hợp nó giải thích
về hành vi của biến phụ thuộc (biến được giải thích) Y tốt hơn mô hình hồi quy tuyến tính đơn.
Ví dụ trong bài trước chúng ta xét mối quan hệ giữa thu nhập và chi tiêu nhưng thực tế chi tiêu
không chỉ phụ thuộc vào thu nhập mà nó còn phụ thuộc vào các yếu tố khác, chẳng hạn như:
niềm tin vào nền kinh tế, độ tuổi, nghề nghiệp, địa lý… Vì vậy mô hình hồi quy đơn khó giải
thích được hành vi của biến phụ thuộc Y. Do đó việc mở rộng mô hình hồi quy tuyến tính bội sẽ
giúp chúng ta giải thích được rõ hơn về biến phụ thuộc Y.
BÀI TOÁN
Mô hình hồi quy tuyến tính bội là mô hình nghiên cứu mối quan hệ giữa một biến phụ
thuộc Y và (k – 1) biến độc lập X 2 , X 3 ,..., X k có dạng:
Yi 1 2 X 2i 3 X 3i ... k X k u i
Trong đó E(u i ) 0, E(u i | X 2i , X 3i ,..., X ki ) 0
Cov u i , u j 0 i j
Var(u i ) 2 , i .
Cov(u i , u j ) 0, i j.
Cov(X 2i ,u i ) 0;Cov(X 3i , u i ) 0.
STA301_Bài 4_v1.0013101214 49
Bài 4: Mô hình hồi quy bội
Ŷi ˆ 1 ˆ 2 X 2i ˆ 3 X 3i (4.2)
Và Yi ˆ 1 ˆ 2 X 2i ˆ 3 X 3i uˆ i Y
ˆ uˆ
i i
n n 2
û i2 Yi ˆ 1 ˆ 2 X 2i ˆ 3X3i
i 1 i 1
(4.3)
n
Ta cần xác định ˆ 1 , ˆ 2 , ˆ 3 sao cho û
i 1
2
i trong (4.3) đạt giá trị nhỏ nhất.
n
Theo lý thuyết giải tích nhiều biến, ta thấy để û
i 1
2
i đạt giá trị nhỏ nhất thì ˆ 1 , ˆ 2 , ˆ 3
ˆ n n n n
1 X 2i ˆ 2 X 2i ˆ 3 X 2i X 3i Yi X 2i
2
(4.4)
i 1 i 1 i 1 i 1
n n n n
ˆ 1 X 3i ˆ 2 X 2i X 3i ˆ 3 X 3i Yi X 3i
2
i 1 i 1 i 1 i 1
trong đó
1 n 1 n
X2 2i 3 n
n i 1
X , X
i 1
X 3i
1 n
Y Yi .
n i 1
Hệ phương trình (4.4) được gọi là hệ phương trình chuẩn và phương pháp xác định
ˆ 1 , ˆ 2 , ˆ 3 như trên được gọi là phương pháp bình phương tối thiểu (OLS).
Nghiệm của phương trình (4.4) là:
ˆ 1 Y ˆ 2 X 2 ˆ 3 X 3
n n n n
y x x i 2i
2
3i yi x 3i x 2i x 3i
ˆ 2 i 1 i 1 i 1 i 1
2
n
n
n
i 1
x x x 2i x 3i
i 1
2
2i
i 1
2
3i
n n n n
yi x 3i x 3i2 yi x 3i x 2i x 3i
ˆ 3 i 1
n
i 1
n
i 1
n
i 1
x x
i 1
2
2i
i 1
2
3i ( x 2i x 3i ) 2
i 1
50 STA301_Bài 4_v1.0013101214
Bài 4: Mô hình hồi quy bội
2 r23
Cov ˆ 2 ; ˆ 3 n 2 n 2
.
1 r 2
23 x 2i x 3i
i 1 i 1
với yi Yi Y, x 2i X 2i X 2 , x 3i X 3i X 3 .
Ta thấy rằng 2 là phương sai của u i và 2 là chưa biết. Vì vậy ta thay 2 bằng ước
lượng không chênh lệch của nó là
n
û 2
i
RSS
ˆ 2 i 1
.
n 3 n 3
CHÚ Ý
2
n
X X X X x 2i x 3i
2
n i 1
2 3 2 3
r232
S S 2 2
2
n
2
x 2i x 3i
X2 X3
i 1 i 1
4.3. Phương sai và độ lệch chuẩn của các ước lượng bình phương tối thiểu
Ta đã thu được các ước lượng cho các hệ số hồi quy bằng phương pháp OLS. Để tìm
các ước lượng khoảng và tiến hành kiểm định các hệ số hồi quy, ta cần xác định
phương sai và độ lệch chuẩn của các ước lượng thu được trên đây.
Phương sai và độ lệch chuẩn của các ước lượng hệ số hồi quy theo phương pháp bình
phương tối thiểu được cho bởi các công thức
2
Var ˆ 2 n
; Se ˆ 2 Var ˆ 2 ;
x 1 r
i 1
2
2i
2
23
2
Var ˆ 3 n
; Se ˆ 3 Var ˆ 3 ,
x 3i2 1 r232
i 1
STA301_Bài 4_v1.0013101214 51
Bài 4: Mô hình hồi quy bội
j ( j 1, 2,..., k) là các hệ số hồi quy riêng, nó cho ta biết sự thay đổi của Y khi X j
thay đổi một đơn vị còn các X h h j bằng 0,
u i là các nhiễu ngẫu nhiên.
Phương trình (4.5) có thể được viết chi tiết dưới dạng hệ phương trình sau:
Y1 1 2 X 21 3 X 31 ... k X k1 u1
Y X X ... X u
2 1 2 22 3 32 k k2 2
(4.6)
...............................................................
Yn 1 2 X 2n 3 X 3n ... k X kn u n
Y1 1 X 21 X 31 ... X k1
Y2 1 X 22 X 32 ... X k 2
Đặt Y . ; X . . . ... .
. . . . ...
Y X kn
n 1 X 2n X 3n
u1 1
u2 2
u . ; .
. .
u
n n
khi đó hệ phương trình (4.6) có thể viết dưới dạng phương trình ma trận
Y X u (4.7)
E u i u i 2
52 STA301_Bài 4_v1.0013101214
Bài 4: Mô hình hồi quy bội
bội (4.7).
T
Ký hiệu ˆ ˆ 1 , ˆ 2 ,..., ˆ k là ước lượng của , khi đó ta có
phương trình hồi quy mẫu (SRF)
Yi ˆ 1 ˆ 2 X 2i ˆ 3 X 3i ... ˆ k X ki uˆ i i 1, n .
n
Ta cần tìm các hệ số ˆ 1 , ˆ 2 ,..., ˆ k sao cho tổng các phần dư û
i 1
2
i đạt giá trị
nhỏ nhất.
Kết quả của phương pháp giải tích cho thấy véc tơ ước lượng trên đây thỏa mãn
phương trình ma trận
trong đó X, Y tương ứng là các ma trận chuyển vị của X và Y . Từ giả thiết 4 dẫn
đến sự tồn tại ma trận nghịch đảo của XX và do đó
ˆ XX XY.
1
Biểu thức này được gọi là phương trình cơ bản của phương pháp OLS.
4.5. Các tính chất của ước lượng bình phương nhỏ nhất
Xét mô hình hồi quy bội
Yi 1 2 X 2i 3 X 3i ... k X ki u i .
Giống như mô hình hồi quy đơn, mô hình hồi quy bội này có
các tính chất sau:
Đường hồi quy bội đi qua điểm Y, X 2 , X 3 ,..., X k .
Ŷ Y .
n
u
i 1
i 0.
n
u i không tương quan với X pi , p 2,3,..., k , u X
i 1
i pi 0.
STA301_Bài 4_v1.0013101214 53
Bài 4: Mô hình hồi quy bội
n
Các u i không tương quan với Ŷi : u Yˆ 0 .
i 1
i i
̂i là các ước lượng tuyến tính không chệch và có phương sai nhỏ nhất cho các
i i 1, k .
4.6. Hệ số xác định bội R 2 và hệ số xác định hiệu chỉnh
Trong mô hình hồi quy tuyến tính đơn ta đã đưa ra hệ
số xác định
ESS RSS
r2 1 .
TSS TSS
Từ công thức trên ta thấy khi r 2 càng lớn thì tổng bình
phương sai số dự báo càng nhỏ, do đó mô hình hồi quy
càng phù hợp. Vì vậy hệ số r 2 còn được dùng để đo độ
phù hợp của mô hình. Tương tự cho mô hình hồi quy bội ta cũng xây dựng hệ số xác
ESS RSS
định ký hiệu là R 2 được xác định bởi công thức: R 2 1 .
TSS TSS
Dễ dàng chứng minh được rằng
ˆ XY nY 2
R2 . (4.9)
YY nY 2
Từ các công thức trên có thể thấy hệ số xác định R 2 có tính chất sau:
0 R 2 1.
Nếu R 2 1 khi đó đường hồi quy giải thích 100% sự thay đổi của Y bởi vì khi đó:
n
û
i 1
2
i 0.
Nếu R 2 0 khi đó mô hình không giải thích được sự thay đổi của Y.
Nếu số biến độc lập càng tăng thì hệ số R 2 càng lớn, hay nói cách khác R 2 là một
hàm tăng theo các biến giải thích.
Như vậy, tính phù hợp của mô hình hồi quy tăng lên
khi có nhiều biến giải thích trong mô hình hơn. Tuy
nhiên, người ta luôn muốn dùng một số lượng biến
giải thích vừa đủ sao cho vẫn có được mô hình phù
hợp mà không quá tốn kém khi phải thu thập thông
tin của quá nhiều biến giải thích. Hơn nữa, nhiều
khi đưa thêm một số biến độc lập vào mô hình thì
tác động riêng phần của các biến độc lập đó tới biến phụ thuộc lại không thực sự có ý
nghĩa thống kê. Vậy cần có tiêu chuẩn đánh giá sự phù hợp của mô hình, trong đó có
cân nhắc đến số lượng biến giải thích của mô hình. Một trong số các tiêu chuẩn như vậy
là hệ số xác định hiệu chỉnh R 2 của R 2 , cho bằng biểu thức
54 STA301_Bài 4_v1.0013101214
Bài 4: Mô hình hồi quy bội
n
û 2
i /(n k)
R 1
2 i 1
n
.
y
i 1
2
i /(n 1)
(4.11)
H1 : R 0
2
STA301_Bài 4_v1.0013101214 55
Bài 4: Mô hình hồi quy bội
ˆ XY nY 2
Mặt khác: R 2 .
YY nY 2
R 2 / k 1
Do đó ta có: F .
(1 R 2 ) /(n k)
Vậy thống kê F cũng là tiêu chuẩn thống kê cho bài toán kiểm định (4.11).
Ví dụ 1
Một công ty muốn mở rộng thị trường kinh doanh tại
một thành phố. Trước khi quyết định mở chi nhánh tại
thành phố đó, công ty đã tiến hành nghiên cứu thị
trường bằng cách tiến hành quảng cáo và chào bán sản
phẩm của mình từ đó xem xét khả năng tiêu thụ sản
phẩm. Thu thập số liệu trong 10 tuần về số sản phẩm
bán được trong một tuần, giá sản phẩm X 2 và chi phí
cho quảng cáo X 3 ta có bảng số liệu sau:
Giá sản phẩm Cho phí quảng cáo Số sản phẩm bán ra/tuần
4.92 4.79 425
5.5 3.61 467
5.54 5.49 296
5.11 2.78 626
5.62 5.74 165
5.24 1.34 515
4.15 5.81 270
4.02 3.39 689
5.77 3.74 413
4.57 3.59 561
56 STA301_Bài 4_v1.0013101214
Bài 4: Mô hình hồi quy bội
Dựa vào kết quả báo cáo trong Evievs ta xây dựng được mô hình hồi quy tuyến tính 3
biến chỉ sự phụ thuộc của sản phẩm bán được Y với chi phí quảng cáo X 3 và giá thành sản
phẩm X 2 qua biểu thức
Ŷ ˆ 1 ˆ 2 X 2 ˆ 3 X 3
Đối với mô hình này, ta cần đặt ra câu hỏi: Với mức ý nghĩa 0.05 thì giá bán và
chi phí quảng cáo có ảnh hưởng đến số lượng sản phẩm bán ra hay không?
Để trả lời cho câu hỏi này, ta cần kiểm định bài toán:
H 0 : 2 3 0
H1 : 2 , 3 0
H 0 : R 2 0
H1 : R 0
2
Cả hai bài toán trên đều có thể giải quyết bằng cách sử dụng thống kê F . Ta có
Fqs 11.91675 . Với n = 10, k = 2, tra bảng phân phối Fisher hoặc dùng lệnh Excel ta
tìm được phân vị F0.05 2;7 4.77 . Rõ ràng Fqs F0.05 2;7 , vậy ta bác bỏ H 0 , kết
luận giá bán của sản phẩm và chi phí cho quảng cáo có ảnh hưởng đến số lượng sản
phẩm bán ra.
Hai bài toán kiểm định trên còn có thể giải quyết bằng cách so sánh xác suất ý nghĩa
tương ứng với mức ý nghĩa đã định. Kết quả của Eviews cho thấy xác suất ý nghĩa của
thống kê F (Prob(F-statistic)) có giá trị bằng 0.005575, nhỏ hơn 0.05, vậy có thể bác
bỏ giả thuyết H 0 .
STA301_Bài 4_v1.0013101214 57
Bài 4: Mô hình hồi quy bội
ˆ i i
Các thống kê t đều có phân phối student với (n – k) bậc tự do. Do vậy, với
Se ˆ i
ˆ 3 89.82406
Trong cột Std.Error ta có:
Se ˆ 1 258.4298 , Se ˆ 2 47.91851 , Se ˆ 3 20.69356 .
Ta thấy n 10 , k 3 , 1 0.95 0.05 . Từ đó tra bảng hoặc sử dụng Excel
(dùng lệnh Tinv(0.05,7)), ta sẽ có t 0.025
7
2.365 . Thay các thông số tương ứng vào
(4.12), ta thu được các ước lượng khoảng của 2 và 3 lần lượt là:
110.2952 47.91851 2.365 2 110.2952 47.91851 2.365
223.622 2 3.032 .
89.82406 20.69365 2.365 3 89.82406 20.69365 2.365
138.765 3 40.8836 .
ˆ i *i
Với giả thuyết về sai số ngẫu nhiên u như trong phần 4.4 ta thấy thống kê t i
Se ˆ i
có phân phối Student với n – k bậc tự do. Dựa vào kết quả đó ta có thể giải quyết một
loạt bài toán kiểm định so sánh ước lượng của các hệ số trong mô hình hồi quy tuyến
tính bội như sau:
H 0 : i i
*
Bài toán 1:
H1 : i i
*
58 STA301_Bài 4_v1.0013101214
Bài 4: Mô hình hồi quy bội
H 0 : i i
*
Bài toán 2:
H1 : i i
*
k )
Miền bác bỏ: W (t (n
; ).
H 0 : i *i
Bài toán 3:
H1 : i i
*
Sử dụng phần mềm Eviews chúng ta có thể tính được ngay giá trị tiêu chuẩn của
thống kê t i và xác suất ý nghĩa p tương ứng, từ đó có thể giải quyết bài toán theo hai
cách sau:
Cách 1:
k )
Tìm phân vị t (n
/2 và miền bác bỏ W rồi so sánh tiêu chuẩn thống kê t i với W để
đưa ra kết luận.
Cách 2:
So sánh xác suất ý nghĩa p với mức ý nghĩa đã định trước như sau:
o Đối với Bài toán 1, nếu p thì bác bỏ giả thuyết H 0 , còn nếu p thì
chấp nhận H 0 .
o Đối với các Bài toán 2 và 3, nếu p / 2 thì bác bỏ giả thuyết H 0 , còn nếu
p / 2 thì chấp nhận H 0 .
Ví dụ 3: Xét số liệu trong ví dụ 1, với mức ý nghĩa 0.05 có thể cho rằng khi giá
sản phẩm tăng thì doanh số bán hàng sẽ giảm không?
Ta có phương trình hồi quy:
Y 0 2 X 2 3 X 3 u .
Nếu 2 âm thì Y phụ thuộc nghịch biến với X 2 , tức là X 2 tăng thì Y giảm. Vậy để
trả lời cho câu hỏi trên ta cần lập bài toán kiểm định giả thuyết
H 0 : 2 0
H1 : 2 0
Với kết quả của Eviews đưa ra ở phần trên, ta có:
ˆ 2 110.2952
t2 2.30172 .
se(ˆ 2 ) 47.91851
k )
t 0.05 1.895 .
7
Mặt khác, với n 10, k 3, 0.05 , ta có t (n
STA301_Bài 4_v1.0013101214 59
Bài 4: Mô hình hồi quy bội
Nếu giải quyết theo Cách 2 thì ta có xác suất ý nghĩa p bằng 0.0549, vậy
p / 2 0.0549 / 2 0.05 .
Do đó có thể bác bỏ giả thuyết H 0 .
60 STA301_Bài 4_v1.0013101214
Bài 4: Mô hình hồi quy bội
hoặc Yi 1 2 X 2i 3 X 3i u i
û 2
i
RSS
ˆ 2 i 1
.
nk nk
Hệ số xác định bội R2 và hệ số xác định bội đã hiệu chỉnh.
Để đo độ phù hợp của hàm hồi quy, dùng R2. Giá trị của R2 cho biết bao nhiêu % sự biến
thiên của biến phụ thuộc được giải thích bởi đồng thời các biến độc lập hoặc được giải thích
bởi hàm hồi quy mẫu
ERR RSS
R2 1 .
TSS nk
Vì khi đưa thêm biến độc lập vào mô hình, R2 luôn luôn tăng lên nên người ta sử dụng hệ số
xác định bội đã điều chỉnh để xem xét việc có nên đưa thêm biến mới vào mô hình hay không:
n 1
R 2 1 1 R 2
nk
R2 R2 0 R2 1
Hệ số R 2 có thể âm.
Khoảng tin cậy với độ tin cậy 1 cho hệ số βi là:
ˆ i Se ˆ t i ˆ i Se ˆ t i 1, k .
n k
2
n k
Khoảng tin cậy này cho biết khi Xi tăng hoặc giảm 1 đơn vị thì trung bình của biến phụ thuộc
sẽ thay đổi trong khoảng nào.
Kiểm định về sự phù hợp của mô hình hồi quy
ˆ
Tiêu chuẩn kiểm định: t i i i
Se ˆ i
STA301_Bài 4_v1.0013101214 61
Bài 4: Mô hình hồi quy bội
H 0 : i i
*
Bài toán 1:
H1 : i i
*
Miền bác bỏ: W= ; t n k t n k ; .
2 2
H 0 : i *i
Bài toán 2:
H1 : i i
*
Miền bác bỏ: W= t n k ; .
H 0 : i *i
Bài toán 3:
H1 : i i
*
Miền bác bỏ: W= ; t n k .
62 STA301_Bài 4_v1.0013101214
Bài 4: Mô hình hồi quy bội
1. Trong mô hình hồi quy bội, các giả thiết của phương pháp OLS có khác gì so với mô hình
hồi quy đơn?
2. Vai trò của các hệ số hồi quy trong mô hình hồi quy bội khác thế nào so với mô hình hồi quy đơn?
3. Hệ số xác định bội trong mô hình hồi quy bội cho biết điều gì?
4. Tại sao lại cần đưa ra khái niệm hệ số xác định bội đã điều chỉnh trong hàm hồi quy bội?
5. Khi nào thi nên đưa thêm biến độc lập mới vào mô hình nếu sử dụng hệ số xác định bội đã
điều chỉnh?
6. Khi nào thi ta cần xây dựng khoảng tin cậy cho các hệ số hồi quy?
7. Khi nào thì dùng khoảng tin cậy đối xứng, bên phải hoặc bên trái?
8. Kiểm định giả thiết về một hệ số hồi quy bằng 0 có ý nghĩa gì, kiểm định hệ số hồi quy bằng
một giá trị cụ thể có ý nghĩa gì?
9. Kiểm định F về sự phù hợp của mô hình hồi quy có ý nghĩa gì?
1. Cho mô hình hồi quy Ŷ = 10 – 3X1 + 2.5X2. Điều khẳng định nào sau đây đúng?
A. X2 quan trọng hơn X1 vì dấu của hệ số là dương.
B. Khi X1 giảm 3 đơn vị, Y giảm 1 đơn vị.
C. Khi X2 giảm 2.5 đơn vị, Y giảm 1 đơn vị.
D. Khi X1 giảm 1 đơn vị, Y tăng 3 đơn vị.
2. Hệ số xác định bội đã điều chỉnh liên quan tới điều chỉnh R2 qua:
A. Tổng số tham số trong mô hình hồi quy.
B. Số biến phụ thuộc trong mô hình và kích thước mẫu.
C. Số biến độc lập trong mô hình và kích thước mẫu.
D. Hệ số tương quan và mức ý nghĩa.
3. Để kiểm định sự phù hợp của hàm hồi quy một mô hình gồm 5 biến độc lập và có 30 quan
sát, bậc tự do trong giá trị phân vị F là:
A. 5 và 30 B. 6 và 29
C. 5 và 24 D. 6 và 25
4. Mô hình hồi quy có dạng Ŷ 8 3X1 5X 2 4X 3 . Khi X3 tăng 1 đơn vị, với X1 và X2 giữ
không đổi, Y sẽ:
A. Tăng 1 đơn vị. B. Tăng 12 đơn vị.
C. Giảm 4 đơn vị. D. Giảm 16 đơn vị.
STA301_Bài 4_v1.0013101214 63
Bài 4: Mô hình hồi quy bội
5. Từ mô hình hồi quy với 3 biến độc lập và có 25 quan sát, tính được R2 = 0.769. Giá trị của
hệ số xác định bội đã hiệu chỉnh là:
A. 0.385 B. 0.877
C. 0.591 D. 0.736
6. Một mô hình hồi quy bội thì có:
A. Chỉ duy nhất 1 biến độc lập. B. Chỉ duy nhất 2 biến độc lập.
C. Nhiều hơn 1 biến độc lập. D. Nhiều hơn 1 biến phụ thuộc.
7. Cho mô hình hồi quy: Ŷ 2 3X1 4X 2 5X 3 , 1 đơn vị tăng của X1, X2 và X3 giữ không
đổi, sẽ dẫn đến:
A. Tăng 3 đơn vị của Y. B. Giảm 3 đơn vị của Y.
C. Đơn vị 8 đơn vị của Y. D. Không có lựa chọn nào ở trên.
8. Để kiểm định sự phù hợp của mô hình hồi quy có 4 biến độc lập, giả thuyết H0 là:
A. H 0 : 2 3 4 5 1. B. H 0 : 1 2 3 4 5 .
C. H 0 : 2 3 4 5 0. D. H 0 : 1 2 3 4 5 0.
9. Trong mô hình hồi quy bội, giá trị của hệ số R2 nằm trong khoảng:
A. 1 và +1. B. 0 và +1.
C. 1 và 0. D. không có lựa chọn nào ở trên.
10. Để kiểm định về sự phù hợp của mô hình hồi quy bội, ta kiểm định sự bằng không của tất cả
các hệ số hồi quy bằng kiểm định:
A. Kiểm định t. B. Kiểm định z.
C. Kiểm định F. D. Không có lựa chọn nào ở trên.
64 STA301_Bài 4_v1.0013101214
Bài 5: Đa cộng tuyến
Mục tiêu
• Khắc phục ĐCT. • Tập trung vào phần khái niệm, các
biện pháp phát hiện và khắc phục.
Thời lượng
• 6 tiết
65
Bài 5: Đa cộng tuyến
Tình huống
Các nhà quản lí siêu thị BigC, muốn xem xét việc giảm giá mặt
hàng thịt gà để kích thích tiêu dùng. Để thực hiện điều này, các
nghiên cứu viên muốn dùng phương pháp Kinh tế lượng trong
đó biến phụ thuộc được chọn chính là tiêu dùng của mặt hàng
thịt gà của dân chúng, các biến độc lập sẽ là thu nhập của người
tiêu dùng, giá của thịt gà và giá của thịt lợn là mặt hàng cạnh
tranh với thịt gà tại các thời điểm quan sát.
Vấn đề đặt ra trong nghiên cứu là chọn các biến độc lập vào trong mô hình. Vì lạm phát là tình
trạng chung của cả nền kinh tế nên các mặt hàng thường có tình trạng cùng tăng giá hoặc cùng
giảm giá, nhất là những mặt hàng thiết yếu như thịt gà và thịt lợn. Nếu như các nhà nghiên cứu
chọn cả giá thịt gà và giá thịt lợn làm biến độc lập trong mô hình, chúng sẽ có quan hệ cùng
tăng hoặc cùng giảm. Vì thế khi tiến hành phân tích bằng mô hình kinh tế lượng, sẽ khó để
phân tách ảnh hưởng của từng biến này lên tiêu dùng về thị gà hoặc sẽ gây ra các hậu quả về
mặt kỹ thuật trong quá trình phân tích.
Câu hỏi
• Vậy trong tình huống như thế này thì các nhà nghiên cứu cần có biện pháp gì?
• Trong bài học sau đây, học viên sẽ được xem xét một khuyết tật của mô hình kinh tế lượng
trong tình huống nêu trên, đó là đa cộng tuyến. Làm thế nào để phát hiện và khắc phục hiện
tượng này khi xem xét một mô hình với nhiều biến độc lập?
66
Bài 5: Đa cộng tuyến
Trong bài trước chúng ta xét mô hình hồi quy bội với giả thiết
các biến giải thích X i độc lập tuyến tính với nhau. Tiếp theo đây
chúng ta sẽ xét bài toán hồi quy bội khi giả thiết về tính độc lập
tuyến tính đó bị phá vỡ và sẽ đưa ra cách thức phát hiện và biện
pháp khắc phục hiện tượng giả thiết đó bị vi phạm.
Trong mô hình hồi quy ở bài trước thì các hệ số hồi quy đối với
một biến cụ thể là số đo tác động riêng phần của biến tương ứng
khi tất cả các biến khác trong mô hình được giữ cố định. Nếu tính
độc lập bị phá vỡ, tức là các biến giải thích có tương quan thì chúng ta không thể chỉ cho một
biến thay đổi và giữ các biến còn lại cố định. Do vậy chúng ta không thể tách biệt sự ảnh hưởng
riêng phần của một biến nào đó.
67
Bài 5: Đa cộng tuyến
(
Yi = βˆ 1 + βˆ 2 X 2i + βˆ 3 X 3i + u i , i = 1, n . ) (5.4)
Đặt: yi = Yi − Y, x 2i = X 2i − X 2 , x 3i = X 3i − X 3 , ta có
yi = βˆ 2 x 2i + βˆ 3 x 3i + u i (5.5)
∑ yi x 2i ∑ x 3i2 − ∑ yi x 3i ∑ x 2i x 3i
βˆ 2 = i =1 i =1 i =1 i =1
2
(5.6)
n
⎛ n
⎞ n
∑
i =1
x ∑ x − ⎜ ∑ x 2i x 3i ⎟
2
2i
i =1 ⎝ i =1
2
3i
⎠
n n n n
∑ yi x 3i ∑ x 22i − ∑ yi x 2i ∑ x 2i x 3i
βˆ 3 = i =1 i =1 i =1 i =1
2
(5.7)
n n
⎛ n
⎞
∑
i =1
x 22i ∑ x 3i2 − ⎜ ∑ x 2i x 3i ⎟
i =1 ⎝ i =1 ⎠
Nếu có hiện tượng đa cộng tuyến hoàn hảo thì ta có:
X 3i = λX 2i ⇒ x 3i = λx 2i .
Thay vào biểu thức (5.6) và (5.7), ta có:
0
βˆ 2 = βˆ 3 = (5.8)
0
Rõ ràng (5.8) là không xác định.Vậy trường hợp đa cộng tuyến hoàn hảo chúng ta
không ước lượng được các hệ số hồi quy riêng βˆ , βˆ cho mô hình (5.4). 2 3
với u i là các nhiễu ngẫu nhiên không tương quan với các biến độc lập. Khi đó giữa
hai biến độc lập X 2 , X 3 có sự đa cộng tuyến không hoàn hảo, nghĩa là
X 3i = λX 2i + vi (5.10)
với λ ≠ 0 , vi là các nhiễu ngẫu nhiên không tương quan với X 2i và X 3i , tức là
n n
∑ X 2i vi = 0 ,
i =1
∑X
i =1
3i vi = 0.
68
Bài 5: Đa cộng tuyến
βˆ 2 = i =1 i =1 i =1
2
(5.12)
n
⎛ n n
⎞ ⎛ n
⎞
∑i =1
x 22i ⎜ λ 2 ∑ x 22i + ∑ vi2 ⎟ − ⎜ λ ∑ x 22i ⎟
⎝ i =1 i =1 ⎠ ⎝ i =1 ⎠
Tương tự ta cũng có biểu thức của β̂3 .
σ2
( )
Var βˆ 3 = n
(5.14)
∑ x (1 − r )
i =1
2
3i
2
23
đồng thời với độ tin cậy 95% ta có khoảng ước lượng cho β2 , β3 là :
( ( )
βi ∈ βˆ i − 1.96Se βˆ i ; βˆ i + 1.96Se βˆ i ( )) (5.15)
với ( ) ( )
Se βˆ i = Var βˆ i , ( i = 2,3) .
( )
• Phương sai Var βˆ 2 , Var βˆ 3 gần với ∞ ; ( )
• Khoảng ước lượng của β2 , β3 lớn, hay nói cách khác là khoảng ước lượng tiến tới
( −∞, +∞ ) . Vì vậy ước lượng hệ số trở lên khó có hiệu lực, tức là không có ý nghĩa,
vì khoảng ước lượng quá lớn.
Để kiểm định giả thuyết H 0 : βi = 0 , i = 2,3 , ta dùng các tiêu chuẩn thống kê
βˆ i
ti = , i = 2,3 .
se(βˆ i )
69
Bài 5: Đa cộng tuyến
Tuy nhiên, cả hai thống kê này đều tiến dần tới 0 do Se(βˆ i ) → ∞ , vì vậy khả năng
chấp nhận giả thuyết H 0 sẽ rất lớn. Điều này mâu thuẫn với thực tế vì rõ ràng mức
tiêu dùng nội địa phụ thuộc vào các nguồn thu X 2 , X 3 .
CHÚ Ý
Nếu trong mô hình có hiện tượng đa cộng tuyến thì mô hình hồi quy không giải thích được
mối quan hệ giữa các biến..
Năm Y X2 X3 X4
70
Bài 5: Đa cộng tuyến
Theo kết quả trong bảng trên ta có mô hình ước lượng được như sau:
Y = 7.304002 + 1.135052X 2 + 0.4053X 3 − 0.405888X 4 .
71
Bài 5: Đa cộng tuyến
Rõ ràng hệ số xác định của mô hình R 2 = 0.954028 là khá cao, trong khi đó các thống
kê t i của các hệ số hồi quy β3 và β4 có giá trị rất thấp, cụ thể là t 3 = 0.628347,
t 4 = −0.367274 với các xác suất ý nghĩa tương ứng bằng 0.5386 và 0.7182, do đó ta
phải chấp nhận các giả thuyết: H 0 : βi = 0 , i = 3, 4 .
Yi = β1Lβi 2 K βi 3 e ui (5.16)
trong đó Yi là lượng sản phẩm được sản xuất ở thời kỳ thứ i, Li là lượng lao động
ở thời kỳ thứ i, K i là nguồn vốn có được trong thời kỳ thứ i, U i là nhiễu ngẫu
nhiên, β1 , β2 , β3 là các hằng số cần ước lượng. Lấy lôgarit 2 vế của (5.16) ta có:
ln Yi = ln β1 + β2 ln ( Li ) + β3 ln ( K i ) + u i (5.17)
Đặt: Yi* = ln Yi ; L*i = ln ( Li ) ; K*i = ln ( K i ) , khi đó phương trình (5.16) chuyển thành
= ln β1 + β2 ( L*i − K*i ) + K *i + u i ,
72
Bài 5: Đa cộng tuyến
Yi** = ln β1 + β2 X**
i + ui (5.20)
Rõ ràng (5.20) là phương trình hồi quy đơn, do đó ta có thể ước lượng được các hệ
số ln β1 , β2 và từ đó tính được ước lượng của β3 .
• Loại bỏ biến đa cộng tuyến
Biện pháp bỏ biến trong mô hình đa cộng tuyến là biện pháp đơn giản nhất. Ta
thấy rằng hiện tượng đa cộng tuyến xảy ra khi biến độc lập nào đó có biểu diễn
tuyến tính hoặc gần tuyến tính qua các biến độc lập khác. Vì thế ta hãy loại biến đó
ra khỏi mô hình, nhưng vấn đề đặt ra là không chỉ có một biến biểu diễn tuyến tính
qua các biến khác mà có nhiều biến như vậy. Vì vậy ta cần dựa vào một số quy tắc
để quyết định bỏ biến nào trong số các biến độc lập của mô hình. Hai quy tắc
thường được áp dụng trước tiên khi gặp phải hiện tượng đa cộng tuyến là khảo sát
hệ số tương quan cặp giữa các biến độc lập và sử dụng các mô hình hồi quy phụ.
Cụ thể:
o Khi giữa hai biến độc lập nào đó có mối tương quan tuyến tính mạnh (hệ số
tương quan giữa hai biến có giá trị tuyệt đối rất gần 1), ta có thể dựa vào ý
nghĩa thực tế để cân nhắc loại bỏ một trong hai biến đó ra khỏi phương trình
hồi quy.
o Các mô hình hồi quy phụ với một biến độc lập nào đó được hồi quy theo các
biến độc lập còn lại có thể được sử dụng để xác định biến cần loại bỏ khỏi mô
hình. Nếu hệ số xác định của mô hình hồi quy phụ có giá trị lớn (trên 80%
chẳng hạn), ta có thể khẳng định biến được giải thích trong mô hình hồi quy
phụ được xấp xỉ tuyến tính qua các biến độc lập còn lại, do đó có thể bị loại ra
khỏi danh sách các biến độc lập của mô hình hồi quy chính.
• Sử dụng sai phân cấp 1
Khi số liệu có cấu trúc chuỗi thời gian, ta có thể sử dụng phương pháp sai phân để
giảm bớt tính đa cộng tuyến trong số liệu, chẳng hạn xét mô hình hồi quy 3 biến
Yt = β1 + β2 X 2t + β3 X 3t + u t (5.21)
trong đó t là chỉ số quan sát theo các thời điểm cách đều nhau. Giả sử giữa hai biến
độc lập X 2t và X 3t có hiện tượng cộng tuyến. Để giảm tính đa cộng tuyến ta có
thể sử dụng phương pháp sai phân như sau: Phương trình (5.13) cũng đúng với giai
đoạn t-1, tức là:
Yt −1 = β1 + β2 X 2t −1 + β3 X 3t −1 + u t −1 (5.22)
Đặt:
ΔYt = Yt − Yt −1 ;
ΔX 2t = X 2t − X 2t −1 ;
73
Bài 5: Đa cộng tuyến
ΔX 3t = X 3t − X 3t −1 ;
ΔU t = u t − u t −1 .
X3 810 1009 1273 1425 1633 1876 2052 2201 2435 2686
Dùng thủ tục hồi quy của Eviews ta thu được phương trình hồi quy
Yi = 24.7747 + 0.941537X 2i − 0.042435X 3i (5.24)
với các sai sô tiêu chuẩn
( )
Se βˆ 1 = 6.7525;
( )
Se βˆ 2 = 0.822898;
( )
Se βˆ 3 = 0.808664 .
R 2 = 0.963504, R 2 = 0.953077.
Ta thấy rằng hệ số xác định R 2 của mô hình rất gần 1, trong khi đó thống kê t3 lại có
giá trị rất gần 0, tương ứng với xác suất ý nghĩa khá lớn. Vậy hiện tượng đa cộng
tuyến xảy ra trong mô hình này.
74
Bài 5: Đa cộng tuyến
Để tìm cách khắc phục hiện tượng đa cộng tuyến, ta xét mô hình hồi quy phụ của X 2
theo X 3 , chạy thủ tục của Eviews thu được kết quả:
X 2 = −0.368271 + 0.09792X 3 + u
t 2 = 62.04047 , R 22 = 0.997926 .
Vậy ta thấy tương quan của X 2 và X 3 khá lớn. Điều này một mặt khẳng định một lần
nữa sự có mặt của hiện tượng đa cộng tuyến, mặt khác cũng gợi ý việc loại bỏ bớt
biến độc lập ra khỏi mô hình là một giải pháp xử lý hiện tượng đa cộng tuyến.
Ta xét mô hình hồi quy sau khi lần lượt loại các biến độc lập X 2 , X 3 ra khỏi mô hình:
• Khi loại X 2 ta có
75
Bài 5: Đa cộng tuyến
Yi = 24.41104 + 0.049764X 3i
( )
Se βˆ 1 = 6.874097, t1 = 3.551164
Se ( βˆ ) = 0.003744, t
3 3 = 13.29166
• Loại X 3 , ta có:
Yi = 24.45455 + 0.509091X 2i
( )
Se βˆ 1 = 6.413817, t1 = 3.812791
Se ( βˆ ) = 0.035743, t
2 2 = 14.24317
R 22 = 0.962062, R 22 = 0.957319 .
76
Bài 5: Đa cộng tuyến
Các biến độc lập có quan hệ cộng tuyến (ví dụ có quan hệ bậc nhất với nhau thì) mô hình có
hiện tượng đa cộng tuyến (multicollinearity).
• Phân biệt ĐCT hoàn hảo và không hoàn hảo
Xét mô hình: Y = β1 + β2 X 2 + β3 X 3 + u.
Đa cộng tuyến hoàn hảo: nếu X 2 = λX 3 .
Đa cộng tuyến không hoàn hảo: nếu X 2 = λX 3 + v.
• Hậu quả của ĐCT
Ước lượng OLS khi có hiện tượng đa cộng tuyến cao:
Vẫn là ước lượng tuyến tính không chệch tốt nhất trong lớp các ước lượng tuyến tính không
chệch.Tuy nhiên nó không tốt, như sau:
o Phương sai của các ước lượng lớn => Độ chính xác thấp.
o Khoảng tin cậy thường rộng.
2
o Tỷ số t thường nhỏ => Các hệ số không có ý nghĩa nhưng R vẫn lớn.
o Dấu hệ số ước lượng có thể sai.
77
Bài 5: Đa cộng tuyến
78
Bài 6: Phương sai số thay đổi
Mục tiêu
PSSS thay đổi là gì? Cần nắm được bản chất của hiện
Hậu quả của PSSS thay đổi. tượng, đó là khi giả thiết của phương
Phát hiện PSSS thay đổi. pháp OLS không thỏa mãn.
Khắc phục PSSS thay đổi. Tập trung vào hậu quả chính của hiện
tượng này đó là làm cho các ước
lượng OLS sẽ là các ước lượng không
hiệu quả.
Hiểu rõ ý tưởng của các phương pháp
phát hiện ra hiện tượng.
Hiểu rõ ý tưởng của các phương pháp
khắc phục hiện tượng.
STA301_Bài 6_v1.0013101214 79
Bài 6: Phương sai số thay đổi
Tình huống
Ngân hàng Đầu tư và phát triển Việt Nam BIDV nghiên cứu về tiết
kiệm phụ thuộc vào tiêu dùng của người dân Hà Nội và người dân Lai
Châu cũng như các tỉnh ở miền Bắc, xảy ra khả năng là sự phân tán
của tiết kiệm của người dân Lai Châu sẽ nhỏ hơn so với phân tán
trong tiết kiệm của người dân Hà Nội.
Khi nghiên cứu một vấn đề nào đó bằng phương pháp kinh tế lượng,
ta đều sử dụng một mô hình hồi quy. Và để ước lượng mô hình hồi
quy, ta thường dùng phương pháp OLS (bài học số 3). Tuy nhiên, để
thực hiện được phương pháp OLS thì về mặt kỹ thuật, một giả thiết
trong mô hình cần thỏa mãn. Đó là giả thiết về sự bằng nhau của các
nhiễu ngẫu nhiên. Về bản chất thì giả thiết này muốn ngụ ý rằng sự phân tán trong các quan
sát của biến phụ thuộc là như nhau.
Câu hỏi
Vấn đề đặt ra, khi Ngân hàng BIDV nghiên cứu vấn đề trên bằng phương pháp kinh tế lượng
thì hậu quả sự phân tán tiết kiệm của người dân Hà Nội và Lai Châu khác nhau như vậy là gì?
80 STA301_Bài 6_v1.0013101214
Bài 6: Phương sai số thay đổi
Trong các bài trước chúng ta đã dùng phương pháp bình phương bé nhất để ước lượng các hệ số
của mô hình hồi quy. Để phương pháp đó có hiệu quả, ta phải xét mô hình hồi quy dưới một số
giả thiết, trong đó có một giả thiết rất quan trọng là các nhiễu ngẫu nhiên u i có phương sai không
đổi. Một câu hỏi đặt ra là nếu giả thiết này bị vi phạm thì hậu quả sẽ thế nào? Đồng thời, làm thế
nào để phát hiện hiện tượng giả thiết đó bị vi phạm và khắc phục hiện tượng đó bằng cách nào?
Bài này xem xét các vấn đề nêu trên.
6.1. Nguyên nhân của hiện tượng phương sai sai số thay đổi
BÀI TOÁN
Thông thường mô hình hồi quy tuyến tính
Yi 1 2 X 2i 3 X 3i ... k X ki u i (6.1)
được nghiên cứu với giả thiết các nhiễu ngẫu nhiên u i có
phương sai không đổi,
Var u i E u i2 2 , i 1, n (6.2)
Vậy khi điều kiện (6.2), tức là các u i có phương sai thay đổi,
Var u i Var u j i j
Có nhiều nguyên nhân làm phương sai của các sai số u i khác nhau, có thể kể đến một
số nguyên nhân như sau:
Trong số liệu có hiệu ứng "học tập", giống như thời gian luyện tập sẽ giúp thành
tích thi đấu của vận động viên ngày càng ổn định, tức là phương sai của sai số sẽ
giảm dần.
Số liệu bị ảnh hưởng của hiện tượng "mỏi" hoặc "lão hóa". Chẳng hạn như vào đầu
ca làm việc, công nhân sẽ tỉnh táo hơn và ít sai sót hơn so với các thời điểm sau;
máy móc mới sẽ cho ra các sản phẩm đồng đều hơn so với thời gian sau đó, khi
dần dần các chi tiết máy bị mòn.
Quy mô của quan sát ảnh hưởng đến độ "tự do" của số liệu. Ví dụ khi tiến hành
điều tra về chi phí tiêu dùng và thu nhập của hộ gia đình, ta thấy những hộ gia đình
có thu nhập thấp thì việc chi tiêu của họ không mấy linh động, phần lớn thu nhập
của những hộ này sẽ tập trung vào các nhu cầu thiết yếu như thực phẩm, quần áo,
chỗ ở, đi lại. Như thế chi tiêu của nhóm có thu nhập thấp tương đối đồng đều,
không biến động nhiều. Trong khi đó đối với nhóm có thu nhập cao thì ngoài việc
chi cho những nhu cầu thiết yếu, họ còn có khả năng lựa chọn chi tiêu cho du lịch,
giải trí, hoặc đầu tư hay không vào các lĩnh vực bất động sản, chứng khoán, … Do
vậy biến động về chi tiêu của nhóm này sẽ lớn.
Định dạng mô hình sai, điều này xảy ra do có sự bỏ sót biến hoặc dạng hàm hồi
quy không được lựa chọn phù hợp.
STA301_Bài 6_v1.0013101214 81
Bài 6: Phương sai số thay đổi
Do tác động của các quan sát ngoại lai, là những quan sát có giá trị quá nhỏ hoặc
quá lớn so với những quan sát khác trong mẫu.
Kỹ thuật thu thập số liệu không đồng đều, cung cấp số liệu với chất lượng khác nhau.
6.3. Phát hiện hiện tượng phương sai sai số thay đổi
Sau đây chúng ta sẽ xem xét một số các phép kiểm định để phát hiện có hiện tượng
phương sai sai số thay đổi. Xét mô hình hồi quy bội
Yi 1 2 X 2i 3 X 3i ... k X ki u i (6.3)
với: E u i2 i2 i 1, n .
Để phát hiện hiện tượng phương sai sai số thay đổi, ta có thể sử dụng một trong ba mô
hình hồi quy phụ sau đây :
i2 1 2 Z2i 3 Z3i ... p Zpi ; (6.3a)
Các mô hình hồi quy phụ này chứa p hệ số chưa biết và Zp là các biến với những
giá trị đã biết (có thể một số Zp hoặc là tất các biến đó được thành lập từ các biến
độc lập X i của mô hình hồi quy (6.3)).
BÀI TOÁN
H 0 : 2 3 ... p 0
Bài toán kiểm định:
H1 : i 0
Nếu giả thuyết H 0 được chấp nhận thì có nghĩa là phương sai sai số trong mô hình (6.3)
không thay đổi, ngược lại là có hiện tượng phương sai thay đổi.
82 STA301_Bài 6_v1.0013101214
Bài 6: Phương sai số thay đổi
Bài toán kiểm định trên được thực hiện cho các mô hình hồi quy phụ nhằm đưa ra kết
luận về tính thuần nhất của phương sai sai số trong mô hình hồi quy chính, cung cấp
các phép kiểm định cụ thể bao gồm
Kiểm định Breusch-Pagan sử dụng mô hình (6.3a);
Kiểm định Glejser sử dụng mô hình (6.3b);
Kiểm định Harvey-Godfrey sử dụng mô hình (6.3c).
Ngoài ra, còn có thể kể tới kiểm định Park như
một trường hợp đặc biệt của kiểm định Harvey-
Godfrey.
Trong các phép kiểm định trên, dữ liệu của i2
được ước lượng từ (6.3) bằng phương pháp OLS,
sau đó ta lấy û i2 thay cho i2 , û i thay cho i và
ln uˆ i2 thay cho ln i2 . Các bước tiến hành như sau:
Bước 1: Dùng phương pháp OLS để ước lượng các hệ số ̂i trong phương trình hồi
quy (6.3).
Bước 2: Tính các phần dư:
û i Yi 1 2 X 2i ... k X ki .
Bước 3a: Bình phương các phần dư û i để gán vào i2 rồi ước lượng các hệ số ̂i của
mô hình hồi quy phụ (6.3a) bằng phương pháp OLS.
Bước 3b: Tính giá trị tuyệt đối û i của các phần dư để gán vào vị trí của i trong mô
hình hồi quy phụ (6.3b) và thực hiện phương pháp OLS để tìm các ước lượng ̂i .
Bước 3c: Lấy ln uˆ i2 thế vào vị trí của ln i2 trong mô hình hồi quy phụ (6.3c) và
ước lượng bằng phương pháp OLS để tìm ̂i .
Bước 4: Tính giá trị tiêu chuẩn thống kê 2 nR 2 với n là số quan sát (cỡ mẫu), R 2
là hệ số xác định.
Bước 5: Tính xác suất ý nghĩa P P 2p 1 2 , trong đó 2p 1 là biến ngẫu nhiên có
phân phối khi-bình phương với p-1 bậc tự do.
Bước 6: Với mức ý nghĩa đã định (thường được cho bằng 5%), nếu p thì
bác bỏ giả thuyết H 0 và kết luận có sự biến động của phương sai sai số, nếu ngược lại
thì chấp nhận giả thuyết và khẳng định tính thuần nhất của phương sai sai số trong
mô hình hồi quy.
Chú ý: Có thể thay thế việc tính xác suất ý nghĩa P của bước 5 bằng việc tra bảng phân
phối khi-bình phương với p-1 bậc tự do để tìm giá trị tới hạn 2p 1 () . Tiếp đó so sánh
giá trị của tiêu chuẩn thống kê 2 với giá trị tới hạn 2p 1 tìm được, nếu 2 2p 1 ()
thì bác bỏ giả thuyết H 0 .
Ngoài các phương pháp kiểm định trên còn có các phương pháp kiểm định White và
kiểm định F cũng được dùng để kiểm định tính thuần nhất của các phương sai sai số
trong các mô hình hồi quy tuyến tính. Cụ thể,
STA301_Bài 6_v1.0013101214 83
Bài 6: Phương sai số thay đổi
Yi 1 2 X 2i 3 X 3i u i (6.4)
Phép kiểm định White được tiến hành theo các bước sau:
Bước 1: Ước lượng mô hình (6.4) bằng phương pháp OLS để tìm được các
phần dư û i .
Bước 2: Ước lượng mô hình (6.5) với i2 được thay bằng û i2 .
Bước 3: Tính giá trị thống kê 2 nR 2 của mô hình (6.5) và xác định giá trị
tới hạn 2 (5) .
Bước 4: So sánh giá trị thống kê với giá trị tới hạn, nếu 2 2 5 thì bác bỏ giả
thuyết H 0 : 1 2 ... 6 0 , ngược lại thì chấp nhận giả thuyết đó.
Việc chấp nhận giả thuyết trên đồng nghĩa với việc khẳng định trong mô hình hồi
quy (6.4) không có hiện tượng phương sai sai số thay đổi, nếu ngược lại thì ta phải
kết luận giả thuyết phương sai sai số thuần nhất bị vi phạm.
Kiểm định F
Ta sử dụng mô hình hồi quy phụ
i2 1 2 E Yi
2
(6.6)
trong đó i2 , E Yi chưa biết và được thay bằng các ước lượng û i2 , Y
ˆ 2 có được từ hồi
i
quy gốc (6.6). Trong mô hình hồi quy này, xét thống kê
2
ˆ 2
F
Se ˆ 2
84 STA301_Bài 6_v1.0013101214
Bài 6: Phương sai số thay đổi
Ta thực hiện hồi quy D88 theo Y88 ta được kết quả từ hồi quy này ta tính được giá
trị các phần dư û i và được ký hiệu là U88 . Kết quả của mô hình hồi này được cho
trong bảng sau:
Để kiểm tra xem trong mô hình trên, có hiện tượng phương sai sai số thay đổi hay
không, ta lần lượt tiến hành các phép kiểm định khác nhau như sau:
Kiểm định Glejser. Thực hiện hồi quy U88 theo Y88 (ở đây chọn Z là Y88 )
U88 1 2 Y88 .
STA301_Bài 6_v1.0013101214 85
Bài 6: Phương sai số thay đổi
Với mô hình hồi quy phụ ước lượng được trong bảng trên, ta xét bài toán kiểm định
H 0 : 2 0
H1 : 2 0
Kết quả trong bảng cho thấy t 2 5.698195 tương ứng với xác suất ý nghĩa rất nhỏ
(Prob=0.000). Vậy với mức ý nghĩa 5% ta có thể bác bỏ giả thuyết H 0 , kết luận có
sự thay đổi của phương sai sai số.
Kiểm định Breusch – Pagan :Thực hiện hồi quy của biến U88
2
theo Y88
2
U88 1 2 Y88
H : 0
Áp dụng bài toán kiểm định 0 2
H1 : 2 0
86 STA301_Bài 6_v1.0013101214
Bài 6: Phương sai số thay đổi
với Ŷ88 là giá trị ước lượng được khi thực hiện hồi quy D88 theo Y88 . Ký hiệu Ŷ88
là Y88f , sử dụng phần mềm Eviews để ước lượng mô hình trên, ta có
STA301_Bài 6_v1.0013101214 87
Bài 6: Phương sai số thay đổi
6.4. Biện pháp khắc phục hiện tượng không thuần nhất của phương sai sai số
Mô hình hồi quy có hiện tượng phương sai sai số thay đổi có thể gây ra những hậu quả
như đã trình bày ở phần trước. Nó phá hủy tính không chệch, tính vững của các ước
lượng. Vì vậy cần phải có biện pháp khắc phục hiện tượng đó.
Ta xét hai trường hợp:
Đã biết phương sai i2 của các sai số;
Chưa biết phương sai i2 của các sai số.
Trường hợp 1 : Đối với trường hợp i2 đã biết thì
để giải quyết vấn đề, ta có thể dùng phương pháp
hồi quy có trọng số như sẽ trình bày tiếp sau đây.
Để đơn giản ta xét mô hình hồi quy hai biến
Yi 1 2 X 2i u i (6.7)
Yi ˆ 1 ˆ 2 X 2i uˆ i
Giả sử các độ lệch tiêu chuẩn của sai số i 0 đã biết. Đặt biến hằng số X1i 1 , lúc
đó (6.7) được đưa về dạng
Yi 1X1i 2 X 2i u i (6.8)
Yi X X u
1 1i 2 2i i .
i i i i
Đặt
Yi * X1i * X 2i * u i
Yi* ; X1i ; X 2i ; ui .
i i i i
88 STA301_Bài 6_v1.0013101214
Bài 6: Phương sai số thay đổi
1 2 1
i ) E(
E(u *2 u ) 2 E(u i 2 ) 1 .
2 i
i i
Vậy mô hình hồi quy (6.9) có phương sai của sai số u*i không đổi. Khi đó áp dụng
phương pháp OLS thông thường, ta thu được các ước lượng ˆ 1* , ˆ 2* của 1 , 2 trong
(6.9) cũng là các ước lượng của mô hình (6.7).
Trường hợp 2: Khi chưa biết phương sai sai số i2 , ta sẽ lần lượt xét các trường hợp
riêng như sau:
Nếu phương sai sai số tỷ lệ với bình phương biến giải thích X, tức là
E(u i2 ) 2 X i2
Mô hình này có phương sai sai số vi không đổi và ta có thể dùng phương pháp
OLS thông thường để ước lượng các hệ số 1 , 2 của mô hình.
Nếu phương sai sai số tỷ lệ với bình phương của kỳ vọng Y, tức là
E(u i2 ) 2 (E(Yi )) 2
Mô hình này lại trở thành mô hình có phương sai sai số vi không đổi.
Nếu dạng hàm là sai thì định dạng lại mô hình.
Người ta thường định dạng lại mô hình bắt đầu
bằng cách dùng mô hình lôgarit.
Chẳng hạn, trước tiên người ta dùng mô hình log
tuyến tính
Yi 1 2 ln X i u i .
STA301_Bài 6_v1.0013101214 89
Bài 6: Phương sai số thay đổi
o Kiểm định: 2
Nếu qs
2
2 5 : bác bỏ giả thuyết H0.
• Các biện pháp khắc phục PSSS thay đổi
90 STA301_Bài 6_v1.0013101214
Bài 6: Phương sai số thay đổi
1. Phương sai của sai số thay đổi có thực sự là một khuyết tật nghiêm trọng trong phân tích hồi quy?
2. Hậu quả của PSSS thay đổi khác thế nào so với hậu quả của đa cộng tuyến?
3. Nếu như không biết được các nhiễu ngẫu nhiên thì làm thế nào để có thể nhận định về hiện
tượng PSSS thay đổi trong mô hình?
4. Ý tưởng của phương pháp dùng đồ thị phần dư để phát hiện PSSS thay đổi trong mô hình là gì?
5. Ý tưởng của các phương pháp dùng kiểm định phát hiện ra PSSS thay đổi là gì?
6. Có nên áp dụng tất cả các phương pháp kiểm định để phát hiện PSSS thay đổi hay không?
7. Trong các phần mềm có sẵn các kiểm định phát hiện PSSS thay đổi hay không?
8. Ý tưởng của các phương pháp khắc phục PSSS thay đổi là gì?
1. Khi phương sai của các nhiễu ngẫu nhiên không bằng nhau, hiện tượng này gọi là:
A. Phương sai của sai số thay đổi. B. Phương sai của sai số không đổi.
C. Đa cộng tuyến. D. Tự tương quan.
2. Có thể luôn luôn chứng tỏ được rằng không có PSSS thay đổi trong mô hình hồi quy:
A. Đúng.
B. Sai.
3. Phương sai của sai số thay đổi chỉ xảy ra với số liệu theo chuỗi thời gian:
A. Đúng.
B. Sai.
4. Trong kiểm định Glejser phát hiện PSSS thay đổi, giá trị nào sẽ được sử dụng cho biến phụ
thuộc trong mô hình hồi quy phụ:
A. Sai số tiêu chuẩn của hàm hồi quy.
B. Bình phương của phần dư.
C. Phần dư.
D. Giá trị tuyệt đối của các phần dư.
5. Trong kiểm định White phát hiện PSSS thay đổi, nếu mô hình ban đầu có 2 biến độc lập thì
trong mô hình hồi quy phụ có bao nhiêu biến độc lập (không có tích chéo).
A. 2 B. 3
C. 4 D. 5
6. Khi mô hình có PSSS thay đổi, ta luôn có thể khắc phục nó bằng cách sử dụng lôgarit của
các biến trong mô hình.
A. Đúng.
B. Sai.
STA301_Bài 6_v1.0013101214 91
Bài 6: Phương sai số thay đổi
7. Nếu trong kiểm định White để phát hiện PSSS thay đổi, tính được thống kê khi bình phương
là 1.624 với p-value tương ứng là 0.444, sử dụng mức ý nghĩa 0.05. Vậy kết luận là:
A. Có PSSS thay đổi.
B. Không có PSSS thay đổi.
C. Không có kết luận với những thông tin ở trên.
8. Nếu trong mô hình có phương sai của sai số thay đổi, nó làm cho:
A. Phương sai của các ước lượng OLS không phải là nhỏ nhất.
B. Các ước lượng OLS không phải là tuyến tính.
C. Không ảnh hưởng gì đến các ước lượng OLS.
D. Không ước lượng được các tham số bằng phương pháp OLS.
9. Phương pháp dùng đồ thị để phát hiện ra PSSS thay đổi là:
A. Vẽ đồ thị của X lần lượt theo từng biến độc lập.
B. Vẽ đồ thị của phần dư với lần lượt các biến độc lập.
C. Vẽ đồ thị của bình phương các phần dư với lần lượt các biến độc lập.
D. B hoặc C.
92 STA301_Bài 6_v1.0013101214
Bài 7: Lựa chọn mô hình hồi quy
Mục tiêu
Tiêu chuẩn cho một mô hình tốt. Ôn lại các bài học trước để hiểu được
Các loại sai lầm định dạng của mô hình. các loại mô hình hồi quy.
Hậu quả nếu một mô hình định dạng sai. Tập trung phân biệt các hậu quả xảy
Các kiểm định phát hiện sai lầm định dạng. ra khi có một loại sai lầm định dạng
nào đó.
Các loại mô hình với biến giả.
Tập trung vào các phương pháp kiểm
định để phát hiện các sai lầm định dạng.
Tập trung hiểu rõ bản chất của việc
đưa biến giả vào mô hình và các loại
mô hình có biến giả.
Xem xét kỹ các ví dụ trong giáo trình
và bài giảng.
STA301_Bài 7_v1.0013101214 93
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
Tình huống
Tình huống 1: Trong tình huống của bài học số 4, chúng ta đã sử dụng
mô hình dưới dạng lôgarit của các biến. Một nhà nghiên cứu khác lại đề
xuất sử dụng dạng tuyến tính của các biến (là dạng ban đầu). Vậy dạng
mô hình nào tốt hơn để phân tích trong tình huống này?
Tình huống 2: Một nhà nghiên cứu về bình đẳng giới muốn xem
xét việc liệu thu nhập của người lao động có bị ảnh hưởng bởi giới
tính của họ hay không. Nhà nghiên cứu này xem xét mô hình hồi quy
E(TN/Di) = β1 + β2Di
trong đó TN là thu nhập, D là biến giả, nhận giá trị bằng 1 nếu là nam, bằng 0 nếu là nữ.
Câu hỏi
Với mô hình này làm thế nào để kết luận về liệu có ảnh hưởng của giới tính đến thu nhập
hay không?
Trong bài học số 7, ta sẽ xem xét việc lựa chọn một mô hình tốt sẽ dựa trên các tiêu chí
nào? Và chúng ta sẽ trả lời được câu hỏi thu nhập có bị ảnh hưởng bởi giới tính hay không.
94 STA301_Bài 7_v1.0013101214
Bài 7: Lựa chọn mô hình hồi quy
ơ
Trong phần trình bày ở các bài trước, ta giả định rằng một mô hình
hồi quy được lựa chọn là một mô hình đúng, nghĩa là hiện tượng cần
nghiên cứu được mô hình hóa đúng với bản chất và phù hợp với quy
luật vốn có của nó. Tuy nhiên, thông thường ở bước ban đầu ta chưa
biết rõ về bản chất và quy luật của hiện tượng, mà phải dựa vào số
liệu để khám phá ra bản chất và quy luật đó. Vậy thế nào là một mô
hình tốt, có phải một mô hình hồi quy có các phần dư càng nhỏ thì
càng tốt hay không, hay một mô hình phải có phương trình hồi quy
thật phức tạp, thật đẹp về mặt toán học mới là tốt?
BÀI TOÁN
Xét hai mô hình hồi quy tuyến tính
Yi 1 2 X 2i 3 X 3i ... k X ki u i , (7.1)
Yi 1 2 X 2i 3 X 3i ... m X mi vi , (7.2)
trong đó m k (do vậy sai số u i có xu thế nhỏ hơn sai số vi ). Có thể kết luận là mô
hình (7.1) tốt hơn mô hình (7.2) không? Hơn nữa, có phải một mô hình hồi quy phi tuyến
nào đó (mô hình lôgarit chẳng hạn) sẽ tốt hơn hai mô hình tuyến tính đó không?
Nói rộng ra, mô hình phải có những tính chất gì sẽ được coi là một mô hình đúng đắn?
Việc đánh giá một mô hình có đúng đắn, phù hợp với bản chất của hiện tượng hay
không phải được dựa trên những tiêu chuẩn nhất định. A.C. Harvey đã đưa ra các tiêu
chuẩn để đánh giá chất lượng của mô hình hồi quy. Các tiêu chuẩn này đã được vận
dụng rộng rãi trong thực tế, bao gồm:
Tính tiết kiệm: Mô hình càng đơn giản càng tốt, tuy
nhiên phải chứa đựng những biến độc lập chủ yếu
ảnh hưởng đến biến phụ thuộc để giải thích được
các hiện tượng cần nghiên cứu.
Việc đánh giá biến độc lập nào ảnh hưởng một
cách có ý nghĩa đến biến phụ thuộc, một mặt phải
dựa trên ý nghĩa thực tế của mô hình. Mặt khác có thể
dựa vào phép kiểm định về các hệ số trong phương
trình hồi quy.
Tính xác định: Các tham số ước lượng được phải có tính ổn định và duy nhất đối với
một tập số liệu cho trước.
Chẳng hạn, nếu hiện tượng đa cộng tuyến không được xử lý thì tính xác định
không được đảm bảo, vì các tham số ước lượng được có thể có độ biến động lớn
và khi đó việc thay đổi một vài quan sát trong số liệu có thể làm cho các tham số
ước lượng được thay đổi rất nhiều. Vậy việc khử đa cộng tuyến có thể giúp cho mô
hình hồi quy có tính xác định.
Tính thích hợp: Các biến độc lập giải thích được sự thay đổi của biến phụ thuộc
càng nhiều càng tốt.
Hệ số xác định của mô hình hồi quy tuyến tính cung cấp một thước đo để đánh giá
tính thích hợp của mô hình so với số liệu.
v1.0 95
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
Tính bền vững về mặt lý thuyết: Mô hình phải phù hợp với cơ sở lý thuyết nền tảng.
Chẳng hạn, các giả thiết về tính độc lập của các quan sát, tính phân phối chuẩn và
phương sai thuần nhất của sai số, ... sẽ đảm bảo về mặt lý thuyết của mô hình hồi
quy tuyến tính cổ điển.
Có khả năng dự báo tốt: Mô hình tốt là một mô hình có khả năng cung cấp các kết
quả dự báo càng sát với thực tế càng tốt.
n n 1 n
L ln 2 ln(2) u i2 .
2 2 2 i 1
96 STA301_Bài 7_v1.0013101214
Bài 7: Lựa chọn mô hình hồi quy
ơ
Có thể chứng minh L có phân phối tiệm cận với phân phối khi bình phương.
Giá trị này càng lớn (tương ứng với xác suất ý nghĩa càng nhỏ) thì càng tốt, vì
cho thấy mô hình đang xét rất khác biệt với mô hình “tầm thường” (là mô hình
cho rằng không hề có quan hệ giữa các biến độc
lập và biến phụ thuộc). Trong thực hành, giá trị
của hàm L được ước lượng bằng công thức:
n RSS
L (1 ln(2) ln( )) .
2 n
o Tiêu chuẩn AIC (Akaike info criterion):
RSS 2k / n
AIC ( ).e ,
n
trong đó k là số tham số trong mô hình hồi quy. Giá trị AIC này càng nhỏ thì
mô hình càng phù hợp với số liệu.
o Tiêu chuẩn Schwarz (Schwarz criterion):
RSS k / n
SC ( ).n
n
trong đó k là số tham số trong mô hình hồi quy. Giá trị SC này càng nhỏ thì mô
hình càng phù hợp với số liệu.
Hệ số xác định được dùng để đánh giá sự phù hợp của mô hình hồi quy nhiều
khi chưa nói lên đầy đủ chất lượng của mô hình vì một số lý do sau đây:
Nếu hai mô hình hồi quy chứa danh sách các
biến độc lập khác nhau thì hệ xác định của
hai mô hình đó (có thể bằng nhau) không
giúp kết luận được mô hình nào tốt hơn;
Có thể việc loại bỏ bớt một số biến nào đó ra
khỏi phương trình hồi quy tuy làm giảm hệ số
xác định, song về thực chất lại không làm giảm
đáng kể chất lượng của mô hình. Mặt khác,
trong thực hành, nhiều khi dùng ít biến độc lập trong mô hình thì “kinh tế”
hơn, mặc dù sai số ước lượng có thể lớn hơn.
Như vậy, cần dựa vào các phép kiểm định để đánh giá, lựa chọn mô hình. Tiêu
chuẩn F dưới đây có thể giúp tiến hành một trong những phép kiểm định như vậy:
o Tiêu chuẩn F (F criterion). Với mô hình hồi quy (7.1) ta xét bài toán kiểm định:
H 0 : 2 3 ... k 0
H1 : i 0
Việc chấp nhận giả thuyết H 0 có nghĩa là tất cả các biến độc lập không hề ảnh
hưởng đến giá trị của biến phụ thuộc. Ngược lại, việc bác bỏ giả thuyết H 0 có
nghĩa có ít nhất một biến độc lập nào đó có tác động đến biến phụ thuộc, tức là mô
hình hồi quy phù hợp với số liệu ở một mức độ nhất định.
v1.0 97
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
Để giải quyết bài toán kiểm định này, ta thiết lập tỷ số:
R2 / k
F ,
(1 R 2 ) /(n k 1)
Ta xét lại ví dụ ở bài trước về số liệu báo cáo phát triển thống kê ở 73 nước
đang phát triển năm 1988, trong đó biến phụ thuộc là nợ nước ngoài D88 và
biến độc lập là tổng sản phẩm quốc nội Y88 . Thực hiện hồi quy D88 theo Y88 ,
ta có kết quả trong bảng sau:
Trong bảng trên, ta thấy mô hình có hệ số xác định lớn hơn 77%, cho biết mô
hình hồi quy này phù hợp với tập số liệu. Kết luận đó cũng khẳng định qua giá
trị 244.9136 của thống kê F, tương ứng với xác suất ý nghĩa bằng 0.000000
(rất nhỏ). Ngoài ra, bảng còn cung cấp giá trị của các tiêu chuẩn AIC, SC và
log - hợp lý.
98 STA301_Bài 7_v1.0013101214
Bài 7: Lựa chọn mô hình hồi quy
ơ
mô hình với bộ số liệu, chứ chưa đánh giá so sánh về chất lượng của các mô hình.
Như vậy, cần dựa vào các phép kiểm định để đánh giá, lựa chọn mô hình. Với hai mô
hình hồi quy (7.1) và (7.2), ta xét bài toán kiểm định:
BÀI TOÁN KIỂM ĐỊNH 2
H 0 : m 1 m 2 ... k 0
H1 : i 0,i {m 1, m 2,..., k}
Việc chấp nhận giả thuyết H 0 có nghĩa các biến độc lập X m 1 , X m 2 ,..., X k không có vai
trò đáng kể đối với biến Y , tức là hai mô hình (7.1) và (7.2) là như nhau về khả năng dự
báo giá trị của biến phụ thuộc. Ngược lại, việc bác bỏ giả thuyết H 0 có nghĩa mô hình (7.1)
với nhiều biến độc lập hơn, sai số hồi quy nhỏ hơn, sẽ cung cấp dự báo chính xác hơn cho
biến phụ thuộc.
Trong thực hành, nếu giả thuyết H 0 được chấp nhận
thì rõ ràng nên chọn mô hình (7.2) vì số biến độc lập ít
hơn, nên có lợi hơn về mặt kinh tế. Còn nếu giả thuyết
bị bác bỏ thì nên chọn mô hình (7.1), vì dự báo sẽ cho
kết quả thực sự chính xác hơn.
Để giải quyết bài toán kiểm định này, ta thiết lập tỷ số
n k R 2k R 2m
F ,
k m 1 R 2k
trong đó R 2k là hệ số xác định của mô hình (7.1) với k tham số, R 2m là hệ số xác định
của mô hình (7.2) với m tham số, n là số lượng các quan sát trong bộ số liệu. Tỷ số
này có phân phối xấp xỉ phân phối Fisher với bậc tự do (n – k, k – m), qua đó có thể
xác định được xác suất ý nghĩa (p-value) tương ứng, được dùng để đưa ra kết luận
chấp nhận hay bác bỏ giả thuyết H 0 .
7.4. Hậu quả của việc chọn mô hình không phù hợp
Giáo sư Rick Nordheim đã khẳng định rằng trong Thống kê ứng dụng, không có khái
niệm về mô hình đúng hay sai, mà chỉ có mô hình phù hợp hay không phù hợp với
thực tế, mô hình có phản ánh được bản chất của hiện tượng được nghiên cứu hay
không. Đây là quan điểm xuất phát từ thực nghiệm và là quan điểm chung của tất cả
các nhà làm ứng dụng. Vì vậy, ta luôn phải xét đến tính phù hợp của mô hình mỗi khi
giải quyết một bài toán hồi quy. Việc chọn mô hình không phù hợp có thể do một
trong những nguyên nhân sau gây ra:
Chọn dạng hàm không thích hợp. Dạng hàm hồi
quy không thích hợp có thể dẫn đến các hậu quả sau:
o Các hệ số hồi quy bị ước lượng chệch, thậm chí
dấu của hệ số hồi quy bị sai, dẫn đến những
diễn giải mâu thuẫn với thực tế;
o Hệ số xác định thể hiện độ phù hợp của mô
hình với số liệu có thể không cao;
v1.0 99
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
o Có thể có rất ít hệ số hồi quy ước lượng được có ý nghĩa thống kê;
o Phần dư của các quan sát có thể có thể lớn về giá trị tuyệt đối và có xu thế biến
động mang tính hệ thống. Điều này có thể dẫn đến sự vi phạm các giả thiết cơ
bản của mô hình hồi quy.
Bỏ sót biến: Việc bỏ sót biến cũng có thể gây ra hậu quả nghiêm trọng. Giả sử mô
hình phù hợp thực sự phải là
Y 0 1X1 2 X 2 u ,
Y 0 1X1 v
E( 0 ) 0 ; E( 1 ) 1 .
X 2 0 1X1 ,
với 0 , 1 và lần lượt là các hệ số hồi quy và sai số trong mô hình hồi quy biến
X 2 theo biến X1 . Lúc đó,
Do vậy, tùy theo dấu của 2 1 mà 1 sẽ cho ước lượng quá cao hoặc quá thấp so
với giá trị thực của 1 .
Trong trường hợp X 2 và X1 không tương quan với nhau thì 1 0 và khi đó 1 là
ước lượng không chệch của 1 , nhưng 0 lại là ước lượng chệch của 0 , nếu
X2 0 .
Ngoài ra, việc bỏ sót biến còn dẫn đến hậu quả là ước lượng phương sai của sai số
cũng như của phương sai của các hệ số hồi quy đều là những ước lượng chệch, kéo
theo tính không chính xác của các khoảng tin cậy và vì vậy phương pháp kiểm
định thông thường không còn hiệu lực.
Thừa biến: Việc đưa vào mô hình những biến không thích hợp cũng đem lại
những nguy hại đáng kể. Thật vậy, giả sử mô hình phù hợp là
Y 0 1X1 u , (7.3)
Y 0 1X1 2 X 2 v (7.4)
H 0 : Không có hiện tượng bỏ sót biến độc lập trong mô hình (7.5)
Việc chấp nhận giả thuyết H 0 có nghĩa mô hình (7.5) đã chứa đủ số biến độc lập thực sự
ảnh hưởng tới biến phụ thuộc, những ảnh hưởng thực sự của các biến độc lập khác chưa có
mặt, nếu có thì đã được thể hiện một cách gián tiếp thông qua ảnh hưởng của các biến độc
lập đã có mặt trong mô hình. Ngược lại, việc bác bỏ giả thuyết H 0 có nghĩa là mô hình
(7.5) chưa chứa đủ số biến độc lập cần thiết, biến phụ thuộc Y còn chịu ảnh hưởng quan
trọng của một hay nhiều biến độc lập nào đó chưa có mặt trong mô hình.
Để kiểm tra xem trong mô hình (7.5) còn bỏ sót biến độc lập W hay không, ta xét mô
hình hồi quy đầy đủ hơn, với sự có mặt của biến độc lập W
Yi 0 1X i 2 Wi vi . (7.6)
v1.0 101
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
o Cách 1: Dùng kiểm định t. Để kiểm tra xem có phải biến W đã bị bỏ sót khi
dùng mô hình hồi quy (7.5) hay không, ta có thể tiến hành hồi quy theo mô
hình (7.6) và kiểm định giả thuyết 2 0 . Lúc đó, nếu giả thuyết này bị bác
bỏ thì thực sự biến W đã bị bỏ sót. Ngược lại, nếu giả thuyết 2 0 được chấp
nhận thì không có hiện tượng bỏ sót biến W, vì bất kể biến đó có mặt trong mô
hình hồi quy hay không, ta đều thu được chất lượng dự báo của mô hình như nhau.
o Cách 2: Sử dụng hàm log-hợp lý. Xét thống
kê LR 2(l1 l0 ) , trong đó l1 và l0 tương
ứng là giá trị lớn nhất của lôgarit hàm hợp lý
ứng với mô hình (7.6) và (7.5). Khi giả thuyết
H 0 đúng, thống kê LR có phân phối tiệm cận
phân phối khi bình phương với 1 bậc tự do
( 2 (1) ). Nếu LR 2 (1) ( thường được lấy
bằng 5%) thì ta bác bỏ H 0 và kết luận có hiện
tượng bỏ sót biến độc lập W.
o Cách 3: Sử dụng Bài toán kiểm định 2. Ta có thể áp dụng bài toán kiểm định
2 để so sánh hai mô hình (7.6) và (7.5) thay cho việc so sánh hai mô hình (7.1)
và (7.2). Khi ấy, việc giả thuyết được chấp nhận (chất lượng của hai mô hình
như nhau) đồng nghĩa việc không có hiện tượng bỏ sót biến W. Ngược lại, nếu
giả thuyết bị bác bỏ thì có nghĩa biến W đã bị bỏ sót trong mô hình hình quy.
Chú ý: Trên đây đã trình bày 3 cách phát hiện việc bỏ sót 1 biến độc lập W trong
mô hình hồi quy. Tuy nhiên, Cách 2 và Cách 3 còn có thể dùng để phát hiện việc
bỏ sót một nhóm biến độc lập trong mô hình.
Thật vậy, khi giải quyết bài toán kiểm định 2, so sánh hai mô hình (7.1) chứa k – 1
biến độc lập với mô hình (7.2) chứa m – 1 biến độc lập (m < k), về thực chất ta đã
kiểm tra xem nhóm k – m biến độc lập có mặt trong mô hình (7.1) nhưng không có
mặt trong (7.2) có phải là nhóm biến bị bỏ sót nếu chỉ dùng mô hình hồi quy (7.2)
hay không.
Cũng có thể sử dụng hàm log-hợp lý để giải quyết bài toán kiểm định trên bằng
cách lập thống kê LR 2(lk lm ) , trong đó lk và lm tương ứng là giá trị lớn nhất
của lôgarit hàm hợp lý ứng với mô hình (7.1) và (7.2). Khi giả thuyết H 0 đúng,
thống kê LR có phân phối tiệm cận phân phối khi bình phương với k – m bậc tự do
( 2 (k m) ), từ đó ta có thể tính được xác suất ý nghĩa của phép kiểm định để đưa
ra kết luận thống kê về việc liệu có phải nhóm biến độc lập bị bỏ sót hay không.
Trường hợp 2: Không có số liệu về biến W . Khi không có số liệu của biến độc
lập bị nghi là đã bị bỏ sót trong mô hình (7.5), ta có thể sử dụng các thông tin của
các giá trị dự báo thu được từ mô hình (7.5) để xem các biến độc lập trong mô hình
đó đã cung cấp cho biến phụ thuộc một lượng thông tin đạt đến mức bão hòa hay
chưa, tức là liệu có còn thiếu một phần thông tin của biến bị bỏ sót nào đó ảnh
hưởng đến biến phụ thuộc nữa hay không? Cụ thể, ta lần lượt tiến hành các bước
như sau:
o Bước 1: Dùng số liệu để ước lượng các giá trị ̂0 và ̂1 của các hệ số hồi quy
trong mô hình (7.5);
o Bước 2: Dùng các hệ số ̂0 và ̂1 và các giá trị quan sát được của biến độc lập
để ước lượng các giá trị của biến phụ thuộc
Ŷi ˆ 0 ˆ 1X i .
Biến Ŷ với các giá trị trên được gọi là biến dự báo. Từ biến dự báo này, ta lập
thêm các biến phụ Ŷ 2 , Ŷ 3 và Ŷ 4 . Có thể thấy
biến Ŷ chứa phần thông tin của biến phụ thuộc
được thể hiện qua biến độc lập X. Đồng thời có
thể cho rằng các biến Ŷ 2 , Ŷ 3 và Ŷ 4 có thể còn
chứa một phần thông tin khác của biến phụ
thuộc chưa được mô tả qua biến X. Như vậy, để
kiểm tra xem mô hình (7.5) có bỏ sót biến độc
lập nào đó hay không, ta có thể tiến hành kiểm
định để biết liệu các biến Ŷ 2 , Ŷ 3 và Ŷ 4 đúng
là nhóm biến bị bỏ sót hay không.
Tới đây, ta có thể tiếp tục giải quyết bài toán bằng một số cách khác nhau, chẳng
hạn như:
o Bước 3: Ta kiểm định giả thuyết H 0 : 2 3 4 0 bằng cách dùng thống kê
n k R 2k R 2m
F
k m 1 R 2k
với n là số quan sát có trong số liệu, k=5, m=2, còn R 2k và R 2m lần lượt là hệ
số xác định của các mô hình (*) và (7.5). Thống kê này có phân phối Fisher với
bậc tự do n – 5 và k m 3 , qua đó tính được xác suất ý nghĩa để đưa ra kết
luận chấp nhận hay bác bỏ giả thuyết H 0 . Việc chấp nhận giả thuyết cho phép
khẳng định không có hiện tượng bỏ sót biến. Còn khi giả thuyết bị bác bỏ thì
có nghĩa trong mô hình (7.5) còn sót biến độc lập.
Tới đây, ta có thể tiếp tục giải quyết bài toán bằng một số cách khác nhau, chẳng
hạn như:
o Áp dụng bài toán kiểm định 2 để kiểm tra xem có phải nhóm các biến Ŷ 2 , Ŷ 3
và Ŷ 4 đã bị bỏ sót khi dùng mô hình hồi quy (7.5) hay không, ta xét mô hình
hồi quy (7.5),
Yi 0 1X i u i ,
và mô hình
ˆ2 Y
Yi 0 1X i 2 Y ˆ3 ˆ4
i 3 i 4 Yi v i . (*)
o Phương pháp kiểm định nhân tử Lagrange. Phương pháp này được tiến hành,
bắt đầu bằng Bước 1 và Bước 2 như đã nói ở trên, với một bổ sung nhỏ:
v1.0 103
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
Thứ nhất: Dùng các hệ số ̂0 và ̂1 và các giá trị quan sát được của biến
độc lập để thu ước lượng biến phụ thuộc Ŷ và biến phụ Ŷ 2 , Ŷ 3 , Ŷ 4 , đồng
thời xác định các giá trị của biến phần dư
ˆ ; i 1, 2,..., n .
û i Yi Yi
và dùng số liệu để ước lượng hệ số xác định R 2 của phương trình hồi quy đó;
Thứ ba: Lập giả thuyết H 0 : 2 3 4 0
và dùng thống kê nR 2 để kiểm định giả
thuyết ấy. Thống kê này có phân phối khi
bình phương với 3 bậc tự do, qua đó tính
được xác suất ý nghĩa để đưa ra kết luận
chấp nhận hay bác bỏ giả thuyết H 0 . Việc
chấp nhận giả thuyết này đồng nghĩa với
việc khẳng định không có hiện tượng bỏ sót
biến. Ngược lại, nếu giả thuyết bị bác bỏ thì
mô hình (7.5) còn bỏ sót biến độc lập.
Chú ý: Trong Trường hợp 2 này, ta chỉ có thể đưa ra kết luận về chất lượng
của mô hình, khẳng định mô hình có bỏ sót biến hay không, mà không xác định
được chính xác biến bị bỏ sót. Nếu biết chắc chắn là có hiện tượng bỏ sót biến
và cần xác định rõ biến bị bỏ sót thì cần dựa vào kinh nghiệm và kiến thức của
chuyên ngành có số liệu. Lúc ấy có thể tiến hành bổ sung số liệu của biến bị bỏ
sót để cải tiến mô hình.
7.7. Lựa chọn giữa mô hình hồi quy tuyến tính và mô hình hồi quy lôga tuyến tính
Một trong các giả thiết của mô hình hồi quy tuyến tính là giả thiết về tính phân bố
chuẩn của các phần dư (hay còn được gọi là sai số). Dễ dàng thấy nếu phần dư của mô
hình hồi quy có phân bố chuẩn thì bản thân biến phụ thuộc cũng phải có phân bố
chuẩn. Tuy nhiên, trong thực hành rất hay gặp phải những biến phụ thuộc không có
phân bố chuẩn mà lại có phân bố lôga-chuẩn. Thí dụ, với số liệu về thu nhập trên đầu
người năm 1999 của các hộ gia đình ở huyện Ba Vì, ta có biểu đồ tần số bên trái trong
hình dưới đây. Rõ ràng biểu đồ đó không đối xứng và “biến thu nhập trên đầu người”
(incomecapita) không có phân bố chuẩn. Tuy nhiên, nếu ta lập biến mới logincocapita
bằng cách lấy loga cơ số 10 của biến trên đây thì ta sẽ có đồ thị tần số phía bên phải
với dạng của phân bố chuẩn.
Trong trường hợp này, để dự báo thu nhập trên đầu người”, rõ ràng mô hình hồi quy
tuyến tính với biến phụ thuộc logincocapita sẽ phù hợp hơn mô hình hồi quy tuyến tính
với biến phụ thuộc incomecapita. Lúc đó, thay vì dùng mô hình
Y 0 1X v , (7.7)
ta nên dùng mô hình
log10 (Y) 0 1X u . (7.8)
Dùng phương pháp bình phương bé nhất để ước các hệ số hồi quy ̂0 và ̂1 của phương
trình hồi quy tuyến tính trên, từ đó ta có thể xây dựng công thức để dự báo giá trị của
biến phụ thuộc nguyên thủy Y qua biểu thức:
ˆ ˆ ˆ ˆ
Ŷ 100 1X 100 .(10X )1 . (7.9)
Mô hình (7.8) được gọi là mô hình lôga tuyến tính. Bên cạnh mô hình đó, người ta còn
hay dùng mô hình log-log tuyến tính, được thành lập bằng cách lấy lôga cả biến phụ
thuộc lẫn biến độc lập trước khi đưa các biến đó vào mô hình hồi quy tuyến tính thông
thường, nếu cả biến phụ thuộc và biến độc lập đều là những biến nhận giá trị dương
log10 (Y) 0 1 log10 (X) W . (7.10)
Với các giá trị ̂ 0 và ̂1 của phương trình hồi quy tuyến
tính trên ước lượng được bằng phương pháp bình phương
bé nhất, ta có thể xây dựng công thức để dự báo giá trị
của biến phụ thuộc nguyên thủy Y như sau:
ˆ ˆ ˆ ˆ
Ŷ 100 1 log(X) 100 .(X)1 . (7.11)
v1.0 105
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
Các mô hình hồi quy lôga tuyến tính và log-log tuyến tính, mặc dù khó giải thích về ý
nghĩa thực tế hơn so với mô hình hồi quy tuyến tính thông thường, nhưng nhiều khi lại
giúp giải quyết được một số vướng mắc của mô hình hồi quy tuyến tính, chẳng hạn
như vấn đề về phương sai sai số thay đổi đã đề cập đến trong bài trước.
7.8. Bản chất của biến giả và mô hình hồi quy với biến giải thích là biến giả
Mô hình hồi quy thường được dùng để dự báo giá trị định lượng của biến phụ thuộc
theo giá trị đã biết của một hoặc nhiều biến độc lập. Trên đây chúng ta đã đề cập đến
trường hợp các biến độc lập là các biến định lượng, mà giá trị chúng có thể nhận được
là các số đo. Tuy nhiên, trong thực hành có nhiều trường hợp có những biến độc lập,
yếu tố ảnh hưởng đến giá trị của biến phụ thuộc, lại không phải là biến định lượng mà
là biến định tính (còn được gọi là biến định danh, biến phân hạng hay biến chất) với
các giá trị có thể nhận được của biến không phải là các con số, mà lại là các thuộc
tính, tính chất, đặc điểm, ... nào đó của đối tượng.
Thí dụ, để xây dựng mô hình dự báo chi phí của một khách nước ngoài dành cho một
chuyến du lịch được thực hiện tại Việt Nam, ta cần xét tới mọi yếu tố có thể ảnh
hưởng đến khả năng sẵn sàng chi trả của khách. Các yếu tố đó có thể bao gồm tuổi,
giới tính, quốc tịch của khách, thời gian (số ngày) thực hiện của chuyến du lịch, mùa
tiến hành chuyến du lịch, ... Có thể thấy trong các yếu tố đó, chỉ có “tuổi” và “thời
gian” là hai biến định lượng, còn lại đều không phải là các biến định lượng.
Như vậy, trước tiên ta cần mã hóa lại các biến định tính
để có các biến nhận các giá trị số đại diện cho biến
định tính trong phương trình. Có thể dùng các biến giả
nhị phân (chỉ nhận hai giá trị 0-1) để mã hóa lại các
biến định tính. Cách mã hoá bằng các biến giả như vậy
khá đơn giản và có thể giúp diễn giải các hệ số ước lượng
được của phương trình hồi quy một cách rất rõ ràng.
Chẳng hạn, ta có thể mã hóa biến giới tính thành biến
giả GT nhận giá trị 0 nếu khách hàng là nam giới, nhận giá trị 1 nếu khách hàng là phụ
nữ. Lúc đó khi ước lượng chi phí của khách du lịch theo giới tính bằng mô hình hồi quy
Y 0 1GT u ,
trong đó Y là chi phí của khách hàng, u là sai số, thì hệ số chặn 0 chính bằng giá trị
chi phí trung bình của nhóm khách hàng nữ,
0 E(Y GT 0) .
Đồng thời, hệ số dốc 1 chính là giá trị chênh lệch giữa chi phí trung bình của nhóm
khách hàng nam so với chi phí trung bình nhóm khách hàng nữ, tức là tổng 0 1
của hai hệ số hồi quy có giá trị đúng bằng giá trị chi phí trung bình của nhóm khách
hàng nữ,
0 1 E(Y GT 1) .
Phép kiểm định giả thuyết H 0 : 1 0 về sự bằng không của hệ số dốc trong mô hình
này cho phép chúng ta đưa ra kết luận về việc liệu chi phí của nhóm khách hàng nam
có ngang bằng với chi phí của nhóm khách hàng nữ hay không.
Việc sử dụng biến giả trong mô hình hồi quy có thể mở rộng cho trường hợp biến định
tính nhận nhiều giá trị, tức là khi biến định tính xác định nhiều nhóm các quan sát ứng
với nhiều phạm trù khác nhau. Chẳng hạn, giả sử khách du lịch trong nghiên cứu có các
quốc tịch Pháp, Nga, Nhật, Mỹ, Trung Quốc và Việt Nam. Lúc đó ta có thể dùng 5 biến
giả D1 , D2 , D3 , D4 và D5 để mã hóa biến định tính “quốc tịch” như trong bảng sau:
Quốc tịch D1 D2 D3 D4 D5
Pháp 1 0 0 0 0
Nga 0 1 0 0 0
Nhật 0 0 1 0 0
Mỹ 0 0 0 1 0
Trung Quốc 0 0 0 0 1
Việt Nam 0 0 0 0 0
Trong bảng trên, biến D1 ứng với nhóm khách mang quốc tịch Pháp, nhận giá trị 1 đối
với quan sát của khách Pháp, nhận giá trị 0 đối với các quan sát nhóm khác; biến D2
ứng với nhóm khách mang quốc tịch Nga, nhận giá trị
1 đối với quan sát của khách đến từ nước Nga, nhận
giá trị 0 đối với các quan sát nhóm khác; ... Riêng đối
với nhóm quan sát ứng với khách nội địa Việt Nam, tất
cả các biến giả từ D1 đến D5 đều nhận giá trị bằng 0.
Nhóm này được lấy làm nhóm “nền” (hay còn gọi là
nhóm “chứng”), với các kết quả được lấy làm mức cơ
sở để so sánh với kết quả của các nhóm khác. Chẳng hạn, khi dùng mô hình hồi quy
Y 0 1D1 2 D 2 3 D3 4 D 4 5 D5 u. (7.12)
để dự đoán mức chi phí của khách du lịch phụ thuộc vào quốc tịch của khách, kết quả
ước lượng được của hệ số chặn 0 cho biết mức chi phí trung bình của nhóm khách
nội địa
0 E(Y D1 D 2 D3 D 4 D5 0)
Chi phí trung bình này của nhóm “nền” được lấy làm “mức sàn” để so chi phí của các
nhóm khách đến từ các nước khác. Thí dụ, từ (7.12), chi phí trung bình của nhóm
khách Pháp được ước lượng bằng 0 1
0 1 E(Y D1 1)
chênh lệch chi phí của nhóm khách Pháp so với nhóm khách nội địa được ước lượng
bằng 1 ; chi phí trung bình của nhóm khách Nga được ước lượng bằng 0 2
0 2 E(Y D 2 1)
chênh lệch chi phí của nhóm khách Nga so với nhóm khách nội địa được ước lượng
bằng 2 ; ...
v1.0 107
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
7.9. Mô hình hồi quy với một biến lượng và một biến chất
Sau đây chúng ta xây dựng mô hình dự báo chi phí của khách du lịch, với giả thiết chi
phí đó vừa tỷ lệ với thời gian của chuyến du lịch, vừa phụ thuộc vào đặc thù riêng liên
quan đến quốc tịch của khách du lịch. Lúc đó trong danh sách các biến độc lập của mô
hình sẽ vừa xuất hiện biến định lượng (biến TG chỉ thời gian tính theo ngày của
chuyến du lịch), vừa có biến định tính là biến biểu diễn quốc tịch của khách du lịch.
Trong mô hình hồi quy, biến định tính này được mã hóa lại thành các biến giả như đã
trình bày trên đây. Ta xét phương trình hồi quy
Y 0 1D1 2 D 2 3 D3 4 D 4 5 D5 TG u . (7.13)
Ta thấy trong mô hình này, hệ số dốc cho biết chi
phí hàng ngày của khách du lịch, không phân biệt
người khách đó đến từ nước nào. Như vậy hệ số này
đại diện cho tính chất chung của tất cả các khách về
mặt chi tiêu cho mỗi ngày trong chuyến du lịch. Các hệ
số còn lại thể hiện đặc thù riêng của các nhóm khách
du lịch đến từ các nước khác nhau. Có thể nói mô hình
(7.13) là mô hình tổng hợp của 6 mô hình hồi quy
tuyến tính đơn có cùng hệ số dốc, mỗi mô hình cho biết quy luật chi tiêu của khách
hàng đến từ một nước. Cụ thể, với các hệ số ước lượng được từ (7.13), ta có thể dự
báo chi phí của khách du lịch nội địa theo phương trình
ˆ ˆ ˆ TG ;
Y 0
ˆ (ˆ ˆ ) ˆ TG ;
chi phí của khách Mỹ bằng: Y 0 4
ˆ (ˆ ˆ ) ˆ TG .
chi phí của khách Trung Quốc bằng: Y 0 5
Trên đồ thị mô tả quan hệ của chi phí theo thời gian thực hiện chuyến du lịch, các
đường hồi qui của các phương trình hồi quy đơn tương ứng với các phương trình trên
đây sẽ thể hiện thành các đường thẳng có cùng hệ số dốc và do đó song song với nhau.
Y
0 k
0 1
0
TG
Vì các mô hình hồi quy trên đây có chung hệ số dốc, chỉ có thể khác nhau hệ số chặn,
nên các phép kiểm định H10 : 1 0 , H 02 : 2 0 , H30 : 3 0 , H 04 : 4 0 và
H50 : 5 0 về thực chất sẽ lần lượt cung cấp các kết luận so sánh mô hình hồi quy dự
báo chi phí của từng nhóm khách phân theo quốc tịch với mô hình tương ứng của
nhóm khách nội địa. Nếu giả thuyết H 0k : k 0 được chấp nhận thì hai mô hình
ˆ (ˆ ˆ ) ˆ TG và Y
Y ˆ ˆ ˆ TG được coi là như nhau, chi phí của khách du lịch
0 k 0
của hai nhóm đó có thể dự báo theo cùng một phương trình hồi quy.
7.10. Mô hình hồi quy với một biến lượng và hai biến chất
Ta có thể đưa thêm vào mô hình (7.13) để có mô hình dự báo chi phí của khách du
lịch theo biến thời gian thực hiện chuyến du lịch (TG - biến lượng) và hai biến chất là
giới tính (GT) và quốc tịch của khách du lịch. Biến giới tính được mã hóa lại thành
các biến giả như đã nói phía trên và ta có mô hình hồi quy mới như sau:
Y 0 1GT 1D1 2 D 2 3 D3 4 D 4 5 D5 TG u . (7.14)
Với mô hình này, hệ số dốc vẫn thể hiện quy luật chung về chi phí hàng ngày của
khách du lịch. Trong khi đó, hệ số chặn được tách thành nhiều phần, mô tả các đặc thù
riêng của từng nhóm khách về chi phí ban đầu. Cụ thể, hệ số 1 cho biết sự khác nhau
giữa khách nam và khách nữ; các hệ số 1 , 2 , 3 , 4 , 5 biểu diễn sự khác biệt về chi
phí ban đầu giữa những nhóm khách du lịch đến từ các nước khác nhau; riêng hệ số
0 lại cho biết phần giống nhau, chung cho mọi nhóm khách, về chi phí ban đầu.
Như vậy, mô hình (7.14) có thể coi là mô hình gộp chung của 12 hồi quy riêng rẽ, do
đó vừa thể hiện được quy luật chung của tất cả các nhóm đối tượng, vừa biểu diễn
được những đặc thù riêng của mỗi nhóm. Từ phương trình hồi quy (7.14) ta có thể rút
ra hai phương trình hồi quy cho biết quy luật về chi phí của hai nhóm khách nam và
nữ nội địa,
Y 0 TG u (đối với nam),
Y 0 1 TG u (đối với nữ);
v1.0 109
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
hai phương trình hồi quy tương ứng với hai nhóm khách nam và nữ người Pháp,
Y ( 0 1 ) TG u (đối với nam),
...
và cuối cùng là hai phương trình tương ứng với hai nhóm khách nam và nữ người
Trung Quốc,
Y ( 0 5 ) TG u (đối với nam),
Trên đồ thị, 12 phương trình hồi quy trên đây sẽ tương ứng với 12 đường thẳng song
song với nhau, có chung độ dốc và chỉ khác nhau về vị trí cắt nhau với trục tung.
Các kết quả kiểm định các hệ số của mô hình (7.14) sẽ giúp so sánh hệ số chặn của 12
mô hình trên đây. Cụ thể, phép kiểm định giả thuyết H 0 : 1 0 cho phép chúng ta
đưa ra kết luận về việc liệu yếu tố giới tính của khách du lịch có vai trò mang tính
thống kê đối với hệ số chặn của các mô hình hay không. Còn các phép kiểm định
H10 : 1 0 ; H 02 : 2 0 ; H30 : 3 0 ; H 04 : 4 0 và H50 : 5 0 sẽ lần lượt cung cấp
các kết luận đánh giá ảnh hưởng của yếu tố quốc tịch của khách du lịch đối với hệ số
chặn trong các mô hình riêng rẽ (so sánh hệ số chặn trong mỗi mô hình với hệ số chặn
của mô hình ứng với nhóm khách nội địa).
Ta sẽ kết hợp các biến giả trên đây với biến định lượng biến TG (chỉ thời gian tính
theo ngày của chuyến du lịch) để tạo ra các biến định lượng mới là TG1 M1 *TG ,
TG 2 M 2 *TG và TG 3 M 3 *TG , từ đó xây dựng và tiến hành phân tích mô hình
Y 0 TG 1TG1 2 TG 2 3TG 3 u . (7.15)
Mô hình này có thể được coi là mô hình gộp chung của bốn mô hình tương ứng với
quy luật của bốn mùa. Bốn mô hình của bốn mùa có chung hệ số chặn , chỉ khác
nhau ở hệ số dốc. Đối với mùa Xuân, phương trình hồi quy (7.15) thu gọn thành
Y ( 0 1 )TG u .
Các phương trình tương ứng với các mùa còn lại lần lượt sẽ là:
v1.0 111
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
Đây là một mô hình hồi quy tuyến tính từng khúc, là mô hình tổng hợp của 6 mô hình
hồi quy tuyến tính đơn tương ứng với từng năm từ 2004 đến 2009 như sau:
Y 0 0 TN u (năm 2004);
Chú ý:
Mặc dù trong thực hành, đối với số liệu dạng giống như trong thí dụ nêu trên, có
thể tiến hành tách tập số liệu thành 6 tập số liệu của các năm và xây dựng các mô
hình hồi quy tuyến tính riêng rẽ cho từng năm bằng cách sử dụng lần lượt các tập
số liệu nhỏ. Tuy nhiên mô hình tuyến tính từng khúc trình bày trên đây cung cấp
hình ảnh tổng hợp, không rời rạc. Hơn nữa, bằng các phép kiểm định trong phân
tích mô hình tuyến tính từng khúc, ta có thể so sánh các hệ số hồi quy giữa các mô
hình hồi quy của các năm.
Nếu các quan sát trong một khoảng thời gian của mô hình tuyến tính từng khúc có
sự phụ thuộc vào nhau, thì nên sử dụng phương pháp “Phân tích nhiều mức”
(Multi-level analysis) thay cho mô hình tuyến tính từng khúc. Có thể tham khảo
(chẳng hạn trên mạng Internet) các tài liệu khác để biết thêm về phương pháp
“Phân tích nhiều mức”.
v1.0 113
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
Đây là mô hình hồi quy tuyến tính thông thường với m m 2 biến độc lập. Sử dụng
các thủ tục ước lượng đối với mô hình hồi quy tuyến tính bội, ta tìm được các giá trị
ước lượng của các hệ số hồi quy trong mô hình (7.17), đó cũng chính là các hệ số của
mô hình hồi quy đa thức bậc hai (7.16) đang được xét đến.
Chú ý:
Trong mô hình hồi quy tuyến tính bội (7.17) trên đây, thường có hiện tượng đa cộng
tuyến giữa biến Xi và biến Zii , i 1, 2,..., m . Do vậy, trước khi tiến hành ước lượng
các hệ số của mô hình, ta nên xử lý hiện tượng đa cộng tuyến trong tập hợp m m 2
biến độc lập của mô hình.
Khi thiết lập một mô hình ta có thể mắc phải các sai lầm về mặt định dạng như sau:
o Mô hình bị thiếu biến cần thiết: nếu ta ước lượng mô hình (1) trên không có biến Xi3.
o Mô hình bị thừa biến: Nếu trong mô hình (1) ở trên ta đưa thêm cả biến Xi4.
o Nếu ta ước lượng mô hình dưới dạng lôga của các biến trong khi thực thế mô hình đúng
có dạng tuyến tính, ta nói mô hình sai dạng hàm.
o Định dạng sai cho sai số ngẫu nhiên.
o Giả thiết về nhiễu ngẫu nhiên phân phối chuẩn.
v1.0 115
Bài 7: Lựa chọn mô hình hồi quy
Ơơ[
Mục tiêu
Khắc phục TTQ. Tập trung vào hậu quả chính của hiện
tượng này đó là làm cho các ước
lương OLS sẽ là các ước lượng không
hiệu quả.
Hiểu rõ ý tưởng của các phương pháp
phát hiện ra hiện tượng.
Hiểu rõ ý tưởng của các phương pháp
khắc phục hiện tượng.
Tình huống
Khi nghiên cứu một vấn đề nào đó bằng phương pháp kinh tế lượng,
ta đều sử dụng một mô hình hồi quy và để ước lượng mô hình hồi quy,
ta thường dùng phương pháp OLS (bài học số 3). Tuy nhiên, để thực
hiện được phương pháp OLS thì về mặt kỹ thuật, một giả thiết trong
mô hình cần thỏa mãn. Đó là giả thiết về sự không có sự tương quan
giữa các nhiễu ngẫu nhiên (không có tự tương quan). Về bản chất thì
giả thiết này muốn ngụ ý rằng quan sát của biến phụ thuộc ở thời điểm
này sẽ không có quan hệ với quan sát của biến phụ thuộc ở thời điểm khác.
Ta lấy ví dụ cụ thể, Việt Nam khi nghiên cứu về GDP phụ thuộc vào vốn đầu tư theo các năm.
Vì GDP của Việt Nam nói riêng và các quốc gia trên thế giới nói chung thay đổi thường có
tính chu kì nên các quan sát ở thời điểm khác nhau thường có quan hệ nào đó với nhau.
Câu hỏi
Vấn đề là hậu quả của việc giả thiết trong mô hình kinh tế lượng không thỏa mãn là gì?
Mô hình hồi quy tuyến tính cổ điển đã dựa vào một giả thiết hết sức quan trọng là giữa các sai số
ngẫu nhiên u i không có sự tương quan, tức là E u i u j 0 , i j . Tuy nhiên trong thực tế, đối
với số liệu dạng chuẩn thời gian, giả thiết này thường hay bị vi phạm. Do vậy các câu hỏi đặt ra
là trong trường hợp này ta còn có thể áp dụng phương pháp OLS hay không, sự vi phạm giả thiết
này sẽ dẫn tới hậu quả gì và biện pháp khắc phục hiện tượng đó bằng biện pháp nào. Bài này sẽ
giải quyết các vấn đề nêu trên.
Cov u t , u s 0, t s
Khi đó sai số ở giai đoạn t là tương quan với sai số ở giai đoạn s. Ta có biểu diễn hiện
tượng tự tương quan qua sự phụ thuộc giữa các sai số theo phương trình như sau:
BÀI TOÁN
Giả thiết 1: Trong mô hình
Yt 1 2 X t u t (8.1)
Sai số u t phụ thuộc vào sai số u t 1 ở giai đoạn t –1 theo phương trình
u t u t 1 t (8.2)
với 1 1 .
Giả thiết 2: Các sai số t trong (8.2) là độc lập với nhau và
E t 0;E 2t 2
8.2. Ước lượng bình phương nhỏ nhất khi có tự tương quan
Xét mô hình hồi quy có hiện tượng tự tương quan
Yt 1 2 X 2t 3 X 3t ... k X kt u t (8.3)
u t u t 1 t , 1 1
Yt Y t 1 1 1 2 X 2t X 2 t 1
3 X 3t X 3 t 1 ... k X kt X k t 1 u t u t 1 . (8.4)
1* 1 1 .
Từ đó dẫn đến
Mô hình này trở thành mô hình hồi quy tuyến tính thông thường với các giả thiết cần
thiết được đảm bảo.Vậy áp dụng OLS cho (8.5) ta ước lượng được các hệ số hồi quy.
Yt 1 2 X 2t 3 X 3t ... k X kt u t (8.6)
Rõ ràng nếu giữa các sai số có hiện tượng tự tương quan bậc 1 thì mối quan hệ
giữa chúng có thể biểu diễn dưới dạng phương trình hồi quy
u t u t 1 t , 1 1 .
Khi ấy việc kiểm định tính tự tương quan bậc 1 của sai số trong mô hình (8.6) có
thể tiến hành thông qua thống kê Durbin – Watson
uˆ uˆ t 1
2
t
d t 2
n
(8.7)
û
t 1
t
2
d 2(1
uˆ uˆ t t 1
) 2(1 ˆ ) ,
u 2
t
H 0 : 0
H1 : 0
Khi đó,
Nếu d d L thì bác bỏ giả thuyết H 0 ;
Nếu d d U chấp nhận giả thuyết H 0 ;
Nếu d L d d U thì chưa kết luận được gì.
o Bước 3b: Xét bài toán kiểm định (tương quan
chuỗi âm)
H 0 : 0
H1 : 0
H1 : 0 H1 : 0
Bác bỏ 0 Chưa kết luận Chấp nhận 0 Chưa kết luận Bác bỏ 0
0 dL dU 2 4 – dU 4 – dL 4
Phương pháp kiểm định Breusch-Godfrey
Phương pháp kiểm định Durbin – Watson trên đây chỉ cho phép phát hiện tự tương
quan bậc một, tức là chỉ cho biết quan sát tại mỗi thời điểm có phụ thuộc vào quan
sát ở thời điểm liền kề hay không. Phương pháp đó không phát hiện được tự tương
quan bậc cao hơn 1, tức là không cho biết liệu có mối quan hệ giữa các quan sát ở
cách xa nhau hơn 1 hay không. Khi cỡ mẫu lớn, tức là khi số liệu được quan sát ở
khoảng thời gian dài, ta có thể sử dụng phương pháp Breusch-Godfrey để phát
hiện quan hệ tự tương quan bậc cao. Xét mô hình
Yt 1 2 X 2t ... k X kt u t . (8.8)
Giả sử mối quan hệ giữa các thành phần nhiễu u t có thể được biểu diễn thành
phương trình tự hồi quy
u t 1u t 1 2 u t 2 ... p u t p t , (8.9)
trong đó t là thành phần nhiễu ngẫu nhiên thuần túy có kỳ vọng bằng 0 và
phương sai không đổi. Ta có bài toán kiểm định giả thuyết
H 0 : 1 2 ... p 0
H1 : i 0,i 1, 2,..., p
Khi giả thuyết H 0 được chấp nhận thì ta có thể khẳng định trong mô hình hồi quy
(8.8) không có hiện tượng tự tương quan bậc nhỏ hơn hoặc bằng p, tức là có sự
độc lập giữa các quan sát không cách xa nhau quá p bước trong chuỗi thời gian.
Mô hình (8.9) được hiểu như mô hình hồi quy bội với p biến độc lập, do đó ta có
thể dùng phương pháp 2 để kiểm định giả thuyết H 0 (do vậy phương pháp này
còn được gọi là phương pháp kiểm định 2 ). Các bước kiểm định được tiến hành
như sau:
Bước 1: Ước lượng mô hình hồi quy gốc (8.8) để tính các phần dư û t .
Bước 2: Với các phần thu được, lập bộ số liệu mới gồm n - p quan sát để tiến hành
ước lượng mô hình (8.9) và thu được hệ số xác định R 2 của mô hình này. Khi đó
thống kê 2 n p R 2 có phân phối khi-bình phương với p bậc tự do.
Bước 3: Với mức ý nghĩa đã định, tìm giá trị tới hạn 2 (p) để so sánh với giá
trị của thống kê tính được ở bước trên, rồi đưa ra quyết định bác bỏ giả thuyết H 0
nếu 2 2 (p) , ngược lại thì ta chấp nhận H 0 và kết luận có tính độc lập giữa các
quan sát trong mô hình (8.8).
Ví dụ 1: Nghiên cứu về tình hình phát triển sản xuất trong khu vực công nghiệp của
Việt Nam theo dõi trong các năm từ năm 1976 đến năm 1995, ta có bảng số liệu với
các con số hàng năm về tổng sản lượng Y, tổng lực lượng lao động X 2 và tổng số vốn
đầu X 3 của toàn ngành như sau:
Năm X2 X3 Y
1976 2.000000 2.000000 46266.00
1977 5.657601 2.000000 58865.00
1978 2.000000 3.998823 37392.00
1979 5.657601 3.998823 107915.0
1980 2.000000 6.001443 133026.0
1981 10.38124 2.000000 127848.0
1982 5.657601 6.001443 154107.0
1983 10.38124 3.998823 226500.0
1984 10.38124 6.001443 146649.0
1985 2.000000 2.000000 31448.00
1986 2.000000 3.998823 70778.00
1987 5.657601 2.000000 70658.00
1988 5.657601 3.998823 118409.0
1989 2.000000 6.001443 90536.00
1990 10.38124 2.000000 73843.00
1991 5.657601 6.001443 159804.0
1992 10.38124 3.998823 225100.0
1993 10.38124 6.001443 167678.0
1994 5.657601 3.998823 88699.00
1995 2.000000 2.000000 53852.00
Ta cần biết trong mô hình hồi quy của Y theo hai biến độc lập X 2 , X 3 có sự tương
quan của các sai số hay không. Sử dụng phần mềm Eviews để tiến hành phép kiểm
định Durbin – Waston, ta có kết quả sau:
Dependent Variable: Y
Method: Least Squares
Date: 11/11/09 Time: 18:12
Sample: 1 20
Included observations: 20
Variable Coefficient Std. Error t-Statistic Prob.
C -21717.59 22180.83 -0.979116 0.3413
X2 10751.92 2165.515 4.965061 0.0001
X3 17662.45 4533.201 3.896242 0.0012
R-squared 0.715471 Mean dependent var 109468.7
Adjusted R-squared 0.681997 S.D. dependent var 57734.42
S.E. of regression 32557.46 Akaike info criterion 23.75688
Sum squared resid 1.80E+10 Schwarz criterion 23.90624
Log likelihood -234.5688 F-statistic 21.37391
Durbin-Watson stat 2.289076 Prob(F-statistic) 0.000023
Trong bảng trên ta thấy giá trị thống kê Durbin – Waston là d = 2.289076. Tra bảng giá
trị tới hạn Durbin – Waston với k = 3 (k’= 2), n = 20, ta có dU = 1.54 , 4 – dU = 2.46 ,
dL = 1.1. Rõ ràng dU < d < 4 – dU. Như vậy ta có thể chấp nhận H 0 , kết luận trong mô
hình không có tương quan chuỗi bậc 1 dương hay âm.
Ví dụ 2: Ta có thể áp dụng tiêu chuẩn 2 để giải quyết bài toán của ví dụ 1. Cụ thể,
với phần mềm Eviews sau khi có kết quả của hồi quy gốc, ta vào mục View
(Residualtest/Serial Corelation LM test) rồi nhấn Enter vào ô Lay Specification, gõ số
1 để cuối cùng thu được kết quả trong bảng sau:
Breusch-Godfrey Serial Correlation LM Test:
Test Equation:
Dependent Variable: RESID
Method: Least Squares
Date: 11/11/09 Time: 18:39
Presample missing value lagged residuals set to zero.
Trong báo cáo biến RESID(-1) chính là sai số u t 1 ở giai đoạn t-1. Ta còn có
Obs*R _ Squared chính là giá trị n 1 R 2 . Như vậy
2 (n 1)R 2 0.788709 .
Tra bảng phân phối khi-bình phương với 1 bậc tự do, ta được giá trị: 0.05
2
1 3.841 .
So sánh giá trị của thống kê với giá trị tới hạn, ta thấy
2 0.788709 < 0.05
2
(1) 3.841 . Từ đó, ta chấp nhận giả thuyết H 0 và kết luận trong
mô hình không có sự tự tương quan bậc 1 giữa các sai số.
Chú ý: Ta có thể dùng giá trị xác suất ý nghĩa của thống kê để tiến hành kiểm định.
Cụ thể, ứng với 2 0.788709 là xác suất ý nghĩa bằng 0.374491. So sánh xác suất
đó với mức ý nghĩa α = 0.05, ta thấy 0.374491 > 0.05, do đó có thể chấp nhận giả
thuyết H0 và kết luận giống như trên.
u t u t 1 t , 1
1. Hiện tượng tự tương quan thường xảy ra với loại số liệu nào và vì sao?
2. Cấu trúc của TTQ có thể là bậc 1 hoặc bậc cao. Vậy làm thế nào để xác định đúng cấu trúc này?
3. Khi TTQ xảy ra, hậu quả của nó cho mô hình là như thế nào?
4. Trong các phương pháp phát hiện TTQ, ý tưởng chủ đạo là gì?
5. Phương pháp kiểm định Durbin-Watson dựa trên giả thiết gì, có sử dụng để phát hiện TTQ
bậc cao hay không?
6. Trong kiểm định Durbin-Watson, có khoảng giá trị của thống kê d mà ta không thể kết luận
có TTQ hay không, khi đó cần làm thế nào?
7. Phương pháp chung của khắc phục TTQ có ý tưởng như thế nào?
8. Phương pháp Cochrance Orcutt dùng để làm gì trong việc khắc phục hiện tượng TTQ?
1. Khi các nhiễu ngẫu nhiên tương quan với nhau, hiện tượng này gọi là:
A. Phương sai của sai số thay đổi.
B. Phương sai của sai số không đổi.
C. Đa cộng tuyến.
D. Tự tương quan.
3. Tự tương quan thường xảy ra với các số liệu theo chuỗi thời gian
A. Đúng.
B. Sai.
4. Nếu thống kê Durbin – Watson có giá trị gần 0, hiện tượng nào xảy ra:
A. Phương sai của sai số thay đổi.
B. Nhiễu ngẫu nhiên không có phân phối chuẩn.
C. Đa cộng tuyến.
D. Tự tương quan.
6. Dùng kiểm đinh Durbin-Watson có thể phát hiện ra tự tương quan với cấu trúc tự hồi quy
bậc cao.
A. Đúng. B. Sai.
7. Kết quả hồi quy cho thống kê Durbin-Watson là 0.370186. Điều đó chứng tỏ rằng:
A. Có tự tương quan âm vì thống kê DW nhỏ.
B. Có tự tương quan dương vì thống kê DW nhỏ.
C. Không có tự tương quan âm hay dương vì thống kê DW nhỏ.
8. Kết quả hồi quy cho thống kê Durbin-Watson là 2.00006. Điều đó chứng tỏ rằng:
A. Có tự tương quan âm vì thống kê DW gần 2.
B. Có tự tương quan dương vì thống kê DW gần 2.
C. Không có tự tương quan âm hay dương vì thống kê DW gần 2.
9. Nếu d L d d U , ta không có kết luận về tự tương quan bậc 1 trong mô hình hồi quy:
A. Đúng. B. Sai.
10. Giả sử ta kiểm định tự tương quan bậc 3 bằng kiểm định Breusch-Godfrey Serial Correlation
LM Test (dùng Eviews) có thống kê khi bình phương là 6.357 với p-value tương ứng là
0.09545. Với mức ý nghĩa 0.05, kết luận là:
A. Không có tự tương quan bậc 3.
B. Có tự tương quan bậc 3.
C. Không có kết luận về tự tương quan bậc 3.
ĐÁP ÁN
Bài 1: KINH TẾ LƯỢNG LÀ GÌ?
biến kinh tế. Hơn nữa, mục đích của chúng ta là tìm hiểu về mối quan hệ thực sự trong tổng
thể, nên ta cũng cần có những kỹ thuật suy diễn thống kê. Tóm lại, đi theo một quá trình như
đã nêu cho phép ta thực hiện nghiên cứu bằng phương pháp kinh tế lượng một cách khoa học
và chặt chẽ nhất.
8. Ta có nên tin tưởng hoàn toàn vào các kết quả đưa ra bằng phương pháp kinh tế
lượng hay không?
Phương pháp nghiên cứu nào trong kinh tế xã hội đều có những sai số. Việc căn cứ vào các
kết quả dự báo của kinh tế lượng cũng chỉ có tính tương đối. Ta cần có những đối chiếu và
lựa chọn những phương pháp thích hợp cho từng loại nghiên cứu để có thể đạt được kết quả
phù hợp nhất.
5. Tại sao lại cần đưa ra khái niệm hàm hồi quy tổng thể?
Mục đích chính của chúng ta trong phân tích hồi quy là biết được bản chất của các mối quan
hệ kinh tế cho cả một quá trình hay cả một tổng thể. Vì thế, ta cần có một mô hình kinh tế
lượng để thể hiện quan hệ này, trong đó các tham số được hiểu như là thể hiện quan hệ chính
xác và đúng đắn giữa biến độc lập và biến phụ thuộc.
6. Hàm hồi quy mẫu sẽ cho biết điều gì?
Thông thường thì trong các nghiên cứu kinh tế xã hội ta không biết được toàn bộ, ta chỉ
có thể biết được một phần của nó. Từ phần biết được này, ta có thể xây dựng mô hình
hành vi của các biến dựa trên mô hình hồi quy tổng thể đã có (hàm hồi quy mẫu). Từ đó,
ta sử dụng thông tin của mẫu để suy luận về cho tổng thể chưa biết. Như vậy hàm hồi quy
mẫu có thể được coi là một ước lượng của hàm hồi quy tổng thể.
Có những cách thể hiện nào cho hàm hồi quy mẫu và hàm hồi quy tổng thể?
Với dạng hàm tuyến tính ta đều có thể dùng dạng hàm cho giá trị trung bình hoặc giá trị
cá biệt của biến phụ thuộc để thể hiện hàm tổng thể và mẫu :
E(Y | X i ) 1 2 X i (1) Yi 1 2 X i u i (2)
1. C 2. B 3. C 4. D 5. A
Trong mô hình bội, hệ số chặn cũng đóng vai trò là trung bình của Y khi tất cả các biến độc
lập bằng 0. Tuy nhiên hệ số góc trong mô hình hồi quy bội thể hiện ảnh hưởng của riêng từng
biến độc lập lên biến phụ thuộc Y khi các biến độc lập khác được giữ không đổi.
3. Hệ số xác định bội trong mô hình hồi quy bội cho biết điều gì?
Hệ số này cho biết độ phù hợp của cả mô hình hồi quy, tức là bao nhiêu phần trăm sự biến
thiên trong biến phụ phuộc là được giải thích bởi mô hình hồi quy. Nếu hệ số xác định trong
mô hình hồi quy bội bằng không tức là toàn bộ các biến độc lập trong mô hình không giải
thích cho sự thay đổi của biến phụ thuộc.
4. Tại sao lại cần đưa ra khái niệm hệ số xác định bội đã điều chỉnh trong hàm hồi quy bội?
Vì khi ta đưa thêm biến độc lập vào mô hình hồi quy thì hệ số R2 luôn tăng lên (do ảnh
hưởng của các biến độc lâp tăng lên), nên để quyết định việc đưa biến độc lập mới vào trong
mô hình, người ta dùng hệ số xác định bội đã điều chỉnh vì giá trị của nó khi đưa thêm biến
mới có thể tăng, giảm hoặc không đổi.
5. Khi nào thi nên đưa thêm biến độc lập mới vào mô hình nếu sử dụng hệ số xác định bội
đã điều chỉnh?
Ta sẽ quyết định đưa thêm biến mới vào mô hình nếu như thấy hệ số xác định bội đã điều
chỉnh tăng thêm. Đồng thời sự có mặt của biến mới trong mô hình là có ý nghĩa (sử dụng
kiểm định t).
6. Khi nào thi ta cần xây dựng khoảng tin cậy cho các hệ số hồi quy?
Nếu ta muốn biết một biến độc lập nào đó thay đổi một đơn vị và dẫn tới thay đổi trong trung
bình của biến phụ thuộc là như thế nào thì ta tìm khoảng tin cậy cho hệ số tương ứng của biến
phụ thuộc.
7. Khi nào thì dùng khoảng tin cậy đối xứng, bên phải hoặc bên trái?
Khi ta muốn biết trung bình biến Y thay đổi trong khoảng nào nếu một biến độc lập thay đổi
một đơn vị, ta dùng khoảng tin cậy đối xứng. Nếu ta muốn biết trung bình biến Y thay đổi tối
đa bao nhiêu, ta dùng KTC bên trái, ngược lại dùng KTC bên phải (cần chú ý nếu quan hệ
giữa biến phụ thuộc và độc lập mà ngược chiều thì khoảng tin cậy bên phải dùng để ước
lượng giá trị tối đa và ngược lại).
8. Kiểm định gả thiết về một hệ số hồi quy bằng 0 có ý nghĩa gì, kiểm định hệ số hồi quy
bằng 1 giá trị cụ thể có ý nghĩa gì?
Khi kiểm định một hệ số βj gắn với biến Xj bằng 0, ta muốn kiểm định về ý nghĩa sự có mặt
của riêng biến Xj trong mô hình, nói cách khác là kiểm tra xem Xj có ảnh hưởng gì đến Y
trong mô hình hồi quy hay không. Còn kiểm định βj bằng một giá trị cụ thể là đi kiểm tra về
tốc độ thay đổi của trung bình của Y khi biến X tương ứng hay đổi một đơn vị.
9. Kiểm định F về sự phù hợp của mô hình hồi quy có ý nghĩa gì?
Kiểm định F cho biết mô hình hồi quy có phù hợp hay không bằng cách so sánh phần biến
thiên gây ra bởi hàm hồi quy mẫu và phần biến thiên gây ra bởi phần dư. Kiểm định này
chính là kết quả của phân tích phương sai. Nếu ta bác bỏ H0 tức là có ít nhất 1 biến độc lập sẽ
có ảnh hưởng đến biến phụ thuộc.
1. D 2. C 3. C 4. C 5. D 6. C 7. B 8. C 9. B 10. C
6. Có thể nhận biết được đa cộng tuyến xảy ra mà không cần thực hiện các kiểm định?
Có, ta có thể căn cứ vào những dấu hiệu của đa cộng tuyến trong kết quả ước lượng của mô
hình. Các tỉ số t thấp (ít biến độc lập có ý nghĩa) mặc dù hệ số xác định bội vẫn cao. Bên
cạnh đó, dấu hiệu kì vọng của các hệ số có thể sai. Đó là các dấu hiệu đặc trưng cho biết có
đa cộng tuyến xảy ra.
7. Khi thực hiện hồi quy phụ để phát hiện ra đa cộng tuyến, có nhất thiết phải thành lập
tất cả các hàm hồi quy phụ có thể không?
Về mặt nguyên tắc là ta sẽ thành lập tất cả các hàm hồi quy phụ rồi kiểm tra về sự phù hợp của
các hàm hồi quy phụ này. Tuy nhiên, nếu như một hàm hồi quy phụ được sử dụng và đã cho
kết luận về đa cộng tuyến tồn tại thì không cần thiết thành lập thêm hàm hồi quy phụ nữa.
8. Trong các biện pháp khắc phục đa cộng tuyến thì biện pháp nào phổ biến?
Thực chất thì tùy vào tình hình thực tế của nghiên cứu và điều kiện có thể để đưa ra các biện
pháp khắc phục thích hợp. Ví dụ, nếu ta có thể lấy thêm các quan sát thì đây là biện pháp nên
sử dụng trước tiên. Việc biến đổi mô hình hoặc sử dụng thông tin tiên nghiệm cũng có thể
được áp dụng rộng rãi. Biện pháp bỏ biến cần xem xét kĩ hơn vì việc thu thập số liệu về biến
đó đã có thể mất nhiều công sức.
1. C 2. D 3. D 4. D 5. C
là các ước lượng hiệu quả. Vì thế các kiểm định t và kiểm định F sẽ cho các kết quả không
đáng tin cậy.
3. Nếu như không biết được các nhiễu ngẫu nhiên thì làm thế nào để có thể nhận định về
hiện tượng PSSS thay đổi trong mô hình?
Mặc dù không biết nhiễu ngẫu nhiên nhưng ta có thể căn cứ vào ước lượng của chúng là các
phần dư để xem xét liệu có PSSS thay đổi xảy ra hay không. Các phương pháp phổ biến
thường dùng là dùng đồ thị các phần dư hoặc dùng các kiểm định phát hiện dựa trên giả thiết
về sự thay đổi của các phần dư theo một biến nào đó.
4. Ý tưởng của phương pháp dùng đồ thị phần dư để phát hiện PSSS thay đổi trong mô
hình là gì?
Ta biết PSSS thay đổi xảy ra khi các nhiễu ngẫu nhiên có phương sai khác nhau với các giá
trị khác nhau của biến phụ thuộc hoặc biến độc lập. Ta sẽ dùng ước lượng của các nhiễu ngẫu
nhiên là các phần dư để vẽ đồ thị thay đổi của chúng theo biến phụ thuộc hoặc biến độc lập.
Nếu đồ thị thể hiện xu thế thay đổi của các phần dư này khi các biến tương ứng tăng lên hoặc
giảm đi thì có thể cho rằng có PSSS thay đổi trong mô hình.
5. Ý tưởng của các phương pháp dùng kiểm định phát hiện ra PSSS thay đổi là gì?
Mỗi phương pháp dùng kiểm định để phát hiện PSSS thay đổi, đều dựa trên một giả thiết về
sự thay đổi của phương sai của các nhiễu ngẫu nhiên theo một biến nào đó. Căn cứ vào giả
thiết này, ta đi ước lượng các mô hình hồi quy phụ tương ứng và kiểm định về sự phù hợp
của chúng. Nếu chúng phù hợp tức là hàm hồi quy ban đầu có PSSS thay đổi và ngược lại.
Trong các hàm hồi quy phụ này, các phương sai của nhiễu ngẫu nhiên chưa biết nên ta
thường dùng các phần dư để tiến hành ước lượng mô hình.
6. Có nên áp dụng tất cả các phương pháp kiểm định để phát hiện PSSS thay đổi hay không?
Ở đây cũng giống như khám để phát hiện ra bệnh trong mô hình, nếu bằng phương pháp này
chưa phát hiện ra thì ta có thể áp dụng phương pháp khác. Tất nhiên nếu dùng một phương
pháp nào đó và khẳng định có khuyết tật thì cũng là đủ. Tuy nhiên việc dùng nhiều phương
pháp một lúc cũng có tác dụng trong việc tìm nguyên nhân và từ đó đưa ra biện pháp khắc phục
tương ứng.
7. Trong các phần mềm có sẵn các kiểm định phát hiện PSSS thay đổi hay không?
Mỗi phần mềm kinh tế lương (EVIEWS, MFIT,...) thì người viết thường đưa sẵn vào ít nhất
một thủ tục kiểm định để phát hiện PSSS thay đổi. Trong các thủ tục đó thì các thống kê
dùng làm tiêu chuẩn kiểm định được tính toán sẵn cùng với các p-value tương ứng. Việc sử
dụng các thủ tục này rất thuận tiện cho người học vì chỉ cần đọc bảng kết quả và dùng
phương pháp p-value để kiểm định.
8. Ý tưởng của các phương pháp khắc phục PSSS thay đổi là gì?
Đó là căn cứ vào giả thiết nêu ra về sự thay đổi của phương sai của sai số ngẫu nhiên theo
một biến nào đó. Từ đó tìm cách biến đổi mô hình hồi quy về dạng và nhiễu ngẫu nhiên
mới sẽ có phương sai đồng đều. Đây chính là nội dung của phương pháp bình phương tối
thiểu tổng quát.
1. A 2. B 3. B 4. D 5. C 6. B 7. B 8. A 9. D
6. Tại sao số biến giả được thiết lập cho một biến định tính phải ít hơn số thuộc tính của
biến đó là 1?
Nếu ta đặt số biến giả bằng với số thuộc tính của biến định tính thì tổng của các biến giả luôn
bằng 1, vì thế sẽ vi phạm một giả thiết trong mô hình hồi quy bội là không có đa cộng tuyến.
7. Các biến giả trong mô hình hồi quy được sử dụng có khác gì với các biến định lượng
thông thường không?
Các biến giả được sử dụng giống như các biến định lượng, các ước lượng, kiểm định và các
suy luận khác cho hệ số của biến giả vẫn được sử dụng các kỹ thuật đã trình bày. Tuy nhiên,
người học cần lưu ý khi giải thích ý nghĩa hệ số của biến giải thích trong mô hình vì chúng bây
giờ thể hiện ảnh chênh lệch giữa các phạm trù khác nhau của một hoặc nhiều biến định tính.
8. Nếu trong mô hình có cả biến lượng và biến chất thì nên xây dựng mô hình như thế nào?
Một cách đầy đủ nhất, ta nên xây dựng mô hình trong đó thể hiện cả sự khác nhau trong hệ số
chặn lẫn hệ số góc. Khi đó, ta có thể dùng các kiểm định thích hợp để kiểm tra xem là các mô
hình của các thuộc tính sẽ khác nhau về hệ số chặn, hệ số góc hay cả hai hệ số.
1. D 2. B 3. B 4. B 5. B 6. D 7. A
2. Cấu trúc của TTQ có thể là bậc 1 hoặc bậc cao. Vậy làm thế nào để xác định đúng cấu
trúc này?
Ta có thể dùng các mô tả thống kê, cụ thể là dùng cả đồ thị phần dư để nhận định về cấu trúc
của TTQ. Ta có thể vẽ đồ thị phần dư thứ t với phần dư thứ t-1, hay t-2, ...Từ đó biết được sẽ
có những quan hê bậc 1, bậc 2 ,... tồn tại hay không.
3. Khi TTQ xảy ra, hậu quả của nó cho mô hình là như thế nào?
Cũng giống như các khuyết tật PSSS thay đổi hay định dạng mô hình hồi quy sai, TTQ xảy ra
trong mô hình sẽ dẫn tới các ước lượng nhận được bằng phương pháp OLS sẽ không thỏa
mãn tính chất tốt nhất.Vì thế các suy diễn thống kê như xây dựng khoảng tin cậy hoặc các
kiểm định t và F sẽ cho các kết quả không đáng tin cậy.
4. Trong các phương pháp phát hiện TTQ, ý tưởng chủ đạo là gì?
Đó là đặt ra các giả thiết về cấu trúc của TTQ, sau đó đi ước lượng các mô hình hồi quy phụ
để tìm ra cấu trúc là đúng hay sai.
5. Phương pháp kiểm định Durbin-Watson dựa trên giả thiết gì, có sử dụng để phát hiện
TTQ bậc cao hay không?
Kiểm định Durbin-Watson dùng để phát hiện TTQ bậc 1, AR(1) trong mô hình hồi quy. Có
một số giả thiết đối với kiểm định này: Mô hình không có biến trễ của biến phụ thuộc, không
bị mất quan sát.
6. Trong kiểm định Durbin-Watson, có khoảng giá trị của thống kê d mà ta không thể kết
luận có TTQ hay không, khi đó cần làm thế nào?
Kiểm định DW là kiểm định dễ dàng thực hiện và việc tính toán thống kê DW được cho sẵn
trong tất cả các phần mềm thống kê. Tuy nhiên trong kiểm định này, có 2 khoảng giá trị của
DW mà ta không có quyết định về TTQ trong mô hình. Nếu vậy ta sẽ tiếp tục sử dụng các
kiểm định khác thay thế mà các điều kiện thực hiện được nới lỏng hơn như kiểm định bằng
nhân tử Lagrange.
7. Phương pháp chung của khắc phục TTQ có ý tưởng như thế nào?
Đó là việc dùng các phương trình sai phân (cấp 1 hoặc cấp cao hơn). Khi ta biết được cấu
trúc của TTQ, ta có thể biến đổi mô hình về dạng mới trong đó các biến phụ thuộc và độc lập
là chênh lệch giữa quan sát thứ t và quan sát trễ sau khi đã nhân với cấu trúc của TTQ tương
ứng. Với việc sử dụng phép biến đổi như thế này, nhiễu ngẫu nhiên của mô hình mới sẽ thỏa
mãn các tính chất của OLS, và sẽ không có TTQ.
8. Phương pháp Cochrance Orcutt dùng để làm gì trong việc khắc phục hiện tượng TTQ?
Đây là một thủ tục lặp dùng để ước lượng cấu trúc của TTQ khi ta chưa biết cấu trúc này. Sau
khi ước lượng được cấu trúc này, ta thay vào phương trình sai phân để khắc phục TTQ.
1. D 2. A 3. A 4. D 5. C 6. B 7. B 8. C 9. A 10.A