You are on page 1of 178

MỤC LỤC

LỜI NÓI ĐẦU ................................................................................................ 2


Chương 0. .......................................................................................................... 3
MỞ ĐẦU ........................................................................................................ 3
Bài tập........................................................................................................ 15
Chương 1. ........................................................................................................ 16
MÔ HÌNH HỒI QUY HAI BIẾN.................................................................. 16
Bài tập........................................................................................................ 42
Chương 2. ........................................................................................................ 45
MÔ HÌNH HỒI QUY BỘI ............................................................................ 45
Bài tập........................................................................................................ 86
Chương 3. ........................................................................................................ 90
KIỂM ĐỊNH GIẢ THIẾT MÔ HÌNH ........................................................... 90
Bài tập...................................................................................................... 118
HƯỚNG DẪN SỬ DỤNG PHẦN MỀM EVIEW 7.0................................. 121
PHÂN PHỐI GAUSS ................................................................................. 172
PHÂN PHỐI STUDENT ............................................................................ 173
PHÂN PHỐI FISHER 1 .............................................................................. 174
PHÂN PHỐI FISHER 2 .............................................................................. 175
BẢNG GIÁ TRỊ d L VÀ dU CỦA THỐNG KÊ d (với a  0, 05 ) ................. 176
BẢNG GIÁ TRỊ d L VÀ dU CỦA THỐNG KÊ d (với a  0, 05 ) ................. 177
TÀI LIỆU THAM KHẢO ........................................................................... 178

1
LỜI NÓI ĐẦU
Để đáp ứng nhu cầu học tập của sinh viên trường Đại học Tài chính – Marketing nói
chung và sinh viên chương trình chất lượng cao nói riêng về học phần Kinh tế lượng, được sự
đồng ý của Ban Giám hiệu và Bộ môn Toán – Thống kê Khoa cơ bản, tập thể tác giả chúng
tôi đã biên soạn bài giảng này.
Bố cục của giáo trình gồm có 4 chương và 3 phụ lục, bao gồm các kiến thức cơ bản về
Kinh tế lượng.
Chương Mở đầu: Trình bày một số khái niệm, Phương pháp tiếp cận và nghiên cứu về
Kinh tế lượng. Nhắc lại một số công cụ và ký hiệu chung về thống kê dùng trong việc đánh
giá bộ số liệu.
Chương Một: Trình bày các kiến thức liên quan đến vấn đề phân tích hồi quy, khái niệm
về mô hình và hàm hồi quy, phương pháp bình phương bé nhất nhằm xác định các hệ số hồi
quy. Xác định các hệ số mô hình nhằm đánh giá mức độ phù hợp của mô hình. Xây dựng một
số các phân phối xác suất của các ước lượng và bài toán kiểm định sự phù hợp của hàm hồi
quy, cuối cùng trình bày một ứng dụng phân tích hồi quy vào dự báo.
Chương Hai: Trong chương này, chúng tôi trình bày một số kết quả liên quan đến mô
hình hồi quy bội, nghĩa là khảo sát mối quan hệ giữa một biến phụ thuộc với nhiều biến độc
lập, đồng thời một số mô hình phi tuyến cũng được đề cập đến như một sự mở rộng nghiên
cứu. Cũng như trong chương một các vấn đề như : Mô hình hồi quy, hàm hồi quy, các giả
thiết của mô hình, ước lượng tham số, khoảng tin cậy, bài toán kiểm định giả thiết về các hệ
số hồi quy và kiểm định giả thiết đồng thời. Các khái niệm như ma trận tương quan, ma trận
hiệp phương sai. Đặc biệt khái niệm về biến giả và ứng dụng của nó trong phân tích hồi quy.
Chương Ba: Trình bày các kiểm định giả thuyết, phát hiện cũng như biện pháp khắc
phục của các giả thuyết trong một mô hình đã được đề cập trong chương một như: phương sai
thay đổi, đa cộng tuyến và tự tương quan. Ngoài ra giáo trình còn có các chương phụ lục
hướng dẫn sử dụng phần mềm Eviews nhằm giúp các sinh viên tìm kết quả hồi quy cũng như
giải quyết một số các bài toán kiểm định một cách nhanh chóng.
Nhóm tác giả tham gia biên soạn gồm có
ThS. Nguyễn Văn Phong viết phần lý thuyết chương 1, 2.
ThS. Nguyễn Trung Đông viết phần lý thuyết chương 3 và phần hướng dẫn sử dụng
phần mềm Eviews. Đọc và chỉnh sửa bản in.
ThS. Nguyễn Tuấn Duy viết phần bài tập cho các chương.
Chúng tôi xin chân thành cảm ơn PGS. TS. Trần Lộc Hùng, TS. Trần Kim Thanh, đã
đọc và cho nhiều ý kiến nhận xét quý báu.
Bài giảng này được xuất bản lần đầu do vậy sẽ không tránh khỏi những thiếu sót. Rất
mong được sự đóng góp ý kiến của các đồng nghiệp và bạn đọc sinh viên.
Bài giảng được biên soạn với phần lý thuyết tương đối ngắn gọn và phần ví dụ, bài tập
khá phong phú, nhằm đáp ứng nhu cầu học tập và ứng dụng của tất cả các bạn sinh viên về
môn học Kinh tế lượng. Hy vọng đây sẽ là tập bài giảng bổ ích đối với đông đảo các bạn sinh
viên trong nghiên cứu và học tập môn Kinh tế lượng trong nhà trường.
Tập thể tác giả

2
Chương 0.
MỞ ĐẦU
Kinh tế lượng với thuật ngữ tiếng Anh là “Econometrics” được Giáo sư Kinh tế học
người Na Uy, A.K. Ragnar Frisch (Nobel kinh tế năm 1969), sử dụng đầu tiên vào khoảng
năm 1930. Từ này được ghép từ hai thuật ngữ gốc là “Econo” có nghĩa là kinh tế và
“Metrics” có nghĩa là đo lường.
Từ đó, kinh tế lượng có thể hiểu là “đo lường kinh tế” mặc dù ngày nay phạm vi của
kinh tế lượng đã được mở rộng hơn nhiều và người ta đã đưa ra nhiều định nghĩa khác nhau
để giải thích. Trong đó một khía cạnh quan trọng được nghiên cứu của kinh tế lượng đó là
“Xác định về thực nghiệm các quy luật kinh tế.”
Các lý thuyết kinh tế thường nêu ra các giả thuyết về chất (định tính) và khi đó, kinh tế
lượng cố gắng lượng hóa các giả thuyết này (bằng cách định lượng các quan hệ). Chẳng hạn,
kinh tế học vi mô khẳng định rằng khi các điều kiện khác không thay đổi, nếu giảm giá một
loại hàng hóa nào đó thì sẽ làm tăng lượng cầu về loại hàng hóa này và ngược lại. Giả thuyết
này cho biết quan hệ giữa giá cả và lượng cầu là nghịch biến và kinh tế lượng cố gắng lượng
hóa chúng, chẳng hạn cho biết lượng cầu sẽ tăng/giảm bao nhiêu khi ta giảm/tăng một đơn vị
giá cả. Nói khác đi, kinh tế lượng quan tâm đến việc kiểm định về mặt thực nghiệm các lý
thuyết kinh tế.
Để làm điều này, kinh tế lượng sử dụng các số liệu thống kê và các phương pháp thống
kê toán để tìm ra bản chất mối quan hệ giữa các đại lượng.
1. Phương pháp Kinh tế lượng
Nội dung của phương pháp kinh tế lượng thường gồm các bước sau :
Bước 1. Đặt vấn đề cần khảo sát của lý thuyết kinh tế liên quan đến giả thuyết về các
mối quan hệ giữa các biến kinh tế.
Ví dụ, ta khảo sát giả thuyết của kinh tế học vĩ mô cho rằng mức tiêu dùng của các hộ gia đình có quan
hệ cùng chiều với thu nhập khả dụng của họ.

Bước 2. Thiết lập mô hình toán học để mô tả mối quan hệ giữa các biến kinh tế khảo
sát.
Chẳng hạn, với biến Y chỉ lượng chi tiêu cho tiêu dùng một hộ gia đình và biến X chỉ thu nhập khả
dụng của hộ gia đình đó, ta thành lập một mô hình tuyến tính dạng

Y  1   2 X   ,
trong đó 1 và  2 là các tham số cần ước lượng mà ta gọi là các tham số của mô hình và  là
yếu tố ngẫu nhiên mà nguồn gốc tồn tại của nó là do quan hệ giữa các biến kinh tế nói chung
là ngẫu nhiên, không chính xác.
Bước 3. Sử dụng các số liệu thống kê thu thập được để ước lượng các tham số của mô
hình.
Chẳng hạn, dựa trên mẫu thống kê khảo sát trên n hộ gia đình, ta được n cặp số liệu  X i , Yi  ,
với 1  i  n , trong đó X i và Yi lần lượt là lượng thu nhập khả dụng và lượng chi tiêu cho tiêu
dùng của hộ gia đình thứ i. Dùng một phương pháp thống kê toán, mà người ta gọi là phương
pháp hồi quy, nhằm ước lượng các tham số 1 và  2 .
Bước 4. Phân tích kết quả dựa trên giả thuyết kinh tế.

3
Ví dụ, với mô hình Y  1   2 X   nêu trong bước 2 và với mẫu thống kê trong bước 3
được dùng để ước lượng tham số, nếu ước lượng 0   2  1 được kiểm định chấp nhận, ta
thấy nó phù hợp với giả thuyết kinh tế trong bước 1 vì  2  0 cho thấy khi lượng thu nhập
khả dụng tăng (X tăng) thì lượng chi tiêu cho tiêu dùng tăng (Y tăng) đồng thời  2  1 phù
hợp với giả thuyết lượng chi tiêu cho tiêu dùng hộ gia đình không vượt quá mức thu nhập khả
dụng của hộ gia đình đó ( Y  X ). Khi đó, ta có thể nói rằng mô hình toán học trong bước 2 là
phù hợp về mặt kinh tế. Trường hợp mô hình đã chọn không phù hợp về mặt kinh tế, ta cần
trở lại bước 2 để thành lập một mô hình khác với mong muốn rằng mô hình này sẽ tốt hơn.
Bước 5. Khai thác kết quả.
Khi mô hình nhận được phù hợp với giả thuyết kinh tế, ta có thể dùng mô hình này để :
- Dự báo.
- Kiểm tra hay đề ra chính sách.
Ví dụ, với mô hình Y  1   2 X   được chấp nhận và với một mức thu nhập khả dụng X
cho trước của một hộ gia đình, ta dự báo lượng chi tiêu cho tiêu dùng của hộ gia đình đó.
Ta minh họa các bước trên qua ví dụ số cụ thể sau :
Bước 1. Giả thuyết kinh tế : mức chi tiêu cho tiêu dùng của các hộ gia đình có quan hệ
cùng chiều với thu nhập khả dụng của họ.
Bước 2. Xét mô hình Y  1   2 X   , với Y chỉ lượng chi tiêu cho tiêu dùng và X chỉ
lượng thu nhập khả dụng của một hộ gia đình, 1 và  2 là các tham số cần ước lượng.

Bước 3. Thu thập một mẫu thống kê gồm các cặp  X , Y  , trong đó X chỉ lượng thu
nhập khả dụng của hộ gia đình (đơn vị ngàn đồng) và Y chỉ lượng chi tiêu cho tiêu dùng của
hộ gia đình đó (đơn vị ngàn đồng) trong cùng một đơn vị thời gian, ta có các số liệu
80,55 , 80, 60  ,  80,65 , 80, 70  , 80, 75 , 100, 65 , 100, 70 , 100, 74 , 100,80  ,
100,85 , 100,88 , 120, 79 , 120,84  , 120,90  , 120,94  , 120,98 , 140,80  ,
140,93 , 140,95 , 140,103 , 140,108 , 140,113 , 140,115 , 160,102  , 160,107  ,
160,110  , 160,116  , 160,118 , 160,125 , 180,110  , 180,115 , 180,120  , 180,130  ,
180,135 , 180,140  ,  200,120  ,  200,136  ,  200,140  ,  200,144  ,  200,145 ,
 220,135 ,  220,137  ,  220,140  ,  220,152  ,  220,157  ,  220,160  ,  220,162  ,
 240,137  ,  240,145 ,  240,155 ,  240,165 ,  240,175 ,  240,189  ,  260,150  ,
 260,152  ,  260,175 ,  260,178 ,  260,180  ,  260,185 ,  260,191 .
Biểu diễn các điểm này trên trục tọa độ với trục hoành chỉ thu nhập và trục tung chỉ chi tiêu
như trong hình 1.

4
Hình 1
Rõ ràng với cùng một mức thu nhập khả dụng X như nhau, chi tiêu cho tiêu dùng Y là một
biến ngẫu nhiên lấy nhiều giá trị khác nhau và điều này giải thích sự tồn tại tham số ngẫu
nhiên  trong mô hình khảo sát sự liên hệ của chi tiêu Y theo thu nhập X. Một trong những
giải thuật đơn giản để xác định các tham số 1 và  2 là ứng với mỗi giá trị của X, ta thay thế
các giá trị Y tương ứng bằng giá trị trung bình của nó (điểm đánh dấu trong hình 2) và tìm
đường thẳng đi qua các điểm này. Chẳng hạn, với giá trị X  80 , ta có các giá trị Y tương ứng

55, 60, 65, 70 và 75
và trung bình của nó là
55  60  65  70  75
E Y X  80    65 .
5

Hình 2
Bây giờ, với đường thẳng đi qua điểm đầu cuối,  80, 65  và  260,173 , ta có

X  80 Y  65

260  80 173  65
và do đó ta được phương trình
Y  26.3333  0.4833 X .

5
Bước 4. Do hệ số  2  0.4833 thỏa điều kiện 0   2  1 nên kết quả này phù hợp với
giả thuyết kinh tế trong Bước 1. Tuy nhiên vấn đề khảo sát sự phù hợp của một mô hình còn
phụ thuộc vào một số yếu tố mà chúng ta sẽ khảo sát chặt chẽ hơn trong các chương kế tiếp.
Bước 5. Ta có thể dùng mô hình nhận được trong Bước 3 để dự báo. Chẳng hạn, nếu
biết thu nhập khả dụng của một hộ gia đình là X  300 , ta dự đoán chi tiêu cho tiêu dùng
trung bình của hộ gia đình này là Y  26.3333  0.4833  300  171.3233 .
Các bước trên cần được thực hiện tuần tự và mỗi bước có một vai trò khác nhau trong quá
trình phân tích một vấn đề kinh tế. Tuy nhiên, việc tìm ra bản chất một vấn đề kinh tế là
không đơn giản. Do đó, quá trình nêu trên thường được lặp đi lặp lại nhiều lần cho đến khi ta
thu được một mô hình chấp nhận được. Quá trình phân tích kinh tế lượng như thế có thể biểu
diễn bằng sơ đồ sau

Hình 3
Hơn nữa, cần nhấn mạnh rằng thành công của bất kỳ một quá trình phân tích kinh tế nào cũng
đều phụ thuộc vào việc sử dụng các số liệu thích hợp cũng như phương pháp sử lý các số liệu
đó. Có ba loại số liệu : Số liệu theo thời gian (chuỗi thời gian), số liệu chéo và số liệu hỗn
hợp.
Số liệu theo thời gian là các số liệu thu thập tại từng thời điểm nhất định. Chẳng hạn như số
liệu về GDP bình quân của Việt Nam theo các năm từ 1998 – 2006 được cho trong bảng sau :
Năm 1998 1999 2000 2001 2002 2003 2004 2005 2006
GDP 360 374 401 413 440 489 553 618 655
Bảng 1 : Số liệu theo thời gian
Số liệu chéo là số liệu thu thập tại một thời điểm ở nhiều nơi, địa phương, đơn vị, khác nhau.
Chẳng hạn như số liệu về GDP bình quân trong năm 2006 của các nước Brunei, Campuchia,
Indonesia, Lào, Malaysia, Myanmar, Philippines, Singapore, Thái Lan, Việt Nam được cho
như sau
Nước GDP Nước GDP
Brunei 30376 Myanmar 230
Campuchia 459 Philippines 1361
Indonesia 1581 Singapore 30162
Lào 570 Thái Lan 2959
Malaysia 5570 Việt Nam 655
6
Bảng 2 : Số liệu chéo
Số liệu hỗn hợp là số liệu tổng hợp của hai loại trên, nghĩa là các số liệu thu thập tại nhiều
thời điểm khác nhau ở nhiều địa phương, đơn vị khác nhau. Chẳng hạn như số liệu về GDP
bình quân của các nước, từ 1998 – 2006
Nước 1998 1999 2000 2001 2002 2003 2004 2005 2006
Brunei 13065 14511 18465 16820 17135 18788 21989 25759 30376
Campuchia 255 281 285 302 317 333 373 430 459
Indonesia 516 746 807 773 928 1100 1176 1283 1581
Lào 255 286 329 326 329 378 432 485 570
Malaysia 3254 3485 3844 3665 3884 4161 4652 5042 5570
Myanmar 134 173 178 129 130 197 199 219 230
Philippines 910 1019 994 914 966 982 1049 1168 1361
Singapore 21009 20909 23075 20724 21210 22157 25345 26839 30162
Thái Lan 1829 1985 1967 1836 1999 2233 2484 2659 2959
Việt Nam 360 374 401 413 440 489 553 618 655
Bảng 3 : Số liệu tổng hợp. Nguồn : Tổng hợp báo cáo IMF và ASEAN
Các số liệu này thường là các số liệu về lượng, nghĩa là chúng có thể định lượng bằng những
con số như giá cả, thu nhập, v.v... Đối với các số liệu về chất, nghĩa là số liệu định tính như
nam/nữ, có/chưa có gia đình, nông thôn / thành thị, v.v ..., người ta thường lượng hóa các biến
này bằng các biến giả (dummy), chẳng hạn biến X, với X  0 chỉ nam, hay có gia đình và
X  1 chỉ nữ, hay chưa có gia đình, v.v...
Ví dụ 1. Số liệu cho trong bảng sau cho biết tiền lương (Y : đơn vị USD) trong một tháng của
49 nhân viên, được so sánh bởi giới tính ( D  0 : Nữ , D  1 : Nam)
Y D Y D Y D Y D Y D
1345 0 1234 0 1345 0 2365 0 3307 1
2435 1 1345 0 2167 1 1345 0 3833 1
1715 1 1345 0 1402 1 1839 0 1839 1
1461 1 3389 1 2115 1 2613 1 1461 0
1639 1 1839 1 2218 1 2533 1 1433 1
1345 0 981 1 3575 1 1602 0 2115 0
1602 0 1345 0 1972 1 1839 0 1839 1
1144 0 1566 0 1234 0 2218 1 1288 1
1566 1 1187 0 1926 1 1529 0 1288 0
1496 1 1345 0 2165 0 1461 1
Bảng 4
Chú ý rằng, trong kinh tế cũng như trong các ngành khoa học xã hội, các số liệu thường là phi
thực nghiệm, nghĩa là các số liệu thu thập được thường không xuất phát từ cùng một điều kiện
như nhau. Do đó, chất lượng của các số liệu thu thập được thường không tốt xuất phát từ
nhiều nguyên nhân khách quan cũng như chủ quan, chẳng hạn do sai số của phép đo, sai số do
quan sát hay bỏ sót quan sát, v.v...
2. Đánh giá sơ bộ số liệu thống kê
Khi có các số liệu thống kê, trước hết người ta có thể biểu diễn chúng bằng các điểm trên một
hệ trục tọa độ để có một nhận định sơ bộ gọi là biểu đồ rời rạc (hay biểu đồ phân tán số liệu).
Ngoài ra, người ta còn có thể ước lượng mối quan hệ giữa chúng bằng một số các tham số
thống kê.
Xét các bộ số liệu  X i , Yi  , i  1,..., n , của hai biến ngẫu nhiên X, Y với các trung bình
7
1 n 1 n
X 
n i 1
X i , Y   Yi .
n i 1
Ta xét tham số hiệp phương sai mẫu,  X ,Y , của chúng, được định nghĩa là trung bình mẫu của
tích số  X   X  Y  Y  ,

1 n
 X ,Y    X i   X Yi  Y  .
n i 1
Một cách trực quan, khi  X ,Y  0 , đa số những giá trị của X lớn hơn giá trị trung bình của nó,
X i   X  0 , đi kèm với những giá trị của Y lớn hơn giá trị trung bình của nó, Yi  Y  0 , và
ta có thể nói rằng X, Y có quan hệ đồng biến với nhau.
Ngược lại, khi  X ,Y  0 , đa số những giá trị của X lớn hơn giá trị trung bình của nó,
X i   X  0 , đi kèm với những giá trị của Y nhỏ hơn giá trị trung bình của nó, Yi  Y  0 , và
ta nói X, Y có quan hệ nghịch biến với nhau.

Quan hệ đồng biến. Quan hệ nghịch biến.


Hình 4
Để xét trường hợp  X ,Y  0 , ta chú ý rằng khi X và Y là hai biến số ngẫu nhiên độc lập, nghĩa

P  X  x; Y  y   P  X  x  P Y  y  ,

thì X   X và Y  Y cũng là hai biến số ngẫu nhiên độc lập và do đó  X ,Y  0 .


Ngoài ra, khi X và Y có quan hệ tuyến tính với nhau mà ta còn gọi là có hiện tượng
cộng tuyến giữa X và Y, nghĩa là tồn tại a  0 sao cho Y  a X   , thì vì Yi  a X i   , với
mọi i, ta suy ra
Y  E (Y )  E a X     a E ( X )    a X   .
Do đó
 X   X Y  Y    X   X   a X     a X    
2
 a  X  X 
cho
 X ,Y  E  X   X Y  Y    0 .

8
Độc lập. Quan hệ phi tuyến.
Hình 5
Từ các nhận xét nêu trên, ta thấy rằng khi X và Y có quan hệ tuyến tính với nhau thì  X ,Y  0 .
Do đó, khi  X ,Y  0 , ta kết luận rằng X và Y không có quan hệ tuyến tính với nhau. Khi đó,
chúng có thể độc lập hay có quan hệ phi tuyến với nhau.
Ví dụ 2. Khảo sát mối quan hệ giữa điểm trung bình ở PTTH và Đại học của 50 học sinh ở
một trường đại học của Mỹ ta có bảng số liệu sau :
ĐH PTTH ĐH PTTH ĐH PTTH ĐH PTTH ĐH PTTH
2.8 3.42 2.66 4.05 2.33 3.38 3 4.31 2.74 3.79
3.54 3.56 2.96 3.57 3.8 4.16 3.71 3.69 2.41 3.5
2.88 3.13 2.34 3.35 3.22 3.33 3.43 3.15 2.86 3.7
2.15 3.27 3.13 3.61 2.53 3.56 3.22 3.41 2.56 3.5
2.22 3.38 3.46 3.83 2.37 3.25 2.82 3 3.28 3.61
3.31 4.13 2.92 3.56 3.12 4.05 2.64 3.45 2.34 3.16
2.13 3.95 2.15 3.43 2.54 3.27 2.4 4 2.67 3.64
2.39 3.81 3 3.52 3.56 3.12 1.77 3.28 2.62 3.93
3.01 4.33 2.42 3.14 3.25 4.06 3.13 2.81 2.54 3.89
2.68 2.85 1.77 3.19 2.32 3.61 2.65 3.29 2.04 3.52
Bảng 5
Trước hết, ta vẽ đồ thị phân tán của X theo Y (trên cùng một đồ thị) bằng cách dùng một phần
mềm máy tính. Chẳng hạn với Eview, ta được

Hình 6
Đồ thị trên cho thấy không có mối quan hệ tuyến tính giữa DTBDH và DTBPTTH. Trong
trường hợp này người ta cho rằng chúng độc lập nhau.
Ví dụ 3. Bảng sau cho số liệu về tỷ lệ lạm phát và tỷ lệ thất nghiệp của Mỹ từ năm 1959 đến
1995
9
Năm TLLP TLTN Năm TLLP TLTN Năm TLLP TLTN
1959 0.69 5.2 1971 4.38 5.9 1983 3.21 9.6
1960 1.72 5.4 1972 3.21 5.6 1984 4.32 7.5
1961 1.01 6.4 1973 6.22 4.9 1985 3.56 7.2
1962 1 5.2 1974 11.04 5.6 1986 1.86 7
1963 1.32 5.7 1975 9.13 8.5 1987 3.65 6.2
1964 1.31 5.2 1976 5.76 7.7 1988 4.14 5.5
1965 1.61 4.5 1977 6.5 7.1 1989 4.82 5.3
1966 2.86 3.8 1978 7.59 6.1 1990 5.4 5.5
1967 3.09 3.8 1979 11.35 5.8 1991 4.21 6.7
1968 4.19 3.6 1980 13.5 7.1 1992 3.01 7.4
1969 5.46 3.5 1981 10.32 7.6 1993 2.99 6.8
1970 5.72 4.9 1982 6.16 9.7 1994 2.56 6.1
1995 2.83 5.6
Bảng 6
Tương tự, ta có đồ thị phân tán sau

Hình 7
Đồ thị trên cho thấy không có mối quan hệ tuyến tính giữa TLLAMPHAT và
TLTHATNGHIEP. Trong trường hợp này người ta cho rằng chúng có quan hệ phi tuyến với
nhau.
Tuy nhiên ta không thể chỉ dựa vào đồ thị phân tán để đánh giá mối hệ giữa các bộ số liệu, mà
ta còn sử dụng các công cụ của toán học để đánh giá các quan hệ trên. Chẳng hạn, để đo
lường mức độ chặt chẽ của sự tương quan tuyến tính giữa hai biến số ngẫu nhiên, độc lập với
đơn vị đo lường của các biến số ngẫu nhiên, người ta dùng hệ số tương quan, rX ,Y , xác định
bởi
 X ,Y
rX ,Y  ,
 XY
trong đó  X và  Y lần lượt là độ lệch chuẩn của X và Y,
2 2
 Y2  E Y  Y   và  X2  E  X   X   .
   
Hệ số tương quan có một số tính chất căn bản sau :
(i) rX ,Y luôn luôn cùng dấu với  X ,Y (do  X ,  Y  0 ).

10
(ii) 1  rX ,Y  1 và rX ,Y  0 khi và chỉ khi  X ,Y  0 .
(iii) Nếu X và Y có quan hệ tuyến tính với nhau, nghĩa là Y  a   X , thì do
Y  a   X ,  Y2   2 X2 , nghĩa là

  X khi   0
Y   ,
  X khi   0
ta suy ra
2
 X ,Y  E  X   X Y  Y    E    X   X     X2
 
và do đó
 X ,Y 1 khi   0
rX ,Y   .
 X  Y 1 khi   0
Từ đó, ta có các đánh giá sơ bộ sau :
(i) Khi rX ,Y  0 , ta nói X và Y không tương quan (hay có quan hệ phi tuyến với nhau).
(ii) Khi rX ,Y  1 , ta nói X và Y có quan hệ chặt chẽ với nhau. Nếu rX ,Y  0 , nghĩa là
rX ,Y  1 , thì X và Y có quan hệ đồng biến chặt. Ngược lại, nếu rX ,Y  0 , nghĩa là rX ,Y  1 , thì
X và Y có quan hệ nghịch biến chặt.
Ví dụ 4 : Ta khảo sát dữ liệu về giá vàng (GP), chỉ số giá tiêu dùng (CPI) và chỉ số chứng
khoán trên thị trường chứng khoán NewYork (NYSE) từ năm 1977 đến năm 1991 ở Mỹ.
Năm GP CPI NYSE
1977 147.98 60.60 53.69
1978 193.44 65.20 53.70
1979 307.62 72.60 58.32
1980 612.51 82.40 68.10
1981 459.61 90.90 74.02
1982 376.01 96.50 68.93
1983 423.83 99.60 92.63
1984 360.29 103.90 92.46
1985 317.30 107.60 108.90
1986 367.87 109.60 136.00
1987 446.50 113.60 161.70
1988 436.93 118.30 149.91
1989 381.28 124.00 180.02
1990 384.08 130.70 183.46
1991 362.04 136.20 206.33
Bảng 7
Ta lần lượt khảo sát sự tương quan giữa giá vàng (GP) và chỉ số giá tiêu dùng (CPI) cũng như
sự tương quan giữa chỉ số chứng khoán (NYSE) và chỉ số giá tiêu dùng (CPI).
Trước hết, ta vẽ đồ thị rời rạc của GP theo CPI và của NYSE theo CPI, ta được

11
Hình 8 Hình 9
Đồ thị cho thấy không có sự tương quan chặt giữa GP và CPI. Ngược lại, có sự tương quan
đồng biến chặt giữa NYSE và CPI. Bằng công cụ thống kê, ta có
rGP ,CPI  0.388 và rNYSE ,CPI  0.932 .

Ta thấy rNYSE ,CPI  1 nên NYSE và CPI có quan hệ đồng biến chặt. Ngược lại, rGP ,CPI  1 nên
GP và CPI không có quan hệ tuyến tính chặt.
Người ta thường hình dung hóa các số liệu về hệ số tương quan như sau :
Khoảng 39% số liệu giữa GP và CPI cho thấy quan hệ giữa chúng là tuyến tính; khoảng 94%
số liệu giữa NYSE và CPI cho thấy quan hệ giữa chúng là tuyến tính.
Ví dụ 5 : Người ta khảo sát hai lý thuyết khác nhau liên quan đến hành vi tiêu dùng của dân
chúng :
- Theo Keynes, tổng tiêu dùng, CONS (Consumption Expenditure), có quan hệ đồng
biến với tổng thu nhập (khả dụng), YD (Disposable Income).
- Trong khi đó, các nhà kinh tế học cổ điển tin rằng tiêu dùng có quan hệ nghịch biến
với lãi suất, RR (Real Interest Rate), trong nền kinh tế.
Bằng cách thu thập số liệu về CONS, YD và RR từ năm 1955 đến năm 1986, người ta có số
liệu sau
Năm CONS YD RR
1955 873.80 944.50 3.43
1956 899.80 989.40 1.86
1957 919.70 1012.10 0.33
1958 932.90 1028.80 1.06
1959 979.40 1067.20 3.57
1960 1005.10 1091.10 2.81
1961 1025.20 1123.20 3.34
1962 1069.00 1170.20 3.21
1963 1108.40 1207.30 3.05
1964 1170.60 1291.00 3.09
1965 1236.40 1365.70 2.77
1966 1298.90 1431.30 2.27
1967 1337.70 1493.20 2.63
1968 1405.90 1551.30 1.98
1969 1456.70 1599.80 1.66
1970 1492.00 1668.10 2.12
1971 1538.80 1728.40 3.09
1972 1621.90 1797.40 3.91
12
1973 1689.60 1916.30 1.21
1974 1674.00 1896.60 -2.40
1975 1711.90 1931.70 0.31
1976 1803.00 2001.00 2.66
1977 1883.80 2066.60 1.57
1978 1961.00 2167.40 1.07
1979 2004.40 2112.60 -1.63
1980 2000.40 2214.30 -1.58
1981 2024.20 2248.60 3.80
1982 2050.70 2261.50 7.66
1983 2146.00 2331.90 8.82
1984 2246.30 2470.60 8.45
1985 2324.50 2528.00 7.80
1986 2418.60 2603.70 7.10
Bảng 8
trong đó, đơn vị tính của CONS và DI là tỷ đô la và của RR là phần trăm (%).
Với các đại lượng CONS và YD, ta có đồ thị rời rạc sau

Hình 10
và hệ số tương quan giữa chúng là rCONS ,YD  0.998 .
Tương tự, với CONS và RR, ta có đồ thị rời rạc

Hình 11
và hệ số tương quan rCONS , RR  0.348 .
Từ đồ thị rời rạc cũng như hệ số tương quan, ta kết luận :

13
Với mô hình của Keynes : Giả thuyết CONS đồng biến theo YD là đúng. Khoảng 99%
bộ số liệu của CONS và YD khẳng định giả thuyết này.
Với mô hình kinh tế học cổ điển : Giả thiết CONS nghịch biến theo RR không chính
xác. Khảng 35% bộ số liệu của CONS và RR cho thấy quan hệ giữa chúng là tuyến tính
(nhưng lại là quan hệ đồng biến).
3. Các ký hiệu chung
Với X, Y, Z, ... hay X 1 , X 2 , X 3 , ... để chỉ các biến số ngẫu nhiên, các giá trị của chúng lần
lượt được ký hiệu là X j , Y j , Z j , ... hay X 1, j , X 2, j , X 3, j , ..., trong đó chỉ số j chỉ số liệu thứ
j của biến tương ứng. Đặc biệt đối với chuỗi thời gian, người ta thường dùng chỉ số t thay cho
j, nhằm nhấn mạnh yếu tố thời gian, chẳng hạn Yt và X 1,t lần lượt chỉ số liệu của các biến Y
và X 1 tại thời điểm t.

Với biến số ngẫu nhiên X lấy các giá trị X 1 , X 2 , ..., X n , trung bình (mean), hay kỳ
vọng (expectation) của biến số ngẫu nhiên X, ký hiệu E  X  ,  X hay X , xác định bởi

1 n
E( X )   Xi ,
n i 1
phương sai (variance) của X, ký hiệu  X2 hay var( X ) , được định nghĩa là kỳ vọng của biến
2
 X  E( X ) , nghĩa là

var( X )  E  X  E( X )  ,
2

và căn bậc hai của phương sai, ký hiệu  X hay se( X ) , được gọi là độ lệch chuẩn (standard
error) của X,
se( X )  var( X ) .
Ngoài ra, để tiện ký hiệu cho nhiều trường hợp, với biến số ngẫu nhiên X lấy các giá trị X 1 ,
X 2 , ..., X n và có trung bình X , ta định nghĩa biến số ngẫu nhiên x tương ứng bởi

xi  X i  X , yi  Yi  Y , i  1, 2,..., n.

Với vectơ ngẫu nhiên  X ,Y  lấy các giá trị  X i , Yi  , i  1, 2,..., n , hiệp phương sai
(covariance), ký hiệu  X ,Y hay cov ( X , Y ) , được định nghĩa là kỳ vọng của tích
 X   X Y  Y  , nghĩa là
 X ,Y  E  X   X Y  Y  
1 n 1 n
 
 i X i Y n
X    Y     xi yi ,
n i 1 i 1

và hệ số tương quan (correlation), ký hiệu rX ,Y hay  ( X , Y ) , là

 X ,Y cov( X , Y )
rX ,Y   .
 X  Y se( X ) se(Y )

14
Bài tập
Câu 1. Nghiên cứu kinh tế lượng và nghiên cứu kinh tế có gì giống và khác nhau?
Câu 2. Phân biệt kinh tế lượng với toán kinh tế và lý thuyết kinh tế?
Câu 3. Để giảm mật độ giao thông và tình trạng tắc đường, chính phủ có thể đánh thuế cao
hơn vào ngành sản xuất xe máy. Giả sử công ty Honda Việt Nam thuê bạn đánh giá ảnh
hưởng của việc tăng thuế đối với cầu xe máy thì bạn sẽ làm thế nào để khuyến cáo cho công
ty?

15
Chương 1.
MÔ HÌNH HỒI QUY HAI BIẾN
Hồi quy với thuật ngữ tiếng Anh là “Regression” được Francis Galton sử dụng vào năm 1886
trong một công trình nghiên cứu nổi tiếng của ông về chiều cao của những đứa trẻ có cha cao
hoặc thấp không bình thường sinh ra. Ông quan sát sự phụ thuộc về chiều cao của các cháu
trai vào chiều cao cha của chúng. Lập đồ thị phân bố, ông thấy
Với chiều cao cho trước của người cha thì chiều cao của các cháu trai tương ứng sẽ nằm
trong một khoảng, dao động quanh giá trị trung bình.
Chiều cao của cha tăng thì chiều cao trung bình của các cháu trai tương ứng cũng tăng.
Hơn nữa, ông còn nhận thấy rằng chiều cao trung bình của các cháu trai của nhóm có
cha cao nhỏ hơn chiều cao của cha và chiều cao trung bình của các cháu trai của nhóm có cha
thấp lớn hơn chiều cao của cha.

Hình 1
Trong công trình nghiên cứu của mình, Galton dùng cụm từ “regression to mediocrity”, quy
về trung bình, để chỉ xu hướng này mà sau này người ta gọi là luật Galton. Từ đó, vấn đề hồi
quy được nhiều người quan tâm và hoàn thiện, đồng thời hầu hết các ứng dụng của phân tích
hồi quy đã có nội dung rộng hơn nhiều.
1. Phân tích hồi quy
Phân tích hồi quy nghiên cứu mối liên hệ phụ thuộc của một biến, gọi là biến phụ thuộc hay
biến được giải thích, theo một hay nhiều biến khác, gọi là các biến độc lập hay biến giải thích.
Chẳng hạn, trong nghiên cứu của Galton, biến “chiều cao con” là biến phụ thuộc, biến
“chiều cao cha” là biến độc lập và phân tích hồi quy của Galton nhằm nghiên cứu mối liên hệ
giữa hai biến này.
Ta có thể đưa ra rất nhiều ví dụ về sự phụ thuộc của một biến vào một hay nhiều biến
khác. Kỹ thuật phân tích hồi quy giúp ta nghiên cứu mối quan hệ như vậy giữa các biến. Ta
thường ký hiệu
Y chỉ biến phụ thuộc hay biến được giải thích,
X i chỉ biến độc lập hay biến giải thích thứ i.
Phân tích hồi quy giải quyết các vấn đề sau :
Ước lượng và dự đoán giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến
độc lập.
16
Kiểm định giả thiết về bản chất sự phụ thuộc.
Chú ý rằng trong mô hình hồi quy, mẫu về biến độc lập là mẫu không ngẫu nhiên, nó có giá
trị xác định, còn biến phụ thuộc là biến ngẫu nhiên có phân phối xác suất, nghĩa là ứng với
mỗi giá trị của biến độc lập, biến phụ thuộc có thể lấy nhiều giá trị khác nhau nhưng các giá
trị này tuân theo một luật phân phối xác suất xác định, thường là phân phối chuẩn.
Chẳng hạn, trong phân tích hồi quy hai biến, ta xét
Y là biến phụ thuộc,
X là biến độc lập,
biến độc lập X lấy các giá trị xác định X 1 , X 2 , ..., X n và ứng với mỗi giá trị của X i của X,
với i  1, 2,..., n , ta có m(i ) giá trị tương ứng của Y, Yi ,1 , Yi ,2 , ..., Yi ,m (i ) trình bày trong bảng 1.
Như vậy, ứng với một giá trị X 1 của X, ta có m(1) số liệu tương ứng của Y, ứng với giá trị
X 2 của X, ta có m(2) số liệu tương ứng của Y, ..., ứng với giá trị X n của X, ta có m( n) số
liệu tương ứng của Y, và do đó ta có cả thảy m(1)  m(2)  ...  m(n)  k bộ số liệu  X j , Y j  .

X X1 X2 ... Xi ... Xn
Y
Y1,1 Y2,1 ... Yi ,1 ... Yn ,1
Y1,2 Y2,2 ... Yi ,2 ... Yn ,2
... ... ... ... ... ...
... Y2,m (2) ... ... ... ...
Y1,m (1) ... ... ... ...
... ... ... Yn ,m ( n )
Yi ,m ( i )
Bảng 1
Chẳng hạn, với phân tích hồi quy thu nhập/chi tiêu giới thiệu trong chương mở đầu, ta có biến
độc lập X chỉ lượng thu nhập khả dụng của một hộ gia đình và biến phụ thuộc Y chỉ lượng
chi tiêu cho tiêu dùng hộ gia đình đó.
X lấy các giá trị xác định là 80, 100, 120, 140, 160, 180, 200, 220, 240 và 260 và
Ứng với X  80 , Y lấy các giá trị là 55, 60, 65, 70 và 75,
Ứng với X  100 , Y lấy các giá trị là 65, 70, 74, 80, 85 và 88,
Ứng với X  120 , Y lấy các giá trị là 79, 84, 90, 94 và 98,
Ứng với X  140 , Y lấy các giá trị là 80, 93, 95, 103, 108 và 113,
Ứng với X  160 , Y lấy các giá trị là 102, 107, 110, 116, 118 và 125,
Ứng với X  180 , Y lấy các giá trị là 110, 115, 120, 130, và 135,
Ứng với X  200 , Y lấy các giá trị là 120, 136, 140, 144 và 145,
Ứng với X  220 , Y lấy các giá trị là 135, 137, 140, 152, 157, 160 và 162,
Ứng với X  240 , Y lấy các giá trị là 137, 145, 155, 165, 175 và 189,
Ứng với X  260 , Y lấy các giá trị là 150, 152, 175, 178, 180, 185 và 191.
Ta có bảng số liệu
X 80 100 120 140 160 180 200 220 240 260
Y
17
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
88 113 125 160 189 185
162 191
Bảng 2
2. Mô hình hồi quy
2.1. Hàm hồi quy tổng thể
Giả sử ta có các bộ số liệu  X i , Yi , j  cho tổng thể, với i  1, 2,..., n , j  1, 2,..., m (i ) . Ứng với
mỗi giá trị của X, X  X i , với i  1, 2,..., n , ta có thể có nhiều giá trị của Y tương ứng nên
quan hệ của Y theo X không là quan hệ “hàm số”. Tuy nhiên, ứng với mỗi giá trị của X,
X  X i , ta có duy nhất giá trị trung bình E Y X  X i  , nên quan hệ này trở thành quan hệ
hàm số
E Y X  X i   f  X i  (2.1.1)

và hàm số này được gọi là hàm hồi quy tổng thể, ký hiệu PRF (Population Regression
Functions) mà trong trường hợp này, ta còn gọi là hàm hồi quy đơn (hồi quy hai biến), do nó
chỉ có một biến độc lập. Trường hợp có nhiều hơn một biến độc lập, ta gọi là hàm hồi quy bội.
Trước hết, giả sử PRF là hàm tuyến tính
E  Y X  X i   1   2 X i

mà ta còn viết là
E  Y X   1   2 X ,

trong đó 1 và  2 là các tham số chưa biết nhưng cố định, được gọi là các hệ số hồi quy; 1
gọi là hệ số tự do hay hệ số chặn,  2 gọi là hệ số góc (nó cho biết tỷ lệ thay đổi của Y đối với
X).
Tính tuyến tính ở đây đúng đối với cả tham số cũng như đối với các biến. Điều này
không đúng trong nhiều trường hợp khác, chẳng hạn hàm E Y X   1   2 X 2 tuyến tính đối
với tham số nhưng không tuyến tính (phi tuyến) đối với biến. Ngược lại, hàm
E Y X   1   2 X tuyến tính đối với biến nhưng phi tuyến đối với tham số.

Chú ý rằng trong phân tích hồi quy tuyến tính, hàm hồi quy tổng thể được hiểu là tuyến
tính đối với tham số nhưng không nhất thiết tuyến tính theo các biến.
Ngoài ra, do Y là biến số ngẫu nhiên, nên ứng với quan sát thứ i trong tổng thể, X  X i ,
giá trị Y  Yi tương ứng sai khác với giá trị trung bình 1   2 X i một đại lượng sai số ngẫu
nhiên, ký hiệu  i . Do đó, ta còn viết

Y  1   2 X   , (2.1.2)

18
trong đó  là một đại lượng ngẫu nhiên và (2.1.2) được gọi là hàm hồi quy tổng thể ngẫu
nhiên. Thông thường, đại lượng ngẫu nhiên  được ngầm hiểu và khi đó, hàm hồi quy tổng
thể (ngẫu nhiên) được viết tắt là
Y  1   2 X .
2.2. Hàm hồi quy mẫu
Cũng như vấn đề về mẫu và tổng thể trong lý thuyết thống kê, chúng ta hoặc không có tổng
thể, hoặc có nhưng không thể nghiên cứu được toàn bộ tổng thể. Do đó, ta chỉ có thể ước
lượng hàm hồi quy tổng thể với những thông tin từ các mẫu ngẫu nhiên lấy ra từ tổng thể.
Hàm hồi quy xây dựng trên cơ sở của một mẫu ngẫu nhiên được gọi là hàm hồi quy
mẫu, SRF (Sample Regression Function), hay hồi quy mẫu.
Rõ ràng là với nhiều mẫu khác nhau, ta có nhiều SRF khác nhau. Do đó, vấn đề đặt ra là
cần ước lượng PRF bằng SRF tốt nhất theo nghĩa là SRF này có các tính chất : tuyến tính,
không chệch, có độ lệch chuẩn nhỏ nhất.
Cụ thể, với hàm hồi quy tổng thể tuyến tính, hàm hồi quy mẫu có dạng
Yˆ  ˆ1  ˆ2 X ,

trong đó Y là ước lượng điểm của E Y X  , ̂1 là ước lượng điểm của 1 và ̂ 2 là ước
lượng điểm của  2 .
3. Phương pháp bình phương nhỏ nhất
Phương pháp bình phương nhỏ nhất, OLS (Ordinary Least Square), do nhà toán học Đức Carl
Fredrich Gauss đưa ra. Với phương pháp này, kèm theo một vài giả thiết, các ước lượng thu
được có một số tính chất đặc biệt mà nhờ đó nó trở thành phương pháp hồi quy mạnh và phổ
biến nhất.
3.1. Nội dung phương pháp OLS
Giả sử Y  1   2 X là PRF cần tìm. Ta tìm cách ước lượng nó bằng cách xây dựng SRF
dạng
Yˆ  ˆ1  ˆ2 X

từ một mẫu gồm n quan sát  X i , Yi  , với i  1, 2,..., n .

Khi đó, ứng với mỗi i, sai biệt giữa giá trị chính xác, Yi , và giá trị ước lượng, Yˆi  ˆ1  ˆ2 X i ,

ei  Yi  Yˆi  Yi  ˆ1  ˆ2 X i ,
mà ta gọi là các phần dư.

 
Phương pháp OLS nhằm xác định các tham số ˆ1 , ˆ2 sao cho tổng bình phương các phần
n 2
dư,  e , là nhỏ nhất. Chú ý rằng tổng bình phương các phần dư này là hàm theo hai biến
i 1 i

 
ˆ1 , ˆ2 ,
n n 2
  
f ˆ1 , ˆ2   ei2   Yi  ˆ1  ˆ2 X i
i 1 i 1

19
với đạo hàm riêng theo các biến
n
f ˆ ˆ
ˆ1
 
1 ,  2   2 Yi  ˆ1  ˆ2 X i
i 1
 
n n
 2 Yi  2nˆ1  2 ˆ2  X i ,
i 1 i 1

n
f ˆ ˆ
ˆ2
 
1 ,  2   2 X i Yi  ˆ1  ˆ2 X i
i 1
 
n n n
 2 X iYi  2 ˆ1  X i  2 ˆ2  X i2 .
i 1 i 1 i 1

Giá trị nhỏ nhất của f, nếu có, phải đạt tại điểm dừng của nó, nghĩa là khi f ˆ1 , ˆ2   0, 0  .  
Do đó, ta nhận được hệ phương trình
n n
 ˆ
n1  ˆ2  X i  Y i
 i 1 i 1
 n n n
.
 ˆ  ˆ2  X 2
 1  XY
Xi i  i i
i 1 i 1 i 1

Giải hệ phương trình trên, ta được

n n n n
n  X iYi   X i  Yi  X i  X Yi  Y 
ˆ2  i 1 i 1 i 1
2
 i 1
n
(3.1.1)
n
 n  2
n X i2    X i   X i X
i 1  i 1  i 1


ˆ1  Y  ˆ2 X , (3.1.2)

trong đó X , Y là các trung bình của X, Y.


Các giá trị ̂1 và ̂ 2 nhận được bằng các công thức trên được gọi là các ước lượng bình
phương nhỏ nhất của 1 và  2 .
Chú ý rằng công thức (3.1.1) có thể viết lại là (xem phần phụ lục)
n

 X i  X Yi  Y 
 X ,Y SY
ˆ2  i 1
n
 2
 rX ,Y , (3.1.3)
2 S SX
 X
i 1
i X X

trong đó  X ,Y , rX ,Y lần lượt là hiệp phương sai, hệ số tương quan của X, Y và S X , SY lần
lượt là độ lệch chuẩn (không hiệu chỉnh) của X, Y.

20
Ví dụ 1. Bảng sau cho số liệu về lãi suất ngân hàng (Y) và tỷ lệ lạm phát (X) trong năm 1988
ở 9 nước
X 7.2 4.0 3.1 1.6 4.8 51.0 2.0 6.6 4.4
Y 11.9 9.4 7.5 4.0 11.3 66.3 2.2 10.3 7.6
Giả sử rằng sự phụ thuộc E Y X  là tuyến tính. Ước lượng hàm hồi quy mẫu.

Giải. Dùng máy tính (xem phần phụ lục), ta được một số đại lượng sau :
2
X  2770.97 ;  X  84.7 ; n  9 ;
2
Y  4994.29 ;  Y  130.5 ;  XY  3694.29 ;
X  9.411111111 ; x n  14.80933973 ;
Y  14.5 ; y n  18.56532012 ;
A  2.74169485 ; B  1.249406687 ; r  0.996637168 .
và từ đó suy ra hệ số hồi quy
ˆ2  B  1.249407 , ˆ1  A  2.741695 .
Ta nhận được SRF :
Yˆ  2.741695  1.249407 X .
Từ hàm hồi quy mẫu này, ta kết luận rằng khi X thay đổi một đơn vị thì Y thay đổi 1.249407
đơn vị. Nói khác đi, khi tỷ lệ lạm phát tăng/giảm 1% thì lãi suất ngân hàng tăng/giảm
1.249407%.
Chú ý tính đúng đắn của các kết quả nhận được khi so sánh với các công thức (3.1.1-
3.1.3). Từ
S X  x n  14.80933973 ; SY  y n  18.56532012 ;
rX ,Y  r  0.996637168 ;

ta suy ra
SY 18.56532012
ˆ2  rX ,Y  0.996637168  1.249406686 ;
SX 14.80933973
ˆ1  Y  ˆ2 X  14.5  1.249406686  9.411111111
 2.741694855.
3.2. Các giả thiết của mô hình
Để có thể dùng các công cụ của thống kê toán nhằm đánh giá chất lượng của mô hình hồi quy
tuyến tính, ta cần các giả thiết sau trên biến số X và đại lượng sai số ngẫu nhiên  ,
Giả thiết 1. Biến giải thích X là biến phi ngẫu nhiên, nghĩa là các giá trị của nó được
hoàn toàn xác định. Giả thiết này đương nhiên được thỏa trong mô hình hồi quy tuyến tính.
Giả thiết 2. Kỳ vọng của sai số ngẫu nhiên  bằng 0, nghĩa là
E   i   E   X  X i   0 . Giả thiết này có nghĩa là các yếu tố không xuất hiện trong mô
hình, được đại diện bởi đại lượng ngẫu nhiên  , không ảnh hưởng một cách có hệ thống đến
giá trị trung bình của Y.

21
Giả thiết 3. Phương sai của sai số không đổi (phương sai thuần nhất), nghĩa là
Var   i   Var   j    2 , với mọi i, j. Giả thiết này có nghĩa là các giá trị cụ thể của Y tương
ứng với cùng một giá trị của X đều được phân bố xung quanh giá trị trung bình của nó với
cùng một mức độ phân tán như nhau.
Giả thiết 4. Không có tương quan giữa các sai số, nghĩa là cov ( i ,  j )  0 , với mọi i  j
. Giả thiết này có nghĩa là sai số ở số liệu quan sát này không ảnh hưởng gì tới sai số ở số liệu
quan sát khác.
Giả thiết 5. Sai số và biến giải thích không có tương quan, nghĩa là cov ( , X )  0 . Giả
thiết này là cần thiết vì nó cho phép tách bạch ảnh hưởng của X và của các yếu tố không xuất
hiện trong mô hình đến các giá trị của Y. Giả thiết này đương nhiên được thỏa do X là phi
ngẫu nhiên.
3.3. Tính chất của các ước lượng bình phương nhỏ nhất
Với các giả thiết cho trong 3.2, ta có
3.3.1. Định lý Gauss – Markov
Định lý. Với các giả thiết 1-5 của mô hình hồi quy tuyến tính, các ước lượng cho bởi phương
pháp OLS là các ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất trong lớp các
ước lượng tuyến tính không chệch.
Phần chứng minh được trình bày trong phần phụ lục.
3.3.2. Tính chất các hệ số hồi quy
Các hệ số hồi quy có các tính chất sau :
i) ̂1 và ̂ 2 được xác định một cách duy nhất ứng với mỗi mẫu gồm n cặp quan sát
 X i , Yi  . Ứng với các mẫu khác nhau, chúng có giá trị khác nhau.
ii) ̂1 và ̂ 2 là các ước lượng điểm của 1 và  2 và là các đại lượng ngẫu nhiên với
phương sai cho bởi
n
2
X i

 
var ˆ1  n
i 1
2
2 (3.3.1)
n  X i  X 
i 1


2
 
var ˆ2  n
2
, (3.3.2)
 Xi  X 
i 1

trong đó  2 là phương sai của sai số ngẫu nhiên (thuần nhất),  2  var( ) .
Trong các công thức (3.3.1-3.3.2), khi  2 chưa biết, ta thay  2 bằng ước lượng không chệch
̂ 2 của nó,
1 n 2
ˆ 2   ei . (3.3.3)
n  2 i 1
Công thức (3.3.1-3.3.3) còn có thể viết dưới dạng khác, dựa vào các đẳng thức

22
n n
2
 X
i 1
i  X   nS X2 , X
i 1
i
2
 nS X2  nX 2 ,

ta suy ra
nS 2  nX 2 1 X 2  2
 
var ˆ1  X 2 2  2    2
n SX  n nS X
 ,

(3.3.4)

2
 
var ˆ2  2 .
nS X
(3.3.5)

Đối với công thức (3.3.3), do ei  Yi  ˆ1  ˆ2 X i , ta có

1 n 2
ˆ 2 
n  2 i 1

 Yi  ˆ1  ˆ2 X i  .

Mặt khác do Y  ˆ1  ˆ2 X nên bằng cách viết

Yi  ˆ1  ˆ2 X i  Yi  Y   ˆ2  X i  X  ,

ta suy ra

1 n 2
ˆ 2  
 Yi  Y   ˆ2  X i  X 
n  2 i 1

1  n 2
ˆ
n
ˆ
n
2
  
n  2  i 1
 Yi  Y   2  2 i X  X  Yi  Y    2  Xi  X  
2

i 1 i 1 
1

n2

nSY2  2nˆ2 X ,Y  nˆ22 S X2 
n

n2

SY2  2 ˆ2 X ,Y  ˆ22 S X2 . 
Dùng các đẳng thức
S 
 X ,Y  rX ,Y SY S X và ˆ2  rX ,Y Y  X2,Y ,
SX SX
ta được biểu thức khác cho (3.3.3), (xem phần phụ lục)
n n
ˆ 2 
n2
 SY2  rX2 ,Y SY2  
n2
1  rX2 ,Y  SY2 . (3.3.6)

Chẳng hạn, với số liệu trong ví dụ 1, ta có


1 9.4111111112  2
 
var ˆ1   
 9 9  14.809339732

  0.155982333 2 ,

2
 
var ˆ2 
9 14.80933973 2
 0.0005066243954 2 .

và với ước lượng điểm cho  2 ,

23
9
ˆ 2   1  0.9966371682  18.565320122
92
 2.975456987
ta được các ước lượng điểm cho phương sai của các hệ số hồi quy mẫu

 
var ˆ1  0.155982333  2.975456987  0.464118722 ,

 
var ˆ2  0.0005066243954  2.975456987
 0.001507439097.

3.3.3. Tính chất cho hàm hồi quy mẫu


Hàm hồi quy mẫu Yˆ  ˆ1  ˆ2 X có các tính chất

i) SRF đi qua trung bình mẫu  X , Y  , nghĩa là Y  ˆ1  ˆ2 X .

ii) Giá trị trung bình của Y bằng với giá trị trung bình quan sát Y, nghĩa là Yˆ  Y .
iii) Giá trị trung bình của phần dư e bằng 0, nghĩa là e  1n  in1 ei  0 .

iv) Phần dư e và Y không tương quan, nghĩa là in1 ei Y i  0 .

iv) Phần dư e và X không tương quan, nghĩa là  in1 ei X i  0 .


4. Hệ số xác định mô hình.
Gọi TSS (Total Sum of Squares) là tổng bình phương các sai số giữa giá trị quan sát Yi với
giá trị trung bình của chúng,
n
2
TSS   Yi  Y  .
i 1

ESS (Explained Sum of Squares) là tổng bình phương các sai lệch giữa giá trị của Y tính theo
hàm hồi quy mẫu với giá trị trung bình,
n 2 n
ESS   Y i  Y
  2
 ˆ22   X i  X  .
i 1 i 1

RSS (Residual Sum of Squares) là tổng bình phương các sai lệch giữa giá trị quan sát của Y
và các giá trị nhận được từ hàm hồi quy mẫu,
n n 2
RSS   ei2   Yi  Y i   .
i 1 i 1

Khi đó,
TSS đo độ chính xác của số liệu thống kê,
ESS đo độ chính xác của hàm hồi quy so với trung bình, và
RSS đo độ chính xác của hàm hồi quy mẫu so với thực tế quan sát.
Nhận xét rằng
TSS  ESS  RSS .

24
Nếu các số liệu quan sát của Y đều nằm trên SRF thì RSS  0 và ESS  RSS .
Nếu hàm hồi quy mẫu phù hợp tốt với các số liệu quan sát thì ESS sẽ lớn so với RSS.
Ngược lại, nếu hàm hồi quy mẫu kém phù hợp với các số liệu quan sát thì RSS sẽ lớn so
với ESS.
Các nhận xét này được minh họa bởi hình sau

Hình 2
Với các nhận xét trên, ta dùng hệ số xác định (coefficient of determination)
ESS
R2  (3.3.7)
TSS
để đo mức độ phù hợp của hàm hồi quy so với số liệu điều tra.
2
Ta có 0  R 2  1 và R 2   rX ,Y  , với rX ,Y là hệ số tương quan giữa X và Y. Do đó,

Khi R 2  1 , ta được đường hồi quy “hoàn hảo”, mọi sai lệch của Y (so với trung bình)
đều giải thích được bởi mô hình hồi quy.
Khi R 2  0 , X và Y không có quan hệ tuyến tính.
Các tham số liên quan đến hệ số xác định mô hình còn có thể tính bằng các công thức sau :
n
2
TSS   Yi  Y   nSY2 ; (3.3.8)
i 1

n
2
ESS  ˆ22   X i  X   nˆ22 S X2 ; (3.3.9)
i 1

và vì ˆ2  rX ,Y SY
SX
nên

 
RSS  TSS  ESS  n SY2  ˆ22 S X2  n  SY2  rX2 ,Y SY2 
(3.3.10)
 n 1  rX2 ,Y  SY2 .
2
Chú ý rằng từ (3.3.7-3.3.9), ta nhận được đẳng thức R 2   rX ,Y  , với rX ,Y là hệ số tương quan
giữa X và Y. Ngoài ra, đẳng thức (3.3.6) còn được viết lại thành (xem phụ lục)

25
n RSS
ˆ 
2

n2
1  rX2 ,Y  SY2 
n2
Chẳng hạn, với số liệu trong ví dụ 1, ta có
TSS  nSY2  9  18.56532012 2  3.102.04 ;
2
ESS  n ˆ 2 S X2  9 1.249406687 2 14.809339732 ;
 3081.211809
RSS  n 1  rX2 ,Y  SY2
 9  1  0.9966371682  18.809339732 ;
 21.37932225
và ta được hệ số xác định mô hình
ESS
R2   0.993285647 .
TSS
(so sánh với rX2 ,Y  0.9966371682  0.993285644 ).

Bây giờ, trong ứng dụng, người ta nói rằng biến X giải thích được trên 99% sự thay đổi của
biến Y. Nói khác đi, sự thay đổi của tỷ lệ lạm phát giải thích được trên 99% sự thay đổi của
lãi suất ngân hàng.
Nhìn chung các kết quả tính toán trên khá phức tạp khi số liệu quan sát lớn hay trong các mô
hình khác. Trên thực tế, người ta thường dùng các phần mềm kinh tế lượng để hỗ trợ cho việc
tính toán. Chẳng hạn, với phần mềm Eview (xem phần phụ lục), ta được các kết quả cho trong
bảng sau

Hình 3 : Bảng kết quả hồi quy


Giải thích các kết quả trong bảng
Dependent Variable : Biến phụ thuộc là Y
Method : Phương pháp ước lượng là phương pháp OLS
Date – Time : Ngày giờ thực hiện
Sample : Số liệu mẫu 1 – 9.

26
Included observations : Cở mẫu là 9
Cột Variable : Các biến giải thích có trong mô hình (trong đó C là biến số tự do, biến
hằng)
Cột Coefficient : Giá trị các hệ số hồi quy ước lượng
ˆ1  2.741695 và ˆ2  1.249407 .
Cột Std. Error : Độ lệch chuẩn của các hệ số hồi quy ước lượng

 
se  ˆ1   var ˆ1  0.681263

se  ˆ2   var  ˆ2   0.038826


Cột t – Statistic : Giá trị thống kê t tương ứng
ˆ1 ˆ2
T  4.024432 và T   32.17985
se( ˆ1 ) se( ˆ2 )
(Trong đó T là đại lượng ngẫu nhiên có phân phối Student với bậc tự do (n – 2)).
Cột Prob. : Giá trị p – value của thống kê t tương ứng
P( T  4.024432)  0.0050 và P( T  32.17985)  0.0000
R – Squared : Hệ số R 2  0.993286
Adjusted R – Squared : Hệ số R 2 điều chỉnh, R 2

S.E. of regression : Giá trị ước lượng cho  :   1.724951


Sum squared resid : Tổng bình phương các phần dư ( RSS )
Log likelihood : Tiêu chuẩn ước lượng hợp lý
Durbin – Watson stat : Thống kê Durbin – Watson
Mean dependent var : Giá trị trung bình của biến phụ thuộc
S.D. dependent var : Độ lệch chuẩn của biến phụ thuộc
Akaike info criterion : Tiêu chuẩn Akaike
Schwarz info criterion : Tiêu chuẩn Schwarz
F – Statistic : Giá trị của thống kê F  1035.543
Prob( F – Statistic) : Giá trị p-value của thống kê F tương ứng
P ( F  1035.543)  0.0000 . Với F là biến ngẫu nhiên có phân phối Fisher có bậc tự do
( k  1, n  k ) .
5. Phân phối xác suất của các ước lượng
Như trình bày trong phần 2.2 về hàm hồi quy mẫu, ứng với mỗi một mẫu khác nhau, ta nhận
được một hàm hồi quy mẫu với các hệ số hồi quy khác nhau. Ví dụ, ta coi như số liệu trong
phần 1 về sự tương quan giữa biến X chỉ lượng thu nhập khả dụng của một hộ gia đình và
biến phụ thuộc Y chỉ lượng chi tiêu cho tiêu dùng hộ gia đình đó như là số liệu của tổng thể
cần xác định. Từ số liệu tổng thể này, ta lấy ba mẫu khác nhau:

27
Mẫu 1 :
X 80 100 120 140 160 180 200 220 240 260
Y
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
70 80 94 103 116 130 144 152 165 178
ta được
n  40 ; X  170 ; S X  57.44562647 ;
Y  113.2 ; SY  33.54787624 ;
A  17.02121212 ; B  0.565757575 ;
r  0968773645 .
và hàm hồi quy cho mẫu 1 : Y  17.02  0.57 X .
Mẫu 2 :
X 80 100 120 140 160 180 200 220 240 260
Y
55 74 84 95 110 115 136 140 155 175
60 80 90 103 116 120 140 152 165 178
65 85 94 108 118 130 144 157 175 180
70 88 98 113 125 135 145 160 189 185
ta được
n  40 ; X  170 ; S X  57.44562647 ;
Y  122.675 ; SY  37.24472278 ;
A  14.55757576 ; B  0.635984848 ;
r  0.980932205 .
và hàm hồi quy cho mẫu 2 : Y  14.56  0.64 X .
Mẫu 3 :
X 80 100 120 140 160 180 200 220 240 260
Y
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
ta được
n  40 ; X  170 ; S X  57.44562647 ;
Y  119.275 ; SY  34.3525745 ;
A  20.12121212 ; B  0.583257575 ;
r  0.975344564 .
và hàm hồi quy cho mẫu 3 : Yˆ  20.12  0.58 X .
28
Đồ thị ba hàm hồi quy này cho trong hình sau :

Hình 4
Hơn nữa, mục đích của phân tích hồi quy không chỉ là suy đoán về các hệ số hồi quy tổng thể
1 ,  2 cũng như hàm hồi quy tổng thể (PRF) bằng các hệ số hồi quy mẫu cũng như hàm hồi
quy mẫu (SRF) mà còn phải kiểm tra bản chất sự biến thiên của các hệ số hồi quy mẫu. Ngoài
ra, người ta còn cần thiết phải khai thác các thông tin nhận được từ hàm hồi quy mẫu, chẳng
hạn như thực hiện các dự báo hay kiểm định các giả thuyết về mô hình đặt ra. Để làm được
các điều này, cần thiết phải biết các phân phối xác suất của ̂1 và ˆ2 . Các phân phối xác suất
này phụ thuộc vào phân phối xác suất của các  i và ta cần thêm giả thiết sau

Giả thiết 6.  i  N  0;  2  .

Khi đó, các ước lượng ̂1 , ̂ 2 và ̂ 2 có các tính chất sau :
i) Chúng là các ước lượng không chệch, có phương sai nhỏ nhất và khi số quan sát đủ
lớn thì các ước lượng này xấp xỉ với các giá trị 1 ,  2 và  2 tương ứng.

 1
  2

ii) ˆ1  N 1 ; 2ˆ , ˆ2  N  2 ;  2ˆ . Từ đó suy ra

ˆ1  1 ˆ   2
Z1   N  0;1 và Z 2  2  N  0;1 .
 ˆ  ˆ
1 2

iii)  2 
 n  2  ˆ 2   2 n  2 .
2  

iv) Yi  N  1   2 X i ;  2  .

Với thông tin trên các phân phối xác suất liên quan đến các hệ số hồi quy nêu trên, ta có thể
tìm các khoảng tin cậy cũng như tiến hành kiểm định các giả thiết liên quan đến các hệ số hồi
quy.
5.1. Khoảng tin cậy cho  2

ˆ2   2
Xuất phát từ thống kê Z 2   N  0;1 và vì ta ước lượng  2 bằng ̂ 2 nên ta dùng
 ˆ
2

thống kê
29
ˆ2   2
T  St (n  2) . (5.1)
 
se ˆ2

 
Do ̂2 và se ˆ2 tính được từ mẫu nên từ độ tin cậy  cho trước, ta suy ra khoảng tin cậy
cho T và từ đó suy ra khoảng tin cậy cho  2 có dạng

   
ˆ2  ta n/2 2 se ˆ2   2  ˆ2  ta n/2 2 se ˆ2 ,

trong đó ta n/22 là giá trị tới hạn của phân phối Student ứng với mức ý nghĩa a .
5.2. Khoảng tin cậy cho 1
Tương tự, từ thống kê
ˆ1  1
T  St ( n  2) , (5.2)
 
se ˆ1

ta suy ra khoảng tin cậy cho 1 với độ tin cậy  cho trước, có dạng

   
ˆ1  ta n/2 2 se ˆ1  1  ˆ1  ta n/2 2 se ˆ1 ,

trong đó ta /2  là giá trị tới hạn của phân phối Student ứng với mức ý nghĩa a .
n2

5.3. Khoảng tin cậy cho  2


Từ thống kê
 n  2  ˆ 2   2 n  2 ,
2   (5.3)

ta suy ra khoảng tin cậy cho  2 với độ tin cậy  cho trước.
Chẳng hạn, từ bảng tính của ví dụ 1, ta có

   
var ˆ1  0.464118722 , var ˆ2  0.001507439097 .

Từ đó suy ra

     
se ˆ1  var ˆ1  0.6813 ; se ˆ2  var ˆ2  0.0388 .  
Do
ˆ1  1 2.741695  1
T   St (9  2) ;
 
se ˆ1 0.6813

ˆ2   2 1.249407   2
T   St (9  2)
 
se ˆ2 0.0388

nên với độ tin cậy   0.9 , tra bảng phân phối Student với n  9  2  7 độ tự do, ta được giá
trị C  1.895 và suy ra khoảng tin cậy cho 1 và  2 lần lượt là
1  2.741695  1.895  0.6813 , và  2  1.249407  1.895  0.0388 .
30
Tương tự, với ˆ 2  2.975456987 , dùng thống kê

2 
 n  2  ˆ 2   9  2   2.975456987   2
9  2
2 2
với độ tin cậy   0.9 , tra bảng phân phối chi-bình phương với n  9  2  7 độ tự do, ta được
khoảng tin cậy cho  2 là  2.167;14.067 . Do

2.167 
 9  2   2.975456987  14.067 ,
2
ta suy ra
 9  2   2.975456987   2   9  2   2.975456987
14.067 2.167
và nhận được khoảng ước lượng cho  2 là 1.48;9.61 , với độ tin cậy   0.9 .
Ngoài ra, cũng từ các thống kê (5.1), (5.2) và (5.3), ta có thể kiểm định một số giả thiết liên
quan đến các hệ số hồi quy
5.4. So sánh  2 với  2 cho trước
Ta có bài toán kiểm định
 H :  2   2
 
.
 H : 2  2
Dùng thống kê (5.1). Với mức ý nghĩa a cho trước, nếu  2 nằm trong khoảng tin cậy của
 2 với độ tin cậy   1  a , ta chấp nhận H. Ngược lại, ta bác bỏ H, chấp nhận H .
Đặc biệt, với  2  0 , giả thiết H có nghĩa là “biến độc lập X không ảnh hưởng gì tới biến phụ
thuộc Y”. Khi đó, thống kê tương ứng là
ˆ2
T  St (n  2) .
 
se ˆ2

Chẳng hạn, với số liệu của ví dụ 1, ta có


ˆ2 1.249407
T   32.2 .
 
se ˆ2 0.0388

Với Với mức ý nghĩa a  0.05 , tra bảng giá trị tới hạn của phân phối Student với
n  9  2  7 độ tự do, ta được giá trị C  2.365 . Vì T  C nên ta bác bỏ H, chấp nhận H
và ta kết luận rằng tỷ lệ lạm phát có ảnh hưởng đến lãi suất ngân hàng, với nguy cơ sai lầm
a  0.05 .
5.5. So sánh 1 với 1 cho trước
Ta có bài toán kiểm định
 H : 1  1
 
.
 H : 1  1
31
Dùng thống kê (5.2). Với mức ý nghĩa a cho trước, nếu 1 nằm trong khoảng tin cậy của 1
với độ tin cậy   1  a , ta chấp nhận H. Ngược lại, ta bác bỏ H, chấp nhận H .
5.6. So sánh  2 với  02 cho trước
Ta có bài toán kiểm định
 H :  2   02
 2 2
.
H :    0
Dùng thống kê (5.3). Với mức ý nghĩa a cho trước, nếu  02 nằm trong khoảng tin cậy của
 2 với độ tin cậy   1  a , ta chấp nhận H. Ngược lại, ta bác bỏ H, chấp nhận H .
6. Kiểm định sự phù hợp của hàm hồi quy. Phân tích hồi quy và phân tích phương sai
Trong phần này, ta khảo sát việc phân tích hồi quy theo quan điểm của phân tích phương sai.
Việc phân tích này cung cấp cho ta một phương pháp hữu ích khác trong việc giải quyết vấn
đề phán đoán thống kê.
Xuất phát từ tính chất
ESS
TSS  ESS  RSS và R 2  ,
TSS
ta suy ra
ESS  R 2TSS và RSS  1  R 2  TSS .

Ngoài ra, vì


ˆ2  N  2 ; nS
2
2
X

nên

 ˆ 2  2 S X n  N  0;1 .

Do đó
2

S 
 ˆ 2  2  nS X2
  2 (1)
1
2

 n  2  ˆ 2 1 n
2
  2 (n  2) .
S2 
 2

 2 e
i 1
i

Từ đó suy ra
2

F
S1
1

 ˆ 2  2  nS X2
 F (1, n  2) .
S2
n2 ˆ 2
Từ thống kê này, ta cũng có thể kiểm định giả thiết

32
 H : 2  0
 ,
 H : 2  0
nghĩa là kiểm định giả thiết cho rằng biến độc lập X không ảnh hưởng gì đến biến phụ thuộc
Y.
Chú ý rằng khi đó, nghĩa là khi (H) đúng, giá trị F còn có thể được tính bằng công thức
ˆ 2 nS 2 ESS R2TSS
 n  2 R 2 .
F 2 2X  1
 1

ˆ RSS
n2
1 R TSS
2
1 R2
n2

Do đó, quá trình phân tích phương sai cho phép ta đưa ra các phán đoán thống kê về độ thích
hợp của hàm hồi quy.
Chẳng hạn, với số liệu của ví dụ 1, ta có
 n  2  R 2  9  2   0.9933
F   1037.7761 .
1  R2 1  0.9933
Với mức ý nghĩa a  0.05 , tra bảng phân phối Fisher với độ tự do 1,9  2   1,7  , ta được
C  5.59 . Vì F  C nên ta bác bỏ H, chấp nhận H , nghĩa là biến độc lập X (tỷ lệ lạm phát)
có ảnh hưởng đến biến phụ thuộc Y (lãi suất ngân hàng).
Ngoài phương pháp kiểm định các hệ số hồi quy bằng khoảng tin cậy, ta còn có phương
pháp kiểm định bằng giá trị p – value được thực hiện như sau :
Bước 1 : Tính giá trị
 i  i*
T0 
 
se   i

Bước 2 : Tính p  value  P ( T  T0 ) , trong đó T  St ( n  2)


Bước 3 : So sánh giá trị p – value với mức ý nghĩa a cho trước, nếu
p  value  a : Bác bỏ giả thuyết H.
Tương tự cho bài toán kiểm định sự phù hợp của mô hình, với giá trị

F
 n  2 R2  F (1, n  2) .
1  R2
Thường thì gía trị p–value được tính bằng phần mềm Eview.
Chẳng hạn như trong ví dụ 1, ta có p–value  P( T  32.17985)  0.0000  0.05 nên ta
bác bỏ giả thuyết H.
7. Ứng dụng phân tích hồi quy vào dự báo
Ta có thể dùng hàm hồi quy mẫu để dự báo giá trị của biến phụ thuộc Y tương ứng với một
giá trị của biến độc lập X. Có hai loại dự báo
Dự báo trung bình có điều kiện của Y ứng với X  X 0 .
Dự báo giá trị cá biệt của Y ứng với X  X 0 .

33
7.1. Dự báo trung bình
Với X  X 0 , ta muốn dự báo giá trị trung bình của Y khi biết X lấy giá trị X 0 ,

E Y X  X 0   1   2 X 0 .

Hàm hồi quy mẫu cho ta ước lượng điểm là Yˆ0  ˆ1  ˆ2 X 0 , trong đó Ŷ0 là ước lượng điểm,
không chệch và có phương sai nhỏ nhất của E Y X  X 0  . Tuy nhiên, Ŷ0 vẫn sai khác so với
giá trị thực của nó. Để có khoảng tin cậy cho E Y X  X 0  , ta chú ý rằng Ŷ0 có phân phối
chuẩn với trung bình 1   2 X 0 và phương sai
2
  X0  X  
2 1
ˆ  
var Y0    
n nS X2
.

 
Bằng cách thay  2 bằng ước lượng không chệch, ̂ 2 , của nó, ta được
Yˆ0   1   2 X 0 
T  St (n  2) .
se Yˆ   0

Từ thống kê này, ta suy ra ước lượng khoảng cho giá trị trung bình E Y X  X 0  .

7.2. Dự báo giá trị riêng biệt Y0

Nếu muốn dự báo giá trị riêng biệt Y0 khi X  X 0 , ta chú ý rằng Y0  Yˆ0 là đại lượng ngẫu
nhiên có phân phối chuẩn với trung bình là 0 và phương sai
 1  X  X 2 
  n

var Y0  Yˆ0  ˆ 1  
0

nS X2
2
.

 
Do đó,

Z
 Y  Yˆ   0 0 0
 N  0;1 .
se Y  Yˆ  0 0

Ngoài ra, do trong công thức của se Y  Yˆ  , ta thay  chưa biết bằng ̂
0 0
2 2
, nên ta được thống kê

T
Y  Yˆ   0  Y  Yˆ  St (n  2) .
0 0
0 0

se Y  Yˆ  se Y  Yˆ 
0 0 0 0

Từ phân phối này, ta suy ra ước lượng khoảng cho giá trị riêng biệt Y0 .
Chẳng hạn, với số liệu của ví dụ 1, ta xét các vấn đề :
Dự báo mức lãi suất trung bình nếu tỷ lệ lạm phát là X 0  5% .
Dự báo mức lãi suất nếu tỷ lệ lạm phát là X 0  5% .
Kết luận với a  0.1 .

34
Ta có ˆ1  ˆ2 X 0  2.741695  1.2494067  5  8.9887285 ,

 1  X  X 2 
 
var Yˆ0  ˆ  

2

n
0

nS X2


 
 1  5  9.4111111112 
 2.975456987    2 
 9 9 14.80933973 
 0.359937933

 
nên se Yˆ0  0.599948275 .

Do đó với a  0.1 , tra bảng phân phối Student với độ tự do n  9  2  7 , ta được


C  1.895 . Từ đó, suy ra khoảng ước lượng cho mức lãi suất trung bình
E Y X 0   8.9887285  1.895  0.599948275 .

Tương tự, ta lại có


 1  X  X 2 
 ˆ 2
var Y0  Y0  ˆ 1  
 n
0

nS X2


 
 1  5  9.4111111112 
 2.975456987  1   2
,
 9 9  14.80933973 
 3.33539492

 
nên se Y0  Yˆ0  1.82630636 .

Với a  0.1 , ta suy ra khoảng ước lượng cho mức lãi suất là
Y0  8.9887285  1.895 1.82630636 .
8. Ví dụ tổng hợp
Ví dụ 2. Số liệu về năng suất (Y, đơn vị tạ/ha) và mức phân bón (X, đơn vị tạ/ha) cho một loại
cây trồng tính trên một ha trong 10 năm từ 1988 đến 1997 cho trong bảng sau
Năm 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997
X 6 10 12 14 16 18 22 24 26 32
Y 40 44 46 48 52 58 60 68 74 80
a) Hãy ước lượng mô hình hồi quy của năng suất phụ thuộc vào mức phân bón.
b) Giải thích ý nghĩa kinh tế của các hệ số nhận được.
c) Tính độ lệch tiêu chuẩn của các ̂ .
d) Với mức ý nghĩa 5%, hãy cho biết mức phân bón có ảnh hưởng đến năng suất loại
cây này không ?
e) Tìm khoảng tin cậy 95% cho các hệ số hồi quy.
f) Tính R 2 và giải thích ý nghĩa kết quả nhận được.

35
g) Với mức phân bón là 20 tạ/ha, hãy dự báo giá trị trung bình và giá trị cá biệt của năng
suất với độ tin cậy 95%.
Giải. a) Trước hết, ta có đồ thị sau

Hình 5
Đồ thị trên mô tả quan hệ giữa “năng suất” Y và “phân bón” X và ta thấy có khả năng quan
hệ giữa phân bón và sản lượng là có dạng tuyến tính.
Để ước lượng hàm hồi quy tổng thể E Y X   1   2 X , ta xét hàm hồi quy mẫu,
Yˆ  ˆ1  ˆ2 X , trong đó các hệ số ̂1 và ̂2 được suy ra từ các số liệu tính toán nhận được
như sau :
2
X  3.816 ;  X  180 ; n  10 ;
2
Y  34.124 ;  Y  570 ;  XY  11.216 ;
X  18 ; x n  7.589466384 ;
Y  57 ; y n  12.78280095 ;
A  27.125 ; B  1.659722222 ; r  0.985418302 .
Ta nhận được hàm hồi quy mẫu Yˆ  27.125  1.66 X .
b) Ý nghĩa của các hệ số hồi quy.
Về lý thuyết, khi tăng lượng phân bón thì năng suất cây trồng sẽ tăng. Hệ số ˆ2  1.66  0
cho thấy kết quả trên phù hợp với lý thuyết. Số 1.66 cho biết nếu tăng thêm 1 tạ phân bón trên
1 ha, năng suất trung bình sẽ tăng 1.66 tạ. (Hệ số ˆ1  27.125 cho thể diễn tả rằng khi không
bón phân ( X  0 ) thì năng suất trung bình của loại cây trên là 27.125 tạ/ha).
c) Độ lệch chuẩn của các hệ số hồi quy.
Phương sai của các hệ số hồi quy cho bởi công thức
1 X 2  2 ˆ 2
 
var ˆ1    2
 n nS X


 ; var  
 2 
nS X2
.

Trong các công thức trên, giá trị  2 chưa biết được thay bằng ước lượng không chệch của nó

36
n
ˆ 2 
n2
1  rX2 ,Y  SY2

10
  1  0.9854183022   12.782800952
10  2
 5.913194794
Từ đó, ta có
1 182 
 
var ˆ1    2
10 10  7.589466384 
 5.913194794

 3.426172072
5.913194794
 
var ˆ2 
10  7.589466384 2
 0.010265963

và do đó

 
se ˆ1  3.426172072  1.850992186  1.85 ,

se  ˆ  
2 0.010265963  0.101321089  0.101 .

d) Mức phân bón có ảnh hưởng đến năng suất loại cây này không ?
Để trả lời câu hỏi này, ta phải kiểm định giả thiết sau
 H : 2  0
 .
 H : 2  0
Nếu H đúng, thì
ˆ2
T  St (n  2) .
 
se ˆ2

Với nguy cơ sai lầm (mức ý nghĩa) a  5%  0.05 , tra bảng phân phối Student với 10  2  8
độ tự do, ta được C  2.306 . Mặt khác, với số liệu cho bởi bảng tính trên, ta có
ˆ2 1.659722222
T   16.38081705  16.38 .
 
se ˆ2 0.101321089

Do T  C , ta bác bỏ H, chấp nhận H , nghĩa là : mức phân bón có ảnh hưởng đến năng suất.
e) Khoảng tin cậy cho các hệ số hồi quy.
Để tìm khoảng tin cậy cho các hệ số hồi quy 1 và  2 , ta dùng các thống kê

ˆ1  1 ˆ   2
T  St ( n  2) và T  2  St ( n  2) .
 
se ˆ1  
se ˆ2

Với độ tin cậy   95%  0.95 , bảng phân phối Student với 10  2  8 độ tự do cho
C  2.306 , ta được

 
1  ˆ1  C  se ˆ1  27.125  2.306  1.850992186 .

37
Từ đó suy ra khoảng ước lượng của 1 là  22.86;31.39 .
Tương tự, ta có

 
 2  ˆ2  C  se ˆ2  1.659722222  2.306  0.101321089 ,

và do đó, khoảng ước lượng cho  2 là 1.43;1.89 .


Ta có thể giải thích rằng : Nếu tăng thêm 1 tạ phân bón trên 1 ha, năng suất trung bình
sẽ tăng ít nhất 1.43 tạ và nhiều nhất 1.89 tạ trên 1 ha, với độ tin cậy   95%  0.95 . (Khi
không bón phân ( X  0 ) thì năng suất trung bình ít nhất là 272.86 tạ và nhiều nhất là 31.39
tạ/ha).
f) Hệ số xác định mô hình R 2 .
Từ công thức R 2  rX2 ,Y và với số liệu rX ,Y  r  0.985418302 , ta được

R 2  0.9854183022  0.971049229 .
Ta nói sự biến thiên của lượng phân bón giải thích được xấp xỉ 97% sự biến thiên của năng
suất.
g) Dự báo giá trị trung bình và giá trị cá biệt khi mức phân bón là X 0  20 tạ/ha.

Để dự báo giá trị trung bình E Y X  X 0   1   2 X 0 , ta dùng thống kê

Yˆ0   1   2 X 0 
T  St (n  2) .
 
se Yˆ0

Từ bảng số liệu, ta có
2

var Yˆ0  ˆ 2  1n  nS
 X0  X    5.913194794   1   20182 
   2
X   10 107.5894663842 
 0.902972209

 
se Yˆ0  0.902972209  0.950248498  0.95 .

Mặt khác, X  18 ; X  n  7.589466384 ,


Yˆ0  ˆ1  ˆ2 X 0
 27.125  1.659722222  20
 60.31944444  60.32
Từ đó, với độ tin cậy   95% , từ bảng phân phối Student với 10  2  8 độ tự do, ta được
C  2.306 và ta suy ra ước lượng cho E Y X  20  là

 
E Y X  20   Yˆ0  C  se Yˆ0  60.32  2.306  0.95

và ta nhận được ước lượng khoảng cho E Y X  20  là  58.129;62.511 .

Để dự báo giá trị cá biệt Y0 khi X  X 0 , ta dùng thống kê

38
Y0  Yˆ0
T  St (n  2) .

se Y  Yˆ 0 0 
Ta có
2

var Y0  Yˆ0  ˆ 2 1  1n  nS
 X0  X  
  
2
X

 20 182
 5.913194794  1  101  107.589466384 
 
2

 6.545578126
nên

 
se Y0  Yˆ0  6.545578126  2.558432748  2.56 .

Ta suy ra ước lượng cho giá trị cá biệt Y0 là

 
Y0  Yˆ0  C  se Y0  Yˆ0  60.32  2.306  2.56

và ta nhận được ước lượng khoảng cho Y0 là 54.42;66.22 .

Ví dụ 3. Bảng sau cho số liệu về Giá bán (Y đơn vị : ngàn USD / ft 2 ) và diện tích nhà ở (X
đơn vị ft 2 ).
Diện tích Giá bán Diện tích Giá bán
1065 199.9 1870 365
1254 228 1935 295
1300 235 1948 290
1577 285 2254 385
1600 239 2600 505
1750 293 2800 425
1800 285 3000 415
Ta có đồ thị phân tán

Hình 6
Sử dụng phần mềm Eview ta có bảng kết quả sau

39
Hình 7
Khi đó ta có thể trả lời các câu hỏi sau :

- Mô hình hồi quy : Y  52.35091  0.13875 X


- Độ lệch chuẩn của các hệ số hồi quy.

   
se ˆ1  37.28549 , se ˆ2  0.018733 .

- Diện tích có ảnh hưởng đến Giá bán không? với mức ý nghĩa 5%
Để trả lời câu hỏi này, ta xét bài toan kiểm định sau
 H : 2  0
 .
 H : 2  0
Ta có, P( t  7.406788)  0.0000  0.05 nên ta bác bỏ H, chấp nhận H , nghĩa là diện tích có
ảnh hưởng đến giá bán.
- Hệ số xác định mô hình R 2  0.820522 .
Ví dụ 4. Bảng sau cho số liệu về thu nhập (X đơn vị nghìn USD / tháng) và chi tiêu cho việc
chăm sóc sức khoẻ (Y đơn vị nghìn USD / tháng ) của 51 cá nhân ở Mỹ
X Y X Y X Y X Y X Y
9.3 0.998 25.1 3.452 38.9 6.187 71.3 13.014 132.9 20.104
11.2 1.499 27.4 3.485 51.6 7.341 94.9 14.194 129.8 18.241
17.1 4.285 23.3 3.433 59 7.999 118.5 15.154 211.2 25.741
13.8 1.573 31.6 3.747 55 8.041 99.9 14.502 194.7 27.136
10.9 2.021 31.7 4.4 92.3 12.216 93.9 16.203 217.9 33.456
15.3 2.26 26.4 3.878 76.6 10.066 102.4 15.949 263.6 34.747
12.8 1.953 29.4 5.197 61.2 9.029 114.5 15.129 256 41.521
14.6 2.103 30 4.118 64.1 10.384 109.6 16.401 283.4 44.811
21.2 3.428 38.8 6.111 71.3 10.635 146.9 23.421 345 49.816
19.3 2.277 50.3 6.903 71.6 12.06 140.2 6.682 450.6 67.033
683.5 94.178
a) Hãy ước lượng mô hình hồi quy
b) Tính độ lệch tiêu chuẩn của các ̂ .
40
c) Với mức ý nghĩa 5%, hãy cho biết thu nhập có ảnh hưởng đến chi tiêu cho sức khoẻ
cá nhân không ?
d) Tính R 2 và giải thích ý nghĩa kết quả nhận được.
e) Với mức với mức thu nhập X  100 nghìn USD, hãy dự báo giá trị trung bình và giá
trị cá biệt của chi tiêu cho sức khoẻ cá nhân, với độ tin cậy 95%.
Giải. Ta có đồ thị phân tán số liệu

Hình 8
Đồ thị trên mô tả quan hệ giữa “Chi tiêu cho chăm sóc sức khoẻ” Y và “Thu nhập cá nhân” X
và ta thấy có khả năng quan hệ giữa phân bón và sản lượng là có dạng tuyến tính.
Ta có bảng kết quả hồi quy sau

Hình 9
Dựa vào bảng kết quả hồi quy ta có thể trả lời các câu hỏi sau :
- Mô hình hồi quy

Y  0.176496  0.141652  X
- Độ lệch tiêu chuẩn của các ̂ .

   
se ˆ1  0.467509 , se ˆ2  0.002875 .

- Thu nhập có ảnh hưởng đến chi tiêu cho sức khoẻ cá nhân không ? với mức ý nghĩa
5%
Để trả lời câu hỏi này, ta xét bài toán kiểm định sau

41
 H : 2  0
 .
 H : 2  0
Ta có, P( t  49.27179)  0.0000  0.05 ta bác bỏ H, chấp nhận H . Nghĩa là thu nhập có ảnh
hưởng đến chi tiêu cho sức khoẻ.
Ta có R 2  0.980216 và P( F  2427.709)  0.0000  0.05 . Nghĩa là mô hình hồi quy trên
giải thích được xấp xĩ 98.02% bộ số liệu quan sát
Với mức thu nhập X 0  100 nghìn USD ta có,

Y 0  14.34171
 
se Y  Yˆ  2.571994 , ta có
0 0

2
 
se Yˆ0  se Y0  Yˆ0   ˆ 2  2.016941 .

(xem phần tính toán trong phụ lục)


Từ đó, với độ tin cậy   95% , từ bảng phân phối Student với 51  2  49 độ tự do, ta được
C  1.96 và ta suy ra,
Khoảng ước lượng cho E Y X  100  là : 10.3885;18.2949 .

Khoảng ước lượng cho giá trị cá biệt Y0 là :  9.300606;19.38282

Bài tập
Câu 4. Bạn hãy liệt kê một số mối quan hệ kinh tế và dạng hàm số thể hiện mối quan hệ đó
mà bạn đã được học trong môn học như Kinh tế vi mô và vĩ mô. Chẳng hạn như: Mối quan
hệ giữa Lượng cầu và giá bán được liên hệ bởi hàm đơn giản sau
QD  f ( P )  a  bP , P : Giá bán.
Câu 5. Giả sử ta có mô hình hồi quy và các tham số được cho như sau :
Y  52.35  0.14 X ; R 2  0.82
se (37.29) (0.018).
p (0.186) (0.000).

Trong đó, Y : giá bán của một căn nhà (Ngàn USD), X : diện tích ( ft 2 ).
a. Hãy giải thích ý nghĩa của các hệ số trong mô hình trên.
b. Hãy cho biết ý nghĩa của hệ số xác định mô hình R 2 .
c. Có ý kiến cho rằng hệ số  2  0.2 , bạn có đồng ý với nhận định đó không ? với mức
ý nghĩa 5%.
d. Theo bạn giá bán của một căn nhà có phải chỉ phụ thuộc vào diện tích của căn nhà đó
không ? Nếu không hãy liệt kê một số yếu tố khác tác động đến giá bán và hãy dự đoán dấu
của các hệ số.
Câu 6. Dựa vào số liệu hàng tháng trong giai đoạn từ 1/1978 đến 12/1987, ta tính được các
kết quả hồi qui sau :

42
Y t  0, 00681  0, 7581X t
se   0, 02596   0, 27009 
t   0, 26229   2,807  r 2  0, 4406
p   0, 7984   0, 0186 
Y t  0, 76214 X t ; se   0, 265799 
t   2, 95408  r2  0, 43684
p   0, 0131
Trong đó :
Y : Suất sinh lời hàng tháng của cổ phiếu thường của Texaco (%)
X : Suất sinh lời hàng tháng của thị trường (%)
a) Sự khác nhau giữa hai mô hình hồi qui là gì?
b) Với kết quả trên, bạn chọn mô hình nào, tại sao?
c) Giải thích hệ số góc hai mô hình trên?
d) Có thể so sánh hệ số r 2 của hai mô hình trên được không ? tại sao?
Câu 7. Bảng sau cho số liệu về lãi suất ngân hàng (Y) và tỷ lệ lạm phát (X) trong năm 1988 ở
9 nước
Y 11.9 9.4 7.5 4.0 11.3 66.3 2.2 10.3 7.6
X 7.2 4.0 3.1 1.6 4.8 51.0 2.0 6.6 4.4
Giả sử rằng sự phụ thuộc E Y X  là tuyến tính.

a) Hãy ước lượng mô hình hồi quy của lãi suất ngân hàng phụ thuộc vào tỷ lệ lạm phát.
b) Giải thích ý nghĩa kinh tế của các hệ số hồi quy nhận được.
c) Tính độ lệch chuẩn của các hệ số hồi quy.
d) Với mức ý nghĩa 5%, hãy cho biết mức lạm phát thay đổi có ảnh hưởng đến lãi suất
ngân hàng ?
e) Tìm khoảng tin cậy 95% cho các hệ số hồi quy.
f) Tính R 2 và giải thích ý nghĩa kết quả nhận được.
g) Với tỷ lệ lạm phát là 5%, hãy dự báo giá trị trung bình và giá trị cá biệt của lãi suất
ngân hàng với độ tin cậy 95%.
Câu 8. Quan sát về thu nhập (X- USD/tuần) và chi tiêu (Y- USD/tuần) của 10 người ta thu
được các số liệu sau :
Xi 31 50 47 45 39 50 35 40 45 50
Yi 29 42 38 30 29 41 23 36 42 48

a) Ước lượng hàm hồi qui tuyến tính : Yi  1   2 X i  U i


b) Nêu ý nghĩa kinh tế của các hệ số hồi qui đã ước lượng được. Các giá trị đó có phù
hợp với lý thuyết kinh tế hay không?
c) Tìm khoảng tin cậy của 1 và  2 với độ tin cậy 95%.

43
d) Kiểm định giả thuyết H 0 :  2  0; H1 :  2  0 với mức ý nghĩa 5%.

e) Tính R 2 và đánh giá mức độ phù hợp của mô hình.


f) Dự báo chi tiêu của một người có mức thu nhập 40 USD/tuần.

44
Chương 2.
MÔ HÌNH HỒI QUY BỘI
Trong thực tế, một đại lượng thay đổi thường chịu sự tác động của nhiều hơn một đại lượng.
Chẳng hạn nhu cầu Y của một loại hàng hóa thường lệ thuộc vào nhiều yếu tố như thu nhập
người tiêu dùng, giá của hàng hóa đó, giá của hàng hóa thay thế ... Do đó, ta cần tổng quát
hóa mô hình hồi quy hai biến trình bầy trong chương 1 cho trường hợp có nhiều hơn hai biến,
mà ta gọi là hồi quy bội.
Trước hết, ta xét trường hợp đơn giản nhất của mô hình hồi quy bội : mô hình hồi quy
ba biến. Mô hình này khảo sát một biến phụ thuộc Y theo hai biến độc lập X 2 và X 3 . Sau đó,
mô hình này được mở rộng cho trường hợp tổng quát k biến trong đó biến Y phụ thuộc theo
các biến X 2 , X 3 , ..., X k .
Nhắc lại rằng ta chỉ xét trường hợp mô hình tuyến tính theo tham số và không nhất thiết
phải là tuyến tính theo các biến.
1. Mô hình hồi quy tuyến tính ba biến
1.1. Hàm hồi quy tổng thể
Hàm hồi quy tổng thể (PRF) cho mô hình hồi quy tuyến tính 3 biến có dạng
E Y X 2 , X 3   1   2 X 2   3 X 3 ,

trong đó, giá trị của PRF là kỳ vọng có điều kiện của biến Y với giá trị đã cho của các biến
X 2 và X 3 , với Y là biến phụ thuộc, X 2 và X 3 là các biến độc lập, 1 là hệ số tự do,  2 và
3 là các hệ số hồi quy riêng theo các biến.

Với tổng thể gồm N bộ giá trị  X 2,i ; X 3,i ; Yi  , i  1, 2,..., N , trong đó Yi sai khác với kỳ
vọng có điều kiện một đại lượng sai số ngẫu nhiên, ký hiệu  i , nghĩa là

Yi  E Y X 2  X 2,i , X 3  X 3,i    i  1   2 X 2,i   3 X 3,i   i .

1.2. Các giả thiết của mô hình


Giả thiết 1. Giá trị trung bình các sai số bằng 0, E   X 2 , X 3   0 .

Giả thiết 2. Phương sai của các sai số  i là hằng, var   i    2 , i .

Giả thiết 3. Không có hiện tượng tự tương quan giữa các sai số  i , nghĩa là
cov   i ,  j   0 , với mọi i  j .

Giả thiết 4. Không có hiện tượng cộng tuyến giữa X 2 và X 3 , nghĩa là không có quan
hệ tuyến tính giữa các biến giải thích.
Giả thiết 5. Các sai số  i đều có phân phối chuẩn,  i  N  0;  2  , i .

1.3. Ước lượng tham số


Để ước lượng tham số của mô hình
E Y X 2 , X 3   1   2 X 2   3 X 3 ,

45
người ta dùng một mẫu gồm n bộ giá trị  X 2,i ; X 3,i ; Yi  , i  1, 2,..., n , để thành lập hàm hồi quy
mẫu, SRF, dạng
Yˆ  ˆ1  ˆ2 X 2  ˆ3 X 3 ,

trong đó ˆ j là ước lượng điểm của  j , với j  1, 2,3 .


Khi đó, giá trị ước lượng thứ i của SRF sai khác so với giá trị tương ứng của PRF một đại
lượng mà ta gọi là phần dư, ký hiệu ei

Yi  ˆ1  ˆ2 X 2,i  ˆ3 X 3,i  ei ,


nghĩa là
ei  Yi  Yˆi  Yi  ˆ1  ˆ2 X 2,i  ˆ3 X 3,i , i  1, 2,..., n .

Phương pháp bình phương nhỏ nhất nhằm xác định các giá trị ˆ1 , ̂2 và ̂3 sao cho tổng bình
phương các phần dư
n n 2 n 2
 e   Y  Yˆ    Y  ˆ  ˆ X
i 1
2
i
i 1
i i
i 1
i 1 2 2,i  ˆ3 X 3,i 
là nhỏ nhất.
Do tổng bình phương các phần dư này là hàm theo ba biến ˆ1 , ˆ2 và ̂3 ,
n
RSS   ei2  f ˆ1 , ˆ2 , ˆ3 ,
i 1
 
nên giá trị nhỏ nhất của nó, nếu có, phải đạt được ở điểm dừng, nghĩa là
 
f ˆ1 , ˆ2 , ˆ3   0, 0, 0  .

Ta có
n
f ˆ ˆ ˆ
0
ˆ1
 
1 ,  2 , 3  2 Yi  ˆ1  ˆ2 X 2,i  ˆ3 X 3,i
i 1
  (1)

n
f ˆ ˆ ˆ
0
ˆ2
 
1 ,  2 , 3  2 X 2,i Yi  ˆ1  ˆ2 X 2,i  ˆ3 X 3,i
i 1
  (2)

n
f ˆ ˆ ˆ
0
ˆ3
 
1 ,  2 , 3  2 X 3,i Yi  ˆ1  ˆ2 X 2,i  ˆ3 X 3,i
i 1
  (3)

Khi đó, (1) cho


n

 Y  ˆ  ˆ X
i 1
i 1 2 2,i  ˆ3 X 3,i  0 ,
nghĩa là
n n n

 Y  nˆ  ˆ  X
i 1
i 1 2
i 1
2,i  ˆ3  X 3,i  0
i 1

và do đó

46
1 n 1 n 1 n
ˆ1   Yi  ˆ2  X 2,i  ˆ3  X 3,i .
n i 1 n i 1 n i 1
Từ đó suy ra

ˆ1  Y  ˆ2 X 2  ˆ3 X 3 , (4)

trong đó Y , X 2 và X 3 lần lượt là trung bình của Y, X 2 và X 3 .

Thế (4) vào (2), (3) và với yi  Yi  Y , x2,i  X 2,i  X 2 , x3,i  X 3,i  X 3 , ta được hệ
phương trình
n

 yi  ˆ2 x2,i  ˆ3 x3,i   x2,i  X 2   0
 i 1
 n

 ˆ ˆ
  yi   2 x2,i  3 x3,i   x3,i  X 3   0
 i 1
và do  yi   x2,i   x3,i  0 , ta suy ra

ˆ n 2 ˆ
n n

  2
 i 1
 x2, i   3 
i 1
x 2, i x3, i  
i 1
yi x2,i
 n n n
 ˆ ˆ 2
 2  3  3,i 
x x
2,i 3,i   x  yi x3,i
i 1 i 1 i 1

Giải hệ này, ta được


n n n n

 yi x2,i  x3,2 i   yi x3,i  x2,i x3,i


ˆ2  i 1 i 1 i 1 i 1
2
(5)
n n n
2  2 

i 1
x  x    x2,i x3,i 
2,i
i 1  i 1
3,i

n n n n

 yi x3,i  x2,2 i   yi x2,i  x2,i x3,i


ˆ3  i 1 i 1 i 1 i 1
2
(6)
n n n
2  2 

i 1
x  x    x2,i x3,i 
2,i
i 1  i 1
3,i

1.4. Phương sai của hệ số hồi quy
Phương sai và độ lệch chuẩn của ̂1 , ̂ 2 và ˆ3 được tính bởi

 n n n 
 X 22  x3,2 i  X 32  x2,2 i  2 X 2 X 3  x2,i x3,i 
1
var ˆ1   
  i 1 i 1 i 1  2 ,
n n n
 n

2 
2 2



i 1
x2,i  3,i
i 1
x    2,i 3,i 
 i 1
x x




47
n
2
x 3,i
2
 
var ˆ2 
n n
i 1

 n 
2
2  n
,
 x2,2 i  x3,2 i    x2,i x3,i   x 1  r 
2
2,i
2
2,3
i 1 i 1  i 1  i 1

n
2
x 2,i
2
 
var ˆ3 
n n
 n
i 1


2
2  n
,
 2 2
x  x    x2,i x3,i 
2,i 3,i
 x 1  r 
2
3,i
2
2,3
i 1 i 1  i 1  i 1


r2,3 2

cov ˆ2 , ˆ3   n n
,
1  r   x  x
2
2,3
2
2,i
2
3,i
i 1 i 1

trong đó r2,3 là hệ số tương quan giữa X 2 và X 3 ,


2

2
r2,3 
 n
 i1 x2,i x3,i  .
n 2 n
 x
i 1 2,i  x2
i 1 3,i

Ngoài ra, khi phương sai  2 của các  i chưa biết, người ta dùng

1 n 2 RSS
ˆ 2   ei  n  3
n  3 i 1
làm ước lượng không chệch cho  2 , trong đó
RSS  TSS  ESS ,
n n n
2
với TSS   yi2  n Y  và ESS  ˆ2  yi x2,i  ˆ3  yi x3,i .
i 1 i 1 i 1

1.5. Các tính chất


Các tính chất cho hồi quy bội khá giống như cho trường hợp hồi quy hai biến. Cụ thể, ta có
1. Đường hồi quy bội đi qua điểm Y , X 2 , X 3  .

2. Y  Y .
n
3. e
i 1
i  0.

4. Các phần dư ei không tương quan với X 2,i và X 3,i , nghĩa là


n n

 ei X 2,i   ei X 3,i  0
i 1 i 1 .
5. Các phần dư ei không tương quan với Yˆi , nghĩa là

48
n

 e Yˆ  0 .
i 1
i i

   
6. Từ công thức của var ˆ2 và var ˆ3 , ta thấy rằng nếu X 2 và X 3 có quan hệ tuyến
tính chặt, r  1 , thì var  ˆ  và var  ˆ  sẽ lớn và do đó, rất khó ước lượng  và  .
2,3 2 3 2 3

7. Công thức của var  ˆ  , hay var  ˆ  , cho thấy nó tỷ lệ thuận với  , r và tỷ lệ
2 3
2
2,3
n n
nghịch với  x , hay  x . Do đó, nếu X biến thiên càng lớn thì var  ˆ  càng nhỏ và
2
2,i
2
3,i j ,i j
i 1 i 1

khi đó,  j càng được ước lượng chính xác.

8. ̂ 2 và ̂ 3 là các ước lượng tuyến tính không chệch và có phương sai nhỏ nhất trong
lớp các ước lượng tuyến tính không chệch của  2 và 3 .

Chú ý rằng với các giả thiết đã nêu thì Yi  N  1   2 X 2,i  ...   k X k ,i ;  2  và các ước lượng
của 1 , 2 , ...,  k là ̂1 , ̂ 2 , ..., ˆk thu được bằng phương pháp bình phương tối thiểu (OLS)
và phương pháp ước lượng cơ hội cực đại (Maximum-Likelihood) là như nhau. Tuy nhiên
ước lượng của  2 trong phương pháp ước lượng cơ hội cực đại, ˆ 2  1n in1 ei2 , là ước lượng
chệch.
1.6. Hệ số xác định hồi quy bội
Trong mô hình hồi quy hai biến, R 2 đo độ thích hợp của hàm hồi quy. Nó cho ta hình ảnh về
tỷ lệ của toàn bộ sự biến đổi của biến phụ thuộc Y do biến giải thích X gây ra. Trong mô hình
hồi quy bội, tỷ lệ của toàn bộ sự khác biệt của biến Y do tất cả các biến giải thích X 2 , X 3 gây
ra, gọi là hệ số xác định hồi quy bội, R 2 , xác định bởi
n
2
ESS e i
R2   1 i 1
n
.
TSS 2
y
i 1
i

2 2
Ta có 0  R  1 . Khi R  1 , ta nói mô hình hồi quy giải thích 100% sự thay đổi của Y. Nếu
R 2  0 thì mô hình không giải thích sự thay đổi nào của Y. Ngoài ra ta còn có một tính chất
quan trọng của R 2 là nó là hàm không giảm theo số biến giải thích có trong mô hình. Dễ thấy
rằng in1 yi2  in1 (Yi  Y )2 độc lập với số biến nhưng in1 ei2 là hàm giảm theo số biến này.
Do đó, nếu tăng số biến giải thích của mô hình thì R 2 cũng tăng. Vì vậy, khi so sánh hai mô
hình hồi quy có cùng biến phụ thuộc nhưng có số biến độc lập khác nhau, ta cần phải cẩn thận
trong việc lựa chọn mô hình với R 2 cao nhất.
Để so sánh hai số hạng R 2 , ta cần phải tính đến số lượng biến độc lập có trong mô hình. Có
thể thực hiện điều này dễ dàng nếu chúng ta xem xét một hệ số xác định thay thế khác như
sau :
1 n 2
 ei
n  k i 1
R2  1 ,
1 n 2
 yi
n  1 i 1
49
trong đó k là số các tham số trong mô hình bao gồm cả hệ số tự do ( trong mô hình hồi quy ba
biến thì k  3 ). R 2 được gọi là R 2 có hiệu chỉnh. Thuật ngữ hiệu chỉnh có nghĩa là hiệu
chỉnh theo bậc tự do tương ứng với các tổng bình phương trong công thức định nghĩa của R 2 .
n n
Số bậc tự do của  ei2 là  n  k  và số bậc tự do của
i 1
y
i 1
2
i là  n  1 .

Giữa R 2 và R 2 có liên quan với nhau. Người ta chứng minh được rằng
n 1
R 2  1  1  R 2 
nk
và R 2 có các tính chất sau :
i) Khi k  1 thì R 2  R 2  1 , nghĩa là số biến càng lớn thì hệ số xác định hồi quy đã hiệu
chỉnh càng nhỏ hơn hệ số xác định chưa hiệu chỉnh.
ii) Mặc dù R 2 luôn luôn dương nhưng R 2 có thể âm. Nếu R 2 âm thì khi áp dụng, ta coi
giá trị của nó là 0.
Trên thực tế, người ta thường dùng R 2 hơn cho dù rằng chưa có một chứng minh chặt
chẽ nào cho thấy tính ưu việt hơn hẳn của nó so với R 2 .
Người ta dùng hệ số xác định hồi quy bội đã hiệu chỉnh để quyết định có nên đưa thêm
biến giải thích mới vào mô hình hay không ? Có thể chứng minh được rằng việc đưa thêm
biến giải thích là cần thiết chừng nào giá trị của R 2 còn tăng lên và hệ số hồi quy của biến
được đưa thêm vào mô hình khác 0 là có ý nghĩa.
Để biết được hệ số hồi quy của biến mới đưa thêm vào hàm hồi quy khác 0 có ý nghĩa
hay không, ta cần kiểm định giả thuyết
H : k  0

 H : k  0 .

Cần chú ý rằng, khi dùng R 2 để so sánh hai mô hình (dù là hệ số có hiệu chỉnh hay không),
cỡ mẫu n và biến phụ thuộc phải giống nhau; các biến giải thích có thể cho ở bất cứ dạng nào.
1.7. Khoảng tin cậy của các hệ số hồi quy
Với các giả thiết về  i đã nêu thì

ˆ j  N   j ;  2  , với j  1, 2,3 .

 
Do  2 chưa biết, nên ta dùng độ lệch chuẩn của các ˆ j là se ˆ j để thay thế. Khi đó, ta có

ˆ j   j
T  T (n  3) .
 
se ˆ j

Từ đó, với độ tin cậy  cho trước, ta tìm được khoảng tin cậy cho T và suy ra khoảng tin cậy
cho  j .

1.8. Kiểm định giả thiết về các hệ số hồi quy


Xuất phát từ thống kê

50
ˆ j   j
T  T (n  3)
 
se ˆ j

ta có thể kiểm định giả thiết


 H :  j   0j
 0
 H :  j   j
với  0j cho trước.
1.9. Kiểm định giả thiết đồng thời
Xét giả thiết đồng thời
H :  2   3  0,
nghĩa là giả thiết rằng các hệ số hồi quy  2 và 3 đồng thời bằng 0. Điều này có nghĩa là cả
hai biến giải thích đều không có ảnh hưởng gì đến biến phụ thuộc Y. Giả thiết này tương
đương với giả thiết
H : R2  0
Nói khác đi, các giả thiết thống kê này tương đương với giả thiết về sự phụ thuộc tuyến tính
của Y vào hai biến X 2 và X 3 .
Giả thiết này được kiểm định dựa vào thống kê
R 2 (n  3)
F  F  2; n  3
2 1  R 2 
,
trong đó n là số quan sát của mẫu.
1.10. Ví dụ minh họa
Ví dụ 1. Số liệu về doanh thu (Y), chi phí cho quảng cáo ( X 2 ), tiền lương của nhân viên tiếp
thị ( X 3 ) của 12 công nhân (đơn vị triệu đồng) cho bởi bảng sau
STT 1 2 3 4 5 6 7 8 9 10 11 12
Y 127 149 106 163 102 180 161 128 139 144 159 138
X2 18 25 19 24 15 26 25 16 17 23 22 15
X3 10 11 6 16 7 17 14 12 12 12 14 15

Từ bảng số liệu trên, ta có các tổng sau


n n n

 Yi  1696 ;
i 1
 X 2,i  245 ;
i 1
X
i 1
3,i  146 ;

n n n

yx
i 1
i 2,i  836.333 ; yx
i 1
i 3,i  774.333 ; x
i 1
x  74.167 ;
2,i 3,i

n n n
2 2 2
y
i 1
i  5924.667 ; x
i 1
2,i  192.9176 ; x
i 1
3,i  123.6667

Từ đó suy ra

51
1 n 1696 1 n 245
Y  
n i 1
Yi 
12
 141.3333 ; X 2   X 2,i 
n i 1 12
 20.4167 ;

1 n 146
X3  
n i 1
X 3,i 
12
 12.1667 .

n n n n
2
y x xi 2,i 3,i   yi x3,i  x2,i x3,i
ˆ2  i 1 i 1 i 1 i 1
2
n n n
2  
2

i 1
x  x    x2,i x3,i 
i 1
2,i
 i 1
3,i

836.333 123.6667  774.333  74.167
  2.5057
192.9167 123.6667  (74.167) 2
n n n n
2
 y x x
i 3,i 2,i   yi x2,i  x2,i x3,i
ˆ3  i 1 i 1 i 1 i 1
2
n n n
2  
2

i 1
x  x    x2,i x3,i 
i 1
2,i
 i 1
3,i

774.333 192.9176  836.333  74.167
  4.7587
192.9167 123.6667  (74.167) 2

ˆ1  Y  ˆ2 X 2  ˆ3 X 3


 141.3333  2.5057  20.4167  4.7587 12.1667
 32.2773.
Từ các đại lượng trên, ta có thể tính được các phần dư
ei  Yi  Yˆi  Yi  ˆ1  ˆ2 X 2  ˆ3 X 3
 Yi  32.2773  2.5057  X 2  4.7587  X 3

2
và ei  144.2269 .
Từ đó suy ra
RSS 1 144.2269
ˆ 2    ei2   16.02521
n3 n3 12  3
và ta dùng ˆ  16.02521  4.003151 làm ước lượng không chệch cho  .
Suy ra phương sai, độ lệch chuẩn của ̂1 , ̂ 2 và ˆ3 được tính bởi

 n n n 
 X 22  x3,2 i  X 32  x2,2 i  2 X 2 X 3  x2,i x3,i 
1
var ˆ1   
  i 1 i 1 i 1  ˆ 2
n n n
 n

2 
2 2
  x2,i  3,i x    2,i 3,i 
x x 
 i 1 i 1  i 1  
 39.10093,

52
n
2
x 3,i

 
var ˆ2 
n n
i 1

 n

2
ˆ 2  0.10796 ,
2 2
x x
i 1
2,i
i 1
3,i    x2,i x3,i 
 i 1 
n
2
x 2,i

 
var ˆ3 
n n
i 1

 n

2
ˆ 2  0.168415 ,
2 2
x x
i 1
2,i
i 1
3,i    x2,i x3,i 
 i 1 

   
và do đó se ˆ1  6.253 , se ˆ2  0.329 và se ˆ3  0.410 .  
Nếu sử dụng phần mềm Eview thì toàn bộ quá trình tính toán ở phần trên được thể hiện trong
bảng sau

Hình 1 : Bảng kết quả hồi quy 3 biến


Giải thích kết quả của bảng hồi quy
- Dependent Variable : Biến phụ thuộc là Y
- Method : Phương pháp ước lượng là phương pháp OLS
- Date – Time : Ngày giờ thực hiện
- Sample : Số liệu mẫu 1 – 12.
- Included observations : Số quan sát là 12
- Cột Variable : Các biến giải thích có trong mô hình (trong đó C là biến số tự do)
- Cột Coefficient : Giá trị các hệ số hồi quy
ˆ1  32.27726 , ˆ2  2.505729 và ˆ3  4.758693 .
- Cột Std. Error : Độ lệch chuẩn của các hệ số hồi quy

se  ˆ1   var ˆ1  6.253073 , 


53
 
se  ˆ2   var ˆ2  0.328573 ,

 
se  ˆ3   var ˆ3  0.410384 .

- Cột t – Statistic : Giá trị thống kê t tương ứng


ˆ1 ˆ2 ˆ3
T  5.161823 , T   7.626105 , T   11.59572 .
se( ˆ1 ) se( ˆ2 ) se( ˆ3 )
(Trong đó T là đại lượng ngẫu nhiên có phân phối Student với bậc tự do (n – 3)).
- Cột Prob. : Giá trị p – value của thống kê t tương ứng
P( T  5.161823)  0.0006 , P( T  7.626105)  0.0000 ,
P( T  11.59572)  0.0000 .
- R – Squared : Hệ số R 2  0.975657
- Adjusted R – Squared : Hệ số R 2 điều chỉnh
- S.E. of regression : Giá trị ước lượng cho  : ˆ  4.003151
- Sum squared resid : Tổng bình phương các phần dư ( RSS )
- Log likelihood : Tiêu chuẩn ước lượng hợp lý
- Durbin – Watson stat : Giá trị thống kê d của Durbin – Watson
- Mean dependent var : Giá trị trung bình của biến phụ thuộc
- S.D. dependent var : Độ lệch chuẩn của biến phụ thuộc
- Akaike info criterion : Tiêu chuẩn Akaike
- Schwarz info criterion : Tiêu chuẩn Schwarz
- F – Statistic : Giá trị của thống kê F  1035.543
- Prob( F–Statistic) : Giá trị p-value của thống kê F tương ứng
P( F  180.3545)  0.0000 . Với F là biến ngẫu nhiên có phân phối Fisher có bậc tự do
(k  1, n  k ) .
2. Mô hình hồi quy tuyến tính k biến
2.1. Hàm hồi quy tổng thể
Xét hàm hồi quy tổng thể k biến dạng
E Y X 2 , X 3 ,..., X k   1   2 X 2   3 X 3     k X k ,

trong đó Y là biến phụ thuộc, X j , với j  2,3,..., k , là các biến độc lập, 1 là hệ số tự do,  j ,
với j  2,3,..., k , là các hệ số hồi quy riêng.

Điều này có nghĩa là tổng thể bao gồm N bộ giá trị Y , X


i 2,i , X 3,i ,..., X k ,i  , với
i  1, 2,..., N , sao cho
Yi  1   2 X 2,i   3 X 3,i     k X k ,i   i ,

trong đó  i là sai số của Yi so với kỳ vọng có điều kiện

E Y X 2  X 2,i , X 3  X 3,i , , X k  X k ,i  ,

54
Y  1   2 X 2   3 X 3     2 X 2   ,
với  là sai số của Y.
Bây giờ, từ mẫu quan sát, Yi , X 2,i , X 3,i ,..., X k ,i  , với i  1, 2,..., n , lấy từ tổng thể, ta có

Y1  1   2 X 2,1  ...   k X k ,1  e1


Y     X  ...   k X k ,2  e2
 2 1 2 2,2
 , (2.1.1)
 ... ... ... ... ... ... ... ... ... ... ...
Yn  1   2 X 2, n  ...   k X k ,n  en

với e j là phần dư của số hạng thứ j, j  1, 2,..., n .


Dưới dạng ma trận, với
 Y1   1   e1   1 X 2,1 X 3,1 ... X k ,1 
       
Y2 2 e2 1 X 2,2 X 3,2 ... X k ,2 
Y    ,     , e    và X   ,
 ...   ...   ...   ... ... ... ... ... 
       
 Yn   n   en   1 X 2, n X 3,n ... X k ,n 

đẳng thức (2.1.1) được viết lại thành


Y  X  e .
2.2. Các giả thiết
i) E  ei   0 , i .
0 khi i  j
ii) E  ei , e j    2 , hay ký hiệu dưới dạng ma trận, E  eeT    2 I .
 khi i  j
iii) X 2 , X 3 , ..., X k đã được xác định, nghĩa là ma trận X được hoàn toàn xác định.
iv) Không có hiện tượng cộng tuyến giữa các biến giải thích. Nói khác đi, hạng của ma
trận X bằng k.
v) ei  N  0;  2  , với mọi i.

2.3. Ước lượng tham số


Hàm hồi quy mẫu SRF có dạng
Yˆ  ˆ1  ˆ2 X 2  ˆ3 X 3  ...  ˆk X k ,

nghĩa là Yi  ˆ1  ˆ2 X 2,i  ˆ3 X 3,i  ...  ˆk X k ,i  ei , với i  1, 2,..., n , hay dưới dạng ma trận

Y  X ˆ  e ,
T
trong đó 
ˆ  ˆ1 ˆ2 ... ˆk  T
, e   e1 e2 ... ek   Y  X ˆ .

Với phương pháp bình phương nhỏ nhất, các hệ số ˆ1 , ˆ2 ,..., ˆk được chọn sao cho tổng bình
phương của các phần dư (RSS) nhỏ nhất, nghĩa là
n n 2

RSS   ei2   Yi  ˆ1  ˆ2 X 2,i    ˆk X k ,i
i 1 i 1

55
đạt giá trị nhỏ nhất.
Ký hiệu X T , Y T , ˆ T và eT là ma trận chuyển vị của X, Y, ˆ và e,

 1 1 ... 1 
 
X 2,1 X 2,2 ... X 2, n  T
X 
T
, Y  Y1 Y2 ... Yk  ,
 ... ... ... ... 
 
 X k ,1 X k ,2 ... X k ,n 

Khi đó,
n T
e
i 1
2
i 
 eT e  Y  X ˆ  Y  X ˆ 

 Y T  ˆ T X T Y  X ˆ 
 Y T Y  ˆ T X T Y  Y T X ˆ  ˆ T X T X ˆ
 Y T Y  2ˆ T X T Y  ˆ T X T X ˆ

vì ˆ T X T Y  Y T X ˆ .
Hệ phương trình xác định các điểm dừng
  eT e 
0
ˆ

cho  X T X  ˆ  X T  Y và ta được
1
ˆ   X T X  X T Y ,
trong đó
n n
 
 n  X 2,i
i 1
... X
i 1
k ,i 
 
 n n
2
n

X
X T X   i 1 2,i
X 2,i ...  X 2,i X k ,i 
.
i 1 i 1 
 ... ... ... ... 
 n n n 
 X X k ,i 
2
  k ,i X k ,i X 2,i ... 
 i 1 i 1 i 1 
Ví dụ 2. Số liệu quan sát của một mẫu cho ở bảng sau. Trong đó
Y : Lượng hàng bán được của một loại hàng hóa (tấn / tháng)
X 2 : Thu nhập của người tiêu dùng (triệu / năm)
X 3 : Giá bán của loại hàng này (ngàn đ / kg)

56
Y X2 X3 Y X2 X3
20 8 2 17 6 5
18 7 3 16 5 6
19 8 4 15 5 7
18 8 4 13 4 8
17 6 5 12 3 8
Từ bảng số liệu trên ta tính được các tổng

 Y  165 ;
i  X  60 ; 2i  X  52 ; 3i

2 2 2
 Y  2781 ;
i  X  388 ; 2i  X  308 ; 3i

 X X  282 ;
2i 3i  Y X  1029 ;
i 2i  Y X  813 ;
i 3i

1
 10 60 52   39980 3816 3256 
 1
 X X   60 388 282 
T  1  
   3816 376 300 
 52 282 308  1528 
   3256 300 280 
suy ra
 39980 3816 3256  165   22908 /1528   14.99215 
1       
ˆ   3816 376 300  1029    1164 /1528    0.76178 
1528 
 3256 300 280     
 813   900 /1528   0.58901

Vậy hàm hồi quy cần tìm là


Yˆi  14.99215  0.76178 X 2i  0.58901X 3i .
2.4. Hệ số xác định hồi quy bội
Hệ số xác định hồi quy bội R 2 có thể tính bằng một trong hai công thức sau
RSS ESS
i) R 2  1   ,
TSS TSS
2 2
trong đó TSS  Y T Y  n Y  ; ESS  ˆ T X T Y  n Y  ; RSS  TSS  ESS .
n n n
ˆ2  yi x2,i  ˆ3  yi x3,i  ...  ˆk  yi xk ,i
ii) R 2  i 1 i 1
n
i 1
.
2
y
i 1
i

2.5. Ma trận tương quan


Giả sử chúng ta có mô hình hồi quy bội Y  ˆ1  ˆ2 X 2  ...  ˆ2 X 2 . Ký hiệu rt , j chỉ hệ số
tương quan giữa biến thứ t và biến thứ j. Với t  1 thì r1, j là hệ số tương quan giữa biến Y và
biến X j .

57
n n

yx
i 1
i i, j x i 1
t ,i x j ,i
r1, j  , rt , j  ,
n n n n
2 2 2 2
 y x
i 1
i
i 1
j ,i x x
i 1
t ,i
i 1
j ,i

trong đó x j ,i  X j ,i  X j .

Dễ thấy rằng rt , j  rj ,t và rj , j  1 và ma trận hệ số tương quan có dạng

 1 r1,2 ... r1,k 


 
r2,1 1 ... r2,k 
R .
 ... ... ... ... 
 
 rk ,1 rk ,2 ... 1 

2.6. Ma trận hiệp phương sai


Để kiểm định giả thiết, tìm khoảng tin cậy cũng như thực hiện các suy đoán thống kê khác, ta
  
cần phải tìm var ˆ , với j  1, 2,..., k và cov ˆ , ˆ . Phương pháp ma trận giúp ta có thể
j i j 
thực hiện điều này.
Ma trận hiệp phương sai của ˆ có dạng tổng quát

 cov

 ˆ , ˆ 
1 1  
cov ˆ1 , ˆ2 ... cov ˆ1 , ˆk 

 
 
cov
 
cov   
ˆ  ˆ , ˆ 
2 1 cov  ˆ , ˆ  2 2 ... cov ˆ2 , ˆk   
 ... ... ... ... 
 
 cov
  ˆ , ˆ 
k 1 
cov ˆk , ˆ2  ... cov  k ,  k 
ˆ ˆ
  
 
Để tìm cov ˆ , ta dùng công thức
1
 
cov ˆ   2  X T X  ,
1
trong đó  X T  X  là ma trận nghịch đảo của X T  X , còn  2 , là phương sai của sai số ngẫu
nhiên  i chưa biết , nên được thay bằng ước lượng không chệch của nó là ̂ 2 , với
RSS
ˆ 2  .
nk
Với số liệu ở ví dụ 2, ta tìm ma trận hiệp phương sai như sau
1
Ở phần trên ta đã tính được ma trận  X T  X  , ta cần tìm ̂ 2 . Ta có
2 2
TSS  Y T T  n Y    Yi 2  n Y   2781  10(16.5) 2  58.5

 165 
2  
ESS  ˆ  X Y   n Y 
T T
 14.99215 0.76178 0.58901 1029   10(16.5) 2  56.211
 813 
 

58
RSS 2.289
RSS  58.5  56.211  2.289 , ˆ 2    0.327
n 3 7
Vậy
 39980 3816 3256   8.55593 0.81664 0.6968 
0.327    
 
cov ˆ 
1528  3816 376 300    0.81664 0.080466 0.0642 
 3256 300 280   0.6968 0.0642 0.05992 
Với số liệu ở ví dụ 2 và sử dụng Eview, ta tìm được các kết quả sau
- Mô hình hồi quy

Hình 2 : Kết quả hồi quy


Trong đó
- Dòng Estimation Command : Cho biết lệnh để tìm hàm hồi quy (Xem phụ lục) .
- Dòng Estimation Equation : Cho biết dạng phương trình hồi quy, trong đó C(1), C(2),
C(3) lần lượt là các hệ số hồi quy.
- Dòng Substituted Coefficients : Cho biết kết quả chi tiết của dạng hàm trên.
- Ma trận hiệp phương sai

Hình 3 : Ma trận hiệp phương sai


Kết quả trong bảng trên cho biết giá trị về hiệp phương sai của các hệ số hồi quy. Chẳng hạn
như,

   
cov  X 2 , X 2   var ˆ2  0.080337 và cov  C , X 2   cov ˆ1 , ˆ2  0.815338 .

- Ma trận tương quan

59
Hình 4 : Ma trận tương quan
Kết quả trong bảng trên cho biết giá trị về hệ số tương quan giữa các biến. Chẳng hạn như, từ
bảng trên ta có
rX 2 , X 3  0.924588, rY , X 2  0.963624, rY , X 3  0.95949 .

2.7. Khoảng tin cậy và kiểm định giả thiết


Do ˆ j có phân phối chuẩn với kỳ vọng  j và phương sai var ˆ j , với  
 
var ˆ j   2 c jj , j  1, 2,..., k ,
1
trong đó c jj là số hạng nằm ở hàng j, cột j của ma trận  X T X  .

Tuy nhiên, do  2 chưa biết nên ta thay bằng ước lượng không chệch của nó là
RSS
ˆ 2  .
nk
Khi đó, ta được
ˆ j   j
T  St (n  k ) .
se ˆ j 
Từ đó, ta dễ dàng suy ra khoảng ước lượng cũng như kiểm định giả thiết về hệ số hồi quy
riêng.
Đặc biệt, ta có thể kiểm định giả thiết
H :  2  3  ...  k  0 .

Khi đó, nghịch thuyết là H : tồn tại ít nhất một hệ số hồi quy riêng khác 0. Dùng đại lượng
ngẫu nhiên
ESS
F k 1
RSS
 F  k  1; n  k  .
nk

Ta có

60
F
ESS
k 1

 n  k  ESS  n  k  ESS
RSS
nk  k  1 RSS k  1 TSS  ESS
R2
ESS
n  k TSS n  k R2 k 1
  ESS    1 R 2
k  1 1  TSS k  1 1  R 2 nk

Như thế, giữa F và R 2 có liên quan với nhau, R 2 càng lớn thì F càng lớn. Khi R 2  0 , thì
F  0 . Khi R 2  1 thì F vô hạn. Do vậy việc kiểm định giả thiết H :  2  3  ...   k  0
cũng là kiểm định giả thiết R 2 (trong tổng thể) bằng 0.
Ta dùng
R2
F k 1
1 R 2
 F  k  1; n  k  .
nk

2.8. Dự báo
T
   1 X ... X  , ta cần dự báo giá trị trung bình của biến phụ thuộc
Cho X 0 , với X 0 0
2
0
k

Y, nghĩa là dự báo E Y X  X      x  ...   x .


0
1
0
2 2 k
0
k

Dự báo điểm (ước lượng điểm) của E Y X  X  chính là Yˆ , 0


0

Yˆ0  ˆ1  ˆ2 X 20  ...  ˆk X k0 .

Ta tìm dự báo khoảng (ước lượng khoảng) của E Y X  X 0  khi X 2 nhận giá trị X 20 , ...,
T
X k nhận giá trị X k0 . Với X  X 0 , ta có Yˆ0   X 0  ˆ . Do đó
T 1
 
var Yˆ0   2  X 0   X T X  X 0


1
 
cov ˆ   2  X T X  .

Do ta chưa biết  2 nên ta thay bằng ước lượng không chệch của nó là ̂ 2 , nghĩa là
T 1
 
var Yˆ0  ˆ 2  X 0   X T X  X 0 và se Yˆ0  var Yˆ0 .    
Từ đó, ta suy ra
E Y X  X 0   Yˆ0
T  St (n  k )
 
se Yˆ0

và với độ tin cậy  cho trước, ta suy ra khoảng tin cậy cần tìm.
Để tìm dự báo cá biệt của biến phụ thuộc Y khi X  X 0 , nghĩa là tìm khoảng tin cậy
cho Y0 , ta dùng thống kê

Y0  Yˆ0
T  St (n  k ) ,

se Y  Yˆ 0 0 
trong đó
61
    
var Y0  Yˆ0  var Yˆ0  ˆ 2 và se Y0  Yˆ0  var Y0  Yˆ0 .   
2.9. Ví dụ minh họa
Ví dụ 3. Số liệu về sản lượng Y, phân hóa học X 2 , thuốc trừ sâu X 3 , tính trên một đơn vị
diện tích ha, cho trong bảng sau
Y 40 44 46 48 52 58 60 68 74 80
X2 6 10 12 14 16 18 22 24 26 32
X3 4 4 5 7 9 12 14 20 21 24

Ước lượng mô hình hồi quy tuyến tính theo tham số của Y phụ thuộc vào X 2 và X 3 . Trả lời
các câu hỏi sau, với nguy cơ sai lầm a  5% .
a) Kết quả ước lượng có phù hợp với thực tế không ? Hãy giải thích ý nghĩa kinh tế của
các hệ số nhận được.
b) Phân bón (thuốc trừ sâu) có ảnh hưởng đến năng suất của loại cây trồng trên hay
không ?
c) Hãy tìn khoảng tin cậy cho các hệ số hồi quy riêng.
d) Hãy giải thích ý nghĩa của hệ số R 2 nhận được.
e) Cả phân bón lẫn thuốc trừ sâu đều không ảnh đến năng suất ?
g) Bạn có thể bỏ biến X 3 ra khỏi mô hình được không ? Vì sao ?
h) Hãy ước lượng mô hình bằng phương pháp ma trận.
i) Phải chăng phân bón và thuốc trừ sâu đều có ảnh hưởng như nhau đến năng suất cây
trồng trên ?
k) Hãy dự báo giá trị trung bình và cá biệt khi X 2  20 ; X 3  15 .
Giải. Trước hết, từ bảng số liệu trên ta có các kết quả sau :

 Y  570;  X  180;  X  120 ,


2 3

 yx  956;  yx  900;  x x  524 ,


2 3 2 3

2 2
 x  576;  x  504 .
2 3

Từ đó, suy ra
570 180 120
Y   57 ; X 2   18 ; X 3   12 ;
10 10 10
yx2  x32   yx3  x2 x3
ˆ2   2
 0.650
 x  x   x x 
2
2
2
3 2 3

ˆ3 
 yx  x   yx  x x
3 2 2 2 3
 1.110
2
 x  x   x x 
2
2
2
3 2 3

ˆ1  Y  ˆ2 X 2  ˆ3 X 3  31.98


và ta được hàm hồi quy mẫu
Yˆ  ˆ1  ˆ2 X 2  ˆ3 X 3  31.98  0.65 X 2  1.11X 3 ,

62
Với ei  Yi  Yˆi , ta có RSS   ei2  13.6704

a) Khi người ta tăng phân bón/ha và thuốc trừ sâu/ha thì năng suất loại cây trên sẽ tăng, ̂ 2 và
̂3 đều dương, cho nên có thể nói rằng kết quả ước lượng phù hợp với thực tế. Tất nhiên điều
trên không có nghĩa rằng khi tăng phân bón/ha và thuốc trừ sâu/ha ra vô cùng thì năng suất
cũng tăng như vậy.
Giá trị ˆ2  0.65 có nghĩa là nếu tăng phân bón/ha lên 1 tấn thì năng suất trung bình/ha
sẽ tăng 0.65 tấn.
Giá trị ˆ3  1.11 có nghĩa là nếu tăng thuốc trừ sâu/ha lên 1 tấn thì năng suất trung
bình/ha sẽ tăng 1.11 tấn.
Giá trị ˆ  31.98 có nghĩa là nếu không dùng phân bón và thuốc trừ sâu thì năng suất
1
trung bình/ha là 31.98 tấn.
b) Để trả lời câu hỏi này, ta kiểm định giả thiết
 H i : i  0
 , với i  1, 2 ,
 H i : i  0

ˆi
bằng thống kê Ti   St  n  3  St (7) . Ta có
 
se ˆi

RSS
ˆ 2   1.95 ,
nk
2

  x x x x
x
var ˆ2  3
2
ˆ 2  0.06 ,
    2
2
2
3 2 3

var  ˆ  
x 2
ˆ 2  0.071 .
3 2
 x  x   x x 
2
2
2
3 2 3

 
Từ đó suy ra se ˆ2  0.25 và se ˆ3  0.27 .  
Với a  0.05 , bảng phân phối Student với 7 độ tự do cho C  2.365 . Mặt khác, ta có
ˆ2 0.65 ˆ3 1.11
T2    2.7 và T3    4.11 .
 ˆ
se  2 0.24 ˆ
se  3 0.27  
Do T2  C và T3  C nên ta bác bỏ các giả thiết H1 , H 2 , chấp nhận H1 , H 2 , nghĩa là :
phân bón cũng như thuốc trừ sâu đều có ảnh hưởng đến năng suất.
c) Khoảng tin cậy cho các hệ số hồi quy riêng.
ˆi  i
Dùng thống kê Ti   St  n  3  St (7) và vì với độ tin cậy   1  a  0.95 , bảng
se ˆi 
phân phối Student cho C  2.365 , ta suy ra khoảng tin cậy cho  i là

   
i  ˆi  Cse ˆi  ˆi  2.365se ˆi , với i  2,3 .

63
Do đó  2  0.65  2.365  0.24 và 3  1.11  2.365  0.27 . Ta suy ra khoảng tin cậy cho 2 là
 0.0824;1.2176 và khoảng tin cậy cho 3 là 0.461;1.738 .
d) Hệ số xác định bội và hệ số xác định bội đã hiệu chỉnh.
RSS 13.6704
R2  1  1  0.9916 ,
TSS 1634
n 1 10  1
R 2  1  1  R 2   1  1  0.9916   0.9892 .
nk 10  3
e) Để xét cả hai yếu tố phân bón và thuốc trừ sâu đều không ảnh hưởng đến năng suất, ta kiểm
định giả thiết đồng thời
H :  2  3  0 hay R 2  0 ,

với nghịch thuyết tương ứng là H : có ít nhất một trong hai hệ số khác 0 hay R 2  0 .
Nếu H đúng thì ta có thống kê
R2
F k 1
1 R 2
 F  k  1, n  k  .
nk

Với nguy cơ sai lầm a  0.05 , phân phối Fisher với các độ tự do
 k  1, n  k    3  1,10  3   2, 7 
cho C  4.74 . Mặt khác, ta có
0.9916
31
F 1 0.9916
 413.17 .
10 3

Vì F  C nên ta bác bỏ H, nghĩa là có ít nhất một yếu tố ảnh hưởng đến năng suất.
g) Có thể bỏ biến X 3 ra khỏi mô hình không ?
Để trả lời câu hỏi này, ta cần phải dùng kiểm định hồi quy có điều kiện ràng buộc. Ước lượng
2
mô hình có cả hai biến X 2 , X 3 , ta có RUR  0.9916 . Nếu loại X 3 , ta được mô hình hồi quy
hai biến và được RR2  0.971 . Ta kiểm định

 H : 3  0
 ,
 H : 3  0
với lưu ý rằng nếu H đúng, ta có thống kê
2
RUR  RR2
F m
2
1 RUR
 F  m, n  k  .
nk

Với nguy cơ sai lầm a  0.05 , phân phối Fisher với các độ tự do
 m, n  k   1,10  3  1, 7 
cho C  3.59 . Mặt khác, ta có
0.9916  0.971
1
F 1 0.9916
 17.166 .
10 3

64
Vì F  C nên ta bác bỏ H, nghĩa là không thể loại X 3 ra khỏi mô hình.
h) Phương pháp ma trận.
Ta có
1 6 4 
 
1 10 4 
1 12 5 
 
1 14 7
1 1 1 1 1 1 1 1 1 1  
T  
 1 16 9
X X   6 10 12 14 16 18 22 24 26 32   
4 4 5 1 18 12 
 7 9 12 14 20 21 24  
1 22 14 
 
1 24 20 
1 26 21 

1 32 24 

 10 180 120 
 180 3816 2684 
120 3684 1944 

Suy ra
 1.363 0.18 0.1602 
1  
X X 
T
  0.18 0.032 0.033 
 0.1602 0.33 0.0366 
 .

 570 
Mặt khác, do X Y  11216  nên ta suy ra
T

 7740 
 
 31.98067 
 X Y    0.65005  .
1
ˆ   X X 
T T

 1.10986 
 
Ngoài ra, từ Y T Y  34124 , ta suy ra
eT e  RSS  Y T Y  ˆ T  X T Y   13.6704 ,
RSS 13.6704
ˆ 
2
  1.952914 ,
n 3 7
 2.6628 0.3456 0.3129 
ˆ
 2 1  
cov   ˆ  X X    0.3456 0.06258 0.065  ,
T

 0.3129 0.065 0.0715 


 
TSS  Y T Y  nY 2  34124  10  57 2  1643 ,

65
ESS  TSS  RSS  1643  13.6704  1629.3296 ,
R 2  0.9916 .
Ta có thể khai thác đủ các thông tin để thực hiện tất cả các phân tích đề cập tới trong phần
trên. Chẳng hạn, các phần tử trên đường chéo của ma trận cov( ˆ ) chính là các phương sai của
̂
các  tương ứng. Cũng từ ma trận này, ta được các cov ˆi , ˆ j . Chẳng hạn,  
 
cov ˆ2 , ˆ3  0.065 và từ đó, ta suy ra

     
var ˆ2  ˆ3  var ˆ2  var ˆ3  2 cov ˆ2 , ˆ3  
 0.063  0.0715  2   0.065  0.2654

 
và ta được se ˆ2  ˆ3  0.2654  0.514 .

i) Để trả lời cho câu hỏi phải chăng phân bón và thuốc trừ sâu có ảnh hưởng đến năng suất
cây trồng như nhau hay không, ta phải kiểm định
H :  2  3 hay 2  3  0 ,

nghịch thuyết tương ứng là H :  2  3 . Nếu H đúng, thì ta có thống kê

T
 ˆ
2 
 ˆ3    2  3 

ˆ2  ˆ3
 St (n  3) .

se ˆ2  ˆ3  
se ˆ2  ˆ3 
Với a  0.05 , bảng phân phối Student với 7 độ tự do cho C  2.365 . Mặt khác, ta có
0.65  1.11
T  0.895 .
0.514
Vì T  C nên ta chưa có cơ sở để bác bỏ H.

k) Dự báo với X 20  20 , X 30  15 .
Ta có một ước lượng điểm tương ứng
Yˆ0  ˆ1  ˆ2 X 20  ˆ3 X 30  31.98  0.65  20  1.1115  61.63 .

 
Để ước lượng giá trị trung bình E Y X 0 , ta dùng thống kê

E Y X  0

T  St ( n  3) .
se Yˆ X 
0
0

66

T 1
 
var Yˆ0 X 0   2  X 0   X T X  X 0
 2.6628 0.3456 0.3129   1 
 1 20 15  0.3456 0.06258 0.065   20 
 0.3129 0.065 0.0715   15 
  
 0.308533

 
cho se Yˆ0 X 0  0.308533  0.555 nên ứng a  0.05 , ta được giá trị C  2.365 từ bảng
phân phối Student với 7 độ tự do. Suy ra

   
E Y0 X 0  Yˆ0  C  se Yˆ0 X 0  61.63  2.365  0.555

 
và do đó khoảng ước lượng của E Y X 0 là  60.317;62.943 .

Để ước lượng giá trị cá biệt Y 0 , ta dùng thống kê


Y0  Yˆ0
T  St (n  3) .

se Y  Yˆ
0 0 

T 1
  
var Y0  Yˆ0  ˆ 2 1   X 0   X T X  X 0   var Yˆ0 X 0  ˆ 2
  
 0.308553  1.95  2.2585

 
cho se Y0  Yˆ0 X 0  2.2585  1.5 . Suy ra

 
Y0  Yˆ0  C  se Y0  Yˆ0 X 0  61.63  2.365 1.5

và do đó khoảng ước lượng cho giá trị cá biệt Y 0 là 56.289;66.971 .

3. Một số dạng của hàm hồi quy khác


Chú ý rằng phương pháp khảo sát nêu trên dùng được cho các trường hợp mô hình tuyến tính
theo tham số mà không nhất thiết phải là tuyến tính theo các biến. Do đó, thay vì khảo sát
dạng hàm tuyến tính theo các biến (và dĩ nhiên phải là tuyến tính theo tham số),
Y  1   2 X 2  3 X 3  ...  k X k   ,
người ta còn có thể khảo sát một dạng hàm khác như sau
3.1. Hàm Cobb-Douglas
Hàm Cobb-Douglas có dạng
Y  1 X 2 e .
Khi đó, lấy lôgarít hai vế, ta được
ln Y  ln 1   2 ln X   .
Đặt Y   ln Y ; 1  ln 1 ; X   ln X . Ta nhận được mô hình quen thuộc

67
Y   1  2 X    .
Hàm Cobb-Douglas có thể mở rộng cho nhiều biến giải thích
Y  1 X 22 X 33 ... X mm e
và ta cũng lấy lôgarít hai vế để đưa về dạng quen thuộc
ln Y  1   2 ln X 2  3 ln X 3  ...   m ln X m   .
Ví dụ 4. Bảng sau cho số liệu về tiêu dùng cà phê và giá cà phê của Mỹ, trong những năm
1970 – 1980.
Năm Y (số tách/người /ngày) X ($ / p)
1970 2.57 0.77
1971 2.5 0.74
1972 2.35 0.72
1973 2.3 0.73
1974 2.25 0.76
1975 2.2 0.75
1976 2.11 1.08
1977 1.94 1.81
1978 1.97 1.39
1979 2.06 1.2
1980 2.02 1.17
Lý thuyết kinh tế chỉ ra rằng nhu cầu của một loại hàng hoá phụ thuộc vào giá bán của loại
hàng hoá đó, giá của các mặt hàng thay thế và hàng bổ xung, thu nhập của người tiêu dùng.
Trong ví dụ này chúng ta chỉ khảo sát mối quan hệ giữa lượng cầu cà phê (Y) theo giá bán của
nó. Từ bảng số liệu trên, ta có đồ thị phân tán sau

Hình 5
Dựa vào đồ thị ta thấy các điểm phân tán gần đường cong hơn là đường thẳng, nên ta chọn mô
hình tuyến tính Logarit và được kết qủa hồi quy như trong bảng sau

68
Hình 6 : Mô hình tuyến tính Logarit
Từ kết quả của bảng trên, ta có mô hình hồi quy
ln Y  0.777418  0.253046.ln X : với R 2  0.7448 .
Nếu ta chọn mô hình tuyến tính, ta có kết quả sau,

Hình 7
và mô hình hồi quy
Y  2.691124  0.479527. X : với R 2  0.662757 .
Như vậy, mô hình tuyến tính Logarit cho kết quả tốt hơn mô hình tuyến tính.
Ví dụ 5. Các dữ liệu của khu vực nông nghiệp ở Đài Loan trong giai đoạn 1958 – 1972 cho ở
bảng sau
Năm Y X2 X3
1958 16607.70 275.5000 17803.70
1959 17511.30 274.4000 18096.80
1960 20171.20 269.7000 18271.80
1961 20932.90 267.0000 19167.30
1962 20406.00 267.8000 19647.60
1963 20831.60 275.0000 20803.50
1964 24806.30 283.0000 22076.60
1965 26465.80 300.7000 23445.20
1966 27403.00 307.5000 24939.00
1967 28628.70 303.7000 26713.70
1968 29904.50 304.7000 29957.80
1969 27508.20 298.6000 31585.90
69
1970 29305.50 295.5000 33474.50
1971 29821.50 299.0000 34821.80
1972 31535.80 288.1000 41794.30
Trong đó
Y : Tổng sản lượng (triệu NT$) (Đôla Đài Loan)
X 2 : Ngày lao động (triệu ngày)
X 3 : Lượng vốn (triệu NT$)
Từ bảng số liệu trên ta có mô hình hồi quy lnY theo ln X 2 và ln X 3 , như sau

Hình 8 : Mô hình tuyến tính Logarit.


Từ bảng trên, ta có kết quả hồi quy sau :
ln Y   3.381935  1.488713ln  X 2   0.499968 ln  X 3  .

Đây là một dạng của mô hình sản xuất Cobb-Douglas.


3.2. Mô hình nghịch đảo
Trong mô hình nghịch đảo, hàm quan hệ có dạng
1
Y .
1   2 X 2  3 X 3  
1
Đặt Y   . Ta được mô hình quen thuộc
Y
Y   1   2 X 2  3 X 3   .
Ví dụ 6. Giá cổ phiếu và lãi suất là những chỉ số kinh tế quan trọng. Những nhà đầu tư trên thị
trường cổ phiếu theo dõi rất sát sao tình hình biến động của lãi suất. Bỡi vì lãi suất tượng
trưng cho khoản phí tiền vay mượn, nên ảnh hưởng đến các quyết định đầu tư cũng như lợi
tưc của doanh nghiệp. Lý thuyết kinh tế vĩ mô đề xuất rằng giữa lãi suất và giá cổ phiếu có
mối quan hệ nghịch biến.
Để đo lường giá cổ phiếu, trong ví dụ này sử dụng chỉ số S&P500 (1941 – 1943 = 10)
và để đo lường lãi suất, ta dùng lãi suất (%) của trái phiếu chính phủ Mỹ có kỳ hạn 3 tháng.
Số liệu được cho như sau

70
Năm S&P500 Lãi suất (%) Năm S&P500 Lãi suất (%)
1980 118.78 11.51 1990 334.59 7.51
1981 128.05 14.03 1991 376.18 5.42
1982 119.71 10.69 1992 415.74 3.45
1983 160.41 8.63 1993 451.41 3.02
1984 160.46 9.58 1994 460.42 4.29
1985 186.84 7.48 1995 541.72 5.51
1986 236.34 5.98 1996 670.5 5.02
1987 286.83 5.82 1997 873.43 5.07
1988 265.79 6.69 1998 1085.5 4.81
1989 322.84 8.12 1999 1327.33 4.66
Từ bảng số liệu trên ta có, đồ thị phân tán của chỉ số S&P500 với lãi suất

Hình 9
Ta có mô hình ước lượng như sau

Hình 10 : Mô hình nghịch đảo.


71
Từ bảng trên, ta có kết quả hồi quy sau :
SP 500  15.57848  2606.424
3.3. Mô hình đa thức
Trong mô hình này, hàm quan hệ có dạng
Y  1   2 X 2  3 X 22   .
Dạng này tuyến tính theo tham số nên ta có thể khảo sát giống như mô hình hồi quy ba biến.
Ví dụ 7. Ước lượng hàm tổng chi phí
Để minh hoạ cho hồi quy đa thức, hãy xem số liệu trong bảng sau về sản lượng và tổng chi
phí sản suất ngắn hạn của một loại sản phẩm.
Sản lượng Tổng chi phí Sản lượng Tổng chi phí
(X) (Y) (X) (Y)
1 193 6 260
2 226 7 274
3 240 8 297
4 244 9 350
5 257 10 420
Để biết được mô hình nào là phù hợp, trước tiên ta có đồ thị phân tán giữa tổng chi phí và sản
lượng như sau

Hình 11
Từ đồ thị phân tán ta thấy các số liệu quan sát Y và X được biểu thị bởi một dạng đường cong
bậc ba.
Từ đó ta có thể ước lượng được mô hình sau

72
Hình 12 : Mô hình đa thức.
Từ bảng trên, ta có kết quả hồi quy :
Y  141.7667  63.47766  12.96154 X 2  0.939588 X 3 ,
với R 2  0.998339 .
3.4. Mô hình Logit
Hàm quan hệ có dạng
1
Y  1   2 X   
.
1 e
Đặt Y   ln 1  Y1  . Ta nhận được dạng quen thuộc

Y   1  2 X   .
3.5. Mô hình tương tác
Trong mô hình tương tác, hàm quan hệ có thể có dạng như
Y  1   2 X 2   3 X 3   4  X 2 X 3    .

Đây cũng chỉ là mô hình tuyến tính theo tham số nên ta vẫn có thể dùng phương pháp bình
phương tối thiểu cho mô hình hồi quy bội để khảo sát.
4. Hồi quy với biến giả
Trong mô hình hồi quy bội, biến phụ thuộc cũng như các biến độc lập đều là các biến định
lượng, giá trị của nó là một số. Khi đó, ý nghĩa của các hệ số hồi quy cũng như các tham số
liên quan đến các biến đều mang một ý nghĩa cụ thể. Ngược lại, đối với các biến định tính,
trước hết người ta tìm cách lượng hóa chúng bằng cách dùng biến giả, mỗi giá trị của biến giả
nhằm xác định một phạm trù của biến định tính. Chẳng hạn để phân biệt hai phạm trù “nam”
và “nữ”, ta có thể dùng một biến giả. Biến giả này lấy giá trị 1 cho “nam” và nhận giá trị 0
cho “nữ”, ....
Về mặt hình thức, việc gán giá trị cho biến giả chỉ nhằm mục đích “số hóa” các phạm
trù định tính. Khi đó, ta có thể dùng các mô hình hồi quy tuyến tính cho trường hợp các biến
khảo sát có chứa các biến giả. Tuy nhiên, sự khác biệt nằm ở việc khai thác ý nghĩa kết quả
thông qua biến giả.

73
Để có thể khai thác các thông tin liên quan đến biến giả, người ta chỉ cho chúng lấy hai
giá trị là 0 và 1. Phạm trù được gán giá trị 0 gọi là phạm trù cơ sở. Ta gọi nó là cơ sở vì mọi
việc so sánh sau này sẽ được tiến hành với phạm trù này. Để hiểu rõ hơn, ta xét một số ứng
dụng trong mô hình hồi quy với biến giả.
4.1. So sánh số liệu của các phạm trù khác nhau
Xét trường hợp một công ty dùng hai phương thức sản xuất khác nhau, ký hiệu A và B, để sản
xuất ra cùng một loại sản phẩm. Giả sử sản phẩm thu được từ mỗi quá trình sản xuất là đại
lượng ngẫu nhiên có phân phối chuẩn và kỳ vọng khác nhau nhưng phương sai như nhau. Số
liệu thu thập Yi , với i  1, 2,..., n , chung cho cả hai phương thức sản xuất được đưa vào mô
hình hồi quy tuyến tính
Yi  1  2 Di   i ,
trong đó Di là biến giả với

1 èegï Yi èâaäè ñö ôïc tö øqïaù tììèâ saûè òïagt A


Di  
 0 èegï Yi èâaäè ñö ôïc tö øqïaù tììèâ saûè òïagt B
Mô hình này giống như mô hình hồi quy hai biến với biến số lượng X được thay bằng biến
giả D. Ta dùng mô hình này để so sánh sản lượng trung bình của hai quá trình sản xuất A và
B.
Hệ số chặn 1 đo sản lượng sản phẩm gắn với quá trình B trong khi hệ số góc  2 đo sự
khác biệt về sản lượng sinh ra do việc thay đổi từ quá trình sản xuất B qua quá trình sản xuất
A. Điều này nhận được bằng cách lấy kỳ vọng có điều kiện hai vế ứng với Di  0 và Di  1 :

E Y Di  0   1 và E Y Di  1  1   2 .

Kiểm định giả thiết H :  2  0 cung cấp kiểm định về giả thiết là không có sự khác nhau giữa
hai quá trình sản xuất A và B.
Trong trường hợp ta có nhiều phạm trù khác nhau, chẳng hạn khi ta có 3 quá trình sản xuất A,
B và C, ta dùng 2 biến giả D1 và D2 với mô hình
Yi  1   2 D1,i  3 D2,i   i ,
trong đó
1 èegï Yi tâï ñö ôïc tö øqïaù tììèâ A
D1   ,
0 èegï Yi tâï ñö ôïc tö øqïaù tììèâ kâaùc
1 èegï Yi tâï ñö ôïc tö øqïaù tììèâ B
D2   .
0 èegï Yi tâï ñö ôïc tö øqïaù tììèâ kâaùc
Như vậy, 3 quá trình sản xuất được biểu thị dưới dạng kết hợp các biến giả như sau
Quá trình sản xuất D1 D2
A 1 0
B 0 1
C 0 0
Bằng cách lấy kỳ vọng có điều kiện cho một trong ba trường hợp này, ta có thể giải thích kết
quả hồi quy :
74
E Y D1  1; D2  0   1   2

E Y D1  0; D2  1  1   3

E Y D1  0; D2  0   1

Như vậy, hệ số chặn 1 biểu thị kỳ vọng của sản lượng do quá trình C tạo ra, hệ số góc  2 đo
sự thay đổi sản lượng do chuyển từ quá trình C qua A và hệ số góc 3 đo sự thay đổi sản
lượng do chuyển từ quá trình C qua B.
Giả thiết H :  2  0 cho phép kiểm định sự khác biệt giữa quá trình A và C và
H :  3  0 cho phép kiểm định sự khác biệt giữa quá trình B và C.
Chú ý :
1. Một cách tổng quát, để phân biệt n phạm trù, người ta dùng n  1 biến giả. Nếu ta
thêm vào một biến giả nữa thì sẽ xảy ra trường hợp đa cộng tuyến hoàn hảo (xem Chương 3).
2. Phạm trù gán giá trị 0 là phạm trù cơ sở do mọi so sánh đều được tiến hành với phạm
trù này.
3. Hệ số ̂ 2 gắn với biến giả D1 được gọi là hệ số chặn chênh lệch do nó cho biết giá trị
của số hạng chặn của phạm trù nhận giá trị 1 sẽ khác bao nhiêu với hệ số chặn của phạm trù
cơ sở.
4.2. So sánh sự tương quan giữa các bộ số liệu của nhiều phạm trù khác nhau
Xét bài toán tìm sự tương quan tuyến tính giữa biến phụ thuộc Y, chỉ chi tiêu cho tiêu dùng,
theo biến X, chỉ thu nhập khả dụng, của các hộ gia đình khảo sát trong Chương 1. Với một bộ
số liệu thu thập được từ n hộ gia đình,  X i , Yi  , i  1, 2,..., n , giả sử ta phân biệt các bộ số liệu
thu thập ra hai phạm trù : số liệu thu thập ở các hộ gia đình nông thôn và ở các hộ gia đình
thành thị. Khi đó, ta dùng mô hình
Yi  1   2 Di  3 X i   i , (5.3)
với
Yi : lượng chi tiêu cho tiêu dùng của hộ thứ i,
X i : lượng thu nhập khả dụng của hộ thứ i, và

1 Negï âoätâö ù i ôû tâaø


èâ tâò,
Di  
0 Negï âoätâö ù i ôû èoâèg tâoâè.
Bằng cách lấy kỳ vọng cả 2 vế (5.3) ta được :
Lượng chi tiêu cho tiêu dùng trung bình của các hộ nông thôn với thu nhập khả dụng
X  X i thỏa

E Y X i , Di  0   1   3 X i , (5.3.1)

và lượng chi tiêu cho tiêu dùng trung bình của các hộ thành thị với thu nhập khả dụng X  X i
thỏa
E Y X i , Di  1  ( 1   2 )   3 X i (5.3.2)

75
Mô hình này giả định rằng lượng chi tiêu cho tiêu dùng ở các hộ gia đình nông thôn và thành
thị có thể khác nhau nhưng tỷ lệ thay đổi lượng chi tiêu cho tiêu dùng trung bình so với thu
nhập khả dụng thì như nhau. Khi đó, kiểm định giả thiết rằng hai hàm hồi quy (5.3.1) và
(5.3.2) có cùng hệ số chặn có thể tiến hành dễ dàng bằng cách khảo sát mô hình hồi quy (5.3)
và kiểm định giả thiết H :  2  0 .

Hình 13
Tương tự như trong phần 4.1, khi ta cần phân biệt bộ số liệu ra thành n phạm trù, ta dùng
n  1 biến giả. Chẳng hạn, nếu các bộ số liệu về thu nhập khả dụng và chi tiêu cho tiêu dùng
cần phân biệt ở các hộ gia đình ở miền Bắc, miền Trung và miền Nam, ta đưa vào mô hình
hồi quy 2 biến giả.
Giả sử rằng cả 3 hồi quy có cùng độ dốc nhưng có hệ số chặn khác nhau, chúng ta có mô hình
sau :
Yi  1   2 D1,i   3 D2,i   4 X i   i , (5.4)
với

1 nếu hộ thứ i ở miền Bắc,


D1,i  
0 nếu hộ thứ i không ở miền Bắc.

1 nếu hộ thứ i ở miền Nam,


D2,i  
0 nếu hộ thứ i không ở miền Nam.

Khi đó, với cùng một thu nhập khả dụng X  X i , lượng chi tiêu cho tiêu dùng trung bình hộ
gia đình miền Trung là
E Y D1  0, D2  0, X i   1   4 X i , (5.4.1)

cho hộ gia đình miền Bắc là


E Y D1  1, D2  0, X i   ( 1   2 )   4 X i , (5.4.2)

và cho hộ gia đình miền Nam là


E Y D1  0, D2  1, X i   ( 1  3 )   4 X i . (5.4.3)

Giả sử 1  0 ,  2  3 , ta có đồ thị minh họa như sau

76
Hình 14
Ví dụ 8. Nghiên cứu nhu cầu của một loại hàng, người ta tiến hành khảo sát giá cả và lượng
hàng bán được ở 10 cửa hàng. Với kết quả như sau
Cửa hàng Y X D
1 20 2 0
2 19.5 2 1
3 18 2.1 0
4 17.8 2.2 1
5 17 2.4 1
6 16.7 2.5 0
7 16.5 2.6 1
8 16.6 2.7 0
9 16 2.8 1
10 16.5 3 0
Trong đó :
Y : Lượng hàng bán dược (Tấn / tháng)
X : Giá bán (Ngàn đồng / kg)
D : Là biến giả, được mô tả như sau
D  1 , Thành phố

D  0 , Nông thôn

Với số liệu trên ta có kết quả hồi quy theo biến giả như sau
Yˆi  26.0709  0.407482 Di  3.459707 X i
Khi đó hàm hồi quy biểu diễn cho lượng hàng bán được trung bình của các cửa hàng lần lượt
tại thành phố và nông thôn là :
E Y X i , Di  1  ( 1   2 )  3 X i
 (26.0709  0.407482)  3.459707 X i
 25.663418  3.459707 X i
E Y X i , Di  0   1  3 X i
 26.0709  3.459707 X i
Ví dụ 9. Khảo sát số lượng tủ lạnh bán được tại Mỹ từ quý 1 năm 1978 đến quý 4 năm 1985,
ta có bảng số liệu sau
77
Năm:quý Y D1 D2 D3 Năm:quý Y D1 D2 D3
1978:1 1317 1 0 0 1982:1 943 1 0 0
1978:2 1615 0 1 0 1982:2 1175 0 1 0
1978:3 1662 0 0 1 1982:3 169 0 0 1
1978:4 1295 0 0 0 1982:4 973 0 0 0
1979:1 1271 1 0 0 1983:1 1102 1 0 0
1979:2 1555 0 1 0 1983:2 1344 0 1 0
1979:3 1639 0 0 1 1983:3 1641 0 0 1
1979:4 1238 0 0 0 1983:4 1225 0 0 0
1980:1 1277 1 0 0 1984:1 1429 1 0 0
1980:2 1258 0 1 0 1984:2 1699 0 1 0
1980:3 1417 0 0 1 1984:3 1749 0 0 1
1980:4 1185 0 0 0 1984:4 1117 0 0 0
1981:1 1196 1 0 0 1985:1 1242 1 0 0
1981:2 1410 0 1 0 1985:2 1684 0 1 0
1981:3 1417 0 0 1 1985:3 1764 0 0 1
1981:4 919 0 0 0 1985:4 1328 0 0 0
Trong đó :
Y : Số lượng tủ lạnh bán ra (ngàn cái)
1: qïyù1 1: qïyù2 1: qïyù3
D1   ; D2   ; D3  
0 : qïyùkâaùc 0 : qïyùkâaùc 0 : qïyùkâaùc
Khi đó dạng hàm hồi quy có thể viết dưới dạng
Yi  1   2 D1,i  3 D2,i   4 D3,i
Trước tiên, ta vẽ đồ thị xu thế biến đổi của lượng tủ lạnh bán ra theo từng quí của các năm
1978 đến 1981

Hình 15
Và từ số liệu trên ta tìm được kết quả hồi quy sau

78
Hình 16
Từ bảng kết quả, ta có các giá trị ước lượng về số lượng tủ lạnh bán được ở các quý như sau:
Quý 4 : E Y X i , D1  0; D2  0; D3  0   1  1160 . Cho biết số lượng tủ lạnh trung
bình bán được ở quý 4 xấp xỉ 1160 cái.
Quý 1 : E Y X i , D1  1; D2  0; D3  0   1   2  1160  62.125  1222.125 . Cho biết số
lượng tủ lạnh trung bình bán được ở quý 1 xấp xỉ 1222125 cái. Như vậy hệ số của biến giả
D1 ( 1  62.125) cho biết số lượng tủ lạnh bán được trung bình ở quý 1 nhiều hơn quý 4 xấp
xỉ 62125 cái
Quý 2 : E Y X i , D1  0; D2  1; D3  0   1   3  1160  307.5  1467.5 . Cho biết số
lượng tủ lạnh trung bình bán được ở quý 2 xấp xỉ 1467500 cái. Như vậy hệ số của biến giả
D2 (  3  307.5) cho biết số lượng tủ lạnh bán được trung bình ở quý 2 nhiều hơn quý 4 xấp xỉ
307500 cái
Quý 3 : E Y X i , D1  0; D2  0; D3  1  1   4  1160  409.75  1569.75 . Cho biết số
lượng tủ lạnh trung bình bán được ở quý 3 xấp xỉ 1569750 cái. Như vậy hệ số của biến giả
D3 (  4  409.75) cho biết số lượng tủ lạnh bán được trung bình ở quý 3 nhiều hơn quý 4 xấp
xỉ 409750 cái
Đánh giá ý nghĩa về mặt thống kê của các hệ số ước lượng thì nhận thấy hệ số hồi quy của D1
có p-value  0.47 khá lớn, nghĩa là giá trị của nó khác 0 không có ý nghĩa thống kê, điều này
chứng tỏ rằng lượng tủ lạnh trung bình bán được giữa quý 1 và quý 4 là không có sự khác biệt
đáng kể.
Các hệ số hồi quy của D2 và D3 đều có ý nghĩa, chứng tỏ rằng lượng tủ lạnh trung bình
bán được giữa quý 2 và quý 3 là có sự khác biệt đáng kể so với quý 4.
Như vậy ta có thể nhận định rằng, tác động của mùa ảnh hưởng đến quý 2 và 3, tức là
vào mùa hè và mùa xuân người ta sử dụng tủ lạnh nhiếu hơn là mùa đông và mùa thu (ứng với
quý 1 và 4)
Điều này cũng cho ta một phương pháp sử dụng biến giả vào bài toán phân tính mùa.

79
4.3. So sánh hai hồi quy
Trong các mô hình hồi quy khảo sát trong phần 4.1 và 4.2, ta giả định rằng tỷ lệ thay đổi của
biến phụ thuộc theo các biến giải thích định lượng là như nhau, độc lập với tất cả các phạm
trù. Nói khác đi, hệ số hồi quy của các biến định lượng là như nhau cho các mô hình hồi quy
riêng của từng phạm trù.
Do đó, khi hệ số hồi quy của các biến định lượng có thể khác nhau trong các mô hình
hồi quy riêng cho từng phạm trù, ta cần so sánh các mô hình hồi quy riêng này với nhau.
Chẳng hạn khi nghiên cứu mối quan hệ giữa lượng chi tiêu cho tiêu dùng và lượng thu nhập
khả dụng cho các hộ gia đình thuộc hai phạm trù thành thị và nông thôn, ta so sánh mô hình
hồi quy cho hai phạm trù này và so sánh với nhau. Ngoài ra, nếu khác nhau thì ta cần xác định
sự khác biệt là ở hệ số chặn, hệ số góc hay cả hai.
Ví dụ, với hai bộ số liệu  X i , Yi  , i  1, n1 , chỉ các bộ số liệu về thu nhập khả dụng và chi tiêu
cho tiêu dùng của các hộ nông thôn và  X j , Y j  , j  1, n2 , là bộ số liệu của các hộ thành thị.
Ta xét mô hình hồi quy cho phạm trù các hộ nông thôn,
Yi  1   2 X i  1,i , i  1, n1 , (5.5a)
và các hộ thành thị,
Y j   1   2 X j   2, j ( j  1, n2 ) , (5.5b)

trong đó X chỉ thu nhập khả dụng; Y chỉ chi tiêu cho tiêu dùng,  1,i ,  2,i là các nhiễu trong
các mô hình hồi quy.
Có 4 khả năng xảy ra đối với 2 hồi quy này :
1. 1   1 và 2   2 , nghĩa là 2 hồi quy đồng nhất, trên đó thì chúng chồng khít lên
nhau, điều này chỉ ra ở hình sau

Hình 17 : (a) Hai hồi quy trùng nhau.


2. 1   1 và 2   2 , nghĩa là 2 hồi quy có cùng hệ số góc, hai đường hồi quy song
song với nhau

80
Hình 18 : (b) Hai hồi quy song song
3. 1   1 và 2   2 , nghĩa là 2 hồi quy có cùng hệ số chặn nhưng khác nhau về hệ số
góc, hai đường hồi quy có cùng tung độ gốc nhưng có hệ số góc khác nhau

Hình 19 : (c) Hai hồi quy có cùng hệ số chặn


4. 1   1 và 2   2 , nghĩa là 2 hồi quy hoàn toàn khác nhau, các đường hồi quy là
hoàn toàn khác nhau

Hình 20 : (d) Hai hồi quy hoàn toàn khác nhau


Để kiểm định sự bằng nhau của hệ số hồi quy chúng ta có thể sử dụng một trong hai kỹ thuật :
Phương pháp dùng kiểm định Chow và phương pháp sử dụng biến giả.
4.3.1. Kiểm định Chow
Kiểm định Chow là một trong những phương pháp phổ biến để kiểm định sự khác nhau giữa
hai mô hình hồi quy. Phép kiểm định này dựa trên những giả thiết sau :
a. Các nhiễu 1,i và  2, j có phân phối chuẩn với kỳ vọng bằng 0 và phương sai không
đổi và đều bằng  2 :

81
1,i  N  0;  2  và  2, j  N  0;  2 

b. Các 1,i và  2, j là các biến ngẫu nhiên độc lập.


Với giả thiết đã cho thì thủ tục kiểm định Chow được tiến hành như sau :
Bước 1 : Kết hợp tất cả các quan sát của 2 phạm trù lại, ta được n  n1  n2 quan sát, rồi
ước lượng hồi quy cho cả n quan sát này. Mô hình này có thể viết dưới dạng :
Yi  1  2 X i   i (5.6)
Từ hồi quy này, ta thu được tổng bình phương các phần dư là RSS với số bậc tự do n1  n2  k
(trong mô hình (5.6) thì k  2 ).
Bước 2 : Khảo sát từng mô hình hồi quy riêng (5.5a) và (5.5b), ta thu được tổng bình
phương các phần dư tương ứng. Từ mô hình (5.5a) là RSS1 và từ mô hình (5.5b) là RSS 2 với
các bậc tự do tương ứng n1  k và n2  k . Đặt

RSS = RSS1 + RSS2


với bậc tự do tương ứng là n1  n2  2k .
Bước 3 : Sử dụng tiêu chuẩn F, với
( RSS  RSS ) / k
F , (5.7)
RSS / ( n1  n2  2k )

ta có F  F  k , n1  n2  2k  . Khi đó, nếu giá trị F tính được vượt giá trị tới hạn thì ta bác bỏ
giả thiết cho rằng hai hồi quy là như nhau. Điều này có nghĩa là hai tập số liệu là không gom
lại thành một được.
Ví dụ 10. Số liệu về tiết kiệm và thu nhập cá nhân ở nước Anh từ năm 1946 đến 1963 (đơn vị
pound) cho ở bảng sau
Thời kỳ I Y X Thời kỳ II Y X
1946 0.36 8.80 1955 0.59 15.5
1947 0.21 9.40 1956 0.90 16.7
1948 0.08 10.0 1957 0.95 17.7
1949 0.20 10.6 1958 0.82 18.6
1950 0.10 11.0 1959 1.04 19.7
1951 0.12 11.9 1960 1.53 21.1
1952 0.41 12.7 1961 1.94 22.8
1953 0.50 13.5 1962 1.75 23.9
1954 0.43 14.3 1963 1.99 25.2
Trong đó : Y : Tiết kiệm ; X : Thu nhập.
Để biết có sự thay đổi về tiết kiệm giữa hai thời kỳ hay không, ta xét các mô hình ứng
với từng thời kỳ như sau
Thời kỳ I : Yi  1   2 X i  1,i , i  1, n1 , (1a)
Thời kỳ II : Y j   1   2 X j   2, j ( j  1, n2 ) , (1b)
Từ các bộ số liệu trên, ta ước lượng được các mô hình lần lượt là

82
(1a) : Y i  0.266249  0.047028X i ; RSS1  0.13965
(1b) : Y j  1.750172  0.150450X j ; RSS 2  0.193121

Từ kết quả hồi quy trên ta thấy các hệ số hồi quy thoả mãn trường hợp 4, 1   1 và 2   2 ,
nghĩa là 2 hồi quy hoàn toàn khác nhau, các đường hồi quy là hoàn toàn khác nhau.
Nếu dùng phép kiểm định Chow, ta có kết quả hồi quy khi kết hợp các quan sát lại với
nhau như sau

Y i  1.082071  0.117845X i ; RSS  0.572226

Từ đó ta tính được RSS  0.13965  0.19312  0.33277 , và


( RSS  RSS ) / k (0.572226  0.33277) / 2
F   5.037
RSS / ( n1  n2  2k ) 0.33277 / (9  9  4)

Tra bảng, ta tìm được giá trị của F  F0.05  2,14   3.74 . Vì F  5.037 vượt quá giá trị tới hạn
nên ta bác bỏ giả thuyết cho rằng hai mô hình hồi quy là như nhau. Tức là hai hàm tiết kiệm ở
hai thời kỳ khác nhau là có ý nghĩa.
Nếu sử dụng Eview và chọn điểm để phân biệt hai thời kỳ là BP  1955 (Breakpoint) để thực
hiện việc kiểm định Chow, ta có bảng kết quả sau :

Hình 21
Và dựa vào bảng kết quả trên ta cũng có giá trị F  5.037 . Với giá trị xác suất là 0.022493.
nên ta chấp nhận giả thuyết cho rằng hai mô hình có sự khác nhau.
4.3.2. Phương pháp sử dụng biến giả
Trong phương pháp sử dụng biến giả, ta cũng gom tất cả n1 và n2 quan sát lại với nhau
nhưng xét mô hình hồi quy :
Yi  1   2 Di  3 X i   4 ( Di X i )   i (5.8)
trong đó
1 nếu quan sát thứ i lấy ở hộ thành thị,
Di  
0 nếu quan sát thứ i lấy ở hộ nông thôn.

Từ mô hình (5.8), lấy kỳ vọng có điều kiện cả hai vế, với giả thiết E   i   0 , ta được

E Y Di  0, X i   1   3 X i (5.8a)

E Y Di  1, X i   ( 1   2 )  (  3   4 ) X i (5.8b)

83
Khi đó, (5.8a) cho hàm hồi quy cho chi tiêu cho tiêu dùng đối với các hộ nông thôn và (5.8b)
cho hàm hồi quy cho chi tiêu cho tiêu dùng đối với các hộ thành thị. Hai hàm này hoàn toàn
giống như hai hàm đã cho (5.5a) và (5.5b) cho nên ước lượng mô hình (5.8) cũng tương
đương với việc ước lượng các mô hình (5.5a) và (5.5b).
Trong (5.8) thì  2 chính là hệ số chặn biểu thị sự khác nhau của chi tiêu cho tiêu dùng của hai
phạm trù còn  4 chính là sự khác biệt giữa tỷ lệ thay đổi giữa chi tiêu cho tiêu dùng đối với
thu nhập khả dụng giữa hai phạm trù.
4.4. Một số ứng dụng của mô hình hồi quy với biến giả
Các bộ số liệu trong kinh tế thường có liên quan đến yếu tố thời gian. Chẳng hạn quan hệ giữa
chi tiêu cho tiêu dùng và thu nhập khả dụng giữa các quý trong năm có thể khác nhau. Khi đó,
nếu ta muốn khảo sát ảnh hưởng của yếu tố thời gian đến mô hình hồi quy, ta có thể chia bộ
số liệu gốc ra các phạm trù khác nhau rồi dùng biến giả.
Chẳng hạn khi muốn nghiên cứu mối liên hệ giữa thu nhập khả dụng và chi tiêu cho tiêu
dùng, có chú ý đến yếu tố thời gian, chẳng hạn theo quý, ta có thể dùng mô hình với biến giả
sau
Yi  1   2 D2,i  3 D3,i   4 D4,i   5 X i   i , (5.9)
trong đó :
1 èegï qïaè saùt èaèm ôû qïyù II
D2  
0 èegï qïaè saùt èaèm ôû qïyù kâaùc
1 èegï qïaè saùt èaèm ôû qïyù III
D3  
0 èegï qïaè saùt èaèm ôû qïyù kâaùc
1 èegï qïaè saùt èaèm ôû qïyù IV
D4  
0 èegï qïaè saùt èaèm ôû qïyù kâaùc
Trong mô hình trên, ta phân biệt 4 phạm trù (4 quý) bằng cách dùng 3 biến giả, trong đó phạm
trù cơ bản là quý I.
Chú ý rằng, tương tự như trong phần 4.1 và 4.2, mô hình (5.9) cần giả thiết thêm rằng tỷ
lệ thay đổi giữa chi tiêu cho tiêu dùng và thu nhập khả dụng độc lập đối các phạm trù (quý).
Khi đó, mỗi một hệ số chặn cho ta biết chỉ tiêu trung bình ở mỗi quý khác với quý I như thế
nào. Cụ thể, với giả thiết E   i   0 , ta có chi tiêu cho tiêu dùng trung bình trong quý I là

E Y D2  0, D3  0, D4  0, X i   1   5 X i ,

chi tiêu cho tiêu dùng trung bình trong quý II,
E Y D2  0, D3  0, D4  0, X i   ( 1   2 )   5 X i ,

và trong quý III và quý IV lần lượt là


E Y D2  0, D3  0, D4  0, X i   ( 1   3 )   5 X i ,

E Y | D2  0, D3  0, D4  1, X i    1   4    5 X i .

Trường hợp tỷ lệ thay đổi giữa chi tiêu cho tiêu dùng và thu nhập khả dụng có thể thay đổi
giữa các phạm trù với nhau, ta sử dụng mô hình biến giả tương tự như trong phần 4.3

84
Yi  1   2 D2,i   3 D3,i   4 D4,i  5 X i   6 ( D2,i X i )
(5.10)
  7 ( D3,i X i )  8 ( D4,i X i )   i
Chú ý rằng trong trường hợp ta chia bộ số liệu thu thập được thành nhiều phạm trù con và xét
các mô hình hồi quy riêng, ta nhận được các hàm hồi quy riêng và mục 4.3 nhằm mục đích so
sánh các hàm hồi quy riêng này.
Một phương pháp khác được dùng là Mô hình hồi quy tuyến tính từng khúc.
Chẳng hạn trong khi khảo sát tương quan giữa chi tiêu cho tiêu dùng đối với thu nhập khả
dụng, ta quan tâm tới một mốc thời gian mà ta cho rằng sự tương quan khảo sát trước và sau
mốc thời gian này có thể khác nhau. Chẳng hạn, ta muốn khảo sát sự khác nhau trước và sau
mốc thời gian chuyển đổi cơ cấu kinh tế (từ kinh tế kế hoạch sang kinh tế thị trường chẳng
hạn).
Gọi năm chuyển đổi cơ cấu kinh tế là t0 . Ta xét mô hình

Yt  1   2 X t  3 ( X t  X t0 ) Dt   t (5.11)

trong đó Yt chỉ lượng chi tiêu cho tiêu dùng, X t chỉ thu nhập khả dụng tại thời điểm t, như
vậy X t0 chỉ thu nhập khả dụng trong năm bắt đầu chuyển giai đoạn từ kinh tế kế hoạch sang
kinh tế thị trường và
1 èegï t  t 0
Dt  
0 èegï t  t0
Với giả thiết E ( t )  0 , ta thấy trung bình của tiêu dùng trong những năm trước khi chuyển
đổi kinh tế là
E Yt D1  0, X t   1   2 X t (5.12)

và trong những năm sau khi chuyển đổi kinh tế là


E Y D1  1, X 1   1  (  2   3 ) X 2  3 X t0 (5.13)

Hình 5.5. Mô hình hồi quy tuyến tính từng khúc


(Mô hình có sự thay đổi cấu trúc)
Vậy  2 , cho độ dốc của đường hồi quy trước khi chuyển đổi và (  2   3 ) cho độ dốc của
đường hồi quy sau khi chuyển đổi và khi đó đường hồi quy không có sự gián đoạn theo thời
gian và là đường tuyến tính từng khúc
Hơn nữa, khi 3 = 0 thì đường hồi quy trở thành đường thẳng vì độ dốc đường hồi quy trước
và sau thời điểm chuyển đổi là như nhau. Do đó, phép kiểm định  3  0 sẽ cho ta biết có sự
khác biệt của mô hình hồi quy khi thay đổi cơ cấu kinh tế hay không.

85
Trường hợp có nhiều thời điểm khác nhau cần phân biệt được khảo sát tương tự. Chẳng hạn
với hai thời điểm t0  t1 mà ta cần khảo sát sự thay đổi mô hình, mô hình thích hợp là

Yt  1   2 X t  3 ( X t  X t0 ) D1,t 
(5.14)
  4 ( X t  X t0 ) D2,t   t

trong đó
1 èegï t  t1 1 èegï t  t 0
D2,t   và D1,t  
0 èegï t  t1 0 èegï t  t 0
Khi đó, phương trình hồi quy cho các giai đoạn lần lượt là
   X , 0  t  t0
 1 2 t

E (Yt )  ( 1  3 X t0 )  (  2  3 ) X t , t0  t  t1

 1  3 X t0   4 X t0 (  2  3   4 ) X t , t  t1
Cần nhấn mạnh rằng các mô hình khảo sát ở đây khác với các mô hình biến giả đã được trình
bày trong mục trước do ta giả sử rằng đường hồi quy không mất tính liên tục và đó là lý do ta
gọi mô hình này là mô hình tuyến tính từng khúc.
Bài tập
Câu 1. Dựa vào kết quả hồi quy sau. Hãy trả lời các câu hỏi với mức ý nghĩa 1%.
Y  14.32  2.26 X 2  1.24 X 3
se (1.12) (0.32) (0.34)
p (0.0001) (0.0009) (0.02)
R 2  0.91; R 2  0.87; n  10
Trong đó, Y : Lượng cam bán ra (tạ), X 2 : Giá cam (Ngàn đồng / kg), X 3 : Giá quýt (Ngàn
đồng / kg).
a. Giải thích ý nghĩa các hệ số hồi quy.
b. Cho biết kết quả hồi quy trên có phù hợp với thực tế không ?
c. Giá cam (Giá quýt) có ảnh hưởng đến lượng cam bán không ?
d. Với R 2  0.91 . Hãy giải thích ý nghĩa và kiểm định giả thuyết cho rằng cả giá cam và
giá quýt đều không ảnh hưởng đến lượng cam bán ra.
Câu 2. Bảng dưới đây cho các giá trị quan sát về thu nhập (Y- USD/đầu người), tỷ lệ lao động
nông nghiệp ( X 1 - %) và số năm trung bình được đào tạo đối với những người trên 25 tuổi (
X 2 -năm)

86
Y X1 X2 Y X1 X2
6 9 8 9 6 12
8 10 13 10 8 14
8 8 11 10 7 12
7 7 10 11 4 16
7 10 12 9 9 14
12 4 16 10 5 10
9 5 10 11 8 12
8 5 10
Giả thiết rằng E  Y / X1 , X 2   0  1 X 1i   2 X 2i . Dùng số liệu của mẫu trên để tìm hàm hồi
qui mẫu.
a. Tìm ước lượng phương sai của sai số ngẫu nhiên.
b. Tìm ước lượng sai số chuẩn của các hệ số hồi qui.
c. Tìm khoảng tin cậy đối xứng của các hệ số hồi qui với độ tin cậy 95%.
d. Kiểm định các giả thiết : H 0 : 1  0; H 0 :  2  0 với mức ý nghĩa 5%.
e. Tìm hệ số R 2 và R 2 .
f. Phải chăng cả hai yếu tố “tỷ lệ lao động nông nghiệp” và “số năm được đào tạo” đều
không ảnh hưởng đến thu nhập ?
Câu 3. Cho bảng số liệu của ngàng công nghiệp Việt Nam (1976-1991) như sau :
Năm Sản lượng Chi phí lao động Vốn
1976 65344 2033,4 23,88
1977 72399 2151,2 25,79
1978 78300 2092,4 28,32
1979 74594 2134,8 31,31
1980 66925 2250,3 33,74
1981 67594 2232,7 35,99
1982 73463 2273,2 38,14
1983 83034 2365,1 40,67
1984 93953 2460,2 43,23
1985 103258 2571,8 45,36
1986 109632 2587,0 46,80
1987 130551 2844,7 47,70
1988 137819 2945,0 49,20
1989 133311 2531,4 51,60
1990 139350 2251,0 52,99
1991 145621 2115,0 55,60
a. Dùng hàm sản suất Cobb - Douglas dạng : Q   La K  . Trong đó : Q là sản lượng
công nghiệp; L là lao động; K là vốn để ước lượng các tham số a ,  và cho biết ý nghĩa của
những tham số đó.
b. Hãy ước lượng hàm hồi qui :
L n  Q / L   1   2 ln  K / L   U i

c. Kiểm định giả thiết H 0 :  2  0;  2  0 với mức ý nghĩa 2%.


d. Tính R 2 và phân tích kết quả mô hình ước lượng được.

87
Câu 4. Xét một tập hợp các số liệu lý thuyết cho ở bảng dưới đây :
Y -10 -8 -6 -4 -2 0 2 4 6 8 10
X2 1 2 3 4 5 6 7 8 9 10 11
X3 1 3 5 7 9 11 13 15 17 19 21

Giả sử bạn muốn áp dụng mô hình sau cho các số liệu ở bảng trên :
Yi  1  2 X 2i  3 X 3i  U i
Bạn có thể ước lượng 3 tham số chưa biết hay không ? Tại sao có hoặc tại sao không ? Nếu
không, hàm tuyến tính nào bạn có thể ước lượng được? Hãy trình bày những tính toán cần
thiết.
Câu 5. Cho C là tiêu dùng, I là thu nhập và W là phúc lợi. Các số liệu quan sát về C, I, W cho
ở bảng sau :

C I W C I W
32 36 144 14 15 58
11 32 47 17 18 70
15 16 63 41 50 204
17 18 70 17 19 76
16 17 67 33 37 149
13 14 52 20 22 86
18 20 79 18 19 76
20 23 90

a. Ước lượng mô hình hồi qui : Ci  1   2 I i   3Wi  U i


b. Tính R 2 của mô hình không có mặt biến W và R 2 của mô hình không có mặt biến I.
c. Mô hình có xảy ra đa cộng tuyến không? Vì sao?
Câu 6. Để nghiên cứu nhu cầu của một loại hàng, người ta tiến hành khảo sát giá bán và
lượng hàng bán được ở 20 khu vực bán hàng và thu được các số liệu cho ở bảng sau :
Yi Xi Zi Yi Xi Zi
20 2 1 14 5 0
19 3 0 14 6 1
18 3 1 13 6 0
18 4 0 12 7 1
17 4 1 12 7 0
17 3 1 15 5 1
16 4 0 16 4 0
16 4 1 12 7 1
15 5 1 10 8 0
15 5 1 11 8 1
Trong đó :
Y là sản lượng bán được (tấn/tháng)
X là giá bán (ngàn đ/kg)
Z i  0 nếu khu vực khảo sát ở nông thôn
88
Z i  1 nếu khu vực khảo sát ở thành phố
a. Tìm các hàm hồi qui :
Yˆi  aˆ1  aˆ 2 X i (1)

Yˆi  ˆ1  ˆ2 X i  ˆ3 Z i (2)

b. Cho biết ý nghĩa của các hệ số hồi qui : ̂2 ; ˆ3 .


c. Để dự báo lượng hàng bán được ta nên dùng hàm (1) hay hàm (2), vì sao?
d. Dùng hàm (1) để dự báo lượng hàng bán được trung bình ở một khu vực bán hàng khi
giá là 7 ngàn đ/kg với độ tin cậy 95%?

89
Chương 3.
KIỂM ĐỊNH GIẢ THIẾT MÔ HÌNH
Ba giả thiết quan trọng của mô hình hồi quy tuyến tính là
a) Các sai số ngẫu nhiên  i trong hàm hồi quy tổng thể có phương sai không đổi và
bằng  2 ,
b) Không có hiện tượng cộng tuyến giữa các biến giải thích, và
c) Không có hiện tượng tự tương quan giữa các nhiễu.
Nội dung của chương này nhằm khảo sát các giả thiết này, tìm dấu hiệu cho thấy chúng bị vi
phạm và cố gắng tìm cách khắc phục.
1. Phương sai thay đổi
Xét mô hình hồi quy trong đó giả thiết a) bị vi phạm, nghĩa là khi phương sai của các nhiễu  i
là  i2 (thay đổi theo từng quan sát một). Có nhiều lý do khiến phương sai các nhiễu thay đổi.
Có thể là do bản chất của các mối quan hệ kinh tế như trong mô hình hồi quy
Y  1   2 X   ,
trong đó Y chỉ lượng chi tiêu cho tiêu dùng và X chỉ thu nhập khả dụng các hộ gia đình.
Thường thì thu nhập khả dụng tăng kéo theo lượng chi tiêu cho tiêu dùng tăng nhưng có thể
trong những hộ có thu nhập khả dụng cao, độ biến thiên của lượng chi tiêu cho tiêu dùng của
họ cũng cao hơn.
Cũng có thể do kỹ thuật thu thập số liệu. Chẳng hạn số liệu thu thập từ nhiều nguồn khác nhau
hoặc kỹ thuật thu thập số liệu được cải tiến ...
Chú ý rằng phương pháp OLS có thể dùng cho các mô hình với phương sai thay đổi. Tuy
nhiên khi đó ước lượng cho các hệ số hồi quy không còn là các ước lượng tốt nhất. Cụ thể, ta
xét mô hình hai biến
Y  1   2 X   . (1.1)

Ước lượng OLS của  2 là


n n

  X i  X Yi  Y  x y i i
ˆ2  i 1
n
 i 1
n
,
2
 X
i 1
i X x
i 1
2
i

với phương sai cho bởi


2
 
var ˆ2  n
2
,
 xi i 1

và khi phương sai của  không đổi thì nó là ước lượng tốt nhất cho  2 .
Để khảo sát trường hợp phương sai thay đổi, ta xét một số phương pháp bình phương
nhỏ nhất khác như sau

90
1.1. Phương pháp OLS có trọng số
Trong mô hình hồi quy (1.1) với phương sai không đổi, các hệ số hồi quy ˆ1 và ̂ 2 thỏa điều
kiện làm cực tiểu
n n 2
 e   Y  ˆ  ˆ X 
i 1
2
i
i 1
i 1 2 i .

Đối với phương pháp bình phương nhỏ nhất có trọng số, các hệ số hồi quy ˆ1 và ˆ2 được chọn thỏa
điều kiện làm cực tiểu

n n 2
 w e   w Y  ˆ
i 1
2
i i
i 1
i i 1

 ˆ2 X i  , (1.2)

trong đó ˆ1 , ˆ2 được gọi là các ước lượng bình phương nhỏ nhất có trọng số và các trọng số
wi được xác định bởi
1
wi  , i .
 i2
Từ các đẳng thức
 n 
   wi ei2  n
 i 1   2 w Y  ˆ   ˆ  X ,
ˆ1

i 1
i i 
1 2 i 
 n 
   wi ei2  n
 i 1   2 w X Y  ˆ   ˆ  X ,
ˆ2

i 1
i i i 1 
2 i 
ta nhận được hệ phương trình theo các ẩn ˆ1 , ˆ2 ,
n n n
 ˆ ˆ
  wiYi  1  wi   2  wi X i
 i 1 i 1 i 1
 n n n
 w X Y  ˆ  w X  ˆ  w X 2

 i 1 i i i 1  i i
i 1
2 i i
i 1

Giải hệ phương trình trên, ta được


ˆ1  Y   ˆ2 X  ,
 n  n  n  n 
  i    i i i   i i   wY
w w X Y  w X i i 
 i 1   i 1  i 1  i 1 
ˆ2  2
,
 n  n 2 
n

  wi   wi X i     wi X i 
 i 1  i 1   i 1 
trong đó

91
n n

 wY i i w X i i
Y  i 1
n
và X   i 1
n
.
   
  wi    wi 
 i 1   i 1 
Rõ ràng khi wi  w , i , thì trung bình có trọng số trở lại thành trung bình thông thường.
1.2. Phương pháp bình phương nhỏ nhất tổng quát
Trong phần này, ta trình bày một phương pháp tổng quát để đưa mô hình không thỏa điều
kiện phương sai không đổi về mô hình thỏa mãn điều kiện phương sai không đổi.
Xét mô hình hai biến Y  1   2 X   , trong đó tất cả các điều kiện thỏa trừ điều kiện
về phương sai không đổi. Ta viết lại
Y  1 X 0   2 X   ,
trong đó X 0,i  1 , i .

Chia hai vế cho  i (  i  0 ), ta được

Yi X 0,i Xi i
 1  2  .
i i i i
Đặt
Yi X 0,i Xi i
Yi   , X 0, i  , X i  và  i  .
i i i i
Đẳng thức trên được viết lại thành
Y   1 X 0   2 X     .
Chú ý rằng khi đó
var   i 
var   i    1,
 i2
với mọi i. Do đó   có phương sai không đổi.
Thủ tục biến đổi các biến gốc nêu trên nhằm nhận được các biến mới thỏa mãn các giả
thiết của mô hình hồi quy tuyến tính cổ điển và sau đó áp dụng phương pháp OLS cho mô
hình đã được biến đổi, được gọi là phương pháp bình phương nhỏ nhất tổng quát.
Để ước lượng 1 và  2 , ta viết lại hàm hồi quy mẫu thành

Y   1 X 0   2 X   e ,

Yi X 0,i Xi ei
với Yi   , X 0, i  , X i  và ei  .
i i i i
Dùng OLS, ta cực tiểu hàm

92
2
n
2
n
2
n
 ei 
  ei    Yi   1 X 0, i  2 X i   
i 1 i 1 i 1  i2
2
n
Y X X  n
1 2
   i  1 0,i   2 i    2 Yi  1   2 X i 
i 1   i i  i  i 1  i
1
Đặt wi  . Ta nhận được lại (1.2) và do đó, ta có
 i2

ˆ1  Y   ˆ2 X  ,

 n  n  n  n 
  wi  
 i 1   i 1
wi X i Yi   
 i 1
wi X i    wY
  i 1
i i 

ˆ2  2
 n  n 2 
n

  wi    wi X i     wi X i 
 i 1   i 1   i 1 

n

w i
var   2   i 1
2
.
 n  n 2 
n

  i   i i    wi X i 
w w X 
 i 1  i 1   i 1 
1.3. Hậu quả của phương sai thay đổi
Đối với mô hình hồi quy, nếu không phát hiện ra hiện tượng phương sai thay đổi, ta gặp các
hậu quả sau
- Các ước lượng bình phương nhỏ nhất vẫn là các ước lượng không chệch nhưng không
phải là ước lượng hiệu quả (có phương sai nhỏ nhất).
- Ước lượng của phương sai bị chệch. Do đó, các kiểm định mức ý nghĩa và khoảng tin
cậy theo phân phối Student và Fisher không còn đáng tin cậy nữa.
Thật vậy, do ta thường quan tâm đến hệ số góc  2 nên để đơn giản, xét mô hình không có hệ
số chặn
Y  2 X   ,
trong đó sai số ngẫu nhiên thỏa điều kiện
E   i   0 , cov   i ,  j   0 và var   i    i2 .

Với OLS, ước lượng của  2 là


n

x y i i n
ˆ2  i 1
n
  ki yi ,
2
x
i 1
i
i 1

xi
trong đó ki  n
.
2
x
i 1
i

93
Do vậy ̂ 2 vẫn tuyến tính theo yi . Mặt khác, từ Y   2 X   , ta suy ra
n n n

 x y  x  x  
i i i 2 i i x i i
ˆ2  i 1
n
 i 1
n
 2  i 1
n
.
2 2 2
x
i 1
i x
i 1
i x
i 1
i

 
Vì E   i   0 và X phi ngẫu nhiên, nên E ˆ2   2 và do đó ̂ 2 là ước lượng không chệch
của  2 . Tương tự như trên, ta có thể tính được
n
2 2
x  i i
var ˆ2    i 1

 n 2
2
.
  xi 
 i 1 
1 2
Đánh trọng số cho quan sát thứ i là , trong đó zi thỏa mãn điều kiện zi2  i2 (  2 là hằng
zi 
1
số). Chú ý rằng ta được trường hợp tổng quát hơn vì chỉ cần đặt  2  1 , ta được zi  . Ta
wi
dùng ˆ  chỉ ước lượng của  . Ta có
2 2

yi x 
 2 i  i .
zi zi zi
i
Đặt vi  . Ta được
zi

E   i2   i2
2
 i 
E v   E   
i
2
2
 2 2.
z
 i z i zi
Hàm hồi quy mẫu trở thành
yi ˆ  xi
  2  vi .
zi zi
Đây lại là ước lượng bình phương nhỏ nhất có trọng số nên ta lại có
n n

    yi
zi
xi
zi  v yi
zi i
ˆ2  i 1
n
 2  i 1
n
.
2 2
 
i 1
xi
zi  
i 1
xi
zi

 
Lấy kỳ vọng hai vế, ta được E ˆ2   2 . Như vậy ˆ2 là ước lượng không chệch của  2 và
ta sẽ chứng minh rằng ˆ2 hiệu quả hơn ̂ 2 . Thật vậy,

2
var ˆ2    n
xi 2
 
i 1
zi

94
và thay  i2   2 zi , ta được
n
 2  xi2 zi2
 
var ˆ2 

i 1
n 2
.
2
  xi 
 i 1 
Lập tỷ số
2
 n 2
 
var ˆ2   xi 
 i 1 
var  ˆ 
n 2 n
2
   x z
i 1
xi
zi
i 1
2 2
i i

xi
và đặt ai  xi zi , bi  , ta suy ra
zi
2
 n 
 
var ˆ2   ai bi 
 n i 1 n 
var  ˆ 2
 ai2  bi2
i 1 i 1

Bất đẳng thức Cauchy-Schwarz cho thấy

  1
var ˆ2
var  ˆ  2

và đẳng thức chỉ xảy ra khi


ai xi zi
 xi  zi2  const .
bi zi

Do đó, khi  i2 thay đổi, ước lượng ̂ 2 không hiệu quả.

Bây giờ, ta ước lượng phương sai của ̂ 2 . Ước lượng này cho bởi
RSS
n
.
2
 n  1  x i
i 1

Ta chứng minh được rằng


n n n
  2 2 2 2
 RSS    x  
i 1
i
i 1
i
i 1
i i x
E n
 2
 n 1 2   n 
   xi   n  1   xi2 
 i 1   i 1 
và phương sai của nó là

95
n
2 2
 i 1
x
i i

2
.
 n 2
  xi 
 i 1 
Như vậy, phương sai của ước lượng cũng là ước lượng không chệch. Bây giờ, giả sử  i2 và
xi2 có tương quan dương (thường xảy ra đối với các số liệu kinh tế) và thỏa
n
2 2 1 n 2 n 2

i 1
x 
i i  i 
n i 1 i 1
xi

thì giá trị kỳ vọng của phương sai đã được ước lượng nhỏ hơn phương sai thực. Như vậy, ta
đã ước lượng quá thấp phương sai thực của ước lượng OLS và sẽ thu được khoảng tin cậy hẹp
hơn khoảng tin cậy thực. Điều này làm ảnh hưởng đến kiểm định giả thiết về  2 . Nói khác đi,
khoảng tin cậy và kiểm định giả thiết dựa trên phân phối t và F sẽ không còn đáng tin cậy nữa.
1.4. Phát hiện phương sai thay đổi
Về lý thuyết, ta chỉ phát hiện được  i2 khi có số liệu tổng thể. Tuy nhiên, ta chỉ có một mẫu.
Chính xác hơn, ta chỉ có giá trị đơn của Y ứng với giá trị đã cho của X và không có cách nào
để xác định  i2 từ những giá trị đơn của Y. Tuy nhiên, ta có một số phương pháp phát hiện
phương sai thay đổi sau
1.4.1. Xem xét đồ thị phần dư
Đồ thị của phần dư (sai số của mô hình hồi quy) đối với giá trị của biến độc lập X hoặc dự
đoán Ŷ sẽ cho chúng ta biết liệu phương sai của sai số có thay đổi không. Phương sai của
phần dư được biểu thị bởi độ rộng của biểu đồ rải của phần dư khi X tăng. Nếu độ rộng của
biểu đồ rải của phần dư tăng hay giảm khi X tăng thì giả thiết phương sai không đổi có thể
không thỏa mãn.
Ví dụ 1. Cho các số liệu về chi tiêu cho tiêu dùng (Y) và thu nhập (X) hàng tháng của 20 hộ
gia đình ở một vùng nông thôn (đơn vị 10.000 đ)
STT X Y STT X Y
1 22.3 19.9 10 40.2 38.8
2 32.3 31.2 11 8.1 8
3 33.6 31.8 12 34.5 33.1
4 12.1 12.1 13 38 33.5
5 42.3 40.7 14 14.1 13.1
6 6.2 6.1 15 16.4 14.8
7 44.7 38.6 16 24.1 21.6
8 26.1 25.5 17 30.1 29.3
9 10.3 10.3 18 28.3 25
10 40.2 38.8 19 18.2 17.9
11 8.1 8 20 20.1 19.8
Với các số liệu ở bảng trên, ta tìm được mô hình hồi quy mẫu
Yˆ  0.707476  0.91026 X
và đồ thị phần dư ( ei ) theo X như sau

96
Hình 1
Nhìn vào đồ thị ta thấy độ rộng của biểu đồ rải của phần dư khi X tăng. Đây cũng là dấu hiệu
cho biết phương sai thay đổi (ta cũng có thể vẽ đồ thị giữa phần dư bình phương và X).
Lưu ý rằng, trong mô hình hồi quy bội, chúng ta thường vẽ đồ thị phần dư (hay phần dư
bình phương ) theo Y i . Vì Y i là một tổ hợp tuyến tính của các biến giải thích.
1.4.2. Kiểm định Park
Park đã hình thức hóa phương pháp đồ thị, cho rằng  i2 là một hàm theo X. Dạng hàm đề
nghị là
 i2   2 X i e .
2 i

Lấy lôgarít hai vế, ta được


ln  i2  ln  2   2 ln X i   i ,

trong đó  i là sai số ngẫu nhiên. Do  i2 chưa biết nên Park đề nghị dùng ei2 thay cho  i2 và
ước lượng hồi quy sau
ln ei2  ln  2   2 ln X i   i  1   2 ln X i   i ,

trong đó 1  ln  2 và ei2 được tính từ hồi quy gốc.


Các bước kiểm định của Park gồm :
Bước 1. Ước lượng hồi quy gốc cho dù có thể có hiện tượng phương sai thay đổi.
Bước 2. Từ hồi quy gốc, tính ei , bình phương rồi lấy lôgarít của ei2 .
Bước 3. Ước lượng mô hình
ln ei2  1   2 ln X i   i ,

trong đó X i là một biến giải thích nào đó của hồi quy gốc. Trường hợp có nhiều biến giải
thích thì ước lượng mô hình trên với nhiều biến giải thích hoặc có thể hồi quy với Yˆi làm biến
giải thích.
Bước 4. Kiểm định giả thiết
H : 2  0

97
tức giả thiết “không có hiện tượng phương sai thay đổi”. Nếu giả thiết bị bác bỏ, nghĩa là tồn
tại mối liên hệ có ý nghĩa về mặt thống kê giữa ln ei2 và ln X i , ta kết luận có thể có hiện
tượng phương sai thay đổi. Chẳng hạn với số liệu cho trong ví dụ 1. Ta thực hiện các bước
trong kiểm định Park với sự hổ trợ của phần mềm Eview, ta được kết quả của ước lượng hồi
quy như sau

Hình 2
Từ bảng kết quả trên, ta thấy rằng mối liên hệ về mặt thống kê giữa ln ei2 và ln X là có ý
nghĩa, tức là giả thuyết H 0 :  2  0 bị bác bỏ. Nên ta kết luận có hiện tượng phương sai thay
đổi và kết quả này cũng phù hợp với phương pháp đồ thị.
1.4.3. Kiểm định Gleiser
Tương tự như kiểm định Park, sau khi thu được các phần dư ei , Gleiser đề nghị hồi quy giá trị
tuyệt đối của ei đối với biến X nào đó mà ta cho rằng có thể có quan hệ chặt chẽ với  i2 .
Trong thực nghiệm, Gleiser đề nghị dùng
ei  1   2 X i   i
ei  1   2 X i   i
1
ei  1   2  i
Xi
1
ei  1   2  i
Xi

trong đó  i là sai số ngẫu nhiên.

Nếu giả thiết H :  2  0 bị bác bỏ, ta kết luận có thể có hiện tượng phương sai thay đổi.
Lưu ý rằng Gleiser cũng như Park có vấn đề chẳng hạn như kỳ vọng toán của sai số
ngẫu nhiên  i có thể khác 0;  i có thể có tương quan chuỗi. Tuy nhiên, Gleiser cho rằng với
bốn mô hình trên, kết quả cho tương đối tốt. Cũng từ số liệu trong ví dụ 1 ta có các kết quả
của các mô hình hồi quy sau
ei  0.081360  0.012312 X i   i
se  (0.191084) (0.006923)
t  (0.87017) (6.608966)
p  (0.3957) (0.0000)
ei  1.070759  0.422536 X i   i
98
se  (0.338661) (0.067597)
t  (3.161740) (6.250797)
p  (0.0054) (0.0000)
ei  1.647269  12.30281(1/ X i )   i
se  (0.187054) (2.880094)
t  (8.806400) (4.271668)
p  (0.0000) (0.0005)
1
ei  2.532172  6.972226  i
Xi
se  (0.325954) (1.401908)
t  (7.768500) (4.973384)
p  (0.0000) (0.0001)
Ta thấy cả 4 kết quả trên đều cho một kết luận là giả thuyết H 0 :  2  0 bị bác bỏ, tức là có
hiện tượng phương sai thay đổi. Kết luận này cũng giống trong như kết luận của kiểm định
Park
1.4.4. Kiểm định White
White không đòi  phải có phân phối chuẩn. Đây là một kiểm định tổng quát về sự thuần
nhất của phương sai.
Xét mô hình hồi quy ba biến sau
Y  1   2 X 2   3 X 3  
Bước 1 : Ước lượng và thu được các phần dư  i .
Bước 2 : Ước lượng mô hình
ei2  a1  a 2 X 2  a 3 X 3  a 4 X 22  a 5 X 32  a 6 X 2 X 3  V ,
trong đó có thể xuất hiện các số mũ cao hơn nhưng luôn luôn phải có hệ số chặn bất kể mô
hình hồi quy gốc có hay không có hệ số chặn. Xét hệ số xác định R 2 của mô hình này.
Bước 3 : Xét giả thiết H : “phương sai của sai số không đổi”.
Nếu H đúng thì nR 2 có phân phối xấp xỉ  2 (k ) với k bằng số hệ số của mô hình bước 2
không kể hệ số chặn.
Bước 4 : Nếu nR 2 vượt quá giá trị tới hạn, bác bỏ H.
Kiểm định White có thể mở rộng cho mô hình hồi quy có số biến k bất kỳ và trong nhiều
trường hợp, ta có thể bỏ qua các số hạng tích chéo các biến độc lập.
Ví dụ 2. Khảo sát số liệu về chi phí cho việc nghiên cứu và phát triển của 18 ngành công
nghiệp ở Mỹ trong năm 1988, được cho trong bảng sau. Trong đó các nhóm ngành khác nhau
(NN) được đánh số từ 1 đến 18, đầu tư cho nghiên cứu (Y), doanh thu ( X 2 ), và lợi nhuận (
X 3 ), đơn vị tính triệu USD.

99
NN Y X2 X3 NN Y X2 X3
1 62.5 6375.3 185.1 10 6620.1 80552.8 13869.9
2 92.9 11626.4 1569.5 11 3918.6 95294 4487.8
3 178.3 14655.1 276.8 12 1595.3 101314.1 10278.9
4 258.4 21869.2 2828.1 13 6107.5 116141.3 8787.3
5 494.7 26408.3 2225.9 14 4454.1 122315.7 16438.8
6 1083 32405.6 3751.9 15 3163.8 141649.9 9761.6
7 1620.6 35107.7 2884.1 16 13210.7 175025.8 19774.5
8 421.7 40295.4 4645.7 17 1703.8 241434.8 23168.5
9 509.2 70761.6 5036.4 18 9528.2 293543 18415.4
Hồi quy Y theo X 2 và X 3 ta được kết quả

Hình 3

Đồ thị của phần dư theo Y như sau

Hình 4

Nhìn vào đồ thị trên ta thấy độ rộng của phần dư tăng khi Y tăng. Vậy có khả năng có hiện
tượng phương sai thay đổi.
Để kiểm chứng lại điều này, ta dùng kiểm định White, với sự trợ giúp của phần mềm Eview ta
có kết quả kiểm định sau

100
Hình 5
Theo kết quả của bảng trên, ta thấy nR 2  16.08758 có mức xác suất
p _ value  0.006598  0.05 . Nên ta bác bỏ giả thuyết H 0 : phương sai không đổi. Tức là mô
hình hồi quy của Y theo X 2 và X 3 có xảy ra hiện tương phương sai thay đổi.
1.5. Biện pháp khắc phục
Có hai cách xử lý : khi biết  i2 và khi chưa biết  i2 .

Khi biết  i2 , ta có thể dùng phương pháp bình phương nhỏ nhất có trọng số trình bày ở trên.
Khi chưa biết  i2 , ta cần thêm những giả thiết nhất định về  i2 và biến đổi mô hình hồi quy
gốc về mô hình mà phương sai không đổi. Chẳng hạn, với
Y  1   2 X   .
Giả thiết 1 : Phương sai của sai số tỷ lệ với bình phương của biến giải thích :
E   i2    2 X i2 .

Giả thiết này ghi nhận bằng phương pháp đồ thị, Park hay Gleiser. Khi đó, chia cả hai vế cho
Xi ( Xi  0 )
Yi   1
 1   2  i  1   2  vi ,
Xi Xi Xi Xi
i
trong đó vi  là số hạng nhiễu biến đổi. Ta có E  vi2    2 .
Xi
Y 1
Áp dụng OLS để hồi quy theo . Chú ý rằng hệ số chặn  2 là hệ số góc trong mô hình
X X
gốc còn hệ số 1 chính là hệ số chặn của hồi quy gốc. Để trở lại hồi quy gốc, ta phải nhân cả
hai vế đã ước lượng cho X i .
Giả thiết 2 : Phương sai của sai số tỷ lệ với biến giải thích
E   i2    2 X i .

Ta biến đổi

101
Yi  
 1  2 X i  i ,
Xi Xi Xi

i
với vi  và với X i  0 .
Xi

Dễ dàng kiểm chứng var  vi    2 .


Chú ý rằng trường hợp này không có hệ số tự do nên phải dùng mô hình hồi quy qua
gốc tọa độ để ước lượng 1 và  2 rồi trở lại mô hình ban đầu bằng cách nhân hai vế cho
Xi .

Giả thiết 3 : Phương sai của sai số tỷ lệ thuận với bình phương giá trị trung bình của Y :
2
E   i2    2  E  Y  

Ta biến đổi
Y 1 X  1 X
  2   1  2 V
E Y  E Y  E  Y  E Y  E Y  E Y 


trong đó V  . Có thể thấy var  vi    2 , nghĩa là các yếu tố nhiễu vi có phương sai
E Y 
không đổi.
Tuy nhiên, ta chưa thể ước lượng do E Y  phụ thuộc vào 1 và  2 chưa biết nhưng do
Yˆ  ˆ  ˆ X là một ước lượng điểm của E Y  nên ta có thể tiến hành hai bước :
1 2

Bước 1 : Ước lượng hồi quy gốc và tính Ŷ và dùng Ŷ để biến đổi
Y 1 X
 1   2  V .
Yˆ Yˆ Yˆ
Bước 2 : Ước lượng hồi quy mô hình trên. Dù rằng Ŷ không đúng vì chúng chỉ là ước
lượng vững nhưng khi kích thước mẫu tăng ra vô hạn thì nó hội tụ về E Y  . Do vậy, ta dùng
trường hợp này khi kích thước mẫu lớn.
Giả thiết 4 : Biến đổi lôgarít.
Xét ln Y  1   2 ln X   .
Mô hình này làm giảm nhẹ phương sai thay đổi do tác động hàm lôgarít. Một trong
những ưu thế của phép biến đổi lôgarít là hệ số góc  2 đo độ co giãn của Y đối với X.
Ví dụ 3. Với số liệu cho trong ví dụ 1. nếu tiến hành hồi quy ta được kết quả
ln Yi  0.059899  0.962615X i   i
se  (0.054941) (0.017502)
t  (1.090233) (55.00057)
p  (0.2900) (0.0000)

102
Đồ thị phân tán của ei theo X i như sau

Hình 6
Nhìn vào đồ thị chúng ta có thể kết luận rằng không xảy ra tình trạng phần dư tăng khi X
tăng, tức không có khả năng xảy ra hiện tượng phương sai thay đổi.
Để kết thúc, ta cần nhấn mạnh là tất cả các phép biến đổi nêu trên nhằm để phục vụ mục tiêu
cụ thể nào đó. Phép biến đổi nào hữu hiệu phụ thuộc vào bản chất và tính chất nghiêm trọng
của phương sai thay đổi. Cần lưu ý một số vấn đề sau khi dùng các phép biến đổi trên :
- Đối với mô hình hồi quy bội thì việc chọn biến nào để biến đổi cần phải có xem xét
cẩn thận.
- Phép biến đổi lôgarít không dùng được nếu một số giá trị của X, hay của Y, là âm.
- Có thể xảy ra tình trạng là bản thân các biến của mô hình hồi quy gốc không tương
quan, nhưng tỷ số của các biến lại có thể có tương quan (tương quan giả). Một cách tổng quát,
tương quan được xem là giả nếu nó được tạo ra bởi phương pháp xử lý số liệu chứ không phải
có trong số liệu ban đầu.
- Khi  i2 chưa biết và được ước lượng từ một hay nhiều phép biến đổi trên thì tất cả các
kiểm định t, F chỉ có hiệu lực đối với mẫu lớn. Do đó chúng ta phải cẩn thận khi giải thích các
kết quả dựa trên các phép biến đổi khác nhau trong các mẫu nhỏ.
2. Đa cộng tuyến
Trong phần này, ta xét giả thiết cho rằng giữa các biến giải thích không có hiện tượng đa cộng
tuyến. Thuật ngữ đa cộng tuyến do Ragnar Frisch đề nghị. Khởi đầu, nó có nghĩa là sự tồn tại
mối quan hệ tuyến tính hoàn hảo hoặc chính xác giữa một số hoặc tất cả các biến giải thích
trong một mô hình hồi quy. Chính xác hơn, đa cộng tuyến đề cập đến sự tồn tại của nhiều hơn
một mối quan hệ tuyến tính chính xác, và cộng tuyến là nói đến sự tồn tại duy nhất một mối
quan hệ tuyến tính. Nhưng trong thực tế đa cộng tuyến thường được dùng cho cả hai trường
hợp.
Xét hàm hồi quy tuyến tính k biến :
Y  1   2 X 2  3 X 3  ...   k X k   .
Mô hình lý tưởng là các biến giải thích X i , i  2,3,..., k , không có tương quan với nhau. Mỗi
biến chứa một thông tin riêng về Y và thông tin đó không có trong các biến giải thích khác.
Khi đó, ta nói không xảy ra hiện tượng đa cộng tuyến. Ngược lại, nếu tồn tại 2 , 3 , ..., k
không đồng thời bằng 0 sao cho
103
2 X 2  3 X 3  ...  k X k  0 ,
ta nói giữa các biến X i , i  2,3,..., k , xảy ra hiện tượng đa cộng tuyến hoàn hảo. Nếu

2 X 2  3 X 3  ...  k X k  V  0 ,
với V là một sai số ngẫu nhiên, ta nói có hiện tượng đa cộng tuyến không hoàn hảo giữa các
biến giải thích. Nói cách khác, có một biến giải thích tương quan chặt chẽ với các biến giải
thích khác.
Ví dụ 4. Giả sử ta có bảng dữ liệu giả định như sau
X2 10 15 18 24 30
X3 50 75 90 120 150
*
X 3 52 75 97 129 152
e 2 0 7 9 2
Trong đó biến X 3* được thành lập bằng cách cộng thêm các số ngẫu nhiên e tương ứng. Ta
thấy rằng X 3  5 X 2 nên có trường hợp đa cộng tuyến xảy ra giữa X 2 và X 3 . Nghĩa là giữa
X 2 và X 3 có tương quan tuyến tính hoàn hảo ( rX 2 X 3  1 ). Ta cũng có X 3*  5 X 2  e , vì thế
X 2 và X 3* có đa cộng tuyến rất chặt ( rX *  0.996 ).
2 X3

2.1. Ước lượng trong trường hợp có đa cộng tuyến


2.1.1. Có đa cộng tuyến hoàn hảo
Khi đó, các hệ số hồi quy không xác định, và các sai số chuẩn là vô hạn.
Giải thích bằng mô hình hồi quy ba biến. Viết lại dưới dạng

yi  ˆ2 x2,i  ˆ3 x3,i  ei ,

trong đó yi  yi  Y , x2,i  x2,i  X 2 , x3,i  x3,i  X 3 , với

1 n 1 n 1 n
Y  
n i 1
yi , X 2   x2,i , và X 3   x3,i .
n i 1 n i 1
Ta đã có
n n n n
2
 y x x i 2,i 3,i   yi x3,i  x2,i x3,i
ˆ2  i 1 i 1 i 1 i 1
2
n n n
2   2

i 1
x  x    x2,i x3,i 
2,i
i 1  i 1 
3,i

n n n n
2
 y x xi 3,i 2,i   yi x2,i  x2,i x3,i
ˆ3  i 1 i 1 i 1 i 1
2
.
n n n
 
 x2,2 i  x3,2 i    x2,i x3,i 
i 1 i 1  i 1 
Do đó, nếu x3,i   x2,i , với  là một hằng số khác 0 thì

104
n n n n

yx i 2,i   2  x2,2 i    yi x2,i    x2,2 i


0
ˆ2  i 1 i 1 i 1 i 1
2
 .
n
2
n
 n  0
x 2,i   2  x2,2 i   2   x2,2 i 
i 1 i 1  i 1 
Tương tự cho ˆ3 .
Lý do cho việc không xác định được các hệ số hồi quy là do ý nghĩa của chúng. Chẳng
hạn, hệ số ̂ 2 cho biết mức độ thay đổi về giá trị trung bình của Y khi X 2 thay đổi một đơn
vị, với điều kiện X 3 giữ cố định. Khi X 2 và X 3 cộng tuyến hoàn hảo thì không có cách nào
để giữ cố định X 3 . Khi X 2 thay đổi thì X 3 cũng thay đổi (vì X 3   X 2 ). Điều đó có nghĩa
là không thể tách riêng ảnh hưởng của X 2 và X 3 từ một mẫu cho trước.

Để thấy sự khác biệt này, thay X 3   X 2 vào các công thức trên, ta có

 
yi  ˆ2 x2,i  ˆ3   x2,i   ei  ˆ2  ˆ3 x2,i  ei  ˆ0 x2,i  ei ,

với ˆ0  ˆ2  ˆ3 .


Dùng OLS, ta được
n

x 2,i yi
ˆ0  ˆ2  ˆ3  i 1
n
.
2
xi 1
2,i

Như vậy, ta tính được ̂ 0 , nhưng không thể tính được ̂ 2 và ˆ3 do phương trình
ˆ0  ˆ2  ˆ3 có hai ẩn số.

Chú ý rằng khi đó, phương sai và sai số chuẩn của ̂ 2 và ˆ3 là vô hạn.
2.1.2. Ước lượng cho đa cộng tuyến không hoàn hảo
Xét mô hình hồi quy ba biến dạng độ lệch và giả sử thêm rằng
X3   X 2 V ,
với   0 và V là sai số ngẫu nhiên. Do đó
n

x
i 1
V  0.
2,i i

Khi đó, ta vẫn có thể nhận được các ước lượng cho  2 và 3 bằng cách thay x3,i   x2,i  vi
trong các biểu thức của ̂ và ˆ .
2 3

2.2. Hậu quả của đa cộng tuyến


Khi xảy ra hiện tượng đa cộng tuyến, ta có :
i) Phương sai và hiệp phương sai của các ước lượng OLS lớn : Do phương sai và hiệp
phương sai của ̂ 2 và ˆ3 được tính bởi

105
2
 
var ˆ2  n
,
 x 1  r 
i 1
2
2,i
2
2,3

2
 
var ˆ3  n
,
 x3,2 i 1  r2,32 
i 1

r2,3 2
cov 2 , 3 
  ,
n n
1  r   x  x
2
2,3
2
2,i
2
3,i
i 1 i 1

trong đó r2,3 là hệ số tương quan giữa X 2 và X 3 .

Do đó khi r2,3 tiến về 1, nghĩa là sự cộng tuyến gia tăng, thì ̂ 2 , ˆ3 và trị tuyệt đối của

 
cov ˆ2 , ˆ3 sẽ tăng dần ra vô hạn.

ii) Khoảng tin cậy rộng hơn : Do sai số ước lượng tỷ lệ thuận với
 
 
se ˆ2 
n
 
và se ˆ3 
n
1  r   x 2
2,3
2
2,i 1  r   x
2
2,3
2
3,i
i 1 i 1

nên các sai số chuẩn này sẽ lớn khi r2,3 gần 1.


iii) Tỷ số t không có ý nghĩa : Do ta dùng tỷ số
ˆ2
t
 
se ˆ2

để kiểm định giả thiết


H : 2  0
nên khi có hiện tượng cộng tuyến cao thì sai số chuẩn sẽ rất lớn làm cho giá trị t nhỏ đi, kết
quả làm tăng khả năng chấp nhận H.
iv) R 2 cao nhưng tỷ số t ít có ý nghĩa : Xét mô hình
Y  1   2 X 2  3 X 3  ...   k X k   .
Khi có đa cộng tuyến, như trên cho thấy, ta có thể tìm thấy một hay một số hệ số góc riệng
không có ý nghĩa về mặt thống kê dựa trên kiểm định t. Tuy nhiên, R 2 trong những trường
hợp này lại rất cao (trên 0.9). Vậy, dựa trên kiểm định F thì có thể bác bỏ giả thiết cho rằng
 2  3  ...   k  0 . Dấu hiệu này cũng là tín hiệu đa cộng tuyến.
v) Các ước lượng OLS và sai số chuẩn của chúng trở nên rất nhạy với những thay đổi
nhỏ trong dữ liệu.
vi) Dấu của các ước lượng của các hệ số hồi quy có thể sai.
vii) Thêm vào hay bớt đi các biến cộng tuyến với các biến khác, mô hình sẽ thay đổi về
dấu hoặc thay đổi về độ lớn của các ước lượng.
Tóm lại, dấu hiệu chủ yếu của đa cộng tuyến là tăng sai số chuẩn.
106
2.3. Phát hiện đa cộng tuyến
Khi xảy ra hiện tượng đa cộng tuyến, ta có thể phát hiện qua một số dấu hiệu sau :

i) Hệ số R 2 lớn nhưng tỷ số t nhỏ.


ii) Tương quan cặp giữa các biến giải thích cao : Hệ số này được tính bởi
n

  x  X  z
i 1
i i Z
RXZ  ,
n n
2 2
 x  X   z
i 1
i
i 1
i Z

trong đó X và Z là hai biến giải thích nào đó trong mô hình. Nếu tương quan này cao (lớn hơn
0.8) thì có thể xảy ra hiện tương đa cộng tuyến.
Chú ý rằng có thể xảy ra đa cộng tuyến nhưng tương quan cặp lại không cao.
Ngoài ra, người ta còn dùng một số phương pháp để phát hiện trường hợp đa cộng tuyến như
sau :
2.3.1. Dùng mô hình hồi quy phụ
Hồi quy phụ là hồi quy một biến giải thích X nào đó theo các biến còn lại. Với mỗi mô hình,
tính R 2 và F, với
R2  n  k 
F ,
1  R   k  1
2

trong đó n là số quan sát và k là tham số trong mô hình hồi quy phụ (kể cả hệ số tự do). Sau
đó kiểm định giả thiết H : R 2  0 , nghĩa là giả thiết X không tương quan tuyến tính với các
biến còn lại. Khi H được chấp nhận, không có đa cộng tuyến.
2.3.2. Dùng nhân tử phóng đại phương sai (VIF)
Tốc độ gia tăng của phương sai và hiệp phương sai có thể thấy qua nhân tử phóng đại phương
sai, VIF (Variance Inflation Factor), được định nghĩa như sau đối với hàm hồi quy có hai biến
giải thích X 2 và X 3 ,
1
VIF  2
.
1  r2,3

Khi r2,3 tiến về 1 thì VIF tiến ra vô cực. Khi không có cộng tuyến giữa X 2 và X 3 thì VIF
bằng 1.
Biểu diễn theo VIF, ta có
2 2
 
var ˆ2  n
2
VIF và var ˆ3  n
2
VIF  
 2,i
x
i 1
 3,i
x
i 1

Điều này có nghĩa là phương sai cũng như hiệp phương sai tăng theo VIF. Với đồ thị phản
ánh mối quan hệ giữa VIF và r2,3 , ta thấy khi r2,3 tăng từ 0.9 đến 1, VIF tăng nhanh ra vô cực.
Có nhiều chương trình máy tính cho biết giá trị VIF đối với các biến độc lập của mô hình hồi
quy.

107
Tổng quát, với mô hình hồi quy có k  1 biến giải thích thì
1
VIFj  ,
1  R 2j

với R 2j là giá trị của R 2 trong hàm hồi quy của X j theo k  2 biến giải thích còn lại. Nếu có
cộng tuyến giữa X j với các biến khác thì R 2j sẽ gần 1 và khi đó VIFj sẽ lớn. Do đó, người ta
thường dùng VIF như là một dấu hiệu xác định đa cộng tuyến. Giá trị VIF càng cao thì biến
X j càng cộng tuyến cao.

Hình 7
Theo kinh nghiệm, nếu VIF của một biến vượt quá 10 (điều này xảy ra khi R 2j  0.9 ) thì biến
này được coi là có cộng tuyến cao.
2.4. Biện pháp khắc phục
2.4.1. Dùng thông tin tiên nghiệm
Thông tin này có thể từ các công việc thực tế trước đây trong đó đã xảy ra hiện tượng cộng
tuyến nhưng ít nghiêm trọng hoặc từ các lý thuyết tương ứng trong lĩnh vực nghiên cứu.
2.4.2. Loại trừ một biến giải thích ra khỏi mô hình
Bước 1. Khảo sát cặp biến giải thích nào có quan hệ chặt chẽ. Giả sử X 2 , X 3 , ..., X k là
các biến độc lập, Y là biến phụ thuộc và X 2 , X 3 có quan hệ chặt chẽ với nhau.
Bước 2. Tính R 2 đối với các hàm hồi quy : có mặt cả hai biến, không có mặt một trong
hai biến.
Bước 3. Loại biến mà giá trị R 2 tính được khi không có mặt biến đó là lớn hơn.
2.4.3. Thu thập thêm số liệu hoặc lấy mẫu mới
Do đa cộng tuyến là một đặc tính của mẫu nên có thể trong một mẫu khác, đa cộng tuyến xảy
ra không nghiêm trọng như trong mẫu đầu. Đôi khi tăng cỡ mẫu cũng có thể làm giảm bớt vấn
đề cộng tuyến. Chẳng hạn như trong mô hình ba biến, ta có
2
 
var ˆ2  n
.
 x 1  r 
i 1
2
2,i
2
2,3

108
n
2
Khi cỡ mẫu tăng, xi 1
2,i nói chung sẽ tăng và khi đó với bất cứ r2,3 cho trước, phương sai của

̂2 sẽ giảm và điều này giúp ta ước lượng  2 chính xác hơn.
Sau cùng ta xét các ví dụ sau
Ví dụ 5. Khảo sát chi tiêu cho tiêu dùng, thu nhập và sự giàu có ta có bảng số liệu sau
Y 70 65 90 95 110 115 120 140 155 150
X2 80 100 120 140 160 180 200 220 240 260
X3 810 1009 1273 1425 1633 1876 2052 2201 2435 2686
Trong đó
Y : Chi tiêu cho tiêu dùng ($)
X 2 : Thu nhập ($)
X 3 : Sự giàu có ($)
Từ số liệu trên, ta có đồ thị phân tán của Y theo từng biến X 2 và X 3 như sau

Hình 8
Theo lý thuyết kinh tế thì chi tiêu cho tiêu dùng (Y) có xu hướng tăng theo thu nhập ( X 2 ) và
sự giàu có ( X 3 ) nên dấu hiệu của hồi quy Y theo X 2 và X 3 là dấu hiệu dương. Ta có kết quả
hồi quy như sau

109
Hình 9
Dựa vào bảng kết quả hồi quy trên, ta thấy dấu của hệ số X 3 là âm, điều này không phù hợp
với lý thuyết kinh tế. Và các giá trị xác suấtp _ value( X 2 )  0.2902 và
p _ value( X 3 )  0.6151 . Nên các hệ số của X 2 và X 3 không có ý nghĩa kinh tế. Tuy nhiên hệ
số mô hình R 2  0.963504 lại rất cao. Điều này cho ta nghĩ đến việc có sự đa cộng tuyến giữa
các biến độc lập X 2 và X 3 . Thật vậy dựa vào ma trận tương quan giữa các biến Y, X 2 , X 3

Hình 10
Ta thấy mối quan hệ tuyến tính giữa X 2 và X 3 là rất cao. Điều này cũng phù hợp với thực tế
rằng thông thường những người có thu nhập cao thì được xem là giàu có. Cuối cùng để khẳng
định có hay không sự tồn tại đa cộng tuyến trong mẫu này, ta lần lượt khảo sát vấn đề trên
như sau
- Ta thấy hệ số tương quan rX 2 , X 3  0.998962 là rất cao, tức là có đa cộng tuyến gần
hoàn hảo.
- Xét các mô hình hồi quy của Y theo từng biến :
+ Hồi quy Y theo X 2 ,

Y  24.45455  0.509091X2 ; R 2  0.962062


se  (6.413817) (0.035743)
t  (3.812791) (14.24317)
p  (0.0051) (0.0000)
+ Hồi quy Y theo X 3 ,

110
Y  24.41104  0.049764X3 ; R 2  0.956679
se  (6.874097) (0.003744)
t  (3.551164) (13.29166)
p  (0.0075) (0.0000)
Nhận xét rằng, hệ số hồi quy của X 3 có ý nghĩa thống kê rất cao và dấu của X 3 phù hợp với
lý thuyết.
- Xét mô hình hồi quy phụ của X 2 theo X 3

Hình 11
Từ bảng kết quả trên ta thấy giá trị F  3849.020 và p _ value  0.000000 nên ta bác bỏ giả
thuyết H 0 : R 2  0 , tức là mô hình hồi quy là phù hợp. X 2 có ảnh hưởng đến X 3 nên ta kết
luận mô hình hồi quy của Y theo X 2 và X 3 có xảy ra hiện tượng đa cộng tuyến.
- Ngoài ra ta có giá trị
1 1
VIF  2
  482.16901 là rất cao.
1  r23 1  0.997926
Kết luận : Có đa cộng tuyến cao giữa X 2 và X 3 .
Vậy để hạn chế hậu quả của đa cộng tuyến trong mô hình trên, ta có thể giải quyết theo
phương pháp loại trừ biến độc lập. Cụ thể ta thực hiện các bước như sau
Bước 1 : dựa vào ma trận tương quan như ở trên, ta thấy rằng giữa X 2 và X 3 có mối
quan hệ chặt chẽ.
Bước 2 : Từ các kết quả hồi quy của Y theo từng biến, ta có
+ Hồi quy Y theo X 2 ,

Y  24.45455  0.509091X2 ; R 2  0.962062


+ Hồi quy Y theo X 3 ,

Y  24.41104  0.049764X3 ; R 2  0.956679

111
Bước 3 : Nhận xét rằng X 3 không có ý nghĩa thống kê nhiều hơn X 2 và mô hình có
X 2 có mức độ phù hợp cao hơn mô hình có biến X 3 . Ta quyết định loại bỏ biến X 3 ra khỏi
mô hình.
3. Tự tương quan
Thuật ngữ tự tương quan có thể hiểu là sự tương quan giữa các thành phần của chuỗi các quan
sát được sắp xếp theo thứ tự thời gian (chuỗi thời gian) hoặc không gian (số liệu chéo).
Trong các mô hình hồi quy, ta giả định rằng không có sự tương quan giữa các nhiễu  i ,
nghĩa là
cov   i ,  j   0 , với i  j .

Nói cách khác, sai số ứng với quan sát nào đó không ảnh hưởng bởi sai số ứng với một quan
sát khác.
Giả định này có thể bị vi phạm do nhiều nguyên nhân khác nhau, khách quan cũng như chủ
quan.
Một số nguyên nhân khách quan
- Quán tính : Nét nổi bật của hầu hết các chuỗi thời gian trong kinh tế là quán tính. Các
chuỗi thời gian như : tổng sản lượng, chỉ số giá, thất nghiệp ... mang tính chu kỳ. Khi đó, các
quan sát kế tiếp có nhiều khả năng phụ thuộc nhau.
- Hiện tượng mạng nhện : là hiện tượng một biến cần một thời gian trễ để phản ứng lại
với sự thay đổi của một biến khác.
- Các độ trễ : Trong chuỗi thời gian, ta có thể gặp hiện tượng biến phụ thuộc ở thời kỳ t
phụ thuộc vào chính biến đó ở thời kỳ t  1 và các biến khác. Chẳng hạn khi nghiên cứu mối
quan hệ giữa tiêu dùng và thu nhập, chúng ta thấy rằng tiêu dùng ở thời kỳ hiện tại không
những phụ thuộc vào thu nhập mà còn phụ thuộc vào tiêu dùng ở thời kỳ trước đó, nghĩa là
Yt  1   2 X t  3Yt 1   t ,
với Yt chỉ tiêu dùng ở thời kỳ t, X t chỉ thu nhập ở thời kỳ t, Yt 1 chỉ tiêu dùng ở thời kỳ t  1 ,
 t chỉ sai số ngẫu nhiên và 1 ,  2 , 3 là các hệ số.
Nguyên nhân có thể là do người tiêu dùng không thay đổi thói quen tiêu dùng nên nếu bỏ qua
số hạng trễ thì sai số sẽ mang tính hệ thống do ảnh hưởng tiêu dùng ở thời kỳ trước lên tiêu
dùng ở thời kỳ hiện tại.
Một số nguyên nhân chủ quan
- Xử lý số liệu : Các số liệu thô thường được xử lý. Chẳng hạn trong hồi quy chuỗi thời
gian gắn với các số liệu quý, các số liệu này thường được suy ra từ số liệu tháng bằng cách
cộng 3 quan sát theo tháng rồi chia cho 3. Việc này làm trơn các số liệu và làm giảm sự dao
động trong số liệu tháng có thể dẫn đến sai số có hệ thống trong các nhiễu gây ra tự tương
quan.
Kỹ thuật nội, ngoại suy trong xử lý số liệu cũng có thể gây ra sai số hệ thống mà điều đó
có thể không có trong số liệu gốc.
- Sai lệch do lập mô hình : Có hai nguyên nhân :
1. Không đưa đủ các biến vào mô hình
Chẳng hạn xét mô hình
112
Yt  1   2 X 2,t  3 X 3,t   4 X 4,t   t ,

trong đó Y là cầu về thịt bò; X 2 là giá thịt bò; X 3 là thu nhập người tiêu dùng; X 4 là giá thịt
heo; t là thời gian và  là nhiễu.
Nếu ta chỉ lấy mô hình
Yt  1   2 X 2,t   3 X 3,t  Vt

thì nếu mô hình trước mới đúng thì do Vt   4 X 4,t   t nên việc tăng giá thịt heo có thể ảnh
hưởng đến cầu thịt bò nên thành phần nhiễu Vt sẽ có sai số hệ thống, tạo tự tương quan.
2. Chọn dạng hàm không đúng.
Chẳng hạn, giả sử mô hình đúng cho chi phí biên và sản lượng là
 MC i  1   2Qi  3Qi2   i ,
trong đó MC là chi phí biên; Q là sản lượng.
Nếu ta lại ước lượng mô hình hồi quy dạng
 MC i  1   2Qi  Vi .
Khi đó Vi  3Qi2  U i gây ra tự tương quan.
3.1. Ước lượng bình phương nhỏ nhất khi có tự tương quan
Để đơn giản, xét mô hình
Yt  1   2 X t  U t ,
trong đó t là ký hiệu quan sát ở thời điểm t.
Giả sử các nhiễu được tạo ra như sau
U t  U t 1   , với 1    1 ,
trong đó  được gọi là hệ số tự tương quan;  t là nhiễu ngẫu nhiên thỏa

E   t   0 , t ; cov   t ,  t  s   0 , t , s  0 ; var   t    2 .
Khi đó, ta gọi là lược đồ tự hồi quy bậc nhất Markov, ký hiệu AR(1).
Nếu U t có dạng

U t  1U t 1   2U t  2   t ,
ta có lược đồ tự hồi quy bậc hai, ký hiệu AR(2).

Ước lượng OLS của  2 là ˆ2   xt 2 t , nhưng phương sai của nó là


xy

t
n 1 n 2
 
2 2 2   xt xt 1  xt xt 2
 
var ˆ2
AR (1)
   t 1

 xt2  xt2   xt
2   2 t 1
2
 xt
 ...   n 1 x1 xn 
2
 xt 

mà nếu không có tự quan, phương sai này là var ˆ2    2


 xt2
.

113
Do hai số hạng sai kém số hạng phụ thuộc  và chỉ khi   0 thì ta mới có
 
var ˆ2  var ˆ2 .
AR (1)
 
Ta chứng minh được :
- ̂ 2 là ước lượng tuyến tính không chệch.

- ̂ 2 không còn là ước lượng hiệu quả.


3.2. Ước lượng tuyến tính không chệch tốt nhất khi có tự tương quan
Xét mô hình hai biến có quá trình AR(1). Với OLS, ta có
n

  xt   xt 1  yt   yt 1 
ˆ2GLS  t 2
n
2
C
  xt   xt 1 
t 2


var ˆ2GLS   n
2

  xt   xt 1 
2
 D,
t 2

trong đó C, D là các hằng số điều chỉnh có thể bỏ qua trong thực tế.
Như vậy, ước lượng bình phương nhỏ nhất tổng quát của  2 phối hợp được tham số tự
tương quan  vào công thức ước lượng và đó là lý do tại sao ước lượng bình phương nhỏ
nhất tổng quát là ước lượng tuyến tính không chệch tốt nhất.
3.3. Hậu quả của tự tương quan
Như trong chương đa cộng tuyến, ta có
1. Các ước lượng OLS vẫn là không chệch nhưng không còn hiệu quả nữa.
2. Phương sai nhận được bị chệch. Do đó, kiểm định t và F không còn tin cậy nữa.
3. ˆ 2  RSS / df là ước lượng chệch của  2 và trong một số trường hợp là chệch về
phía dưới.
4. Giá trị ước lượng của R 2 có thể không còn tin cậy được nữa khi dùng để thay thế giá
trị thực của R 2 .
5. Phương sai và sai số tiêu chuẩn của các giá trị dự báo không được tin cậy (không hiệu
quả).
Tóm lại, hậu quả của tự tương quan khá giống như của phương sai thay đổi.
3.4. Phát hiện tự tương quan
3.4.1. Phương pháp đồ thị
Vẽ đồ thị rời rạc phần dư, không có tự tương quan khi phần dư không biểu thị một kiểu mẫu
nào khi thời gian tăng, nó phân bố một cách ngẫu nhiên xung quanh trung bình của nó.
Một cách khác là vẽ đồ thị phần dư chuẩn hóa theo thời gian. Nếu U t  N  0;  2  thì
Ut
 N  0;1 nên nếu chia et cho ˆ t , ta được phần dư chuẩn hóa. Với kích thước mẫu khá

114
et
lớn thì có phân phối chuẩn N  0;1 . Xem xét đồ thị phần dư chuẩn hóa cũng gợi ý cho ta
ˆ t
những ý tưởng về các nhiễu U t có phải là ngẫu nhiên không.

Người ta cũng có thể vẽ đồ thị của et đối với et 1 , một loại kiểm chứng bằng thực
nghiệm lược đồ AR(1).
3.4.2. Kiểm định d của Durbin-Watson
Đây là phương pháp có ý nghĩa nhất. Thống kê d của Durbin-Watson xác định bởi
n
2
  et et 1 
d t 2
n

 et2
t 1

là tỷ số giữa tổng bình phương sai lệch của các phần dư kế tiếp nhau với RSS. Người ta chứng
minh được với n đủ lớn thì d  2 1    , trong đó
n

 et et 1
ˆ  t 2
n

 et2
t 1

là một ước lượng của hệ số tương quan  . Do 1    1 , ta được


Giá trị  Giá trị (gần đúng) của d
  1 d 4
(tương quan hoàn hảo, âm)
 0 d 2
(không có tự tương quan)
 1 d 0
(tương quan hoàn hảo, dương)
Ta có 0  d  4 và trong thực hành, ta có thể áp dụng quy tắc kiểm định như sau :
Giả thiết H Quyết định nếu
Không có tự tương quan Bác bỏ 0  d  dL
dương
Không có tự tương quan Không quyết d L  d  dU
dương định
Không có tự tương quan Bác bỏ 4  dL  d  4
âm
Không có tự tương quan Không quyết 4  dU  d  4  d L
âm định
Không có tự tương quan Không bác bỏ dU  d  4  dU
dương hoặc âm
trong đó dU và d L được tra trong bảng d (xem phụ lục).
Chú ý : Trong thực tế, khi tiến hành kiểm định Durbin-Watson, người ta thường áp
dụng quy tắc đơn giản sau :
- Nếu 1  d  3 : mô hình không có tự tương quan.
- Nếu 0  d  1 : mô hình có tự tương quan dương.

115
- Nếu 3  d  4 : mô hình có tự tương quan âm.
Nếu giá trị của d thuộc miền không có quyết định, người ta giải quyết bằng một số cải biên
kiểm định d, áp dụng cho kiểm định tự tương quan bậc nhất :
H :   0
1.  . Nếu d  dU thì bác bỏ H, chấp nhận H , nghĩa là có tự tương quan
H :   0
dương.
H :   0
2.  . Nếu 4  d  dU thì bác bỏ H, nghĩa là có tự tương quan âm.
H :   0
H :   0
3.  . Nếu d  dU hay 4  d  dU thì bác bỏ H, chấp nhận H , tức là có tự
H :   0
tương quan (dương hay âm).
3.4.3. Kiểm định Breusch – Godfrey (BG)
Giả sử mô hình hồi quy có dạng : Yi  1   2 X i  ei , trong đó các thành phần nhiễu có tự
tương quan bậc AR(p)
ei  1ei 1   2ei  2  ...   p ei  p   i ,

 i thoả mãn các giả thuyết của phương pháp OLS. Với giả thuyết không có tự tương quan bậc
p tương đương với H 0 : 1   2  ...   p  0 . Các bước tiến hành kiểm định BG như sau:

Bước 1 : Ước lượng mô hình Yi  1   2 X i  ei theo phương pháp OLS.


Bước 2 : Ước lượng mô hình
ei  1   2 X i  1ei 1   2 ei  2  ...   p ei  p  vi .

Từ kết quả ước lượng ta tính được hệ số R 2 .


Bước 3 : Với n đủ lớn, (n  p) R 2 có phân phối  2 ( p) .
Nếu ( n  p ) R 2  a2 ( p ) thì bác bỏ giả thuyết H 0 , nghĩa là thừa nhận có tự tương quan bậc p.
Kiểm định BG có các đặt điểm sau :
 Áp dụng cho cở mẫu lớn
 Có thể áp dụng cho mô hình có biến độc lâp có dạng Yi 1 , Yi  2 , ...
 Áp dụng cho tự tương quan với bậc bắt kỳ.
 Kiểm định BG đòi hỏi phải xác định trước bậc của tự tương quan p. Thông
thường người ta phải tiến hành kiểm định với nhiều giá trị p khác nhau.

116
Ví dụ 6. Cho các số liệu về nhu cầu về kem (Y đơn vị : pints = 0.473 lít) và thu nhập hàng
tuần của gia đình (X đơn vị USD).
Y X Y X
0.386 78 0.381 82
0.374 79 0.47 80
0.393 81 0.443 78
0.425 80 0.386 84
0.406 76 0.342 86
0.344 78 0.319 85
0.327 82 0.307 87
0.288 79 0.284 94
0.269 76 0.326 92
0.256 79 0.309 95
0.286 82 0.359 96
0.298 85 0.376 94
0.329 86 0.416 96
0.318 83 0.437 91
0.381 84 0.548 90
Hồi quy Y theo X ta được kết quả

Hình 12

Hình 13

117
Nhìn vào biểu đồ phân tán của phần dư et theo et 1 , ta thấy giữa các nhiễu có tự tương quan.
Khi đó ta tiến hành kiểm định tự tương quan bậc 2 bằng kiểm định BG ta được kết quả sau

Hình 14
Theo kết quả của bảng trên, ta có nR 2  19.78460 có p _ value  0.000051 là rất nhỏ nên ta
bác bỏ giả thuyết H 0 , nghĩa là có tồn tại tự tương quan bậc 2
Nếu ta dùng kiểm định Durbin – Watson ta có : với a  0.05 , n  30 , k   1 tra bảng ta được
d L  1.352 và dU  1.489 . Nhưng trong kết quả hồi quy Y theo X ta có giá trị d  0.392752 ,
tức là 4  d L  d  4 nên mô hình trên có tự tương quan âm. Kết luận này phù hợp với kết
luận trong kiểm định BG.
Bài tập
Câu 7. Điều tra ngẫu nhiên 10 doanh nghiệp tại TPHCM, ta được các số liệu sau về quan hệ
giữa doanh thu Y và chi phí sản xuất X.
X 8 8,5 9 9,5 10 10,5 11 11,5 12 12,5
Y 5,5 7 7,5 7,8 8 8,5 8,9 9,5 10 10,4
Giả sử Y và X có quan hệ tuyến tính
a. Tìm mô hình hồi quy ước lượng.
b. Mô hình trên có hiện tượng phương sai thay đổi không ? dùng phương pháp kiểm
định Park và Glejser để để trả lời với mức ý nghĩa 5%.
c. Dùng phương pháp OLS có trọng số tìm mô hình hồi quy.
Hướng dẫn : đặt trọng số wi  1/ X i
Câu 8. Để nghiên cứu quy luật quan hệ giữa thu nhập và chi tiêu của các hộ gia đình tại một
vùng nông thôn, người ta điều tra ngẫu nhiên 10 hộ gia đình và được bộ số liệu sau :
Đơn vị : Triệu đồng
X 6,2 8,1 10,3 12,1 14,1 16,4 18,2 20,1 22,3 24,1
Y 6,1 8 10,3 12,1 13,1 14,8 17,9 19,8 19,9 21,6
Giả sử Y và X có quan hệ tuyến tính
a. Tìm mô hình hồi quy ước lượng.
118
b. Mô hình trên có hiện tượng phương sai thay đổi không ? dùng phương pháp kiểm
định Park và Glejser để để trả lời với mức ý nghĩa 5%.
c. Dùng phương pháp OLS tổng quát tìm mô hình hồi quy.
Biết rằng var( i )   2 X i2 ;  2  const
Câu 9. Điều tra ngẫu nhiên 10 công ty ở TPHCM, người ta thu được các số liệu về chi phí
lương cho nhân viên (X : tỷ đồng) và chi phí kinh doanh tiếp thị (Y : tỷ đồng).
X 14 14,5 15 15,5 16 16,5 17 17,5 18 18,5
Y 10,5 10,8 11,2 11,5 12 12,8 13 13,5 14,3 15
Giả sử Y và X có quan hệ tuyến tính
a. Tìm mô hình hồi quy ước lượng.
b. Mô hình trên có hiện tượng phương sai thay đổi không ? dùng phương pháp kiểm
định Park và Glejser để để trả lời với mức ý nghĩa 5%.
c. Dùng phương pháp OLS tổng quát tìm mô hình hồi quy.
Biết rằng var( i )   2 X i ;  2 câö a biegt .
Câu 10. Cho các số liệu về chi tiêu cho tiêu dùng (Y) và thu nhập (X) hàng tháng của
20 hộ gia đình ở một vùng nông thôn (đơn vị 10.000 đ)
STT X Y STT X Y
1 22,3 19,9 10 40,2 38,8
2 32,3 31,2 11 8,1 8
3 33,6 31,8 12 34,5 33,1
4 12,1 12,1 13 38 33,5
5 42,3 40,7 14 14,1 13,1
6 6,2 6,1 15 16,4 14,8
7 44,7 38,6 16 24,1 21,6
8 26,1 25,5 17 30,1 29,3
9 10,3 10,3 18 28,3 25
10 40,2 38,8 19 18,2 17,9
11 8,1 8 20 20,1 19,8
Giả sử Y và X có quan hệ tuyến tính
a. Tìm mô hình hồi quy ước lượng.
b. Mô hình trên có hiện tượng phương sai thay đổi không ? dùng phương pháp kiểm
định Park và Glejser để để trả lời với mức ý nghĩa 5%.
c. Dùng phương pháp OLS tổng quát tìm mô hình hồi quy.
Câu 11. Khảo sát số liệu về chi phí cho việc nghiên cứu và phát triển của 18 ngành
công nghiệp ở Mỹ trong năm 1988, được cho trong bảng sau. Trong đó các nhóm ngành khác
nhau (NN) được đánh số từ 1 đến 18, đầu tư cho nghiên cứu (Y), doanh thu ( X 2 ), và lợi
nhuận ( X 3 ), đơn vị tính triệu USD.
NN Y X2 X3 NN Y X2 X3
1 62,5 6375,3 185,1 10 6620,1 80552,8 13869,9
2 92,9 11626,4 1569,5 11 3918,6 95294 4487,8
3 178,3 14655,1 276,8 12 1595,3 101314,1 10278,9
4 258,4 21869,2 2828,1 13 6107,5 116141,3 8787,3

119
5 494,7 26408,3 2225,9 14 4454,1 122315,7 16438,8
6 1083 32405,6 3751,9 15 3163,8 141649,9 9761,6
7 1620,6 35107,7 2884,1 16 13210,7 175025,8 19774,5
8 421,7 40295,4 4645,7 17 1703,8 241434,8 23168,5
9 509,2 70761,6 5036,4 18 9528,2 293543 18415,4
Giả sử Y , X2 và X3 có quan hệ tuyến tính
a. Tìm mô hình hồi quy ước lượng.
b. Mô hình trên có hiện tượng phương sai thay đổi không ? dùng phương pháp kiểm
định White để để trả lời với mức ý nghĩa 5%.
c. Dùng phương pháp OLS tổng quát tìm mô hình hồi quy.

120
HƯỚNG DẪN SỬ DỤNG PHẦN MỀM EVIEW 7.0

1. Màn hình Eviews

Thanh công cụ
Màn hình Eviews

Cửa sổ Command

Cửa sổ Workfile

Hình 1

121
2. Các kiểu dữ liệu thường dùng.
2.1. Số liệu theo thời gian: là các số liệu thu thập tại nhiều thời điểm khác nhau trên cùng một
đối tượng. Chẳng hạn như số liệu về GDP bình quân của Việt Nam từ 1998 – 2006 được cho
trong bảng sau:

2.2. Số liệu chéo: là số liệu thu thập tại một thời điểm ở nhiều nơi, địa phương, đơn vị, khác
nhau. Chẳng hạn như số liệu về GDP bình quân trong năm 2006 của các nước Brunei,
Campuchia, Indonesia, Lào, Malaysia, Myanmar, Philippines, Singapore, Thái Lan, Việt Nam
được cho như sau:

2.3. Số liệu hỗn hợp: là số liệu tổng hợp của hai loại trên, nghĩa là các số liệu thu thập tại
nhiều thời điểm khác nhau ở nhiều địa phương, đơn vị khác nhau. Chẳng hạn như số liệu về
GDP bình quân của các nước từ 1998 – 2006.

3. Nhập dữ liệu.
3.1. Nhập trực tiếp vào Eview
Để minh họa cho phần này, ta xét các ví dụ sau:
Ví dụ 1. Bảng 4 dưới đây cho biết số liệu về GDP bình quân đầu người của Việt Nam trong
các năm 1998 – 2006.

122
Ví dụ 2. Bảng 5 dưới đây cho biết số liệu về doanh số của một công ty.

Ví dụ 3. Bảng 6 dưới đây cho biết số liệu về năng suất (Y, đơn vị tạ/ha) và mức phân bón (X,
đơn vị tạ/ha) cho một loại cây trồng tính trên một ha trong 10 năm từ 1988 đến 1997.

Ví dụ 4. Bảng 7 dưới đây cho biết số liệu về doanh thu (Y), chi phí cho quảng cáo ( X2 ), tiền
lương của nhân viên tiếp thị (X3 ) của 12 công nhân (đơn vị triệu đồng).

123
Mở Eview, để nhập dữ liệu: Chọn File  New  Workfile, ta có màn hình như sau:

Hình 2
Tuỳ vào kiểu dữ liệu cần khảo sát, ta có thể chọn được các kiểu sau :
Dated – regular frequency
Multi – year : Số liệu nhiều năm
Annual : Số liệu năm
Semi – Annual : Số liệu nửa năm
Quarterly : Số liệu theo quý
Monthly : Số liệu theo từng tháng
Bimonthly : Mỗi tháng 2 lần/2 tháng 1 lần
Fortnight : Hai tuần lễ/15 ngày
Ten – day (Trimonthly) :
Weekly : Số liệu theo từng tuần
Unstructure / Undate : Số liệu chéo
Để nhập dữ liệu ở ví dụ 1, ta chọn các khai báo như trong hình 3 như sau:

124
Hình 3
Để nhập dữ liệu ở ví dụ 2, ta chọn các khai báo như trong hình 4

Hình 4
Để nhập dữ liệu cho ví dụ 3, ví dụ 4, ta có thể khai báo báo như trong hình 5.

125
Hình 5
Trong ô Observations ta nhập cỡ mẫu (số các quan sát)
Chẳng hạn như trong ví dụ 3, ta nhập 10 rồi nhấn OK ta được hình 6

Hình 6
Để nhập số liệu ta chọn : Quick →Empty Group (Edit Series), màn hình xuất hiện một cửa
sổ như hình 7. Trong đó
- Cột obs ghi thứ tự quan sát.
- Các cột kế tiếp để khai báo các biến và nhập số liệu.

126
Hình 7
Ví dụ nhập số liệu cho biến Y vào cột số 2, ta nhấp chuột vào đầu cột này và gõ tên biến Y
sau đó nhấp Enter và lần lượt gõ các giá trị vào các ô bên dưới có ghi chữ NA. Chẳng hạn như
trong ví du 3 và ví dụ 4, ta khai báo và nhập số liệu tuần tự như trong các hình sau :

Hình 8

127
Hình 9
3.2. Nhập từ Excel và Word có sẵn
Giả sử ta có sẵn File Excel vidu 3.xls chứa số liệu của ví dụ 3. Khi đó ta thực hiện các bước
Import sau: (Excel 2003 mới dùng được)
Mở chương trình Eviews chọn File → Open →Foreign Data as Workfile…như sau

Hình 10

128
Hình 11
Chọn Open ta được kết quả như trong hình 12. Trong cửa sổ này chúng ta thấy có hai cột số
liệu của X và Y tương ứng trong Sheet1 của File vidu 3.xls

Hình 12

129
Sau đó chọn Next ta được kết quả như trong Hình 13
Trong của sổ này với cột nội dung Column info ta có thể mô tả lại tên của các biến tại
các ô
Name: Tên biến; Description: Mô tả tên biến

Hình 13

Cuối cùng chọn Finish ta được kết quả như trong hình 14

Hình 14

130
Lưu ý. Các bước trên được gọi là trích lọc dữ liệu từ một file dữ liệu có sẵn.
Ta có thể thực hiện copy trực tiếp từ một file Word hoặc Excel
Mở của sổ Group của Eview

Hình 15

Từ file excel hoặc file word bôi đen rồi copy và paste vào file trên. Chẳng hạn ta có file word
ta thực hiện như sau:

Hình 16

131
Ta paste vào của sổ Group như sau

Hình 17

Và được kết quả như sau:

Hình 18

132
4. Vẽ đồ thị.
4.1. Vẽ biểu đồ phân tán số liệu.
Mục đích của việc vẽ đồ thị này cho phép ta đánh giá sơ bộ về mối quan hệ cũng như
hình dung được dạng hàm (mô hình) giữa hai biến với nhau. Để vẽ đồ thị phân tán của hai
biến, chẳng hạn như trong ví dụ 3 ta vẽ đồ thị phân tán của Y và X.
Từ của sổ Eviews chọn Quick→Graph

Hình 19

Một của sổ Series List xuất hiện. Ta gõ tên biến độc lập (X) và biến phụ thuộc (Y) giữa hai
biến này là khoảng trắng. Khi đó màn hình sẽ như sau (không cần viết hoa)

Hình 20

Nhấp OK, ta được màn hình sau

133
Hình 21

Ta chọn Scatter rồi nhấn Ok, ta được đồ thị phân tán dữ liệu như sau

Hình 22

Làm tương tự như các bước trên ta có thể vẽ các loại đồ thị khác.
4.2. Vẽ đường hồi quy tuyến tính.

134
Hình 23

Thực hiện các bước tương tự như trên. Ta chọn Scatter→Regression line rồi nhấn Ok, ta
được đồ thị đường hồi quy như sau:

Hình 24

Đối với đồ thị cần hiệu chỉnh màu (đường nét,…,) ta chỉ cần nhấp đúp vào đồ thị màn hình
sau sẽ xuất hiện:

135
Hình 25

Trong đó:
- Color : hiệu chỉnh màu sắc
- Line pattern : hiệu chỉnh kiểu đường nét
- Line width : hiệu chỉnh độ rộng của đường nét
- Symbol size : chọn kiểu hiển thị cho các điểm
5. Tìm hàm hồi quy tuyến tính mẫu (SRF).
Muốn tìm hàm hồi quy tuyến tính mẫu của Y theo X chẳng hạn như trong ví dụ 3 có
nhiều cách làm sau đây tôi chỉ giới thiệu một cách đơn giản nhất.
Từ cửa sổ Command ta gõ dòng lệnh ls y c x và nhấn Enter. Ta có bảng hồi quy sau
mà ta gọi là bảng Equation

136
Hình 26

Các kết quả ở bảng trong hình 22 lần lượt là


- Dependent Variable : Tên biến phụ thuộc
- Method: Least Squares : Phương pháp bình phương tối thiểu (nhỏ nhất).
- Date – Time : Ngày giờ thực hiện
- Sample : Số liệu mẫu 1 – 10
- Included observations : Cỡ mẫu là 10 (số các quan sát)
- Cột Variable : Các biến giải thích có trong mô hình (trong đó C là hệ số bị chặn)

- Cột Coefficient : Giá trị các hệ số hồ quy  1;  2 .


- Cột Std. Error : Sai số chuẩn của các hệ số hồi quy.

se  1  var  1 ;se  2  var  2


       
- Cột t – Statistic : Giá trị thống kê t tương ứng

 1  2
t1  ; t2 
se  1
  se  2
 
(Trong đó t là đại lượng ngẫu nhiên có phân phối Student vớ bậc tự do (n – 2)).
- Cột Prob. : Giá trị xác suất (p – value) của thống kê t tương ứng

137
p _ value1  P  t  t1  ;p _ value2  P  t  t 2 

- R – Squared : Hệ số xác định mô hình ( R 2 )


- Adjusted R – Squared : Hệ số xác định có hiệu chỉnh ( R 2 )
 (sai số chuẩn của hồi quy)
- S.E. of regression : Giá trị ước lượng cho σ : 
- Sum squared resid : Tổng bình phương các sai lệch (phần dư) ( RSS )
- Log likelihood : Tiêu chuẩn ước lượng hợp lý (Logarit của hàm hợp lý)
- Durbin – Watson stat : Thống kê Durbin – Watson
- Mean dependent var : Giá trị trung bình mẫu của biến phụ thuộc
- S.D. dependent var : Độ lệch chuẩn mẫu của biến phụ thuộc
- Akaike info criterion : Tiêu chuẩn Akaike
- Schwarz info criterion : Tiêu chuẩn Schwarz
- F – Statistic : Giá trị của thống kê F
- Prob (F – Statistic) : Giá trị xác suất (p-value) của thống kê F tương ứng
p _ value  P  F  F _ statistic 
Với F là biến ngẫu nhiên có phân phố Fisher có bậc tự do (k − 1,n − k).
Muốn thể hiển đường hồi quy. Từ bảng Equation→View→Representations, ta có kết
quả sau:

Hình 27

138
6. Một số hàm trong Eviews.
LOG(X) : ln(X)
EXP(X) : eX
ABS(X) : giá trị tuyệt đối của X
SQR(X) : căn bậc 2 của X
@SUM(X) : tổng của các X
@MEAN(X) : giá trị trung bình của X
@VAR(X) : phương sai của X
@COV(X,Y) : hiệp phương sai của X, Y
@COR(X,Y) : hệ số tương quan của X, Y
7. Cách tìm một số dạng hàm hồi quy.
Giả sử ta có số liệu của các biến Y và X tại thời điểm t. Nếu tìm hàm hồi quy của Yt
theo X và Yt 1 (biến trễ thì câu lệnh sẽ là y c x y(-1).
Giả sử ta có số liệu của các biến Y và X. Nếu tìm hàm hồi quy của ln(Y) theo ln(X) thì
câu lệnh sẽ là log(y) c log(x).

Giả sử ta có số liệu của các biến Y và X. Nếu tìm hàm hồi quy của Y theo X thì câu
lệnh sẽ là y c sqr(x).
Giả sử ta có số liệu của các biến Y và X. Nếu tìm hàm hồi quy của Y theo e X thì câu
lệnh sẽ là y c exp(x).
Giả sử ta có số liệu của các biến Y và X. Nếu tìm hàm hồi quy của Y theo X và X 2 thì
câu lệnh sẽ là y c x x^2.
Giả sử ta có số liệu của các biến Y và X. Nếu tìm phương trình sai phân cấp 1 của Y
theo X thì câu lệnh sẽ là d(y) c d(x).
Giả sử ta có số liệu của các biến Y và X. Nếu tìm phương trình sai phân cấp k của Y
theo X thì câu lệnh sẽ là d(y,k) c d(x,k).
Nếu cần tìm hàm hồi quy nhưng không sử dụng hết các quan sát của mẫu, chẳng hạn ta
tìm hàm hồi quy của Y theo X trong ví dụ 3 nhưng ta chỉ sử dụng 7 cặp quan sát đầu tiên. Khi
đó ta thực hiện các thao tác như sau:
Từ bảng Equation chọn Estimate, ta có màn hình sau. Ta chỉnh 10 thành 7

139
Hình 28

8. Tìm ma trận tương quan và ma trận hiệp phương sai của các hệ số hồi quy
8.1. Ma trận tương quan giữa các biến.
Giả sử ta có mẫu gồm các biến Y, X2, X3 cho trong ví dụ 4. Để tìm ma trận tương quan
của các biến này ta thực hiện như sau:
Từ cửa sổ Eviews chọn Quick →Group Statistics →Correlations.
Khi đó màn hình xuất hiện như sau:

Hình 29

Nhấp chuột sẽ xuất hiện cửa sổ sau

140
Hình 30

Sau đó nhấn OK, ta được ma trận tương quan như sau

Hình 31

Ý nghĩa: Ma trận tương quan (Correlation) cho biết xu thế và mức độ tương quan tuyến tính
giữa hai biến trong mô hình. Nhìn vào bảng ma trận tương quan ở trên ta thấy hệ số tương
quan của X2 và X3 là 0.480173 khá nhỏ điều đó có nghĩa là X2 và X3 có tương quan tuyến
tính ở mức độ yếu và tương quan thuận.
8.2. Ma trận hiệp phương sai giữa các hệ số hồi quy.
Giả sử ta có mẫu gồm các biến Y, X2, X3 cho trong ví dụ 4. Để tìm ma trận hiệp
phương sai giữa các hệ số hồi quy, ta thực hiện như sau:
Từ cửa sổ Equation chọn View →Covariance Matrix.
Khi đó màn hình xuất hiện như sau:

141
Hình 32

Nhấp chuột, ta được ma trận hiệp phương sai giữa các hệ số hồi quy như sau

Hình 33

Ý nghĩa: Ma trận hiệp phương sai của các hệ số hồi quy (Coefficient Covariance matrix)
cho biết phương sai các hệ số hồi quy nằm trên đường chéo chính, các thành phần còn lại là
hiệp phương sai của những hệ số trong mô hình.
Chẳng hạn, ví dụ 4 bên trên. Nhìn vào ma trận hiệp phương sai bên trên ta có phương
sai của các hệ số hồi quy là:
var  1  39.10093; var  2  0.107960; var  3  0.168415.
     

142
9. Bài toán tìm khoảng tin cậy cho các hệ số hồi quy (Khoảng tin cậy đối xứng).
Khoảng ước lượng các hệ số hồi quy tổng thể

 j    j  Cse  j ;  j  Cse  j  ; j  1, 2,..., k


   

Trong đó C là giá trị được dò trong bảng phân phối Student với bậc tự do là (n-k). Ký hiệu
C  tan /2k
Giả sử ta có mẫu gồm các biến Y, X2, X3 cho trong ví dụ 4. Để tìm khoảng tin cậy cho
các hệ số hồi quy tổng thể, ta thực hiện như sau:
Từ cửa sổ Equation chọn View →Coefficient Diagnostics→confidence Intervals…
Khi đó màn hình xuất hiện như sau:

Hình 34

Nhấp chuột, ta được kết quả sau

143
Hình 35

Bảng trên là kết quả ước lượng khoảng tin cậy của các hệ số hồi quy tổng thể ứng với độ tin
cậy 90%, 95% và 99%.
10. Bài toán dự báo.
Khoảng dự báo giá trị trung bình

E Y | X  X 0   Y 0  Cse Y 0 ; Y 0  Cse Y 0 


   
 
Khoảng dự báo giá trị cá biệt

Y0  Y 0  Cse Y0  Y 0 ; Y 0  Cse Y0  Y 0 


   
 
 a 
Đặt YDB  Y 0 ; Se1  se Y0  Y 0 ; Se2  se Y 0 ; C  @ qtdist 1  , n  k 
     2 
MH  Equation
Xét ví dụ 4, để tìm khoảng dự báo giá trị trung bình và giá trị các biệt của Y khi
X 2  20, X 3  16 , với độ tin cậy 95%, ta thực hiện như sau:
Bước 1. Nhập thêm dữ liệu vào bảng Group để dự báo
Từ bảng Workfile, chọn Proc →Structure/Resize Current Page…Màn hình sau

144
Hình 36

Nhấp chuột, màn hình sau xuất hiện. Ở ô quan sát (Observations) ta điều chỉnh 12 thành 13)
như sau:

Hình 37

Nhấp OK. Từ bảng Group. Ta chọn Edit+/- , sau đó nhập X 2  20, X 3  16 vào hàng số 13
có chữ NA như sau:

145
Hình 38

Tắt cửa sổ Group.


 0  Y ;se Y  Y
 0  se1;se Y
 0  se2.
Bước 2. Tính giá trị Y DB 0   
Từ bảng Equation. Chọn forecast màn hình xuất hiện như sau

Hình 39

Ô Forecast name ta đổi Yf thành YDB , ô S.E. (optional) ta gõ Se1. Nhấn OK.

146
Hình 40

Tắt đồ thị dự báo


Từ bảng Workfile. Chọn Genr và gõ lệnh như sau rồi nhấn Ok.

Hình 41

Bước 3. Tìm khoảng dự báo


- Dự báo giá trị trung bình
Từ bảng Workfile. Chọn Genr và gõ lệnh như sau rồi nhấn Ok.

147
Hình 42
Dự báo giá trị cá biệt.
Từ bảng Workfile. Chọn Genr và gõ lệnh như sau rồi nhấn Ok.

Hình 43

Để mở các kết quả trên cùng một bảng ta thực hiện như sau:

148
Từ của số Workfile, nhấn phím Ctrl rồi chọn canduoicabiet, cantrencabiet,
canduoitrungbinh, cantrentrungbinh sau đó nhấn Enter, ta được kết quả sau (lưu ý nhìn vào
hàng thứ 13)

Hình 44

Vậy khoảng dự báo giá trị trung bình và giá trị cá biệt của Y là

CANDUOITB CANTRENTB CANDUOICB CANTRENCB

153.9864 163.0754 148.3989 168.6630

11. Định mẫu


Trước hết ta xét ví dụ sau
Ví dụ 5. Bảng số liệu sau cho biết số liệu về lượng hàng bán được (Y tấn/tháng), giá bán (X
ngàn đồng/kg) ở 20 khu vực bán và được khảo sát tại hai nơi là Thành phố và Nông thôn.

149
Trong đó Z là biến giả:
Z = 0 : khảo sát ở nông thôn
Z = 1 : khảo sát ở thành thị
Có nhiều trường hợp ta không sử dụng hết các số liệu của mẫu ban đầu, hay chỉ cần khảo sát
sự phụ thuộc khi biến giả nhận một giá trị nào đó.
Để định mẫu lại, từ cửa sổ Workfile chọn Sample, màn hình xuất hiện như

Hình 45

Chẳng hạn ta chỉ khảo sát 15 mẫu đầu tiên và ở khu vực Thành phố ứng với Z = 1 . Ta khai
báo vào ô Sample range pairs và IF condition nhưtrong hình sau

150
Hình 46

Nhấn OK, ta thấy có sự thay đổi trong cửa số Workfile như sau

Hình 47

12. Tính các giá trị thống kê.


Để tính các giá trị thống kê như Trung bình, trung vị, độ lệch chuẩn, …của các biến có
trong mô hình chẳng hạn vớ số liệu cho trong ví dụ 4 ta làm như sau:
Từ cửa sổ EViews chọn Quick →Group Statistics →Descriptive statistics
→Common sample, như hình sau

151
Hình 48

Nhấp chuột và nhập tên các biến vào cửa sổ Series List như hình sau

Hình 49

Nhấp OK, ta được bảng các giá trị thống kê sau:

152
Hình 50

Giải thích :
- Mean : trung bình.
- Median : trung vị
- Maximum : Giá trị lớn nhất
- Minimum : Giá trị nhỏ nhất
- Std. Dev : Độ lệch chuẩn
- Skewness : Hệ số bất đối xứng
- Kurtosis : Hệ số nhọn
- Jarque – Bera : Kiểm định phân phối chuẩn
- Sum : Tổng các quan sát
- Sum sq. Dev : Độ lệch chuẩn của tổng bình phương
- Observations : Số quan sát (cỡ mẫu)
13. Các bài toán kiểm định giả thiết mô hình.
13.1. Kiểm định phương sai thay đổi.
13.1.1. Kiểm định White.
Chẳng hạn như trong ví dụ 4.
Để thực hiện việc kiểm định White bằng Eview, sau khi ước lượng mô hình hồi quy
mẫu, từ cửa sổ Equation chọn View→Residual Diagnostics → Heteroskedasticity tests…
Khi đó màn hình sẽ như sau:

153
Hình 51

Nhấp chuột, màn hình như sau

Hình 52

Ta chọn White, rồi nhấn Ok. Ta có kết quả như sau:

154
Hình 53

Ta đặt bài toán kiểm định như sau: H 0 : Mô hình không xảy ra hiện tượng phương sai thay
đổi; H1 : Mô hình xảy ra hiện tượng phương sai thay đổi.

Từ bảng kiểm định White ở trên, ta có P _ value  0.4215  a cho trước nên chấp
nhận H 0 . Vậy mô hình không xảy ra hiện tượng phương sai thay đổi.
13.1.2. Kiểm định Glejser.
Ta thực hiện các bước như trong kiểm định White nhưng ta chọn Glejser, rồi nhấn Ok. Ta
có kết quả như sau:

155
Hình 54

Ta đặt bài toán kiểm định như sau: H 0 : Mô hình không xảy ra hiện tượng phương sai
thay đổi; H1 : Mô hình xảy ra hiện tượng phương sai thay đổi.

Từ bảng kiểm định Glejser ở trên, ta có P _ value  0.4680  a cho trước nên chấp
nhận H 0 . Vậy mô hình không xảy ra hiện tượng phương sai thay đổi.
13.1.3. Kiểm định Breusch-Pagan-Godfrey.
Ta thực hiện các bước tương tự như kiểm định White nhưng ta chọn Breusch-Pagan-
Godfrey, rồi nhấn Ok. Ta có kết quả như sau:

156
Hình 55

Ta đặt bài toán kiểm định như sau: H 0 : Mô hình không xảy ra hiện tượng phương sai
thay đổi; H1 : Mô hình xảy ra hiện tượng phương sai thay đổi.

Từ bảng kiểm định Breusch – Pagan - Godfrey ở trên, ta có P _ value  0.4953  a


cho trước nên chấp nhận H 0 . Vậy mô hình không xảy ra hiện tượng phương sai thay đổi.
13.2. Kiểm định tự tương quan (Kiểm định BG).
Chẳng hạn như trong ví dụ 4.
Để thực hiện việc kiểm định BG bằng Eview, sau khi ước lượng mô hình hồi quy mẫu,
từ cửa sổ Equation chọn View→Residual Diagnostics → Serial Correlation LM test…
Khi đó màn hình sẽ xuất hiện như sau:

157
Hình 56

Nhấp chuột, cửa sổ sau xuất hiện như sau:

Hình 57

Ô Lags to indude ta gõ bậc tự tương quan vào (ví dụ như tự tương quan là bậc 2)
Nhấn Ok. Ta có kết quả như sau:

158
Hình 58

Ta đặt bài toán kiểm định như sau: H 0 : Mô hình không xảy ra hiện tượng tự tương
quan bậc 2; H1 : Mô hình xảy ra hiện tượng tự tương quan bậc 2.

Từ bảng kiểm định BG ở trên, ta có P _ value  0.4842  a cho trước nên chấp nhận
H 0 . Vậy mô hình không xảy ra hiện tượng tự tương quan bậc 2.
13.3. Kiểm định biến có cần thiết trong mô hình hay không (Kiểm định Wald).
Chẳng hạn như trong ví dụ 4.
Để thực hiện việc kiểm định Wald bằng Eview, sau khi ước lượng mô hình hồi quy
mẫu, từ cửa sổ Equation chọn View→Coefficient Diagnostics → Wald test – Coefficient
Restrictions… Khi đó màn hình sẽ như sau:

159
Hình 59

Nhấp chuột ta có cửa sổ sau xuất hiện: Gõ c(2)=0 vào

Hình 60

Nhấp Ok. Ta được kết quả như sau:

160
Hình 61

Ta đặt bài toán kiểm định như sau: H 0 : Biến X2 không cần thiết trong mô hình; H1 :
Biến X2 cần thiết trong mô hình.
Từ bảng kiểm định Wald ở trên, ta có P _ value  0.0000  a cho trước nên bác bỏ
H 0 . Vậy X2 cần thiết trong mô hình.
Lưu ý: Trong trường hợp này ta chỉ khảo sát X2 nên ta có thể dùng giá trị xác suất của
thống kê t hoặc giá trị xác suất của thống kê F đều được. Trong trường hợp ta khảo sát nhiều
hơn hai biến thì ta chỉ dùng thống kê F.
13.4. Kiểm định thừa biến trong mô hình (biến không cần thiết).
Giả sử xét ví dụ 4 bên trên, ta tiến hành như sau:
- Tìm hàm hồi quy của Y theo X2 và X3. Từ cửa số Equation, ta chọn
View→Coefficient Diagnostics → Redundant Variables Test – Likelihood ratio… Khi đó
màn hình sẽ như sau:

161
Hình 62

Nhấp chuột ta có cửa sổ One or more test series to remove xuất hiện, rồi gõ biến X3 vào

Hình 63

Nhấp Ok, ta có kết quả sau:

162
Hình 64

Ta đặt bài toán kiểm định như sau: H 0 : 3  0 : Biến X3 không cần thiết trong mô
hình; H1 : 3  0 : Biến X3 cần thiết trong mô hình.

Từ bảng kiểm định ở trên, ta có P _ value  0.0000  a cho trước nên bác bỏ H 0 .
Vậy X3 cần thiết trong mô hình.
13.5. Kiểm định biến bị bỏ sót trong mô hình.
Giả sử xét ví dụ 4 bên trên, ta tiến hành như sau.
- Tìm hàm hồi quy mẫu của Y theo X2. Từ cửa số Equation, ta chọn View→Coefficient
Diagnostics → Omitted Variables Test – Likelihood ratio… Khi đó màn hình sẽ như sau:

Hình 65

Nhấp chuột ta có cửa sổ One or more test series to add xuất hiện. Ta gõ biến X3 vào

163
Hình 66

Nhấp Ok, ta được kết quả sau:

Hình 67

Ta đặt bài toán kiểm định như sau: H 0 : 3  0 : Biến X3 ảnh hưởng tới Y (X3 không bị
bỏ sót); H1 : 3  0 : Biến X3 bị bỉ sót trong mô hình.

Từ bảng kiểm định ở trên, ta có P _ value  0.0000  a cho trước nên bác bỏ H 0 .
Vậy X3 bị bỏ sót trong mô hình.
13.6. Kiểm định Chow trong mô hình hồi quy với biến giả.
Ví dụ7. Giả sử số liệu về tiết kiệm và thu nhập cá nhân ở nước Anh từ năm 1946 đến 1963
(đơn vị pound) cho ở bảng sau:

164
Trong đó, Y : Tiết kiệm ; X : Thu nhập.
Để kiểm định rằng có sự thay đổi về tiết kiệm giữa hai thời kỳ hay không, ta thực hiện
các bước kiểm định Chow như sau:
Hồi quy Y theo X, ta được kết quả

Hình 68

Từ cửa sổ Equation, chọn View →Stability Diagnostics → Chow Breakpoint Test…như hình
sau:

165
Hình 69

Sau khi nhấp chuột, một cửa sổ xuất hiện như sau:

Hình 70

Ta gõ vào cửa sổ Chow Test giá trị Breakpoint là 1955 như hình trên, nhấp OK. Khi đó ta
được kết quả sau:
166
Hình 71

và dự vào bảng kết quả trên ta cũng có giá trị F = 5.037 . Với giá trị xác suất là 0.022493. nên
ta chấp nhập giả thuyết là hai mô hình hồi quy khác nhau.
14. Định dạng mô hình (Kiểm định Ramsey RESET)
Xét mô hình gốc: Yi  1  2 Xi  i (1)
Kiểm định Ramsey RESET
i  a Y
Yi  1  2 Xi  a1 Y
2
 i  ...a Y
3
i m 1
 i (2)
2 m

Bài toán kiểm định


H 0 : a1  a 2  ...  a m  0

H1 : a j  0, j  1, m
H0 : Mô hình gốc không thiếu biến, dạng hàm đúng
H1 : Mô hình gốc thiếu biến, dạng hàm sai
R 22  R12 n  k 2
F   F(m, n  k 2 )
1  R 22 m
Giả sử xét ví dụ 3 bên trên, ta tiến hành như sau:
Tìm hàm hồi quy tuyến tính mẫu của Y theo X. Từ của số Equation.
Chọn View →Stability Diagnostics →Ramsey RESET Test…như hình sau:

167
Hình 72

Nhấp chuột ta có cửa sổ Number of fitted terms xuất hiện. Ta gõ tham số m=1 vào

Hình 73

Nhấp Ok, ta được kết quả sau:

Hình 74

168
Ta đặt bài toán kiểm định như sau: H 0 : a1  0 : Mô hình trên không thiếu biến, dạng
hàm đúng; H1 : a1  0 : Mô hình trên thiếu biến dạng hàm sai.

Từ bảng kiểm định ở trên, ta có P _ value(F _ statistic)  0.2776  a cho trước nên
chấp nhận H 0 .
Vậy mô hình trên không thiếu biến, dạng hàm đúng.
15. Lưu kết quả trong Eviews.
15.1. Lưu file dữ liệu.
Các thao tác được thực hiện như sau:
Sau khi làm xong các thao tác. Từ cửa sổ Eviews chọn File →Save
Lưu ý: Khi đó trên cửa sổ Workfile thì không có đối tượng nào được chọn (Nếu không ta chỉ
lưu được một file dạng rác).

Hình 75

15.2. Lưu các bảng kết quả.


Trên các cửa sổ như Equation, Graph, Group, …Đều có thanh công cụ chứa hai nút
là : Name và Freeze dùng để lưu trữ các đối tượng hoặc các kết quả được tạo ra trong quá
trình thao tác. Đối với chức năng Name cho phép ta lưu trữ các kết quả mà ta có thể dùng tiếp
cho các thao tác sau. Mặt khác chức năng Freeze chỉ lưu các kết quả dưới dạng một Table
(Kết quả đó được đóng băng).

Chẳng hạn với số liệu trong ví dụ 3 sau khi tìm được mô hình hồi quy xong và ta thực
hiện lưu trữ như sau:
Từ cửa sổ Equation. Nếu ta chọn chức năng Name như hình 63

169
Hình 76

Chọn OK ta được kết quả có biểu tượng là

Hình 77

Từ cửa sổ Equation. Nếu ta chọn chức năng Freeze thì ta thấy một table mới xuất hiện như
sau:

170
Hình 78

Chọn OK ta được kết quả có biểu tượng là

171
PHÂN PHỐI GAUSS
1 x
 ( x)   e t / 2 dt  P  0  X  x   a ,
2 0

với X  N  0;1 , x  za .
x=za

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09


0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981
2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986
3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990
3.1 0.4990 0.4991 0.4991 0.4991 0.4992 0.4992 0.4992 0.4992 0.4993 0.4993
3.2 0.4993 0.4993 0.4994 0.4994 0.4994 0.4994 0.4994 0.4995 0.4995 0.4995
3.3 0.4995 0.4995 0.4995 0.4996 0.4996 0.4996 0.4996 0.4996 0.4996 0.4997
3.4 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4998
3.5 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998
3.6 0.4998 0.4998 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.7 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.8 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.9 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000

172
PHÂN PHỐI STUDENT
P  T  ta   a với T  St (n)
Cột 1 : giá trị độ tự do n.
Hàng 1 : Giá trị nguy cơ sai lầm a
 ta ta
Nội dung bảng : Giá trị ta tương ứng với n và a

0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.15 0.2
1 63.656 31.821 21.205 15.894 12.706 10.579 9.058 7.916 7.026 6.314 4.165 3.078
2 9.925 6.965 5.643 4.849 4.303 3.896 3.578 3.320 3.104 2.920 2.282 1.886
3 5.841 4.541 3.896 3.482 3.182 2.951 2.763 2.605 2.471 2.353 1.924 1.638
4 4.604 3.747 3.298 2.999 2.776 2.601 2.456 2.333 2.226 2.132 1.778 1.533
5 4.032 3.365 3.003 2.757 2.571 2.422 2.297 2.191 2.098 2.015 1.699 1.476
6 3.707 3.143 2.829 2.612 2.447 2.313 2.201 2.104 2.019 1.943 1.650 1.440
7 3.499 2.998 2.715 2.517 2.365 2.241 2.136 2.046 1.966 1.895 1.617 1.415
8 3.355 2.896 2.634 2.449 2.306 2.189 2.090 2.004 1.928 1.860 1.592 1.397
9 3.250 2.821 2.574 2.398 2.262 2.150 2.055 1.973 1.899 1.833 1.574 1.383
10 3.169 2.764 2.527 2.359 2.228 2.120 2.028 1.948 1.877 1.812 1.559 1.372
11 3.106 2.718 2.491 2.328 2.201 2.096 2.007 1.928 1.859 1.796 1.548 1.363
12 3.055 2.681 2.461 2.303 2.179 2.076 1.989 1.912 1.844 1.782 1.538 1.356
13 3.012 2.650 2.436 2.282 2.160 2.060 1.974 1.899 1.832 1.771 1.530 1.350
14 2.977 2.624 2.415 2.264 2.145 2.046 1.962 1.887 1.821 1.761 1.523 1.345
15 2.947 2.602 2.397 2.249 2.131 2.034 1.951 1.878 1.812 1.753 1.517 1.341
16 2.921 2.583 2.382 2.235 2.120 2.024 1.942 1.869 1.805 1.746 1.512 1.337
17 2.898 2.567 2.368 2.224 2.110 2.015 1.934 1.862 1.798 1.740 1.508 1.333
18 2.878 2.552 2.356 2.214 2.101 2.007 1.926 1.855 1.792 1.734 1.504 1.330
19 2.861 2.539 2.346 2.205 2.093 2.000 1.920 1.850 1.786 1.729 1.500 1.328
20 2.845 2.528 2.336 2.197 2.086 1.994 1.914 1.844 1.782 1.725 1.497 1.325
21 2.831 2.518 2.328 2.189 2.080 1.988 1.909 1.840 1.777 1.721 1.494 1.323
22 2.819 2.508 2.320 2.183 2.074 1.983 1.905 1.835 1.773 1.717 1.492 1.321
23 2.807 2.500 2.313 2.177 2.069 1.978 1.900 1.832 1.770 1.714 1.489 1.319
24 2.797 2.492 2.307 2.172 2.064 1.974 1.896 1.828 1.767 1.711 1.487 1.318
25 2.787 2.485 2.301 2.167 2.060 1.970 1.893 1.825 1.764 1.708 1.485 1.316
26 2.779 2.479 2.296 2.162 2.056 1.967 1.890 1.822 1.761 1.706 1.483 1.315
27 2.771 2.473 2.291 2.158 2.052 1.963 1.887 1.819 1.758 1.703 1.482 1.314
28 2.763 2.467 2.286 2.154 2.048 1.960 1.884 1.817 1.756 1.701 1.480 1.313
29 2.756 2.462 2.282 2.150 2.045 1.957 1.881 1.814 1.754 1.699 1.479 1.311
 2.576 2.326 2.170 2.054 1.960 1.881 1.812 1.751 1.695 1.645 1.440 1.282

173
PHÂN PHỐI FISHER 1
P  X  fa (n, m)   a khi X  F (n, m)
Hàng 1 : Giá trị của độ tự do (tử số) n. Cột 1 : Giá
trị độ tự do (mẫu số) m.
Nội dung bảng : Giá trị fa ( n, m) . fa è, m

Bảng 1 : a  0.05

1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 
1 161 200 216 225 230 234 237 239 241 242 244 246 248 249 250 251 252 253 254
2 18.51 19 19.16 19.25 19.3 19.33 19.35 19.37 19.38 19.4 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.5
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.7 8.66 8.64 8.62 8.59 8.57 8.55 8.53
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6 5.96 5.91 5.86 5.8 5.77 5.75 5.72 5.69 5.66 5.63
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.53 4.5 4.46 4.43 4.4 4.37
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.1 4.06 4 3.94 3.87 3.84 3.81 3.77 3.74 3.7 3.67
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.3 3.27 3.23
8 5.32 4.46 4.07 3.84 3.69 3.58 3.5 3.44 3.39 3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.01 2.94 2.9 2.86 2.83 2.79 2.75 2.71
10 4.96 4.1 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.85 2.77 2.74 2.7 2.66 2.62 2.58 2.54
11 4.84 3.98 3.59 3.36 3.2 3.09 3.01 2.95 2.9 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.4
12 4.75 3.89 3.49 3.26 3.11 3 2.91 2.85 2.8 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.3
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.6 2.53 2.46 2.42 2.38 2.34 2.3 2.25 2.21
14 4.6 3.74 3.34 3.11 2.96 2.85 2.76 2.7 2.65 2.6 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13
15 4.54 3.68 3.29 3.06 2.9 2.79 2.71 2.64 2.59 2.54 2.48 2.4 2.33 2.29 2.25 2.2 2.16 2.11 2.07
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01
17 4.45 3.59 3.2 2.96 2.81 2.7 2.61 2.55 2.49 2.45 2.38 2.31 2.23 2.19 2.15 2.1 2.06 2.01 1.96
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92
19 4.38 3.52 3.13 2.9 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88
20 4.35 3.49 3.1 2.87 2.71 2.6 2.51 2.45 2.39 2.35 2.28 2.2 2.12 2.08 2.04 1.99 1.95 1.9 1.84
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.18 2.1 2.05 2.01 1.96 1.92 1.87 1.81
22 4.3 3.44 3.05 2.82 2.66 2.55 2.46 2.4 2.34 2.3 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78
23 4.28 3.42 3.03 2.8 2.64 2.53 2.44 2.37 2.32 2.27 2.2 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76
24 4.26 3.4 3.01 2.78 2.62 2.51 2.42 2.36 2.3 2.25 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73
25 4.24 3.39 2.99 2.76 2.6 2.49 2.4 2.34 2.28 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51
60 4 3.15 2.76 2.53 2.37 2.25 2.17 2.1 2.04 1.99 1.92 1.84 1.75 1.7 1.65 1.59 1.53 1.47 1.39
120 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91 1.83 1.75 1.66 1.61 1.55 1.5 1.43 1.35 1.25

 3.84 3 2.6 2.37 2.21 2.1 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1

174
PHÂN PHỐI FISHER 2
P  X  fa (n, m)   a khi X  F ( n, m )
Hàng 1 : Giá trị của độ tự do (tử số) n. Cột 1 : Giá
trị độ tự do (mẫu số) m.
Nội dung bảng : Giá trị fa ( n, m) . fa è, m

Bảng 2 : a  0.01

1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 
1 4052 4999 5404 5624 5764 5859 5928 5981 6022 6056 6107 6157 6209 6234 6260 6286 6313 6340 6366
2 98.50 99.00 99.16 99.25 99.30 99.33 99.36 99.38 99.39 99.40 99.42 99.43 99.45 99.46 99.47 99.48 99.48 99.49 99.5
3 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.34 27.23 27.05 26.87 26.69 26.60 26.50 26.41 26.32 26.22 26.1
4 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.37 14.20 14.02 13.93 13.84 13.75 13.65 13.56 13.5
5 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9.11 9.02
6 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.56 7.40 7.31 7.23 7.14 7.06 6.97 6.88
7 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.65
8 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4.86
9 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.11 4.96 4.81 4.73 4.65 4.57 4.48 4.40 4.31
10 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.41 4.33 4.25 嚄懿17 4.08 4.00 3.91
11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.40 4.25 4.10 4.02 3.94 3.86 3.78 3.69 3.6
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36
13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.96 3.82 3.66 3.59 3.51 3.43 3.34 3.25 3.17
14 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94 3.80 3.66 3.51 3.43 3.35 3.27 3.18 3.09 3
15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.52 3.37 3.29 3.21 3.13 3.05 2.96 2.87
16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.55 3.41 3.26 3.18 3.10 3.02 2.93 2.84 2.75
17 8.40 6.11 5.19 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.46 3.31 3.16 3.08 3.00 2.92 2.83 2.75 2.65
18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51 3.37 3.23 3.08 3.00 2.92 2.84 2.75 2.66 2.57
19 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.30 3.15 3.00 2.92 2.84 2.76 2.67 2.58 2.49
20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.86 2.78 2.69 2.61 2.52 2.42
21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 3.17 3.03 2.88 2.80 2.72 2.64 2.55 2.46 2.36
22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 3.12 2.98 2.83 2.75 2.67 2.58 2.50 2.40 2.31
23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21 3.07 2.93 2.78 2.70 2.62 2.54 2.45 2.35 2.26
24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.31 2.21
25 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22 3.13 2.99 2.85 2.70 2.62 2.54 2.45 2.36 2.27 2.17
30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2.70 2.55 2.47 2.39 2.30 2.21 2.11 2.01
40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.66 2.52 2.37 2.29 2.20 2.11 2.02 1.92 1.8
60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.35 2.20 2.12 2.03 1.94 1.84 1.73 1.6
120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47 2.34 2.19 2.03 1.95 1.86 1.76 1.66 1.53 1.38

 6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 2.18 2.04 1.88 1.79 1.70 1.59 1.47 1.32 1.00

175
BẢNG GIÁ TRỊ d L VÀ dU CỦA THỐNG KÊ d (với a  0, 05 )
k  1 k  2 k  3 k  4 k  5
n
dL dU dL dU dL dU dL dU dL dU

6 0.6 1.40
7 0.7 1.36 0.467 1.90
8 0.76 1.33 0.56 1.78 0.368 2.287
9 0.82 1.32 0.63 1.70 0.445 2.128 0.296 2.59
10 0.88 1.32 0.70 1.64 0.525 2.016 0.376 2.41 0.243 2.82
11 0.93 1.32 0.76 1.60 0.595 1.928 0.444 2.28 0.316 2.65
12 0.97 1.33 0.81 1.58 0.656 1.834 0.512 2.18 0.379 2.51
13 1.01 1.34 0.86 1.56 0.715 1.816 0.574 2.09 0.445 2.39
14 1.05 1.35 0.90 1.55 0.767 1.779 0.632 2.03 0.505 2.30
15 1.08 1.36 0.94 1.54 0.814 1.750 0.685 1.98 0.562 2.22
16 1.11 1.37 0.98 1.54 0.857 1.728 0.734 1.94 0.615 2.16
17 1.13 1.38 1.01 1.54 0.897 1.710 0.779 1.90 0.664 2.10
18 1.16 1.39 1.05 1.54 0.933 1.696 0.820 1.87 0.710 2.06
19 1.18 1.40 1.07 1.54 0.967 1.685 0.859 1.85 0.752 2.02
20 1.20 1.41 1.10 1.54 0.998 1.676 0.894 1.83 0.792 1.99
21 1.22 1.42 1.13 1.54 1.026 1.669 0.927 1.81 0.829 1.96
22 1.24 1.43 1.15 1.54 1.053 1.664 0.958 1.80 0.863 1.94
23 1.26 1.44 1.17 1.54 1.078 1.660 0.986 1.79 0.895 1.92
24 1.27 1.45 1.19 1.55 1.101 1.656 1.013 1.78 0.925 1.90
25 1.29 1.45 1.21 1.55 1.123 1.654 1.038 1.77 0.953 1.89
26 1.31 1.46 1.22 1.55 1.143 1.652 1.062 1.76 0.979 1.87
27 1.32 1.47 1.24 1.56 1.162 1.651 1.084 1.85 1.004 1.86
28 1.33 1.48 1.26 1.56 1.181 1.650 1.104 1.75 1.028 1.85
29 1.34 1.48 1.27 1.56 1.198 1.650 1.124 1.74 1.050 1.84
30 1.35 1.49 1.28 1.57 1.214 1.650 1.143 1.74 1.071 1.83
31 1.36 1.50 1.30 1.57 1.229 1.650 1.160 1.74 1.090 1.83
32 1.37 1.50 1.31 1.57 1.244 1.650 1.177 1.73 1.109 1.82
33 1.38 1.51 1.32 1.58 1.258 1.651 1.193 1.73 1.127 1.81
34 1.39 1.51 1.33 1.58 1.271 1.651 1.208 1.73 1.144 1.81
35 1.40 1.52 1.34 1.58 1.283 1.651 1.222 1.73 1.160 1.80

176
BẢNG GIÁ TRỊ d L VÀ dU CỦA THỐNG KÊ d (với a  0, 05 )
k  6 k  7 k  8 k  9 k   10
n
dL dU dL dU dL dU dL dU dL dU

11 0.20 3.01
12 0.27 2.83 0.171 3.15
13 0.33 2.69 0.230 2.99 0.147 3.266
14 0.39 2.57 0.286 2.85 0.200 3.111 0.127 3.36
15 0.45 2.47 0.343 2.73 0.251 2.979 0.175 3.22 0.111 3.44
16 0.50 2.39 0.398 2.62 0.304 2.860 0.222 3.09 0.155 3.30
17 0.55 2.32 0.451 2.54 0.356 2.757 0.242 3.07 0.198 3.18
18 0.60 2.26 0.502 2.46 0.407 2.667 0.321 2.87 0.244 3.07
19 0.65 2.21 0.549 2.40 0.456 2.589 0.369 2.78 0.290 2.97
20 0.69 2.16 0.595 2.34 0.502 2.521 0.416 2.70 0.336 2.89
21 0.73 2.12 0.637 2.29 0.547 2.460 0.461 2.63 0.380 2.81
22 0.77 2.09 0.677 2.25 0.588 2.407 0.504 2.57 0.424 2.73
23 0.80 2.06 0.715 2.21 0.628 2.360 0.545 2.51 0.465 2.67
24 0.84 2.04 0.751 2.17 0.666 2.318 0.581 2.46 0.506 2.61
25 0.87 2.01 0.784 2.14 0.702 2.280 0.621 2.42 0.544 2.56
26 0.90 1.99 0.816 2.12 0.735 2.246 0.657 2.38 0.587 2.51
27 0.93 1.97 0.845 2.09 0.767 2.216 0.691 2.34 0.616 2.47
28 0.95 1.96 0.874 2.07 0.798 2.188 0.723 2.31 0.650 2.43
29 0.97 1.94 0.900 2.05 0.826 2.164 0.753 2.28 0.682 2.40
30 1.00 1.93 0.926 2.03 0.854 2.141 0.772 2.25 0.712 2.36
31 1.02 1.92 0.950 2.02 0.879 2.120 0.810 2.23 0.741 2.33
32 1.04 1.91 0.972 2.00 0.904 2.102 0.836 2.20 0.769 2.31
33 1.06 1.90 0.994 1.99 0.927 2.085 0.861 2.18 0.795 2.28
34 1.08 1.89 1.015 1.98 0.950 2.069 0.885 2.16 0.821 2.26
35 1.10 1.88 1.034 1.97 0.971 2.054 0.908 2.14 0.845 2.24
36 1.11 1.88 1.053 1.96 0.991 2.041 0.930 2.13 0.868 2.22
37 1.13 1.87 1.071 1.95 1.001 2.029 0.951 2.11 0.891 2.20
38 1.15 1.86 1.088 1.94 1.029 2.017 0.970 2.10 0.912 2.18
39 1.16 1.86 1.104 1.93 1.047 2.007 0.990 2.09 0.932 2.16
40 1.18 1.85 1.120 1.92 1.064 1.997 1.008 2.07 0.952 2.15

177
TÀI LIỆU THAM KHẢO
[1] GS. TSKH. Vũ Thiếu, TS. Nguyễn Quang Dong và TS. Nguyễn Khắc Minh, Kinh Tế Lượng,
NXB KHKT, Hà Nội, 2001.
[2] Trần Văn Tùng, Mô Hình Kinh Tế Lượng, NXB ĐHQG Hà Nội, 1999.
[3] Nguyễn Khắc Minh, Các phương pháp phân tích và dự báo trong kinh tế, NXB Khoa học kỹ
thuật, 2002.
[4] Nguyễn Thống, Kinh tế lượng ứng dụng, NXB ĐHQG thành phố Hồ Chí Minh, 2000.
[5] Nguyễn Quang Dong, Giáo trình kinh tế lượng, NXB Thống kê, 2001.
[6] Hoàng Ngọc Nhậm, Giáo trình kinh tế lượng, Đại Học Kinh Tế TP. HCM, 2007.
[7] Phạm Chí Cao, Vũ Minh Châu, Kinh tế lượng ứng dụng, NXB Lao Động Xã Hội, 2006.
[8] Damodar N. Gujarati, Basic econometrics, Mc Graw-Hill Inc, Third Ed, 1995.
[9] R. Ramanathan, Introductory Econometrics With Applications, The Dryden Press – Harcourt
Brace College Publishers, 1997.
[10] William H. Greene, Econometric Analysis, MacMillan Publishing Company, NewYork, 1991.

178

You might also like