You are on page 1of 31

Chương 2

Dạng hàm của các mô hình hồi quy


(Gujarati: Econometrics by example, 2011) 1.
Người dịch và diễn giải: Phùng Thanh Bình
http://vnp.edu.vn/

C
Chúng ta sẽ nhớ lại rằng mối quan tâm của ta trong cuốn sách này chủ yếu là các mô
hình hồi quy tuyến tính, nghĩa là, các mô hình tuyến tính ở các tham số; chúng có thể
hoặc không tuyến tính ở các biến. Trong chương này, chúng ta xem xét một số mô hình
tuyến tính ở các tham số nhưng không nhất thiết như vậy ở các biến. Cụ thể, chúng ta
sẽ thảo luận các mô hình thường được sử dụng trong phân tích trong thực tế sau đây:
1. Các mô hình log-linear hoặc double log ở đó cả biến phụ thuộc và các biến giải
thích đều ở dạng logarít.
2. Các mô hình log-lin ở đó biến phụ thuộc có dạng logarít, nhưng các biến giải
thích có thể ở dạng logarít hoặc dạng tuyến tính.
3. Các mô hình lin-log ở đó biến phụ thuộc dạng tuyến tính, nhưng một hoặc nhiều
hơn các biến giải thích ở dạng logarít.
4. Các mô hình nghịch đảo ở đó các biến giải thích ở dạng nghịch đảo.
5. Các mô hình hồi quy với biến chuẩn hóa.
Chúng ta sẽ sử dụng một số ví dụ để minh họa các mô hình khác nhau ở chương này.
2.1 Các mô hình log - tuyến tính, log kép, hoặc hệ số co giãn cố định
Chúng ta xem xét hàm sản xuất Cobb-Douglas nổi tiếng, có thể được thể hiện như sau2:
Qi = B1LiB2KiB3 (2.1)
Trong đó: Q = output (sản lượng), L = labor input (nhập lượng lao động), K = capital
(vốn), và B1 hằng số.
Mô hình này là phi tuyến ở các tham số và để ước lượng mô hình này đúng như bản
chất của nó đòi hỏi các kỹ thuật ước lượng phi tuyến. Tuy nhiên, nếu chúng ta lấy log
của hàm số này, thì chúng ta sẽ có:
lnQi = lnB1 + B2lnLi + B3lnKi (2.2)
Trong đó, ln là logarít tự nhiên.
Đặt lnB1 = A, chúng ta có thể viết phương trình (2) như sau:
lnQi = A + B2lnLi + B3lnKi (2.3)

1
Hiện nay đã có ấn bản mới (lần 2, năm 2015). Dữ liệu của phiên bản 2011:
https://www.macmillanihe.com/companion/Gujarati-Econometrics-By-Example/student-zone/
2
Xem bất kỳ giáo trình kinh tế học vi mô nào để tìm hiểu về lịch sử và chi tiết về hàm sản xuất Cobb-Douglas.

1
Phương trình (2.3) là tuyến tính ở các tham số A, B2, và B3 và vì thế là một phương trình
tuyến tính, mặc dù nó là phương trình phi tuyến ở các biến Q, L, và K3.
Đưa thêm hạng nhiễu ui vào phương trình (2.3), chúng ta có mô hình hồi quy tuyến tính
sau đây:
lnQi = A + B2lnLi + B3lnKi + ui (2.4)
Phương trình (2.4) được biết với các tên gọi khác nhau như mô hình log-log, mô hình
log kép (double-log), mô hình log-tuyến tính (log-linear), hoặc mô hình hệ số co giãn cố
định (constant elasticity model), bởi vì cả biến phụ thuộc và các biến giải thích đều ở
dạng log.
Một đặc điểm thú vị của mô hình log-tuyến tính là các hệ số độ dốc có thể được giải
thích như là các hệ số co giãn4. Cụ thể, B2 là hệ số co giãn (riêng phần) của sản lượng
theo lao động, khi giữ nguyên các biến khác không đổi (ở đây là vốn, hay K). Nghĩa là,
hệ số này cho biết thay đổi phần trăm về lượng theo một thay đổi phần trăm của lao
động, khi các yếu tố khác được giữ nguyên5. Tương tự, B3 là hệ số co giãn (riêng phần)
của sản lượng theo vốn, khi giữ nguyên các biến khác không đổi. Vì các hệ số co giãn
này cố định trong cả mẫu quan sát được sử dụng, nên mô hình log kép cũng được gọi
là mô hình hệ số co giãn không đổi.
Một ưu điểm của các hệ số co giãn là chúng là các con số thuần khiết, nghĩa là, không
có các đơn vị đo lường trong các biến, chẳng hạn như theo đô la, số giờ lao động, số giờ
của vốn, bởi vì chúng là các tỷ số của những thay đổi phần trăm.
Một tính chất thú vị khác của hàm sản suất Cobb-Douglas là tổng của các hệ số co giãn
riêng phần, (B2 + B3), cung cấp thông tin về hiệu suất thay đổi theo quy mô (lưu
ý: returns to scale khác với economies of scale - lợi thế kinh tế nhờ quy mô nhé), nghĩa
là, sự phản ứng của xuất lượng theo một sự thay đổi tỷ lệ trong các nhập lượng. Nếu
tổng này bằng 1, thì ta có hiệu suất không đổi theo quy mô (constant returns to scale)
- nghĩa là, tăng gấp đôi các nhập lượng sẽ tăng gấp đôi xuất lượng, tăng gấp ba các nhập
lượng sẽ tăng gấp ba xuất lượng, và văn văn. Nếu tổng này nhỏn hơn 1, thì ta có hiệu
suất giảm theo quy mô (descreasing returns to scale) - nghĩa là, tăng gấp đôi các nhập
lượng xuất lượng sẽ không tăng gấp đôi. Cuối cùng, nếu tổng này lớn hơn 1, thì ta có
hiệu suất tăng theo quy mô (increasing returns to scale) - nghĩa là, tăng gấp đôi các
nhập lượng, xuất lượng tăng hơn gấp đôi.
Trước khi trình bày một ví dụ cụ thể, ta nên lưu ý rằng trong một mô hình hồi quy dạng
log - tuyến tính có liên quan đến nhiều biến, thì hệ số độ dốc của mỗi biến giải thích cho

3
Lưu ý: A = lnB1. Vì thế, B1 = anti-log(A), là phi tuyến tính. Tuy nhiên, trong hầu hết các ứng dụng, thì hệ số cắt có
thể không có bất kỳ giải thích kinh tế nào rõ ràng (viable economic interpretation).
4
Một hệ số co giãn đơn giản là tỷ số của thay đổi phần trăm trong một biến chia cho thay đổi phần trăm trong
một biến khác. Ví dụ, nếu Q là lượng và P là giá, thì thay đổi phần trăm trong lượng chia cho thay đổi phần trăm
trong giá được gọi là hệ số co giãn theo giá.
5
Tức là: B2 = ∂lnQ / ∂lnL = (∂Q/Q) / (∂L/L) = (∂Q/∂L) x (L/Q); trong đó, chúng ta sử dụng ∂ để chỉ rằng chúng ta
đang lấy đạo hàm riêng phần (partial derivative).

2
biết hệ số co giãn riêng phần của biến phụ thuộc (nhớ là không ở dạng log nhé) theo
biến giải thích đó, khi giữ nguyên các biến khác không đổi.
Hàm sản xuất Cobb-Douglas cho khu vực sản xuất của Mỹ
Để minh họa hàm Cobb-Douglas, ta sử dụng dữ liệu Bảng 2.1 về xuất lượng (được đo
bằng giá trị gia tăng, 1000 đô la), nhập lượng lao động (số giờ làm việc của công nhân,
1000 giờ), và nhập lượng vốn (chi tiêu vốn, 1000 đô la) cho khu vực sản xuất của Mỹ.
Dữ liệu chéo gồm 50 bang và thủ đô Washington trong năm 2005. Bảng dữ liệu này có
thể tìm thấy trên website của cuốn sách.
Giải thích kết quả
Điểm đầu tiên cần lưu ý là tất cả các hệ số hồi quy (tức là các hệ số co giãn) đều có ý
nghĩa thống kê rất cao vì giá trị p của mỗi hệ số rất thấp. Thứ hai, dựa trên thống kê F,
ta cũng có thể kết luận rằng hai yếu tố nhập lượng, lao động và vốn, kết hợp với nhau
có ý nghĩa thống kê rất cao bởi vì giá trị p của thống kê F rất thấp. Giá trị R2 là 0.96 cũng
khá cao, điều này là bất thường đối với dữ liệu chéo về các bang rất không đồng nhất.
Các tiêu chí Akaike và Schwazr là những thước đo thay thế của R2, các thước đo này sẽ
được thảo luận kỹ hơn ở phần sau của. Thống kê Durbin-Watson, mặc dù thường được
cung cấp sẵn bởi Eviews, nhưng có thể hoặc không phải luôn luôn hữu ích trong dữ liệu
chéo, mặc dù thỉnh thoảng nó là một dấu hiệu cho biết các lỗi sai dạng mô hình, như ta
sẽ thấy ở Chương 7 về các lỗi sai dạng mô hình.
Bảng 2.1: Hàm sản xuất Cobb-Douglas của Mỹ, 2005.
Dữ liệu: Table2-1
Lưu ý: Với Eviews, chúng ta có thể sử dụng log(Output), log(Labor), … mà không cần
phải tạo thêm các biến mới.

3
STATA

Hệ số của biến lnLABOR khoảng 0.47 được giải thích là nếu ta tăng nhập lượng lao
động thêm 1%, thì trung bình, sản lượng tăng thêm khoảng 0.47%, khi giữa nguyên
nhập lượng vốn không đổi. Tương tự, khi giữ nguyên nhập lượng lao động không đổi,
nếu ta tăng nhập lượng vốn thêm 1%, thì trung bình, sản lượng tăng
thêm khoảng 0.52%. Nói một cách tương đối, dường như một phần
trăm tăng thêm trong nhập lượng vốn đóng góp nhiều hơn cho sản lượng so với một
phần trăm tăng thêm trong nhập lượng lao động.
Tổng của hai hệ số độ dốc khoảng 0.9896, gần bằng 1. Điều này có thể cho biết
rằng hàm sản xuất Cobb-Douglas của Mỹ có đặc điểm là có hiệu suất không đổi theo
quy mô trong năm 20056.
Tiện thể, nếu em muốn trở lại hàm sản xuất ban đầu như được cho trong phương trình
(2.1), thì ta viết ra như sau:
Qi = 48.79Li0.47Ki0.52 (2.5)
Lưu ý: 48.79 là xấp xỉ của anti-log của 3.88767 [=EXP(3.8876)].
Đánh giá kết quả hồi quy
Mặc dù, được đánh giá bởi các tiêu chí thống kê thông dụng, kết quả của hàm sản xuất
Cobb-Douglas được cho ở Bảng 2.2 trong có vẻ ấn tượng, chúng ta phải cảnh giác với
khả năng xảy ra hiện tượng phương sai thay đổi. Đây là bởi vì mẫu của chúng ta bao
gồm các bang rất khác biệt, với các khu vực sản xuất rất khác nhau. Quy mô tự nhiên (vật
lý) và mật độ sản xuất cũng khác nhau giữa các bang. Ở Chương 5, bàn về phương sai
thay đổi, chúng ta sẽ xem xét lại hàm sản xuất Cobb-Douglas để tìm hiểu xem liệu có
vấn đề phương sai thay đổi hay không.
Ở Chương 7, bàn về các lỗi về xác định mô hình, chúng ta cũng sẽ tìm hiểu xem liệu
hạng nhiễu có theo phân phối chuẩn hay không, vì các kiểm định t và F phụ thuộc rất

6
Chúng ta sẽ không thảo luận ở đây câu hỏi liệu rằng một hàm sản xuất cho cả nước Mỹ nói chung có ý nghĩa hay
không. Lý thuyết về chủ đề này rất nhiều. Mục tiêu chính của chúng ta là để minh họa mô hình log kép.
7
Nhớ rằng A = ln B1, vì thế B1 = anti-log(A)

4
nhiều vào giả định phân phối chuẩn, đặc biệt là khi cỡ mẫu nhỏ. Trong chương 7, chúng
ta cũng sẽ xem xét liệu có bất kỳ lỗi xác định mô hình trong hàm sản xuất Cobb-Douglas
được sử dụng trong ví dụ của chúng ta hay không.
Mặc dù dạng mô hình log kép của hàm sản xuất Cobb-Douglas là dạng chuẩn trong lý
thuyết, nhưng vì các mục đích so sánh, chúng ta cũng trình bày kết quả hồi quy của hàm
sản xuất dạng tuyến tính như sau:
Outputi = A1 + A2Labori + A3Capitali + ui (2.6)
Kết quả hồi quy này được trình bày ở Bảng 2.3.
Bảng 2.3: Hàm sản xuất tuyến tính.

STATA

5
Các hệ số của lao động và vốn trong mô hồi quy này có ý nghĩa thống kê rất cao. Nếu
nhập lượng lao động tăng thêm một đơn vị, sản lượng trung bình tăng thêm 48 đơn vị,
khi giữ nguyên lượng vốn không đổi. Tương tự, nếu nhập lượng vốn tăng thêm một đơn
vị, sản lượng, trung bình, tăng thêm khoảng 10 đơn vị, khi các yếu tố khác được giữ
nguyên. Lưu ý rằng việc giải thích về các hệ số độ dốc trong hàm sản xuất dạng log -
tuyến tính và các hệ số độ dốc trong hàm sản xuất dạng tuyến tính là khác nhau.
Mô hình nào tốt hơn, mô hình tuyến tính hay mô hình log - tuyến tính? Không may, ta
không thể so sánh hai mô hình này một cách trực tiếp, vì biến phụ thuộc trong hai mô
hình này khác nhau. Ta cũng không thể so sánh các giá trị R2 của hai mô hình, bởi vì để
so sánh các giá trị R2 của bất kỳ hai mô hình nào, biến phụ thuộc phải giống nhau trong
hai mô hình. Ở mục 2.8, ta sẽ thấy làm sao để có thể so sánh giữa các mô hình tuyến
tính và log - tuyến tính.
2.2 Kiểm định độ chuẩn xác của các ràng buộc tuyến tính
Hàm sản xuất Cobb-Douglas dạng log-tuyến tính phù hợp với dữ liệu sản xuất cho thấy
rằng tổng các hệ số co giãn của sản lượng theo lao động và của sản lượng theo vốn là
0.9896, xấp xỉ bằng 1. Con số này có thể nói lên rằng ngành công nghiệp sản xuất của
Mỹ có hiệu suất không đổi theo quy mô. Làm sao ta có thể kiểm định giả thuyết này.
Nếu thức sự B1 + B2 = 1, đó là một ví dụ của một ràng buộc tuyến tính (linear restriction),
một cách kiểm định giả thuyết hiệu suất không đổi theo quy mô là đưa ràng buộc này
một các trực tiếp vào thủ tục ước lượng. Để thấy điều này được thực hiện như thế nào,
ta có thể viết:
B2 = 1 - B 3 (2.7)8
Vì thế, chúng ta có thể viết hàm sản xuất Cobb-Douglas dạng log-tuyến tính như sau:
lnQi = A + (1 – B3)lnLi + B3lnKi + ui (2.8)
Gom các số hạng lại, chúng ta có thể viết phương trình (2.8) như sau:
lnQi - lnLi = A + B3(lnKi - lnLi) + ui (2.9)
Sử dụng các tính chất của logarít, chúng ta có thể viết phương trình này như sau9:
ln(Qi / Li) = A + B3ln(Ki / Li) + ui (2.10)
Trong đó, (Qi/Li) là tỷ số sản lượng trên lao động, tức là năng suất lao động, và (Ki/Li) là
tỷ số vốn trên lao động; hai trong số những tỷ số quan trọng của tăng trưởng và phát
triển kinh tế.
Diễn đạt bằng lời, phương trình (2.10) phát biểu rằng năng suất lao động là một hàm
của tỷ số vốn/lao động. Chúng ta gọi phương trình (2.10) là mô hình hồi quy bị giới hạn
(RS), và phương trình gốc (2.10) là mô hình hồi quy không bị giới hạn (URS) vì nhiều lý
do hiễn nhiên.

8
Chúng ta cũng có thể thể hiện ràng buộc tuyến tính như sau: B3 = 1 – B2.
9
Lưu ý rằng ln XY = ln X + ln Y; ln(X / Y) = ln X – ln Y; ln Xk = k ln X (với k là một hằng số), nhưng lưu ý rằng ln (X + Y)
 ln X + ln Y.

6
Một khi chúng ta ước lượng phương trình (2.10) bằng OLS, chúng ta có thể có được giá
trị ước lượng của B3, từ đó ta có thể dễ dàng có được giá trị của B2 thông qua ràng
buộc tuyến tính (B2 + B3 = 1). Làm sao chúng ta có thể quyết định được ràng buộc này
là chuẩn xác? Để trả lời câu hỏi này, trước hết chúng ta trình bày kết quả hồi quy dựa
theo phương trình (2.10): Bảng 2.4.

Bảng 2.4: Hàm sản xuất Cobb-Douglas với ràng buộc tuyến tính.
STATA
. gen lnoutlab=ln(output/labor)
. gen lncaplab=ln(capital/labor)

7
Các kết quả này cho thấy rằng nếu tỷ số vốn/lao động tăng thêm 1%, thì năng suất lao
động tăng thêm khoảng 0.5%. Nói cách khác, hệ số co giãn của năng suất lao động theo
tỷ số của vốn/lao động là 0.5, và hệ số co giãn này có ý nghĩa rất cao. Lưu ý là R2 khoảng
0.38 thì không thể so sánh một cách trực tiếp với giá trị R2 ở Bảng 2.2 bởi vì biến phụ
thuộc ở hai mô hình là khác nhau.
Để kiểm định độ chuẩn xác của ràng buộc tuyến tính, trước hết chúng ta cần định nghĩa:
• RSSR = Residual Sum of Squares from the restricted regression, Eq.(2.10) [tổng
bình phương phần dư từ hồi quy bị ràng buộc, phương trình (2.10)].
• RSSUR = Residual Sum of Squares from the unrestricted regression, Eq.(2.4) [tổng
bình phương phần dư từ hồi quy không bị ràng buộc, phương trình (2.4)].
• m = number of linear restrictions [số ràng buộc tuyến tính, là 1 trong ví dụ hiện
tại].
• k = number of parameters in the unrestricted regression [số tham số trong mô
hình hồi quy không bị giới hạn, là 3 trong ví dụ hiện tại].
• n = number of observations [số quan sát, là 51 trong ví dụ hiện tại].
Bây giờ để kiểm định độ chuẩn xác của ràng buộc tuyến tính, ta sử dụng một biến
thể của thống kê F đã được thảo luận ở Chương 110:
(RSSR − RSSUR )
m
F= RSSUR ~ Fm, (n-k) (2.11)
(n−k)
theo phân phối xác suất F, trong đó m và (n - k) là các bậc tự do của tử và mẫu. Cần lưu
ý rằng RSSR không bao giờ bé hơn RSSUR, cho nên tỷ số F luôn luôn không âm.
Như thường lệ, nếu giá trị F tính toán lớn hơn giá trị F phê phán (tra bảng) tại mức ý
nghĩa được chọn và bậc tự do thích hợp, chúng ta bác bỏ giả thuyết không; ngược lại,
ta không thể bác bỏ giả thuyết không.
Từ Bảng 2.2, ta có RSSUR = 3.4155 và từ Bảng 2.4, ta có RSSR = 3.4255. Chúng ta biết
rằng m = 1 và n = 51. Thay các giá trị này vào phương trình (2.11), chúng ta sẽ thấy rằng
giá trị F tính toán khoảng 0.142. Với bậc tự do của tử là 1 bậc tự do của mẫu là 48, giá
trị F này không có ý nghĩa thống kê [=F.INV(95%,1,48) = 4.0427]; thực vậy, giá trị xác
suất p để có giá trị F như thế (tức mức ý nghĩa chính xác) là khoảng 0.29
[=F.DIST(0.142,1,48,TRUE) = 0.29]. Vì thế, kết luận trong ví dụ hiện tại là hàm sản xuất
Cobb-Douglas trong Bảng 2.2 có thể thể hiện hiệu suất không đổi theo quy mô. Cho nên
không có rủi ro gì khi sử dụng hàm sản xuất như được cho ở phương trình (2.10). Nhưng
cần nhấn mạnh rằng thủ tục kiểm định F được trình bày ở trên chỉ có giá trị (hiệu lực)
đối với ràng buộc tuyến tính; thủ tục này không có hiệu lực đối với các ràng buộc phi
tuyến, chẳng hạn như B2B3 = 1.

10
Để biết thêm chi tiết, xem Gujarati/Porter, pp. 243 – 6.

8
HƯỚNG DẪN KIỂM ĐỊNH RÀNG BUỘC TUYẾN TÍNH TRÊN EVIEWS VÀ STATA

9
STATA

2.3 Các mô hình dạng log-lin hoặc các mô hình tăng trưởng
Một chủ đề rất được quan tâm của các nhà kinh tế, chính phủ, giới kinh doanh, và những
nhà làm chính sách là tốc độ tăng trưởng của các biến kinh tế chủ chốt như GDP, cung
tiền, dân số, việc làm, năng suất, và lãi suất.
Để biết tốc độ tăng trưởng của một biến kinh tế có thể được đo như thế nào, chúng ta
tiến hành như sau. Cụ thể, giả sử chúng ta muốn đo tốc độ tăng trưởng của GDP thực
(tức là GDP được điều chỉnh lạm phát) của Mỹ giai đoạn 1960-2007. Vì mục đích này,
giả sử chúng ta sử dụng mô hình sau đây:
RGDPt = RGDP1960(1 + r)t (2.12)
Trong đó, RGDP là GDP thực, r tốc độ tăng trưởng, và t là thời gian được đo theo thứ tự
thời gian (tức từ 1, 2, …, T).
Phương trình (2.12) là công thức lãi kép (compound interest formula) rất phổ biến trong
tài chính căn bản. Lấy log tự nhiên hai vế của phương trình (2.12), chúng ta có:
ln RGDPt = ln RGDP1960 + t ln(1 + r) (2.13)

10
Bây giờ, đặt B1 = ln RGDP1960 và B2 = ln (1 + r), chúng ta có thể viết phương trình (2.13)
như sau:
ln RGDPt = B1 + B2t (2.14)
Đưa thêm hạng nhiễu ut vào phương trình (2.14), chúng ta có mô hình hồi quy
sau đây11:
ln RGDPt = B1 + B2t + ut (2.15)
Phương trình (2.15) giống bất kỳ một mô hình hồi quy nào khác; điểm khác biệt duy
nhất là ở đây biến giải thích là "thời gian", biến này có các giá trị 1, 2, ..., 47.
Mô hình (2.15) được gọi là mô hình bán log (semilog) bởi vì chỉ một biến (trong trường
hợp này là biến phụ thuộc) xuất hiện ở dạng log, trong khi đó biến giải thích (ở đây là
biến thời gian) ở dạng tuyến tính. Vì các mục đích mô tả, ta gọi phương trình (2.15) là
mô hình log-lin (log-lin model).
Phương trình (2.15) có thể được ước lượng theo thủ tục OLS thông thường. Nhưng
trước khi trình bày kết quả hồi quy, ta cần lưu ý rằng hệ số độ dốc B2 trong phương trình
(2.14) đo lường một sự thay đổi tỷ lệ hay thay đổi tương đối trong biến phụ thuộc theo
một sự thay đổi tuyệt đối cho trước trong giá trị của biến giải thích. Đó là,
(thay đổi tương đối trong biến phụ thuộc)
B2 = ------------------------------------------------------- (2.16)12
(thay đổi tuyệt đối trong biến giải thích)

Trong thực tế, ta nhân B2 cho 100 để tính thay đổi phần trăm, hoặc tốc độ tăng trưởng
(growth rate); 100 nhân B2 cũng được biết như là hệ số bán co giãn (semi-elasticity) của
biến phụ thuộc theo biến giải thích.
Kết quả hồi quy
Sử dụng dữ liệu GDP thực của Mỹ giai đoạn 1960-2007, ta thu được kết quả hồi quy
như trong Bảng 2.6. Tập tin Table 2.5 có thể được tìm thấy trên website của cuốn sách.
Bảng 2.6: Tốc độ tăng trưởng GDP thực của Mỹ, 1960-2007.

11
Chúng ta đưa hạng nhiễu để tính đến khả năng công thức lãi kép có thể không đúng chính xác.
12
Các bạn đọc quen với giải tích có thể lấy sai phân (differentiate) phương trình (2.15) theo t, để có: d(lnRGDP) /
dt = B2. Nhưng d(lnRGDP) / dt = (1/RGDP) x (d(RGDP) / dt, đó là một thay đổi tương đối trong RGDP.

11
STATA

Giải thích các kết quả


Các kết quả này cho thấy rằng trong giai đoạn 1960-2007, GDP thực của Mỹ đã tăng với
tốc độ 3.15% một năm. Tốc độ tăng trưởng này có ý nghĩa thống kê, vì giá trị t ước lượng
(tính toán) khoảng 90.82 là có ý nghĩa rất cao.
Còn giải thích hệ số cắt như thế nào? Nếu em lấy anti-log của 7.8756, chúng ta có anti-
log(7.8756) tức exp(7.8756 )= 2632.27, đó là giá trị bắt đầu của chuỗi GDP thực, nghĩa
là, giá trị vào đầu năm 1960, điểm khởi đầu của chúng ta. Giá trị thực của RGDP năm
1960 là khoảng 2501.8 tỷ đô la.
Hình 2.1 là đồ thị phân tán (scatter diagram) của log của GDP thực và thời gian và đường
hồi quy phù hợp (fitted regression line).
Lưu ý về mặt kỹ thuật: Hệ số B2 cho biết tốc độ tăng trưởng tức thời (tại một thời điểm,
instantaneous rate of growth) chứ không phải là tốc độ tăng trưởng kép (qua một giai
đoạn, compound rate of growth), r. Nhưng cũng dễ dàng tính được tốc độ tăng trưởng
kép, lưu ý rằng B2 = ln(1 + r). Vì thế, r = anti-log(B2) - 1. Bây giờ lấy anti-log (B2) =
1.03199. Vì thế, tốc độ tăng trưởng kép là 0.03199 hoặc khoảng 3.2%, hơi cao hơn so
với tốc độ tăng trưởng tức thời khoảng 3.1%. Khác biệt này là do việc tính kép.

12
9.40
9.30
9.20
9.10
9.00
8.90
8.80
8.70
LNRGDP

8.60
8.50
8.40
8.30
8.20
8.10
8.00
7.90
7.80
0 2 4 6 8 10 13 16 19 22 25 28 31 34 37 40 43 46 49

TIME

Hình 2.1: Log của GDP thực, 1960 – 2007.


Mô hình Xu thế tuyến tính
Giả sử rằng, thay vì ước lượng mô hình tăng trưởng (2.14), chúng ta ước lượng mô hình
sau đây:
RGDPt = A1 + A2time + ut (2.17)
Đây được gọi là mô hình xu thế tuyến tính và biến thời gian được gọi là biến xu thế. Hệ
số độ dốc A2 trong mô hình này cho biết thay đổi tuyệt đối (chứ không phải thay đổi
tương đối) trong RGDP trên một đơn vị thời gian. Nếu A2 dương, thì chúng ta có xu thế
tăng trong RGDP, nhưng nếu âm, thì chúng ta có xu thế giảm trong RGDP hay bất kỳ
biến phụ thuộc nào.
Sử dụng dữ liệu trong Table 2.5, chúng ta thu được kết quả hồi quy như trong Bảng 2.7.
Bảng 2.7: Xu thế trong GDP thực của Mỹ, 1960-2007.

13
Các kết quả cho thấy rằng trong giai đoạn 1960-2007, GDP thực của Mỹ tăng
khoảng 187 tỷ đô lamột năm, cho thấy xu thế tăng - phát hiện này không có gì đáng
ngạc nhiên.
Việc chọn lựa giữa mô hình tăng trưởng như phương trình (2.15) và mô hình xu thế
tuyến tính như phương trình (2.17) là tùy vào người nghiên cứu, mặc dù để so
sánh RGDP giữa các vùng hoặc các nước thì mô hình tăng trưởng có lẽ thích hợp hơn.
Lưu ý rằng vì các biến phụ thuộc trong mô hình log-lin và mô hình xu thế tuyến tính là
khác nhau, nên sẽ không phù hợp nếu so sánh hai giá trị R2 để xác định nên chọn mô
hình nào. Nhưng chúng ta sẽ bàn vấn đề này kỹ hơn ở Mục 2.7.
Vì ta đang sử dụng dữ liệu chuỗi thời gian, nên thống kê Durbin-Watson, một thước đo
sự tự tương quan trong hạng nhiễu, là một thống kê quan trọng. Trong Chương 6 về tự
tương quan ta sẽ biết các giải thích thống kê này như thế nào. Còn bây giờ chỉ cần biết
rằng nếu không có tự tương quan thì giá trị của thống kê Durbin-Watson khoảng bằng
213; giá trị này càng gần bằng 0, thì càng có bằng chứng của sự tự tương quan.
2.4 Lin-log models
Trong mô hình log-lin hoặc mô hình tăng trưởng, chúng ta quan tâm đến việc đi tìm
tăng trưởng phần trăm trong biến phụ thuộc theo một thay đổi đơn vị trong biến giải
thích. Còn việc đo lường thay đổi tuyệt đối trong biến phụ thuộc theo một thay đổi phần
trăm trong biến giải thích thì sao? Nếu đó là mục tiêu phân tích, thì chúng ta có thể ước
lượng mô hình sau đây:
Yi = B1 + B2lnXi + ui (2.18)

13
Như chúng ta sẽ thấy ở chương 6 của cuốn sách này, thống kê này dựa trên một số giả định.

14
Chúng ta gọi phương trình (2.18) là mô hình lin-log, vì nhiều lý do.
Hệ số độ dốc B2 của mô hình này cho chúng ta biết điều gì? Như ta biết, hệ số độ dốc
cho biết sự thay đổi trong Y theo một sự thay đổi đơn vị trong biến giải thích. Vì thế,
(thay đổi tuyệt đối trong biến Y)
B2 = ------------------------------------------
(thay đổi trong biến lnX)

(thay đổi tuyệt đối trong biến Y)


= ------------------------------------------ (2.19)
(thay đổi tương đối trong biến X)
Nhớ rằng một thay đổi trong log của một con số là một thay đổi tương đối, hoặc một
thay đổi phần trăm, sau khi nhân với 100.
Đặt  là một sự thay đổi nhỏ, chúng ta có thể viết phương trình (2.19) như sau:
Y
B2 = (2.20)
X/X
Hoặc
Y = B2(X/X) (2.21)
Phương trình (2.21) phát biểu rằng thay đổi tuyệt đối trong Y (= Y) bằng độ dốc nhân
với thay đổi tương đối trong X. Vì vậy, nếu (X/X) thay đổi 0.01 đơn vị (hoặc 1%), thì
thay đổi tuyệt đối của Y là 0.01(B2). Nếu trong một ứng dụng chúng ta có B2 = 200, thì
thay đổi tuyệt đối trong Y là 0.01(200) = 2.
Vì thế, khi chúng ta ước lượng một phương trình như phương trình (2.18), đừng quên
nhân giá trị của hệ số độ dốc ước lượng với 0.01 hoặc (lấy b2 chia cho 100). Nếu bạn
không theo quy trình này, bạn có thể rút ra các kết luận sai từ kết quả hồi quy.
Mô hình lin-log đã được sử dụng trong các hàm chi tiêu Engel, tên mô hình được đặt
theo tên nhà thống kê người Đức Ernst Engel (1821 - 1896). Engel cho rằng “tổng chi
tiêu cho lương thực có xu hướng tăng theo cấp số cộng khi tổng tổng chi tiêu tăng tỷ lệ
cấp số nhân14. Một cách khác để thể hiện điều này là tỷ phần của chi tiêu cho lương
thực giảm khi tổng chi tiêu tăng.
Để làm rõ vấn đề này, Table 2.8 là dữ liệu về thực phẩm và nước giải khát không có nồng
độ cồn được tiêu dùng tại nhà (Expfood) và tổng chi tiêu của hộ gia đình (Expend), cả
hai tính bằng đôla năm 1995 của 869 hộ gia đình Mỹ15. Bảng này có thể được tìm thấy
trên trang Web của cuốn sách.

14
Câu này trích từ H. Working (1943), Statistical laws of family expenditure, Journal of American Statistical
Association, vol. 38, pp. 43-56.
15
Đây là một mẫu ngẫu nhiên từ dữ liệu thu thập khoảng 5000 hộ gia đình trong điều tra bằng phỏng vấn theo
quý về chi tiêu của người tiêu dùng được thực hiện bởi Phòng lao động, Cục thống kê Mỹ. Dữ liệu được sử dụng
ở đây đã được thảo luận trong Christopher Dougherty, Introduction to Econometrics, 3 rd edn, Oxford University
Press.

15
Kết quả hồi quy về tỷ phần chi tiêu cho lương thực (SFDHO) trong tổng chi tiêu được
cho ở Bảng 2.9.
Bảng 2.9: Mô hình lin-log về chi tiêu cho lương thực

Tất cả các hệ số ước lượng đều có ý nghĩa thống kê cao. Giải thích hệ số độ dốc khoảng
– 0.08 là nếu tổng chi tiêu tăng 1%, thì trung bình, tỷ phần chi tiêu cho lương thực và
nước giải khát không có độ cồn giảm khoảng 0.0008 đơn vị, như vậy kết quả này ủng hộ
giả thuyết của Engel. Điều này có thể được thấy rõ hơn trong Hình 2.2. (Lưu ý: Đừng
quên chia hệ số độ dốc cho 100). Nói cách khác, hệ số độ dốc có thể được giải thích như
sau: Nếu tổng chi tiêu tăng 100%, thì trung bình, tỷ phần của chi tiêu cho lương thực và
nước giải khát không có độ cồn giảm khoảng 0.08 đơn vị.

Hướng dẫn vẽ đồ thị 2.2 trên Eviews:


Quick/Graph … nhập 2 biến LOG(EXPEND) SFDHO

16
.76
.72
.68
.64
.60
.56
.52
.48
.44
SFDHO

.40
.36
.32
.28
.24
.20
.16
.12
.08
.04
.00
8.0 8.3 8.6 8.9 9.2 9.5 9.8 10.2 10.6 11.0 11.4 11.8

LOG(EXPEND)
Hình 2.2: SFDHO và log của chi tiêu.

Mặc dù chúng ta xác định một mô hình lin-log phù hợp với dữ liệu, Hình 2.2 cho thấy
mối quan hệ giữa SFDHO và log(EXPEND) dường như dạng phi tuyến. Có nhiều phương
pháp thể hiện các mối quan hệ phi tuyến giữa các biến, như các mô hình nghịch đảo
(reciprocal) hoặc các mô hình hồi quy đa thức (polynomial regression models), sẽ được
thảo luận ngay sau đây.
2.5 Các mô hình nghịch đảo
Đôi khi chúng ta gặp phải các tình huống ở đó mối quan hệ giữa biến phụ thuộc và (các)
biến giải thích dạng nghịch đảo, như trong mô hình hồi quy sau đây:
1
Yi = B1 + B2( ) + ui (2.22)
Xi
Mô hình này là phi tuyến ở X bới vì biến này được đưa vào mô hình một cách nghịch
đảo, nhưng vẫn là mô hình hồi quy tuyến tính bởi vì các tham số, Bs, là tuyến tính.
Một số tính chất của mô hình này như sau. Khi X tăng vô cùng, thì số hạng B2(1/Xi) dần
về 0 (lưu ý: B2 là một hằng số) và Y dần về giá trị giới hạn hoặc giá trị tiệm cận B1. Hệ số
dốc của phương trình (2.22) được cho bởi công thức sau đây:

17
dYi 1
= −B2 ( 2 )
dXi Xi
Vì thế, nếu B2 dương, thì độ dốc âm, và nếu B2 âm, thì độ dốc dương.

Ví dụ minh họa: Xem xét lại chi tiêu cho lương thực
Trong phần trước, chúng ta xác định mô hình phù hợp cho mối quan hệ giữa chi tiêu
cho lương thực và tổng chi tiêu là mô hình dạng lin-log. Chúng ta hãy xem liệu mô hình
nghịch đảo cũng có thể phù hợp với dữ liệu này không. Vì vậy chúng ta ước lượng (Bảng
2.10):
1
SFDHOi = B1 + B2(
EXPENDi ) + ui (2.23)

Bảng 2.10: Mô hình nghịch đảo về chi tiêu cho lương thực.

Giải thích kết quả


Cả hai hệ số hồi quy đều có ý nghĩa thống kê cao, vì các giá trị xác suất p thực tế bằng
0. Giá trị của hệ số cắt khoảng 0.08 cho biết rằng nếu tổng chi tiêu tăng lên vô cùng, thì
tỷ phần chi tiêu cho lương thực và nước uống không có độ cồn cuối cùng sẽ tiệm cận về
mức 8%. Hệ số độ dốc B2 dương, cho biết rằng tỷ lệ thay đổi của SFDHO theo tổng chi
tiêu sẽ âm. Điều này có thể thấy rõ ràng hơn trên Hình 2.3.
Hướng dẫn vẽ trên Eviews: Quick/Graph … nhập tên biến theo thứ tự EXPEND SFDHO,
…, chọn Scatter, sau đó định dạng lại.

18
.76
.72
.68
.64
.60
.56
.52
.48
.44
SFDHO

.40
.36
.32
.28
.24
.20
.16
.12
.08
.04
.00
0 12,000 32,000 52,000 72,000 92,000 112,000 136,000

EXPEND

Hình 2.3: Tỷ phần chi tiêu cho lương thực trong tổng chi tiêu.
Nếu bạn so sánh Hình 2.2 với Hình 2.3, bạn sẽ thấy rằng chúng tương tự nhau về mặt
hình dáng. Câu hỏi thực tế là: mô hình nào tốt hơn – lin-log hay nghịch đảo?
Đây là một vấn đề phổ biến trong nghiên cứu thực nghiệm – tức là lực chọn mô hình
phù hợp. Vì cả hai mô hình phù hợp với dữ liệu một cách rất hợp lý, nên rất khó để
chúng ta chọn lựa giữa hai mô hình này. Trên cơ sở tiêu chí R2, mô hình lin-log cho chúng
ta giá trị R2 hơi cao hơn, nhưng khác biệt trong hai giá trị R2 không lớn lắm. Nhân tiện,
hãy lưu ý rằng chúng ta có thể so sánh hai giá trị R2 bởi vì biến phụ thuộc trong hai mô
hình là giống nhau.

2.6 Các mô hình hồi quy đa thức


Chúng ta hãy xem xét lại mô hình tuyến tính đã được xem xét ở phương trình (2.17),
trong đó chúng ta hồi quy GDP thực (RGDP) theo biến xu thế, time. Bây giờ xem xét mô
hình sau đây:
RGDPt = A1 + A2time + A3time2 + ut (2.24)
Phương trình (2.24) là một ví dụ của một hàm bậc hai (quadratic function), hoặc nói
chung hơn, một hàm đa thức bậc hai (second-degree polynomial) theo biến time. Nếu
chúng ta đưa thêm time3 vào mô hình, chúng ta sẽ có mô hình đa thức bậc ba, nghĩa là,
lũy thừa cao nhất (highest power) của biến giải thích thể hiện bậc của mô hình đa thức.
Điểm đầu tiên cần lưu ý về phương trình (2.24) là đó là một mô hình hồi quy tuyến tính,
nghĩa là, tuyến tính ở các tham số, mặc dù biến time đưa vào mô hình ở cả hai dạng
tuyến tính và bậc hai. Thứ hai, các biến time và time2 có quan hệ hàm số và sẽ tương
quan với nhau rất cao. Điều này có gây ra vấn đề đa cộng tuyến hay không? [Nghĩa là sẽ
phá vỡ một trong số các giả định của mô hình hồi quy tuyến tính cổ điển là không có
19
các mối quan hệ tuyến tính chính xác (exact linear relations) nào giữa các biến giải thích].
Không, bởi vì time3 là một hàm phi tuyến của time.
Sử dụng dữ liệu về RGDP, chúng ta có kết quả hồi quy như trong Bảng 2.11.
Thứ nhất, lưu ý rằng tất cả các hệ số ước lượng đều có ý nghĩa thống kê, giả định rằng
các giả định thông thường của các mô hình hồi quy tuyến tính cổ điển đều thỏa mãn.
Chúng ta giải thích các kết quả này như thế nào? Trong phương trình (2.17) chỉ với biết
time là biến giải thích, hệ số của biến time là khoảng 186.99 (xem bảng 2.7), cho biết
rằng RGDP gia tăng bởi một lượng không đổi 186.99 tỷ đôla một năm.
Bảng 2.11: Mô hình đa thức về GDP của Mỹ, 1960-2007.

Nhưng đối với mô hình đa thức bậc hai, RGDP tăng với một tốc độ tăng dần bởi vì cả hai
hệ số của time và time2 đều dương. Để thấy điều này một cách khác, đối với mô hình
bậc hai được cho ở phương trình (2.24), tốc độ thay đổi của RGDP được tính như sau:
d(RGDP) / d(time) = A2 + 2A3time (2.25)
Tốc độ thay đổi này dương bởi vì cả A2 và A3 đều dương.
Lưu ý: Vế trái của phương trình này là đạo hàm của RGDP theo biến time.
Sử dụng kết quả trong Bảng 2.11, chúng ta có:
d(RGDP) / d(time) = 68.53 + 2(2.42)time (2.26)
= 68.53 + 4.84time
Như phương trình (2.26) cho thấy, tỷ lệ thay đổi của RGDP phụ thuộc vào thời gian tại
đó tỷ lệ thay đổi được tính. Đây là khác biệt lớn so với mô hình xu thế tuyến tính, phương
trình (2.17), cho biết một tỷ lệ thay đổi cố định khoảng 187 tỷ đôla một năm16.

16
Nếu bạn lấy đạo hàm bậc hai phương trình (2.25) theo thời gian, bạn sẽ có được giá trị 4.84. Vì thế nó là tỷ lệ
thay đổi của tỷ lệ thay đổi là cố định quan thời gian. (Lưu ý đạo hàm bậc hai hàm ý rằng RGDP tăng với một tốc độ
tăng dần).

20
Mô hình log-lin với biến xu thế bậc hai
Thay vì ước lượng phương trình (2.24) giả sử rằng chúng ta ước lượng mô hình sau đây:
ln RGDPt = B1 + B2t + B3t3 + ut (2.27)
Kết quả hồi quy của mô hình này được cho ở Bảng 2.12.
Bảng 2.12: Mô hình đa thức của log GDP của Mỹ, 1960-2007.

Điều thú vị cần lưu ý rằng trong Bảng 2.11 các hệ số của biến xu thế và xu thế bình
phương đều dương, trong khi đó trong Bảng 2.12 hệ số biến xu thế dương nhưng hệ số
của biến xu thế bình phương âm. Điều này cho thấy rằng mặc dù tỷ lệ tăng trưởng của
RGDP là dương, nhưng tăng với tốc độ giảm dần. Để thấy rõ hơn, lấy đạo hàm phương
trình (2.27) theo thời gian, chúng ta có:
d(ln RGDP) / d(t) = B2 + 2B3t (2.28)17
Nghĩa là,
1 𝑑RGDP
= 𝐵2 + 2𝐵3 𝑡 (2.29)
𝑅𝐺𝐷𝑃 𝑡
Nhưng vế trái của phương trình này là tỷ lệ tăng trưởng của RGDP.
Tỷ lệ tăng trưởng của RGDP = B2 + 2B3t (2.30)
= 0.0365 – 0.0002t
Như phương trình (2.30) cho thấy, tỷ lệ tăng trưởng của RGDP giảm với mức
0.0002/năm.

17
Nhớ lại rằng d lnY / Dx = (1/Y)Dy / dX, đó là một thay đổi tương đối trong Y. Nếu nó được nhân với 100, thì đó
sẽ là sự thay đổi phần trăm của Y hoặc tỷ lệ tăng trưởng của Y. Điểm cần lưu ý là sự thay đổi trong log của một
biến là một sự thay đổi tương đối.

21
Lưu ý rằng trong phương trình (2.24) chúng ta đang đo lường tỷ lệ thay đổi của RGDP,
nhưng trong phương trình (2.27) chúng ta đang đo lường tỷ lệ tăng trưởng RGDP. Có
nhiều thước đo khác nhau.

2.7 Lực chọn dạng hàm


Một vấn đề thực tế trong việc thực hiện nghiên cứu thực nghiệm là quyết định dạng
hàm của mô hình hồi quy phù hợp trong một tình huống nhất định. Trong mô hình hồi
quy hai biến, sự lựa chọn này thường không khó bởi vì chúng ta luôn luôn có thể vẽ đồ
thị của biến phụ thuộc và biến giải thích, và quyết định dạng hàm theo cảm nhận trực
quan. Nhưng đối với các mô hình hồi quy bội, thì sự lựa chọn này không còn dễ dàng
nữa, vì rất khó để vẽ một đồ thị đa chiều.
Vì thế, trong thực tế, chúng ta cần biết các tính chất của các mô hình mà chúng ta đã
thảo luận ở chương này. Một cách để hoàn thành việc lựa chọn dạng hàm là phải xem
xét các hệ số độ dốc và hệ số co giãn của các mô hình khác nhau. Một tóm tắt được
trình bày ở Bảng 2.13.
Bảng 2.13: Tóm tắt các dạng hàm.

Nếu có nhiều hơn một biến giải thích, bạn có thể tính các hệ số độ dốc và hệ số co giãn
riêng phần, giữ nguyên các biến khác trong mô hình18.
[Diễn giãi: Trong thực tế, một mô hình hồi quy thường là kết hợp của nhiều dạng hàm
tùy vào mối quan hệ giữa biến phụ thuộc và từ biến giải thích].
2.8 So sánh các mô hình tuyến tính và phi tuyến
Một vấn đề thường gặp trong nghiên cứu là lựa chọn giữa các mô hình tuyến tính và
log-tuyến tính19. Xem xét thảo luận của chúng ta về hàm sản xuất cho nền kinh tế Mỹ.
18
Ví dụ, đối với mô hình Y = B1 + B2X + B3X2, hệ số độ dốc là dy / dx = B2 + 2B3X và hệ số co giãn là (dy / dx)(X / Y) =
(B2 + 2B3X)(X / Y) và hệ số co giãn này phụ thuộc vào các giá trị của X và Y.
19
Trong mô hình log-tuyến tính, biến phụ thuộc ở lạng log, nhưng biến giải thích có thể ở dạng log hoặc dạng
tuyến tính.

22
Phương trình (2.4) là một ví dụ về hàm sản xuất log-tuyến tính, hàm sản xuất Cobb-
Douglas, trong khi phương trình (2.6) là một ví dụ về hàm sản xuất tuyến tính. Mô hình
nào tốt hơn đối với dữ liệu trong Table 2.1? Chúng ta đã trình bày kết quả hồi quy của
các mô hình này trong các Bảng 2.2 và 2.3.
Cả hai mô hình rất phù hợp với dữ liệu. Nhưng chúng ta không thể so sánh một cách
trực tiếp giữa các mô hình, bởi vì các biến phụ thuộc trong hai mô hình là khác nhau.
Nhưng một biến đổi đơn giản về biến phụ thuộc có thể làm cho hai mô hình có thể so
sánh được với nhau. Chúng ta thực hiện theo các bước sau đây:
• Bước 1: Tính trung bình hình học (geometric mean, GM) của biến phụ thuộc; gọi
nó là Q*20. Đối với dữ liệu trong Bảng 2.1, GM của biến sản lượng là e16.941139 =
22842628. [Eviews: @gmean(tên biến)].
• Bước 2: Chia Qi cho Q* để có: (Qi / Q*) = Q̃𝑖.
• Bước 3: Ước lượng phương trình (2.4) sử dụng Q ̃ 𝑖 thay cho Qi như là biến phụ
̃ 𝑖 làm biến phụ thuộc).
thuộc (tức là, sử dụ ln Q
• Bước 4: Ước lượng phương trình (2.6) sử dụng Q ̃ 𝑖 làm biến phụ thuộc thay vì Qi.
Các biến phụ thuộc được chuyển đổi vì thế bây giờ có thể so sánh được với nhau. Chạy
các mô hình hồi quy với dữ liệu chuyển đổi, thu được tổng bình phương phần dư (RSS)
(ví dụ RSS1 cho mô hình tuyến tính và RSS2 cho mô hình log-tuyến tính) và chọn mô hình
có RSS thấp hơn. Để tiết kệm không gian, chúng ta sẽ không trình bày lại kết quả hồi
quy này, mà chỉ trình bày các thống kê sau đây:
RSS
Mô hình log-tuyến tính 3.4155
Mô hình tuyến tính 3.6519

20
Trung bình hình học của Y1 và Y2 là (Y1Y2)1/2; và GM của Y1, Y2, và Y3 là (Y1Y2Y3)1/3; và …

23
Vì RSS của mô hình log-tuyến tính thấp hơn, nên chúng ta có thể chọn mô hình này thay
vì mô hình tuyến tính, mặc dù cả hai RSS khá gần nhau. Nhưng chúng ta có sẵn một
kiểm định chính thức hơn.
Nếu giả thuyết H0 cho rằng cả hai mô hình phù hợp như nhau với dữ liệu, chúng ta có
thể tính21:

Trong đó, RSS1 là RSS từ mô hình tuyến tính và RSS2 là RSS từ mô hình log-tuyến tính.
Nếu giá trị lamda tính toán lớn hơn giá trị Chi bình phương phên phán với 1 bậc tự do,
chúng ta có thể bác bỏ giá thuyết H0 và kết luận rằng hàm sản xuất log-tuyến tính là mô
hình tốt hơn. Tuy nhiên, nếu giá trị lamda tính toán nhỏ hơn giá trị Chi bình phương phê
phán, chúng ta không thể bác bỏ giả thuyết H0, và như vậy cả hai mô hình phù hợp như
nhau với dữ liệu.
Đối với ví dụ của chúng ta, giá trị lamda tính toán = 74.2827. Giá trị Chi bình phương
phê phán ở mức ý nghĩa 5% cho 1 bậc tự do là 3.841. Vì giá trị Chi bình phương tính
toán là 74.2827 lớn hơn nhiêu so với giá trị Chi bình phương phên phán, nên chúng ta
kết luận rằng mô hình log-tuyến tính thể hiện tốt hơn mô hình tuyến tính22.
Vì mô hình log-tuyến tính dễ dàng giải thích theo các hệ số co giãn của lao động và vốn,
và hiệu suất theo quy mô, nên chúng ta có thể chọn mô hình log-tuyến tính trong các
ứng dụng thực tế.

21
Xem Gary Koop, Introduction to Econometrics, John Wiley & Sons Ltd, England, 2008, pp. 114 – 15.
22
Nếu RSS2 > RSS1, thì chúng ta để RSS2 trên tử số của công thức (2.26) và để RSS1 dưới mẫu. Giả thuyết H0 ở đây
là cả hai mô hình đều thể hiện tốt như nhau. Nếu giả thuyết này bị bác bỏ, thì mô hình tuyến tính có thể được
thích hơn mô hình log-tuyến tính.

24
2.9 Hồi quy với các biến chuẩn hóa
Trong nhiều ví dụ khác nhau mà chúng ta đã thảo luận, thì biến phụ thuộc và các biến
giải thích không nhất thiết phải được thể hiện theo cùng đơn vị đo lường. Vì thế, hàm
sản xuất Cobb-Douglas đã được thảo luận thì sản lượng, lao động và vốn được đo lường
bằng các đơn vị khác nhau. Điều này ảnh hưởng đến việc giải thích các hệ số hồi hồi
quy, bởi vì độ lớn của các hệ số hồi quy (riêng) phụ thuộc vào đơn vị đo lường của biến
đó.
Nhưng vấn đề này có thể tránh được nếu chúng ta thể hiện tất cả các biến dưới dạng
chuẩn hóa (standardized). Dưới dạng chuẩn hóa, chúng ta thể hiện giá trị của mỗi biến
như độ lệch so với trung bình và chia độ lệch đó cho độ lệch chuẩn của biến đó, chẳng
hạn như sau đây:

Trong đó, SY và SX là các độ lệch chuẩn mẫu và Y ngang và X ngang là các trung bình mẫu
của Y và X. Y* và X* được gọi là các biến chuẩn hóa (standardized variables).
Dễ dàng chứng minh rằng giá trị trung bình của một biến chuẩn hóa luôn luôn bằng 0
và giá trị độ lệch chuẩn luôn luôn bằng 1, không cần biết các giá trị trung bình và độ lệch
chuẩn gốc của nó là bao nhiêu. Cũng rất thú vị để lưu ý rằng các biến chuẩn hóa được
gọi là các biến chứa các con số thuần túy (tức là không có đơn vị, unit free numbers).
Đây là bởi vì tử số và mẫu số của các biến chuẩn hóa được đo lường bằng đơn vị đo
lường giống nhau.
Nếu bạn chạy hồi quy sau đây:

Bạn sẽ thấy rằng b1* bằng 023.


Bảng 2.14: Hàm sản xuất tuyến tính sử dụng các biến chuẩn hóa.

23 ̅ − b∗2 X
Lưu ý rằng: b1* = Y ̅ ∗, nhưng các giá trị trung bình của các biến chuẩn hóa đều bằng 0, nên b1* luôn bằng
0.

25
Các hệ số hồi quy có dấu sao (starred regression coefficients) được gọi là các hệ số beta
(beta coefficients) hoặc các hệ số chuẩn hóa (standardized coefficients), trong khi đó
các hệ số hồi quy của các biến chưa chuẩn hóa được gọi là các hệ số không chuẩn hóa
(unstandardized coefficients).
Hệ số độ dốc trong hồi quy này được giải thích như sau: nếu biến giải thích chuẩn hóa
tăng lên một đơn vị độ lệch chuẩn, thì trung bình, biến phụ thuộc chuẩn hóa tăng B2*
đơn vị độ lệch chuẩn. Điểm cần nhớ là, không giống như hồi quy OLS thông thường,
chúng ta đo lường tác động của một biến giải thích không theo đơn vị gốc trong đó X và
Y được đo lường, mà theo các đơn vị độ lệch chuẩn.
Nên nói thêm rằng nếu chúng ta có nhiều hơn một biến giải thích, thì chúng ta có thể
chuẩn hóa tất cả các biến giải thích. Để minh họa, chúng ta xem lại ví dụ về hàm sản
xuất của Mỹ đã được xem xét trước đây (xem Bảng 2.3) và ước lượng lại bằng cách sử
dụng các biến sản lượng, lao động và vốn chuẩn hóa. Kết quả ước lượng được trình bày
ở Bảng 2.14.
Như được kỳ vọng, hệ số cắt là bằng không. Hai biến chuẩn hóa đều có tác động có ý
nghĩ lên sản lượng (chuẩn hóa). Giải thích hệ số 0.4 như sau: nếu nhập lượng lao động
tăng một đơn vị độ lệch chuẩn, thì giá trị trung bình của sản lượng tăng thêm 0.4 độ
lệch chuẩn, khi giữa nguyên các yếu tố khác. Giải thích hệ số của vốn 0.6 như sau: nếu
nhập lượng vốn tăng thêm một đơn vị độ lệch chuẩn, thì trung bình, sản lượng tăng
thêm 0.6 đơn vị độ lệch chuẩn. Nói một cách so sánh, thì vốn có tác động lên sản lượng
nhiều hơn lao động. Các hệ số số hồi quy trong Bảng 2.3, ngược lại, là các hệ số không
chuẩn hóa.
Nếu bạn nhìn kết quả trong Bảng 2.3, bạn có thể nghĩ rằng lao động có tác động lên sản
lượng tương đối nhiều hơn so với vốn. Nhưng do lao động và vốn được đo bằng các đơn
vị đo lường khác nhau, nên kết luận như thế có thể sẽ sai lầm. Nhưng trong hồi quy với
các biến chuẩn hóa, chúng ta có thể dễ dàng đánh giá tầm quan trọng tương đối của

26
các biến giải thích khác nhau, bởi vì nhờ chuẩn hóa mà chúng ta đặt tất cả các biến giải
thích ở một vị trí ngang bằng nhau.
Nhưng lưu ý rằng dù chúng ta sử dụng các biến chuẩn hóa hay không chuẩn hóa, thù
các giá trị R2, t, và F vẫn giữ nguyên, vì thế không ảnh hưởng đến việc suy diễn thống kê.

2.10 Các thước đo mức độ phù hợp


Nếu bạn nhìn vào các kết quả in ra từ máy tính khác nhau trong các bảng trước đây, bạn
sẽ thấy rằng có nhiều thước đo “mức độ phù hợp’’ của mô hình ước lượng; đó là, mô
hình giải thích sự biến thiên trong biến phụ thuộc tốt như thế nào. Các thước đo này
̅2 ; (3) tiêu
bao gồm: (1) hệ số xác định, R2; (2) R2 điều chỉnh, thường được ký hiệu bằng R
chính thông tin Akaike; và (4) tiêu chí thông tin Schwarz.
1. Thước đo R2
Như được lưu ý trước đây, thước đo này đo lường tỷ lệ biến thiên trong biến phụ thuộc
được giải thích bởi các biến giải thích. Giá trị của nó năm giữa 0 và 1. 0 cho biết hầu như
không phù hợp và 1 là phù hợp hoàn hảo. R2 thường nằm giữa hai giá trị này; càng gần
0 thì càng ít phù hợp; càng gần 1 thì càng phù hợp. Một nhược điểm của thước đo này
là khi càng đưa nhiều biến giải thích vào mô hình thì chúng ta nói chung có thể làm tăng
giá trị R2. Điều này là bởi vì R2 là một hàm tăng theo số biến giải thích trong mô hình.
Mặc dù chúng ta định nghĩa R2 như tỷ số của ESS trên TSS, nhưng nó cũng có thể được
tính hệ số tương quan bình phương giữa giá trị Y thực tế và giá trị Y ước lượng (tức ̂
Y)
từ mô hình hồi quy, ở đây Y là biến phụ thuộc, nghĩa là:

Trong đó:

[Diễn giải: R2 chỉ dùng để so sánh giữa các mô hình có biến phụ thuộc giống nhau. Nếu
khác, thì chúng ta cần phải thực hiện như ở mục 2.8].
2. R2 điều chỉnh
Chúng ta cũng đã thảo luận R2 điều chỉnh (= R̅2 ). R2 điều chỉnh được sử dụng để so sánh
hai hoặc nhiều hơn hai mô hình có cùng biến phụ thuộc [Diễn giải: Cũng như R2], nhưng
có số biến giải thích khác nhau. Vì R2 điều chỉnh thường nhỏ hơn R2 không điều chỉnh,
nên dường như R2 điều chỉnh gán một mức phạt cho việc đưa nhiều hơn số biến giải
thích vào mô hình. [Công thức điều chỉnh đã được trình bày ở chương 1].

27
3. Tiêu chí thông tin Akaike (AIC)
Giống như R2 điều chỉnh, tiêu chí AIC đưa một mức phạt khắt nghiệt hơn cho việc đưa
nhiều biến giải thích vào mô hình. Ở dạng logarít, AIC được định nghĩa như sau:

Trong đó, RSS là tổng bình phương phần dư và 2k/n là nhân tố phạt do đưa nhiều biến
giải thích vào mô hình.
Tiêu chí AIC hữu ích khi so sánh hai hoặc nhiều mô hình. Mô hình với AIC thấp nhất
thường là mô hình được chọn. Tiêu chí AIC cũng được sử dụng để đánh giá thành tích
dự báo trong và ngoài mẫu của một mô hình hồi quy.
4. Tiêu chí thông tin Schwarz (SIC)
Đây là một cách khác của tiêu chí AIC, và dạng logarít của nó có thể được thể hiện như
sau:

Nhân tố phạt ở đây là [(k/n)ln(n)], khắt nghiệt hơn so với tiêu chí AIC. Giống AIC, giá trị
SIC thấp hơn thì mô hình tốt hơn. Cũng như AIC, SIC có thể được sử dụng để so sánh
thành tích dự báo trong và ngoài mẫu của một mô hình hồi quy.
Cũng nên nói thêm là ý tưởng đằng sau việc đưa nhân tố phạt là ‘nguyên tắc tri thức tối
thiểu’ (Occam’s razor, tức là mô hình càng đơn giản thì càng xác đáng), theo nguyên tắc
này ‘những mô tả nên được giữ càng đơn giản càng có thể miễn chứng minh là hợp lý’.
Đây cũng được biết như nguyên tắc dao cạo.
Trên cơ sở nguyên tắc này, đâu là một tiêu chí tốt hơn, AIC hay SIC? Hầu như thường
thì hai tiêu chí này lựa chọn mô hình giống nhau, nhưng không phải luôn luôn như thế.
Về mặt lý thuyết, AIC có thể được ưa thích hơn, nhưng trên thực tế bạn có thể chọn
tiêu chính SIC, vì nó có thể chọn một mô hình đơn giản hơn, khi giữ nguyên các yếu tố
khác không đổi24. Trong kết quả hồi quy, Eviews trình bày cả hai tiêu chí này.
Nếu bạn so sánh mô hình xu thế tuyến tính ở Bảng 2.7 với mô hình xu thế bậc hai ở
Bảng 2.12, bạn sẽ thấy rằng đối với mô hình xu thế tuyến tính giá trị Akaike là 15.0 và
đối với mô hình xu thế bậc hai là -4.23. Ở đây bạn sẽ chọn mô hình xu thế bậc hai. [Diễn
giải: Tôi nghĩ Gujarati bị nhầm, vì hai biến phụ thuộc ở hai mô hình này khác nhau: RGDP
và ln(RGDP). Với biến phụ thuộc dạng log, thì giá trị AIC hoặc SIC là âm]. Trên cơ sở tiêu
chí Schwarz, thì những giá trị này là 15,17 cho mô hình xu thế tuyến tính và -4.12 cho
mô hình xu thế bậc hai. Một lần nữa, bạn sẽ chọn mô hình xu thế bậc hai trên cơ sở tiêu
chí này. [Diễn giải: Như trên, hai biến phụ thuộc khác nhau, cần cẩn thận]. Tuy nhiên,

24
Thảo luận chi tiết hơn về ưu điểm tương đối của các tiêu chí lựa chọn mô hình khác nhau, có thể xem Francis X.
Diebold, Elements of Forecasting, 3rd edn, Thomson/South-Western Publishers, 2004, pp. 87-90.

28
đối với mô hình xu thế bậc hai, giá trị AIC (-4.23) âm nhiều hơn giá trị SIC (-4.12), tức là
AIC hơi ưu thế hơn trong việc lựa chọn.

Điều thú vị cần lưu ý là đối với mô hình hồi quy tuyến tính, cả hai tiêu chí có liên quan
đến kiểm định F như sau: ‘Đối với một mẫu đủ lớn, việc so sánh các giá trị AIC tương
ứng một kiểm định F với giá trị phê phán là 2 và SIC tương ứng một kiểm định F với giá
trị phê phán là log(n)’25.

25
Xem Christiaan Heij, Paul de Boer, Philip Hans Franses, Teun Kloek, and Herman K. van Dijk, Econometrics
Methods with Applications in Business and Economics, Oxford University Press, Oxford, UK, 2004, p. 280.

29
2.11 Tóm tắt và kết luận
Trong chương này chúng ta đã xem xét nhiều dạng mô hình hồi quy tuyến tính khác
nhau – đó là, các mô hình tuyến tính ở tham số hoặc có thể được chuyển sang tuyến
tính ở tham số với những chuyển đổi phù hợp. Mỗi mô hình hữu ích trong một số tình
huống. Trong một số ứng dụng, nhiều hơn một mô hình có thể phù hợp với dữ liệu.
Chúng ta đã thảo luận các đặc điểm riêng của mỗi mô hình về khía cạnh các hệ số độ
dốc và hệ số co giãn.
Khi so sánh hai hoặc nhiều mô hình trên cơ sở R2 chúng ta đã chỉ ra rằng biến phụ thuộc
trong các mô hình này phải giống nhau. Cụ thể, chúng ta đã thảo luận việc lựa chọn giữa
một mô hình tuyến tính và log-tuyến tính, hai dạng mô hình được sử dụng phổ biến
trong nghiên cứu.
Mặc dù chúng ta đã thảo luận các mô hình khác nhau, giới hạn trong các mô hình hồi
quy tuyến tính hai hoặc ba biến cho các mục đích mô tả, nhưng chúng ta có thể dễ dàng
mở rộng cho các mô hình hồi quy với bất kỳ số biến giải thích nào26. Chúng ta cũng có
thể có các mô hình trong đó một số biến giải thích ở dạng tuyến tính và một số ở dạng

26
Để xử lý các mô hình hồi quy đa biến, chúng ta cần sử dụng đại số ma trận.

30
log-tuyến tính. [Diễn giải: Tức thực tế thì chúng ta sử dụng các mô hình kết hợp nhiều
dạng hàm trong một mô hình, tùy vào dữ liệu mà chúng ta có].
Chúng ta đã thảo luận ngắn gọn vai trò của các biến chuẩn hóa trong phân tích hồi quy.
Vì một biến chuẩn hóa có trung bình bằng 0 và độ lệch chuẩn bằng 1, nên nó dễ dàng
hơn cho chúng ta so sánh ảnh hưởng tương đối của các biến giải thích khác nhau lên
biến phụ thuộc.
Chúng ta có thể đánh giá một mô hình dựa vào các dấu kỳ vọng của các hệ số hồi quy,
mức ý nghĩa thống kê của chúng dựa trên giá trị t của các hệ số ước lượng, hoặc kiểm
định F nếu chúng ta quan tâm đến mức ý nghĩa kết hợp của hai hay nhiều biến. Chúng
ta có thể đánh giá mức độ phù hợp chung của một mô hình dựa vào R2. Nếu chúng ta
so sánh hai hoặc nhiều mô hình hồi quy, chúng ta có thể sử dụng R2 điều chỉnh, tiêu chí
AIC, hoặc SIC.
Trong chương này, chúng ta cũng thảo luận làm thế nào để đưa các ràng buộc tuyến
tính khi ước lượng các mô hình hồi quy. Những ràng buộc như thế thường được đề xuất
bởi lý thuyết kinh tế./.

31

You might also like