You are on page 1of 15

Chương 4

Chẩn đoán hồi quy: Đa cộng tuyến


(Gujarati: Econometrics by example, 2011) 1.
Người dịch và diễn giải: Phùng Thanh Bình
http://vnp.edu.vn/

C
Một trong những giả định của mô hình hồi quy tuyến tính cổ điển (CLRM) là không có
mối quan hệ tuyến tính chính xác (exact linear relationship) giữa các biến giải thích. Nếu
có một hoặc nhiều mối quan hệ như vậy giữa các biến giải thích thì chúng ta gọi ngắn
gọn là đa cộng tuyến hoặc cộng tuyến (multicollinearity hoặc collinearity). Để bắt đầu,
chúng ta phải phân biệt giữa cộng tuyến hoàn hảo (perfect collinearity) và cộng tuyến
không hoàn hảo (imperfect collinearity)2.

Nếu, ví dụ, X2i + 3X3i = 1, thì chúng ta có trường hợp đa cộng tuyến hoàn hảo vì X2i = 1 –
3X3i. Vì thế, nếu chúng ta đưa cả X2i và X3i vào cùng một mô hình hồi quy, chúng ta sẽ
có hiện tượng đa cộng tuyến hoàn hảo, nghĩa là, một mối quan hệ tuyến tính hoàn hảo
giữa hai biến giải thích. Trong những trường hợp như thế, chúng ta thậm chí không thể
ước lượng được các hệ số hồi quy, nên không thể thực hiện bất kỳ loại suy diễn thống
kê nào.
Trái lại, nếu chúng ta có X2i + 3X3i + vi = 1, trong đó vi là một hạng nhiễu ngẫu nhiên,
chúng ta có trường hợp đa cộng tuyến không hoàn hảo, vì X2i = 1 – 3X3i – vi. Vì thế, trong
trường hợp này, không có mối quan hệ tuyến tính hoàn hảo giữa hai biến. Sự hiện diện
của hạng nhiễu vi, làm giảm mối quan hệ hoàn hảo giữa các biến này.
Trong thực tế, (các) mối quan hệ tuyến tính chính xác giữa các biến giải thích là rất hiếm,
nhưng trong nhiều nghiên cứu ứng dụng thì các biến giải thích có thể cộng tuyến cao.
Trường hợp này được gọi là cộng tuyến không hoàn hảo hoặc cộng tuyến gần hoàn hảo
(near-collinearity). Vì thế, trong chương này chúng ta sẽ tập trung vào trường hợp cộng
tuyến không hoàn hảo3.

1
Hiện nay đã có ấn bản mới (lần 2, năm 2015). Dữ liệu của phiên bản 2011:
https://www.macmillanihe.com/companion/Gujarati-Econometrics-By-Example/student-zone/
2
Nếu chỉ có một mối quan hệ tuyến tính hoàn hảo giữa hai hoặc nhiều hơn hai biến giải thích, chúng ta gọi đó là
cộng tuyến, nhưng nếu có hơn một mối quan hệ tuyến tính hoàn hảo, chúng ta gọi là đa cộng tuyến. Tuy nhiên,
chúng ta sẽ sử dụng hai thuật ngữ cộng tuyến (collinearity) và đa cộng tuyến (multicollinearity) thay thế nhau.
Ngữ cảnh của vấn đề cụ thể đang xem xét sẽ cho biết chúng ta đang xử lý loại nào.
3
Để đưa ra một ví dụ đặc biệt về cộng tuyến hoàn hảo, giả sử chúng ta đưa các biến thu nhập bằng d9o6la và
cent vào hàm tiêu dùng, mối quan hệ giữa chi tiêu cho tiêu dùng theo thu nhập. Vì một đôla bằng 100 cent, nên
đưa biến này vào mô hình sẽ dẫn đến cộng tuyến hoàn hảo. Một ví dụ khác, được gọi là bẩy biến giả, như chúng

1
4.1 Hậu quả của cộng tuyến hoàn hảo
1. Các ước lượng OLS vẫn BLUE [Diễn giải: Ước lượng tuyến tính không chệch tốt
nhất, nghĩa là, các hệ số bk là các ước lượng tuyến tính, với E(bk) = Bk, và var(bk)
bé nhất], nhưng chúng có phương sai và các hiệp phương sai lớn, làm cho việc
ước lượng chính xác trở nên khó khăn.
2. Các khoảng tin cậy trở nên rộng hơn. Vì thế mà, chúng ta có thể không bác bỏ
giả thuyết không bằng 0 [Diễn giải: H0: Bk = 0] (tức là, hệ số thực của tổng thể
bằng 0). [Diễn giải: Do phương sai của từng hệ số hồi quy lớn, nên khoảng tin
cậy: [bk - t/2.se(bk) < Bk < bk - t/2.se(bk)] trải rộng ra hơn và vì thế khả năng chứa
giá trị bằng 0 là rất lớn].
3. Bởi vì hậu quả số (1), nên các tỷ số t của một hoặc nhiều hệ số có xu hướng không
có ý nghĩa thống kê. [Diễn giải: t(bk) = bk/se(bk), nên khi phương sai của bk lớn thì
tỷ số t sẽ thấp].
4. Mặc dù một số hệ số hồi quy không có ý nghĩa thống kê, nhưng giá trị R2 có thể
rất cao. [Diễn giải: Điều này dễ khiến chúng ta lầm tưởng mô hình rất phù hợp
với dữ liệu].
5. Các ước lượng OLS [tức các bk] và các sai số chuẩn của chúng [tức các se(bk)] có
thể nhạy cảm với những thay đổi nhỏ trong dữ liệu (xem bài tập 4.6 ở cuối
chương này). [Diễn giải: Thêm hoặc bớt một vài quan sát thì kết quả hồi quy có
thể thay đổi hoàn toàn khác].
6. Đưa một biến cộng tuyến vào mô hình hồi quy được chọn có thể làm thay đổi
các giá trị của hệ số của các biến khác trong mô hình.
Tóm lại, khi các biến giải thích cộng tuyến, suy diễn thống kê trở nên không vững, đặc
biệt là khi có cộng tuyến gần hoàn hảo. Điều này không có gì ngạc nhiên cả, bởi vì nếu
hai biến có cộng tuyến cao thì rất khó tách biệt tác động riêng của từng biến lên biến
phụ thuộc.
Để thấy một số hậu quả này, chúng ta xem xét một mô hình ba biến, quan hệ giữa biến
phụ thuộc Y theo hai biến giải thích X2 và X3. Nghĩa là, chúng ta xem xét mô hình có dạng
sau đây:

Sử dụng OLS, chúng ta có thể có các ước lượng OLS như sau4:

ta đã thấy ở chương 3, xảy ra nếu chúng ta đưa cả một hệ số cắt và tất cả các phân loại của các biến giả. Ví dụ,
trong một hồi quy giải thích số giờ làm việc theo các biến kinh tế, chúng ta đưa hai biến giả, một chon am và một
cho nữ, và cũng giữ hệ số cắt lại trong mô hình. Điều này dẫn đến cộng tuyến hoàn hảo. Dĩ nhiên, nếu chúng ta
loại bỏ hệ số cắt trong trường hợp này, chúng ta sẽ tránh được bẩy biến giả. Trong thực tế, tốt hơn là để lại hệ số
cắt, nhưng chỉ bao gồm một biến giả về giới tính; nếu biến giả nhận giá trị bằng 1 cho nữ, thì nó sẽ nhận giá trị
bằng 0 cho nam.
4
Xem Gujarati/Porter, pp. 193-4.

2
Trong đó, các biến được thể hiện dưới dạng độ lệch so với các giá trị trung bình, nghĩa
̅, x2i = X2i - X
là: yi = Yi - Y ̅ 2, và x3i = X3i - X
̅ 3.
Lưu ý rằng công thức của hai hệ số độ dốc là đối xứng theo nghĩa bạn có thể có được
một hệ số khác bằng cách thay đổi tên của các biến tương ứng.
Hơn nữa, chúng ta có:

Trong đó,

Và 2 là phương sai của hạng nhiễu ui và r23 là hệ số tương quan giữa X2 và X3, và VIF là
hệ số phóng đại phương sai (variance-inflating factor): một thước đo mức độ trong đó
phương sai của ước lượng OLS bị phóng đại do cộng tuyến. Để thấy điều này, chúng ta
hãy xem Bảng 4.1.
[Diễn giải: Từ công thức (4.5) và (4.6), chúng ta thấy rằng, nếu X2 và X3 độc lập, thì r223
= 0, nên VIF = 1, nghĩa là phương sai trong hồi quy bội sẽ đúng bằng phương sai trong
hồi quy đơn. Nếu X2 và X3 cộng tuyến, r223 gần bằng 1, nên VIF sẽ rất lớn, và phương sai
của từng hệ số hồi quy sẽ rất lớn. Như vậy, các khoảng tin cậy sẽ rộng hơn và các tỷ số
t trở nên nhỏ lại].

3
Bảng 4.1: Ảnh hưởng của tang r23 lên phương sai của ước lượng OLS b2.

Chúng ta nhận thấy rõ ràng là khi hệ số tương quan giữa X2 và X3 tăng, phương sai của
b2 tăng lên rất nhanh một cách phi tuyến. Vì thế mà, các khoảng tin cậy sẽ rộng ra nhanh
chóng và chúng ta dễ kết luận sai lầm là hệ số B2 thực không khác 0.
Cũng có thể lưu ý rằng nghịch đảo của VIF được gọi là độ chấp nhận (TOL, tolerance),
nghĩa là:

Khi r223 = 1 (tức cộng tuyến hoàn hảo), TOL bằng 0, và khi r223 = 0 (tức không có cộng
tuyến), TOL = 1.
Công thức VIF được cho trong mô hình hồi quy hai biến giải thích có thể được khái quát
hóa cho mô hình hồi quy k biến giải thích (một hệ số cắt và (k - 1) biến giải thích) như
sau:

Trong đó, R2k là R2 từ hồi quy của biến giả thích thứ k theo tất cả các biến giải thích còn
lại trong mô hình và

là biến thiên trong biến thứ k xoay quanh giá trị trung bình của nó. Hồi quy của biến giải
thích thứ k theo các biến giải thích khác trong mô hình được gọi là hồi quy phụ (auxiliary
regression), nên nếu chúng ta có 10 biến giải thích trong mô hình, thì chúng ta có 10
phương trình hồi quy phụ.

4
Trong phần mềm Stata, chúng ta tính VIF và TOL bằng cách gỏ lệnh estat vif ngay sau
khi ước lượng một hồi quy OLS, như chúng ta sẽ thấy trong ví dụ sau đây.
4.2 Ví dụ: Số giờ làm việc của phụ nữ có gia đình trong thị trường lao động
Để làm rõ bản chất của đa cộng tuyến, chúng ta sử dụng dữ liệu từ một nghiên cứu thực
nghiệm được thực hiện bởi Mroz5 – xem dữ liệu trong tập tin Table 4.2 trên trang web
của cuốn sách. Ông ấy muốn đánh giá tác động của một số biến kinh tế - xã hội lên số
giờ làm việc của phụ nữ có gia đình trong thị trường lao động. Đây là dữ liệu chéo với
753 phụ nữ đã có gia đình thu thập vào năm 1975. Nên lưu ý rằng có 325 phụ nữ có gia
đình không đi làm và vì thế có số giờ làm việc bằng 0.
Một số biến ông ta sử dụng trong nghiên cứu của mình:
Hours: Số giờ làm việc trong năm 1975 (biến phụ thuộc)
Kidslt6: Số con dưới 6 tuổi
Kidsge6: Số con giữa 6 đến 18 tuổi
Age: Tuổi của phụ nữ, tính bằng năm
Educ: Số năm đi học
Wage: Tiền lương ước tính từ thu nhập
Hushrs: Số giờ làm việc của chồng
Husage: Tuổi của chồng
Huseduc: Số năm đi học của chồng
Huswage: Tiền lương theo giờ của chồng, năm 1975
Faminc: Thu nhập của gia đình, năm 1975
Mtr: Tỷ lệ thuế biên của liên bang đánh lên thu nhập của phụ nữ
Motheduc: Số năm đi học của mẹ
Fatheduc: Số năm đi học của cha
Unem: Tỷ lệ thất nghiệp trong địa phương người phụ nữ sinh sống
Exper: Kinh nghiệm thực sự trên thị trường lao động.

Như một điểm khởi đầu, chúng ta thu được kết quả hồi quy trong Bảng 4.3.
Chúng ta kỳ vọng một mối quan hệ dương giữa số giờ làm việc và giáo dục, kinh nghiệm,
trình độ giáo dục của cha và mẹ, và một mối quan hệ âm giữa số giờ làm việc và tuổi,
tuổi của chồng, số giờ làm việc của chồng, tiền lương của chồng, thuế suất biên, tỷ lệ
thất nghiệp, và số con dưới 6 tuổi. Hầu hết các kỳ vọng này đều được xác minh bằng các
kết quả thống kê. Tuy nhiên, nhiều hệ số không có ý nghĩa thống kê, có lẽ cho chúng ta
thấy rằng các biến này có cộng tuyến, vì thế làm cho các sai số chuẩn cao hơn và làm
giảm các tỷ số t.

5
Xem T. A. Mroz, The sensitivity of an empirical model of married women’s hours of work to economic and
statistical assumptions, Econometrica, 1987, vol. 55, pp. 765-99.

5
Bảng 4.3: Hồi quy số giờ làm việc của phụ nữ.

4.3 Phát hiện đa cộng tuyến


Như chúng ta sẽ thấy trong các chương về tự tương quan và phương sai thay đổi, không
có một kiểm định duy nhất để phát hiện đa cộng tuyến. Một số chẩn đoán được thảo
luận trong lý thuyết có thể được tóm tắt như sau:
1. R2 cao nhưng một số tỷ số t thấp. Trong ví dụ của chúng ta, giá trị R2 = 0.34 không
đặc biệt cao. Nhưng điều này không nên ngạc nhiên vì trong dữ liệu chéo với
nhiều quan sát đa dạng. Tuy nhiên, khá nhiều tỷ số t không có ý nghĩa thống kê
có lẽ do cộng tuyến giữa vài biến giải thích.
2. Các hệ số tương quan cặp (pairwise correlation) cao giữa các biến giải thích. Nhớ
lại rằng hệ số tương quan mẫu giữa Y và X được xác định như sau:

Trong đó, các biến được xác định bằng độ lệch so với giá trị trung bình của chúng
(ví dụ: yi = Yi - ̅
Y). Vì chúng ta có 15 biến giải thích, nên chúng ta sẽ có 105 hệ số
tương quan cặp6. Chúng ta sẽ không trình bày kết quả ma trận hệ số tương quan
ở đây. Hầu hết các hệ số tương quan không đặc biệt quá cao, nhưng một số cao
6
Dĩ nhiên, không phải tất cả các hệ số tương quan này sẽ khác nhau bởi vì hệ số tương quan giữa Y và X cũng
giống như giữa X và Y.

6
hơn 0.5. Ví dụ, hệ số tương quan giữa tuổi của chồng và thu nhập gia đình là
0.67, giữa giáo dục của mẹ và giáo dục của cha là 0.55, và giữa thuế suất biên và
thu nhập gia đình là -0.88.
Chúng ta tin rằng các hệ số tương quan cặp giữa các biến giải thích là dấu hiệu
của cộng tuyến. Vì thế, bạn nên loại bỏ những biến giải thích tương quan cao.
Nhưng đó không phải là cách tốt khi chỉ dựa vào các hệ số tương quan cặp giản
đơn, bởi vì chúng không giữ cố định các biến khác trong mô hình trong khi tính
các hệ số tương quan cặp.

3. Các hệ số tương phân riêng (partial correlation coefficients): Để giữ nguyên các
biến khác không đổi, chúng ta phải tính các hệ số tương quan riêng. Giả sử chúng
ta có 3 biến X1, X2, và X3. Thì chúng ta sẽ có 3 hệ số tương quan cặp, r12, r13, và
r23; và 3 hệ số tương quan riêng, r12.3, r13.2, và r23.1; ví dụ r23.1 có nghĩa là hệ số
tương quan giữa X2 và X3, khi giữ nguyên giá trị của biến X1 không đổi (xem Bài
tập 4.4 về cách tính các hệ số tương quan riêng). Hệ số tương quan riêng được
tính theo công thức sau đây:

Rất có thể rằng hệ số tương quan giữa X2 và X3 (= r23) cao, ví dụ 0.85. Nhưng hệ
số này không tính đến sự hiện diện của biến thứ 3, tức X1. Nếu biến X1 có ảnh
hưởng đến cả X2 và X3, thì tương quan cao giữa X2 và X3 thực sự do ảnh hưởng
chung của X1 lên cả hai biến này. Hệ số tương quan riêng r23.1 tính tương quan
ròng (net correlation) giữa X2 và X3 sau khi đã loại trừ ảnh hưởng của X1. Trong
trường hợp đó, thì có thể rằng tương quan cao (0.85) giữa X2 và X3 có thể giảm
xuống còn, ví dụ, 0.35.
Tuy nhiên, không có gì đảm bảo rằng các hệ số tương quan cặp sẽ cung cấp
hướng dẫn đúng đắn về đa cộng tuyến. Để tiết kiệm không gian, chúng ta sẽ
không trình bày các giá trị thực của các hệ số tương quan riêng cho ví dụ của
chúng ta. Stata có thể tính các hệ số tương quan riêng cho một nhóm các biến
với các hướng dẫn đơn giản.

7
4. Các hồi quy phụ: Để biết các biến giải thích có cộng tuyến cao với các biến giải
thích khác trong mô hình, chúng ta có thể chạy hồi quy mỗi biến giải thích theo
các biến giải thích còn lại và thu được các hồi quy phụ như đã được đề cập trước
đây. Do chúng ta có 15 biến giải thích, nên chúng ta có 15 hồi quy phụ. Chúng ta
có thể kiểm định mức ý nghĩa chung (overall significance) của mỗi hồi quy bằng
kiểm định F được thảo luận ở chương 2 của cuốn sách này. Giả thuyết không (H0)
ở đây là tất cả các hệ số của các biến giải thích trong hồi quy phụ đồng thời bằng
0. Nếu chúng ta bác bỏ giả thuyết này đối với một hoặc nhiều hồi quy phụ, chúng
ta có thể kết luận rằng các hồi quy phụ với các giá trị F có ý nghĩa thống kê có
cộng tuyến với các biến giải thích khác trong mô hình. Dĩ nhiên, nếu chúng ta có
nhiều biến giải thích, như ví dụ hiện tại, thì việc tính toán nhiều hồi quy phụ trong
thực tế sẽ rất mệt mỏi, nếu không nói là không thể về việc tính toán.
5. Hệ số phóng đại phương sai (VIF) và hệ số chấp nhận (TOL): Các hệ số VIF và TOL
cho ví dụ của chúng ta, thu từ phần mềm Stata, được trình bày trong Bảng 4.4.

8
Bảng 4.4: Hệ số VIF và TOL.

Bảng này (khác trong sách chút) rõ ràng cho thấy có độ cộng tuyến cao giữa nhiều biến;
thậm chí VIF trung bình lớn hơn 2.
4.4 Các biện pháp khắc phục
Có nhiều cách khắc phục đa cộng tuyến được đề xuất trong lý thuyết7. Cách nào sẽ hợp
trong một trường hợp cụ thể vẫn còn tranh cải. Vì các ước lượng OLS vẫn BLUE miễn là
cộng tuyến không hoàn hảo, thì cách khắc phục được đề xuất phổ biến nhất là không
làm gì cả nhưng đơn giản là chỉ trình bày kết quả của mô hình phù hợp. Điều này là bởi
vì thường thì cộng tuyến về cơ bản là vấn đề thiếu dữ liệu (data deficiency), và trong
nhiều trường hợp chúng ta có thể không có lựa chọn dữ liệu mà chúng ta có sẵn cho
nghiên cứu8.
Nhưng thỉnh thoảng cũng hữu ích để xem xét lại mô hình mà chúng ta đã chọn cho việc
phân tích để đảm bảo rằng tất cả các biến được đưa vào mô hình có thể không cần
thiết. Trở lại với ví dụ của chúng ta trong Bảng 3.4, các biến giáo dục của cha và giáo dục
của mẹ có thể tương quan với nhau, điều này có nghĩa rằng giáo dục của con gái có thể
tương quan với hai biến này. Bạn cũng có thể nghi vấn rằng đưa biến số con trên 6 tuổi
như một biến giải thích vào mô hình thì có nghĩa gì hay không? Cũng như thế, tuổi của
chồng và tuổi của vợ cũng có thể tương quan. Vì thế, nếu chúng ta loại bỏ những biến
này ra khỏi mô hình, thì có thể vấn đề cộng tuyến có thể bớt nghiêm trọng hơn9.
Kết quả mô hình được ước lượng lại được trình bày ở Bảng 4.5.

7
Thảo luận chi tiết, xem Gujarati/Porter, pp. 342-6.
8
Nhà kinh tế lượng Arthur Goldberger gọi đây là vấn đề “cỡ mẫu nhỏ” (micronumerosity), nghĩa là mẫu nhỏ và
không đủ biến thiên trong giá trị của các biến giải thích. Xem A course in econometrics, Harvard University Press,
Cambridge, MA. 1991, p.249.
9
Nhưng lưu ý vấn đề lỗi do lựa chọn sai mô hình (specification bias). Bạn không nên loại bỏ những biến chỉ vì
chúng gây ra hiện tượng cộng tuyến. Nếu một biến thuộc mô hình, thì nó nên được giữ lại thậm chí nó không có
ý nghĩa thống kê.

9
Như bạn có thể thấy, hầu hết các biến bây giờ có ý nghĩa thống kê ở 10% hoặc thấp hơn
và có ý nghĩa kinh tế, ngoại trừ tỷ lệ thất nghiệp, biến này có ý nghĩa thống kê ở mức ý
nghĩa 11%. Các hệ số VIF và TOL tương ứng được trình bày trong Bảng 4.6.
Mặc dù VIF trung bình giảm, nhưng vẫn còn cộng tuyến đáng kể giữa các biến giải thích
trong mô hình được ước lượng lại này. Chúng ta có thể ước lượng nhiều mô hình như
thế sử dụng nhiều cách kết hợp khác nhau của các biến giải thích được cho trong Bảng
4.3 để xem mô hình nào ít bị cộng tuyến nhất. Nhưng chiến lược này, được gọi là ‘khám
phá dữ liệu’ (data mining, data fishing), không được đề nghị. Nếu chúng ta có nhiều biến
hợp lý để đưa vào mô hình, thì tốt hơn là nên giữ chúng lại mô hình. Nếu một vài hệ số
trong mô hình không có ý nghĩa thống kê, thì đúng là nó không có ý nghĩa thống kê.
Thỉnh thoảng vì có ít dữ liệu mà chúng ta thu thập thêm dữ liệu mới hoặc thu thập một
bộ dữ liệu khác, nếu điều đó khả thi.
Bảng 4.5: Hồi quy lại số giờ làm việc của phụ nữ.

Bảng 4.6: VIF và TOL của các hệ số trong Bảng 4.5.

10
4.5 Phương pháp thành phần chính (PC)10
Một phương pháp thống kê, được biết với tên gọi là phân tích thành phần chính (PCA,
principle component analysis), có thể chuyển đổi các biến tương quan thành các biến
trực giao (orthogonal) hoặc các biến không tương quan11. Vì thế các biến trực giao thu
được gọi là các thành phần chính. Quay lại với hồi quy số giờ làm việc của chúng ta trong
Bảng 4.3, chúng ta có 15 biến giải thích. Phương pháp thành phần chính về nguyên tắc
sẽ tính 15 thành phần chính, PCs, được ký hiệu là PC1, PC2, …, PC15, theo cách sao cho
chúng không có tương quan với nhau. Các PCs này là các kết hợp tuyến tính của các biến
giải thích gốc. Trong thực tế, chúng ta không cần sử dụng tất cả 15 PCs, bởi vì một số
nhỏ hơn thường sẽ đủ để giải thích hiện tượng đang được nghiên cứu, như chúng ta
thấy dưới đây.
Ý tưởng cơ bản đằng sau PCA rất đơn giản. Nó nhóm các biến tương quan thành một
nhóm phụ sao cho các biến thuộc bất kỳ nhóm phụ nào có một nhân tố chung (common
factor). Nhân tố chung này có thể là kỹ năng, năng lực, sự thông minh, dân tộc, hoặc
bất kỳ nhân tố nào. Nhân tố chung đó, thường thì không dễ nhận dạng, được gọi là một
thành phần chính. Có một PC cho mỗi nhân tố chung. Hy vọng, các nhân tố chung này
hoặc các PCs ít hơn số biến giải thích gốc ban đầu.
Điểm khởi đầu của phân tích PC là ma trận hệ số tương quan (correlation matrix) của
các biến gốc ban đầu. Ma trận 15 x 15 thì quá lớn để chúng ta trình bày ở đây, nhưng
bất kỳ phần mềm thống kê nào cũng sẽ tạo ra được [Diễn giải: Stata thì dùng lệch corr
và liệt kê ra cả 15 biết]. Từ ma trân hệ số tương quan, sử dụng phần mềm Minitab 15,
chúng ta thu được các PCs như trong Bảng 4.7. Chúng ta sẽ không thảo luận về mặt
toán học làm sao để rút ra được các PCs, vì nó vốn khá phức tạp.
Hình 4.1: Đồ thị eigenvalues (phương sai) theo các PCs.

10
Có thể tham khảo tài liệu này: https://www.princeton.edu/~otorres/pubop.pdf.
11
Thuật ngữ trực giao có nghĩa là cắt hoặc nằm trên các góc phải. Các biến không tương quan được cho là trực
giao bởi vì khi vẽ trên đồ thị, chúng hình thành các góc bên phải của các trục.

11
Bảng 4.7: Các thành phần chính của ví dụ về số giờ làm việc.

[Diễn giải: Trong Stata, chúng ta thực hiện như sau:


pca age educ exper faminc fathereduc hage heduc hhours hwage kidsl6 kids618 wage
mothereduc mtr unemployment
screeplot
predict PC1 PC2 PC3 PC4 PC5].
Giải thích các PCs
Phần thứ nhất của bảng ở trên trình bày 15 PCs. PC1, thành phần chính thứ nhất, có
phương sai (=eigenvalue) là 3.5448 và giải thích khoảng 24% tổng biến thiên trong tất
cả các biến giải thích. PC2, thành phần chính thứ hai, có phương sai là 2.8814, giải thích
19% tổng biến thiên của tất cả 15 biến giải thích. Cả hai PCs này chiếm khoảng 42%
trong tổng biến thiên. Theo cách này, chúng ta thấy sáu PCs đầu tiên cùng giải thích
74% trong tổng biến thiên của tất cả các biến giải thích. Nên, mặc dù có 15 biến giải
thích, nhưng chỉ 6 thành phần chính là quan trọng về mặt định định lượng. Điều này có
thể thấy rõ hơn trên Hình 4.1, hình này được vẽ bằng Minitab 15.

12
Bây giờ hãy nhìn vào phần thứ hai của Bảng 4.7. Đối với mỗi PC, nó cho biết độ tải
(loadings) hoặc điểm số (scores) hoặc trọng số (weights) – nghĩa là, mỗi biến giải thích
gốc ban đầu đóng góp bao nhiêu vào PC đó. Ví dụ, trong PC1: giáo dục, thu nhập gia
đình, giáo dục của cha, giáo dục của mẹ, giáo dục của chồng, tiền lương của chồng, và
MTR chiếm nhiều trong PC này. Nhưng nếu bạn lấy PC4, thì bạn sẽ thấy số giờ làm việc
của chồng đóng góp chính vào PC này.
Mặc dù rất tao nhã về mặt toán học, nhưng giải thích các PCs thì mang tính chủ quan.
Ví dụ, chúng ta có thể nghĩ PC1 đại diện cho mức giáo dục chung của gia đình, vì các
biến về giáo dục chiếm phần lớn trong PC này.
Một khi các thành tố chính được trích ra, chúng ta sẽ hồi quy biến phụ thuộc gốc ban
đầu (tức số giờ làm việc) theo các thành phần chính, đại diện cho các biến giải thích gốc
ban đầu. Để minh họa, chúng ta chỉ sử dụng 6 PCs đầu tiên, vì chúng dường như là các
thành phần quan trọng nhất. Hồi quy số giờ làm việc theo 6 thành phần này, chúng ta
thu được kết quả như được trình bày trong Bảng 4.8 (sử dụng phần mềm Minitab 15).
Bảng 4.8: Hồi quy các thành phần chính.

Từ kết quả này, dường như PC2 và PC4 giải thích tốt nhất cho quyết định về số giờ làm
việc của phụ nữ. Dĩ nhiên, cái khó ở đây là chúng ta không biết giải thích các thành phần
chính này như thế nào cho hợp lý. Tuy nhiên, phương pháp thành phần chính là một
cách hữu ích để giảm bớt số các biến giải thích tương quan với nhau để gom lại thành
một số ít thành phần không còn tương quan. Vì thế, chúng ta không còn gặp phải vấn
đề cộng tuyến. Vì không có bữa ăn nào miễn phí, sự đơn giản hóa có thể là một chi phí
bởi vì chúng ta không biết nên giải thích các PCs như thế nào theo một cách có ý nghĩa
trên thực tế. Nếu chúng ta có thể nhận dạng được các PCs với vài biến kinh tế, thì

13
phương pháp thành phần chính có thể là một cách hữu ích giúp nhận dạng và giải quyết
hiện tượng đa cộng tuyến.
Tóm lại, có thể đề cập thêm rằng hồi quy dạng sóng (ridge regression) là một phương
pháp khác để xử lý các biến tương quan. Các ước lượng tạo ra từ phương pháp này bị
chệch, nhưng chúng có sai số bình phương trung bình (MSE) nhỏ hơn so với các ước
lượng OLS12. Một thảo luận chi tiết hơn về hồi quy dạng sống ngoài phạm vi của cuốn
sách này13.
4.6 Tóm tắt và kết luận
Trong chương này chúng ta đã xem xét vấn đề đa cộng tuyến, một vấn đề hay gặp trong
nghiên cứu thực nghiệm, đặc biệt nếu có nhiều biến giải thích tương quan với nhau
trong một mô hình. Miễn là cộng tuyến không hoàn hảo, chúng ta có thể sử dụng được
khung phân tích của mô hình hồi quy tuyến tính cổ điển, nếu các giả định khác của mô
hình CLRM vẫn thoản mãn.
Nếu cộng tuyến không hoàn hảo, nhưng cao, nhiều hậu quả có thể gặp. Các ước lượng
OLS vẫn BLUE, nhưng một hoặc nhiều hệ số hồi quy có sai số chuẩn lớn so với giá trị của
các hệ số, vì thế làm cho các tỷ số t nhỏ lại. Vì thế bạn có thể kết luận (một cách sai lầm)
rằng các giá trị thực của các hệ số này không khác không. Các hệ số hồi quy có thể rất
nhạy cảm với những thay đổi nhỏ trong dữ liệu, đặc biệt nếu cỡ mẫu tương đối nhỏ
(xem Bài tập 4.6 ở cuối chương này).
Có nhiều cách kiểm định chẩn đoán để phát hiện cộng tuyến, nhưng không có gì đảm
bảo rằng chúng đưa ra các kết quả thỏa đáng. Về cơ bản đó là một quy trình thử - sai.
Lời khuyên thực tế tốt nhất là không làm gì cả nếu chúng ta gặp phải cộng tuyến, vì
thường thì chúng ta phải kiểm soát được dữ liệu. Tuy nhiên, điều rất quan trọng là các
biến được đưa vào mô hình phải được lựa chọn cẩn thận. Như ví dụ của chúng ta cho
thấy, việc xem xét lại mô hình bằng cách loại trừ các biến có thể không thuộc mô hình
có thể giúp làm giảm vấn đề cộng tuyến, với điều kiện là chúng ta không bỏ sót những
biến phù hợp trong một trường hợp đã được xác định. Nói cách khác, khi làm giảm cộng
tuyến chúng ta sẽ đảm bảo không mắc các lỗi sai dạng mô hình, vấn đề này sẽ được
thảo luận ở chương 7 của cuốn sách này. Vì thế, hãy suy nghĩ một cách cẩn thận về mô
hình trước khi ước lượng một mô hình hồi quy.
Có một cảnh báo. Nếu nếu có đa cộng tuyến trong mô hình và nếu mục tiêu của bạn là
dự báo, đa cộng tuyến không hẵn là xấu, nếu như mối quan hệ cộng tuyến được quan
sát trong mẫu vẫn được giữ nguyên trong giai đoạn dự báo.
Cuối cùng, có một kỹ thuật thống kê, gọi là phân tích thành phần chính, kỹ thuật này
giúp giải quyến vấn đề cộng tuyến gần hoàn hảo. Trong PCA, chúng ta xây dựng các biến
‘’nhân tạo’’ theo một cách sao cho chúng trực giao với nhau. Các biến này, gọi là các
thành phần chính, được rút trích từ các biến gốc ban đầu. Sau đó chúng ta hồi quy biến

12
MSE của một ước lượng bằng phương sai cộng với bình phương của khoảng chệch trong việc ước lượng nó.
13
Một thảo luận tương đối dễ hiểu, xem Samprit Chatterjee and Ali S. Hadi, Regression Analysis by Example, 4 th
edn, John Wiley & Sons, New York, 2006, pp. 266-75.

14
phụ thuộc gốc ban đầu theo các thành phần chính. Chúng ta đã chỉ ra các PCs được tính
toán và được giải thích như thế nào thông qua ví dụ minh họa của chúng ta về các nhân
tố quyết định số giờ làm việc của phụ nữ đã có gia đình.
Một ưu điểm của phương pháp này là các PCs thường nhỏ hơn về mặt số lượng các biến
so với số biến giải thích ban đầu. Nhưng một nhược điểm thực tiễn về các PCs là các PCs
thường không có các ý nghĩa kinh tế rõ ràng, vì chúng là các kết hợp (có trọng số) của
các biến gốc ban đầu, mà các biến này được đo lường bằng các đơn vị rất khác nhau. Vì
thế, rất khó để chúng ta giải thích xác đáng ý nghĩa của các PCs. Đó là lý do tại sao chúng
không được sử dụng phổ biến trong các nghiên cứu kinh tế, mặc dù chúng được sử dụng
rất phổ biến trong các nghiên cứu trong lĩnh vực giáo dục và tâm lý./.

15

You might also like