You are on page 1of 30

Vấn đề đa cộng tuyến

(Multicollinearity)

9/2020
Giới thiệu chung

I Giả thiết của mô hình hồi quy bội, giả thiết MLR.3:
Không có cộng tuyến hoàn hảo
I Yêu cầu giữa các biến độc lập là không có đa cộng
tuyến hoàn hảo
I Thực tế, vấn đề đa cộng tuyến cao, các biến độc lập
có mối quan hệ tuyến tính tuy không hoàn hảo nhưng
khá chặt, hiện tượng đa cộng tuyến
(multicollinearity)
Giới thiệu chung (tiếp)

I Khi xảy ra đa cộng tuyến, việc áp dụng phương pháp


OLS để ước lượng các tham số hồi quy sẽ không còn
hiệu quả
I Phương sai của các tham số hồi quy có giá trị lớn bất
thường sẽ gây ra hậu quả
1. mở rộng khoảng tin cậy của các tham số
2. dấu của tham số bị đổi
3. giá trị thống kê t trong kiểm định t bị nhỏ lại, dẫn đến
sai lệch trong kết quả kiểm định các giả thuyết về
tham số hồi quy
4. R 2 rất lớn nhưng mô hình hồi quy không phù hợp
Nội dung chính

1. Khái niệm

2. Nguyên nhân

3. Hậu quả

4. Phát hiện

5. Một số biện pháp khắc phục


Outline

1. Khái niệm

2. Nguyên nhân

3. Hậu quả

4. Phát hiện

5. Một số biện pháp khắc phục


1. Khái niệm

Không có hiện tượng đa cộng tuyến giữa các


biến độc lập trong mô hình
I Các biến độc lập x trong mô hình không có tương
quan với nhau
I Mỗi biến có ảnh hưởng riêng đến biến phụ thuộc y
I Ảnh hưởng đó không liên quan đến biến độc lập khác
1. Khái niệm
Biển đồ Venn - Đa cộng tuyến

I Biểu đồ cho thấy biến y, biến x1 và biến x2 được mô


tả bằng các vòng tròn
I Phần diện tích bôi đậm là phần giao giữa mỗi biến x
và biến y, thể hiện ảnh hưởng của biến x lên đến
biến y
I Phần diện tích bôi đậm là phần giao giữa mỗi biến x1
và biến x2 , thể hiện mức tương quan giữa hai biến
độc lập x1 và x2 , phần diện tích này càng lớn
1. tương quan giữa x1 và x2 càng cao
2. mức độ đa cộng tuyến càng mạnh
Cách tiếp cận đại số

I Nếu có đa cộng tuyến hoàn hảo (perfect


multicollinearity), tồn tại ít nhất một αi 6= 0, (i = 1, 2)
và c sao cho:
α1 x1 + α2 x2 = c
I Nếu có đa cộng tuyến không hoàn hảo (imperfect
multicollinearity), tồn tại ít nhất một αi 6= 0, (i = 1, 2)
và c sao cho:

α1 x1 + α2 x2 + v = c
Khái niệm

I Mô hình hồi quy bội với các biến độc lập x1 , x2 ,..., xk
được gọi là hiện tượng đa cộng tuyến nếu có ít nhất
một trong các R12 , R22 ,..., Rk2 là khá gần 1 (mà không
phải bằng 1)
I Trong đó Rj2 (j = 1, 2, ..., k) là hệ số xác định trong mô
hình hồi quy với biến phụ thuộc là biến xj và các biến
độc lập là các biến độc lập còn lại
I Hiện tượng đa cộng tuyến cao trong mô hình hồi quy
thể hiện mối quan hệ tuyến tính giữa các biến độc
lập trong mô hình hồi quy chứ không quan tâm đến
biến phụ thuộc trong mô hình
Outline

1. Khái niệm

2. Nguyên nhân

3. Hậu quả

4. Phát hiện

5. Một số biện pháp khắc phục


2. Nguyên nhân

I Do bản chất mối quan hệ giữa các biến số:


1. Biến vốn và lao động trong các doanh nghiệp cùng
ngành thường có quan hệ tuyến tính khá chặt do
doanh nghiệp nhiều vố thì cũng thường sử dụng
nhiều lao động
2. Giá của mặt hàng A và giá của mặt hàng bổ sung B
cũng có mối quan hệ khá chặt do giá của mặt hàng A
cao thì giá của mặt hàng B cũng thường cao theo
Do đó mô hình với các biến này là biến độc lập
thường có hiện tượng đa cộng tuyến cao
2. Nguyên nhân (tiếp)

I Mô hình có dạng đa thức: biến x và biến x 2 hay x 3


thường có quan hệ tuyến tính khá chặt, đặc biệt là khi
biến x nhận giá trị trong một khoảng nhỏ. Do đó các
mô hình dạng đa thức cũng thường xuất hiện vấn đề
đa cộng tuyến.
I Mẫu không mang tính đại diện: chẳng hạn việc lấy
mẫu chỉ hạn chế một nhóm nhỏ, có các đặc trưng
khá giống nhau, làm tăng mức độ cộng tuyến giữa
các biến số
I Khi kích thước mẫu quá bé, số quan sát nhỏ hơn số
biến độc lập
Outline

1. Khái niệm

2. Nguyên nhân

3. Hậu quả

4. Phát hiện

5. Một số biện pháp khắc phục


3. Hậu quả

I Đa cộng tuyến không vi phạm giả thiết nào trong định


lý Gauss–Markov, nên nó không ảnh hưởng gì đến
tính tốt nhất của các ước lượng OLS
I Khi các giả thiết của định lý Gauss–Markov được
thỏa mãn thì các ước lượng thu được bằng phương
pháp OLS vẫn là các ước lượng
1. tuyến tính,
2. không chệch,
3. và có phương sai nhỏ nhất
trong lớp các ước lượng tuyến tính không chệch,
không kể đa cộng tuyến cao đến mức nào
I Nhưng không hiệu quả
Rj2 lớn thì sẽ có thể làm cho var (βj ) lớn và do đó gây ra
một số hậu quả sau cho các ước lượng OLS
Hậu quả cho các ước lượng OLS

I Khoảng tin cậy cho βj trở nên rộng, nghĩa là ước


lượng trở nên kém chính xác
I Hệ số ước lượng dễ mất ý nghĩa thống kê:
1. Sai số chuẩn quá lớn làm cho tỷ số t trở nên quá bé,
làm mất khả năng bác bỏ H0 khi kiểm định giả thuyết
về sự bằng 0 của hệ số góc tương ứng với biến xj
2. Theo kết luận của kiểm định này thì ta có thể cho
rằng một biến xj là không có ảnh hưởng đến biến phụ
thuộc trong khi lẽ ra nó có ảnh hưởng
Hậu quả cho các ước lượng OLS (tiếp)

I Dấu của hệ số ước lượng của biến xj có thể ngược


với kỳ vọng
1. Khi var (βj ) lớn, nghĩa là độ phân tán của βbj là quá
cao,
2. thì giá trị βbj thu được từ một mẫu có thể quá khác biệt
với giá trị thực βj ,
3. đến mức βbj nhận giá trị âm trong khi βj thực sự là số
dương
4. ví dụ: hệ số ước lượng của biến giá trong mô hình
cầu nhận giá trị âm sau khi đã kiểm soát các yếu tố
khác liên quan khác
Tóm lại

1. Phương sai của các ước lượng theo OLS lớn


2. Gia tăng độ rộng khoảng tin cậy của các hệ số hồi
quy
3. Giá trị thống kê t kiểm định t có khuynh hướng nhỏ đi
do se(βbj ) tăng lên
4. R 2 có thể rất lớn
Cảnh báo

I Các dấu hiệu xuất hiện có thể do nguyên nhân khác


1. mô hình thiếu biến
2. dạng hàm sai
I Khi thấy các dấu hiện như trên chúng ta cần xem xét
liệu đa cộng tuyến có phải là nguyên nhân gây ra hay
không
I Để xem xét liệu các dấu hiệu như trên có do đa cộng
tuyến gây ra hay không, chúng ta sẽ sử dụng một số
phương pháp như sau
Outline

1. Khái niệm

2. Nguyên nhân

3. Hậu quả

4. Phát hiện

5. Một số biện pháp khắc phục


4. Phát hiện

I Xem xét hệ số xác định của các mô hình hồi quy phụ
Rj2 , nếu nó quá lớn thì các dấu hiệu trên có thể là hậu
quả của hiện tượng đa cộng tuyến cao
I VIF: variance inflation factor
4. Phát hiện (tiếp)

I Tính hệ số tương quan cặp của biến xj . Nếu hệ số


tương quan giữa hai biến nào đó lớn hơn 0.8 thì có
thể xem như mô hình có đa cộng tuyến cao
I Tuy nhiên không có điều ngược lại: hệ số tương quan
cặp giữa các biến là không cao không có nghĩa là
giữa các biến là không có quan hệ đa cộng tuyến
Outline

1. Khái niệm

2. Nguyên nhân

3. Hậu quả

4. Phát hiện

5. Một số biện pháp khắc phục


Hậu quả không nghiêm trọng

I Tồn tại đa cộng tuyến cao trong mô hình nhưng các


se(βbj ) là không quá lớn so với βj
I Chúng ta không quan tâm đến tất cả các biến trong
mô hình
1. Việc đưa vào các biến số khác nhau chỉ nhằm mục
đích xây dựng được mô hình hợp lý nhằm đánh giá
một các đáng tin cậy tác động của một biến (một số
biến) độc lập lên biến phụ thuộc
2. Khi đó nếu mô hình đa cộng tuyến cao nhưng không
ảnh hưởng đến biến mà ta quan tâm thì đa cộng
tuyến cao trong mô hình không phải là vấn đề đáng lo
ngại
Hậu quả không nghiêm trọng (tiếp)

I Mô hình hồi quy với ba biến độc lập x1 , x2 , và x3


I Nếu x2 và x3 có quan hệ tuyến tính chặt thì mô hình
có đa cộng tuyến cao
I x1 không có tương quan chặt với x2 và x3 thì R12 sẽ
thấp và do đó nói chung se(βc) là bé
1
I Nếu mối quan tâm chính trong phân tích hồi quy là
đánh giá tác động của biến x1 thì việc đa cộng tuyến
cao trong mô hình không làm ảnh hưởng đến chất
lượng phân tích của mô hình
Biện pháp
I Gia tăng kích thước mẫu: đa cộng tuyến thông
thường là vấn đề của số liệu, việc gia tăng kích thước
mẫu sẽ giúp làm giảm mức độ của đa cộng tuyến
I Sử dụng thông tin từ nghiên cứu trước, nghiên cứu
ngành may mặc
1. Ước lượng hàm hồi quy có đa cộng tuyến cao giữa
ln(K ) và ln(L):

ln(Q) = β0 + β1 ln(K ) + β2 ln(L) + u

2. thì ta ước lượng hàm sau:

ln(Q/L) = β0 + β1 ln(K /L) + u

để thu được ước lượng β0 và β1 ,


3. còn hệ số β2 được ước lượng bởi 1 − β
c1
Biện pháp (tiếp)

I Nếu khá nhiều biến độc lập thì có thể sử dụng kỹ


thuật phân tích nhân tố
1. để tách lọc thông tin từ các biến độc lập này thành
một nhân tố mà các nhân tố này là không tương quan
với nhau,
2. từ đó ước lượng biến phụ thuộc qua các nhân tố này
(dự báo)
I Xem xét bỏ bớt biến, hết sức cẩn trọng bởi vì hậu quả
do việc bỏ sót biến gây ra nhiều khi nghiêm trọng hơn
là do đa cộng tuyến cao

You might also like