You are on page 1of 28

BIẾN GIẢ - HỒI QUY

VỚI BIẾN GIẢI


THÍCH ĐỊNH TÍNH
NỘI DUNG CHÍNH
Bản chất của biến giả

Mô hình trong đó các biến • Mô hình chỉ có một biến giả


độc lập đều là biến giả • Mô hình với nhiều biến giả
Mô hình với biến định
lượng và biến định tính
Mô hình với biến tương
tác
Phân tích mùa vụ sử
dụng biến giả
BẢN CHẤT CỦA BIẾN GIẢ

Biến định tính thường biểu thị các mức độ khác nhau của
một tiêu thức thuộc tính nào đó.
Ví dụ : giới tính, các quý trong năm,…
 Để lượng hoá được biến định tính, trong phân tích hồi
qui người ta sử dụng kỷ thuật biến giả.
MÔ HÌNH TRONG ĐÓ CÁC BIẾN
ĐỘC LẬP ĐỀU LÀ BIẾN GIẢ
1. Mô hình chỉ có một biến giả
Ví dụ 1 : Một công ty sử dụng 2 công nghệ (CN) sản xuất là A và B.
Năng suất của mỗi CN là đại lượng ngẫu nhiên phân phối chuẩn có
phương sai bằng nhau, kỳ vọng khác nhau. Hãy lập mô hình mô tả
quan hệ giữa năng suất của công ty với việc sử dụng CN sản xuất.
Mô hình : Yi = 1+ 2Zi + Ui
Trong đó : Y : năng suất, Z : biến giả

1 𝑁ế𝑢 𝑠ử 𝑑ụ𝑛𝑔 𝑐ô𝑛𝑔 𝑛𝑔ℎệ 𝐴


𝑍=
0 𝑁ế𝑢 𝑠ử 𝑑ụ𝑛𝑔 𝑐ô𝑛𝑔 𝑘ℎá𝑐
MÔ HÌNH TRONG ĐÓ CÁC BIẾN
ĐỘC LẬP ĐỀU LÀ BIẾN GIẢ
1. Mô hình chỉ có một biến giả
Ta có :
E(Yi/Zi= 0) = 1 : năng suất trung bình của CN B.
E(Yi/Zi= 1) = 1+ 2 : năng suất trung bình của CN A.
 2: chênh lệch năng suất giữa CN A và CN B.
Bài toán kiểm định giả thiết:
𝐻0 : 2 = 0 ( 𝑔𝑖ữ𝑎 𝐶𝑁 𝐴 𝑣à 𝐶𝑁 𝐵 𝑘ℎô𝑛𝑔 𝑐ó 𝑘ℎá𝑐 𝑏𝑖ệ𝑡 𝑣ề 𝑛ă𝑛𝑔 𝑠𝑢ấ𝑡).
𝐻1 : 2 ≠ 0  𝑔𝑖ữ𝑎 𝐶𝑁 𝐴 𝑣à 𝐶𝑁 𝐵 𝑐ó 𝑘ℎá𝑐 𝑏𝑖ệ𝑡 𝑣ề 𝑛ă𝑛𝑔 𝑠𝑢ấ𝑡 .
Nếu bác bỏ 𝐻0  có quan hệ giữa năng suất với việc sử dụng CN sản xuất
VÍ DỤ
1. Mô hình chỉ có một biến giả NS CN Z
28 B 0
Giả sử tiến hành khảo sát năng suất
32 A 1
(tấn/ngày) của CN A và CN B trong vòng
35 A 1
10 ngày, người ta thu được số liệu sau:
27 B 0
Kết quả ước lượng mô hình hồi qui mẫu : 25 B 0
𝑌𝑖 = 27.8 + 6.4𝑍𝑖 37 A 1
29 B 0
2= 6.4  chênh lệch năng suất giữa CN A và
34 A 1
CN B là 6.4 (tấn/ngày).
33 A 1
30 B 0
MÔ HÌNH TRONG ĐÓ CÁC BIẾN
ĐỘC LẬP ĐỀU LÀ BIẾN GIẢ
2. Mô hình chỉ có nhiều hơn một biến giả
Ví dụ 2 : Tương tự ví dụ 1, nhưng công ty có 3 CN sản suất A, B và C.
Mô hình : Yi = 1+ 2Z1i + 3Z2i + Ui
Trong đó : Y - năng suất, Z1, Z2 : biến giả
1 𝑁ế𝑢 𝑠ử 𝑑ụ𝑛𝑔 𝑐ô𝑛𝑔 𝑛𝑔ℎệ 𝐴
𝑍1 =
0 𝑁ế𝑢 𝑠ử 𝑑ụ𝑛𝑔 𝑐ô𝑛𝑔 𝑘ℎá𝑐

1 𝑁ế𝑢 𝑠ử 𝑑ụ𝑛𝑔 𝑐ô𝑛𝑔 𝑛𝑔ℎệ 𝐵


𝑍2 =
0 𝑁ế𝑢 𝑠ử 𝑑ụ𝑛𝑔 𝑐ô𝑛𝑔 𝑘ℎá𝑐
MÔ HÌNH TRONG ĐÓ CÁC BIẾN
ĐỘC LẬP ĐỀU LÀ BIẾN GIẢ
2. Mô hình chỉ có nhiều hơn một biến giả
Ta có :
E(Yi/ Z1i= 0, Z2i= 0) = 1: năng suất trung bình của CN C.
E(Yi/Z1i= 1, Z2i= 0) = 1+ 2 : năng suất trung bình của CN A.
E(Yi/ Z1i= 0, Z2i= 1) = 1+ 3 : năng suất trung bình của CN B.
 2: chênh lệch năng suất giữa CN A và C.
 3: chênh lệch năng suất giữa CN B và C.
MÔ HÌNH TRONG ĐÓ CÁC BIẾN
ĐỘC LẬP ĐỀU LÀ BIẾN GIẢ
2. Mô hình chỉ có nhiều hơn một biến giả
Bài toán kiểm định giả thiết:

𝐻0 : 2 = 𝛽3 = 0 (𝑘ℎô𝑛𝑔 𝑐ó 𝑘ℎá𝑐 𝑏𝑖ệ𝑡 𝑣ề 𝑛ă𝑛𝑔 𝑠𝑢ấ𝑡 𝑔𝑖ữ𝑎 𝑐á𝑐 𝑐ô𝑛𝑔 𝑛𝑔ℎệ)


𝐻1 : 22 + 𝛽32 ≠ 0 𝑐ó 𝑘ℎá𝑐 𝑏𝑖ệ𝑡 𝑣ề 𝑛ă𝑛𝑔 𝑠𝑢ấ𝑡 𝑔𝑖ữ𝑎 𝑐á𝑐 𝑐ô𝑛𝑔 𝑛𝑔ℎệ .

Nếu bác bỏ 𝐻0  có quan hệ giữa năng suất với việc sử dụng CN sản xuất
MÔ HÌNH TRONG ĐÓ CÁC BIẾN
ĐỘC LẬP ĐỀU LÀ BIẾN GIẢ
2. Mô hình chỉ có nhiều hơn một biến giả
 Chú ý :
- Một biến định tính có m mức độ (m phạm trù) thì cần sử dụng (m-1)
biến giả đại diện cho nó.
- Thuộc tính (phạm trù) được gán giá trị 0 được xem là thuộc tính
(phạm trù) cơ sở (việc so sánh được tiến hành với phạm trù này).
MÔ HÌNH TRONG ĐÓ CÁC BIẾN
ĐỘC LẬP ĐỀU LÀ BIẾN GIẢ
2. Mô hình chỉ có nhiều hơn một biến giả
 Chú ý :
- Một biến định tính có m mức độ (m thuộc tính) thì cần sử dụng (m-1) biến giả đại
diện cho nó.
- Thuộc tính được gán giá trị 0 được xem là thuộc tính (phạm trù) cơ sở (việc so sánh
được tiến hành với phạm trù này).
- Nên sử dụng nhiều biến giả với hai giá trị 0 và 1 thay vì phải sự dụng một biến giả
với nhiều giá trị vì:
• Việc phân tích mô hình khi so sánh giá trị trung bình của biến phụ thuộc với các thuộc
tính khác nhau sẽ khó khăn hơn.
• Biến giả có nhiều giá trị trở thành biến định lượng thông thường nên dễ tương quan với
các biến độc khác trong mô hình
MÔ HÌNH VỚI BIẾN ĐỊNH LƯỢNG
VÀ BIẾN DỊNH TÍNH
Ví dụ 3 : Hãy lập mô hình mô tả quan hệ giữa thu nhập của giáo viên
với thâm niên giảng dạy và vùng giảng dạy (thành phố, tỉnh đồng
bằng, miền núi).
Gọi Y : thu nhập (triệu đồng/năm); X : thâm niên giảng dạy (năm)
Z1, Z2 : biến giả với
1 𝑁ế𝑢 𝑔𝑖ả𝑛𝑔 𝑑ạ𝑦 ở 𝑡ℎà𝑛ℎ 𝑝ℎố
𝑍1 =
0 𝑁ế𝑢 𝑔𝑖ả𝑛𝑔 𝑑ạ𝑦 ở 𝑛ơ𝑖 𝑘ℎá𝑐

1 𝑁ế𝑢 𝑔𝑖ả𝑛𝑔 𝑑ạ𝑦 ở 𝑡ỉ𝑛ℎ đồ𝑛𝑔 𝑏ằ𝑛𝑔


𝑍2 =
0 𝑁ế𝑢 𝑔𝑖ả𝑛𝑔 𝑑ạ𝑦 ở 𝑛ơ𝑖 𝑘ℎá𝑐
MÔ HÌNH VỚI BIẾN ĐỊNH LƯỢNG
VÀ BIẾN DỊNH TÍNH
Ta có mô hình :
Yi = 1+ 2Xi + 3Z1i + 4Z2i + Ui
Ý nghĩa:
 2: Trong điều kiện các yếu tố khác không đổi, khi thâm niên
giảng dạy tăng lên 1 năm thì thu nhập trung bình tăng thêm 𝛽2
triệu đồng/năm.
 3: Trong điều kiện các yếu tố khác không đổi, chênh lệch thu
nhập giữa giáo viên dạy dạy ở thành phố so với giảng dạy ở miền
núi là 𝛽3 .
 4 : …
VÍ DỤ
Ví dụ: Để nghiên cứu nhu cầu của một loại hàng, người ta tiến hành khảo sát giá
bán và lượng hàng bán được ở 20 khu vực thu được số liệu cho ở bảng sau:
Y: lượng bán (tấn/tháng) Yi Xi Zi Yi Xi Zi
X: giá bán 20 2 1 14 5 0
Z: biến giả về khu vực bán hàng 19 3 0 14 6 1
18 3 1 13 6 0
18 4 0 12 7 1
1 𝑁ế𝑢 𝑏á𝑛 ở 𝑡ℎà𝑛ℎ 𝑡ℎị 17 4 1 12 7 0
𝑍1 =
0 𝑁ế𝑢 𝑏á𝑛 ở 𝑛ơ𝑖 𝑘ℎá𝑐 17 3 1 15 5 1
16 4 0 16 4 0
16 4 1 12 7 1
15 5 1 10 8 0
15 5 1 11 8 1
VÍ DỤ
Kết quả ước lượng mô hình hồi quy mẫu như sau:

𝐿ượ𝑛𝑔 𝑏á𝑛 = 22.605 – 1.53giá + 0.0973Z


3 = 0,0971: cho biết với giá bán như
nhau, lượng hàng bán được trung bình ở
thành phố cao hơn ở nông thôn 0,0973
tấn/tháng.
VÍ DỤ
1. Giả thuyết 2. Trị tới hạn
a/2=0,025 a/2=0,025
H0: β3 = 0 d.f. = 20-3 = 17
a = 0,05
H1: β3  0 t17; 0,025 = 2,1089 0
Bác H0 Không bác H0 Bác H0
3. Trị thống kê -tα/2 tα/2
-2,1089 2,1089
Coefficients Standard Error t Stat P-value Trị thống kê 𝑡𝛽3 rơi vào vùng không bác bỏ 𝐻0
Khu vực 0.097332 0.301393 0.32294 0.75067
(Hoặc p-value > 0.05 nếu sử dụng p-value)
4. Kết luận: Không bác H0
 Đủ bằng chứng để kết luận yếu tố khu vực không ảnh hưởng đến doanh thu. (a = 0,05)
Nên sử dụng hồi qui chỉ gồm biến giá bán vì: khi thêm biến Z vào mô hình, hệ số xác định
hiệu chỉnh R2 giảm và hệ số 3 của biến Z không có ý nghĩa về mặt thống kê.
MÔ HÌNH VỚI BIẾN TƯƠNG TÁC
Ví dụ 5 : Lập mô hình quan hệ giữa Mở rộng mô hình:
chi tiêu cá nhân với thu nhập và giới  Với mô hình (1), khi thu nhập cá nhân
tính của cá nhân. tăng 1 triệu đồng thì chi tiêu tăng 
Yi = 1+ Xi + 3Zi + Ui (1) triệu đồng bất kể là nam hay nữ.
Y – chi tiêu (triệu/tháng)  Xét giả thiết cho rằng nếu thu nhập
X – thu nhập (triệu/tháng) tăng 1 triệu đồng thì mức chi tiêu tăng
thêm của nam và nữ khác nhau
Zi = biến giả về giới tính
 Nghĩa là tham số  phải là phụ thuộc
1 𝑁𝑎𝑚 vào giới tính hay:
𝑍1 =
0 𝑁ữ
 = 2+ 4Zi
MÔ HÌNH VỚI BIẾN TƯƠNG TÁC
Lúc này mô hình (1) được viết: Ý nghĩa của các hệ số:
Yi = 1+ (2+ 4Zi)Xi + 3Zi + Ui •1:Khi không có thu nhập thì chi tiêu trung
bình của một người nữ là 1triệu.
Hay:
•2: Khi thu nhập của một người nữ tăng 1
Yi = 1+ 2 Xi + 3Zi + 4XiZi + Ui (2) triệu đồng thì chi tiêu của họ tăng 2 triệu
Trong đó: XiZi được gọi là biến tương tác đồng.
giữa X và Z. •3:Khi không có thu nhập thì chi tiêu trung
- Khi Zi=1: Yi = (1 +3) + (2+ 4)Xi +Ui bình của một người nam chênh lệch so với
của một người nữ là 3 triệu.
Đây là hồi qui chi tiêu-thu nhập của nam.
•4: Khi thu nhập của một người nam tăng 1
- Khi Zi=0 : Yi = 1+ 2 Xi +Ui
triệu đồng thì chi tiêu của họ tăng nhiều hơn
Đây là hồi qui chi tiêu-thu nhập của nữ. của nữ 4 triệu đồng (nếu 4 > 0) hay tăng ít
hơn của nữ 4 triệu đồng (nếu 4< 0).
MÔ HÌNH VỚI BIẾN TƯƠNG TÁC
Các bài toán kiểm định liên quan:
1. H0 : 3 = 0  hệ số tung độ gốc giữa hồi qui cho nam và cho nữ
là giống nhau.
2. H0 : 4 = 0  hệ số độ dốc giữa hồi qui cho nam và cho nữ là
giống nhau.
3. H0 : 3 = 4 = 0  hồi qui cho nam và cho nữ là giống hệt nhau
(chi tiêu của nam và của nữ là giống nhau)
MÔ HÌNH VỚI BIẾN TƯƠNG TÁC
Giả sử mô hình hồi qui: 𝑌 = 1 + 2𝑋 + 3𝑍 + 4𝑋𝑍
y
Z = 1:
12 𝑌 = 1 + 2X + 3.1 + 4X.1 = 4 + 6X
8
Z = 0:
4
y = 1 + 2X + 3.0 + 4X.0 = 1 + 2X
0
x1
0 0.5 1 1,5
Độ dốc thay đổi nếu tác động của X lên biến phụ thuộc y còn bị ảnh hưởng bởi giá trị của Z.
VÍ DỤ
Năm Y:Tiết kiệm X:Thu nhập
Ví dụ 6: Từ số liệu bên dưới, hãy lập mô 1946 0.36 8.8
Z
0
X.Z
0
hình hồi qui biểu diễn mối quan hệ giữa 1947 0.21 9.4 0 0
tiền gởi tiết kiệm (triệu pounds) với thu 1948 0.08 10 0 0
1949 0.2 10.6 0 0
nhập cá nhân của dân Anh giai đoạn 1946- 1950 0.1 11 0 0
1963. 1951 0.12 11.9 0 0
Với Z: biến giả về giai đoạn 1952
1953
0.41
0.5
12.7
13.5
0
0
0
0
1954 0.43 14.3 0 0
0 𝑇𝑟ướ𝑐 𝑘ℎ𝑖 𝑡ℎự𝑐 ℎ𝑖ệ𝑛 𝑐ả𝑖 𝑐á𝑐ℎ 1955 0.59 15.5 1 15.5
𝑍1 = 1956 0.9 16.7 1 16.7
1 𝑆𝑎𝑢 𝑘ℎ𝑖 𝑡ℎự𝑐 ℎ𝑖ệ𝑛 𝑐ả𝑖 𝑐á𝑐ℎ 1957 0.95 17.7 1 17.7
1958 0.82 18.6 1 18.6
1959 1.04 19.7 1 19.7
1960 1.53 21.1 1 21.1
1961 1.94 22.8 1 22.8
1962 1.75 23.9 1 23.9
1963 1.99 25.2 1 25.2
VÍ DỤ
Kết quả ước lượng mô hình hồi quy mẫu như sau:

Giai đoạn sau cải cách: Z = 1

𝑌 = −0.266 + 0.047𝑋 − 1.484 + 0.103𝑋


↔ 𝑌 = −1.75 + 0.15𝑋

Giai đoạn trước cải cách: Z = 0

𝑌 = −0.266 + 0.047𝑋
VÍ DỤ
Mô hình hồi quy sử dụng biến giả tương tác cho 2 thời kỳ
Tiết kiệm Sau cải cách
Yˆ  1,75  0,15045X
Trước cải cách
𝑌 = −0.266 + 0.047𝑋

-0,27 Thu nhập

-1,75
PHÂN TÍCH MÙA VỤ
SỬ DỤNG BIẾN GIẢ
Có nhiều phương pháp để loại nhân tố Mô hình đề nghị:
mùa khỏi chuỗi thời gian, một Yi = 1+ 2 Xi + 3Z2i + 4Z3i+ 5Z4i+ Ui
trong số đó là phương pháp biến Y- lợi nhuận (triệu đồng/qúy)
giả. X- doanh thu (triệu đồng/qúy)
Ví dụ 7: Giả sử cần nghiên cứu quan Z2 =1: qsát ở qúy 2; Z2= 0 : qsát ở qúy khác
hệ giữa lợi nhuận và doanh thu ở Z3 =1: qsát ở qúy 3; Z3= 0 : qsát ở qúy khác
một công ty, người ta thu nhập mẫu Z4 =1: qsát ở qúy 4; Z4= 0 : qsát ở qúy khác
số liệu theo quý và nghi ngờ rằng Các bài toán kiểm định liên quan:
1.H0: 3 = 0 (không có mùa vụ xảy ra ở qúy 2)
dữ liệu có thể có tính mùa.
2.H0: 4 = 0 (không có mùa vụ xảy ra ở qúy 3)
3.H0: 5 = 0 (không có mùa vụ xảy ra ở qúy 4)
4.H0: 3= 4= 5 = 0 (không có mùa vụ)
VÍ DỤ
Quý Doanh thu (Y) T Z2 Z3 Z4
Ví dụ 8: Dữ liệu về doanh thu của 2013Q1 64.2 1 0 0 0
một công ty (tỷ đồng) được cho 2013Q2 75.7 2 1 0 0
2013Q3 117.1 3 0 1 0
trong bảng sau: 2013Q4 72.4 4 0 0 1
Với T là biến về thời gian 2014Q1 69.4 5 0 0 0
Z2, Z3, Z4 là các biến giả mùa vụ 2014Q2 90 6 1 0 0
2014Q3 139.3 7 0 1 0
2014Q4 84.7 8 0 0 1
2015Q1 97.6 9 0 0 0
2015Q2 120 10 1 0 0
2015Q3 184.7 11 0 1 0
2015Q4 101.9 12 0 0 1
2016Q1 125.2 13 0 0 0
2016Q2 160 14 1 0 0
2016Q3 237.2 15 0 1 0
2016Q4 143.4 16 0 0 1
VÍ DỤ
Kết quả ước lượng mô hình hồi quy mẫu như sau:

Kiểm định riêng lẻ từng hệ số theo giả thuyết:


𝐻0 : 𝛽𝑗 = 0
𝐻1 : 𝛽𝑗 ≠ 0
Dựa vào p-value  dữ liệu có mùa vụ ở quý 3.
VÍ DỤ
Kết quả ước lượng mô hình hồi quy mẫu: Kiểm định riêng lẻ từng hệ số theo giả thuyết:
𝐻0 : 𝛽3 = 𝛽4 = 𝛽5 = 0
𝐻1 : 𝛽32 + 𝛽42 + 𝛽52 ≠ 0
Wald Test:
Equation: Untitled

Test Statistic Value df Probability

F-statistic 25.90614 (3, 11) 0.0000


Chi-square 77.71842 3 0.0000

Null Hypothesis: C(3)=C(4)=C(5)=0


Null Hypothesis Summary:

Normalized Restriction (= 0) Value Std. Err.

C(3) 15.26250 9.430408


C(4) 66.35000 9.517864
C(5) -9.687500 9.661864

Vì p-value < 0.05  Bác bỏ H0


 dữ liệu có mùa vụ.

You might also like