Professional Documents
Culture Documents
library(wooldridge)
data(ceosal2,package="wooldridge")
Z = ceosal2
a. Chạy hồi qui và báo cáo kết quả cho ba mô hình sau:
b. Bình luận lên tác động của profmarg lên tiền lương của CEO.
Ta thấy giá trị p-value của profmarg ở cả 2 mô hình hồi quy (2) và (3) đều lớn
hơn mức ý nghĩa α = 5% nên profmarg không tác động lên tiền lương của CEO .
Với mô hình hồi quy (2) khi profmarg tăng lên 1 đơn vị thì tiền lương của CEO
giảm xuống 0.2259%.
Với mô hình hồi quy (3) khi profmarg tăng lên 1 đơn vị thì tiền lương của CEO
giảm xuống 0.2211%.
Điều này có vẻ mâu thuẫn. Bởi vì ở thực tế khi lợi nhuận tính theo phần trăm
doanh thu tăng thì sẽ dẫn tới tiền lương của CEO cũng tăng theo.
c. Giá thị trường, mktval, có tác động vào tiền lương? Hãy giải thích.
Ta thấy mktval (giá thị trường) có tác động lên tiền lương CEO, bởi vì giá trị p-
value ở cả hai mô hình hồi quy đều nhỏ hơn mức ý nghĩa α =5%.
Với mô hình hồi quy (2) thì khi mktval tăng lên 1% đơn vị thì tiền lương của
CEO cũng tăng lên 0.112261%.
Với mô hình hồi quy (3) thì khi mktval tăng lên 1% đơn vị thì tiền lương của
CEO cũng tăng lên 0.099872%.
Do đó, giá thị trường, mktval, có ảnh hưởng đáng kể đến tiền lương của
CEO và có ý nghĩa thống kê.
d. Giải thích ý nghĩa của các hệ số cho các biến, ceoten và comten. Các
biến này có tác động vào biến phụ thuộc không?
- Hệ số ceoten (số năm làm giám đốc điều hành) ở mô hình hồi quy (3) là
0.017104. Khi đó số năm làm giám đốc điều hành tăng lên thì sẽ làm tăng lương
của CEO vì hệ số ceoten lúc này có giá trị dương. Nếu số năm làm giám đốc
điều hành tăng lên 1 năm thì lương của CEO sẽ tăng lên 1.7104% và ngược lại.
- Hệ số comten (số năm làm việc ở công ty) ở mô hình hồi quy (3) là -0.009238.
Khi đó số năm làm việc ở công ty tăng lên thì sẽ làm giảm lương của CEO vì hệ
số comten lúc này có giá trị âm. Nếu số năm làm việc ở công ty tăng lên 1 năm
thì lương của CEO sẽ giảm lên 0.9238% và ngược lại.
- Các biến này (ceoten và comten) có tác động vào biến phụ thuộc, bởi vì giá trị
p-value của ceoten là 0.00236 và giá trị p-value của comten là 0.00626 nhỏ hơn
mức ý nghĩa α =5%.
e. Thực hiện kiểm định đồng thời giả thuyết: βceoten=βcomten=0 Trình
bày các bước thực hiện kiểm định của bạn.
g. Trong 3 mô hình thì mô hình nào cho kết quả tốt nhất? Hãy biện luận
những lập luận của anh/chị.
- hệ số tương quan:
cor(Z$lsales, Z$lmktval)
cor(Z$lsales, Z$profmarg)
cor(Z$lsales, Z$ceoten)
cor(Z$lsales, Z$comten)
cor(Z$lmktval, Z$profmarg)
cor(Z$lmktval, Z$ceoten)
cor(Z$mktval, Z$comten)
cor(Z$profmarg, Z$ceoten)
cor(Z$profmarg, Z$comten)
cor(Z$ceoten, Z$comten)
log(mktval) profmarg ceoten comten log(sales)
log(mktval 0.06077802 -0.04347 0.136096 0.7359232
)
profmarg 0.0607780 0.0488047 0.0471739 -0.014594
2
ceoten -0.04347 0.0488047 0.3151212 -0.376854
comten 0.136096 0.0471739 0.3151212 0.23782
log(sales) 0.7359232 -0.014594 -0.376854 0.23782
*Nhận xét:
Từ bảng tương quan có thể thấy, mức độ tương quan giữa các biến độc lập với
nhau không cao. Hệ số tương quan cao nhất là 0.7359232 giữa biến log(sales)
và log(mktval). Do không có hệ số tương quan nào vượt qua 0.8 nên có thể dự
đoán là cả 3 mô hình đều không xảy ra hiện tượng đa cộng tuyến khi hồi quy.
- Nhìn vào kết quả chạy hồi quy của 3 mô hình, ta thấy giá trị pvalue của β1, β2,
β4, β5 đều nhỏ hơn mức ý nghĩa α=5% nên các biến độc lập log(sales),
log(mktval), ceoten và comten có ý nghĩa thống kê, nghĩa là đều tác động vào
biến phụ thuộc log(salary). Chính vì vậy, mô hình 3 là mô hình giải thích tốt
nhất tác động của các biến độc lập lên biến phụ thuộc log(salary) là hiệu quả
nhất trong 3 mô hình trên.
- Ngoài ra, R2 của mô hình 3 có giá trị lớn nhất là 0.3525, điều này nghĩa là sự
biến động trong log(salary) được giải thích bởi các biến phụ thuộc là 35.25%
còn lại 64.75% được giải thích bởi các yếu tố khác.
Vậy trong 3 mô hình hồi quy trên thì mô hình (3) cho kết quả tốt nhất.
BÀI 2
library(wooldridge)
data(hprice1,package="wooldridge")
Z = hprice1
a. Chạy hồi quy
ols = lm(lprice ~ llotsize + lsqrft + bdrms, data=Z)
summary(ols)
- Trình bày kết quả theo dạng thông thường:
log(price) = -1.29704 + 0.16797 log(lotsize) + 0.70023 log(sqrft) +
0.03696 bdrms.
b. Tìm giá trị dự đoán cho price khi lotsize = 20.000, sqrft = 2.500 và
bdrms = 4.
x0 = as.matrix(c(1,log(20000),log(2500),4))
lny0 = t(x0)%*%coef(ols)
exp(lny0)
alpha0 = mean(exp(resid(ols)))
Z["pricehat"] = exp(fitted(ols))
ols2 = lm(price ~ 0 + pricehat, data = Z)
summary(ols2)
alpha1 = coef(ols2)[1]
y1 = exp(t(x0)%*%coef(ols))*alpha0
y2 = exp(t(x0)%*%coef(ols))*alpha1
Gía trị dự đoán cho giá nhà (price) khi lotsize=20.000, sqrft=2500, bdrms=4:
- Nếu sử dụng mức ước tính alpha0 thì giá nhà(price) dự đoán khoảng
$407122.4
- Nếu sử dụng mức ước tính alpha1 thì giá nhà(price) dự đoán khoảng
$409752.1
Z["yhat0"]= exp(fitted(ols))*alpha0
Z["yhat1"]= exp(fitted(ols))*alpha1
A_0 = sum((Z$yhat0 - Z$price)^2)
A_1 = sum((Z$yhat1 - Z$price)^2)
A_0 = 244460
A_1 = 244119.9
Ta thấy, tổng bình phương chênh lệch của giá nhà (price) dự đoán theo alpha1
so với thực tế (A_1 = 244119.9) nhỏ hơn tổng bình phương chênh lệch của giá
nhà (price) dự đoán theo alphal0 so với thực tế (A_0 = 244460) nên ta chọn sử
dụng mức tính alpha1 để dự đoán cho giá nhà (price).
Vậy theo mức tính alpha1 thì giá nhà (price) dự đoán khoảng $409752.1
c. Với mục tiêu là giải thích cho sự biến động trong price, bạn quyết
định chọn mô hình ở câu (a) hay mô hình price = β0 + β1 lotsize +
β2 sprft + β3 bdrms + u.
*Quan sát 2 mô hình trên đồ thị histogram:
library(psych)
psych::describe(Z[,c("price","lotsize","sqrft", "bdrms")], fast=T)
hist(Z$price)
hist(Z$lprice)
hist(Z$lotsize)
hist(Z$llotsize)
hist(Z$sqrft)
hist(Z$lsqrft)
Với price, lotsize, sqrft đồ thị histogram bị lệch phải sẽ dẫn đến tình trạng
outliers nên chúng ta nên sử dụng hàm log cho price, lotsize, sqrft.
Ngoài ra, price, lotsize và sqrft là các biến liên tục và giá trị min của
price, lotsize, sqrft lần lượt là là 111, 1000, 1171 ( không có giá trị nào
nhỏ hơn hoặc bằng 0) nên chúng ta có thể dùng log(price), log(lotsize),
log(sqrft).
* Kiểm tra hiện tượng phương sai bị thay đổi trên 2 mô hình:
ols1 <- lm(price~lotsize+sqrft+bdrms, data=Z)
library(lmtest)
bptest(ols)
bptest(ols1)
Đối với mô hình hồi quy price = β0 + β1 lotsize + β2 sprft + β3 bdrms +
u. Ta dùng lmtest thì có được pvalueLM= 0.002782 < α -> xảy ra hiện
tượng phương sai thay đổi.
Đối với mô hình ở câu a. log(price) = β0 + β1 log(lotsize) + β2 log(sprft)
+ β3 bdrms + u. Ta dùng lmtest có được pvalueLM=0.2383>α -> không
có hiện tượng phương sai thay đổi.
Ta đã giải quyết được vấn đề phương sai bị thay đổi đối với mô hình giá
nhà (price) bằng cách lấy log các biến (trừ biến bdmrs vì số phòng ngủ là
biến rời rạc).