You are on page 1of 5

BÀI TẬP 3

Sử dụng dữ liệu của tập tin hprice3.csv với các biến:


 price: giá bán nhà;
 area: diện tích ngôi nhà (feet vuông);
 rooms: số phòng trong nhà;
 baths: số phòng tắm;
 age: tuổi của ngôi nhà;
 y81: biến giả, = 1 nếu quan sát trong năm 1981, = 0 nếu quan sát trong năm 1978.
Xét mô hình hồi quy 3 (MH3):
log(price) = 0 + 1log(area) + 2rooms + 3baths + 4age + 5y81 + u
Kết quả hồi quy MH3 từ phần mềm R như sau:
> hq3 <- lm(log(price) ~ log(area) + rooms + baths + age + y81, data=hprice)
> summary(hq3)

Call:
lm(formula = log(price) ~ log(area) + rooms + baths + age + y81,
data = hprice)

Residuals:
Min 1Q Median 3Q Max
-1.23623 -0.12216 0.00395 0.12986 0.97979

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.658009 0.359854 21.281 < 2e-16 ***
log(area) 0.361645 0.054168 6.676 1.11e-10 ***
rooms 0.071860 0.017686 4.063 6.12e-05 ***
baths 0.164210 0.026768 6.134 2.56e-09 ***
age -0.002899 0.000421 -6.886 3.12e-11 ***
y81 0.378389 0.025096 15.078 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2172 on 315 degrees of freedom


Multiple R-squared: 0.758, Adjusted R-squared: ?????
F-statistic: ????? on 5 and 315 DF, p-value: < 2.2e-16
a) Viết hàm hồi quy mẫu và giải thích ý nghĩa hệ số hồi quy của biến y81 trong hàm hồi
quy mẫu?
b) Hãy cho biết có sự khác biệt trong giá bán nhà năm 1981 và năm 1978 không, với mức
ý nghĩa 4%?
c) Hàm hồi quy sẽ thay đổi như thế nào nếu ta đổi đơn vị của area thành mét vuông? Biết
rằng 1feet = 0.3048m.
d) Mô hình hồi quy này có phù hợp không? Nêu cặp giả thuyết H0 và H1, kết luận với mức
ý nghĩa 1%?
e) Hãy cho biết bảng kết quả sau đây dùng để làm gì? Nêu cặp giả thuyết H0 và H1, kết
luận với mức ý nghĩa 5%?
> phandu <- resid(hq3)
> library(fBasics)
Loading required package: timeDate
Loading required package: timeSeries
> jarqueberaTest(phandu)

Title:
Jarque - Bera Normalality Test

Test Results:
STATISTIC:
X-squared: 316.8244
P VALUE:
Asymptotic p Value: < 2.2e-16
f) Hãy cho biết bảng kết quả sau đây dùng để làm gì? Nêu kết luận của mình.
> library(car)
Loading required package: carData
> vif(hq3)
log(area) rooms baths age y81
2.309699 1.722520 2.884587 1.274614 1.056738
g) Hãy cho biết bảng kết quả sau đây dùng để làm gì? Nêu kết luận của mình.
> c <- data.frame(area = 4000, rooms = 9, baths = 3, age = 20, y81 = 1)
> predict(hq3, c, interval="confidence", level=0.97)
fit lwr upr
1 12.11729 12.02507 12.20952
h) Hãy cho biết bảng kết quả sau đây dùng để làm gì? Nêu kết luận của mình.
> c <- data.frame(area = 4000, rooms = 9, baths = 3, age = 20, y81 = 1)
> predict(hq3, c, interval="prediction", level=0.98)
fit lwr upr
1 12.11729 11.59979 12.6348
i) Xét lại mô hình 1 (trong bài tập thực hành 1):
> hq1 <- lm(log(price) ~ log(area) + rooms + baths + age, data=hprice)
> summary(hq1)

Call:
lm(formula = log(price) ~ log(area) + rooms + baths + age, data = hprice)

Residuals:
Min 1Q Median 3Q Max
-1.3856 -0.1901 0.0122 0.1992 0.8413

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.7588037 0.4649094 14.538 < 2e-16 ***
log(area) 0.5288392 0.0694604 7.614 3.11e-13 ***
rooms 0.0593313 0.0231439 2.564 0.010822 *
baths 0.1190959 0.0348483 3.418 0.000715 ***
age -0.0037630 0.0005464 -6.887 3.09e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2846 on 316 degrees of freedom


Multiple R-squared: 0.5834, Adjusted R-squared: 0.5781
F-statistic: 110.6 on 4 and 316 DF, p-value: < 2.2e-16
Giữa MH1 và MH3 thì mô hình nào tốt hơn? Vì sao? Xét với mức ý nghĩa 3%.
HƯỚNG DẪN

1) Hàm hồi quy mẫu:


^
log ⁡( price)=7,658+0,362 log ( area ) +0,072 rooms+0,164 baths−0,003 age+ 0,378 y 81
^
2) β 5=0,378 : trong điều kiện các yếu tố khác không đổi, giá bán nhà năm 1981 cao hơn
năm 1978 là 1000,378 = 37,8(%).
3) Kiểm định H0: 5 = 0 và H1: 5 ≠ 0
4) Vì biến area trong hàm hồi quy này ở dạng log, nên khi thay đổi đơn vị tính của area thì
các hệ số góc vẫn giữ nguyên không đổi, hệ số chặn sẽ trừ đi ln(0,30482).
5) Kiểm định H0: R2 = 0 và H1: R2 > 0 (trường hợp đặc biệt của kiểm định ràng buộc loại
trừ).
6) Bảng này dùng để kiểm định xem sai số u có phân phối chuẩn hay không.
H0: u có phân phối chuẩn;
H1: u không có phân phối chuẩn.
7) Bảng này dùng để xét xem các biến trong mô hình có bị đa cộng tuyến hay không.
Vì tất cả các VIF đều nhỏ hơn 10 nên ta có thể xem như mô hình không có đa cộng
tuyến nghiêm trọng.
8) Bảng này dùng để dự đoán giá trị trung bình của log(price) của các ngôi nhà có cùng
diện tích 4000 feet vuông, có 9 phòng, có 3 phòng tắm, có tuổi thọ 20 năm và vào thời
điểm năm 1981.
9) Bảng này dùng để dự đoán giá trị cá biệt của log(price) của 1 ngôi nhà cụ thể có diện
tích 4000 feet vuông, có 9 phòng, có 3 phòng tắm, có tuổi thọ 20 năm và vào thời điểm
năm 1981.
10)MH3 tốt hơn vì có R2 cao hơn. Kiểm định H0: 5 = 0 và H1: 5 ≠ 0.
HƯỚNG DẪN THỰC HÀNH

 Tính toán nhân tử phóng đại phương sai VIF: (Để xét xem mô hình có đa cộng
tuyến không)
> library(car)
Loading required package: carData
> vif(hq3)
log(area) rooms baths age y81
2.309699 1.722520 2.884587 1.274614 1.056738

 Dự đoán khoảng tin cậy của giá trị trung bình của biến phụ thuộc khi biết giá trị
của các biến độc lập:
Giả sử ta muốn dự đoán về giá trị trung bình của log(price) của các ngôi nhà có diện
tích 4500 feet vuông, có 10 phòng, 4 phòng tắm, tuổi thọ 25 năm vào thời điểm năm
1978 thì ta tìm khoảng tin cậy 95% của giá bán trung bình đó như sau:
> d <- data.frame(area = 4500, rooms = 10, baths = 4, age = 25, y81 = 0)
> predict(hq3, d, interval="confidence", level=0.95)
fit lwr upr
1 12.00308 11.9055 12.10065
Từ bảng kết quả này, ta nhận thấy khoảng tin cậy 95% cho giá trị trung bình của
log(price) là: (11,9055; 12,100065).

 Dự đoán khoảng tin cậy của giá trị cá biệt của biến phụ thuộc khi biết giá trị của
các biến độc lập:
Giả sử ta muốn dự đoán về một giá trị cụ thể của log(price) của ngôi nhà có diện tích
4500 feet vuông, có 10 phòng, 4 phòng tắm, tuổi thọ 25 năm vào thời điểm năm 1978
thì ta tìm khoảng tin cậy 95% của giá bán trung bình đó như sau:
> d <- data.frame(area = 4500, rooms = 10, baths = 4, age = 25, y81 = 0)
> predict(hq3, d, interval="prediction", level=0.95)
fit lwr upr
1 12.00308 11.56465 12.4415
Hướng dẫn: Từ bảng kết quả, ta suy ra khoảng tin cậy 95% cho giá trị cá biệt của
log(price).

 Các tiêu chuẩn lựa chọn mô hình:


 Tiêu chuẩn R2: R2 càng lớn thì càng tốt.
 Tiêu chuẩn AIC (Akaike information criterion): AIC càng nhỏ càng tốt.
 Tiêu chuẩn BIC (Bayesian information criterion): BIC càng nhỏ càng tốt.
 Tiêu chuẩn Cp của Mallows: Cp càng nhỏ càng tốt.
 Điều kiện sử dụng:
 Biến phụ thuộc có cùng dạng hàm.
 Cùng cỡ mẫu.
Bảng sau giúp tìm AIC và BIC của MH3:
> AIC(hq3)
[1] -61.26923
> BIC(hq3)
[1] -34.86914
Đối với MH1 ta thực hiện các câu lệnh tương tự. Sau đó so sánh giữa 2 mô hình.

You might also like