You are on page 1of 7

BÀI TẬP 1

Sử dụng dữ liệu của tập tin hprice3.csv với các biến:


 price: giá bán nhà;
 area: diện tích ngôi nhà (feet vuông);
 rooms: số phòng trong nhà;
 baths: số phòng tắm;
 age: tuổi của ngôi nhà;

Kết quả hồi quy từ phần mềm R như sau:

> hq1 <- lm(log(price) ~ log(area) + rooms + baths + age, data=hprice)


> summary(hq1)

Call:
lm(formula = log(price) ~ log(area) + rooms + baths + age, data = hprice)

Residuals:
Min 1Q Median 3Q Max
-1.3856 -0.1901 0.0122 0.1992 0.8413

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.7588037 0.4649094 14.538 < 2e-16 ***
log(area) 0.5288392 0.0694604 7.614 3.11e-13 ***
rooms 0.0593313 0.0231439 2.564 0.010822 *
baths 0.1190959 0.0348483 3.418 0.000715 ***
age -0.0037630 0.0005464 -6.887 3.09e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2846 on 316 degrees of freedom


Multiple R-squared: 0.5834, Adjusted R-squared: 0.5781
F-statistic: 110.6 on 4 and 316 DF, p-value: < 2.2e-16

1) Trình bày kết quả hồi quy mẫu theo dạng thông thường?
2) Hãy giải thích ý nghĩa hệ số hồi quy của biến log(area)?
3) Số phòng tắm có ảnh hưởng đến giá bán nhà không, xét mức ý nghĩa 3%?
4) Tìm khoảng tin cậy cho hệ số của biến rooms trong hàm hồi quy tổng thể, với độ tin
cậy 98%?
5) Bạn có cho rằng khi tuổi ngôi nhà càng cao thì giá bán nhà càng giảm hay không, trong
điều kiện các yếu tố khác không đổi? Kết luận với mức ý nghĩa 2%.
6) Có ý kiến cho rằng khi xét 2 ngôi nhà có cùng diện tích, cùng số phòng tắm và cùng số
tuổi, nếu ngôi nhà A có nhiều hơn ngôi nhà B 1 phòng thì giá bán ngôi nhà A cao hơn
giá bán ngôi nhà B khoảng 8%. Bạn hãy cho nhận xét về ý kiến này, với mức ý nghĩa
1%.
7) Hãy cho biết biến log(area) và biến rooms có ý nghĩa thống kê riêng lẻ hay không, với
mức ý nghĩa 1%?
8) Để kiểm định xem biến log(area) và biến rooms có ý nghĩa thống kê đồng thời hay
không thì ta tiến hành hồi quy mô hình ràng buộc là mô hình nào? Biết rằng khi hồi
quy mô hình ràng buộc, ta thu được R2R=0,4847 . Biến log(area) và biến rooms có ý
nghĩa thống kê đồng thời hay không, với mức ý nghĩa 1%?
9) Kiểm định giả thuyết H0: tất cả các biến độc lập không giải thích giúp biến phụ thuộc,
với mức ý nghĩa 1%?
HƯỚNG DẪN
1) Trình bày kết quả hồi quy mẫu:
^
log ⁡( price)=6,7588+0,5288 log ⁡( area)+0,0593 rooms+0,1191 baths−0,0038 age
log ( price )=6,7588+ 0,5288 log ( area )+ 0,0593rooms +0,1191 baths−0,0038 age+ u^

2) ^
β 1=0,5288: Trong điều kiện các yếu tố khác không đổi, khi diện tích ngôi nhà tăng 1%
thì giá bán nhà tăng 0,5288%.
3) Kiểm định H0: baths = 0 và H1: baths ≠ 0
Cách 1: tbaths = 3,418
Có mức ý nghĩa  = 3%  /2 = 0,015
Do n – (k+1) = 316 lớn nên t/2(n-(k+1))  z/2 = z0,015 = 2,17
Vì |t| = 3,418 > z/2 = 2,17 nên ta bác bỏ H0.
Vậy số phòng tắm có ảnh hưởng đến giá bán nhà.
Cách 2: p-value(baths) = 0,000715 <  = 3%  Bác bỏ H0.
Vậy số phòng tắm có ảnh hưởng đến giá bán nhà.
n− ( k+1 )
^
Cách 3: β baths ∈( β baths −t α . se ( ^β baths ) ; ^β baths+ t n−(k+1)
α . se ( ^β baths ) )
2 2
Có độ tin cậy (1-) = 1 – 0,03 = 0,97  /2 = 0,015
Do n – (k+1) = 316 lớn nên t/2(n-(k+1))  z/2 = z0,015 = 2,17
Suy ra:
β baths ∈(0 ,1191−2 ,17 x 0,0 348; 0 ,1191+ 2, 17 x 0,0 348)
Vậy: β baths ∈ ¿0,0436; 0.1946)

Vì 0  ¿0,0436; 0,1946) nên ta bác bỏ H0.

Vậy số phòng tắm có ảnh hưởng đến giá bán nhà.


n−(k +1)
^
4) β rooms ∈( β rooms−t α . se ( ^βrooms ) ; ^β rooms +t n−(k+1)
α . se ( ^β rooms ) )
2 2
Có độ tin cậy (1-) = 98%  /2 = 0,01  t/2(n-(k+1)) = t0,01(316) = 2,326
Do n – (k+1) = 316 lớn nên t/2(n-(k+1))  z/2 = z0,01 = 2,325
Suy ra:
β rooms ∈(0,0593−2,326 x 0,0231 ; 0,0593+2,326 x 0,0231)
Vậy: rooms ∈ ¿0.0055694; 0.1130306)
β

5) Kiểm định H0: age = 0 và H1: age < 0


Cách 1: tage = -6,887
Có mức ý nghĩa  = 2%
Do n – (k+1) = 316 lớn nên t(n-(k+1))  z = z0,02 = 2,055
Vì t = -6,887 < -z = -2,055 nên ta bác bỏ H0.
Vậy khi tuổi ngôi nhà càng cao thì giá bán nhà càng giảm.
Cách 2: p-value(age) = 3,09x10-11/2 <  = 2%  Bác bỏ H0.
Vậy khi tuổi ngôi nhà càng cao thì giá bán nhà càng giảm.

6) Kiểm định H0: rooms = 0,08 và H1: rooms ≠ 0,08


t = (0,0593-0,08)/0,0231 = -0,896
Có mức ý nghĩa  = 1%  /2 = 0,005  t/2(n-(k+1)) = t0,005(316) = 2,576
Do n – (k+1) = 316 lớn nên t/2(n-(k+1))  z/2 = z0,005 = 2,575
Vì |t| = 0,896 < t/2 = 2,576 nên ta chấp nhận H0.
Vậy khi xét 2 ngôi nhà có cùng diện tích, cùng số phòng tắm và cùng số tuổi, nếu ngôi
nhà A có nhiều hơn ngôi nhà B 1 phòng thì giá bán ngôi nhà A cao hơn giá bán ngôi nhà B
khoảng 8%. (Vậy ta đồng ý với ý kiến này)
Cách 2: Khoảng tin cậy của β rooms là ….

7) Kiểm định H0: log(area) = 0 và H1: log(area) ≠ 0


Kiểm định H0: rooms = 0 và H1: rooms ≠ 0
8) Kiểm định ràng buộc loại trừ: H0: log(area) = rooms = 0. (Dùng kiểm định F).
H1: Tồn tại log(area) ≠ 0 hoặc rooms ≠ 0
( RUR  RR ) / q
2 2
(0,5834  0, 4847) / 2
F   37, 433
Ta có: (1  R 2
UR ) / ( n  ( k  1)) (1  0,5834) / 316
Mức ý nghĩa  = 1%  F(q; (n-(k+1))) = F0,01(2; 316) = 4,61
Vì F = 37,433 > F = 4,61 nên ta bác bỏ H0.
Vậy biến log(area) và biến rooms có ý nghĩa thống kê đồng thời.
9) Kiểm định H0: R2 = 0 và H1: R2 > 0 (trường hợp đặc biệt của kiểm định ràng buộc loại
trừ)
R2 / k 0,5834 / 4
F   110,63
(1  R ) / ( n  ( k  1)) (1  0,5834) / 316
2

Mức ý nghĩa  = 1%  F(k; (n-(k+1))) = F0,01(4; 316) = 3,32


Vì F = 110,63 > F = 3,32 nên ta bác bỏ H0.
Vậy tất cả các biến độc lập có giải thích giúp biến phụ thuộc.
Cách 2:
p-value(F) < 2,2x10-16 <  = 1% nên ta bác bỏ H0.
Vậy tất cả các biến độc lập có giải thích giúp biến phụ thuộc.
HƯỚNG DẪN THỰC HÀNH

 Nhập dữ liệu vào R:


Dùng lệnh read.csv(), đặt tên tập dữ liệu đó là hprice.

 Thực hiện hồi quy mô hình:


> hq1 <- lm(log(price) ~ log(area) + rooms + baths + age, data=hprice)
> summary(hq1)

Call:
lm(formula = log(price) ~ log(area) + rooms + baths + age, data = hprice)

Residuals:
Min 1Q Median 3Q Max
-1.3856 -0.1901 0.0122 0.1992 0.8413

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.7588037 0.4649094 14.538 < 2e-16 ***
log(area) 0.5288392 0.0694604 7.614 3.11e-13 ***
rooms 0.0593313 0.0231439 2.564 0.010822 *
baths 0.1190959 0.0348483 3.418 0.000715 ***
age -0.0037630 0.0005464 -6.887 3.09e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2846 on 316 = (n-(k+1)) degrees of freedom


Multiple R-squared: 0.5834, Adjusted R-squared: 0.5781
F-statistic: 110.6 on 4 and 316 DF, p-value: < 2.2e-16

 Kiểm định sai số u có phân phối chuẩn:


Cách 1: Dùng kiểm định Jarque-Bera:
> #Lấy phần dư của hàm hồi quy trên:
> phandu1 <- resid(hq1)

> #Tải gói lệnh fBasics về cài đặt vào máy.


> install.packages("fBasics")
> library(fBasics)
Loading required package: timeDate
Loading required package: timeSeries

> #Thực hiện kiểm định Jarque-Bera:


> jarqueberaTest(phandu1)

Title:
Jarque - Bera Normalality Test

Test Results:
STATISTIC:
X-squared: 33.3374
P VALUE:
Asymptotic p Value: 5.766e-08
Giả thuyết H0: Sai số u có phân phối chuẩn.
Nhận thấy: p-value = 5,766.10-8 <  = 0,05  Bác bỏ H0.
Vậy sai số u không có phân phối chuẩn.

Cách 2: Dùng kiểm định Shapiro-Will.


> shapiro.test(phandu1)

Shapiro-Wilk normality test

data: phandu1
W = 0.9838, p-value = 0.001114
Hướng dẫn: nhìn p-value để kết luận.

Cách 3: Dùng kiểm định Anderson – Darling.


> #Tải gói lệnh nortest về cài đặt vào máy.
> install.packages("nortest")

> #Thực hiện kiểm định Anderson-Darling:


> library(nortest)
> ad.test(phandu1)

Anderson-Darling normality test

data: phandu1
A = 0.58913, p-value = 0.1236
Hướng dẫn: nhìn p-value để kết luận.

Cách 4: Dùng kiểm định Kolmogorov-Smirnov.


> lillie.test(phandu1)

Lilliefors (Kolmogorov-Smirnov) normality test

data: phandu1
D = 0.041139, p-value = 0.2066
Hướng dẫn: nhìn p-value để kết luận.

 Tìm khoảng tin cậy:


> confint(hq1,level = 0.95)
2.5 % 97.5 %
(Intercept) 5.844094645 7.673512770
log(area) 0.392175878 0.665502615
rooms 0.013795727 0.104866814
baths 0.050531961 0.187659796
age -0.004838062 -0.002687915
Với độ tin cậy 95%, khoảng tin cậy của hệ số hồi quy của biến rooms là: (0,0138; 0,1049)
 Kiểm định ràng buộc loại trừ: (câu 8)
> #Tải gói lệnh car về cài đặt vào máy.
> install.packages("car")

> #Thực hiện kiểm định F:


> library(car)
> linearHypothesis(hq1,c("log(area)=0","rooms=0"))
Linear hypothesis test

Hypothesis:
log(area) = 0
rooms = 0

Model 1: restricted model


Model 2: log(price) ~ log(area) + rooms + baths + age

Res.Df RSS Df Sum of Sq F Pr(>F)


1 318 31.663
2 316 25.595 2 6.0678 37.457 2.521e-15 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Hướng dẫn: nhìn p-value để kết luận.

You might also like