You are on page 1of 6

N-k-1 là bậc tự do với k là số biến độc lập

Câu 1: Cho wage : tiền lương theo giờ (USD/giờ) exper: kinh nghiệm làm việc (năm)
age : tuổi educ : trình độ học vấn (số năm đi học)
Dùng R, ta có kết quả hồi quy 1 sau:
Call:
lm(formula = log(wage) ~ educ + age + exper + I(exper^2), data = wage2)

Residuals:
Min 1Q Median 3Q Max
-1.84172 -0.23541 0.03517 0.26133 1.34351

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.1477604 0.1878415 27.405 < 2e-16 ***
educ 0.0719752 0.0069886 10.299 < 2e-16 ***
age 0.0138417 0.0052691 2.627 0.00876 **
exper 0.0228743 0.0137304 1.666 0.09606 .
I(exper^2) -0.0003962 0.0006025 -0.658 0.51099
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.392 on 930 degrees of freedom


Multiple R-squared: 0.1373, Adjusted R-squared: 0.1336
F-statistic: 37.01 on 4 and 930 DF, p-value: < 2.2e-16

a. Nêu ý nghĩa của hệ số của biến age trong hàm hồi quy.
Khi tuổi tăng 1 thì tiền lương trung bình khoảng 1,38% trong đk các yếu tố khác không
đổi.
b. Hãy kiểm định giả thiết cho rằng tất cả các biến độc lập không tác động đồng thời lên tiền
lương với mức ý nghĩa 2%.
Ho: B1=B2=B3=B4= 0 (tất cả biến độc lập không tác động đồng thời)
H1: Ho sai
R 2 /K
 Ta có: F = 2 = 37.01 với n= 930, K= 4, R^2 = 0.1373
(1 − R )/(n − k − 1)
Với P value < 2.2e-16 => F < P value => Bác bỏ Ho
Vậy tất cả các biến độc lập có tác động đồng thời lên biến tiền lương
c. Tìm mức tác động của kinh nghiệm lên tiền lương. Tại giá trị nào của kinh nghiệm thì tác
động của nó lên tiền lương bắt đầu giảm.
+ Tìm mức tác động:
log(wage) = Bo + B1educ + B2age + B3exper + B4I(exper^2) + u
Đạo ℎàm log ⁡(wage)
 Lấy đạo hàm theo tiền lương => = B3 + 2B4(exper)
Đạo ℎàmexper
Đạo ℎàm wage
 = (B3 + 2B4(exper))* (đạo hàm exper)
Wage
Thay các ước lượng của B3 và B4 vào biểu thức trên, ta có mức tác động:
Đạo ℎàm wage
=¿(0.0228743 -0.0003962 *2*exper) : tỉ lệ thay đổi của
wage
tiền lương
=> Khi kinh nghiệm tăng lên 1 năm thì Wage sẽ thay đổi với tỉ lệ là (0.0228743
-0.0003962 *2*exper) *100% ( Làm tròn 0.0228743 thành 0.0229: 4 chữ
số)
+ Tại giá trị nào của kinh nghiệm…
Đạo ℎàm wage
 = 0  (0.0228743 -0.0003962 *2*exper)= 0  Exper =
wage
0.0229
0.0008
Vậy tại mức kinh nghiệm là 28.625 thì tác động của kinh nghiệm lên tiền lương
bắt đầu giảm
d. Nếu một người có kinh nghiệm làm việc 25 năm tăng lên thành 26 năm thì tiền lương của
họ thay đổi thế nào?
 Mức tác động của nó lên tiền lương ( biến này thay đổi 1 đơn vị thì biến kia thay đổi
bao nhiêu đơn vị) => Thay exper =25 năm vào mức tác động
Đạo ℎàm wage
 = (0.0229 - 0.0008*25) *100 =…
wage
e. Biến exper và exper^2 có tác động riêng lẻ lên tiền lương hay không mức ý nghĩa 5%?
Kiểm định 2 cặp giả thiết:
Ho: Bexper = 0 (Biến exper không tác động riêng lẽ)
H1: Bexper ≠ 0
Ta có: t= 1.666 với p value= 0.09606 => T=0.05 < P value => Chấp nhận H0
 Biến exper không có ý nghĩa thống kê
Tương tự với exper^2 => Biến exper^2 không ý nghĩa thống kê

f. Sau khi loại bỏ hai biến exper và exper^2 khỏi mô hình, ta được mô hình hồi quy 2:

Call:
lm(formula = log(wage) ~ educ + age, data = wage2)

Residuals:
Min 1Q Median 3Q Max
-1.85403 -0.23538 0.02986 0.26911 1.37285

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.225153 0.159896 32.679 < 2e-16 ***
educ 0.060228 0.005875 10.251 < 2e-16 ***
age 0.022450 0.004153 5.406 8.18e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.3944 on 932 degrees of freedom


Multiple R-squared: 0.1249, Adjusted R-squared: 0.123
F-statistic: 66.49 on 2 and 932 DF, p-value: < 2.2e-16 Với
các
thông tin có được, hãy xác định xem biến exper và exper^2 có tác động đồng thời tới tiền lương
trong hồi qui 1 không với mức ý nghĩa 5%?
Cần kiểm định:
Ho: Bexper= Bexper^2 =0 (Không tác động đồng thời lên tiền lương)
H1: Ho sai
(SSRr − SSRur)/q
( Ru r 2 − R r 2)/q
+ Dùng F: F= SSRur =
(1 − Ru r 2)/( n− k −1)
N − k −1

Ta có mô hình Ur là mô hình 1 (có đầy đủ các biến) và Mô hình R là mô hình 2


C1: Residual standard error: 0.3944 là xích ma mũ

SSR
Mà Xích ma mũ ^2 = N − k −1 => SSR= …

C2: Do có sẵn R^2 nên dùng công thức sau dấu bằng thứ 2
( Ru r 2 − R r 2)/q (0.1373 −0.1249)/2
Ta có:F = 2 =
(1 −0.1373)/930
với Rur^2= 0.1373 và Rr^2= 0.1249,
(1 − Ru r )/( n− k −1)
n là bậc tự do của UR = 930, q=2, n-k-1 =930=> F =6.6837
Ta có: F(q, n)= F(2,930) =3
Vì F >3 nên bác bỏ H0
Vậy hai biến exper và exper^2 có tác động đồng thời lên tiền lương

Câu 2: Cho:
price: giá nhà sqrft: diện tích nhà
lotsize : diện tích đất bdrms : số phòng ngủ

Dùng R, ta có kết quả hồi quy mô hình (1) sau:


Call:
lm(formula = log(price) ~ log(lotsize) + log(sqrft) + bdrms,
data = hprice1)

Residuals:
Min 1Q Median 3Q Max
-0.68422 -0.09178 -0.01584 0.11213 0.66899

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.29704 0.65128 -1.992 0.0497 *
log(lotsize) 0.16797 0.03828 4.388 3.31e-05 ***
log(sqrft) 0.70023 0.09287 7.540 5.01e-11 ***
bdrms 0.03696 0.02753 1.342 0.1831
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1846 on 90 degrees of freedom


Multiple R-squared: 0.643, Adjusted R-squared: 0.6302
a. Hãy viết hàm hồi quy tổng thể và hàm hồi quy mẫu ước lượng được. (mẫu thì thế
estimate vào rồi viết)
b. Hãy kiểm định tất cả các biến có ý nghĩa đồng thời ( hay hàm hồi quy phù hợp ) với
mức ý nghĩa 5%.
Ho: B1= B2=B3=0 (Không có ý nghĩa đồng thời)
H1: Ho sai
R2 / K 0,643 /3
F= = = 54,0336
( 1− R ) /(n − k −1) (1 −0,643)/90
2

So với F (3,90)= 2,71


=> F > F(n,q) => Bác bỏ Ho
Câu 3: Vẫn với dữ liệu ở câu 1, ta có mô hình (2):
Call:
lm(formula = log(price) ~ log(lotsize) + sqrft + bdrms + sqrft:bdrms,
data = hprice1)

Residuals:
Min 1Q Median 3Q Max
-104.41 -32.43 -5.48 26.71 205.94

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -314.07643 138.93135 -2.261 0.0264 *
log(lotsize) 52.64397 11.80674 4.459 2.56e-05 ***
sqrft 0.04394 0.03952 1.112 0.2694
bdrms 0.23905 0.25955 0.921 0.3599
sqrft:bdrms 0.01647 0.00931 1.769 0.0805 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 55.57 on 89 degrees of freedom


Multiple R-squared: 0.7208,
a. Nếu phải lựa chọn mô hình, chúng ta nên chọn mô hình (1) hay (2)? Tại sao?
Cần dùng R hiệu chỉnh để so sánh do số tham số của 2 mô hình khác nhau ( mô hình 1 có
3 tham số, mô hình 2 có 4 tham số)
 Mô hình 2:
R hiệu chỉnh ( Adjusted R squared) = 1 – (1-R^2)*(n-1)/(n-k-1) = 1 – (1 – 0.7208)*
(89+4)/89 = 0.7083
Ta có ở mô hình 1 (lấy câu 2): R hiệu chỉnh = 0.6302 < R hiệu chỉnh mô hình 2 (0.7083)
=> Mô hình 2 sẽ được chọn
b. Mức tác động của số phòng ngủ lên giá nhà có phụ thuộc vào diện tích căn nhà không với
mức ý nghĩa 9%.
log(price) = b1log(lotsize) + b2sqrft + b3 bdrms + b4 sqrft:bdrms
Đạo ℎàmlgprice
= B3 + B4*Sqrt => số phòng ngủ tăng 1 phòng thì giá nhà tăng B3+B4*sqrt
Đạo ℎàmbdrms

 Kiểm định B4 = 0 hay Khác 0 để xem xét diện tích có bị phụ thuộc không
Ho: B4 = 0 ( không phụ thuộc vào diện tích căn nhà)
H1: B4 ≠ 0
Ta có: Alpha ( mức ý nghĩa) = 0.09 > p value => Bác bỏ H0 => có phụ thuộc vào diện
tích căn nhà
c. Tìm mức tác động của phòng ngủ lên giá nhà với căn nhà có diện tích là 100 feet vuông.
Thay 100 vào sqrt của B3 + B4*sqrt câu b
d. Tìm khoảng tin cậy của hệ số của biến bdrms trong hàm hồi quy trên với mức ý nghĩa
5%.
Bj= Ước lượng Bj (estimated) ± sai số Bj (error) * t alpha/2 (n-k-1)
0.23905 ± 0.25955 * t (0.025) (89) với t dò bảng
e. Thông tin của của bảng sau cho biết điều gì? Dòng được gạch dưới cho biết điều gì?
> confint(ketqua,level = 0.99)
0.5 % 99.5 %
(Intercept) 2.427889e+00 4.824986e+00
log(lotsize) 5.037794e-02 2.540893e-01
sqrft -6.888469e-05 6.129133e-04
bdrms -1.901349e-01 1.891353e-01
sqrft:bdrms -6.619277e-05 9.444831e-05
Thông tin của bảng trên cho biết khoảng tin cậy của các hệ số hồi qui trong mô hình với
độ tin cậy 99%.
Dong gạch dưới cho biết khoảng tin cậy của hệ số biến sqrft trong hồi qui.

f. Biến ketqua lưu thông tin của mô hình (2). Vậy bảng sau dùng để làm gì? Đọc kết quả.
> vif(ketqua)
log(lotsize) sqrft bdrms sqrft:bdrms
1.162529 14.656526 9.637723 34.082630

Bảng trên dùng để kiểm tra hiện tượng đa cộng tuyến. (vif)
Do có hệ số (sqrft với sqrft:bdrms) nhân tử phóng đại phương sai VIF > 10 nên mô hình
đã cho có đa cộng tuyến.
g. Bảng sau đây cho biết kiểm định gì? Đọc kết quả kiểm định:
Linear hypothesis test

Hypothesis:
sqrft = 0
bdrms = 0

Model 1: restricted model


Model 2: log(price) ~ log(lotsize) + sqrft + bdrms + sqrft:bdrms

Res.Df RSS Df Sum of Sq F Pr(>F)


1 85 3.1772
2 83 2.7444 2 0.43284 6.5453 0.002293 **

Bảng sau kiểm định giả thuyết B của sqrt= B của bdrms =0
Ta có F= 6,5453 với p value = 0.00229 < alpha (1%)
 Bác bỏ Ho => Không đồng thời bằng 0

Cách kiểm định với Ho luôn là ngược với đề cần


1) So sánh alpha ( mức ý nghĩa) với p value
+ Nếu P value < Alpha => Bác bỏ H0
+ Ngược lại
2) So sánh T với p value
+ T < P value => Chấp nhận Ho
+ T > P value => Bác bỏ Ho

( Ru r 2 − R r 2)/q
3) So sánh F = Với F(q,n): q là số biến, n là bậc tự do: So sánh hai
(1 − Ru r 2)/(n− k −1)
mô hình khác biến nhau
+ F > F (q,n) => Bác bỏ Ho
+ F < F (q,n) => Chấp nhận Ho
R 2 /K
1) So sánh F = 2 với P value
(1 − R )/(n − k − 1)
+ F < P value => Bác bỏ Ho
+ F > P value => Chấp nhận Ho

4) So sánh t = (B-Bo)/se và T (alpha/2) (n-k-1) (Trị tuyệt đối)


+ Nếu t < T => Chấp nhận Ho
+ Nếu t> T => Bác bỏ Ho

R hiệu chỉnh ( Adjusted R squared) = 1 – (1-R^2)*(n-1)/(n-k-1)

Khoảng tin cậy: Bj= Ước lượng Bj (estimated) ± sai số Bj (error) * t alpha/2 (n-k-1)

Vif để coi là hàm số có đa cộng tuyến hay không


confint(ketqua :là để xét khoảng tin cậy với mức ý nghĩa

You might also like