You are on page 1of 8

Họ và tên: Đào Thu Hương

MSSV: K224070877

3.1 Với topic “Các yếu tố ảnh hưởng đến trọng lượng của trẻ sơ sinh” bạn hãy xác
định:

a) Dependent variable: Trọng lượng của trẻ sơ sinh (Weight).

b)

- Số tuần mang thai (weeks) ( X 2 : định lượng)

- Cân nặng của người mẹ (mom) ( X 3 : định lượng)

- Lượng calo mà người mẹ hấp thụ (calories) ( X 4: định lượng)

- Số giờ người mẹ tập bài thể dục cho người mang thai (hours) ( X 5 :định lượng )

c)

- Model multi regression in total (Mô hình hồi quy tuyến tính đa biến): là mô hình cho
thấy Trọng lượng của trẻ sơ sinh ngoài phụ thuộc vào Số tuần mang thai (weeks), Cân
nặng của người mẹ (mom), Lượng calo mà người mẹ hấp thụ (calories), Số giờ người mẹ
tập bài thể dục cho người mang thai (hours) còn phụ thuộc vào các yếu tố khác (ε )

Y = β 1+ β 2 . X 2 + β 3 . X 3+ β 4 . X 4 + β 5 . X 5+ε

= β 1+ β 2 . weeks + β 3 . mom + β 4 . calories + β 5 . hours +ε

= f( weeks, mom, calories, hours)+ε

- Function milti regression in total ( Hàm hồi quy tuyến tính đa biến): là hàm hồi quy cho
biết Trọng lượng của trẻ sơ sinh phụ thuộc vào Số tuần mang thai (weeks), Cân nặng của
người mẹ (mom), Lượng calo mà người mẹ hấp thụ (calories), Số giờ người mẹ tập bài
thể dục cho người mang thai (hours); kí hiệu là f( X 2 , X 3 , X 4 , X 5 ¿.

Y = β 1+ β 2 . weeks + β 3 . mom + β 4 . calories+ β 5 . hours

= f( weeks, mom, calories, hours)

d)

- ε : là các sai số ngẫu nhiên, phản ánh sự phụ thuộc của Trọng lượng của trẻ sơ sinh vào
các biến khác.
ε : sex (bé nam có xu hướng có cân nặng nặng hơn bé gái); tần suất sử dụng thuốc và chất
kích thích (aholic); mức độ lo lắng của người mẹ (Worry)…

e) Function multi regression in sample (Hàm hồi quy đa biến trên mẫu):

Y^ = ^
β1 + ^
β 2 . weeks + ^
β 3 . mom + ^
β 4 . calories+ ^
β 5 . hours

- Y^ : là hàm hồi quy mẫu, cũng có thể gọi là giá trị dự đoán của biến phụ thuộc Trọng
lượng của trẻ sơ sinh.

-^
β 1, ^
β 2, ^
β 3, ^
β 4, ^
β 5 lần lượt là tung độ gốc và hệ số góc của hàm hồi quy mẫu đứng trước các
biến giải thích weeks, mom, calories, hours.

3.2 Với file “Ch1-3”, sheet “Baitap3.1” với mô hình hồi quy đa biến

Price = f(Total_area, Duration, No_of_bedroom, No_of_bathroom, Travel_time,


Distance, Popu_density) + ε

a) Mở Stata -> Data Editor (Edit) -> Copy dữ liệu từ excel -> Gõ lệnh “reg price
total_area duration no_of_bedroom no_of_bathroom travel_time distance
popu_density”
. reg price total_area duration no_of_bedroom no_of_bathroom travel_time distance popu_density

Source SS df MS Number of obs = 651


F(7, 643) = 84.51
Model 4.8294e+09 7 689921416 Prob > F = 0.0000
Residual 5.2494e+09 643 8163964.42 R-squared = 0.4792
Adj R-squared = 0.4735
Total 1.0079e+10 650 15505967.7 Root MSE = 2857.3

price Coefficient Std. err. t P>|t| [95% conf. interval]

total_area 26.14256 2.061335 12.68 0.000 22.0948 30.19032


duration 31.20864 13.39275 2.33 0.020 4.909835 57.50744
no_of_bedroom 173.6698 130.3591 1.33 0.183 -82.31116 429.6507
no_of_bathroom 589.975 133.7641 4.41 0.000 327.3078 852.6422
travel_time -7.080617 7.935164 -0.89 0.373 -22.66258 8.501348
distance -44.71645 13.96744 -3.20 0.001 -72.14376 -17.28914
popu_density .0030008 .0061191 0.49 0.624 -.009015 .0150166
_cons -878.5516 471.5762 -1.86 0.063 -1804.567 47.4639

Hàm hồi quy mẫu: Y^ = ^


β1 + ^
β 2 . total area + ^
β 3 . duration + ^
β 4 . no¿ + ^
β 5 . no ¿ + ^
β 6.travel_time +
^
β 7.distance + ^
β 8.popu_density = -878.55 + 26.12*total area+31.21*duration + 173.67*no ¿ +
589.98*no ¿ + (-7.08)*travel_time + (-44.72)*distance + 0.003*popu_density

+) 26.12: khi tổng diện tích tăng lên 1 m2 thì giá của căn hộ tăng lên trung bình 26.12
triệu VND trong các điều kiện khác không đổi.

+) 31.21: khi thời gian sinh sống tăng thêm 1 năm thì giá của căn hộ tăng lên trung bình
31.21 triệu VND trong các điều kiện khác không đổi.

+) 173.67: khi phòng ngủ tăng lên 1 phòng thì giá của căn hộ tăng lên trung bình 173.67
triệu VND trong các điều kiện khác không đổi.

+) 589.98: khi phòng tắm tăng lên 1 phòng thì giá của căn hộ tăng lên trung bình 589.98
triệu VND trong các điều kiện khác không đổi.

+) -7.08: khi thời gian đi làm tăng lên 1 phút thì giá của căn hộ giảm trung bình 7.08 triệu
VND trong các điều kiện khác không đổi.

+) -44.72: khi khoảng cách từ căn dộ đến trung tầm thành phố tăng 1km thì giá của căn hộ
giảm trung bình 44.72 triệu VND trong các điều kiện khác không đổi.

+) 0.003: khi mật độ số dân khu vực tăng lên 1 người/km2 thì giá của căn hộ tăng lên
trung bình 0.003 triệu VND trong các điều kiện khác không đổi.

b) R_square = 0.4792: 100% sự biến động của giá căn hộ được giải thích qua 47.92%
sự biến động của 7 biến là total area, duration, no_of_bedroom, no_of_bathroom,
travel_time, distance, popu_density; còn lại 52.98% phụ thuộc vào sự biến động
của các yếu tố khác.

3.3 Với file “Ch1-3”, sheet “Baitap3.1” với mô hình hồi quy đa biến

Price = f(Total_area, Duration, No_of_bedroom, No_of_bathroom, Travel_time,


Distance, Popu_density) + ε
. reg price total_area duration no_of_bedroom no_of_bathroom travel_time distance popu_density

Source SS df MS Number of obs = 651


F(7, 643) = 84.51
Model 4.8294e+09 7 689921416 Prob > F = 0.0000
Residual 5.2494e+09 643 8163964.42 R-squared = 0.4792
Adj R-squared = 0.4735
Total 1.0079e+10 650 15505967.7 Root MSE = 2857.3

price Coefficient Std. err. t P>|t| [95% conf. interval]

total_area 26.14256 2.061335 12.68 0.000 22.0948 30.19032


duration 31.20864 13.39275 2.33 0.020 4.909835 57.50744
no_of_bedroom 173.6698 130.3591 1.33 0.183 -82.31116 429.6507
no_of_bathroom 589.975 133.7641 4.41 0.000 327.3078 852.6422
travel_time -7.080617 7.935164 -0.89 0.373 -22.66258 8.501348
distance -44.71645 13.96744 -3.20 0.001 -72.14376 -17.28914
popu_density .0030008 .0061191 0.49 0.624 -.009015 .0150166
_cons -878.5516 471.5762 -1.86 0.063 -1804.567 47.4639

a) Adjust R_squared = 0.4735: Mức độ phù hợp của hàm hồi quy da biến trong bài
này là 0.4735.
b) Các biến không có ý nghĩa:

+) no_of_bedroom (p_value = 0.183 > α = 0.05)

+) travel_time (p_value = 0.373 >α = 0.05)

+) popu_density (p_value = 0.624 > α = 0.05)

Vậy mô hình phù hợp nhất là: Y = f(Total_area, No_of_bathroom, Duration, Distance)
. reg price total_area no_of_bathroom duration distance

Source SS df MS Number of obs = 651


F(4, 646) = 147.24
Model 4.8066e+09 4 1.2017e+09 Prob > F = 0.0000
Residual 5.2723e+09 646 8161378.98 R-squared = 0.4769
Adj R-squared = 0.4737
Total 1.0079e+10 650 15505967.7 Root MSE = 2856.8

price Coefficient Std. err. t P>|t| [95% conf. interval]

total_area 26.35022 2.022249 13.03 0.000 22.37924 30.3212


no_of_bathroom 715.4512 95.79036 7.47 0.000 527.3531 903.5493
duration 35.23558 13.06976 2.70 0.007 9.571244 60.89992
distance -50.13381 12.08357 -4.15 0.000 -73.86163 -26.406
_cons -780.3668 325.7198 -2.40 0.017 -1419.964 -140.7695

Lúc này Adjust R_square = 0.4737.

c) Trong hồi quy đa biến, hệ số Adjust R_squared được sử dụng để đo lường sự phù
hợp của mô hình, còn R_squared được dùng để giải thích % sự thay đổi của Y
(biến phụ thuộc) theo các biến giải thích khi đã chọn được mô hình phù hợp (kiểm
định sự phù hợp).

3.4 Với file “Ch1-3”, sheet “Baitap3.1” với mô hình hồi quy đa biến

Price = f(Total_area, Duration, No_of_bedroom, No_of_bathroom, Travel_time,


Distance, Popu_density) + ε

a) Dựa vào kết quả Stata:


. reg price total_area duration no_of_bedroom no_of_bathroom travel_time distance popu_density

Source SS df MS Number of obs = 651


F(7, 643) = 84.51
Model 4.8294e+09 7 689921416 Prob > F = 0.0000
Residual 5.2494e+09 643 8163964.42 R-squared = 0.4792
Adj R-squared = 0.4735
Total 1.0079e+10 650 15505967.7 Root MSE = 2857.3

price Coefficient Std. err. t P>|t| [95% conf. interval]

total_area 26.14256 2.061335 12.68 0.000 22.0948 30.19032


duration 31.20864 13.39275 2.33 0.020 4.909835 57.50744
no_of_bedroom 173.6698 130.3591 1.33 0.183 -82.31116 429.6507
no_of_bathroom 589.975 133.7641 4.41 0.000 327.3078 852.6422
travel_time -7.080617 7.935164 -0.89 0.373 -22.66258 8.501348
distance -44.71645 13.96744 -3.20 0.001 -72.14376 -17.28914
popu_density .0030008 .0061191 0.49 0.624 -.009015 .0150166
_cons -878.5516 471.5762 -1.86 0.063 -1804.567 47.4639

Khoảng ước lượng các tham số với độ tin cậy 95% :


β 1 (-1804.67; 47.46)
β 2 (22.09; 30.19)

β 3 (4.91; 57.51)

β 4 (-82.31; 429.65)

β 5 (-327.31; 852.64)

β 6 (-22.66; 8.5)

β 7 (-72.14; -17.29)

β 8 (-0.009; 0.015)

1 1
{ 2
H 0 : β 1=β 2=...=β 8=0
b) Giả thiết cần kiểm định: : H : β =β =...=β ≠ 0
8

Có 2 cách cần kiểm định. Cách 1 dùng p_value: nếu p_value < α thì bác bỏ H 0,
chấp nhận H 1, tức là tham số này có ý nghĩa, còn không thì ngược lại. Cách 2 dùng
n−2 n−2
T 0 = (^ β i); bác bỏ H 0 khi và chỉ khi T 0 ∉ (-t α ; t α ¿ .
β i - β I )/se( ^
¿
2 2

Ở bài này ta dùng p_value:


β 2 có ý nghĩa vì β 2=0 < 0.05
β 3 có ý nghĩa vì β 2=0.02 < 0.05
β 4 không có ý nghĩa vì β 4 =0.183 > 0.05
β 5 có ý nghĩa vì β 5= 0 < 0.05
β 6 không có ý nghĩa vì β 6=0.373 > 0.05
β 7 có ý nghĩa vì β 7=0.001 < 0.05
β 8 không có ý nghĩa vì β 8=0.624 > 0.05

3.5 Với file “Ch1-3”, sheet “Baitap3.1” với mô hình hồi quy đa biến

Price = f(Total_area, Duration, No_of_bedroom, No_of_bathroom, Travel_time,


Distance, Popu_density) + ε

{
2
H 0 : R =0
a) Cặp giả thiết cần kiểm định:
H 1 : R2 ≠ 0

Dựa vào kết quả stata thấy Prob>F = 0 < α = 0.05


 Bác bỏ H 0. Vậy với mức ý nghĩa 5% thì mô hình này là phù hợp.
b) Kiểm định Wald – test trong thống kê là một phương pháp kiểm định có điều kiện
đối với các tham số thống kê trong mô hình hồi quy. Kiểm định này được sử dụng
để đánh giá cùng một lúc các tham số có phù hợp hay không để tiến hành loại đồng
thời. Phương pháp này có vai trò quan trọng để chọn lựa mô hình hồi quy tốt nhất.

*Áp dụng wald-test trong bài này:

Ở câu b bài 3.3 ta đã tìm ra 3 biến không có ý nghĩa là no_of_bedroom, travel_time và


popu_density.

(Mô hình 1): f(Total_area, Duration, No_of_bedroom, No_of_bathroom, Travel_time,


Distance, Popu_density).

(Mô hình 2): f(Total_area, No_of_bathroom, Duration, Distance).

{1
H 0 : β 4=β 6=β 8=0
Cặp giả thiết cần kiểm định: H :∃ β , β , β ≠ 0
4 6 8

Gõ lệnh “test no_of_bedroom travel_time popu_density” ta được kết quả.

Vì Prob>F = 0.4249 > α = 0.05 nên chấp nhận H 0. Vậy ta có thể loại được 3 biến
no_of_bedroom, travel_time và popu_density cùng 1 lúc.

Vậy mô hình tốt nhất với mức ý nghĩa 5% là Y = f(Total_area, No_of_bathroom,


Duration, Distance).

You might also like