You are on page 1of 10

 BÀI TẬP CHƯƠNG 2

 Phần 1

 Bài 1:
Chủ sở hữu của một nhà nghỉ A đã phát hiện ra 1 sản phẩm trong các phòng của nhà
nghỉ có vấn đề trong quá trình xây dựng và sẽ mất 7 tháng để sửa chữa các khiếm khuyết
và do đó 14 phòng trong 100 phòng của nhà nghỉ sẽ không thể phục vụ khách hàng trong
1 tháng. Lợi nhuận của nhà nghỉ sụt giảm trong những lần đóng cửa này và cần ước tính
tổn thất. Dữ liệu thời gian từ tháng 3/2003 đến tháng 3/2005. Thời gian sửa chữa 7 tháng
bắt đầu từ tháng 7/2004 đến tháng 1/2005.
Tỷ lệ lấp đầy (Ocupancy rate) = Tổng số phòng được sử dụng/Tổng số phòng hiện
có = MOTEL _PCT
Tỷ lệ lấp đầy của đối thủ cạnh tranh (competitor occupancy rate) = COMP_PCT.
Sử dụng dữ liệu trong Tệp motel.dta, trả lời các câu hỏi sau:
(a) Tỷ lệ lấp đầy của nhà nghỉ bị hư hỏng A là MOTEL_PCT và tỷ lệ lấp đầy của
đối thủ cạnh tranh là COMP_PCT. Trên cùng một biểu đồ, hãy vẽ các biến này theo
TIME. Cái nào có công suất cao hơn trước thời gian sửa chữa? Cái nào có công suất cao
hơn trong thời gian sửa chữa?
sum motel_pct comp_pct
twoway (line motel_pct time)

twoway (line motel_pct time) (line comp_pct time)

=> Điều này có thể hiểu là trong thời gian sửa chữa nhu cầu về nhà nghỉ chung của thị
trường sụt giảm so với trước đó

(b) Vẽ đồ thị MOTEL_PCT theo COMP_PCT. Liệu rằng có mối quan hệ nào giữa
hai biến này? Giải thích tại sao một mối quan hệ như vậy có thể tồn tại.
+ twoway (scatter motel_pct comp_pct)
+ Nhìn vào biểu đồ ta thấy rằng có thể có mối quan hệ tuyến tính và đồng biến giữa biến
motel_pct và comp_pct. Do nhu cầu chung của thị trường, khi tỷ lệ lấp đầy của đối thủ
cạnh tranh tăng thì tỷ lệ lấp đầy của nhà nghỉ A cũng tăng
(c) Ước lượng hồi quy tuyến tính với y = MOTEL_PCT và x = COMP_PCT. Thảo
luận về kết quả.
+ reg motel_pct comp_pct
+ Viết hàm hồi quy mẫu: motel_pct^=21.39999+0.8646393*comp_pct
(d) Tính phần dư bình phương nhỏ nhất từ kết quả hồi quy trong ý (c). Lập đồ thị
những phần dư này theo thời gian. Mô hình dự đoán quá mức, dự đoán thiếu hay dự đoán
chính xác tỷ lệ lấp đầy của nhà nghỉ trong thời gian sửa chữa?
+ Tính phần dư: statistics  postestimation  predictions predictions and their
 launch  new variable = ehat  ok
+ twoway (scatter ehat time)
+ Nhìn vào biểu đồ ta thấy trong thời gian sửa chữa, hầu hết các phần dư<0 => Hầu
hết các giá trị ước lượng của biến phụ thuộc lớn hơn giá trị thực tế => Mô hình dự đoán
quá mức tỷ lệ lấp đầy của nhà nghỉ A trong thời gian sửa chữa
(e) Hãy xem xét một hồi quy tuyến tính với y = MOTEL_PCT và x =
RELPRICEàng tỷ lệ giữa giá tính trên mỗi phòng của nhà nghỉ A so với các đối thủ cạnh
tranh của nó. Bạn dự đoán về dấu của hệ số góc? Tại sao? Dấu của độ dốc ước tính có
phù hợp với kỳ vọng của bạn không
+ Dự đoán về dấu của hệ số góc <0 => Vì nếu x=RELPRICE-tỷ lệ giữa giá tính trên
mỗi phòng của nhà nghỉ A so với các đối thủ cạnh tranh tăng thì nhu cầu của khách hàng
về nhà nghỉ A sẽ giảm nên tỷ lệ lấp đầy của nhà nghỉ A sẽ giảm
+ reg motel_pct relprice => beta2=-122.1186 => Dấu của hệ số góc đúng như kì
vọng
Bài 2:
Sử dụng tệp br2.dta chứa dữ liệu về 1080 ngôi nhà được bán ở Baton Rouge,
Louisiana, vào giữa năm 2005. Dữ liệu bao gồm giá ưu đãi, diện tích căn nhà tính bằng
feet vuông, tuổi của căn nhà, căn nhà có hồ bơi hoặc lò sưởi hay nằm trên bờ sông. Ngoài
ra còn có một biến chỉ báo TRADITIONAL cho biết phong cách ngôi nhà có phải là
truyền thống hay không.
(a) Vẽ đồ thị miêu tả mối quan hệ giữa giá nhà theo diện tích của nhà kiểu truyền
thống.

+ sum
+ twoway (scatter price sqft if traditional ==1)

=> Có thể có mối quan hệ tuyến tính và cùng chiều

(b) Đối với những ngôi nhà kiểu truyền thống, hãy ước lượng mô hình hồi quy tuyến
tính PRICE = β 1 + β 2SQFT + e. (SQFT là tổng diện tích căn hộ). Giải thích các hệ
số ước lượng. Minh họa mô hình ước lượng được trên đồ thị.
+ reg price sqft if traditional==1
+ twoway (scatter price sqft if traditional ==1) (lfit price sqft if traditional ==1)
(c) Đối với các hồi quy trong (b), tính toán các phần dư bình phương nhỏ nhất và vẽ
chúng theo SQFT. Có giả định nào bị vi phạm không?
+ tính phần dư
+ twoway (scatter ehat sqft if traditional ==1)
+ Nhìn vào đồ thị ta thấy khi diện tích căn nhà tăng lên thì trị tuyệt đối của phần dư
cũng tăng lên => Do đó mô hình có phương sai sai số thay đổi => Bị vi phạm giả
thiết thứ 4: phương sai sai số không đổi
(e) Đối với những ngôi nhà kiểu truyền thống, hãy ước lượng mô hình hồi quy log-
tuyến tính: ln(PRICE) = γ 1 + γ 2SQFT + e. Giải thích các ước lượng. Vẽ đồ thị đường
thẳng hồi quy ước lượng được.
+ gen lnprice=ln(price)
+ reg lnprice sqft if traditional==1
+ beta1^=10.79894: khi diện tích ngôi nhà bằng 0 thì lnprice bằng 10.79894
+ beta2^=0.0004132: nếu diện tích ngôi nhà tăng 1 feet vuông thì giá ngôi nhà trung
bình tăng 0.04132%
(g) Bạn hãy tính toán tổng bình phương các phần dư cho mô hình trong (e) và so
sánh với tổng bình phươn các phần dư từ các mô hình trong (b) và (e)?
+ Tổng bình phương phần dư của (b): RSS(b)=1.3746e+12

+ Tổng bình phương phần dư của (d): RSS(d)=50.3587111


+ Mô hình (d) có tổng bình phương các phần dư nhỏ hơn ở mô hình (b)
Bài 3:
Sử dụng tệp stockton4.dta chứa dữ liệu về 15009 ngôi nhà được bán ở Stockton, CA
trong giai đoạn 1996-1998.
(a) Vẽ đồ thị thể hiện giá bán nhà phân lô so với diện tích nhà ở cho tất cả các ngôi
nhà trong mẫu.
+ twoway (scatter sprice livarea)
(b) Ước lượng mô hình hồi quy SPRICE = β 1+ ¿ β 2LIVAREA + e cho tất cả các ngôi
nhà trong mẫu. Giải thích các ước lượng thu được. Vẽ đường được hồi quy. Mô hình giải
thích được bao nhiêu phần trăm sự dao động của biến phuj thuộc)
+ reg sprice livarea

+ twoway (scatter sprice livarea) (lfit sprice livarea)

+ R-squared=0.6287: Mô hình giải thích được 62.87% sự dao động của biến phụ thuộc
sprice. Còn 37.13% của sự phụ thuộc nằm ở sai số.

(c) Vẽ đồ thị giá bán nhà phân lô theo TUỔI. Ước lượng mô hình tuyến tính
SPRICE=d1+d2AGE+e. Giải thích các hệ số ước tính.
+ twoway (scatter sprice age)
+ twoway (scatter sprice age) (lfit sprice age)
+ reg sprice age

+ sprice^=137403.6-627.161*age

( d) Lặp lại bài tập này bằng cách sử dụng mô hình log-tuyến tính:
ln(SPRICE) = θ1 + θ2 AGE + e.
Dựa trên các biểu đồ và sự phù hợp trực quan của các đường hồi quy ước lượng, bạn
thích mô hình nào trong số hai mô hình ở ý (c) và (d)? Giải thích.
+ gen lnsprice = ln(sprice)
+ reg lnsprice age

+ twoway (scatter lnsprice age) (lfit lnsprice age)

+ Nhìn vào 2 biểu đồ trên có thể thấy biểu đồ của mô hình (d) hiển thị rõ hơn mối quan
hệ tuyến tính và nghịch biến giữa biến phụ thuộc và biến độc lập  Mô hình có biến phụ
thuộc đã logarit tốt hơn.

Bài 4:
Giáo sư Ray C. Fair trong nhiều năm đã xây dựng và cập nhật các mô hình giải
thích và dự đoán các cuộc bầu cử tổng thống Hoa Kỳ. Ghé thăm trang web của anh ấy tại
http: //fairmodel.econ .yale.edu / vote2004 / index2.htm. Đặc biệt hãy xem bài báo của
ông có tựa đề '' Phương thức bỏ phiếu cho cuộc bầu cử năm 2004. '' Tiền đề cơ bản của
mô hình là tỷ lệ của đảng đương nhiệm trong số phiếu phổ thông của hai đảng [Dân chủ
và Cộng hòa] [đương nhiệm có nghĩa là đảng cầm quyền tại thời gian bầu cử] bị ảnh
hưởng bởi một số yếu tố liên quan đến nền kinh tế và các biến số liên quan đến chính trị,
chẳng hạn như đảng đương nhiệm đã nắm quyền trong bao lâu và liệu Tổng thống có tái
tranh cử hay không.
Dữ liệu của Fair, 33 quan sát cho các năm bầu cử từ 1880 đến 2008, có trong tệp
fair4.dta. Biến phụ thuộc là VOTE = tỷ lệ phần trăm số phiếu phổ thông mà đảng đương
nhiệm giành được. Hãy xem xét biến giải thích GROWTH = tỷ lệ tăng trưởng GDP bình
quân đầu người thực tế trong ba quý đầu năm bầu cử (tỷ lệ hàng năm). Người ta sẽ nghĩ
rằng nếu nền kinh tế hoạt động tốt và tăng trưởng cao, đảng cầm quyền sẽ có cơ hội thắng
cử.
(a) Sử dụng dữ liệu năm 1916-2008, vẽ biểu đồ phân tán của VOTE theo GROWTH. Đây
có phải là mối quan hệ tích cực không?
+ graphics  twoway  if/in  create  year>=1916&year<=2008
+ Nhìn vào biểu đồ ta thấy có thể có mối quan hệ tích cực giữa tỷ lệ tăng trưởng GDP và
tỷ lệ bầu cử cho đảng đương nhiệm.
(b) Ước lượng hồi quy VOTE = α 1 + α 2GROWTH + e phương pháp theo bình phương
nhỏ nhất sử dụng dữ liệu từ năm 1916 đến năm 2008. Báo cáo và thảo luận về kết quả
ước lượng.
+ reg vote growth if year>=1916&year<=2008
(c) Sử dụng hồi quy ở ý (b) bằng cách sử dụng dữ liệu từ năm 1916 đến năm 2004. Dự
đoán tỷ lệ VOTE cho bên đương nhiệm dựa trên giá trị thực tế của năm 2008 cho
GROWTH. Kết quả bình chọn dự đoán cho năm 2008 so với kết quả thực tế như thế
nào?
+ regress vote growth if year >=1916& year <=2004
+ Viết hàm hồi quy mẫu: vote^=51.05325+0.8779824*growth
+ Giá trị thực tế của năm 2008 của growth=0.22 => Giá trự dự báo của vote năm 2008
=51.05325+0.8779824*0.22
+ scalar vote2008 = 51.05325+0.8779824*0.22
+ di "giá trị dự đoán vote 2008 = " vote2008
+ list vote growth in 33
+ giá trị dự đoán vote 2008 = 51.246406>giá trị thực tế của vote 2008 (=46.6) => Mô
hình dự đoán quá mức
(d) Lạm phát của toàn nền kinh tế có thể nói lên sự diệt vong đối với đảng đương nhiệm
trong một cuộc bầu cử. Biến INFLATION (LẠM PHÁT) là mức tăng giá trong 15
quý đầu tiên của chính quyền. Sử dụng dữ liệu từ năm 1916 đến năm 2008, lập biểu
đồ VOTE theo INFLATION. Sử dụng cùng một mẫu, báo cáo và thảo luận về kết quả
ước lượng cho mô hình VOTE = β 1+ β 2INFLATION + e.
+ reg vote inflation if year>=1916

Bài 5:
Giáo dục ảnh hưởng bao nhiêu đến tỷ lệ tiền lương? Sử dụng tệp dữ liệu
cps4_small.dta chứa 1000 quan sát về mức lương theo giờ, trình độ học vấn và các biến
số khác từ Điều tra Dân số Hiện tại (CPS) năm 2008.
(a) Thống kê mô tả và vẽ biểu đồ phân phối tần suất cho các biến WAGE và
EDUC. Thảo luận về các đặc điểm dữ liệu.
+ sum wage educ
+ Thu nhập trung bình là 20.61566, độ lệch chuẩn = 12.83472, thu nhập theo giờ
nhỏ nhất = 1.97, lớn nhất = 76.39
+ Số năm đi học trung bình của các thành viên trong mẫu là 13.799, độ lệch
chuẩn là 2.711079, số năm đi học ít nhất = 0, nhiều nhất là 21 năm
+ graphic  histogram wage
+ Nhìn vào biểu đồ phân phối tần suất của biến wage ta thấy các quan sát về wage
lệch trái => cho thấy rằng hầu hết các quan sát có mức lương theo giờ từ 5 cho
đến 40 và có 1 tỷ lệ nhỏ hơn các quan sát có mức lương theo giờ lớn hơn 40
+ sum wage,d
+ Thu nhập trung bình là 20.61566, độ lệch chuẩn = 12.83472, thu nhập theo giờ
nhỏ nhất = 1.97, lớn nhất = 76.39, một nửa thành viên trong mẫu có thu nhập lớn
hơn 17.3
(b) Ước lượng hồi quy tuyến tính WAGE = β 1 + β 2EDUC + e và thảo luận kết
quả.
(c) Tính số dư bình phương nhỏ nhất và vẽ đồ thị theo EDUC. Có mô hình nào rõ
ràng cho dữ liệu này không?
(d) Ước tính các hồi quy riêng biệt cho nam, nữ, người da đen và người da trắng.
So sánh các kết quả.
(e) Xây dựng biểu đồ phân phối tần suất của ln (WAGE). So sánh hình dạng của
biểu đồ này với hình dạng của WAGE từ phần (a). Cái nào xuất hiện đối xứng
và giống hình chuông hơn?
(f) Ước lượng hồi quy log-tuyến tính ln (WAGE) = α 1 + α 2EDUC + e..

PHẦN 2 – ƯỚC LƯỢNG KHOẢNG VÀ KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ

Bài 6:

Sử dụng dữ liệu ở trong motel.dta (đã được sử dụng trong bài 1) để ước tính mô hình hồi
quy tuyến tính:

1, Trong mô hình hồi quy tuyến tính MOTEL-PCT = β 1+ β 2COMP-PCT + e, hãy kiểm
định giả thuyết H0 : β 2 ≤ 0 ; H1 : β 2 > 0 ở mức ý nghĩa alpha = 0,01. Thảo luận về kết
luận của bạn. Sử dụng cả phương pháp giá trị tới hạn t và P-value.

2, Hãy xem xét hồi quy tuyến tính với y = MOTEL_PCT và x = RELPRICE (tỷ lệ giá TB
phòng/Giá trung bình phòng của đối thủ cạnh tranh). Kiểm định cặp giả thuyết: Ho:
RELPRICE không tác động đến MOTEL_PCT; H1: RELPRICE có tác động tiêu cực
đến MOTEL_PCT ở mức ý nghĩa alpha = 0,01. Thảo luận về kết luận của bạn. Sử dụng
cả phương pháp giá trị tới hạn t và P-value.

3, Xem xét hồi quy tuyến tính MOTEL-PCT = β 1 + β 2REPAIR + e, trong đó REPAIR là
một biến chỉ báo lấy giá trị 1 trong thời gian sửa chữa và 0 nếu không sửa chữa. Kiểm
định giả thuyết H0 : β 2 ≥ 0; H1 : β 2< 0 ở mức alpha = 0,05. Giải thích logic đằng sau việc
nêu các giả thuyết H0 và H1 theo cách này. Thảo luận về kết luận của bạn.

4, Sử dụng mô hình được đưa ra phần (3), ước lượng khoảng tin cậy 95% cho tham số β 2
và đưa ra giải thích. Việc ước tính ảnh hưởng của việc sửa chữa đối với tỷ lệ lấp đầy nhà
nghỉ có chính xác hay không? Giải thích.

5, Hãy xem xét mô hình hồi quy tuyến tính với y = MOTEL_PCT- COMP_PCT và x =
REPAIR, nghĩa là (MOTEL_PCT – COMP_PCT) = g1 + g2REPAIR + e. Kiểm định giả
thuyết H0: g2 = 0; H1: g2 < 0 ở mức alpha = 0,01. Thảo luận về ý nghĩa của kết quả kiểm
tra.

6, Sử dụng mô hình một phần (5), ước lượng khoảng tin cậy 95% cho g2

Bài 7:

File br2.dat bao gồm dữ liệu về 1080 ngôi nhà được bán ở Baton Rouge, Louisiana vào
giữa năm 2005. Dữ liệu bao gồm giá bán và kích thước ngôi nhà tính bằng feet vuông.
Cũng bao gồm là một biến chỉ báo TRADITIONAL cho biết phong cách nhà có truyền
thống hay không.

1, Đối với các ngôi nhà theo phong cách truyền thống ước tính mô hình hồi quy tuyến
tính PRICE = b1 + b2SQFT + e. Kiểm tra giả thuyết (mức ý nghĩa 0,01) H0: Hệ số góc
bằng không; H1: Hệ số góc dương

2, Sử dụng mô hình tuyến tính trong (1), kiểm tra giả thuyết (H0): giá dự kiến của một
ngôi nhà 2000 feet vuông bằng hoặc nhỏ hơn $ 120,000. Giả thuyết H1 là gì? Sử dụng
mức ý nghĩa = 0,01. Sử dụng kiểm định P-value. Kết luận của bạn là gì?
3, Dựa trên kết quả ước tính từ phần (1), tính ước lượng khoảng tin cậy 95% cho giá dự
kiến của một ngôi nhà là 2000 feet vuông.

lincom _cons+2000*sqft, level(95)

Bài 8:

File br2.dat bao gồm dữ liệu về 1080 ngôi nhà được bán ở Baton Rouge, Louisiana vào
giữa năm 2005. Dữ liệu bao gồm giá bán và kích thước ngôi nhà tính bằng feet vuông.
Cũng bao gồm là một biến chỉ báo TRADITIONAL cho biết phong cách nhà có truyền
thống hay không.
1, Đối với các ngôi nhà theo phong cách truyền thống ước tính mô hình hồi quy tuyến
tính PRICE = b1 + b2SQFT + e. Kiểm tra giả thuyết (mức ý nghĩa 0,01) H0: Hệ số góc
bằng không; H1: Hệ số góc dương
Lệnh: reg PRICE SQFT if TRADITIONAL==1
- Ho: beta2=0, H1: beta2>0

- Bước 1: Tính t quan sát

+ scalar t6=(_b[sqft]-0)/_se[sqft]

+ di "t quan sát = " t6

- Bước 2: Tính và hiện giá trị pvalue

+ di "giá trị pvalue =" ttail(580,t6)

- Bước 3: Kết luận

+ giá trị pvalue =7.81e-131<0.01 => Bác bỏ Ho => H1 đúng => Nếu diện tích của ngôi
nhà truyền thống tăng lên thì giá của ngôi nhà truyền thống cũng tăng

2, Sử dụng mô hình tuyến tính trong (1), kiểm tra giả thuyết (H0): giá dự kiến của một
ngôi nhà 2000 feet vuông bằng hoặc nhỏ hơn $ 120,000. Giả thuyết H1 là gì? Sử dụng
mức ý nghĩa = 0,01. Sử dụng kiểm định P-value. Kết luận của bạn là gì?

- Ho: beta1+beta2*2000<=120.000; H1: beta1+beta2*2000>120.000

- Bước 1: Tính t quan sát

+ lincom _cons + sqft*2000-120000


- Bước 2: Tính và hiện giá trị pvalue

+ scalar t7=r(estimate)/r(se)

+ scalar pvalue7=ttail(580,t7)

+ scalar list t7 pvalue7

- Bước 3: Kết luận

+ pvalue7=0.65556399>0.01 => Không đủ cơ sở để bác bỏ Ho =>


beta1+beta2*2000<=120.000 => Giá dự kiến của 1 ngôi nhà 2000 feet vuông có thể bằng
hoặc nhỏ hơn $120.000

3, Dựa trên kết quả ước tính từ phần (1), tính ước lượng khoảng tin cậy 95% cho giá dự
kiến của một ngôi nhà là 2000 feet vuông.

+ lincom _cons+2000*sqft,level(95)

+ Khoảng tin cậy 95% cho giá dự kiến của 1 ngôi nhà 2000 feet vuông là (114901.8;
123370.8)

+ Với mức độ tin cậy 95% thì giá dự kiến của ngôi nhà 2000 feet vuông nhỏ nhất là
114901.8% và lớn nhất là 123370.8%

You might also like