You are on page 1of 10

NHÓM 1

Thành viên gồm:


1. Nguyễn Thị Kim Chi
2. Hồ Thị Trà Giang
3. Trần Thái Dương
4. Trần Hoàng Linh
5. Phù Tú Phụng
6. Chu Thái Quỳnh
7. Nguyễn Thị Thu
8. Mạnh Hồng Thúy
9. Lê Đặng Bảo Vy
10. Phạm Vũ Hoàng Ngân

Ex1 (Brooks)

(a) Why does OLS estimation involve taking vertical deviations of the
points to the line rather than horizontal distances? (Tại sao ước tính OLS
liên quan đến việc lấy độ lệch dọc của các điểm so với đường thẳng thay vì
khoảng cách theo chiều ngang?)
=> Bởi vì theo giả định của OLS ta có biến x là biến giải thích, được cố định
trong các mẫu lặp. Khi ước tính OLS theo độ lệch dọc của các đường thẳng
thì ta có thể điều chỉnh giá trị hợp lý của y bằng giá trị x cố định. Còn khi ước
tính OLS theo độ lệch ngang thì lại cố định giá trị của y và tìm giá trị x thích
hợp.

(b) Why are the vertical distances squared before being added together?
(Tại sao khoảng cách theo chiều dọc lại bình phương trước khi được cộng
lại với nhau?)
=> Khi tính độ lệch của y so với các điểm đã cho và phần dư, có thể cho ra
kết quả phần dư dương (các điểm nằm trên (y;y)) và phần dư âm (các điểm
nằm dưới (y;y)). Vì thế, nếu không bình phương các phần dư trước khi cộng
lại với nhau, ta có thể tính ra sai và phải hủy bỏ kết quả.
(c) Why are the squares of the vertical distances taken rather than the
absolute values? (Tại sao bình phương của khoảng cách thẳng đứng được
lấy thay vì giá trị tuyệt đối?)
=> Bởi vì giá trị tuyệt đối khó hơn nhiều so với bình phương mặc dù có thể
dùng để giải quyết phân dư âm hay dương.

Ex2 (Brooks):

Explain, with the use of equations, the difference between the sample
regression function and the population regression function. (Giải thích,
thông qua công thức, sự khác biệt giữa hàm hồi quy mẫu và hàm hồi quy
tổng thể)
Hàm số hồi quy mẫu:

Hàm số hồi quy tổng thể:

Điểm khác nhau: Đối với hàm số hồi quy mẫu (SRF), các giá trị y, alpha, beta,
error term đều có dấu mũ. Dấu mũ này biểu hiện một sự ước lượng
(estimation), thay vì một giá trị chính xác (true value) của các tham số. Điều
này được lý giải như sau: Nếu như hàm số hồi quy tổng thể cho biết giá trị
chính xác của alpha và beta từ tổng thể thì hàm số hồi quy mẫu chỉ cho biết
giá trị ước lượng của alpha và beta từ dữ liệu tổng thể. Trên thực tế, sẽ rất
khó để có thể biết chính xác các giá trị alpha và beta từ tổng thể do số
lượng mẫu cần thiết quá lớn. Do đó, hàm hồi quy mẫu thường được sử
dụng, bởi nó chỉ cần thu thập dữ liệu mang tính đại diện, để từ đó suy ra
một tổng thể lớn hơn.
Ex3 (Brooks):

What is an estimator? Is the OLS estimator superior to all other


estimators? Why or why not? (Công cụ ước tính là gì? Công cụ ước tính
OLS có ưu việt hơn tất cả các công cụ ước tính khác không? Tại sao?)

Công cụ ước tính là gì?


Công cụ ước tính là một thống kê được sử dụng để ước tính một tham số
chưa biết trong mô hình thống kê. Đây là một hàm của dữ liệu được quan
sát và có thể được sử dụng để đưa ra suy luận về tổng thể mà dữ liệu được
lấy mẫu.

Công cụ ước tính OLS có ưu việt hơn tất cả các công cụ ước tính khác
không? Tại sao?
Công cụ ước tính OLS (Phương pháp bình phương nhỏ nhất) thường được sử
dụng trong hồi quy tuyến tính để ước tính các tham số chưa biết trong mô
hình tuyến tính. Mặc dù OLS có các đặc tính mong muốn như tính không
thiên lệch và hiệu quả trong những điều kiện nhất định, nhưng nó không
vượt trội hơn tất cả các công cụ ước tính khác. Chúng ta cần xem xét mức
độ giải thích của biến độc lập đối với sự biến động của biến phụ thuộc.Việc
lựa chọn công cụ ước tính phụ thuộc vào đặc điểm cụ thể của dữ liệu và mô
hình thống kê cơ bản. Các công cụ ước tính khác, chẳng hạn như công cụ
ước tính khả năng tối đa, có thể phù hợp hơn trong một số trường hợp nhất
định, đặc biệt khi các giả định của OLS bị vi phạm hoặc khi xử lý các mô hình
phi tuyến tính. Do đó, tính ưu việt của công cụ ước tính phụ thuộc vào bối
cảnh và yêu cầu cụ thể của phân tích thống kê.

Ex 4 ( Brooks):

What five assumptions are usually made about the unobservable error
terms in the classical linear regression model (CLRM)? Briefly explain the
meaning of each. Why are these assumptions made? (Năm giả định nào
thường được đưa ra về các sai số không thể quan sát được trong mô hình
hồi quy tuyến tính cổ điển (CLRM)? Giải thích ngắn gọn ý nghĩa. Tại sao
những giả định này được đưa ra?)
+1. : E(ut|X) = 0: Giá trị trung bình của các sai số bằng không

+ 2: Var(ut|X) = σ^2: Phương sai của các sai số là một hằng số

+3 Cov(ui,uj) = 0 : Các sai số không được có mối quan hệ với nhau

+4. Cov(ut,xt)=0 : sai số và biến tương ứng không được có mối quan hệ với
nhau

+5. ut~ N(0, σ^2):ut được phân phối với giá trị trung bình bằng 0 và phương
sai không đổi 𝜎2

→ Những giả định này được đưa ra để đảm bảo rằng mô hình hồi quy tuyến
tính cổ điển (CLRM) là hợp lệ và đáng tin cậy để đưa ra các suy luận và dự
đoán. Việc vi phạm các giả định này có thể dẫn đến ước tính sai lệch và
không hiệu quả.

Ex 5 ( Brooks):

Which of the following models can be estimated (following a suitable


rearrangement if necessary) using ordinary least squares (OLS), where X,
y, Z are variables and α, β, γ are parameters to be estimated? (Hint: the
models need to be linear in the parameters.)

Các mô hình tuyến tính sử dụng phương pháp bình phương tối thiểu OLS là:
- 3.39: Mô hình tuyến tính đơn biến ( Linear Model ): Khi X tăng lên 1
đơn vị, Y sẽ tăng lên 1 lượng cố định. Mô hình này thể hiện quan hệ
giữa biến phụ thuộc Y và biến độc lập X là tuyến tính.
- 3.42: Mô hình log – linear: hệ số beta sẽ được giải thích là 1% thay đổi
trong biến X sẽ dẫn đến Beta% thay đổi trong biến Y và giả sử rằng
các yếu tố khác không thay đổi

3.40: Mô hình này không tuyến tính và OLS không thể sử dụng trên mô hình
này vì X(t) được lũy thừa.

3.41: Mô hình này không tuyến tính vì xuất hiện phép nhân giữa hai tham số
cần ước lượng β γ

3.43: Mô hình này không tuyến tính vì X,Z là 2 biến độc lập có mối quan hệ
tuyến tính với nhau ( biến độc lập X nhân với biến khác Z)

Ex6 (Brooks):

The capital asset pricing model (CAPM) can be written as

(3.44)
using the standard notation. The first step in using the CAPM is to estimate
the stock’s beta using the market model. The market model can be written
as

(3.45)
where 𝑅𝑖𝑡 is the excess return for security i at time t, 𝑅𝑚𝑡 is the excess
return on a proxy for the market portfolio at time t, and it is an iid random
disturbance term. The coefficient beta in this case is also the CAPM beta
for security i.
Suppose that you had estimated equation (3.45) and found that the
estimated value of beta for a stock was 1.147. The standard error associated
with this coefficient is estimated to be 0.0548. A city analyst has told you
that this security closely follows the market, but that it is no more risky, on
average, than the market. This can be tested by the null hypothesis that the
value of beta is one. The model is estimated over sixty-two daily
observations. Test this hypothesis against a one-sided alternative that the
security is more risky than the market, at the 5% level. Write down the null
and alternative hypothesis. What do you conclude? Are the analyst’s
claims empirically verified?

Giả thuyết 𝐻0 cho rằng giá trị β = 1 (rủi ro bằng mức trung bình thị trường),
giả thuyết thay thế cho rằng rủi ro lớn hơn mức trung bình thị trường.
𝐻0 : β = 1
𝐻1 : β > 1
β−β 1.147 − 1
t= 𝑆𝐸
= 0.0548
= 2.682
β

Với độ tin cậy 5%,


n - 2 = 62 - 2 = 60 bậc tự do
Trong bảng phân phối t ta có: 𝑡0.05 = 1.671
Giá trị t nằm trong vùng bị bác bỏ (do t > 𝑡0.05)
=> Bác bỏ 𝐻0 và chấp nhận 𝐻1
=> Rủi ro lớn hơn mức trung bình thị trường

Ex 9 (Brooks):

Are hypotheses tested concerning the actual values of the coefficients


(i.e., β) or their estimated values (i.e., ) and why?
(TL: Có phải giả thuyết được kiểm định dựa trên giá trị thực của các hệ số
(vd: β) hay giá trị ước tính của chúng (vd: ) và tại sao?)

- Giá trị thực của các hệ số (vd: β) là giá trị đại diện chính xác cho mối quan
hệ giữa biến phụ thuộc và biến độc lập trong tổng thể. Trong thực tế khó có
thể nghiên cứu toàn bộ quần thể vì dữ liệu hạn chế, nguồn lực có hạn, thông
tin chưa chính xác, ...

- Giá trị ước tính của các hệ số (vd: ) là giá trị gần đúng với giá trị thực dựa
trên dữ liệu mẫu thu thập được, dùng để ước lượng cho hồi quy tổng thể.

- Giả thuyết được kiểm định dựa trên giá trị ước tính của các hệ số, lý do:

Chính vì mức độ khả thi trong việc nghiên cứu toàn bộ quần thể vì
những hạn chế của việc thu thập giá trị thực nên các giả thuyết thường sử
dụng giá trị ước tính từ mẫu dữ liệu là hướng tốt nhất để tiến hành phân
tích.

Các bài kiểm định giả thuyết trong hồi quy được xây dựng dựa trên
phân phối xác suất của giá trị ước tính. Do đó, kiểm định dựa trên giá trị ước
tính cho phép tính toán mức độ tin cậy của kết quả phân tích.

C4. Wooldridge:

Data BWGHT là dữ liệu về số lần sinh của phụ nữ ở Hoa Kỳ. Hai biến được
quan tâm là biến phụ thuộc, cân nặng khi sinh của trẻ sơ sinh tính bằng
ounce (bwght) và biến giải thích, số điều thuốc trung bình mà người mẹ hút
mỗi ngày trong thời kỳ mang thai (điếu thuốc). Hồi quy đơn giản sau đây
được ước tính bằng cách sử dụng dữ liệu n = 1.388 ca sinh:
BWGHT=119.77-0.514 cigs

i) Khi cigs = 0, cân nặng khi sinh dự đoán là 119,77 ounce.


Khi cigs= 20, BWGHT = 109,49. Cho thấy đây là mức giảm 8,6%.

ii) Không cần thiết để nắm bắt được mối quan hệ giữa cân nặng khi sinh của
trẻ và thói quen hút hút thuốc của người mẹ. Có nhiều yếu tố khác có thể
ảnh hưởng đến cân nặng khi sinh, đặc biệt là sức khỏe tổng thể của người
mẹ và chất lượng chăm sóc trước khi sinh. Những điều này có thể liên quan
với việc hút thuốc lá trong khi sinh. Ngoài ra, một số thứ như tiêu thụ
caffein có thể ảnh hưởng đến cân nặng khi sinh và cũng có thể liên quan với
việc hút thuốc lá.

iii) Nếu chúng ta muốn cân nặng dự đoàn là 125, thi cigs
(125-119,77)/(-524)=- 10,18, hoặc khoáng -10 điếu thuốc lá. Tuy nhiên điều
này là vô nghĩa. Cân nặng khi sinh dự đoán lớn nhất phải là 119,77 khi cigs =
0. Tuy nhiên, gần 700 ca sinh trong mẫu có cân nặng khi sinh cao hơn
119,77.

iv) 1.176 trong số 1.388 phụ nữ không hút thuốc khi mang thai, tương đương
khoảng 84.7%

C5. wooldridge

(i) Ta sử dụng mô hình log-log khi hệ số co giãnkhông


đổi để mô hình hóa mối quan hệ rd và sales

log (rd) = B0 + B1 log (Sales) + u


B1 là hệ số co giãn của rd khi sales thay đổi

(ii) Từ dữ liệu tập tin RDCHEM

Ta được phương trình ước lượng:


Log ^(rd) = -1,783+ 1.076 log(sales)
Hệ số co giãn ước lượng của rd theo sales là 1.076
Ngụ ý rằng khi doanh thu hằng năm thay đổi 1% thì
chi phí hằng năm cho nghiên cứu và phát triển
thay đổi lượng 1.076%

C6 wooldridge

Sử dụng dữ liệu từ năm 1988 cho những ngôi nhà được bán ở
Andover,Massachusetts, từ Kiel và McClain (1995), phương trình sau liên hệ
giá nhà đất (price) với khoảng cách từ lò đốt rác được xây dựng gần đây
(dist):

log(price) = 9.40 + 0.312 log(dist)

i) Hệ số log( dist) cho biết dấu hiệu của ước tính những gì mong đợi. Ước
tính hệ số hàm ý rằng nếu khoảng cách từ nhà ở tới lò đốt rác tăng 1% sẽ
làm giá nhà đất tăng khoảng 0,312%. Do đó, sống gần lò đốt rác làm giảm
giá nhà đất thì sống xa lò đốt rác hơn sẽ làm tăng giá nhà đất

ii) Phép hồi quy đơn giản sẽ không đưa ra ước tính khách quan. Ta có thể
hiểu nếu thành phố chọn đặt lò đốt rác ở một khu vực cách xa các khu dân
cư đắt đỏ hơn, thì log(dist) còn có thể tương quan thuận với chất lượng nơi
ở do cư dân của khu phố đắt đỏ nơi xa lò đốt rác có thể trả tiền để duy trì
cuộc sống chất lượng cao thông qua việc chăm sóc và bảo trì sân vườn,
nâng cấp đường xá lân cận và điều này làm tăng giá trị ngôi nhà cũng có
nghĩa khiến cho ngôi nhà tăng giá. Trong khi đó, những cư dân ở khu vực rẻ
tiền hơn không trả tiền cho những dịch vụ này, và điều này làm giảm giá trị
nhà ở của họ. Điều này ngụ ý rằng cư dân của các khu dân cư gần và xa lò
đốt rác vốn đã khác nhau nhiều mặt và do đó có thể có nhiều yếu tố quan
sát khác không được xác định giữa các khu dân cư giàu hơn và nghèo. . . Từ
đó, ta nhận thấy, điều này sẽ vi phạm SLR.3 ( Sự biến động trong mẫu của
biến giả thiết ) và ước tính OLS bị sai lệch.

iii) Những yếu tố khác ảnh hưởng đến giá nhà đất có thể là: cơ sở vật chất
của ngôi nhà, kích thước của ngôi nhà, chất lượng của khu dân cư..,. Những
yếu tố này chắc chắn có thể tương quan với log(dist)

You might also like