Chương-1-và-Chương-2 - XSTK

BUỔI 1
Một số khái niệm lý thuyết cơ bản (chương 1)

Biến độc lập (biến giải thích): là biến ảnh hưởng (tác động) đến biến khác
Biến phụ thuộc (biến được giải thích): là biến bị ảnh hưởng (bị tác động) bởi biến khác
VD1: Xét sự ảnh hưởng của giá đến cầu thì khi đó giá là biến độc lập; còn cầu là biến phụ
thuộc. Hoặc xét sự phụ thuộc của cầu dựa trên giá thì khi đó giá là biến độc lập; còn cầu là
biến phụ thuộc.
VD2: Xét sự ảnh hưởng của thu nhập đến chi tiêu thì khi đó thu nhập là biến độc lập còn
chi tiêu là biến phụ thuộc. Hoặc xét sự phụ thuộc của chi tiêu dựa trên thu nhập thì khi đó
thu nhập là biến độc lập còn chi tiêu là biến phụ thuộc.
VD3: Xét sự ảnh hưởng của năng suất lao động đến tiền lương.
Khi đó: năng suất lao động là biến độc lập còn tiền lương là biến phụ thuộc.
VD4: Xét sự ảnh hưởng của tiền chi trả cho quảng cáo và tiền lương trả cho nhân viên đến
doanh thu của công ty thì khi đó có 2 biến độc lập là tiền chi trả cho quảng cáo và tiền lương
trả cho nhân viên; còn chỉ có 1 biến phụ thuộc là doanh thu.
Số liệu định lượng: là các số liệu bằng các con số có thể cộng trừ nhân chia được. Ví dụ:
thu nhập; tuổi; chiều cao; cân nặng; giá cả ;…
Số liệu định tính: là các số liệu bằng các con chữ. Ví dụ: Giới tính (có nam có nữ); Khu
vực (có hải đảo, miền núi, nông thôn, thành phố); trình độ học vấn (chưa tốt nghiệp trung
học phổ thông, tốt nghiệp trung học phổ thông; đại học; sau đại học); …
Đôi khi các số liệu định tính được mã hóa thành các số liệu định lượng
VD5: Giới tính (có nam có nữ) với nam được gán cho số 1; nữ được gán cho số 0
Nam nữ nam nữ nữ nam nam
1 0 1 0 0 1 1
VD6: Khu vực (có hải đảo, miền núi, nông thôn, thành phố) với hải đảo được gán cho số 1;
miền núi được gán cho số 2; nông thôn được gán cho số 3 và thành phố được gán cho số 4.
ĐAQ A20115
1
Các thao tác cơ bản với stata 14
Vào stata
Cách lấy file có đuôi dta

File / open / Chọn file
Lấy file andy.dta; beer.dta
Cách lấy các file excel (.xls) (ngăn cách dấu thập phân trên excel là dấu “.” nếu không sẽ bị lỗi)
File / Import / Excel spreadsheet (*.xls ; *xlcx) / Browse… / chọn đường dẫn tới dữ liệu
cần lấy / tích vào file / open / tích v vào Import first row as variable/ Yes
Lấy mẫu 1 file excel
2
Cách lưu Kết quả và dữ liệu trên excel sang file dta của stata như sau:
Tạo ra file log (.smcl)

File / log / Begin… / Lưu tên lại để còn nộp cho giáo viên
Thực hành xong thì đóng file log (.smcl) lại như sau: File / log / close
Mục đích của việc tạo file log (.smcl) là để lưu lại các thao tác; các câu lệnh đã làm trên
phần mềm stata của sinh viên nhằm nộp bài cho giáo viên xem tránh việc đi sao chép bài
người khác.
3
Cách chụp màn hình kết quả ra word để nộp bài cho giáo viên chấm
4
VD: Lập bảng thống kê mô tả cho biến quảng cáo trong file Bài-tập-chương-1.-Doanh-
thu-và-Quảng-cáo
Làm ra file log (.smcl) để nộp thì như sau:
5
Làm ra file word để nộp thì như sau:
. summarize Quảngcáo
Variable Obs Mean Std. Dev. Min Max
Quảngcáo 44 5187.568 2563.65 1089 9749
Trong đó: Obs là cỡ mẫu (số quan sát); Mean là trung bình; Std.Dev. là độ lệch chuẩn;
Min là giá trị nhỏ nhất; Max là giá trị lớn nhất.
. summarize Quảngcáo, detail
Quảng cáo
Percentiles Smallest
1% 1089 1089
5% 1273 1255
10% 1802 1273 Obs 44
25% 2974 1591 Sum of Wgt. 44
50% 5003.5 Mean 5187.568

Largest Std. Dev. 2563.65
75% 7447.5 9443
90% 9107 9472 Variance 6572303
95% 9472 9533 Skewness .1857644
99% 9749 9749 Kurtosis 1.90092
Nhận xét, giải thích các con số trong bảng thống kê mô tả ở trên: (chỉ gõ trong word)
Giá trị trung bình (Mean) của Quảng cáo là: 5187.568
Độ lệch chuẩn của Quảng cáo (Std.Dev) là: 2563.65
6
Phương sai (Variance) của Quảng cáo: 6572303
Giá trị nhỏ nhất (Smallest ứng với 1%) = 1089
Giá trị lớn nhất (Largest ứng với 99%) = 9749
Giá trị trung vị (ứng với số 50%) = 5003.5
Tạo biến mới từ biến cũ

gen tên biến mới muốn tạo = dựa trên nền tảng tên biến cũ
tên biến mới muốn tạo tự đặt hoặc dựa trên yêu cầu đề bài
Đổi tên:
rename tên biến cũ tên biến mới (lệnh đổi tên không quan trọng lắm trong stata)
Bỏ biến:
drop kích chuột vào tên biến muốn bỏ
BÀI HỌC CHÍNH (từ chương 2 trở đi thì mới thi)

Mô hình hồi quy 2 biến
Là mô hình có 1 biến độc lập và một biến phụ thuộc. Ở đây ban đầu để cho dễ thì anh quy
ước biến phụ thuộc ký hiệu là Y; còn biến độc lập ký hiệu là X.
Mô hình hồi quy tổng thể (PRM – Population Regression Model)
Y i=β 1 + β 2∗X i+u i
Đôi khi mô hình hồi quy tổng thể chỉ cần viết là: Y = 1 + 2 * X + U. Trong đó:
1: được gọi là hệ số chặn (tung độ gốc) của mô hình hồi quy tổng thể.
Ý nghĩa của 1: Với điều kiện các yếu tố khác không đổi, khi X = 0 thì giá trị trung bình
của Y là 1 đơn vị.
giải thích:
Y = 1 + 2 * X + U
U ko quan trọng Khi X = 0 thì 2 * X = 0
Y = 1 + 2 * X => Y = 1 + 0 => Y = B1 khi X = 0
2: được gọi là hệ số góc (độ dốc) của mô hình hồi quy tổng thể.
Ý nghĩa của 2: Với điều kiện các yếu tố khác không đổi, khi X tăng 1 đơn vị thì giá trị
trung bình của Y thay đổi xấp xỉ 2 đơn vị.
7
Giải thích:
Ycũ = 1 + 2 * X + U
Khi X tăng 1 đơn vị thì Y mới = 1 + 2 * (X+1) + U
=> Y mới = 1 + 2 * X + 2 * 1 + U = 1 + 2 * X + U + 2
=> Y mới = Ycũ + 2
Tức là: 2 > 0 tức là Y tăng; 2 < 0 tức là Y giảm
Mở rộng vậy nếu X tăng 2 đơn vị thì giá trị trung bình của Y thay đổi xấp xỉ 2*2
Giải thích: Ycũ = 1 + 2 * X + U
Khi X tăng 2 đơn vị thì Y mới = 1 + 2 * (X+2) + U
=> Y mới = 1 + 2 * X + 2 * 2 + U = 1 + 2 * X + U + 2*2
=> Y mới = Ycũ + 2*2
Mở rộng vậy nếu X tăng 3 đơn vị thì giá trị trung bình của Y thay đổi xấp xỉ 3*2
Ui : được gọi là sai số ngẫu nhiên (đại diện cho các yếu tố khác ảnh hưởng đến Y ngoài X)
Hàm hồi quy tổng thể hay còn gọi là phương trình hồi quy tổng thể (PRF – Population
Regression Function ) Y i=β 1 + β 2∗X i
Mô hình hồi quy tổng thể (PRM – Population Regression Model) Y i=β 1 + β 2∗X i+u i
Yi= β^1 + ^
Mô hình hồi quy mẫu (SRM – Sample Regression Model): ^ β 2∗X i + ei
Trong đó:
 ei là: một ước lượng cho Ui (e được gọi là phần dư)
 ^
β 1 là một ước lượng điểm cho 1, ta gọi là hệ số chặn (tung độ gốc) của mô hình hồi
quy mẫu. Ý nghĩa: Với điều kiện các yếu tố khác không đổi, khi X = 0 thì giá trị trung
bình của Y là ^
β 1.
 ^
β 2 là một ước lượng điểm cho 2, ta gọi là hệ số góc (độ dốc) của đường hồi quy mẫu.
Ý nghĩa: Với điều kiện các yếu tố khác không đổi, khi X tăng thêm 1 đơn vị thì giá trị
trung bình của Y thay đổi xấp xỉ ^
β 2 đơn vị.
Hàm hồi quy mẫu hay còn gọi là phương trình hồi quy mẫu (SRF – Sample Regression
Function) Yi= β^1 + ^
^ β 2∗X i
8
VD: ^
Y=6 + 3X
Khi đó: ^
β 1=6 và ^
β2 = 3
Ý nghĩa ^
β 1 theo lý thuyết: Với điều kiện các yếu tố khác không đổi, khi X = 0 thì giá trị
trung bình của Y là ^
β1
^
β 1 là: Với điều kiện các yếu tố khác không đổi, khi X = 0 thì giá trị trung bình của Y là 6
đơn vị
Ý nghĩa β^2 theo lý thuyết: Với các yếu tố khác không đổi, khi X tăng thêm 1 đơn vị thì giá
trị trung bình của Y thay đổi xấp xỉ ^
β 2 đơn vị.
Ymới là X tăng1 thìY mới=6 +3 ( X +1 )=6 +3 X +3
^
β 2 là: Với các yếu tố khác không đổi, khi X tăng 1 đơn vị thì giá trị trung bình của Y tăng 3
đơn vị
VD: Y^ =6−3 X

Khi đó: ^
β 1=6 và ^
β2 = -3
Ý nghĩa ^
β 1 theo lý thuyết: Với điều kiện các yếu tố khác không đổi, khi X = 0 thì giá trị
β1
^
β 1 là: Với điều kiện các yếu tố khác không đổi, khi X = 0 thì giá trị trung bình của Y là 6
đơn vị
Ý nghĩa ^
β 2 theo lý thuyết: Với điều kiện các yếu tố khác không đổi, khi X tăng thêm 1 đơn
vị thì giá trị trung bình của Y thay đổi xấp xỉ ^
β 2 đơn vị.
mới là X tăng 1 thì Y mới=6−3 ( X +1 )=6−3 X−3
^
β 2 là: Với điều kiện các yếu tố khác không đổi, khi X tăng 1 đơn vị thì giá trị trung bình
của Y giảm 3 đơn vị
VD1: về viết phương trình hồi quy mẫu và nêu ý nghĩa các hệ số hồi quy mẫu trên Stata. Ví
dụ thực hành trên file Bài-tập-chương-1.-Doanh-thu-và-Quảng-cáo.xls
Trong đó: Doanh thu là biến phụ thuộc còn quảng cáo là biến độc lập
Mô hình hồi quy tổng thể: Doanhthu = 1 + 2 * Quảngcáo + U
Viết phương trình hồi quy mẫu và nêu ý nghĩa các hệ số hồi quy mẫu cần làm như sau:
regress Biến phụ thuộc Biến độc lập (lệnh 1)
9
. regress Doanhthu Quảngcáo
Source SS df MS Number of obs = 44

F(1, 42) = 44.31
Model 27648.9283 1 27648.9283 Prob > F = 0.0000
Residual 26209.4461 42 624.03443 R-squared = 0.5134
Adj R-squared = 0.5018
Total 53858.3744 43 1252.52034 Root MSE = 24.981
Doanhthu Coef. Std. Err. t P>|t| [95% Conf. Interval]
Quảngcáo .0098911 .001486 6.66 0.000 .0068923 .01289

_cons 20055.5 8.579335 2337.65 0.000 20038.18 20072.81
^
β2 ^
β1
Mô hình hồi quy tổng thể: Doanhthu = 1 + 2 * Quảngcáo + U

Theo lý thuyết phương trình hồi quy mẫu có dạng: Y^ = ^
β1 + ^
β 2∗X
=> Phương trình hồi quy mẫu (hàm hồi quy mẫu) là:
^
Doanh thu = 20055.5 + 0.0098911 * Quảngcáo
Ý nghĩa ^
β 1 theo lý thuyết: với điều kiện các yếu tố khác không đổi, khi X = 0 thì giá trị
β1
^
β 1 là: với điều kiện các yếu tố khác không đổi khi Quảng cáo = 0 thì giá trị trung bình của
Doanh thu là 20055,5 đơn vị
Ý nghĩa ^
β 2 theo lý thuyết: với điều kiện các yếu tố khác không đổi, khi X tăng thêm 1 đơn vị
thì giá trị trung bình của Y thay đổi xấp xỉ ^
β 2 đơn vị.
^
β 2 là: với điều kiện các yếu tố khác không đổi khi Quảng cáo tăng 1 đơn vị thì giá trị trung
bình của doanh thu tăng 0.0098911 đơn vị
Nếu đề yêu cầu viết: mô hình hồi quy mẫu thì viết như sau:
^
Doanhthu = 20055.5 + 0.0098911 * Quảngcáo + e
Ý nghĩa:
^
β 1 là: Với điều kiện các yếu tố khác không đổi, khi Quảng cáo = 0 thì giá trị trung bình
của Doanh thu là 20055,5 đơn vị
^
β 2 là: Với điều kiện các yếu tố khác không đổi, khi Quảng cáo tăng 1 đơn vị thì giá trị
trung bình của doanh thu tăng 0.0098911 đơn vị
10
Trình bày cụ thể ra word để nộp thì chỉ cần ghi như sau:

F(1, 42) = 44.31
Model 27648.9283 1 27648.9283 Prob > F = 0.0000
Total 53858.3744 43 1252.52034 Root MSE = 24.981
Quảngcáo .0098911 .001486 6.66 0.000 .0068923 .01289

_cons 20055.5 8.579335 2337.65 0.000 20038.18 20072.81
=> Phương trình hồi quy mẫu là: ^

Doanh thu = 20055.5 + 0.0098911 * Quảngcáo
Ý nghĩa:
^
β 1 là: với điều kiện các yếu tố khác không đổi khi Quảng cáo = 0 thì giá trị trung bình của
Doanh thu là 20055,5 đơn vị
^
β 2 là: với điều kiện các yếu tố khác không đổi khi Quảng cáo tăng 1 đơn vị thì giá trị trung
bình của doanh thu tăng 0.0098911 đơn vị
Vẽ biểu đồ tương quan để đánh giá mối quan hệ đồng biến hay nghịch biến:
twoway (scatter biến phụ thuộc biến độc lập) (lệnh 2)
20200
20150
Doanh thu
20100
20050
20000
0 2000 4000 6000 8000 10000

Quảng cáo
Nhận xét: Nhìn vào biểu đồ biểu diễn mối quan hệ giữa doanh thu và quảng cáo, có thể
thấy mối quan hệ tích cực giữa doanh thu và quảng cáo, tức là khi quảng cáo tăng thì doanh
thu cũng tăng.
11
Nếu vẽ ra đồ thị của biến phụ thuộc; biến độc lập mà có các dấu chấm tròn đi xuống thì
nhận xét là: Nhìn vào biểu đồ biểu diễn mối quan hệ giữa Y (biến phụ thuộc) và X (biến
độc lập), có thể thấy mối quan hệ tiêu cực giữa Y và X, tức là khi X tăng thì Y giảm.
150
140
Cau
130
120
110
10 20 30 40
Gia
Ví dụ về ước lượng các tham số trên Stata

Cách tính hệ số xác định R2 và ý nghĩa của nó:
ESS RSS
R2 = =1−
TSS TSS
R2 luôn nằm trong khoảng từ 0 đến 1
ESS là tổng bình phương phần được giải thích: thể hiện sự biến thiên của biến độc lập (khoanh
trắc nghiệm thì ESS là phần phương sai hay sai số có thể giải thích được của mô hình)
RSS là tổng bình phương phần dư (khoanh trắc nghiệm thì RSS phần phương sai hay sai số
không thể giải thích được của mô hình)
TSS là tổng bình phương (TSS = ESS + RSS): thể hiện sự biến thiên của biến phụ thuộc
Ý nghĩa R2 là: biến độc lập X giải thích được R 2 * 100 (%) sự thay đổi của biến phụ
thuộc Y; 100% - R2 * 100 (%)còn lại sự thay đổi của biến phụ thuộc Y là do ảnh hưởng
của các yếu tố ngẫu nhiên và các biến chưa đưa vào mô hình.
ESS RSS Số lượng mẫu (quan sát)
12

F(1, 42) = 44.31
Model 27648.9283 1 27648.9283 Prob > F = 0.0000
Total 53858.3744 43 1252.52034 Root MSE = 24.981

TSS
Quảngcáo .0098911 .001486 6.66 0.000 .0068923 .01289
_cons 20055.5 8.579335 2337.65 0.000 20038.18 20072.81
Vẽ thêm đường hồi quy mẫu vào biểu đồ tán xạ thì dùng lệnh: R2
twoway (scatter biến phụ thuộc biến độc lập) (lfit biến phụ thuộc biến độc lập)
VD:
. twoway(scatter Doanhthu Quảngcáo) (lfit Doanhthu Quảngcáo )
20200
20150
20100
20050
20000
0 2000 4000 6000 8000 10000

Quảng cáo
Doanh thu Fitted values
Buổi 2
Thực hiện các bài toán kiểm định hệ số hồi quy trong PPĐLKT
Bước 1: Thiết lập cặp giả thiết H0 (giả thuyết không) và H1 (giả thuyết đối; đối thuyết)
 H0: luôn chứa dấu “=” : ≥ , ≤ , =
 H1: luôn không chứa dấu “=” : > , < , ≠
Đưa ra kết luận bác bỏ H0 (chấp nhận H1); Chấp nhận H0 (bác bỏ H1) thông qua so sánh
giá trị thống kê (giá trị quan sát) với giá trị tới hạn hoặc thông qua so sánh p-giá trị và mức
ý nghĩa alpha.
13
Ở đây nói tạm về đưa ra kết luận bác bỏ H0 (chấp nhận H1); Chấp nhận H0 (bác bỏ H1)
thông qua so sánh p-giá trị và mức ý nghĩa alpha.
 TH1: Nếu p-giá trị < α thì bác bỏ H0, chấp nhận H1
 TH2: Nếu p-giá trị > α thì chấp nhận H0, bác bỏ H1
Đôi khi đề thi không dùng từ chấp nhận H0 mà dùng từ thay thế là không bác bỏ H0
VD: Kiểm định xem thu nhập của Nam giới có lớn hơn 5 triệu hay không? Tại  = 5%.
 TH1: Lời kiểm định nằm trong H1. Giả sử có p-giá trị = 0,02 <  = 5% = 0,05 => Bác bỏ H 0,
chấp nhận H1 => Vậy tại  = 5% có cơ sở để cho rằng thu nhập của nam giới lớn hơn 5 triệu.
 TH2: Lời kiểm định nằm trong H1. Giả sử có p-giá trị = 0,07 >  = 5% = 0,05 => chấp nhận H0,
bác bỏ H1 => Vậy tại  = 5% không có cơ sở để cho rằng thu nhập của nam giới lớn hơn 5 triệu.
Cho mô hình hồi quy tổng thể: Y i=β 1 + β 2∗X i + Ui
Các kiểu bài toán kiểm định cho 1:
H0: 1  1* H0: 1  1* H0: 1 = 1*
H1: 1 > 1* H1: 1 < 1* H1: 1  1*
Lệch phải Lệch trái Hai bên
VD: a. KĐ cho B1 > 8
H0: B1 ≤ 8
H1: B1 > 8 (lời kiểm định) Lệch phải
b. KĐ cho B1 không quá 8 đơn vị tức là B1 ≤ 8

H0: B1 ≤ 8 (lời kiểm định)
H1: B1 > 8 Lệch phải
Các kiểu bài toán kiểm định cho 2:

H0: 2  2* H0: 2  2* H0: 2 = 2*
H1: 2 > 2* H1: 2 < 2* H1: 2  2*
Lệch phải Lệch trái Hai bên
Hàm (phương trình) hồi quy tổng thể:

Doanhthu = 1 + 2 * Quảngcáo
Quảngcáo tăng lên 3 thì Doanhthu mới = 1 + 2 * (Quảngcáo+3) = 1 + 2 * Quảngcáo + 3*B2
Y = B1 + B2*X
Ý nghĩa 1 theo lý thuyết: Khi X = 0 thì giá trị trung bình của Y là 1
14
Ý nghĩa 2 theo lý thuyết: Khi X tăng thêm 1 đơn vị thì giá trị trung bình của Y thay đổi xấp
xỉ 2 đơn vị.
VD2: Thiết lập các bài toán kiểm định sau:
a. Kiểm định khi không có quảng cáo thì doanh thu đạt 1.000.000
Hàm (phương trình) hồi quy tổng thể: Doanhthu = 1 + 2 * Quảngcáo
Nháp: Theo lý thuyết: Khi không quảng cáo thì Doanh thu là 1
Theo đề bài: Khi không quảng cáo thì Doanh thu đạt (là) 1.000.000
=> cần kiểm định: 1 = 1.000.000
Thi thì viết luôn H0, H1 như sau:

H0: 1 = 1.000.000 (*)
H1: 1 ≠ 1.000.000 hai bên
không quá ≤ , không dưới ≥ , ít nhất ≥ , nhiều nhất ≤

b. Kiểm định khi không có quảng cáo thì doanh thu đạt ít nhất 1.500.000
Hướng dẫn: Hàm (phương trình) hồi quy tổng thể: Doanhthu = 1 + 2 * Quảngcáo
Nháp: Theo lý thuyết: Khi không quảng cáo thì Doanh thu là (đạt) 1
Theo đề bài: Khi không quảng cáo thì Doanh thu đạt ít nhất 1.500.000
=> cần kiểm định: 1 ít nhất 1.500.000 => 1 ≥ 1.500.000
H0: 1 ≥ 1.500.000 (*)
H1: 1 < 1.500.000 lệch trái
c. Kiểm định khi không có quảng cáo thì doanh thu nhiều hơn 1.200.000
Theo lý thuyết: Khi không quảng cáo thì Doanh thu là (đạt) 1
Theo đề bài: Khi không quảng cáo thì Doanh thu nhiều hơn 1.200.000
=> cần kiểm định: 1 nhiều hơn 1.200.000 => 1 > 1.200.000
H0: B1≤ 1.200.000 ; B1 = 1.200.000
H1: 1 > 1.200.000 (*) lệch phải
d. Kiểm định khi quảng cáo tăng 1 đơn vị thì doanh thu tăng 3 đơn vị
15
QC tăng 1 thì doanhthu mới = 1 + 2 * (Quảngcáo+1) = 1 + 2 * Quảngcáo + B2
Ý nghĩa 2 theo lý thuyết: Khi X tăng thêm 1 đơn vị thì giá trị trung bình của Y thay đổi xấp
xỉ 2 đơn vị.
Theo lý thuyết: Khi quảng cáo tăng 1 đơn vị thì Doanh thu tăng 2 đơn vị
Theo đề bài: Khi quảng cáo tăng 1 đơn vị thì Doanh thu tăng 3 đơn vị
=> cần kiểm định: 2 = 3
Viết trình bày vào bài thì như sau:
H0: 2 = 3 (*)
H1: 2 ≠ 3 hai bên
e. Kiểm định khi quảng cáo tăng 1 đơn vị thì doanh thu tăng ít nhất 4 đơn vị
Theo đề bài: Khi quảng cáo tăng 1 đơn vị thì Doanh thu tăng ít nhất 4 đơn vị
=> cần kiểm định: 2 ít nhất 4 => 2 ≥ 4
H0: 2 ≥ 4 (*)
H1: 2 < 4
f. Kiểm định khi quảng cáo tăng 1 đơn vị thì doanh thu tăng nhiều hơn 5 đơn vị
Theo đề bài: Khi quảng cáo tăng 1 đơn vị thì Doanh thu tăng nhiều hơn 5 đơn vị
=> cần kiểm định: 2 nhiều hơn 5 => 2 > 5
H0: 2 ≤ 5 ; B2 = 5
H1: 2 > 5 (*)
g. Kiểm định khi quảng cáo tăng 1 đơn vị thì doanh thu giảm 3 đơn vị
Có: Y^ =6+3 X
Khi đó: ^
β 1=6 và ^
β2 = 3
^
β 1 là: khi X = 0 thì giá trị trung bình của Y là 6 đơn vị
^
β 2 là: Khi X tăng 1 đơn vị thì giá trị trung bình của Y tăng 3 đơn vị
16
Có: Y^ =6−3 X
Khi X tăng 1 thì Y^ =6−3 ( X + 1 )=6−3 X - 3
Khi đó: ^
β 1=6 và ^
β2 = -3
^
^
β 2 là: Khi X tăng 1 đơn vị thì giá trị trung bình của Y giảm 3 đơn vị
g. Kiểm định khi quảng cáo tăng 1 đơn vị thì doanh thu giảm 3 đơn vị
Lý thuyết: Khi quảng cáo tăng 1 đơn vị thì Doanh thu giảm 2 đơn vị
Theo đề bài: Khi quảng cáo tăng 1 đơn vị thì Doanh thu giảm 3 đơn vị
Tức là câu g cần kiểm định 2 = -3
viết vào bài thì trình bày luôn như sau:
H0: 2 = -3 (*)
H1: 2 ≠ -3
- 4 (B2) < - 3
h. Kiểm định khi quảng cáo tăng 1 đơn vị thì doanh thu giảm nhiều hơn 3 đơn vị
Theo đề bài: Khi quảng cáo tăng 1 đơn vị thì Doanh thu giảm nhiều hơn 3 đơn vị
Giảm 3 đơn vị là -3; giảm nhiều hơn 3 đơn vị (có thể là giảm 4 đơn vị hoặc 5 đơn vị tức là -4;
-5) mà -4 < -3; -5 < -3 => cần kiểm định 2 < -3
B2
Tức là câu h cần kiểm định 2 < -3
H0: 2 ≥ -3
H1: 2 < -3 (*)
-2>-3
k. Kiểm định khi quảng cáo tăng 1 đơn vị thì doanh thu giảm ít hơn 3 đơn vị
Theo đề bài: Khi quảng cáo tăng 1 đơn vị thì Doanh thu giảm ít hơn 3 đơn vị
Giảm 3 đơn vị là -3; giảm ít hơn 3 đơn vị (có thể là giảm 2 đơn vị hoặc 1 đơn vị tức là -1; -2)
mà -1 > -3; -2 > -3 => cần kiểm định 2 > -3
17
B2
Tức là câu h cần kiểm định 2 > -3
H0: 2 ≤ -3 hoặc B2 = -3
H1: 2 > -3 (*)
l. Kiểm định khi quảng cáo tăng thì doanh thu tăng (hoặc giáo viên có thể hỏi là kiểm
định quảng cáo có tác động tích cực đến doanh thu)
Dựa vào đề bài thấy mối quan hệ của doanh thu và chi phí quảng cáo là đồng biến nên cần
kiểm định 2 > 0 (lưu ý là giảm – giảm cũng cần B2 > 0)
H0: 2 ≤ 0 hoặc B2 = 0
H1: 2 > 0 (*)
Có: Y^ =6+3 X

Khi đó: ^
β 1=6 và ^
β2 = 3
^
^
β 2 là: Khi X tăng 1 đơn vị thì giá trị trung bình của Y tăng 3 đơn vị
Có: Y^ =6−3 X

Khi đó: ^
β 1=6 và ^
β2 = -3
^
^
β 2 là: Khi X tăng 1 đơn vị thì giá trị trung bình của Y giảm 3 đơn vị
m. Kiểm định khi quảng cáo tăng thì doanh thu giảm (hoặc giáo viên có thể hỏi là kiểm
định quảng cáo có tác động tiêu cực đến doanh thu)
Dựa vào đề bài thấy mối quan hệ của doanh thu và chi phí là nghịch biến nên cần kiểm định
2 < 0 (lưu ý thì giảm – tăng thì B2 < 0)
H0: 2 ≥ 0 hoặc B2 = 0
H1: 2 < 0 (*)
18
n. Kiểm định quảng cáo có ảnh hưởng (có tác động đến doanh thu)
Chỉ cần kiểm định cho 2 ≠ 0
Doanhthu = 1 + 2 * Quảngcáo
B2 = 0 thì Quảngcáo có to đến mấy cũng ko ảnh hưởng đến doanh thu
viết vào bài thì trình bày luôn như sau:
H0: 2 = 0
H1: 2 ≠ 0 (*)
VD3: về viết phương trình hồi quy mẫu và nêu ý nghĩa các hệ số hồi quy mẫu trên
Stata. Ví dụ thực hành các lệnh học từ đầu buổi 2 đến giờ trên file Food.dta (slide dạy
của giáo viên) Với đơn vị tính của food_exp (Chi tiêu) và income (thu nhập) là $
1. Lập bảng thống kê mô tả và nêu ý nghĩa một số con số cơ bản
- Mẫu (obs): Thu thập dữ liệu của 40 hộ gia đình

- Giá trị trung bình của food_expense (chi tiêu của hộ gia đình 1 tuần) là $283,5735 ;
giá trị nhỏ nhất của chi tiêu hộ gia đình (min) là $109,71 ; giá trị lớn nhất của chi tiêu
hộ gia đình là $587,66 và độ lệch chuẩn của chi tiêu là $112,6752 .
- Giá trị trung bình của income (thu nhập hộ gia đình hàng tuần) là $19,60475 ; thu
nhập hộ gia đình có giá trị nhỏ nhất là $3,69 ; thu nhập cao nhất là $33,4 và độ lệch
chuẩn của thu nhập là $6.847773.
Xem phân tích sâu hơn thì thêm tham số detail vào
. summarize food_exp income, detail
19
2. Vẽ biểu đồ biểu diễn mối quan hệ giữa chi tiêu và thu nhập
. twoway (scatter food_exp income)
Nhận xét: Nhìn vào biểu đồ biểu diễn mối quan hệ giữa chi tiêu và thu nhập, có thể thấy mối
quan hệ tích cực giữa thu nhập và chi tiêu, tức là khi thu nhập tăng thì chi tiêu cũng tăng.
20
3. Ước lượng viết mô hình hồi quy mẫu và nêu ý nghĩa của các con số trong bảng hồi quy
Mô hình tổng thể: food = B1 + B2 * income + U

Pt mẫu tổng quát: Yî= β^1 + ^
β 2∗X i
 Viết phương trình hồi quy mẫu, hàm hồi quy mẫu:
^
foo d expanse = 83.146 + 10.20964 * income
 Viết mô hình hồi quy mẫu:

^
foo d expanse = 83.146 + 10.20964 * income + e
 Giải thích ý nghĩa của các hệ số hồi quy

^
β 1 = 83.146: Với các yếu tố khác không đổi, khi thu nhập = 0, thì chi tiêu hộ gia đình trung
bình là 83.146$
^
β 2 = 10.20964: Với các yếu tố khác không đổi, khi thu nhập tăng 1$ thì chi tiêu hộ gia đình
trung bình tăng 10.20964$
 Giải thích R2
R2 = 0.3850 tức là biến thu nhập của gia đình giải thích được 38,50% sự thay đổi của chi
tiêu hộ gia đình. 100% - 38,50% = 61,50% sự thay đổi còn lại của chi tiêu hộ gia đình là do
ảnh hưởng các yếu tố ngẫu nhiên và các biến chưa đưa vào mô hình.
thuộc Y; phần còn lại sự thay đổi của biến phụ thuộc Y là do ảnh hưởng của các yếu tố
ngẫu nhiên và các biến chưa đưa vào mô hình.
21
Các ví dụ về kiểm định:
Mô hình quy tổng thể: food_exp = 1 + 2*income + U (1)
5. Mô hình có ý nghĩa thống kê hay không tại α = 5%? ( có ý nghĩa áp dụng thực tế)
Tức là cần biến độc lập tác động đến biến phụ thuộc
Để mô hình hồi quy 2 biến có ý nghĩa thống kê thì cần viết H0, H1 như sau:
H0: Mô hình hồi quy (1) không có ý nghĩa thống kê (2 = 0) mô hình ko phù hợp
H1: Mô hình hồi quy (1) có ý nghĩa thống kê (2 ≠ 0) mô hình có phù hợp
Đây là p giá trị để kiểm định bài toán: H0: B1 = 0 và H1: B1 khác 0
Đây là p giá trị để kiểm định bài toán: H0: B2 = 0 và H1: B2 khác 0
^
1−0 ^
2−0
t= ^ t= ^
se ( 1) se ( 2)
83.416−0 10.20964−0
1.92 = 43.41016 4.88 = 2.093264
Phương trình hồi quy tổng thể: food_exp = B1 + B2*income

H0: B1 ≤ 0 H0: B1 ≥ 0
H1: B1 > 0 (lệch phải) H1: B1 < 0 (lệch trái)
H0: B2 = 3
H1: B2 khác 3 (hai bên) nhưng số được dùng để so sánh với hệ số hồi quy (B1 hoặc B2)
không phải là số 0
Tức là nếu không phải bài toán 2 bên hoặc số được so sánh với các hệ số hồi quy không
phải là so với số 0 thì dùng các lệnh scalar như ở buổi 2 để làm.
22
Mô hình quy tổng thể: food_exp = 1 + 2*income + U (1)
Mô hình (1) có ý nghĩa thống kê hay không tại α = 5%? ( có ý nghĩa áp dụng thực tế)
H0: Mô hình hồi quy (1) không có ý nghĩa thống kê (2 = 0) mô hình ko phù hợp
H1: Mô hình hồi quy (1) có ý nghĩa thống kê (2 ≠ 0) mô hình có phù hợp
Với F(1,38) = 23.79 và Prob > F = p giá trị = 0.0000 < mức ý nghĩa alpha = 5% => bác bỏ
H0, chấp nhận H1.
=> Kết luận: Mô hình có ý nghĩa thống kê (hay mô hình phù hợp để giải thích sự thay đổi
của chi tiêu hộ gia đình)
6. Kiểm định các hệ số hồi quy trong mô hình hồi quy tổng thể:
Bảng kiểm định giả thuyết về hệ số 1
Bài toán Giá trị thống kê Giá trị tới hạn Bác bỏ H0 P giá trị
H0: 1  1* ^1 - 1 *
t= tn2, t > tn2, P(tn2 > t)
H1: 1 > 1* se( ^1 ) n là cỡ mẫu
p-giá trị <  => bác bỏ H0
Lệch phải  là mức ý nghĩa
p-giá trị >  => Chấp nhận H0
H0: 1  1* ^1 - 1 *
t= ^  tn2, t <  tn2, P(tn2 < t)
H1: 1 < 1* se( 1 ) p-giá trị <  => bác bỏ H0
Lệch trái p-giá trị >  => Chấp nhận H0
H0: 1 = 1* ^1 - 1 *
t=  tn2, /2 |t| > tn2, /2 2P(tn2 > |t|)
H1: 1  1* se( ^1 ) p-giá trị <  => bác bỏ H0
Hai bên p-giá trị >  => Chấp nhận H0
Bảng kiểm định giả thuyết về hệ số 2
Bài toán Giá trị thống kê Giá trị tới hạn Bác bỏ H0 P giá trị
H0: 2  2* ^2 - 2 *
t= tn2, t > tn2, P(tn2 > t)
H1: 2 > 2* se( ^2 ) n là cỡ mẫu
p-giá trị <  => bác bỏ H0
Lệch phải  là mức ý nghĩa
p-giá trị >  => Chấp nhận H0
H0: 2  2* ^2 - 2 *
t=  tn2, t <  tn2, P(tn2 < t)
H1: 2 < 2* se( ^2 ) p-giá trị <  => bác bỏ H0
Lệch trái p-giá trị >  => Chấp nhận H0
H0: 2 = 2* ^2 - 2 *
t=  tn2, /2 |t| > tn2, /2 2P(tn2 > |t|)
H1: 2  2* se( ^2 ) p-giá trị <  => bác bỏ H0
Hai bên p-giá trị >  => Chấp nhận H0
23
Cách 1: bằng giá trị thống kê và giá trị tới hạn
Bước 1: Viết H0; H1
Bước 2: Tính giá trị thống kê t bằng lệnh
Nếu kiểm định cho hệ số 2
scalar t = ( _b[tên biến độc lập] – 2*)/_se[tên biến độc lập]
scalar t = ( _b[ _cons ] – 1*)/_se[ _cons ]
Bước 3: Tính giá trị tới hạn
Tính: tn2, thì dùng lệnh: scalar ttoihan = invttail(e(df_r),alpha) áp dụng cho bài
toán lệch phải
Tính:  tn2, thì dùng lệnh: scalar ttoihan = invttail(e(df_r),1alpha) áp dụng

cho bài toán lệch trái
Tính: tn2,/2 thì dùng lệnh: scalar ttoihan1 = invttail(e(df_r),alpha/2)

Tính:  tn2,/2 thì dùng lệnh: scalar ttoihan2 = invttail(e(df_r),1alpha/2)
áp dụng cho bài toán hai bên
Sau đó dùng lệnh sau để hiện ra các kết quả đã tính:

scalar list rồi sau đó gõ tên các giá trị muốn hiện ra
Cô Hà Thu thì hay dùng lệnh di hơn là dùng scalar

di"tên mình tự đặt cho cái cần tính= " rồi gõ tiếp các lệnh sau dấu = của scalar ở trên
VD:
. reg food_exp income
. scalar ttoihan = invttail(e(df_r),0.05)
. scalar list ttoihan

ttoihan = 1.6859545
. di"t tới hạn của VD1= "invttail(e(df_r),0.05)

t tới hạn của VD1= 1.6859545
24
Áp dụng làm một số câu hỏi sau:
VD4: Xét hàm hồi quy tổng thể: food_exp = 1 + 2*income
a. Kiểm định khi income (thu nhập) không có thì food_exp (chi tiêu) đạt 85$ tại α = 5%
Nháp:
Lý thuyết: khi income (thu nhập) không có thì food_exp (chi tiêu) đạt 1
Đề bài: khi income (thu nhập) không có thì food_exp (chi tiêu) đạt 85
=> cần kiểm định 1 = 85
Trình bày ra word thi:
H0: 1 = 85 (*)
H1: 1 ≠ 85
. scalar t = (_b[ _cons ]-85)/_se[ _cons ]
. scalar ttoihan1 = invttail(e(df_r),0.05/2)
. scalar ttoihan2 = invttail(e(df_r),1-0.05/2)
. scalar list t ttoihan1 ttoihan2

t = -.0364891
ttoihan1 = 2.0243942
ttoihan2 = -2.0243942
ttoihan1 = tn2, /2; ttoihan2 =  tn2, /2
Theo lý thuyết bài toán 2 bên thì: |t| > tn2, /2 thì bác bỏ H0
0.03 < 2.02
Do |t| < ttoihan1 => chấp nhận H0, bác bỏ H1
Kết luận: có cở sở để cho rằng khi income (thu nhập) không có thì food_exp (chi tiêu) đạt 85$.
b. Kiểm định khi income (thu nhập) không có thì food_exp (chi tiêu) đạt ít nhất 82$ tại α = 5%
Nháp: hàm hồi quy tổng thể: food_exp = 1 + 2*income
Đề bài: khi income (thu nhập) không có thì food_exp (chi tiêu) đạt ít nhất 82
=> cần kiểm định 1 ít nhất 82 => 1 ≥ 82
H0: 1 ≥ 82 (*)
H1: 1 < 82
25
. scalar t = (_b[ _cons ]-82)/_se[ _cons ]
. scalar ttoihan = invttail(e(df_r),1-0.05)
. scalar list t ttoihan

t = .03261914
ttoihan = -1.6859545
ttoihan =  tn2, (lệch trái)

Theo lý thuyết bài toán lệch trái t <  tn2, thì bác bỏ H0
Do t = 0.03261914 >  tn2, = - 1.6859545 => chấp nhận H0, bác bỏ H1.
Kết luận: đủ cơ sở để cho rằng khi income (thu nhập) không có thì food_exp (chi tiêu) đạt ít
nhất 82$
c. Kiểm định khi income (thu nhập) không có thì food_exp (chi tiêu) nhiều hơn 80$ tại α = 3%.
Đề bài: khi income (thu nhập) không có thì food_exp (chi tiêu) nhiều hơn 80
=> cần kiểm định 1 nhiều hơn 80 => 1 > 80
H0: 1 ≤ 80 hoặc B1 = 80
H1: 1 > 80 (*)
. scalar t = (_b[_cons]-80)/_se[_cons]

t = .0786913
ttoihan = 1.9386327
ttoihan = tn2, /2 (lệch phải)

Theo lý thuyết t > tn2, thì bác bỏ H0
Do t < tn2, => chấp nhận H0, bác bỏ H1.
Kết luận: không đủ cơ sở để cho rằng khi income (thu nhập) không có thì food_exp (chi
tiêu) nhiều hơn 80$.
26
d. Kiểm định giả thuyết: Thu nhập có tác động đến chi tiêu? Với mức ý nghĩa 5%.
Để thu nhập có tác động đến chi tiêu thì cần 2 ≠ 0
H0: Thu nhập không tác động đến chi tiêu ( β 2 = 0)
H1: Thu nhập có tác động đến chi tiêu ( β 2 ≠ 0) (*)
. scalar t = (_b[ income ]-0)/_se[ income ]
. scalar ttoihan1 = invttail(e(df_r),0.05/2)
. scalar ttoihan2 = invttail(e(df_r),1-0.05/2)

t = 4.8773806
ttoihan1 = 2.0243942
ttoihan2 = -2.0243942
ttoihan1 = tn2, /2; ttoihan2 =  tn2, /2
Do |t| > ttoihan1 = tn-2, α/2 => bác bỏ H0, chấp nhận H1
Kết luận: có cơ sở để cho rằng Thu nhập có tác động đến chi tiêu
e. Kiểm định giả thuyết: Thu nhập tăng 1$ thì chi tiêu tăng nhiều hơn 10$ với mức ý
nghĩa alpha = 1%
Giải:
Lý thuyết: Khi income (thu nhập) tăng 1 $ thì food_exp (tiêu dùng) tăng 2$
Đề bài: Khi income (thu nhập) tăng 1 $ thì food_exp (tiêu dùng) tăng nhiều hơn 10$
=> cần kiểm định 2 nhiều hơn 10 => 2 > 10
H0: β 2 ≤ 10 hoặc B2 = 10
H1: β 2 > 10 (*)

t = .10015125
ttoihan = 2.4285676
27
Do t < ttoihan = tn-2, α => chấp nhận H0, bác bỏ H1
Kết luận: không có cơ sở để cho rằng khi Thu nhập tăng 1$ thì chi tiêu tăng nhiều hơn 10$.
f. Kiểm định giả thuyết: Thu nhập tăng 1$ thì chi tiêu tăng ít hơn 5$ với mức ý nghĩa
alpha = 5%
Lý thuyết: Khi income (thu nhập) tăng 1 $ thì food_exp (tiêu dùng) tăng 2$
Đề bài: Khi income (thu nhập) tăng 1 $ thì food_exp (tiêu dùng) tăng ít hơn 5$
 B2 ít hơn 5 => B2 < 5
H0: β 2 ≥ 5 hoặc B2 = 5
H1: β 2 < 5 (*)
. scalar ttoihan = invttail(e(df_r),1-0.05)

t = 2.4887659
ttoihan = -1.6859545

t = 2.4887659 >  tn-2, α = -1.6859545 => chấp nhận H0, bác bỏ H1
Kết luận: không đủ cơ sở để cho rằng khi Thu nhập tăng 1$ thì chi tiêu tăng ít hơn 5$
28
Kiểm định bằng p-giá trị
Bước 1: Viết H0; H1
Bước 2: Tính giá trị thống kê t bằng lệnh

scalar t = ( _b[tên biến độc lập] – 2*)/_se[tên biến độc lập]
scalar t = ( _b[ _cons ] – 1*)/_se[ _cons ]
Bước 3: Tính p-giá trị:
scalar pgiatri = ttail(e(df_r),t) nếu là bài toán lệch phải
scalar pgiatri = 1ttail(e(df_r),t) nếu là bài toán lệch trái
scalar pgiatri = 2*ttail(e(df_r),abs(t)) nếu là bài toán hai bên
Kết luận:
p giá trị < alpha => bác bỏ H0, chấp nhận H1.
Còn p giá trị > alpha thì chấp nhận H0, bác bỏ H1.
cô Hà Thu thì cách p-giá trị này làm bằng lệnh di như sau:
Tính đến bước 2 bằng lệnh scalar như bình thường sau đó muốn đưa ra p-giá trị thì:
di"p-giá trị của bài toán … = " sau đó gõ tiếp các lệnh như bước 3 ở cách scalar từ sau
dấu bằng trở đi
VD: Kiểm định: H0 = 10; H1 ≠ 10
. scalar t3=(_b[ income ]-10)/_se[ income ]
. scalar pgiatri=2*ttail(e(df_r),abs(t3))
. scalar list t3 pgiatri

t3 = .10015125
pgiatri = .92075077
29
. scalar t3=(_b[ income ]-10)/_se[ income ]
. di"p-giá trị của VD3 = "2*ttail(e(df_r),abs(t3))

p-giá trị của VD3 = .92075077
g. Kiểm định giả thuyết: Thu nhập tăng 1$ thì chi tiêu tăng ít hơn 5$ với mức ý nghĩa
alpha = 5% mh tổng thể: food_exp= B1 + B2*( income) + U
lí thuyết: Thu nhập tăng 1$ thì chi tiêu tăng B2
Đề bài: Thu nhập tăng 1$ thì chi tiêu tăng ít hơn 5$
B2 ít hơn 5
H0: β 2 ≥ 5 hoặc B2 = 5
H1: β 2 < 5 (*)
. scalar pgiatri = 1-ttail(e(df_r),t)
. scalar list pgiatri

pgiatri = .99134182
P-giá trị = 0.99134182 > alpha = 0.05 => chấp nhận H0, bác bỏ H1.
Kết luận: không đủ cơ sở để cho rằng khi Thu nhập tăng 1$ thì chi tiêu tăng ít hơn 5$
h. Kiểm định giả thuyết: Thu nhập tăng 1$ thì chi tiêu tăng nhiều hơn 5,5$ với mức ý
nghĩa alpha = 5%
H0: β 2 ≤ 5,5 hoặc B2 = 5,5
H1: β 2 > 5,5 (*)
. scalar t = (_b[ income ]-5.5)/_se[ income ]
. scalar pgiatri = ttail(e(df_r),t)

pgiatri = .01516329
p-giá trị = 0.01516329 < alpha = 0.05 => bác bỏ H0, chấp nhận H1.
Kết luận: có đủ cơ sở để cho rằng khi Thu nhập tăng 1$ thì chi tiêu tăng nhiều hơn 5,5$
30
k. Kiểm định giả thuyết: Thu nhập tăng 1$ thì chi tiêu tăng 7,5$ với mức ý nghĩa alpha = 5%
LT: Thu nhập tăng 1$ thì chi tiêu tăng B2$
ĐB: Thu nhập tăng 1$ thì chi tiêu tăng 7,5$
=> cần kiểm định B2 = 7.5
H0: β 2 = 7,5 (*)
H1: β 2 ≠ 7,5
. scalar t =(_b[ income ]-7.5)/(_se[ income ])
. scalar pgiatri = 2*ttail(e(df_r),abs(t))

pgiatri = .20331828
Có: p-giá trị = 0.20331828 > alpha = 0.05 => chấp nhận H0, bác bỏ H1.
Kết luận: Có cơ sở để cho rằng khi Thu nhập tăng 1$ thì chi tiêu tăng 7,5$
i. Kiểm định khi income (thu nhập) không có thì food_exp (chi tiêu) đạt 85$ tại α = 5%
food_exp = 1 + 2*income
LT: khi income (thu nhập) không có thì food_exp (chi tiêu) đạt 1
ĐB: khi income (thu nhập) không có thì food_exp (chi tiêu) đạt 85
=> cần kiểm định B1 = 85. Trình bày ra word thi:
H0: 1 = 85 (*)
H1: 1 ≠ 85
. scalar t = (_b[_cons]-85)/_se[_cons]

pgiatri = .97108338
Có: p-giá trị = 0.97108338 > alpha = 0.05 => chấp nhận H0, bác bỏ H1.
Kết luận: Có cơ sở để cho rằng khi khi income (thu nhập) không có thì food_exp (chi tiêu)
đạt 85$. …..
31
Buổi 3.
7. Ước lượng khoảng cho các hệ số hồi quy
Cách 1:
Ước lượng cho 1: lincom _cons, level(số gắn liền với % cần ước lượng)
. lincom _cons, level(90)
( 1) _cons = 0
food_exp Coef. Std. Err. t P>|t| [90% Conf. Interval]
(1) 83.416 43.41016 1.92 0.062 10.22844 156.6036
Ước lượng khoảng 90% cho 1 là: [10.22844 ; 156.6036]

food_exp = 1 + 2*income
Ý nghĩa ước lượng khoảng 90% cho 1: Với khoảng tin cậy 90% thì khi income (thu nhập)
không có thì chi tiêu nhiều nhất là 156.6036$ và ít nhất 10.22844$
Ước lượng cho 2: lincom tên biến độc lập, level(số gắn liền với % cần ước lượng)
VD5: Ước lượng khoảng 90% cho hệ số 2 và nêu ý nghĩa?
. lincom income, level(90)
( 1) income = 0
(1) 10.20964 2.093264 4.88 0.000 6.680496 13.73879

Ý nghĩa: Với khoảng tin cậy 90% thì khi income (thu nhập) tăng 1$ thì chi tiêu tăng nhiều
nhất 13.73879$ và tăng ít nhất 6.680496$
Mở rộng: nếu khoảng tin cậy bị âm cả 2 số.

VD: Ước lượng khoảng 90% cho 2 là: [-20,47 ; -12.73]
Ý nghĩa: Với khoảng tin cậy 90% thì khi income (thu nhập) tăng 1$ thì chi tiêu giảm nhiều
nhất 20.47$ và giảm ít nhất 12.73$
32
Cách 2: regress tên biến phụ thuộc tên biến độc lập, level(số gắn liền với % cần ước lượng)
. regress food_exp income,level(90)

F(1, 38) = 23.79
Model 190626.984 1 190626.984 Prob > F = 0.0000
Total 495132.16 39 12695.6964 Root MSE = 89.517
income 10.20964 2.093264 4.88 0.000 6.680496 13.73879

_cons 83.416 43.41016 1.92 0.062 10.22844 156.6036

. regress food_exp income,level(90)

F(1, 38) = 23.79
Model 190626.984 1 190626.984 Prob > F = 0.0000
Total 495132.16 39 12695.6964 Root MSE = 89.517
income 10.20964 2.093264 4.88 0.000 6.680496 13.73879

_cons 83.416 43.41016 1.92 0.062 10.22844 156.6036

khoảng tin cậy + mức ý nghĩa alpha = 100%
cách 3:
Áp dụng công thức sau:
ước lượng khoảng cho B1 là:
^
B1−¿tα/2 * se( ^
B1) ≤ B1 ≤ ^
B1+ ¿tα/2 * se( ^
B1 )
với lệnh trên stata là:
scalar ub1=_b[ _cons]+ invttail(e(df_r),giá trị alpha/2)*_se[ _cons]
scalar lb1=_b[ _cons]- invttail(e(df_r),giá trị alpha/2)*_se[ _cons]
scalar list lb1 ub1
. scalar UB1=_b[_cons]+invttail(e(df_r),0.1/2)*_se[_cons]
. scalar LB1=_b[_cons]-invttail(e(df_r),0.1/2)*_se[_cons]
. scalar list LB1 UB1

LB1 = 10.228444
UB1 = 156.60356
33
^
B 2−¿tα/2 * se( ^
B 2) ≤ B2 ≤ ^
B 2+ ¿tα/2 * se( ^
B 2)
scalar ub2=_b[tên biến độc lập]+ invttail(e(df_r),giá trị alpha/2)*_se [tên biến độc lập]
scalar lb2=_b[tên biến độc lập]- invttail(e(df_r),giá trị alpha/2)*_se[tên biến độc lập]
scalar list lb2 ub2
. scalar UB2=_b[ income ]+invttail(e(df_r),0.1/2)*_se[ income ]
. scalar LB2=_b[ income ]-invttail(e(df_r),0.1/2)*_se[ income ]
. scalar list LB2 UB2

LB2 = 6.680496
UB2 = 13.73879
8. Dự báo
Dự báo cho biến phụ thuộc khi biết giá trị cụ thể của biến độc lập (Dự báo điểm; ước
lượng điểm)
VD6: dự báo cho food_exp khi income = 35$ food_exp = B1 + B2*income
Cách 1:
scalar tên biến phụ thuộc đệm 1 tên bất kỳ vào = _b[ _cons] + _b[tên biến độc lập]*giá trị
biến độc lập được cho sẵn cụ thể trong đề
scalar list tên biến phụ thuộc đệm 1 tên bất kỳ vào
. scalar food_expF = _b[_cons] + _b[ income ]*35
. scalar list food_expF

food_expF = 440.75351
Kết luận: khi income = 35$ thì food_exp là 440.75351$
Pt tổng thể: food(Chi tiêu) = B1 + B2*income

Cách 2:
Bước 1: Tạo miền dự báo
set obs n + 1 (với n là số quan sát hiện có)
Bước 2: Điền giá trị quan sát thứ n+1 của biến độc lập cho trước
replace biến độc lập = số đề bài cho sẵn in n+1
Bước 3: Thực hiện dự báo: predict biến phụ thuộcF
list biến phụ thuộcF in n+1
VD6: dự báo cho food_exp khi income = 35$
34
. set obs 41
number of observations (_N) was 41, now 41
. replace income = 35 in 41
(1 real change made)
. predict food_expF
(option xb assumed; fitted values)
. list food_expF in 41
food_e~F
41. 440.7535
Tìm khoảng dự báo cho biến phụ thuộc khi biết giá trị cụ thể của biến độc lập
Sau khi làm 3 bước đầu của cách 2 phần điểm dự báo thì làm tiếp từ bước 4 như sau:
Bước 4: Xác định khoảng ước lượng cho giá trị dự báo biến phụ thuộcF (hay còn gọi là
lấy sai số chuẩn)
predict SSC, stdf low up
Bước 5: Tính giới hạn dưới (LB1) và giới hạn trên (UB1) của dự báo biến phụ thuộcF tại
mức ý nghĩa alpha Đôi khi trên lớp giáo viên ký hiệu LB1=CD; UB1 = CT
gen LB1 = biến phụ thuộcF - invttail(e(df_r),alpha/2) * SSC
gen UB1 = biến phụ thuộcF + invttail(e(df_r),alpha/2) * SSC
Bước 6: In giá trị ước lượng khoảng dự báo
list LB1 UB1 in n+1
VD7: Ước lượng khoảng dự báo cho food_exp khi income = 35 tại α=5%?
35
. set obs 41
number of observations (_N) was 41, now 41
. replace income = 35 in 41
(0 real changes made)
. predict food_expF
(option xb assumed; fitted values)
. predict SSC, stdf
. gen LB1 = food_expF-invttail(e(df_r),0.05/2) * SSC
. gen UB1 = food_expF+invttail(e(df_r),0.05/2) * SSC
. list LB1 UB1 in 41
LB1 UB1
41. 246.0308 635.4763
[LB1, UB1] = [246.0308 ; 635.4763] chính là giá trị khoảng dự báo cho food_exp khi
income = 35 tại α = 5%
Các mô hình hồi quy phi tuyến 2 biến:

Trong buổi 1 và buổi 2 và đầu buổi 3 ta đã học và làm về một số mô hình hồi quy tuyến tính
2 biến có dạng: Y = 1 + 2X + U. (đơn vị - đơn vị)
B2: Với các yếu tố khác không đổi, khi X tăng 1 đv thì Y trung bình thay đổi xấp xỉ là 2 đv
I. Mô hình hồi quy log – log (log kép, log bội, log – tuyến tính) hai biến
Xét mô hình hồi quy log – log tổng thể sau:
Cách 1: ln(Yi) = 1 + 2 ln(Xi) + Ui
Cách 2: log(Yi) = 1 + 2 log(Xi) + Ui
 1: không có ý nghĩa
 2: được gọi là hệ số co giãn của Y theo X.
Ý nghĩa của 2: Với các yếu tố khác không đổi, khi X tăng 1% thì Y trung bình thay đổi xấp
xỉ là 2%.
36
Xét mô hình hồi quy log –log mẫu như sau:
Cách 1: lnYî = 1^ + 2^ ln(Xi) + ei
Cách 2: logYî = 1^ + 2^ log(Xi) + ei
 1^ : không có ý nghĩa
 2^ : là 1 ước lượng điểm cho 2. Ý nghĩa: Với các yếu tố khác không đổi, khi X tăng 1%
thì Y trung bình thay đổi xấp xỉ là 2^ %.
VD8: Hồi quy tuyến tính dữ liệu food.dta với dạng hàm như sau và phân tích kết quả
hồi quy. Phân tích hồi quy hàm log – log
Ln(food_exp) = β1 + β2*Ln(income)
Bước 1: tạo biến Lnfood_exp và Lnincome
gen Lnfood_exp=log(food_exp) Hoặc gõ như sau cũng được:
gen Lnincome=log(income) gen Lnfood_exp=ln(food_exp)
Bước 2: Hồi quy gen Lnincome=ln(income)
regress Lnfood_exp Lnincome Tức là dùng log hay ln đều đúng
. gen Lnfood_exp=log(food_exp)
(1 missing value generated)
. gen Lnincome=log(income)
. regress Lnfood_exp Lnincome

F(1, 38) = 30.50
Model 3.12261869 1 3.12261869 Prob > F = 0.0000
Residual 3.89088317 38 .102391662 R-squared = 0.4452
Total 7.01350185 39 .179833381 Root MSE = .31999
Lnfood_exp Coef. Std. Err. t P>|t| [95% Conf. Interval]
Lnincome .5558812 .1006595 5.52 0.000 .3521067 .7596557

_cons 3.963567 .294373 13.46 0.000 3.36764 4.559494
H0: B1 = 0; H1: B1 khác 0

B1 mũ = 3.963567; seB1 mũ = 0.294373 scalar pgiatri = 2*ttail(e(df_r),abs(t))
B2 mũ = 0.5558812; seB2 mũ = 0.1006595 với e(df_r) chính là số 38 trong
F(1,38) = 30.05
^2 - 0 0.5558812
t = = = ^1 - 0 H0: B2 = 0;H1: B2 khác 0
se( ^2 ) 0.1006595
t = = 3.963567
=
5.52 se( ^1 ) 0.294373 scalar pgiatri = 2*ttail(e(df_r),abs(t))
37 với e(df_r) chính là số 38 trong
13.46
F(1,38) = 30.05
. scalar pgiatri=2*ttail(38,abs(13.46))

pgiatri = 4.890e-16
. * 4.890e-16 = 4.890*10^-16 = 0.0000000000000004890
.
. scalar pgiatricuaB2=2*ttail(38,abs(5.52))
. scalar list pgiatricuaB2

pgiatricuaB2 = 2.592e-06
khoảng tin cậy + alpha = 100%

^
B1−¿tα/2 * se( ^
B1) ≤ B1 ≤ ^
B1+ ¿tα/2 * se( ^
B1 )
scalar ub1=_b[ _cons]+ invttail(e(df_r),giá trị alpha/2)*_se[ _cons]
scalar lb1=_b[ _cons]- invttail(e(df_r),giá trị alpha/2)*_se[ _cons]
B1 mũ = 3.963567; seB1 mũ = 0.294373
với e(df_r) chính là số 38 trong F(1,38) = 30.05
. scalar lb1 = 3.963567 -invttail(38,0.05/2)*0.294373
. scalar ub1 = 3.963567 +invttail(38,0.05/2)*0.294373
. scalar list lb1 ub1

lb1 = 3.36764
ub1 = 4.559494

^
B 2−¿tα/2 * se( ^
B 2) ≤ B2 ≤ ^
B 2+ ¿tα/2 * se( ^
B 2)
scalar ub2=_b[tên biến độc lập]+ invttail(e(df_r),giá trị alpha/2)*_se [tên biến độc lập]
scalar lb2=_b[tên biến độc lập]- invttail(e(df_r),giá trị alpha/2)*_se[tên biến độc lập]
B2 mũ = 0.5558812; seB2 mũ = 0.1006595
với e(df_r) chính là số 38 trong F(1,38) = 30.05
. scalar lb2 = 0.5558812 -invttail(38,0.05/2)*0.1006595
. scalar ub2 = 0.5558812 +invttail(38,0.05/2)*0.1006595
. scalar list lb2 ub2

lb2 = .3521067
ub2 = .7596557
38
Phương trình log-log mẫu tổng quát: lnYî = 1^ + 2^ ln(Xi)
Phương trình hồi quy mẫu: Ln^
(foo d ¿ exp) = 3.963567 + 0.5558812 *Ln(income)
Giải thích ý nghĩa của hệ số hồi quy:

Ý nghĩa: Với các yếu tố khác không đổi, khi X tăng 1% thì Y trung bình thay đổi xấp xỉ là 2^ %.
- ^
β 2= 0.5558812: với các yếu tố khác không đổi, khi thu nhập (income) tăng 1% thì
chi tiêu trung bình (food_exp) tăng 0.5558812%.
- Giải thích R^2: R^2 = 0.4452 nghĩa là biến Lnincome trong mô hình giải thích
được 44,52% sự thay đổi của Lnfood_exp, 55,48% còn lại sự thay đổi của
Lnfood_exp là do các yếu tố ngẫu nhiên và các yếu tố khác chưa đưa vào mô hình.
thuộc Y; phần còn lại sự thay đổi của biến phụ thuộc Y là do ảnh hưởng của các yếu tố
ngẫu nhiên và các biến chưa đưa vào mô hình.
Giải thích độ phù hợp của mô hình thì dùng bài toán kiểm định mô hình có ý nghĩa
thống kê.
Kiểm định mô hình trên có ý nghĩa thống kê tại alpha = 5%?
H0: mô hình trên không có ý nghĩa thống kê (2 = 0)
H1: mô hình trên có ý nghĩa thống kê (2 ≠ 0)
. gen Lnfood_exp=log(food_exp)
(1 missing value generated)
. gen Lnincome=log(income)
. regress Lnfood_exp Lnincome

F(1, 38) = 30.50
Model 3.12261869 1 3.12261869 Prob > F = 0.0000
Total 7.01350185 39 .179833381 Root MSE = .31999
Lnincome .5558812 .1006595 5.52 0.000 .3521067 .7596557

_cons 3.963567 .294373 13.46 0.000 3.36764 4.559494
Ta có F(1,38) =30. 05 Với Prob>F = 0.0000 = pgia trị < mức ý nghĩa alpha = 5% => bác bỏ
H0, chấp nhận H1 => mô hình có ý nghĩa thống kê hay mô hình phù hợp để giải thích sự
thay đổi chi tiêu của hộ gia đình trong thực tế.
39
Các bài toán về kiểm định định hệ số 2 của mô hình log – log giống hệt như của kiểm định
hệ số 2 của mô hình Y = 1 + 2X + U
VD9: Ln(food_exp) = β1+β2*Ln(income). Tại α = 5%
a. Kiểm định khi (income) tăng 1% thì (food_exp) chi tiêu tăng 0,5%
b. Kiểm định khi (income) tăng 1% thì (food_exp) chi tiêu tăng ít nhất 0,4%
c. Kiểm định khi (income) tăng 1% thì (food_exp) chi tiêu tăng nhiều hơn 0,45%
Giải:
a. Kiểm định khi (income) tăng 1% thì (food_exp) chi tiêu tăng 0,5%
Lý thuyết: khi (income) tăng 1% thì (food_exp) chi tiêu tăng 2%
Đề bài: khi (income) tăng 1% thì (food_exp) chi tiêu tăng 0,5%
=> Cần kiểm định 2% = 0,5% => 2 = 0,5
H0: 2 = 0,5 (*)
H1: 2 ≠ 0,5
Cách 1: làm theo giá trị thống kê và giá trị tới hạn
. scalar t =(_b[ Lnincome ]-0.5)/_se[ Lnincome ]
. scalar ttoihan1 =invttail(e(df_r),0.05/2)
. scalar ttoihan2 =invttail(e(df_r),1-0.05/2)

t = .55515085
ttoihan1 = 2.0243942
ttoihan2 = -2.0243942
Do |t| < ttoihan1 = tn-2, α/2 => chấp nhận H0, bác bỏ H1
Kết luận: Đủ cơ sở để cho rằng khi (income) tăng 1% thì (food_exp) chi tiêu tăng 0,5%
Cách 2: làm theo p giá trị


pgiatri = .582045
40
Theo lý thuyết: p giá trị < alpha => bác bỏ H0, chấp nhận H1. Ngược lại p giá trị > alpha =>
chấp nhận H0, bác bỏ H1.
Do pgiatri = 0.582045 > alpha = 0.05 => chấp nhận H0, bác bỏ H1
Kết luận: Đủ cơ sở để cho rằng khi (income) tăng 1% thì (food_exp) chi tiêu tăng 0,5%
b. Kiểm định khi (income) tăng 1% thì (food_exp) chi tiêu tăng ít nhất 0,4%
Đề bài: khi (income) tăng 1% thì (food_exp) chi tiêu tăng ít nhất 0,4%
=> Cần kiểm định 2% ít nhất 0,4% => 2 ≥ 0,4
H0: 2 ≥ 0,4 (*)
H1: 2 < 0,4
Ln(food_exp) = β1+β2*Ln(income).
. scalar ttoihan =invttail(e(df_r),1-0.05)

t = 1.5485989
ttoihan = -1.6859545
t = 1.5485989 >  tn-2, α = -1.6859545 => chấp nhận H0, bác bỏ H1
Kết luận: Đủ cơ sở để cho rằng khi (income) tăng 1% thì (food_exp) chi tiêu tăng ít nhất 0,4%


pgiatri = .93511638
Kết luận: Đủ cơ sở để cho rằng khi (income) tăng 1% thì (food_exp) chi tiêu tăng ít nhất 0,4%
41
Ln(food_exp) = β1+β2*Ln(income).
c. Kiểm định khi (income) tăng 1% thì (food_exp) chi tiêu tăng nhiều hơn 0,45%
Đề bài: khi (income) tăng 1% thì (food_exp) chi tiêu tăng nhiều hơn 0,45%
=> Cần kiểm định 2% nhiều hơn 0,45% => 2 > 0,45
H0: 2 ≤ 0,45
H1: 2 > 0,45 (*)
. scalar ttoihan =invttail(e(df_r),0.05)

t = 1.0518749
ttoihan = 1.6859545

Do t < ttoihan = tn-2, α => chấp nhận H0, bác bỏ H1
Kết luận: không đủ cơ sở để cho rằng khi (income) tăng 1% thì (food_exp) chi tiêu tăng
nhiều hơn 0,45%


pgiatri = .14975011
nhiều hơn 0,45%
42
Y = B1 + B2 * X (lin – lin: đơn vị - đơn vị) ; ln(Y) = B1 + B2 * ln(X) B2 = -0,3
II. Mô hình hồi quy log – lin hai biến
Xét mô hình hồi quy log – lin tổng thể sau: (% - đơn vị)
Cách 1: ln(Yi) = 1 + 2Xi + Ui
Cách 2: log(Yi) = 1 + 2 Xi + Ui
Ý nghĩa của 2: Với các yếu tố khác không đổi, khi X tăng 1 đơn vị thì Y trung bình thay
đổi xấp xỉ là 2*100(%).
Giải thích: VD: số 0,1 chuyển thành % 0,1 = 10% = 0,1*100 (%)
Xét mô hình hồi quy log – lin mẫu như sau:

Cách 1: lnYî = 1^ + 2^ Xi + ei
Cách 2: logYî = 1^ + 2^ Xi + ei
 2^ : là 1 ước lượng điểm cho 2. Ý nghĩa: Với các yếu tố khác không đổi, khi X tăng 1
đơn vị thì Y trung bình thay đổi xấp xỉ là 2^ *100 (%).
hồi quy. Phân tích hồi quy hàm log – lin: income ($);food_exp ($)
Ln(food_exp) = β1+β2*income
Bước 1: tạo biến Lnfood_exp
gen lnfood_exp=ln(food_exp)
Bước 2: Hồi quy
. regress Lnfood_exp income

F(1, 38) = 27.27
Model 2.93046331 1 2.93046331 Prob > F = 0.0000
Total 7.01350185 39 .179833381 Root MSE = .32779
income .0400301 .0076651 5.22 0.000 .0245129 .0555473

_cons 4.780239 .1589593 30.07 0.000 4.458443 5.102035
43
Phương trình log – lin mẫu tổng quát: lnYî = 1^ + 2^ Xi
Phương trình hồi quy mẫu: Ln^
(foo d ¿ exp) = 4.780239 + 0.0400301 * income

Ý nghĩa: Với các yếu tố khác không đổi, khi X tăng 1 đơn vị thì Y trung bình thay đổi xấp
xỉ là 2^ *100 (%).
- ^
β 2= 0.0400301: với các yếu tố khác không đổi, khi thu nhập (income) tăng 1 đơn vị
(tăng 1 $) thì chi tiêu trung bình (food_exp) tăng 0.0400301 * 100(%) = 4.00301%
- Giải thích R^2: R^2 = 0.4178 nghĩa là biến income trong mô hình giải thích được
41,78% sự thay đổi của Lnfood_exp, 58,22% còn lại sự thay đổi của Lnfood_exp là
do các yếu tố ngẫu nhiên và các yếu tố khác chưa đưa vào mô hình.
thống kê.
. regress Lnfood_exp income

F(1, 38) = 27.27
Model 2.93046331 1 2.93046331 Prob > F = 0.0000
Total 7.01350185 39 .179833381 Root MSE = .32779
income .0400301 .0076651 5.22 0.000 .0245129 .0555473

_cons 4.780239 .1589593 30.07 0.000 4.458443 5.102035
Ta có F(1,38) =27.27 Với Prob>F = 0.0000 < mức ý nghĩa alpha = 5% => bác bỏ H0, chấp
nhận H1 => mô hình có ý nghĩa thống kê hay mô hình phù hợp để giải thích sự thay đổi chi
tiêu của hộ gia đình trong thực tế.
Các bài toán về kiểm định định hệ số 2 của mô hình log – lin giống hệt như của kiểm định
VD11: Ln(food_exp) = β1 + β2*income. Tại α = 5%
a. Kiểm định khi (income) tăng 1$ thì (food_exp) chi tiêu tăng 3,5%
b. Kiểm định khi (income) tăng 1$ thì (food_exp) chi tiêu tăng ít hơn 4%
44
c. Kiểm định khi (income) tăng 1$ thì (food_exp) chi tiêu tăng nhiều hơn 3%
Giải:
a.
Lý thuyết: khi (income) tăng 1$ thì (food_exp) chi tiêu tăng 2*100 (%)
Đề bài: khi (income) tăng 1$ thì (food_exp) chi tiêu tăng 3,5 (%)
=> cần kiểm định 2*100 (%) = 3,5 (%) => 2*100 = 3,5 => 2 = 3,5 /100 => 2 = 0,035
H0: 2 = 0,035 (*)
H1: 2 ≠ 0,035
. scalar t =(_b[ income ]-0.035)/_se[ income ]

pgiatri = .51562953
Kết luận: có cơ sở để cho rằng khi (income) tăng 1$ thì (food_exp) chi tiêu tăng 3,5%.
Ln(food_exp) = β1 + β2*income.
b. Kiểm định khi (income) tăng 1$ thì (food_exp) chi tiêu tăng ít hơn 4%
Đề bài: khi (income) tăng 1$ thì (food_exp) chi tiêu tăng ít hơn (4%)
=> cần kiểm định 2*100 (%) ít hơn (4%) => 2*100 < 4 => 2 < 4/100 => 2 < 0,04
H0: 2 ≥ 0,04 hoặc B2 = 0,04
H1: 2 < 0,04 (*)

pgiatri = .50155554
Kết luận: không có cơ sở để cho rằng khi (income) tăng 1$ thì (food_exp) chi tiêu tăng ít hơn 4%.
45
Ln(food_exp) = β1+β2*income.
c. Kiểm định khi (income) tăng 1$ thì (food_exp) chi tiêu tăng nhiều hơn 3%
Đề bài: khi (income) tăng 1$ thì (food_exp) chi tiêu tăng nhiều hơn 3 (%)
=> cần kiểm định 2*100 (%) nhiều hơn 3 (%) => 2*100 > 3 => 2 > 3/100 => 2 > 0,03
H0: 2 ≤ 0,03 hoặc B2 = 0,03
H1: 2 > 0,03 (*)

pgiatri = .09927515
Kết luận: không đủ cơ sở để cho rằng khi (income) tăng 1$ thì (food_exp) chi tiêu tăng
nhiều hơn 3%.
Ôn tập 1 chút về các mô hình đã học:

Mh1: Y = B1 + B2*X (đơn vị - đơn vị)
B1: Khi X = 0 thì Y trung bình là B1 đơn vị
B2: Khi X tăng 1 đv thì Y tb tăng hoặc giảm B2 đv
Mh2: ln(Y)=B1 + B2*ln(X) (%-%) log(Y)=B1 + B2*log(X)

B2: Khi X tăng 1 (%) thì Y trung bình tăng hoặc giảm B2 (%)
Mh3: ln(Y) = B1 + B2*X (%- đơn vị)

B2: X tăng 1 (đv) thì Y trung bình tăng hoặc giảm B2*100(%)
Mh1: Y = B1 + B2*X (đơn vị - đơn vị)

Ý nghĩa của B2: Khi X tăng 1 đơn vị thì Y tăng hoặc giảm B2 đơn vị
Kiểm định khi X tăng 1 đơn vị thì Y tăng 4 đơn vị.
Lí thuyết: Khi X tăng 1 đơn vị thì Y tăng B2 đơn vị
46
Đề bài: khi X tăng 1 đơn vị thì Y tăng 4 đơn vị
=> B2 = 4
H0: B2 = 4 (lời kiểm định)
H1: B2 khác 4
Kiểm định khi X tăng 1 đơn vị thì Y tăng nhiều hơn 4 đơn vị.
Lí thuyết: Khi X tăng 1 đơn vị thì Y tăng B2 đơn vị
Đề bài: khi X tăng 1 đơn vị thì Y tăng nhiều hơn 4 đơn vị
=> B2 nhiều hơn 4 => B2 > 4
H0: B2 ≤ 4 hoặc B2 = 4
H1: B2 > 4 (*)
Mh2: ln(Y)=B1 + B2*ln(X) (%-%)
Ý nghĩa của B2: Khi X tăng 1% thì Y tăng hoặc giảm B2%
Kiểm định khi X tăng 1% thì Y tăng ít hơn 4%.
Nháp:
Lí thuyết: Khi X tăng 1% thì Y tăng B2%
Đề bài: Khi X tăng 1% thì Y tăng ít hơn 4%
=> B2% ít hơn 4% => B2% < 4% => B2 < 4
H0: B2 ≥ 4
H1: B2 < 4 (*)
Mh3: ln(Y) = B1 + B2*X (%- đơn vị) đơn vị chuyển thành % 0,1=0,1*100(%)=10%
Ý nghĩa của B2: Khi X tăng 1 đơn vị thì Y tăng hoặc giảm B2*100 (%)
Kiểm định khi X tăng 1 đơn vị thì Y tăng ít hơn 4%.
Lí thuyết: Khi X tăng 1 đơn vị thì Y tăng B2*100 (%)
Đề bài: khi X tăng 1 đơn vị thì Y tăng ít hơn 4%
=> B2*100 (%) ít hơn 4% => B2*100 < 4 => B2 < 4/100 => B2 < 0,04
Buổi 4
III. Mô hình hồi quy lin – log hai biến (đơn vị - %)
Xét mô hình hồi quy lin – log tổng thể sau:
Cách 1: Yi = 1 + 2log(Xi) + Ui
47
Cách 2: Yi = 1 + 2 ln(Xi) + Ui
xỉ là 2/100 đơn vị.
giải thích:
B2: X tăng 1 (%) đến Y tb tăng hoặc giảm B2/100 (đơn vị)
% sang đơn vị 20% = 0,2 = 20/100
Xét mô hình hồi quy log – lin mẫu như sau:

Cách 1: Yî = 1^ + 2^ log(Xi) + ei
Cách 2: Yî = 1^ + 2^ ln(Xi) + ei
 2^ : là 1 ước lượng điểm cho 2. Ý nghĩa: Với các yếu tố khác không đổi, khi X tăng 1%
thì Y trung bình thay đổi xấp xỉ là 2^ /100 đơn vị.
hồi quy. Phân tích hồi quy hàm lin – log
food_exp = β1+β2*ln(income)
Bước 1: tạo biến Lnincome
gen Lnincome=ln(income)
Bước 2: Hồi quy
. regress food_exp Lnincome

F(1, 38) = 21.05
Model 176519.828 1 176519.828 Prob > F = 0.0000
Total 495132.16 39 12695.6964 Root MSE = 91.567
Lnincome 132.1659 28.80461 4.59 0.000 73.85397 190.4777

_cons -97.18645 84.23744 -1.15 0.256 -267.7162 73.34333
Phương trình hồi quy mẫu tổng quát có dạng: Yî = 1^ + 2^ ln(Xi)
=> Phương trình hồi quy mẫu: ^
foo d ¿ exp = -97.18645 + 132.1659 * ln(income)
48
Ý nghĩa: Với các yếu tố khác không đổi, khi X tăng 1% thì Y trung bình thay đổi xấp xỉ là 2^
/100 đơn vị.
- ^
β 2=132.1659: với các yếu tố khác không đổi, khi thu nhập (income) tăng 1% thì chi
tiêu trung bình (food_exp) tăng 132.1659 / 100 đơn vị ($) ~ 1,32$
- Giải thích R^2: R^2 = 0.3565 nghĩa là biến ln(income) trong mô hình giải thích
được 35,65% sự thay đổi của food_exp, 64,35% còn lại sự thay đổi của food_exp là
do các yếu tố ngẫu nhiên và các yếu tố khác chưa đưa vào mô hình.
thống kê.
. regress food_exp Lnincome

F(1, 38) = 21.05
Model 176519.828 1 176519.828 Prob > F = 0.0000
Total 495132.16 39 12695.6964 Root MSE = 91.567
Lnincome 132.1659 28.80461 4.59 0.000 73.85397 190.4777

_cons -97.18645 84.23744 -1.15 0.256 -267.7162 73.34333
Ta có F(1,38) =21.05 Với Prob>F = 0.0000 < mức ý nghĩa alpha = 5% => bác bỏ H0, chấp
nhận H1 => mô hình có ý nghĩa thống kê hay mô hình phù hợp để giải thích sự thay đổi chi
tiêu của hộ gia đình trong thực tế.
Các bài toán về kiểm định định hệ số 2 của mô hình log – lin giống hệt như của kiểm định
Yi = 1 + 2 ln(Xi) + Ui
xỉ là 2/100 đơn vị.
VD13: food_exp = β1+β2*ln(income) tại α = 5%
49
a. Kiểm định khi (income) tăng 1% thì (food_exp) chi tiêu tăng 1,2$
b. Kiểm định khi (income) tăng 1% thì (food_exp) chi tiêu tăng ít hơn 1,5$
c. Kiểm định khi (income) tăng 1% thì (food_exp) chi tiêu tăng nhiều hơn 1,15$
giải:
a.
Lý thuyết: khi (income) tăng 1% thì (food_exp) chi tiêu tăng 2/100 đơn vị ($)
Đề bài: khi (income) tăng 1% thì (food_exp) chi tiêu tăng 1,2$
=> cần kiểm định 2/100 ($) = 1,2 ($)=> 2/100 = 1,2 => 2 = 1,2 *100 => 2 = 120
H0: 2 = 120 (*)
H1: 2 ≠ 120
. scalar t =(_b[ Lnincome ]-120)/_se[ Lnincome ]

pgiatri = .67514411
Kết luận: có cơ sở để cho rằng khi (income) tăng 1% thì (food_exp) chi tiêu tăng 1,2$.
food_exp = B1+B2*ln(income) tại α = 5%

b. Kiểm định khi (income) tăng 1% thì (food_exp) chi tiêu tăng ít hơn 1,5$
Đề bài: khi (income) tăng 1% thì (food_exp) chi tiêu tăng ít hơn 1,5$
=> cần kiểm định 2/100 (đơn vị) ít hơn 1,5$ => 2/100 < 1,5 => 2 < 1,5*100
=> 2 < 150
H0: 2 ≥ 150 hoặc B2 = 150
H1: 2 < 150 (*)

pgiatri = .26975861
50
Kết luận: không có cơ sở để cho rằng khi (income) tăng 1% thì (food_exp) chi tiêu tăng ít
hơn 1,5$.
food_exp = B1+B2*ln(income) tại α = 5%

c. Kiểm định khi (income) tăng 1% thì (food_exp) chi tiêu tăng nhiều hơn 1,15$
Đề bài: khi (income) tăng 1% thì (food_exp) chi tiêu tăng nhiều hơn 1,15$
=> cần kiểm định 2/100 nhiều hơn 1,15$ => 2/100 > 1,15 => 2 > 1,15*100 => 2 > 115
H0: 2 ≤ 115 hoặc B2 = 115
H1: 2 > 115 (*)

pgiatri = .27737394
nhiều hơn 1,15$.
Y = B1 + B2 * X (đv- đv)
1 số đề thi đặc biệt: Y: tỷ lệ lạm phát (đơn vị tính: %) , X tỷ lệ cung tiền ( %)
ví dụ: B2 = 4, với đk các yếu tố khác ko đổi, khi tỷ lệ cung tiền tăng 1 đv (1%) thì tỷ lệ
lạm phát trung bình tăng 4 đv (4%)
lnY = B1 + B2 * lnX (%-%) ; lnY = B1 + B2 * X (% - đv) ; Y = B1 + B2 * lnX (đv - %)

Một số bài tập về thống kê mô tả hay viết hồi quy kiểm định khi có thêm các điều logic.
Một số cách gõ các điều kiện logic:
lớn hơn >
51
nhỏ hơn <
lớn hơn bằng >=
nhỏ hơn bằng <=
bằng ==
Và &
Khác !=
Khi có thêm các điều kiện logic thì sau các lệnh thống kê mô tả sum; hồi quy
regress(reg) , vẽ đồ thị twoway scater;… thì gõ thêm if (thay cho từ nếu) rồi mới gõ
tiếp các điều kiện.
lập bảng thống kê mô tả cho 2 biến food_exp income với điều kiện chỉ lấy người có income > 15
. sum food_exp income if income > 15
Variable Obs Mean Std. Dev. Min Max
food_exp 32 310.0103 106.8727 109.71 587.66

income 32 22.21625 4.300673 15.32 33.4
. * Nhận xét: có 32 người có thu nhập (income) > 15; thu nhập trung bình của những người có income >15 là 22.21625
. * pt tổng thể: Food-exp=B1 + B2*income. Viết pt hồi quy mẫu cho những người có thu nhập lớn hơn bằng 15.
. reg food_exp income if income >= 15

F(1, 30) = 5.37
Model 53772.0791 1 53772.0791 Prob > F = 0.0275
Total 354074.769 31 11421.7667 Root MSE = 100.05
income 9.684141 4.17832 2.32 0.027 1.150874 18.21741

_cons 94.86502 94.49652 1.00 0.323 -98.12262 287.8527
. * pt hồi quy mẫu là: food_exp = 94.86502 + 9.684141*income.
. * ý nghĩa: B1 mũ: Khi income = 0 thì foof_exp trung bình của những người có income >= 15 là 94.86502$
. * ý nghĩa: B2 mũ: Khi income tăng 1$ thì foof_exp trung bình của những người có income >= 15 tăng 9.684141$
pt hồi quy tổng thể: Food_exp = B1 + B2 * income

VD: kiểm định tại α = 5%, khi thu nhập (income) của những người có thu nhập ≥ 15$ tăng
1$ thì chi tiêu (Food_exp) tăng ít hơn 12$.
giải:
52
để cho dễ viết thành pt hồi quy tổng thể sau: Y=B1+B2*X
Khi X của những người có income >=15 tăng 1 thì Y tăng B2 đơn vị
Khi X của những người có income >=15 tăng 1 thì Y tăng ít hơn 12
Lấy file br2.dta. có mô hình tổng thể : price = B1 + B2*sqft

viết pt hồi quy mẫu cho các căn nhà kiểu truyền thống.
(traditional) nếu traditional = 1 – kiểu truyền thống; traditional = 0 – kiểu khác
. reg price sqft if traditional == 1

F(1, 580) = 1027.92
Model 2.4362e+12 1 2.4362e+12 Prob > F = 0.0000
Residual 1.3746e+12 580 2.3700e+09 R-squared = 0.6393
Total 3.8108e+12 581 6.5591e+09 Root MSE = 48683
price Coef. Std. Err. t P>|t| [95% Conf. Interval]
sqft 73.77195 2.30097 32.06 0.000 69.2527 78.2912

_cons -28407.56 5728.161 -4.96 0.000 -39658.02 -17157.09
* KL: Muốn đánh một giá trị nào đó là dấu bằng trên stata thì phải gõ hai dấu "=" liên tiếp
nhau. Tức là gõ ==.
=> pt hồi quy mẫu cho các căn nhà kiểu truyền thống là: price = -28407.56 + 7.77195 * sqft
53
Bí quyết viết đúng H0 và H1 cho hệ số B2 với mô hình hồi quy tuyến tính:
Độc lập tăng 1 thì phụ thuộc tăng 3 Hệ số hồi quy = số dương
Y = B1 + B2*X Y = B1 + B2*(X+1) = B1 + B2*X + B2
X tăng 1 thì Y tăng 3 => B2 = 3
X tăng 1 thì Y tăng nhiều hơn 3 => B2 > 3
X tăng 1 thì Y tăng ít hơn 3 => B2 < 3
Độc lập tăng 1 thì phụ thuộc giảm 3 Hệ số hồi quy = số âm

Y = B1 + B2*X Y = B1 + B2*(X+1) = B1 + B2*X + B2
X tăng 1 thì Y giảm 3 => B2 = -3
X tăng 1 thì Y giảm nhiều hơn 3 => có thể là giảm 4. Mà -4 < -3 => B2 < -3
X tăng 1 thì Y giảm ít hơn 3 => có thể là giảm 2. Mà -2 > -3 => B2 > -3
KL: Tăng – tăng thì thuận theo tiếng việt tức là tăng nhiều hơn là > số + ; tăng ít hơn là < số +
KL: Tăng – giảm thì ngược theo tiếng việt tức là giảm nhiều hơn là < số - ; giảm ít hơn là > số -
Độc lập giảm 1 thì phụ thuộc giảm 3. – Hệ số hồi quy = số âm

Y = B1 + B2*X Y = B1 + B2*(X-1) = B1 + B2*X - B2
X giảm 1 thì Y giảm 3 => -B2 = -3 => B2 = 3
X giảm 1 thì Y giảm nhiều hơn 3 => có thể là giảm 4. Mà -4 < -3 => -B2 < -3 => B2 > 3
X giảm 1 thì Y giảm ít hơn 3 => có thể là giảm 2. Mà -2 > -3 => -B2 > -3 => B2 < 3
Độc lập giảm 1 thì phụ thuộc tăng 3. – Hệ số hồi quy = số dương
Y = B1 + B2*X Y = B1 + B2*(X-1) = B1 + B2*X - B2
X giảm 1 thì Y tăng 3 => -B2 = 3 => B2= -3
X giảm 1 thì Y tăng nhiều hơn 3 => có thể là tăng 4. Mà 4 > 3 => -B2 > 3 => B2 < -3
X giảm 1 thì Y tăng ít hơn 3 => có thể là tăng 2. Mà 2 < 3 => -B2 < 3 => B2 > -3
Bí quyết trên áp dụng tương tự cho hệ số B2 với các mô hình hồi quy phi tuyến
lnY = B1 + B2 * lnX
lnY = B1 + B2 * X
Y = B1 + B2 * lnX
Khi đó chỉ cần linh hoạt kết hợp thêm % hoặc các số 100 đi cùng là được.
54
Nếu đề thi không cho sẵn file dta để lấy dữ liệu xuống thực hành mà phải tự nhập dữ
liệu vào stata thì ta làm như sau:
Kick chọn Data Editor (Edit)
Sau đó tự nhập tên các biến và số liệu vào.

Ví dụ:
55
Sau khi nhập xong số liệu rồi mới đến bước ghi tên các cột
kick chuột vào var1
đưa chuột vào var1 ở chỗ này rồi

sửa thành chữ Q rồi ấn enter
Tương tự kích chuột chọn cột var2 rồi lại sửa var2 thành K
kick chuột vào var1
đưa chuột vào var2 ở chỗ này rồi

sửa thành chữ K rồi ấn enter
cuối cùng sửa tên var3 thành chữ L tương tự như trên là được 1 bảng gồm 3 cột Q, K, L
56
Một số lệnh thêm mà đôi khi trên lớp có dạy:
1) Vẽ đồ thị phân phối tần số dùng lệnh: hist tên biến muốn vẽ
2) Lọc dữ liệu thì thêm tham số if rồi gõ điều kiện ở sau
3) Kiểm định 1 cột (1 biến) có tuân theo phân phối chuẩn (kiểm định tính chuẩn) bằng lệnh:
mvtest normality tên cột (tên biến cần kiểm định tuân theo phân phối chuẩn)
H0: Biến … có tuân theo phân phối chuẩn
H1: Biến … không tuân theo phân phối chuẩn
p-giá trị = (Prob>chi2) so sánh với α của đề bài để ra quyết định bác bỏ hay chấp nhận H0,
H1.
4) Yêu cầu tìm phần dư và Y mũ thì phải gõ lại lệnh hồi quy trước:
reg tên biến phụ thuộc tên các biến độc lập
Dự báo Y mũ bằng lệnh: predict YM,xb
Dự báo phần dư e bằng lệnh: predict phandu,res
5) Tìm hệ số tương quan tuyến tính mẫu giữa các biến bằng lệnh: cor
6) Tìm hiệp phương sai ước lượng các hệ số trong mô hình bằng lệnh: vce
57

Chương-1-và-Chương-2 - XSTK

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chương-1-và-Chương-2 - XSTK

Uploaded by

Copyright:

Available Formats

BUỔI 1

Một số khái niệm lý thuyết cơ bản (chương 1)

Cách lấy file có đuôi dta

Tạo ra file log (.smcl)

Variable Obs Mean Std. Dev. Min Max

Quảngcáo 44 5187.568 2563.65 1089 9749

50% 5003.5 Mean 5187.568

Tạo biến mới từ biến cũ

BÀI HỌC CHÍNH (từ chương 2 trở đi thì mới thi)

VD: Y^ =6−3 X

Source SS df MS Number of obs = 44

Doanhthu Coef. Std. Err. t P>|t| [95% Conf. Interval]

Quảngcáo .0098911 .001486 6.66 0.000 .0068923 .01289

Mô hình hồi quy tổng thể: Doanhthu = 1 + 2 * Quảngcáo + U

Source SS df MS Number of obs = 44

Doanhthu Coef. Std. Err. t P>|t| [95% Conf. Interval]

Quảngcáo .0098911 .001486 6.66 0.000 .0068923 .01289

=> Phương trình hồi quy mẫu là: ^

0 2000 4000 6000 8000 10000

Ví dụ về ước lượng các tham số trên Stata

ESS RSS Số lượng mẫu (quan sát)

Source SS df MS Number of obs = 44

Doanhthu Coef. Std. Err. t P>|t| [95% Conf. Interval]

0 2000 4000 6000 8000 10000

Doanh thu Fitted values

b. KĐ cho B1 không quá 8 đơn vị tức là B1 ≤ 8

Các kiểu bài toán kiểm định cho 2:

Hàm (phương trình) hồi quy tổng thể:

Thi thì viết luôn H0, H1 như sau:

không quá ≤ , không dưới ≥ , ít nhất ≥ , nhiều nhất ≤

Có: Y^ =6+3 X

Có: Y^ =6−3 X

- Mẫu (obs): Thu thập dữ liệu của 40 hộ gia đình

Mô hình tổng thể: food = B1 + B2 * income + U

 Viết mô hình hồi quy mẫu:

 Giải thích ý nghĩa của các hệ số hồi quy

Phương trình hồi quy tổng thể: food_exp = B1 + B2*income

Tính:  tn2, thì dùng lệnh: scalar ttoihan = invttail(e(df_r),1alpha) áp dụng

Tính: tn2,/2 thì dùng lệnh: scalar ttoihan1 = invttail(e(df_r),alpha/2)

Sau đó dùng lệnh sau để hiện ra các kết quả đã tính:

Cô Hà Thu thì hay dùng lệnh di hơn là dùng scalar

. scalar list ttoihan

. di"t tới hạn của VD1= "invttail(e(df_r),0.05)

. scalar ttoihan1 = invttail(e(df_r),0.05/2)

. scalar ttoihan2 = invttail(e(df_r),1-0.05/2)

. scalar list t ttoihan1 ttoihan2

ttoihan1 = tn2, /2; ttoihan2 =  tn2, /2

. scalar ttoihan = invttail(e(df_r),1-0.05)

. scalar list t ttoihan

ttoihan =  tn2, (lệch trái)

. scalar ttoihan = invttail(e(df_r),0.03)

. scalar list t ttoihan

ttoihan = tn2, /2 (lệch phải)

. scalar ttoihan1 = invttail(e(df_r),0.05/2)

. scalar ttoihan2 = invttail(e(df_r),1-0.05/2)

. scalar list t ttoihan1 ttoihan2

ttoihan1 = tn2, /2; ttoihan2 =  tn2, /2

. scalar ttoihan = invttail(e(df_r),0.01)

. scalar list t ttoihan

. scalar ttoihan = invttail(e(df_r),1-0.05)

. scalar list t ttoihan

ttoihan =  tn2, (lệch trái)

Bước 2: Tính giá trị thống kê t bằng lệnh