You are on page 1of 83

Chương 5

PHÂN TÍCH HỒI QUI


Nội dung

(1) • Phân tích tương quan

(2) • Kiểm định trung bình tổng thể

(3) • Ước lượng hệ số hồi qui

(4) • Đánh giá mô hình

(5) • Kiểm định mô hình


• Kiểm định tự tương quan
(6)

(7) • Phương sai thay đổi


5-2
Phân tích tương quan

Làm nổi bật mối quan hệ ban đầu


Ví dụ: nghiên cứu nhu cầu du lịch có ảnh hưởng bởi tuổi hay
không. Mẫu 1.000 người được phỏng vấn trong 2 độ tuổi: < 45
tuổi và > 45 tuổi.

Thái độ Tuổi
Mong muốn du lịch < 45 > 45
Có (%) 50 50
Không (%) 50 50
Số người được phỏng vấn 500 500

5-3
Phân tích tương quan

Mối liên hệ giữa mong muốn du lịch với độ tuổi và giới tính

Mong muốn du lịch Giới tính


Nam Nữ
< 45 > 45 tuổi < 45 tuổi > 45 tuổi
tuổi
Có (%) 60 40 35 65
Không (%) 40 60 65 35
Số người được 300 300 200 200
phỏng vấn

5-4
Phân tích tương quan
Trường hợp sử dụng
 Khảo sát mức độ và mối liên hệ giữa các cặp biến.
 Thích hợp cho các trường hợp số loại trong mỗi biến không
lớn, thang đo định danh hoặc thang đo thứ tự.
 Chỉ mang tính định hướng, không kết luận về mối quan hệ
nhân quả giữa các biến.
 Kết quả có thể bị lệch nếu các ô có giá trị nhỏ.

5-5
Phân tích tương quan

Các loại hệ số tương quan

Phương pháp Trường hợp áp dụng Minh họa


Kiểm định Chi Quan hệ giữa 2 biến Quan hệ giữa giới tính
bình phương định danh với nghề nghiệp
Hệ số tương quan Quan hệ giữa hai biến Quan hệ giữa trình độ
hạng Speaman thứ tự học vấn & mức thu nhập

Quan hệ giữa tuổi và


Hệ số tương quan Quan hệ giữa hai biến
mức chi tiêu cho điện
Pearson định lượng
thoại di động.

5-6
Phân tích tương quan
•Kiểm định mối liên hệ ban đầu

•Dùng phân phối “chi bình phương” để kiểm định mối quan hệ
giữa các biến.

•Giả thuyết
• H0: không có mối quan hệ giữa các biến
• H1: có mối quan hệ giữa các biến

•Giá trị kiểm định 2 trong kết quả phân tích sẽ cung cấp mức ý
nghĩa của kiểm định P-value.
•Nếu sig.< = : bác bỏ giả thuyết H0, nghĩa là các biến có liên hệ
nhau.

5-7
Phân tích tương quan
Hệ số tương quan Spearman: Tương quan giữa hai biến thứ tự
(ordinary)
Hệ số tương quan Pearson: Tương quan giữa hai biến định
lượng (khoảng/tỷ lệ).
Giá trị: r  (-1, +1).
r > 0.8: Tương quan rất mạnh
r  (0.6, 0.8): Tương quan mạnh
r  (0.4, 0.6): Có tương quan
r  (0.2, 0.4): Tương quan giữa hai biến yếu.
r < 0.2: Không có tương quan.
Lưu ý
• Hai biến phải có phân bố chuẩn nhị phân.
• Phương sai của hai biến phải tương đồng
• Giá trị tuyệt đối của r cho biết mối tương quan nhưng không
cho biết mối quan hệ nhân quả. 5-8
Phân tích tương quan
Phân tích bảng chéo – Crosstabs
Mục đích: Kiểm định mối quan hệ giữa 2 biến định danh dùng
kiểm định Chi – bình phương.
Dữ liệu: Biến thứ tự, định danh với số trường hợp tương đối ít.
Yêu cầu:
- Không có dữ liệu có kỳ vọng < 1.
- Không quá 1/5 dữ liệu có kỳ vọng <5
Hạn chế: Chỉ cho biết có mối quan hệ hay không, không biết
mức độ của mối quan hệ.

5-9
Phân tích tương quan
1. Vào menu Analyze  Descriptive Statistics  Crosstab…,

Xuất hiện hộp thoại sau:

5-10
Phân tích tương quan

2. Chọn và đưa các biến vào khung Row(s) (dòng) và Column(s)


(cột) và Layer 1 of 1 (đối với trường hợp trên 2 biến). 5-11
Phân tích tương quan
3. Nhấp vào ô Statistics, xuất hiện hộp thoại sau:

5-12
Phân tích tương quan

4. Chọn các kiểm định cần thiết. Trong trường hợp này ta
dùng kiểm định Chi – bình phương (Chi-square).
- Các kiểm định ở ô Norminal dùng để kiểm định mối liên hệ
giữa các biến định danh.
- Các kiểm định ở ô Ordinal dùng để kiểm định mối liên hệ
giữa các biến thứ tự.
5. Nhấp vào Continue để trở lại hộp thoại Crosstabs  Click
vào ô Cells, hộp thoại sau xuất hiện:

5-13
Phân tích tương quan
• Ở ô Counts chọn
Observed (thể hiện tần số
quan sát). Trong trường
hợp muốn thể hiện tần số
mong đợi chọn Expected.
• Chọn cách thể hiện phần
trăm theo dòng hay theo
cột ở ô Percentages.
• Click Continue để trở lại
hộp thoại Crosstabs  Ok
để thực hiện lệnh.
5-14
Phân tích tương quan
Đọc kết quả kiểm định
Giả thuyết.
H0: không có mối quan hệ giữa các biến.
H1: có mối quan hệ giữa các biến.
Để kết luận, cần sử dụng kiểm định phù hợp.
Nếu sử dụng p-value (SPSS: p-value là sig.)
p-value (sig.) ≤ α (mức ý nghĩa)  bác bỏ H0.
 Có mối quan hệ có ý nghĩa giữa các biến.
p-value (sig.) > α (mức ý nghĩa)  Không bác H0.
 Không có mối quan hệ giữa các biến kiểm định.

5-15
Phân tích tương quan
Ví dụ: Kiểm định mối quan hệ giữa Giới tính vs. Văn bằng cao
nhất của cán bộ giảng dạy tại một trường nghề của quận Phú
Nhuận, TP, HCM trong năm 2015.
Lời giải

5-16
Phân tích tương quan

5-17
Phân tích tương quan

Cách đọc
• Phần trăm Giới tính thì cộng theo hàng
• Phần trăm theo Văn bằng cao nhất thì cộng theo cột. 5-18
Phân tích tương quan
Hệ số tương quan Spearman: Tương quan giữa hai biến thứ tự
(ordinary).
Xử lý bằng phần mềm SPSS: Analyze  Correlate  Bivariate
 Speaman.

5-19
Phân tích tương quan

Hệ số tương quan Pearson: Tương quan giữa hai biến lượng


(Khoảng/tỷ lệ).
Xử lý bằng phần mềm SPSS: Analyze  Correlate  Bivariate
 Pearson.

5-20
Kiểm định trung bình 2 tổng thể
1. Vào menu Analyze  Compare Means  Independent-
samples T-test

5-21
Kiểm định trung bình

2. Chọn biến định lượng cần kiểm định trị trung bình đưa vào
khung Test Variable(s). Chọn biến định tính chia số quan sát
thành 2 nhóm mẫu để so sánh giữa 2 nhóm này với nhau đưa
vào khung Grouping Variable.
3. Chọn Define Groups… để nhập mã số của 2 nhóm. Click
Continue để trở lại hộp thoại chính  Click Ok để thực hiện
lệnh

5-22
Kiểm định trung bình

5-23
Kiểm định trung bình

- Nếu giá trị Sig. trong kiểm định Levene (kiểm định F) < 0.05 thì
phương sai của 2 tổng thể khác nhau, ta sử dụng kết quả kiểm
định t ở dòng Equal variances not assumed.
- Nếu Sig. ≥ 0.05 thì phương sai của 2 tổng thể không khác nhau,
ta sử dụng kết quả kiểm định t ở dòng Equal variances assumed.
Ở hình trên Sig. của kiểm định F = 0.295 > 0.05  không bác H0,
không có sự khác nhau về phương sai của 2 tổng thể  sử dụng
kết quả ở dòng Equal variances assumed. 5-24
Kiểm định trung bình

- Nếu Sig. của kiểm định t ≤ α (mức ý nghĩa)  có sự phác biệt


có ý nghĩa về trung bình của 2 tổng thể.
- Nếu Sig. > α (mức ý nghĩa)  không có sự khác biệt có ý
nghĩa về trung bình của 2 tổng thể.
Ở hình trên sig. = 0.002 < 0.05  có sự khác biệt có ý nghĩa về
trung bình của 2 tổng thể.

5-25
Ước lượng hệ số
Mục đích
• Ước lượng giá trị của biến phụ thuộc dựa vào biến độc lập
• Giải thích ảnh hưởng của biến độc lập đến biến phụ thuộc.

Hồi qui tuyến tính


 Quan hệ giữa X (biến độc lập) và Y (biến phụ thuộc) được
mô tả bằng hàm tuyến tính
 Mô hình hồi qui tuyến tính

Yi  β0  β1x i  ε i
Trong đó: 0 và 1 là hệ số của tổng thể còn 
là sai số ngẫu nhiên.
5-26
Ước lượng hệ số

Hồi qui tuyến tính


Sai số
Hệ số tung Hệ số góc Biến độc lập ngẫu
độ gốc nhiên
Biến phụ
thuộc

Yi  β0  β1Xi  ε i
Tuyến tính Sai số

5-27
Ước lượng hệ số

Y Yi  β0  β1Xi  ε i
Điểm quan sát
Y với Xi

εi Độ dốc = β1
Trị ước lượng Sai số ngẫu
ŷ cho Xi nhiên cho trị Xi

Hệ số = β0

Xi X
5-28
Ước tính hệ số

Hồi qui tuyến tính

Ước lượng
(hay dự báo) Ước lượng tung Ước lượng
trị y cho điểm độ gốc hệ số góc
quan sát i
Trị x cho điểm

yˆ i  b 0  b1x i quan sát i

Sai số ngẫu nhiên riêng phần ei = 0


ei  ( y i - yˆ i )  y i - (b0  b1x i )
5-29
Ước lượng hệ số
b0 và b1 được tính tại điểm cực tiểu bình phương sai lệch
giữa y và ŷ

min SSE  min  ei2

 min  (yi yˆ i )2

 min  [y i  (b0  b1x i )]2

Phương pháp bình phương cực tiểu dẫn đến hai phương trình
n n
I :  yi  nb 0 b1  xi
i 1 i 1
n n n
II :  xi yi  b0  xi  b1  xi
2

i 1 i 1 i 1

Giải hai phương trình trên để tìm trị b0, b1 5-30


Ước lượng hệ số

Hệ số góc b1: Trị ước tính thể hiện thay đổi của y khi thay
đổi x 1 đơn vị.

 XY   X Y
b1  n
 X
2

x  n
2

Tung độ gốc b0: Trị ước lượng của y khi trị x = 0


b 0  y  b1x

Đường hồi qui luôn đi ra trị trung bình x, y


5-31
Ước lượng hệ số
Các giả định của mô hình
• Tương quan hồi qui (Y tuyến tính với X, cộng sai số ngẫu nhiên)
• Sai số εi phụ thuộc biến độc lập X
• Sai số với trung bình = 0
• Sai số ngẫu nhiên, εi, thì không tương quan với các tham số khác

E[ε i ]  0 và E[ε i ]  σ 2 (i  1, , n)
2

E[ε i ε j ]  0  i j

5-32
Ước lượng hệ số
Ví dụ: Một nhà môi giới nhà đất muốn xác định mức độ liên hệ
giữa giá bán với diện tích ngôi nhà (m2). Mẫu ngẫu nhiên của
10 nhà được chọn.
Giá nhà 1.000$ Diện tích
(Y) (X) Biến độc lập (Y)
245 1400 = Giá nhà (1000$)
312 1600 Biến phụ thuộc (X)
279 1700 = Diện tích (m2)
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
5-33
Ước lượng hệ số

Biểu diễn đồ thị

450
Giá nhà (1.000$)

400
350
300
250
200
150
100
50
0
0 1000 2000 3000
Diện tích (m2)

5-34
Ước lượng hệ số

No Y X XY X2
1 245 1400 343000 1960000
2 312 1600 499200 2560000
3 279 1700 474300 2890000 x = ∑x/10 = 17150/10
4 308 1875 577500 3515625 = 1715
5 199 1100 218900 1210000
6 219 1550 339450 2402500
y = ∑y/10 = 2865/10
7 405 2350 951750 5522500
8 324 2450 793800 6002500
= 286.5
9 319 1425 454575 2030625
10 255 1700 433500 2890000
Tổng 2865 17150 5085975 30983750

∑xy - nxy 5085975 - (10)(1715)(286,5)


b1 = 2 = 30983750 - (10)(17152) = 0.10977
∑x - nx2

b0 = y – b1x = 286.5 - (0.10977)(1715) = 98.24 5-35


Ước lượng bằng Excel
Tìm hệ số b0, b1, và các kết quả hồi qui khác dùng Excel
Tools / Data Analysis / Regression

5-36
Ước lượng bằng Excel

Regression Statistics
Multiple R 0.76211 Mô hình hồi qui
R Square 0.58082
Adjusted R Square 0.52842 Giá nhà  98.24833  0.10977Die n tích(m 2 )
Standard Error 41.33032
Observations 10

ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580

5-37
Ước lượng bằng Excel

Biểu diễn bằng đồ thị


Mô hình hồi qui: Số liệu và đường hồi qui

Hệ số góc
= 0.10977

Tung độ gốc
= 98.248

Giá nhà = 98.248333 + 0.10977.Diệntích


5-38
Ước lượng hệ số

Hệ số b0 Giá nhà  98.24833  0.10977.Dien tích (m 2 )


b0 là trị ước lượng trung bình của Y khi X = 0
Không nhà nào có diện tích = 0 m2 tuy nhiên b0 = 98.24833
muốn chỉ ra rằng với số tiền 98.248 $ thì chẳng mua được m2
nhà nào cả.

Hệ số b1
Giá nhà = 98.248333 + 0.10977 . Diện tích
b1 biểu thị mức độ thay đổi của trị trung bình Y khi thay đổi X
một đơn vị
b1 = 0.10977 chỉ ra rằng giá nhà trung bình sẽ tăng
0.10977(1000$) = 109.77 $, khi tăng mỗi m2 diện tích nhà.
5-39
Đánh giá mô hình

Tổng sai số

SST  SSR  SSE


Sai số hồi qui bình Sai số ước lượng
Tổng sai số
phương bình phương

SST   (yi  y)2 SSR   (yˆ i  y)2 SSE   (yi  yˆ i )2


Trong đó
y = Trị trung bình của biến phụ thuộc
yi = Trị quan sát của biến phụ thuộc
ŷ = Trị dự báo của y với một trị x
i i 5-40
Đánh giá mô hình

• SST = Tổng sai số


Khác biệt bình phương của trị yi quanh trị trung bình y

• SSR = Sai số hồi qui bình phương


Khác biệt bình phương giữa trị hồi qui và y

• SSE = Sai số ước lượng bình phương
• Chênh lệch giữa Yi và y

5-41
Đánh giá mô hình

Y
yi 
 2 y
SSE = (yi - yi )
_
SST = (yi - y)2

y  _2
_ SSR = (yi - y) _
y y

xi X
5-42
Đánh giá mô hình

Mô hình: Giá nhà = 98.248333 + 0.10977 . Diện tích


TT yi x ŷ ŷ - y 2
y i -y 
2
yi - ŷ2
1 245 1400 251,93 1195,34 1722,25 47,97
2 312 1600 273,88 159,25 650,25 1453,11
3 279 1700 284,86 2,70 56,25 34,31
4 308 1875 304,07 308,60 462,25 15,47
5 199 1100 218,99 4556,88 7656,25 399,81
6 219 1550 268,39 327,91 4556,25 2439,55
7 405 2350 356,21 4859,18 14042,25 2380,68
8 324 2450 367,18 6510,04 1406,25 1864,93
9 319 1425 254,67 1013,11 1056,25 4138,27
10 255 1700 284,86 2,70 992,25 891,46
Tổng 2865 17150 18935,72 32600,50 13665,57

2865 Hệ số biến thiên SSR 18.953


y  286.5 R 2
  0.58
10 SST 32.600 5-43
Đánh giá mô hình
Hệ số xác định
Y  Tỷ lệ giữa SSR và SST
 Ký hiệu R2

SSR
R 
2

SST
X
R2 =1 Lưu ý: 0  R 2  1
Y
Tác động của trị R2
R2 = 1: Tương quan hoàn hảo
giữa X và Y. 100% sai lệch y được
X giải thích bằng sai lệch x.
R2 =1
5-44
Đánh giá mô hình

Tác động của trị R2


Y
0 < R2 < 1

Liên hệ yếu giữa X và Y. Một


vài nhưng không phải tất cả sai
X
lệch y thì được giải thích bằng
Y sai lệch x.

X
5-45
Đánh giá mô hình

Hệ số xác định R2
Tác động của trị R2

R2 = 0
Y
Không có mối liên hệ giữa biến
x và y. Biến y không phụ thuộc
biến x. (Sai số y không được
biểu diễn bằng sai số x)
X
R2 = 0

5-46
Đánh giá mô hình
Sử dụng Excel
SSR 18934.93
Regression Statistics
R  2
  0.581
Multiple R 0.76211 SST 32600.50
R Square 0.58082
Adjusted R Square 0.52842 58.08% của sai lệch giá nhà được
Standard Error 41.33032 giải thích bằng sai lệch diện tích
Observations 10
nhà (m2)
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Tung độ gốc 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Diện tích (m2) 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580

5-47
Đánh giá mô hình
Phương sai (ước lượng)
n

 i
e 2
SSE
σˆ 2  s2e  i1

n2 n2
Chia cho n – 2 thay vì n – 1 bởi vì mô hình hồi qui
tuyến tính dùng 2 tham số ước lượng, b0 và b1.

Độ lệch chuẩn s e  s 2e

Phương sai của bài toán ước lượng giá nhà


SSE 13.665
Se    1708.2
2

n-2 8
Độ lệch chuẩn
Se  1708.2  41.00 5-48
Đánh giá mô hình
Sử dụng Excel Độ lệch chuẩn (ước lượng)
Regression Statistics
Multiple R 0.76211 s e  41.33032
R Square 0.58082
Adjusted R Square 0.52842
Standard Error 41.33032
Observations 10

ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580

5-49
Đánh giá mô hình
So sánh độ lệch chuẩn Se

se chỉ ra sai lệch của đường hồi qui ŷ so với trị quan sát yi

Y Y

X X
se nhỏ se lớn

Độ lớn của se chính là độ rộng của tập dữ liệu yi

5-50
Đánh giá mô hình
 Giả sử y phân phối chuẩn nên các tham số ước lượng b0, b1
cũng phân phối chuẩn.
 Trung bình E(b1) = b1
Phương sai của hệ số hồi qui b1
2
s s e2
s 2b1  e

 (x i  x) 2
 x
2

 xi 
2 i
n
Trong đó
sb1 = Phương sai độ dốc
SSE = Độ lệch chuẩn độ dốc
se 
n2 5-51
Đánh giá mô hình
Phương sai hệ số hồi qui b1

sb 
2 s 2
e

1708.22
 0.00113
1
 x
2
30.983.750 
294.122.500
 xi 
2 i
n 10

s b  0.00113  0.033
1

Y Y

Sb1 Bé X Sb1 Lớn X


5-52
Đánh giá mô hình
Sử dụng Excel
Regression Statistics
Multiple R 0.76211
R Square 0.58082 Độ lệch chẩn b1
Adjusted R Square 0.52842
Standard Error
Observations
41.33032
10
s b1  0.03297

ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580

5-53
Kiểm định mô hình
Kiểm định t cho độ dốc
• Có tuyến tính giữa X và Y?
1. Giả thuyết
H0: β1 = 0 (Không liên hệ)
H1: β1  0 (Có liên hệ tuyến tính)

2. Trị tới hạn


df. = n - 2 = 8
tdf,α/2
/2 /2

Bác H0 Không bác H0 Bác H0


-tn-2,α/2 0 tn-2,α/2 5-54
Kiểm định mô hình

3. Trị thống kê t (Student)

b1  β1
t
sb1

Trong đó
b1 = Hệ số hồi qui (độ dốc)
β1 = 0
sb1 = Sai lệch chuẩn của độ dốc
df. (bậc tự do) = n - 2

4. Kết luận
5-55
Kiểm định mô hình
Kiểm định hệ số độ dốc b1

Phương trình hồi qui


Giá nhà 1.000 $ Diện tích m2
(y) (x)
Giá nhà  98.25  0.1098.Die n tích (m 2 )
245 1400
312 1600 Độ dốc của mô hình = 0.1098
279 1700
308 1875 Diện tích có ảnh hưởng đến giá nhà?
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700

5-56
Kiểm định mô hình Kiểm định t

1. Giả thuyết 3. Trị thống kê


b1 sb1
H0: β1 = 0 Excel
H1: β1  0 Thống
Hệ số Sai số chuẩn kê t P-value
B0 98.24833 58.03348 1.69296 0.12892
2. Trị tới hạn Diện tích m2 0.10977 0.03297 3.32938 0.01039
df. = 10-2 = 8
t8, 0,025 = 2.3060
b1  β1 0.10977  0
t  t  3.32938
/2 =
s b1 0.03297
/2 =
0.025
0.025
4. Kết luận: Bác H0
Đủ bằng chứng để kết luận diện
Bác H0 Không bác H0 Bác H0
-tn-2,α/2 0 tn-2,α/2 tích có ảnh hưởng đến giá nhà.
-2.3060 2.3060 3.329 5-57
Kiểm định mô hình
Sử dụng p-values

1. Giả thuyết 3. P-value P-value


Excel
H0: β1 = 0
Hệ số Sai lệch chuẩn
H1: β1  0 Thông kê t P-value
b0 98.24833 58.03348 1.69296 0.12892
Diện tích 0.10977 0.03297 3.32938 0.01039

P-value = 0.01039
2. Trị thống kê
4. Kết luận: P-value < α nên bác H0
0.10977  0
t  3.32938 Đủ bằng chứng để kết luận diện tích
0.03297 có ảnh hưởng đến giá nhà.
df. = 10-2 = 8 5-58
Kiểm định tự tương quan

• Tự tương quan là sự tương quan của sai số theo thời gian.


• Sai số mang tính chu kỳ, không ngẫu nhiên.
• Ảnh hưởng đến giả định rằng sai số là ngẫu nhiên và độc lập.

5-59
Kiểm định tự tương quan
ei
ei  

    

  
   
Sai số 
 
 




mang tính 
(a)

 

t (b)  
t
chu kỳ 
ei ei
  
 
   
 
  
 
 
   

(c)   t (d)
 
t
ei
    
Không có tự 
 

 

 


tương quan  




 



t
(e) 5-60
Kiểm định tự tương quan (Durbin-Watson)
Dùng kiểm định Durbin-Watson
Giả thuyết H0: Không tương quan
(i.e., Corr(εt,εt-1) = 0)
H1: Có tự tương quan

Trị Durbin - Watson


n  Khoảng khả dĩ 0 ≤ d ≤ 4
 e  e 
2
i i 1
 d 2 => không bác H0
d i 2
(*)
n  d < 2: Tự tương quan dương
e
2

i 1
i  d > 2: tự tương quan âm.
Không có tự Không
Có tự tương Không quyết tương quan quyết định Có tự tương
quan dương định được bậc nhất được quan âm
5-61
0 dL dU 2 4-dU 4-dL 4
Kiểm định tự tương quan (dương)
1. Giả thuyết
H0: Không tự tương quan dương
H1: Có tự tương quan dương
2. Trị thống kê d (Durbin-Watson)
 Tính bằng công thức (*)
 Khi n đủ lớn d <2
3. Trị tới hạn dL và dU (tra bảng Durbin-Watson)
(dựa vào kích thước mẫu n, mức ý nghĩa  và số biến độc lập: k)

Bác H0 Không kết Không bác H0


luận

0 dL dU 2
4. Kết luận: bác H0 nếu d < dL 5-62
Kiểm định tự tương quan (âm)

Tự tương quan âm tồn tại nếu tồn tại sai số tương quan âm.

Tự tương quan âm
bác H0 nếu d > 4 – dL

ρ0 ρ0
Không bác H0
Bác H0 Không kết Không kết bác H0
luận luận

0 dL dU 2 4 – dU 4 – dL 4

5-63
Kiểm định tự tương quan
Ví dụ: Cho chuỗi số liệu về mối liên hệ giữa hai chỉ tiêu kinh tế
mức độ tiêu dùng (Y) và thu nhập (X) trong khoảng thời gian
20 năm.
Thứ tự Y X Thứ tự Y X
1 52.9 30.3 11 98.2 53.5
2 53.8 30.9 12 101.7 52.8
3 54.9 30.9 13 102.7 55.9
4 58.2 33.4 14 108.3 63.0
5 60.0 35.1 15 124.7 73.0
6 63.4 37.3 16 157.9 84.7
7 68.2 41.0 17 158.2 86.6
8 78.0 44.9 18 170.2 98.8
9 84.7 46.5 19 180.0 110.8
10 90.6 50.3 20 198.0 124.7
5-64
Kiểm định tự tương quan
STT Y ⌃
Y ei ei2 ei-1 (ei-ei-1)2
1 52.9 56.04335 -3.14335 9.880646
2 53.8 57.02233 -3.22233 10.38338 -3.14335 0.006237
3 54.9 57.02233 -2.12233 4.504266 -3.22233 1.21
4 58.2 61.10139 -2.90139 8.418081 -2.12233 0.606946
5 60 63.87516 -3.87516 15.01685 -2.90139 0.94822
6 63.4 67.46474 -4.06474 16.52209 -3.87516 0.03594
7 68.2 73.50176 -5.30176 28.10863 -4.06474 1.530218
8 78 79.8651 -1.8651 3.478607 -5.30176 11.8106
9 84.7 82.47571 2.224294 4.947486 -1.8651 16.72317
10 90.6 88.67589 1.924112 3.702208 2.224294 0.090109
11 98.2 93.89709 4.302906 18.515 1.924112 5.65866
12 101.7 92.75496 8.945045 80.01383 4.302906 21.54945
13 102.7 97.813 4.887001 23.88278 8.945045 16.46772
14 108.3 109.3975 -1.09755 1.204615 4.887001 35.81485
15 124.7 125.7138 -1.01382 1.027829 -1.09755 0.007011
16 157.9 144.8039 13.09615 171.509 -1.01382 199.0911
17 158.2 147.9039 10.29605 106.0087 13.09615 7.84051
18 170.2 167.8098 2.390206 5.713087 10.29605 62.50244
19 180 187.3893 -7.38932 54.602 2.390206 95.63907
20 198 210.0689 -12.0689 145.6591 -7.38932 21.89879
713.0983 5-65
499.4311
Kiểm định tự tương quan

Tính d với n = 20
Trị Durbin-Watson
Tổng của biến động
499.3411
sai số

Tổng sai số 713.0983


Trị thống kê d
0.7
(Durbin-Watson)

 i i1
(e  e ) 2
499.3411
d i2
n
  0.7
 ei
2 713.0983
i 1
5-66
Kiểm định tự tương quan (dương)

• n = 20, k = 1 (một biến độc lập), độ tin cậy  = 0.05


• Tra bảng Durbin-Watson, dL = 1.20 và dU = 1.41
• d = 0.7 < dL = 1.20 nên bác H0 và kết luận tồn tại tự tương
quan dương
• Do đó mô hình tuyến tính thì không thích hợp để dự báo mức
tiêu dùng.

Kết luận: Bác H0 do


d = 0.7 < dL

Bác H0 Không kết Không bác H0


luận
0 2
dL=1.20 dU=1.41 5-67
Kiểm định tự tương quan
Lưu ý khi áp dụng kiểm định d (Durbin-Watson)
1. Mô hình hồi quy phải có hệ số góc (chặn tức hệ số 0).
2. Sai số ngẫu nhiên có tương quan bậc nhất:
ei = ei-1 + ui
1. Mô hình hồi quy không chứa biến trễ Yt-1.
2. Không quan sát bị thiếu.

5-68
Kiểm định tự tương quan

Xử lý tự tương quan
• Giả muốn ước tính các hệ số của mô hình hồi qui

y t  β 0  β 1x 1t  β 2x 2t    β kx kt  ε t
trong đó sai số εt thì tự tương quan

Hai bước
(i) Ước tính các sai số bằng phương pháp bình phương bé nhất,
kiểm định Durbin-Watson rồi ước tính tham số tự tương quan

d
  1
2
5-69
Kiểm định tự tương quan

(ii) Ước tính tham số hồi qui cho mô hình thứ nhì bằng phương
pháp sai số bình phương bé nhất
• Biến phụ thuộc (yt – yt-1)
• Biến độc lập (x1t – x1,t-1) , (x2t – x2,t-1) , . . ., (xk1t – xk,t-1)

• Các tham số 1, 2, . . ., k được ước tính từ mô hình thứ nhì
• Tham số 0 được xác định bằng cách chia tham số ban đầu cho
(1 - )
• Khoảng ước lượng, kiểm định thống kê và các hệ số hồi qui
được xác định dựa trên mô hình thứ nhì. Nếu vẫn chưa hết tự
tương quan thì tiếp tục trượt.

5-70
Phương sai thay đổi (phần dư)
Các giả định hồi qui

• Phần dư ngẫu nhiên: Giá trị phần dư (sai lệch) ε phân phối chuẩn cho bất kỳ trị nào của X.
• Phương sai của phần dư không thay đổi
• Sai lệch của biến độc lập thì ngẫu nhiên và độc lập.

5-71
Phương sai thay đổi

Sai lệch hồi qui

ei  y i  yˆ i
 Sai lệch tại điểm quan sát i (ei) là sự khác biệt giữa số liệu và
trị hồi qui.
 Kiểm tra giả định hồi qui bằng cách kiểm tra sai lệch
 Tuyến tính
 Phương sai là hằng số
 Phân phối chuẩn
 Độc lập
 Phân tích sai lệch (biểu đồ)
 Vẽ sai lệch vs. trị x lên biểu đồ 5-72
Phương sai thay đổi
Sai lệch tuyến tính

Y Y

x x
Sai lệch

Sai lệch
x x

Không tuyến tính


 Tuyến tính
5-73
Phương sai thay đổi
Tính độc lập của sai lệch

Không độc lập


 Độc lập
Sai lệch

Sai lệch
X
Sai lệch

5-74
Phương sai thay đổi
 Khi phương sai của sai lệch không là hằng số
• Bình phương khoảng cách không còn là cách hiệu quả để ước tính các hệ số
hồi qui.
• Không dùng được qui trình ước lượng (xác định khoảng tin cậy )và kiểm định
thống kê.

5-75
Phương sai thay đổi
Ví dụ: Tính sai lệch (Excel)
Sai lệch đầu ra
Dự báo Sai lệch ước
giá nhà lượng SSE
1 251.92316 -6.923162
2 273.87671 38.12329
3 284.85348 -5.853484
4 304.06284 3.937162
5 218.99284 -19.99284
6 268.38832 -49.38832
7 356.20251 48.79749
8 367.17929 -43.17929
9 254.6674 64.33264
10 284.85348 -29.85348
Không xuất hiện yếu tố ảnh hưởng đến các giả
định hồi qui 5-76
Phương sai thay đổi

Ví dụ: Xét ví dụ mô hình hồi qui 2 biến trong đó biến phụ


thuộc Y là số tiền tiêu dùng còn biến độc lập X là thu nhập của
hộ gia đình.

Tiêu dùng (Y) 38 44 45 51 56


Thu nhập (X) 52 75 97 129 152

5-77
Phương sai thay đổi

Kiểm định sự thay đổi của phương sai


• Giả thuyết H0: ei có phương sai không đổi.
H1 phương sai ei phụ thuộc vào trị
ŷ i
• Ước tính tương quan hồi qui
e  a0  a1yˆ i
2
i
Yi (= 0 + 1 Xi), ei2 xác định từ hàm hồi qui gốc
• Hệ số xác định R2 của hồi qui mới.
Giả thiết H0 bị bác nếu nR2 lớn hơn 21,

Trong đó 21, là trị tới hạn của phân phối Khi-bình phương
với bậc tự do 1, và mức ý nghĩa .
5-78
Phương sai thay đổi
Từ số liệu của ví dụ trên, xây dựng được hàm hồi qui.
ŷ = 29.68 + 0.1694x
Được số liệu ŷ, ei, và ei2
ŷ ei ei2
1 38.49466 -0.494658845 0.244687
2 42.39308 1.606915715 2.582178
3 46.12201 -1.122012967 1.258913
4 51.54591 -0.545909231 0.298017
5 55.44433 0.555665329 0.308764
Tương quan hồi qui (mới)
ei2  a 0  a1ŷi  3.498  0.054ŷ
• Hệ số xác định R2 của hàm hồi qui mới: 0.13611
• Do nR2 = 0.6805 < 21;0,05= 3.8415  Không bác H0 tức
5-79
phương sai của sai lệch không đổi.
Durbin-Watson ( = 0.05)

5-80
Durbin-Watson ( = 0.025)

5-81
Durbin-Watson ( = 0.01)

5-82
Tài liệu tham khảo
[1] Đinh Bá Hùng Anh, “Nghiên cứu khoa học trong Kinh tế - Xã
hội & Hướng dẫn viết luận văn”, NXB Kinh Tế 2017.
[2] TS. Nguyễn Đình Thọ, Nguyễn Thị Mai Trang, “Nghiên cứu
marketing”, NXB. Đại học Quốc gia TP. HCM 2007.

You might also like