Professional Documents
Culture Documents
Chuong 5 Phan Tich Hoi Quy Tuyen Tinh Don Va Da Bien
Chuong 5 Phan Tich Hoi Quy Tuyen Tinh Don Va Da Bien
Thái độ Tuổi
Mong muốn du lịch < 45 > 45
Có (%) 50 50
Không (%) 50 50
Số người được phỏng vấn 500 500
5-3
Phân tích tương quan
Mối liên hệ giữa mong muốn du lịch với độ tuổi và giới tính
5-4
Phân tích tương quan
Trường hợp sử dụng
Khảo sát mức độ và mối liên hệ giữa các cặp biến.
Thích hợp cho các trường hợp số loại trong mỗi biến không
lớn, thang đo định danh hoặc thang đo thứ tự.
Chỉ mang tính định hướng, không kết luận về mối quan hệ
nhân quả giữa các biến.
Kết quả có thể bị lệch nếu các ô có giá trị nhỏ.
5-5
Phân tích tương quan
5-6
Phân tích tương quan
•Kiểm định mối liên hệ ban đầu
•Dùng phân phối “chi bình phương” để kiểm định mối quan hệ
giữa các biến.
•Giả thuyết
• H0: không có mối quan hệ giữa các biến
• H1: có mối quan hệ giữa các biến
•Giá trị kiểm định 2 trong kết quả phân tích sẽ cung cấp mức ý
nghĩa của kiểm định P-value.
•Nếu sig.< = : bác bỏ giả thuyết H0, nghĩa là các biến có liên hệ
nhau.
5-7
Phân tích tương quan
Hệ số tương quan Spearman: Tương quan giữa hai biến thứ tự
(ordinary)
Hệ số tương quan Pearson: Tương quan giữa hai biến định
lượng (khoảng/tỷ lệ).
Giá trị: r (-1, +1).
r > 0.8: Tương quan rất mạnh
r (0.6, 0.8): Tương quan mạnh
r (0.4, 0.6): Có tương quan
r (0.2, 0.4): Tương quan giữa hai biến yếu.
r < 0.2: Không có tương quan.
Lưu ý
• Hai biến phải có phân bố chuẩn nhị phân.
• Phương sai của hai biến phải tương đồng
• Giá trị tuyệt đối của r cho biết mối tương quan nhưng không
cho biết mối quan hệ nhân quả. 5-8
Phân tích tương quan
Phân tích bảng chéo – Crosstabs
Mục đích: Kiểm định mối quan hệ giữa 2 biến định danh dùng
kiểm định Chi – bình phương.
Dữ liệu: Biến thứ tự, định danh với số trường hợp tương đối ít.
Yêu cầu:
- Không có dữ liệu có kỳ vọng < 1.
- Không quá 1/5 dữ liệu có kỳ vọng <5
Hạn chế: Chỉ cho biết có mối quan hệ hay không, không biết
mức độ của mối quan hệ.
5-9
Phân tích tương quan
1. Vào menu Analyze Descriptive Statistics Crosstab…,
5-10
Phân tích tương quan
5-12
Phân tích tương quan
4. Chọn các kiểm định cần thiết. Trong trường hợp này ta
dùng kiểm định Chi – bình phương (Chi-square).
- Các kiểm định ở ô Norminal dùng để kiểm định mối liên hệ
giữa các biến định danh.
- Các kiểm định ở ô Ordinal dùng để kiểm định mối liên hệ
giữa các biến thứ tự.
5. Nhấp vào Continue để trở lại hộp thoại Crosstabs Click
vào ô Cells, hộp thoại sau xuất hiện:
5-13
Phân tích tương quan
• Ở ô Counts chọn
Observed (thể hiện tần số
quan sát). Trong trường
hợp muốn thể hiện tần số
mong đợi chọn Expected.
• Chọn cách thể hiện phần
trăm theo dòng hay theo
cột ở ô Percentages.
• Click Continue để trở lại
hộp thoại Crosstabs Ok
để thực hiện lệnh.
5-14
Phân tích tương quan
Đọc kết quả kiểm định
Giả thuyết.
H0: không có mối quan hệ giữa các biến.
H1: có mối quan hệ giữa các biến.
Để kết luận, cần sử dụng kiểm định phù hợp.
Nếu sử dụng p-value (SPSS: p-value là sig.)
p-value (sig.) ≤ α (mức ý nghĩa) bác bỏ H0.
Có mối quan hệ có ý nghĩa giữa các biến.
p-value (sig.) > α (mức ý nghĩa) Không bác H0.
Không có mối quan hệ giữa các biến kiểm định.
5-15
Phân tích tương quan
Ví dụ: Kiểm định mối quan hệ giữa Giới tính vs. Văn bằng cao
nhất của cán bộ giảng dạy tại một trường nghề của quận Phú
Nhuận, TP, HCM trong năm 2015.
Lời giải
5-16
Phân tích tương quan
5-17
Phân tích tương quan
Cách đọc
• Phần trăm Giới tính thì cộng theo hàng
• Phần trăm theo Văn bằng cao nhất thì cộng theo cột. 5-18
Phân tích tương quan
Hệ số tương quan Spearman: Tương quan giữa hai biến thứ tự
(ordinary).
Xử lý bằng phần mềm SPSS: Analyze Correlate Bivariate
Speaman.
5-19
Phân tích tương quan
5-20
Kiểm định trung bình 2 tổng thể
1. Vào menu Analyze Compare Means Independent-
samples T-test
5-21
Kiểm định trung bình
2. Chọn biến định lượng cần kiểm định trị trung bình đưa vào
khung Test Variable(s). Chọn biến định tính chia số quan sát
thành 2 nhóm mẫu để so sánh giữa 2 nhóm này với nhau đưa
vào khung Grouping Variable.
3. Chọn Define Groups… để nhập mã số của 2 nhóm. Click
Continue để trở lại hộp thoại chính Click Ok để thực hiện
lệnh
5-22
Kiểm định trung bình
5-23
Kiểm định trung bình
- Nếu giá trị Sig. trong kiểm định Levene (kiểm định F) < 0.05 thì
phương sai của 2 tổng thể khác nhau, ta sử dụng kết quả kiểm
định t ở dòng Equal variances not assumed.
- Nếu Sig. ≥ 0.05 thì phương sai của 2 tổng thể không khác nhau,
ta sử dụng kết quả kiểm định t ở dòng Equal variances assumed.
Ở hình trên Sig. của kiểm định F = 0.295 > 0.05 không bác H0,
không có sự khác nhau về phương sai của 2 tổng thể sử dụng
kết quả ở dòng Equal variances assumed. 5-24
Kiểm định trung bình
5-25
Ước lượng hệ số
Mục đích
• Ước lượng giá trị của biến phụ thuộc dựa vào biến độc lập
• Giải thích ảnh hưởng của biến độc lập đến biến phụ thuộc.
Yi β0 β1x i ε i
Trong đó: 0 và 1 là hệ số của tổng thể còn
là sai số ngẫu nhiên.
5-26
Ước lượng hệ số
Yi β0 β1Xi ε i
Tuyến tính Sai số
5-27
Ước lượng hệ số
Y Yi β0 β1Xi ε i
Điểm quan sát
Y với Xi
εi Độ dốc = β1
Trị ước lượng Sai số ngẫu
ŷ cho Xi nhiên cho trị Xi
Hệ số = β0
Xi X
5-28
Ước tính hệ số
Ước lượng
(hay dự báo) Ước lượng tung Ước lượng
trị y cho điểm độ gốc hệ số góc
quan sát i
Trị x cho điểm
Phương pháp bình phương cực tiểu dẫn đến hai phương trình
n n
I : yi nb 0 b1 xi
i 1 i 1
n n n
II : xi yi b0 xi b1 xi
2
i 1 i 1 i 1
Hệ số góc b1: Trị ước tính thể hiện thay đổi của y khi thay
đổi x 1 đơn vị.
XY X Y
b1 n
X
2
x n
2
E[ε i ] 0 và E[ε i ] σ 2 (i 1, , n)
2
E[ε i ε j ] 0 i j
5-32
Ước lượng hệ số
Ví dụ: Một nhà môi giới nhà đất muốn xác định mức độ liên hệ
giữa giá bán với diện tích ngôi nhà (m2). Mẫu ngẫu nhiên của
10 nhà được chọn.
Giá nhà 1.000$ Diện tích
(Y) (X) Biến độc lập (Y)
245 1400 = Giá nhà (1000$)
312 1600 Biến phụ thuộc (X)
279 1700 = Diện tích (m2)
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
5-33
Ước lượng hệ số
450
Giá nhà (1.000$)
400
350
300
250
200
150
100
50
0
0 1000 2000 3000
Diện tích (m2)
5-34
Ước lượng hệ số
No Y X XY X2
1 245 1400 343000 1960000
2 312 1600 499200 2560000
3 279 1700 474300 2890000 x = ∑x/10 = 17150/10
4 308 1875 577500 3515625 = 1715
5 199 1100 218900 1210000
6 219 1550 339450 2402500
y = ∑y/10 = 2865/10
7 405 2350 951750 5522500
8 324 2450 793800 6002500
= 286.5
9 319 1425 454575 2030625
10 255 1700 433500 2890000
Tổng 2865 17150 5085975 30983750
5-36
Ước lượng bằng Excel
Regression Statistics
Multiple R 0.76211 Mô hình hồi qui
R Square 0.58082
Adjusted R Square 0.52842 Giá nhà 98.24833 0.10977Die n tích(m 2 )
Standard Error 41.33032
Observations 10
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
5-37
Ước lượng bằng Excel
Hệ số góc
= 0.10977
Tung độ gốc
= 98.248
Hệ số b1
Giá nhà = 98.248333 + 0.10977 . Diện tích
b1 biểu thị mức độ thay đổi của trị trung bình Y khi thay đổi X
một đơn vị
b1 = 0.10977 chỉ ra rằng giá nhà trung bình sẽ tăng
0.10977(1000$) = 109.77 $, khi tăng mỗi m2 diện tích nhà.
5-39
Đánh giá mô hình
Tổng sai số
5-41
Đánh giá mô hình
Y
yi
2 y
SSE = (yi - yi )
_
SST = (yi - y)2
y _2
_ SSR = (yi - y) _
y y
xi X
5-42
Đánh giá mô hình
SSR
R
2
SST
X
R2 =1 Lưu ý: 0 R 2 1
Y
Tác động của trị R2
R2 = 1: Tương quan hoàn hảo
giữa X và Y. 100% sai lệch y được
X giải thích bằng sai lệch x.
R2 =1
5-44
Đánh giá mô hình
X
5-45
Đánh giá mô hình
Hệ số xác định R2
Tác động của trị R2
R2 = 0
Y
Không có mối liên hệ giữa biến
x và y. Biến y không phụ thuộc
biến x. (Sai số y không được
biểu diễn bằng sai số x)
X
R2 = 0
5-46
Đánh giá mô hình
Sử dụng Excel
SSR 18934.93
Regression Statistics
R 2
0.581
Multiple R 0.76211 SST 32600.50
R Square 0.58082
Adjusted R Square 0.52842 58.08% của sai lệch giá nhà được
Standard Error 41.33032 giải thích bằng sai lệch diện tích
Observations 10
nhà (m2)
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
5-47
Đánh giá mô hình
Phương sai (ước lượng)
n
i
e 2
SSE
σˆ 2 s2e i1
n2 n2
Chia cho n – 2 thay vì n – 1 bởi vì mô hình hồi qui
tuyến tính dùng 2 tham số ước lượng, b0 và b1.
Độ lệch chuẩn s e s 2e
n-2 8
Độ lệch chuẩn
Se 1708.2 41.00 5-48
Đánh giá mô hình
Sử dụng Excel Độ lệch chuẩn (ước lượng)
Regression Statistics
Multiple R 0.76211 s e 41.33032
R Square 0.58082
Adjusted R Square 0.52842
Standard Error 41.33032
Observations 10
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
5-49
Đánh giá mô hình
So sánh độ lệch chuẩn Se
se chỉ ra sai lệch của đường hồi qui ŷ so với trị quan sát yi
Y Y
X X
se nhỏ se lớn
5-50
Đánh giá mô hình
Giả sử y phân phối chuẩn nên các tham số ước lượng b0, b1
cũng phân phối chuẩn.
Trung bình E(b1) = b1
Phương sai của hệ số hồi qui b1
2
s s e2
s 2b1 e
(x i x) 2
x
2
xi
2 i
n
Trong đó
sb1 = Phương sai độ dốc
SSE = Độ lệch chuẩn độ dốc
se
n2 5-51
Đánh giá mô hình
Phương sai hệ số hồi qui b1
sb
2 s 2
e
1708.22
0.00113
1
x
2
30.983.750
294.122.500
xi
2 i
n 10
s b 0.00113 0.033
1
Y Y
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
5-53
Kiểm định mô hình
Kiểm định t cho độ dốc
• Có tuyến tính giữa X và Y?
1. Giả thuyết
H0: β1 = 0 (Không liên hệ)
H1: β1 0 (Có liên hệ tuyến tính)
b1 β1
t
sb1
Trong đó
b1 = Hệ số hồi qui (độ dốc)
β1 = 0
sb1 = Sai lệch chuẩn của độ dốc
df. (bậc tự do) = n - 2
4. Kết luận
5-55
Kiểm định mô hình
Kiểm định hệ số độ dốc b1
5-56
Kiểm định mô hình Kiểm định t
P-value = 0.01039
2. Trị thống kê
4. Kết luận: P-value < α nên bác H0
0.10977 0
t 3.32938 Đủ bằng chứng để kết luận diện tích
0.03297 có ảnh hưởng đến giá nhà.
df. = 10-2 = 8 5-58
Kiểm định tự tương quan
5-59
Kiểm định tự tương quan
ei
ei
Sai số
mang tính
(a)
t (b)
t
chu kỳ
ei ei
(c) t (d)
t
ei
Không có tự
tương quan
t
(e) 5-60
Kiểm định tự tương quan (Durbin-Watson)
Dùng kiểm định Durbin-Watson
Giả thuyết H0: Không tương quan
(i.e., Corr(εt,εt-1) = 0)
H1: Có tự tương quan
i 1
i d > 2: tự tương quan âm.
Không có tự Không
Có tự tương Không quyết tương quan quyết định Có tự tương
quan dương định được bậc nhất được quan âm
5-61
0 dL dU 2 4-dU 4-dL 4
Kiểm định tự tương quan (dương)
1. Giả thuyết
H0: Không tự tương quan dương
H1: Có tự tương quan dương
2. Trị thống kê d (Durbin-Watson)
Tính bằng công thức (*)
Khi n đủ lớn d <2
3. Trị tới hạn dL và dU (tra bảng Durbin-Watson)
(dựa vào kích thước mẫu n, mức ý nghĩa và số biến độc lập: k)
0 dL dU 2
4. Kết luận: bác H0 nếu d < dL 5-62
Kiểm định tự tương quan (âm)
Tự tương quan âm tồn tại nếu tồn tại sai số tương quan âm.
Tự tương quan âm
bác H0 nếu d > 4 – dL
ρ0 ρ0
Không bác H0
Bác H0 Không kết Không kết bác H0
luận luận
0 dL dU 2 4 – dU 4 – dL 4
5-63
Kiểm định tự tương quan
Ví dụ: Cho chuỗi số liệu về mối liên hệ giữa hai chỉ tiêu kinh tế
mức độ tiêu dùng (Y) và thu nhập (X) trong khoảng thời gian
20 năm.
Thứ tự Y X Thứ tự Y X
1 52.9 30.3 11 98.2 53.5
2 53.8 30.9 12 101.7 52.8
3 54.9 30.9 13 102.7 55.9
4 58.2 33.4 14 108.3 63.0
5 60.0 35.1 15 124.7 73.0
6 63.4 37.3 16 157.9 84.7
7 68.2 41.0 17 158.2 86.6
8 78.0 44.9 18 170.2 98.8
9 84.7 46.5 19 180.0 110.8
10 90.6 50.3 20 198.0 124.7
5-64
Kiểm định tự tương quan
STT Y ⌃
Y ei ei2 ei-1 (ei-ei-1)2
1 52.9 56.04335 -3.14335 9.880646
2 53.8 57.02233 -3.22233 10.38338 -3.14335 0.006237
3 54.9 57.02233 -2.12233 4.504266 -3.22233 1.21
4 58.2 61.10139 -2.90139 8.418081 -2.12233 0.606946
5 60 63.87516 -3.87516 15.01685 -2.90139 0.94822
6 63.4 67.46474 -4.06474 16.52209 -3.87516 0.03594
7 68.2 73.50176 -5.30176 28.10863 -4.06474 1.530218
8 78 79.8651 -1.8651 3.478607 -5.30176 11.8106
9 84.7 82.47571 2.224294 4.947486 -1.8651 16.72317
10 90.6 88.67589 1.924112 3.702208 2.224294 0.090109
11 98.2 93.89709 4.302906 18.515 1.924112 5.65866
12 101.7 92.75496 8.945045 80.01383 4.302906 21.54945
13 102.7 97.813 4.887001 23.88278 8.945045 16.46772
14 108.3 109.3975 -1.09755 1.204615 4.887001 35.81485
15 124.7 125.7138 -1.01382 1.027829 -1.09755 0.007011
16 157.9 144.8039 13.09615 171.509 -1.01382 199.0911
17 158.2 147.9039 10.29605 106.0087 13.09615 7.84051
18 170.2 167.8098 2.390206 5.713087 10.29605 62.50244
19 180 187.3893 -7.38932 54.602 2.390206 95.63907
20 198 210.0689 -12.0689 145.6591 -7.38932 21.89879
713.0983 5-65
499.4311
Kiểm định tự tương quan
Tính d với n = 20
Trị Durbin-Watson
Tổng của biến động
499.3411
sai số
i i1
(e e ) 2
499.3411
d i2
n
0.7
ei
2 713.0983
i 1
5-66
Kiểm định tự tương quan (dương)
5-68
Kiểm định tự tương quan
Xử lý tự tương quan
• Giả muốn ước tính các hệ số của mô hình hồi qui
y t β 0 β 1x 1t β 2x 2t β kx kt ε t
trong đó sai số εt thì tự tương quan
Hai bước
(i) Ước tính các sai số bằng phương pháp bình phương bé nhất,
kiểm định Durbin-Watson rồi ước tính tham số tự tương quan
d
1
2
5-69
Kiểm định tự tương quan
(ii) Ước tính tham số hồi qui cho mô hình thứ nhì bằng phương
pháp sai số bình phương bé nhất
• Biến phụ thuộc (yt – yt-1)
• Biến độc lập (x1t – x1,t-1) , (x2t – x2,t-1) , . . ., (xk1t – xk,t-1)
• Các tham số 1, 2, . . ., k được ước tính từ mô hình thứ nhì
• Tham số 0 được xác định bằng cách chia tham số ban đầu cho
(1 - )
• Khoảng ước lượng, kiểm định thống kê và các hệ số hồi qui
được xác định dựa trên mô hình thứ nhì. Nếu vẫn chưa hết tự
tương quan thì tiếp tục trượt.
5-70
Phương sai thay đổi (phần dư)
Các giả định hồi qui
• Phần dư ngẫu nhiên: Giá trị phần dư (sai lệch) ε phân phối chuẩn cho bất kỳ trị nào của X.
• Phương sai của phần dư không thay đổi
• Sai lệch của biến độc lập thì ngẫu nhiên và độc lập.
5-71
Phương sai thay đổi
ei y i yˆ i
Sai lệch tại điểm quan sát i (ei) là sự khác biệt giữa số liệu và
trị hồi qui.
Kiểm tra giả định hồi qui bằng cách kiểm tra sai lệch
Tuyến tính
Phương sai là hằng số
Phân phối chuẩn
Độc lập
Phân tích sai lệch (biểu đồ)
Vẽ sai lệch vs. trị x lên biểu đồ 5-72
Phương sai thay đổi
Sai lệch tuyến tính
Y Y
x x
Sai lệch
Sai lệch
x x
Sai lệch
X
Sai lệch
5-74
Phương sai thay đổi
Khi phương sai của sai lệch không là hằng số
• Bình phương khoảng cách không còn là cách hiệu quả để ước tính các hệ số
hồi qui.
• Không dùng được qui trình ước lượng (xác định khoảng tin cậy )và kiểm định
thống kê.
5-75
Phương sai thay đổi
Ví dụ: Tính sai lệch (Excel)
Sai lệch đầu ra
Dự báo Sai lệch ước
giá nhà lượng SSE
1 251.92316 -6.923162
2 273.87671 38.12329
3 284.85348 -5.853484
4 304.06284 3.937162
5 218.99284 -19.99284
6 268.38832 -49.38832
7 356.20251 48.79749
8 367.17929 -43.17929
9 254.6674 64.33264
10 284.85348 -29.85348
Không xuất hiện yếu tố ảnh hưởng đến các giả
định hồi qui 5-76
Phương sai thay đổi
5-77
Phương sai thay đổi
Trong đó 21, là trị tới hạn của phân phối Khi-bình phương
với bậc tự do 1, và mức ý nghĩa .
5-78
Phương sai thay đổi
Từ số liệu của ví dụ trên, xây dựng được hàm hồi qui.
ŷ = 29.68 + 0.1694x
Được số liệu ŷ, ei, và ei2
ŷ ei ei2
1 38.49466 -0.494658845 0.244687
2 42.39308 1.606915715 2.582178
3 46.12201 -1.122012967 1.258913
4 51.54591 -0.545909231 0.298017
5 55.44433 0.555665329 0.308764
Tương quan hồi qui (mới)
ei2 a 0 a1ŷi 3.498 0.054ŷ
• Hệ số xác định R2 của hàm hồi qui mới: 0.13611
• Do nR2 = 0.6805 < 21;0,05= 3.8415 Không bác H0 tức
5-79
phương sai của sai lệch không đổi.
Durbin-Watson ( = 0.05)
5-80
Durbin-Watson ( = 0.025)
5-81
Durbin-Watson ( = 0.01)
5-82
Tài liệu tham khảo
[1] Đinh Bá Hùng Anh, “Nghiên cứu khoa học trong Kinh tế - Xã
hội & Hướng dẫn viết luận văn”, NXB Kinh Tế 2017.
[2] TS. Nguyễn Đình Thọ, Nguyễn Thị Mai Trang, “Nghiên cứu
marketing”, NXB. Đại học Quốc gia TP. HCM 2007.