Professional Documents
Culture Documents
S Hà Văn Hiệp
Hồi quy với biến độc lập là biến định tính
Hồi quy với biến phụ thuộc là biến định tính
Phân tích ANOVA
2
Biến độc lập định tính như giới tính (nam, nữ),
phương thức thanh toán (tiền mặt, séc, thẻ tín
dụng), v.v…
Ví dụ: biến x2 là giới tính trong đó x2 = 0 chỉ nam và x2
= 1 chỉ nữ.
Trong trường hợp này, x2 được gọi là một biến giả
hay biến chỉ báo.
Nếu một biến định tính có k mức độ thì ta cần có k -
1 biến giả, mỗi biến giả được mã hoá là 0 hoặc 1.
Ví dụ như một biến có các mức độ A, B, và C sẽ
được biểu thị bằng các giá trị x1 và x2 một cách
tương ứng là (0, 0), (1, 0), và (0,1).
3
Exp. Score Degr. Salary Exp. Score Degr. Salary
4 78 No 24 9 88 Yes 38
7 100 Yes 43 2 73 No 26,6
1 86 No 23,7 10 75 Yes 36,2
5 82 Yes 34,3 5 81 No 31,6
8 86 Yes 35,8 6 74 No 29
10 84 Yes 38 8 87 Yes 34
0 75 No 22,2 4 79 No 30,1
1 80 No 23,1 6 94 Yes 33,9
6 83 No 30 3 70 No 28,2
6 91 Yes 33 3 89 No 30
4
Phương trình hồi quy bội
E(y ) = β0 + β1x1 + β2x2 + β3x3
Phương trình hồi quy ước lượng
y^ = b0 + b1x1 + b2x2 + b3x3
trong đó
y = tiền lương hàng năm (000$)
x1 = số năm kinh nghiệm
x2 = số điểm đạt được dựa trên trắc nghiệm
năng khiếu lập trình viên
x3 = 0 nếu cá nhân không có bằng đại học
1 nếu cá nhân có bằng đại học
Lưu ý: x3 được xem như là một biến giả.
5
ƯỚC LƯỢNG VÀ DỰ BÁO
Ước lượng khoảng tin cậy cho E(yp) với x1p và x2p đã cho
yˆ p ± tα 2;n − 2 s yˆ p
Ước lượng khoảng dự báo cho yp với x1p và x2p đã cho
yˆ p ± tα 2;n − 2 sind
trong đó hệ số tin cậy là 1 - α và
tα/2;n-2 dựa trên phân phối t với n - 2 df
6
Khoảng tin cậy cho giá trị trung bình của y,
với x1p và x2p đã cho
Maët hoài quy boäi cuûa maãu seõ khaùc nhau ñoái vôùi caùc
maãu khaùc nhau vaø coù sai soá chuaån s yˆ p vôùi moät coâng
thöùc khaù phöùc taïp.
1 ( x1 p − x1 ) 2 ( x2 p − x2 ) 2 2( x1 p − x1 )( x2 p − x2 )( SCPx1x2 )
s yˆ p = sε + + −
n SSX 1 (1 − r12 ) SSX 2 (1 − r12 )
2 2
SSX 1 ( SSX 2 )(1 − r122 )
Σx1Σx2
trong ñoù : SSX 1 = Σ( xi − x1 ) ; SSX 2 = Σ( xi − x2 ) ; SCPx1x2
2 2
= Σx1 x2 −
n
Ñeå tìm ñoä leäch chuaån cuûa maãu sind cho khoaûng döï
baùo, haõy theâm vaøo moät soá haïng coù giaù trò laø 1 ôû döôùi
caên baäc hai.
7
Biến phụ thuộc Y chỉ có 2 trạng thái (0,1) - Phân phối
nhị thức (Binary)
VD: 1- Thu nhập hộ tăng sau thu hồi đất và 0 - Thu
nhập hộ không tăng sau thu hồi đất.
Nếu gọi P là xác suất để một biến cố xảy ra (ví dụ:
Thu nhập hộ tăng sau thu hồi đất), thì 1-P là xác
suất để biến cố không xảy ra (ví dụ: Thu nhập hộ
không tăng sau thu hồi đất).
Phương trình hồi quy Logistic phát biểu:
8
Phương trình hồi quy Binary Logistics
𝑷𝑷 𝒀𝒀=𝟏𝟏
𝑳𝑳𝑳𝑳 = 𝑩𝑩𝟎𝟎 + 𝑩𝑩𝟏𝟏 𝒙𝒙𝟏𝟏 + 𝑩𝑩𝟐𝟐 𝒙𝒙𝟐𝟐 + . . + 𝑩𝑩𝒊𝒊 𝒙𝒙𝒊𝒊
𝑷𝑷 𝒀𝒀=𝟎𝟎
Trong đó:
P(Y = 1) = P0 : Xác suất xảy ra sự kiện.
P(Y = 0)= 1- P0 : Xác xuất không xảy ra sự kiện..
Xi: Các biến độc lập; Ln: Log của cơ số e (e = 2.714)
Hệ số Odds: Odds = P0 / (1 – P0)
𝑳𝑳𝑳𝑳(𝑶𝑶𝑶𝑶𝑶𝑶𝑶𝑶) = 𝑩𝑩𝟎𝟎 + 𝑩𝑩𝟏𝟏 𝒙𝒙𝟏𝟏 + 𝑩𝑩𝟐𝟐 𝒙𝒙𝟐𝟐 + . . + 𝑩𝑩𝒊𝒊 𝒙𝒙𝒊𝒊
dạng hàm logit
9
Phương pháp ước lượng hợp ý tối đa (Maximum
Likelihood) để ước lượng Bi
𝑌𝑌 𝑃𝑃
𝐸𝐸 = = 𝑒𝑒 𝐵𝐵0+ 𝐵𝐵1 𝑥𝑥1+ 𝐵𝐵2 𝑥𝑥2+⋯+𝐵𝐵𝑖𝑖 𝑥𝑥𝑖𝑖
𝑋𝑋𝑖𝑖 (1−𝑃𝑃)
10
Phân tích phương sai (ANOVA) có thể được sử
dụng để kiểm định sự bằng nhau của ba hay
nhiều trung bình tổng thể.
Các giả thuyết sau.
H0: µ1 = µ2 = µ3 = . . . = µk
Ha: Không phải tất cả các trung bình tổng
thể đều bằng nhau
Xem xét ảnh hưởng của một yếu tố đến một
yếu tố khác
Giả định:
Tổng thể phân phối chuẩn
Phương sai bằng nhau
Các sai số là độc lập
Phát biểu giả thuyết
H0: µ1= µ2=µ3=. . . = µk
Ha: Không phải tất cả các trung bình tổng thể
đều bằng nhau
Thống kê kiểm định
F = MSG/MSW
Bác bỏ H0
Khoâng baùc boû H0 α
MSG/MSW
Fα
Giá trị tới hạn
Ước lượng của σ2 giữa các nhóm được gọi là
trung bình các bình phương do xử lý (MSG).
∑𝑘𝑘 𝑛𝑛 (𝑥𝑥
𝑖𝑖=1 𝑗𝑗 𝑗𝑗 ̅ −𝑥𝑥) 2
𝑀𝑀𝑀𝑀𝑀𝑀 = 𝑘𝑘 − 1
∑𝑘𝑘 (𝑛𝑛
𝑗𝑗=1 𝑗𝑗 −1)𝑠𝑠 𝑗𝑗
2
𝑀𝑀𝑀𝑀𝑀𝑀 = 𝑛𝑛−𝑘𝑘
Tính giá trị trung bình nhóm 𝑥𝑥̅𝑖𝑖 (xét theo cột)
Tính giá trị trung bình khối 𝑥𝑥̅𝑗𝑗 (xét theo hàng)
Tính giá trị tất cả quan sát 𝑥𝑥̅ (theo hàng và cột)
Bước 1 Tính Tổng các chênh lệch bình phương toàn bộ
𝑚𝑚
𝑘𝑘
𝑆𝑆𝑆𝑆𝑆𝑆 = � � (𝑥𝑥𝑖𝑖𝑖𝑖 − 𝑥𝑥̅ )2
𝑗𝑗=1
𝑖𝑖=1
Bước 2 Tính Tổng các chênh lệch bình phương do xử lý
𝑘𝑘
SSG MSG
Xử lý SSTR k-1 MSG = k−1 MSE
SSBL MSBL
Khối SSBL m–1 MSBL = m−1 MSE
𝑆𝑆𝑆𝑆𝑆𝑆
Sai số SSE (k - 1)(m - 1) 𝑀𝑀𝑀𝑀𝑀𝑀 =
(𝑘𝑘−1)(𝑚𝑚−1)
Tính giá trị trung bình nhóm 𝑥𝑥̅𝑖𝑖 (xét theo cột)
Tính giá trị trung bình khối 𝑥𝑥̅𝑗𝑗 (xét theo hàng)
Tính giá trị trung bình khối 𝑥𝑥̅𝑖𝑖𝑗𝑗 (từng ô)
Tính giá trị tất cả quan sát 𝑥𝑥̅ (theo cả hàng và cột)
Bước 1 Tính Tổng các chênh lệch bình phương toàn
bộ
𝑘𝑘 𝑚𝑚 𝑠𝑠
SS𝐴𝐴 MSA
Yeáu toá A SSA k–1 MSA = k−1
MSE
SSB MSB
Yeáu toá B SSB m–1 MSB = m−1
MSE
𝑆𝑆𝑆𝑆𝐴𝐴𝐴𝐴 MSAB
Töông taùc SSAB (k – 1)(m – 1) 𝑀𝑀𝑀𝑀𝐴𝐴𝐴𝐴 =
(𝑘𝑘−1)(𝑚𝑚−1) MSE
𝑆𝑆𝑆𝑆𝑆𝑆
Sai soá SSE km(s - 1) 𝑀𝑀𝑀𝑀𝑀𝑀 =
𝑘𝑘𝑚𝑚(𝑠𝑠−1)
Ngành A B C
I 5,50 5,10 5,90
I 5,80 5,00 6,20
I 6,10 5,50 6,10
II 6,40 5,80 6,50
II 6,50 6,00 6,00
II 6,00 5,60 6,10
Bảng ANOVA