Professional Documents
Culture Documents
HÀ NỘI, 9/2021
NỘI DUNG
• Phân tích tương quan: là phép phân tích được sử dụng để đo lường mối
quan hệ giữa các biến định lượng trong nghiên cứu
• Có 3 hệ số tương quan được sử dụng thông dụng nhất: hệ số tương quan
Pearson; hệ số tương quan Spearman; hệ số tương quan Kendall
1. PHÂN TÍCH TƯƠNG QUAN
Hệ số tương quan Pearson : là chỉ số thống kê dùng để đo lường mối liên hệ tuyến tính
giữa hai biến X và Y. Kí hiệu: 𝜌𝑋𝑌
𝑐𝑜𝑣(𝑋, 𝑌)
𝜌𝑋𝑌 =
𝜎𝑋 . 𝜎𝑌
Trong đó,
𝑐𝑜𝑣(𝑋, 𝑌): hiệp phương sai của X và Y.
𝜎𝑋 , 𝜎𝑌 : độ lệch chuẩn của X, Y.
1. PHÂN TÍCH TƯƠNG QUAN
Tính chất:
• −1 ≤ 𝜌𝑋𝑌 ≤ 1
➢ 𝜌𝑋𝑌 = 0 thì X, Y không có tương quan
➢ 𝜌𝑋𝑌 < 0: X , Y có mối liên hệ nghịch chiều ( X tăng thì Y giảm, và ngược lại)
➢ 𝜌𝑋𝑌 > 0: X , Y có mối liên hệ thuận chiều ( X tăng thì Y tăng, và ngược lại)
➢ 𝜌𝑋𝑌 : càng lớn thì mối liên hệ tuyến tính của X và Y càng mạnh
• 𝜌𝑋𝑌 = 𝜌𝑌𝑋
1. PHÂN TÍCH TƯƠNG QUAN
Hệ số tương quan mẫu, kí hiệu: 𝑟𝑋𝑌 , được tính dựa trên mẫu n quan sát
𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 ,…, 𝑥𝑛 , 𝑦𝑛 và dùng làm ước lượng cho 𝜌𝑋𝑌
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ . 𝑦𝑖 − 𝑦ത
𝑟𝑋𝑌 =
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2 . σ𝑛𝑖=1 𝑦𝑖 − 𝑦ത 2
σ𝑛
𝑖=1 𝑥𝑖 .𝑦𝑖 −𝑛𝑥ҧ 𝑦
ത
=
σ𝑛 2 ത 2 . σ𝑛
𝑖=1 𝑥𝑖 −𝑛𝑦
2 ത2
𝑖=1 𝑦𝑖 −𝑛𝑦
1. PHÂN TÍCH TƯƠNG QUAN
Trong thực hành thống kê, chúng ta dựa vào độ lớn của giá trị 𝑟𝑋𝑌 để đánh
giá mối tương quan giữa X và Y, cụ thể
𝑟𝑋𝑌 < 0.4: Ta nói X, Y có tương quan yếu
0.4 ≤ 𝑟𝑋𝑌 < 0.6: Ta nói X, Y có tương quan trung bình
0.6 ≤ 𝑟𝑋𝑌 < 0.8: Ta nói X, Y có tương quan mạnh
𝑟𝑋𝑌 ≥ 0.8: Ta nói X, Y có tương quan rất mạnh
1. PHÂN TÍCH TƯƠNG QUAN
1. PHÂN TÍCH TƯƠNG QUAN
Hệ số tương quan Spearman: Khi dữ liệu quan sát của (X, Y) không tuân theo phân phối chuẩn
hoặc có các giá trị quan sát bất thường (outlier) ta sử dụng hệ số tương quan Spearman thay cho hệ
số Pearson. Nếu mẫu dữ liệu quan 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 ,…, 𝑥𝑛 , 𝑦𝑛 là hoàn toàn khác nhau, thì
6 σ𝑛𝑖=1 𝑑𝑖2
𝜌=1−
𝑛(𝑛2 − 1)
Trong đó, 𝑑𝑖 là hiệu hai hạng của mỗi cặp quan sát 𝑥𝑖 , 𝑦𝑖 .
𝜌 > 0: X và Y có mối quan hệ thuận chiều
𝜌 < 0: X và Y có mối quan hệ nghịch chiều
𝜌 = 0: Y không có xu hướng tăng khi X tăng hay giảm (và ngược lại)
1. PHÂN TÍCH TƯƠNG QUAN
Hệ số tương quan Kendall: Được ước tính dựa trên việc tìm các cặp giá trị
𝑥𝑖 , 𝑦𝑖 của 𝑋, 𝑌 “song hành” với nhau. Một cặp giá trị 𝑥𝑖 , 𝑦𝑖 song hành
ở đây tức là hiệu (độ khác biệt) trên trục hoành có cùng dấu hiệu (dương hay
âm) với hiệu trên trục tung.
𝑠ố 𝑐ặ𝑝 𝑠𝑜𝑛𝑔 ℎà𝑛ℎ −𝑠ố 𝑐ặ𝑝 𝑘ℎô𝑛𝑔 𝑠𝑜𝑛𝑔 ℎà𝑛ℎ
𝜏= 𝑛(𝑛−1) .
2
Nếu hai biến X và Y không có tương quan với nhau thì số cặp song hành sẽ
bằng số cặp không song hành.
2. MÔ HÌNH HỒI QUY BỘI (MULTIPLE REGRESSION MODEL)
Đặt vấn đề
Bài toán: Đánh giá tác động của các hình thức quảng cáo (youtube,
facebook, newspaper) lên doanh thu (sales) của cửa hàng dựa trên dữ liệu
quan sát của 200 cửa hàng.
Giải quyết: Xây dựng được mô hình phản ánh mối liên hệ giữa biến doanh
thu (sale) với các biến (youtube, facebook, newspaper).
2. MÔ HÌNH HỒI QUY BỘI (MULTIPLE REGRESSION MODEL)
Mô hình hồi quy tổng thể
𝑌 = 𝛽1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 +. . . +𝛽𝑘 𝑋𝑘 + 𝑢 (2.1)
Trong đó,
Y là biến phụ thuộc.
𝑋2 , 𝑋3 , …, 𝑋𝑘 : các biến độc lập.
𝛽1 : hệ số chặn.
𝛽𝑗 (𝑗 = 2, … , 𝑘): hệ số góc (hệ số hồi quy riêng) của biến độc lập 𝑋𝑗 .
𝑢: sai số ngẫu nhiên, 𝑢~𝑁(0, 𝜎 2 ).
E(Y|𝑋2 , 𝑋3 , … , 𝑋𝑘 ) = 𝛽1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 +. . . +𝛽𝑘 𝑋𝑘 : hàm hồi quy tổng thể (PRF). (2.2)
2. MÔ HÌNH HỒI QUY BỘI (MULTIPLE REGRESSION MODEL)
Kí hiệu: 𝛽መ1 , 𝛽መ2 , … , 𝛽መ𝑘 là các ước lượng của 𝛽1 , 𝛽2 , … , 𝛽𝑘 dựa trên mẫu quan sát
Hàm hồi qui mẫu (SRF)
𝑌 = 𝛽መ1 + 𝛽መ2 𝑋2 + ⋯ + 𝛽መ𝑘 𝑋𝑘 (2.3)
Đặt
Ta có:
𝑌 = 𝑋𝛽መ (2.6)
𝑌 = 𝑌 + 𝑒 = 𝑋𝛽መ + 𝑒 (2.7)
2. MÔ HÌNH HỒI QUY BỘI (MULTIPLE REGRESSION MODEL)
Giả thiết 1. Mô hình có dạng tuyến tính, cụ thể là tuyến tính theo các
tham số của mô hình.
Giả thiết 2. Các biến độc lập 𝑋𝑗 , j = 2, 𝑘 phi ngẫu nhiên, giá trị của
chúng là xác định, 𝑉(𝑋𝑗 ) ≠ 0.
Giả thiết 3. Các sai số ngẫu nhiên 𝑢𝑖 ~𝑁 0, 𝜎 2 , ∀𝑖
2. MÔ HÌNH HỒI QUY BỘI (MULTIPLE REGRESSION MODEL)
Giả thiết 4. Giữa các biến độc lập 𝑋𝑖 , 𝑖 = 2, 𝑘 không có hiện tượng
đa cộng tuyến, tức là không có biến 𝑋𝑖 nào được biểu thị tuyến
tính qua các biến còn lại.
Giả thuyết 5. Các sai số ngẫu nhiên không tương quan với nhau
𝑐𝑜𝑣 𝑢𝑖 , 𝑢𝑗 = 0 (∀𝑖 ≠ 𝑗)
2. MÔ HÌNH HỒI QUY BỘI (MULTIPLE REGRESSION MODEL)
PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT (OLS)
Mục đích: Tìm các ước lượng để mô hình ước lượng “gần nhất” với dữ liệu quan sát.
Các hệ số hồi quy mẫu 𝛽መ𝑗 , j = 1, 𝑘 được xác định sao cho tổng bình phương các phần dư đạt giá trị nhỏ nhất,
tức là:
𝑛
𝑒𝑖2 → 𝑚𝑖𝑛
𝑖=1
Ở đó
2
σ𝑛𝑖=1 𝑒𝑖2 = σ𝑛𝑖=1 𝑌𝑖 − 𝑌𝑖 (2.8)
2
= σ𝑛𝑖=1 𝑌𝑖 − 𝛽መ1 − 𝛽መ2 𝑋2𝑖 − 𝛽መ3 𝑋3𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘𝑖
= 𝑒𝑇𝑒
PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT (OLS)
1. Đường hồi quy mẫu (SRF) đi qua điểm trung bình mẫu, tức là: (𝑌, 𝑋2 , . . . 𝑋𝑘 )
2. Giá trị trung bình của các giá trị 𝑌𝑖 được xác định theo hàm hồi quy mẫu
bằng giá trị trung bình của biến phụ thuộc, tức là:
𝑛
1
𝑌 = 𝑌𝑖 = 𝑌
𝑛
𝑖=1
3. Tổng các phần dư bằng 0: σ𝑛𝑖=1 𝑒𝑖 = 0.
PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT (OLS)
Định lý Gauss – Markov: Với các giả thuyết của mô hình hồi quy tuyến
tính bội thì các ước lượng bình phương nhỏ nhất 𝛽መ𝑗 là các ước lượng tuyến
tính, không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến
tính, không chệch của 𝛽𝑗 (𝑗 = 1, 𝑘) .
Ta nói rằng các ước lượng 𝛽መ𝑗 , 𝑗 = 1, 𝑘 có tính chất BLUE (The Best Linear
Unbiased Estimator).
PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT (OLS)
Tính chất BLUE của các ước lượng OLS
1. Tuyến tính: Các ước lượng 𝛽መ𝑗 , j = 1, 𝑘 là tổ hợp tuyến tính của
các 𝑌1 , 𝑌2 , … , 𝑌𝑛 .
2. Không chệch: 𝐸 𝛽መ𝑗 = 𝛽𝑗 , j = 1, 𝑘.
3. Phương sai nhỏ nhất: Giả sử 𝛽෩𝑗 là một ước lượng tuyến tính của 𝛽𝑗
thì
𝑉 𝛽መ𝑗 ≤ 𝑉 𝛽෩𝑗 .
PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT (OLS)
Các ước lượng 𝛽መ𝑗 , j = 1, 𝑘 là các ước lượng vững (consistency estimator)
của 𝛽𝑗 , j = 1, 𝑘. Tức là
lim 𝑃 𝛽መ𝑗 − 𝛽𝑗 > 𝜀 = 0
𝑛→∞
PHƯƠNG PHÁP HỢP LÝ CỰC ĐẠI (MLE)
Mục đích: Chọn các ước lượng sao cho xác suất xảy ra của dữ liệu là lớn nhất
Do 𝑢𝑖 ~𝑁 0, 𝜎 2
Nên với 𝑋2𝑖 , 𝑋3𝑖 , … , 𝑋𝑘𝑖 cho trước thì Yi ~𝑁(𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 +. . . +𝛽𝑘 𝑋𝑘𝑖 , 𝜎 2 ), ∀𝑖
Ta có:
1 − 𝑌𝑖 −𝛽1 −𝛽2 𝑋2𝑖 −𝛽3 𝑋3𝑖 −⋯−𝛽𝑘 𝑋𝑘𝑖 2
𝑓 𝑌𝑖 |𝑋2𝑖 , 𝑋3𝑖 , … , 𝑋𝑘𝑖 = 𝑒 2𝜎 2
𝜎 2𝜋
PHƯƠNG PHÁP HỢP LÝ CỰC ĐẠI (MLE)
Mục đích: Chọn các ước lượng sao cho xác suất xảy ra của dữ liệu là lớn nhất
Do đó,
𝑛
𝑛 2
1 2
lnℒ = − ln𝜎 −𝑛 ln( 2𝜋) − 2 𝑌𝑖 − 𝛽1 − 𝛽2 𝑋2𝑖 − 𝛽3 𝑋3𝑖 − ⋯ − 𝛽𝑘 𝑋𝑘𝑖
2 2𝜎
𝑖=1
Thay 𝛽 = (𝛽1 , 𝛽2 , … , 𝛽𝑘 ) bởi 𝛽መ = 𝛽መ1 , 𝛽መ2 , … , 𝛽መ𝑘 . Ta có ước lượng MLE của 𝜎 2
𝑛
1 2
𝜎 2
= . 𝑌𝑖 − 𝛽መ1 − 𝛽መ2 𝑋2𝑖 − 𝛽መ3 𝑋3𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘𝑖
𝑛
𝑖=1
Nhận xét:
𝑛
• 𝜎 2 là một ước lượng chệch của 𝜎 2 (E(𝜎 2 ) = 𝜎 2 ).
𝑛−𝑘
1 2 σ 𝑒𝑖2
• 𝜎ො 2 : = . σ𝑛𝑖=1 𝑌𝑖 − 𝛽መ1 − 𝛽መ2 𝑋2𝑖 − 𝛽መ3 𝑋3𝑖 − ⋯ − 𝛽መ𝑘 𝑋𝑘𝑖 = là ước lượng không chệch
𝑛−𝑘 𝑛−𝑘
của 𝜎2.
KHOẢNG ƯỚC LƯỢNG CỦA HỆ SỐ HỒI QUY
Do đó, V(𝛽መ𝑗 ) được ước lượng bằng cách thay 𝜎 2 bởi ước lượng không chệch 𝜎ො 2 .
(𝑛 −𝑘)𝜎ො 2 (𝑛 −𝑘)𝜎ො 2
2 , 2 .
𝜒𝛼Τ2 𝑛 − 𝑘 𝜒1−𝛼Τ2 𝑛 − 𝑘
KIỂM ĐỊNH CÁC HỆ SỐ HỒI QUY
𝐻0 : 𝛽𝑗 = 𝛽𝑗∗
൝
𝐻1 : 𝛽𝑗 ≠ 𝛽𝑗∗ (𝛽𝑗 < 𝛽𝑗∗ , 𝛽𝑗 > 𝛽𝑗∗ )
Tiêu chuẩn kiểm định
𝛽መ𝑗 − 𝛽𝑗∗
𝑡=
𝑠𝑒(𝛽መ𝑗 )
𝐻0 : 𝜎 2 = 𝜎02
൝
𝐻1 : 𝜎 2 ≠ 𝜎02 (𝜎 2 < 𝜎02 , 𝜎 2 > 𝜎02 )
Tiêu chuẩn kiểm định
(𝑛−𝑘)ෝ𝜎2
𝜒0 = .
𝜎02
𝑌𝑖 − 𝑌ത = 𝑌𝑖 − 𝑌𝑖 + 𝑌𝑖 − 𝑌ത
Lấy bình phương hai vế
2 2
𝑌𝑖 − 𝑌ത 2 = 𝑌𝑖 − 𝑌𝑖 + 𝑌𝑖 − 𝑌ത + 2 𝑌𝑖 − 𝑌𝑖 𝑌𝑖 − 𝑌ത
Lấy tổng i từ 1, 2, …, n. Ta có
𝑛 𝑛 𝑛 𝑛
2 2
𝑌𝑖 − 𝑌ത 2 = 𝑌𝑖 − 𝑌𝑖 + 𝑌𝑖 − 𝑌ത + 2 𝑌𝑖 − 𝑌𝑖 𝑌𝑖 − 𝑌ത
𝑖=1 𝑖=1 𝑖=1 𝑖=1
=0
ĐÁNH GIÁ SỰ PHÙ HỢP CỦA MÔ HÌNH
𝑛 𝑛 𝑛
2 2
𝑌𝑖 − 𝑌ത 2
= 𝑌𝑖 − 𝑌𝑖 + 𝑌𝑖 − 𝑌ത
𝑖=1 𝑖=1 𝑖=1
𝐓𝐒𝐒 = σ𝒏𝒊=𝟏 𝒀𝒊 − 𝒀
ഥ 𝟐 : Tổng bình phương toàn bộ (Total Sum of Squares)
𝑌𝑖 − 𝑌ത = 0
𝑖=1
Nguồn biến thiên Tổng bình phương Bậc tự do Tổng bình phương trung
bình
𝑛
Từ hàm hồi quy (ESS) 2
𝑌𝑖 − 𝑌ത 𝑘−1 ESSΤ(𝑘 − 1)
𝑖=1
𝑛
Từ phần dư (RSS) 2
𝑌𝑖 − 𝑌𝑖 𝑛−𝑘 RSS/ 𝑛 − 𝑘
𝑖=1
𝑛
Tổng biến thiên (TSS)
𝑌𝑖 − 𝑌ത 2
𝑛−1 TSS/(𝑛 − 1)
𝑖=1
ĐÁNH GIÁ SỰ PHÙ HỢP CỦA MÔ HÌNH
Hệ số xác định 𝑹𝟐
ഥ𝟐
Hệ số xác định điều chỉnh 𝑹
Mục đích: Đánh giá mức độ phù hợp của mô hình trong đó có xét đến yếu tố ảnh hưởng
của số biến trong mô hình
𝐸𝑆𝑆/(𝑘 − 1) 𝑛−1
𝑅ത 2 = = 1 − (1 − 𝑅2 )
𝑇𝑆𝑆/(𝑛 − 1) 𝑛−𝑘
Nhận xét:
- Khi đưa thêm biến mới vào mô hình thì 𝑅2 luôn tăng, nhưng 𝑅ത 2 có thể tăng hoặc giảm.
- Khi k > 1 thì 𝑅ത 2 < R2 ≤ 1. Như vậy, khi tăng số biến độc lập lên thì 𝑅ത 2 nếu tăng thì vẫn
tăng ít hơn so với R2 .
- 𝑅ത 2 có thể nhận giá trị âm dù R2 luôn dương.
ĐÁNH GIÁ SỰ PHÙ HỢP CỦA MÔ HÌNH
ഥ 𝟐 hay 𝑹𝟐 ???
Nên dùng 𝑹
Theo Theil (Introduction to Econometrics, 1978)“…dùng 𝑅ത 2 tốt hơn 𝑅 2 bởi vì 𝑅 2 cho ra một bức tranh
quá lạc quan về độ thích hợp của mô hình hồi qui, đặc biệt trong trường hợp số biến độc lập không quá bé
so với kích thước mẫu”.
ഥ 𝟐 hay 𝑹𝟐 :
Quan điểm về 𝑹
Arthur S. Goldberger, Khóa học Kinh tế lượng, Havard U. Press, Cambridge, Massachsetts,1991, trang 178.
đã phát biểu: “Đứng trên quan điểm của chúng tôi, 𝑹𝟐 có một vai trò rất khiêm tốn trongphân tích hồi quy,
nó là một đại lượng đo của độ thích hợp của hồi quy tuyến tính bình phương tối thiểu (LS) mẫu trong một
tập hợp các dữ liệu. Không có yếu tố nào trong mô hình hồi quy cổ điển CR [CLRM] đòi hỏi rằng 𝑹𝟐 phải
cao. Như vậy, một 𝑹𝟐 cao không phải là bằng chứng có lợi cho mô hình và một 𝑹𝟐 thấp không phải là bằng
chứng bất lợi cho nó…”
ĐÁNH GIÁ SỰ PHÙ HỢP CỦA MÔ HÌNH
Mục đích: Biến 𝑋𝑗 có tác động (có ảnh hưởng) lên biến phụ thuộc Y?
Kiểm định cặp giả thuyết
𝐻0 : 𝛽𝑗 = 0
൝
𝐻1 : 𝛽𝑗 ≠ 0
𝑗
𝛽
Tiêu chuẩn kiểm định: t = 𝑗 ).
𝑠𝑒(𝛽
𝐻0 : 𝛽2 = 𝛽3 =. . . = 𝛽𝑘 = 0
൝
𝐻1 : 𝛽22 + 𝛽32 + ⋯ + 𝛽𝑘2 ≠ 0
Chỉ số AIC là chỉ số đo lường dựa trên sự kết hợp giữa độ phức tạp và khả năng tiên
lượng của mô hình
𝐴𝐼𝐶 = −2𝑙𝑛 𝐿 + 2𝑘 (1)
Trong đó, 𝑙𝑛 𝐿 là giá trị cực đại của 𝑙𝑛 hàm hợp lý, cụ thể
−𝑛 𝑅𝑆𝑆
𝑙𝑛 𝐿 = 1 + 𝑙𝑛 2𝜋 + 𝑙𝑛 (2)
2 𝑛
Mô hình có giá trị AIC thấp hơn được xem là mô hình tốt hơn.
Trong R, sử dụng hàm step() (package: stats)để tìm mô hình tối ưu theo chỉ số AIC.
ĐÁNH GIÁ SỰ PHÙ HỢP CỦA MÔ HÌNH
Chỉ số BIC được xây dựng dựa trên phương pháp Bayes với cơ sở mô hình có xác
suất hậu nghiệm cao hơn là mô hình tốt hơn.
𝐵𝐼𝐶 = −2 ln 𝐿 + 𝑘𝑙𝑛(𝑛)
Trong đó, 𝑙𝑛 𝐿 là giá trị cực đại của 𝑙𝑛 hàm hợp lý, cụ thể
−𝑛 𝑅𝑆𝑆
𝑙𝑛 𝐿 = 1 + 𝑙𝑛 2𝜋 + 𝑙𝑛
2 𝑛
Mô hình có giá trị BIC thấp hơn được xem là mô hình tốt hơn.
Trong R, sử dụng hàm bma() (package BMA) để tìm mô hình tối ưu theo chỉ số BIC.
PHÂN TÍCH HỒI QUY VÀ DỰ BÁO
vì 𝜎 2 chưa biết nên được ước lượng bởi 𝜎ො 2 . Khi đó, 𝑠𝑒 𝑌0 = 𝜎ො 2 𝑋0𝑇 𝑋 𝑇 𝑋 −1 𝑋
0
PHÂN TÍCH HỒI QUY VÀ DỰ BÁO
Dự báo
THỰC HÀNH TRÊN PHẦN MỀM R
Phân tích tương quan
R^2
Dự báo