Professional Documents
Culture Documents
BGLT8 Tuong Quan Va Hoi Quy
BGLT8 Tuong Quan Va Hoi Quy
1
Mục tiêu
1. Tính được hệ số tương quan (r) giữa hai biến định lượng, xác
định được mối tương quan giữa hai biến số này.
2. Xây dựng được mô hình hồi quy tuyến tính đơn biến và đa biến.
3. Xây dựng mô hình hồi quy logistic đơn biến và đa biến.
2
Khái niệm
• Tương quan
Đo lường độ lớn của mối quan hệ giữa các biến số với nhau.
• Hồi quy
Ước đoán giá trị của một biến số từ các giá trị của một hay nhiều biến
số khác.
Tương quan và hồi quy tuyến tính tìm hiểu mối quan hệ tuyến tính
(linear) giữa hai biến định lượng.
Tương quan (correlation) đo lường sự chặt chẽ của mối liên hệ
trong khi hồi quy tuyến tính (linear regression) cho biết phương
trình đường thẳng mô tả sự liên hệ tốt nhất và cho phép tiên đoán
biến số này từ biến số khác.
3
PHÂN TÍCH TƯƠNG QUAN
4
PHÂN TÍCH TƯƠNG QUAN
Mức độ tương quan được thể hiện trong bảng sau (r)
Hệ số tương quan Ý nghĩa
0 ≤ |r| < 0,3 Mối tương quan yếu, không có mối tương quan
0,3 ≤ |r| < 0,5 Mối tương quan trung bình
0,5 ≤ |r| < 0,7 Mối tương quan mạnh
0,7 ≤ |r| ≤ 1 Mối tương quan rất mạnh, tương quan tuyệt đối
(Nguồn: Deborah J. Rumsey (2011), Statistics For Dummies, 2nd Edition, Wiley Publishing, Inc.)
5
PHÂN TÍCH TƯƠNG QUAN
6
Ví dụ 1: Sử dụng bộ số liệu thiếu máu ở vùng A, tính hệ số tương quan giữa 2
biến: Hồng cầu (M/ul) và Hemoglobin (g/dl).
Thực hành: Sử dụng câu lệnh Bivariate theo đường dẫn:
Analyze Correlate Bivariate. Xuất hiện hộp thoại Bivariate Correlations.
Hệ số tương
quan r
Kết luận: Hồng cầu và Hemoglobin có tương quan thuận chiều trung bình. Mối
tương quan có ý nghĩa thống kê với p < 0,01 (bảng kết quả SPSS có đánh dấu
sao * ở cạnh giá trị r nếu có ý nghĩa thống kê với p < 0,05 và đánh dấu ** nếu
có ý nghĩa thống kê với p < 0,01).
Ví dụ 2: Sử dụng bộ số liệu thiếu máu ở vùng A, tính hệ số tương quan
giữa 2 biến: Cân nặng và tuổi.
Thực hành: Sử dụng câu lệnh Bivariate theo đường dẫn: Analyze
Correlate Bivariate. Xuất hiện hộp thoại Bivariate Correlations.
Giá trị p
Kết luận: Biến tuổi và cân nặng có mối tương quan thuận chiều rất mạnh, khi
tuổi tăng thì cân nặng cũng tăng và ngược lại. Mối tương quan có ý nghĩa
thống kê với p < 0,01.
HỒI QUY
Nghiên cứu sự phụ thuộc của một biến số (biến phụ thuộc) vào một
hay nhiều biến số khác (biến độc lập), nhằm mục đích ước đoán giá trị
của biến phụ thuộc khi biết trước các giá trị của biến độc lập.
Số lượng biến số độc lập: Hồi quy đơn biến, hồi quy đa biến.
Biến số phụ thuộc: Hồi quy tuyến tính, hồi quy logistic, hồi quy Cox.
Tương quan: không có sự phân biệt giữa các biến số.
Phân tích hồi quy: y sẽ là hậu quả tác động của biến số x, y thường
được gọi là biến số phụ thuộc (dependent variable) và x là biến số độc
lập hay giải thích (independent/ explanatory variable).
11
HỒI QUY TUYẾN TÍNH ĐƠN BIẾN
Hồi quy tuyến tính đơn biến mô tả bằng phương trình đường thẳng,
nếu biến x tăng thì biến y tăng hoặc giảm như thế nào.
Gồm 1 biến số độc lập và 1 biến số phụ thuộc đều là biến số định
lượng.
Có dạng: y = a + bx
Trong đó, a là điểm chặn (intercept) và b là độ dốc (slope) của đường
thẳng.
Độ dốc b đôi khi được gọi là hệ số hồi quy (regression coefficient).
Mô hình hồi quy tuyến tính được viết lại dưới dạng tổng quát như sau:
yi = a + bxi + Ɛi.
Ɛi Phần dư càng nhỏ thì mối tương quan giữa x và y càng lớn và
ngược lại.
Phương pháp bình phương tối thiểu (least squares fit) a và b.
12
PHÂN TÍCH HỒI QUY TUYẾN TÍNH ĐƠN BIẾN
13
PHÂN TÍCH HỒI QUY TUYẾN TÍNH ĐƠN BIẾN
14
PHÂN TÍCH HỒI QUY TUYẾN TÍNH ĐƠN BIẾN
Tóm tắt mô hình hồi quy tuyến tính
15
PHÂN TÍCH HỒI QUY TUYẾN TÍNH ĐƠN BIẾN
Hệ số hồi quy và điểm chặn
16
CÁC GIẢ ĐỊNH TRONG PHÂN TÍCH HỒI QUY TUYẾN TÍNH
- yi độc lập với nhau (y1 không liên quan với y2).
- Các phần dư Ɛi theo luật phân bố chuẩn, có giá trị trung bình bằng 0, phương
sai cố định với mọi xi
17
KIỂM TRA CÁC GIẢ ĐỊNH
Ví dụ 4: Sử dụng bộ số liệu thiếu máu ở vùng A, kiểm tra các giả định trong
phân tích hồi quy tuyến tính giữa hồng cầu và Hemoglobin, trong đó hồng cầu
là biến độc lập và Hemoglobin là biến phụ thuộc.
Thực hành:
Giá trị hồng cầu (M/ul) trong nghiên cứu này được đo lường chính xác trên
một máy xét nghiệm chuẩn.
Các đối tượng tham gia vào nghiên cứu độc lập với nhau.
18
KIỂM TRA CÁC GIẢ ĐỊNH
Phân tích phần dư (giả định 3)
Trở lại ví dụ 3, sử dụng lệnh Linear theo đường dẫn Analyze Regression Linear.
Xuất hiện hộp thoại Linear Regression. Chọn mục Plots, xuất hiện hộp thoại Linear
Regression: Plots.
19
KIỂM TRA CÁC GIẢ ĐỊNH
20
KIỂM TRA CÁC GIẢ ĐỊNH
Với giả định phần dư có phân bố chuẩn, kiểm tra biểu đồ 1 và biểu đồ 2.
21
KIỂM TRA CÁC GIẢ ĐỊNH
Giả định phương sai cố định không đổi với mọi giá trị xi, kiểm tra biểu đồ 3, nếu các giá
trị phần dư phân tán ngẫu nhiên quanh giá trị 0 (đường thẳng nằm ngang) thì phương
sai không đổi.
22
ĐƯỜNG HỒI QUY TUYẾN TÍNH ĐƠN BIẾN
Đường thẳng hồi quy tuyến tính y = a + bx được làm phù hợp bằng phương
pháp bình phương tối thiểu, a và b được tính để cực tiểu hóa tổng bình
phương của các độ lệch (vẽ bằng các đường chấm) của các điểm đối với
đường thẳng, mỗi độ lệch bằng hiệu số giữa số y quan sát và điểm tương ứng
trên đường thẳng a + bx.
(0 ; a) (1 ; a+b)
23
ĐƯỜNG HỒI QUY TUYẾN TÍNH ĐƠN BIẾN
Ví dụ 5: Sử dụng số liệu thiếu máu vùng A, vẽ đường hồi quy thể hiện mối quan hệ
tuyến tính giữa 2 biến hồng cầu và Hemoglobin trên phần mềm SPSS.
Thực hành: Sử dụng lệnh Scatter/Dot theo đường dẫn: Graphs Legacy Dialogs
Scatter/Dot. Xuất hiện hộp thoại Scatter/Dot, chọn ô Simple Scatter và nhấn nút
Define. Xuất hiện hộp thoại Simple Scatterplot.
24
ĐƯỜNG HỒI QUY TUYẾN TÍNH ĐƠN BIẾN
Bổ sung đường hồi quy tuyến tính vào biểu đồ
25
ĐƯỜNG HỒI QUY TUYẾN TÍNH ĐƠN BIẾN
26
HỒI QUY TUYẾN TÍNH ĐA BIẾN
Trong y sinh học khi giải thích một hiện tượng thường có rất nhiều yếu tố liên
quan khác nhau.
VD: giá trị Hemoglobin tăng hay giảm có thể do nhiều yếu tố như tuổi, giá trị
hồng cầu, số nhân khẩu…
Mô hình tổng quát có dạng:
yi = a + b1x1i + b2x2i + … + bkxki + Ɛi
27
HỒI QUY TUYẾN TÍNH ĐA BIẾN
28
HỒI QUY TUYẾN TÍNH ĐA BIẾN
Biến số phụ
thuộc
Tính 95%
KTC của hệ
số hồi quy …
Phương pháp
phân tích
29
HỒI QUY TUYẾN TÍNH ĐA BIẾN
Tính 95%
KTC của hệ
số hồi quy
30
HỒI QUY TUYẾN TÍNH ĐA BIẾN
31
HỒI QUY TUYẾN TÍNH ĐA BIẾN
32
HỒI QUY TUYẾN TÍNH ĐA BIẾN
Kiểm định tính phù hợp của mô hình bằng kiểm định ANOVA
33
HỒI QUY TUYẾN TÍNH ĐA BIẾN
Mô hình có dạng:
Hemoglobin = 6,499 + 0,933*hồng cầu + 0,135*tuổi - 0,079*số nhân khẩu
34
HỒI QUY TUYẾN TÍNH ĐA BIẾN
35
HỒI QUY LOGISTIC ĐƠN BIẾN
Phân tích hồi quy logistic để xem xét mối quan hệ giữa biến độc lập (định
tính hoặc định lượng) với một biến phụ thuộc là biến nhị phân.
Trong hồi quy tuyến tính đơn biến, biến x độc lập và biến y phụ thuộc liên
hệ bởi phương trình: y = a + bx.
Trong hồi quy logistic, biến phụ thuộc là biến nhị phân, chỉ có 2 trạng thái
(ví dụ: Thiếu máu hoặc không thiếu máu).
Muốn đổi biến y từ biến nhị phân sang biến liên tục ta tính xác suất 2
trạng thái này.
p là xác suất biến cố thiếu máu xảy ra
1-p là xác suất xảy ra biến cố không thiếu máu
Tỷ số p/(1-p) chạy từ 0 đến +∞. Lấy logarit tự nhiên của tỷ số (p/(1-p) ta
được các giá trị chạy từ -∞ đến +∞.
Đó là cách chuyển đổi logit, do vậy mô hình hồi quy được gọi là hồi quy
logistic.
Phương trình hồi quy logistic có dạng: ln(p/(1-p)) = a + bx.
36
HỒI QUY LOGISTIC ĐƠN BIẾN
37
PHÂN TÍCH HỒI QUY LOGISTIC ĐƠN BIẾN
Ví dụ 7: Sử dụng số liệu thiếu máu vùng A, viết mô hình hồi quy logistic để
ước đoán xác suất mắc thiếu máu cận lâm sàng dựa vào giá trị hồng cầu,
trong đó hồng cầu là biến độc lập và thiếu máu cận lâm sàng là biến phụ
thuộc.
Thực hành: Gọi p là xác suất mắc thiếu máu cận lâm sàng, mô hình có
dạng: ln(p/(1-p)) = a + b*hồng cầu
38
PHÂN TÍCH HỒI QUY LOGISTIC ĐƠN BIẾN
chọn Probabilities để
tính xác suất mắc thiếu
máu cận lâm sàng
39
PHÂN TÍCH HỒI QUY LOGISTIC ĐƠN BIẾN
40
PHÂN TÍCH HỒI QUY LOGISTIC ĐƠN BIẾN
Biểu đồ chấm với đường hồi quy tuyến tính
41
PHÂN TÍCH HỒI QUY LOGISTIC ĐA BIẾN
Phân tích hồi quy logistic đa biến là xem xét mối quan hệ từ 2 biến độc lập
trở lên (có thể là biến định tính hoặc định lượng) với một biến phụ thuộc là
biến nhị phân.
Mô hình hồi quy logistic đa biến có dạng:
ln(p/(1-p)) = a + b1x1 + b2x2 + … + bkxk
Hay viết ở dạng tổng quát:
ln(p/(1-p)) = a + b1x1i + b2x2i + … + bkxki + Ɛi
Trong đó p là xác suất xảy ra và 1-p là xác suất không xảy ra biến cố của biến
phụ thuộc. x1, x2 … là các biến độc lập có liên hệ với biến phụ thuộc qua
phương trình trên.
42
PHÂN TÍCH HỒI QUY LOGISTIC ĐA BIẾN
Ví dụ 8: Sử dụng số liệu thiếu máu vùng A, viết mô hình hồi quy logistic để ước
đoán xác suất mắc thiếu máu cận lâm sàng dựa vào các biến độc lập: da xanh
xao, gan to.
Thực hành: Gọi p là xác suất mắc thiếu máu cận lâm sàng, mô hình có dạng:
ln(p/(1-p)) = a + b1*da xanh xao + b2*gan to
Sử dụng lệnh Binary Logistic theo đường dẫn Analyze Regression Binary
Logistic. Xuất hiện hộp thoại Logistic Regression.
43
PHÂN TÍCH HỒI QUY LOGISTIC ĐA BIẾN
Biến số phụ
thuộc Chọn nhóm
tham chiếu
Chọn 95%
KTC của OR…
Biến số độc
lập
44
PHÂN TÍCH HỒI QUY LOGISTIC ĐA BIẾN
45
PHÂN TÍCH HỒI QUY LOGISTIC ĐA BIẾN
46
PHÂN TÍCH HỒI QUY LOGISTIC ĐA BIẾN
Mã hóa các biến trong mô hình hồi quy
47
PHÂN TÍCH HỒI QUY LOGISTIC ĐA BIẾN
Kiểm tra tính phù hợp của mô hình hồi quy:
Mô hình hồi quy logistic đa biến trong báo cáo khoa học
Trong mô hình hồi quy đa biến, các biến độc lập có mối tương quan với
nhau hoặc bị ảnh hưởng thông qua một biến trung gian.
Khi phân tích mô hình hồi quy đơn biến, các biến này có ý nghĩa thống kê
nhưng khi phân tích mô hình hồi quy đa biến, các biến này lại có thể không
có ý nghĩa thống kê.
Do đó, không nên sử dụng phương pháp phân tích đơn biến trước để chọn
biến độc lập đưa vào mô hình đa biến.
Xây dựng một mô hình hồi quy, đặc biệt là hồi quy đa biến là một vấn đề
phức tạp, đòi hỏi người phân tích vừa có kiến thức, kỹ năng về phân tích
hồi quy đồng thời phải có kiến thức chuyên ngành liên quan đến nội dung
phân tích.
Phần mềm SPSS có các phương pháp để chọn biến độc lập vào mô hình hồi
quy (stepwise, backward, foreward).
Tuy nhiên, không nên chọn biến một cách máy móc phụ thuộc vào các
thuật toán trên phần mềm mà cần tham khảo y văn và cân nhắc ý nghĩa y
sinh học của các biến khi đưa vào mô hình.