You are on page 1of 50

KHOA Y TẾ CÔNG CỘNG

BỘ MÔN THỐNG KÊ Y TẾ-DÂN SỐ-SỨC KHỎE SINH SẢN

TƯƠNG QUAN VÀ HỒI QUY

1
Mục tiêu

1. Tính được hệ số tương quan (r) giữa hai biến định lượng, xác
định được mối tương quan giữa hai biến số này.
2. Xây dựng được mô hình hồi quy tuyến tính đơn biến và đa biến.
3. Xây dựng mô hình hồi quy logistic đơn biến và đa biến.

2
Khái niệm

• Tương quan
Đo lường độ lớn của mối quan hệ giữa các biến số với nhau.
• Hồi quy
Ước đoán giá trị của một biến số từ các giá trị của một hay nhiều biến
số khác.

 Tương quan và hồi quy tuyến tính tìm hiểu mối quan hệ tuyến tính
(linear) giữa hai biến định lượng.
 Tương quan (correlation) đo lường sự chặt chẽ của mối liên hệ
trong khi hồi quy tuyến tính (linear regression) cho biết phương
trình đường thẳng mô tả sự liên hệ tốt nhất và cho phép tiên đoán
biến số này từ biến số khác.

3
PHÂN TÍCH TƯƠNG QUAN

Thường xét đến khi 2 biến NC là biến định lượng.


Hệ số tương quan (r) có giá trị từ -1 đến +1.
Hệ số tương quan bằng 0 (hay gần 0) có nghĩa là hai biến số không có liên hệ gì
với nhau.
Hệ số bằng -1 hay +1 có nghĩa là hai biến số có một mối liên hệ tuyệt đối.
Nếu giá trị của hệ số tương quan là âm (r < 0) tương quan nghịch, có nghĩa là
khi x tăng cao thì y giảm (và ngược lại, khi x giảm thì y tăng)
Nếu giá trị hệ số tương quan là dương (r > 0) tương quan thuận, có nghĩa là khi
x tăng cao thì y cũng tăng và khi x giảm thì y cũng giảm.

4
PHÂN TÍCH TƯƠNG QUAN

Mức độ tương quan được thể hiện trong bảng sau (r)
Hệ số tương quan Ý nghĩa
0 ≤ |r| < 0,3 Mối tương quan yếu, không có mối tương quan
0,3 ≤ |r| < 0,5 Mối tương quan trung bình
0,5 ≤ |r| < 0,7 Mối tương quan mạnh
0,7 ≤ |r| ≤ 1 Mối tương quan rất mạnh, tương quan tuyệt đối

(Nguồn: Deborah J. Rumsey (2011), Statistics For Dummies, 2nd Edition, Wiley Publishing, Inc.)

5
PHÂN TÍCH TƯƠNG QUAN

Kiểm định ý nghĩa của hệ số tương quan:


 Hệ số tương quan  mối tương quan có chặt chẽ không?
 Suy luận từ mẫu ra quần thể  mối tương quan có chắc chắn không?
 Chú ý đến tính phân bố của số liệu định lượng.
 Nếu biến số x và y có phân phối chuẩn, ta sử dụng hệ số tương quan
Pearson.
 Nếu x và y không tuân theo luật phân phối chuẩn, sử dụng hệ số tương
quan Spearman (phi tham số).
 Ngoài ra, còn sử dụng hệ số tương quan Kendall cũng là một phương pháp
phân tích phi tham số.

6
Ví dụ 1: Sử dụng bộ số liệu thiếu máu ở vùng A, tính hệ số tương quan giữa 2
biến: Hồng cầu (M/ul) và Hemoglobin (g/dl).
Thực hành: Sử dụng câu lệnh Bivariate theo đường dẫn:
Analyze  Correlate  Bivariate. Xuất hiện hộp thoại Bivariate Correlations.

Đưa biến định lượng


Chọn hệ tương vào phân tích
quan Pearson
(HC và Hb có
phân bố chuẩn)

Đánh dấu * hoặc ** nếu mối tương


quan có ý nghĩa thống kê
Kết quả: Tại màn hình Output, đọc kết quả ở bảng Correlations, hệ số tương quan
Pearson r = 0,439.

Hệ số tương
quan r

Giá trị p<0,001

Kết luận: Hồng cầu và Hemoglobin có tương quan thuận chiều trung bình. Mối
tương quan có ý nghĩa thống kê với p < 0,01 (bảng kết quả SPSS có đánh dấu
sao * ở cạnh giá trị r nếu có ý nghĩa thống kê với p < 0,05 và đánh dấu ** nếu
có ý nghĩa thống kê với p < 0,01).
Ví dụ 2: Sử dụng bộ số liệu thiếu máu ở vùng A, tính hệ số tương quan
giữa 2 biến: Cân nặng và tuổi.
Thực hành: Sử dụng câu lệnh Bivariate theo đường dẫn: Analyze 
Correlate  Bivariate. Xuất hiện hộp thoại Bivariate Correlations.

Đưa biến định lượng


vào phân tích

Chọn hệ tương quan


Spearman (cân nặng và tuổi
không có phân bố chuẩn)

Đánh dấu * hoặc ** nếu mối tương


quan có ý nghĩa thống kê
Kết quả: Tại màn hình Output, đọc kết quả ở bảng Correlations, hệ số tương quan
Spearman r =0,921.
Hệ số tương
quan r

Giá trị p

Kết luận: Biến tuổi và cân nặng có mối tương quan thuận chiều rất mạnh, khi
tuổi tăng thì cân nặng cũng tăng và ngược lại. Mối tương quan có ý nghĩa
thống kê với p < 0,01.
HỒI QUY

 Nghiên cứu sự phụ thuộc của một biến số (biến phụ thuộc) vào một
hay nhiều biến số khác (biến độc lập), nhằm mục đích ước đoán giá trị
của biến phụ thuộc khi biết trước các giá trị của biến độc lập.
 Số lượng biến số độc lập: Hồi quy đơn biến, hồi quy đa biến.
 Biến số phụ thuộc: Hồi quy tuyến tính, hồi quy logistic, hồi quy Cox.
 Tương quan: không có sự phân biệt giữa các biến số.
 Phân tích hồi quy: y sẽ là hậu quả tác động của biến số x, y thường
được gọi là biến số phụ thuộc (dependent variable) và x là biến số độc
lập hay giải thích (independent/ explanatory variable).

11
HỒI QUY TUYẾN TÍNH ĐƠN BIẾN

 Hồi quy tuyến tính đơn biến mô tả bằng phương trình đường thẳng,
nếu biến x tăng thì biến y tăng hoặc giảm như thế nào.
 Gồm 1 biến số độc lập và 1 biến số phụ thuộc đều là biến số định
lượng.
 Có dạng: y = a + bx
 Trong đó, a là điểm chặn (intercept) và b là độ dốc (slope) của đường
thẳng.
 Độ dốc b đôi khi được gọi là hệ số hồi quy (regression coefficient).
 Mô hình hồi quy tuyến tính được viết lại dưới dạng tổng quát như sau:
yi = a + bxi + Ɛi.
 Ɛi Phần dư  càng nhỏ thì mối tương quan giữa x và y càng lớn và
ngược lại.
 Phương pháp bình phương tối thiểu (least squares fit)  a và b.

12
PHÂN TÍCH HỒI QUY TUYẾN TÍNH ĐƠN BIẾN

Ví dụ 3: Sử dụng bộ số liệu thiếu máu ở vùng A, viết mô hình hồi quy


tuyến tính giữa hồng cầu và Hemoglobin, trong đó hồng cầu là biến độc
lập và Hemoglobin là biến phụ thuộc.
 Thực hành: Mô hình hồi quy tuyến tính đơn biến có dạng:
Hemoglobin = a + b*Hồng cầu.
 Sử dụng lệnh Linear theo đường dẫn Analyze Regression Linear
xuất hiện hộp thoại Linear Regression.

13
PHÂN TÍCH HỒI QUY TUYẾN TÍNH ĐƠN BIẾN

Biến phụ thuộc

Biến độc lập

14
PHÂN TÍCH HỒI QUY TUYẾN TÍNH ĐƠN BIẾN
Tóm tắt mô hình hồi quy tuyến tính

Tính phù hợp của mô hình bằng kiểm định ANOVA

15
PHÂN TÍCH HỒI QUY TUYẾN TÍNH ĐƠN BIẾN
Hệ số hồi quy và điểm chặn

Hệ số hồi quy b 95% Khoảng tin cậy của


Điểm chặn a hệ số hồi quy b
Hemoglobin = 6,8 + 0,933*Hồng cầu. Phương trình này có nghĩa là khi hồng
cầu tăng thêm 1 đơn vị thì giá trị Hemoglobin tăng thêm 0,933 g/dl.

Trong các báo cáo khoa học


Biến độc lập Hệ số hồi quy Khoảng tin cậy 95% p
Hồng cầu (M/ul) 0,933 0,779 1,086 < 0,001

16
CÁC GIẢ ĐỊNH TRONG PHÂN TÍCH HỒI QUY TUYẾN TÍNH

- xi là biến cố định, không có sai sót ngẫu nhiên trong đo lường.

- yi độc lập với nhau (y1 không liên quan với y2).

- Các phần dư Ɛi theo luật phân bố chuẩn, có giá trị trung bình bằng 0, phương
sai cố định với mọi xi

17
KIỂM TRA CÁC GIẢ ĐỊNH

Ví dụ 4: Sử dụng bộ số liệu thiếu máu ở vùng A, kiểm tra các giả định trong
phân tích hồi quy tuyến tính giữa hồng cầu và Hemoglobin, trong đó hồng cầu
là biến độc lập và Hemoglobin là biến phụ thuộc.
Thực hành:
 Giá trị hồng cầu (M/ul) trong nghiên cứu này được đo lường chính xác trên
một máy xét nghiệm chuẩn.
 Các đối tượng tham gia vào nghiên cứu độc lập với nhau.

18
KIỂM TRA CÁC GIẢ ĐỊNH
Phân tích phần dư (giả định 3)
Trở lại ví dụ 3, sử dụng lệnh Linear theo đường dẫn Analyze Regression Linear.
Xuất hiện hộp thoại Linear Regression. Chọn mục Plots, xuất hiện hộp thoại Linear
Regression: Plots.

• Chuyển phần dư *ZRESID vào


trục X (trục hoành)
• Giá trị ước đoán *ZPRED vào
trục Y (trục tung).
• Histogram và Normal
probability plot để vẽ các
biểu đồ kiểm tra phân bố
chuẩn của phần dư.

19
KIỂM TRA CÁC GIẢ ĐỊNH

Bảng kết quả phân tích phần dư

20
KIỂM TRA CÁC GIẢ ĐỊNH
Với giả định phần dư có phân bố chuẩn, kiểm tra biểu đồ 1 và biểu đồ 2.

21
KIỂM TRA CÁC GIẢ ĐỊNH
Giả định phương sai cố định không đổi với mọi giá trị xi, kiểm tra biểu đồ 3, nếu các giá
trị phần dư phân tán ngẫu nhiên quanh giá trị 0 (đường thẳng nằm ngang) thì phương
sai không đổi.

22
ĐƯỜNG HỒI QUY TUYẾN TÍNH ĐƠN BIẾN
Đường thẳng hồi quy tuyến tính y = a + bx được làm phù hợp bằng phương
pháp bình phương tối thiểu, a và b được tính để cực tiểu hóa tổng bình
phương của các độ lệch (vẽ bằng các đường chấm) của các điểm đối với
đường thẳng, mỗi độ lệch bằng hiệu số giữa số y quan sát và điểm tương ứng
trên đường thẳng a + bx.
(0 ; a) (1 ; a+b)

23
ĐƯỜNG HỒI QUY TUYẾN TÍNH ĐƠN BIẾN
Ví dụ 5: Sử dụng số liệu thiếu máu vùng A, vẽ đường hồi quy thể hiện mối quan hệ
tuyến tính giữa 2 biến hồng cầu và Hemoglobin trên phần mềm SPSS.
Thực hành: Sử dụng lệnh Scatter/Dot theo đường dẫn: Graphs  Legacy Dialogs 
Scatter/Dot. Xuất hiện hộp thoại Scatter/Dot, chọn ô Simple Scatter và nhấn nút
Define. Xuất hiện hộp thoại Simple Scatterplot.

24
ĐƯỜNG HỒI QUY TUYẾN TÍNH ĐƠN BIẾN
Bổ sung đường hồi quy tuyến tính vào biểu đồ

25
ĐƯỜNG HỒI QUY TUYẾN TÍNH ĐƠN BIẾN

26
HỒI QUY TUYẾN TÍNH ĐA BIẾN

 Trong y sinh học khi giải thích một hiện tượng thường có rất nhiều yếu tố liên
quan khác nhau.
VD: giá trị Hemoglobin tăng hay giảm có thể do nhiều yếu tố như tuổi, giá trị
hồng cầu, số nhân khẩu…
 Mô hình tổng quát có dạng:
yi = a + b1x1i + b2x2i + … + bkxki + Ɛi

27
HỒI QUY TUYẾN TÍNH ĐA BIẾN

Phân tích hồi quy tuyến tính đa biến:


Ví dụ 6: Sử dụng số liệu thiếu máu vùng A, viết mô hình hồi quy tuyến tính trong
đó Hemoglobin (g/dl) là biến số phụ thuộc, giá trị hồng cầu, tuổi (năm), số nhân
khẩu là biến số độc lập.
Thực hành: Mô hình hồi quy tuyến tính có dạng:
Hemoglobin = a + b1*hồng cầu + b2*tuổi + b3*số nhân khẩu
Sử dụng lệnh Linear theo đường dẫn Analyze Regression Linear. Xuất hiện
hộp thoại Linear Regression.

28
HỒI QUY TUYẾN TÍNH ĐA BIẾN
Biến số phụ
thuộc

Tính 95%
KTC của hệ
số hồi quy …

Biến số độc lập

Phương pháp
phân tích

29
HỒI QUY TUYẾN TÍNH ĐA BIẾN

Tính 95%
KTC của hệ
số hồi quy

30
HỒI QUY TUYẾN TÍNH ĐA BIẾN

Chọn phương pháp phân tích ở mục Method:


Enter: Là phương pháp mặc định, kết quả cho một mô hình duy nhất bao gồm tất
cả các biến số độc lập đã được lựa chọn.
Forward: Lần lượt đưa dần từng biến số độc lập vào mô hình và sẽ giữ chúng lại
nếu như biến số đó có ý nghĩa thống kê.
Backward: Đưa toàn bộ các biến số độc lập vào mô hình, sau đó bỏ dần từng
biến không có ý nghĩa thống kê.
Stepwise: Kết hợp 2 phương pháp forward và backward, tại mỗi một bước
phương pháp này sẽ tính toán để đưa vào hoặc loại ra các biến số độc lập sau khi
có sự xuất hiện của các biến số khác.

31
HỒI QUY TUYẾN TÍNH ĐA BIẾN

Lưu ý: Phương pháp Enter cho một mô hình


duy nhất với tất cả các biến số độc lập đã
chọn, do vậy cần cân nhắc ý nghĩa y học của
các biến hoặc trong y văn đã chứng minh
những biến số độc lập này có liên quan đến
biến số phụ thuộc trong mô hình.

Ngoại trừ phương pháp Enter, phần mềm SPSS


dựa vào các giá trị cho trước trong mục
Options để đưa biến số vào và loại biến số ra
khỏi mô hình hồi quy.
Các giá trị này được khai báo ở mục Entry (đưa
biến số vào) và Removal (loại biến số ra), giá trị
được sử dụng có thể là xác suất hoặc giá trị F.

32
HỒI QUY TUYẾN TÍNH ĐA BIẾN

Tóm tắt mô hình hồi quy tuyến tính đa biến

Kiểm định tính phù hợp của mô hình bằng kiểm định ANOVA

33
HỒI QUY TUYẾN TÍNH ĐA BIẾN

Các hệ số hồi quy và điểm chặn

Mô hình có dạng:
Hemoglobin = 6,499 + 0,933*hồng cầu + 0,135*tuổi - 0,079*số nhân khẩu

34
HỒI QUY TUYẾN TÍNH ĐA BIẾN

Trong báo cáo khoa học

Biến độc lập Hệ số hồi quy Khoảng tin cậy 95% p


Hồng cầu (M/ul) 0,933 0,791 1,076 < 0,001
Tuổi 0,135 0,108 0,162 < 0,001
Số nhân khẩu -0,079 -,131 -0,027 0,003

35
HỒI QUY LOGISTIC ĐƠN BIẾN
 Phân tích hồi quy logistic để xem xét mối quan hệ giữa biến độc lập (định
tính hoặc định lượng) với một biến phụ thuộc là biến nhị phân.
 Trong hồi quy tuyến tính đơn biến, biến x độc lập và biến y phụ thuộc liên
hệ bởi phương trình: y = a + bx.
 Trong hồi quy logistic, biến phụ thuộc là biến nhị phân, chỉ có 2 trạng thái
(ví dụ: Thiếu máu hoặc không thiếu máu).
 Muốn đổi biến y từ biến nhị phân sang biến liên tục ta tính xác suất 2
trạng thái này.
 p là xác suất biến cố thiếu máu xảy ra
 1-p là xác suất xảy ra biến cố không thiếu máu
 Tỷ số p/(1-p) chạy từ 0 đến +∞. Lấy logarit tự nhiên của tỷ số (p/(1-p) ta
được các giá trị chạy từ -∞ đến +∞.
 Đó là cách chuyển đổi logit, do vậy mô hình hồi quy được gọi là hồi quy
logistic.
 Phương trình hồi quy logistic có dạng: ln(p/(1-p)) = a + bx.

36
HỒI QUY LOGISTIC ĐƠN BIẾN

 Viết ở dạng tổng quát: ln(p/(1-p)) = a + bxi + Ɛi


 Từ phương trình này, ta có thể ước đoán xác suất xảy ra thiếu máu
theo biến x như sau: , trong đó, ℮ ≈ 2,718.

37
PHÂN TÍCH HỒI QUY LOGISTIC ĐƠN BIẾN
 Ví dụ 7: Sử dụng số liệu thiếu máu vùng A, viết mô hình hồi quy logistic để
ước đoán xác suất mắc thiếu máu cận lâm sàng dựa vào giá trị hồng cầu,
trong đó hồng cầu là biến độc lập và thiếu máu cận lâm sàng là biến phụ
thuộc.
 Thực hành: Gọi p là xác suất mắc thiếu máu cận lâm sàng, mô hình có
dạng: ln(p/(1-p)) = a + b*hồng cầu

 Sử dụng lệnh Binary Logistic theo đường dẫn Analyze  Regression 


Binary Logistic. Xuất hiện hộp thoại Logistic Regression.

38
PHÂN TÍCH HỒI QUY LOGISTIC ĐƠN BIẾN

Biến phụ thuộc

chọn Probabilities để
tính xác suất mắc thiếu
máu cận lâm sàng

chọn CI for exp(B)


(mặc định là 95%), để
tính tỷ suất chênh OR
và 95% khoảng tin cậy
của OR.

Biến độc lập

39
PHÂN TÍCH HỒI QUY LOGISTIC ĐƠN BIẾN

Điểm chặn a Hệ số hồi quy b


Tỷ suất chênh OR

95% KTC của OR

Phương trình được viết hoàn chỉnh:


ln(p/(1-p)) = 2,726 - 0,618*hồng cầu

40
PHÂN TÍCH HỒI QUY LOGISTIC ĐƠN BIẾN
Biểu đồ chấm với đường hồi quy tuyến tính

 Có mối quan hệ tuyến tính ngược


chiều giữa hồng cầu (trục hoành)
và ước đoán xác suất mắc thiếu
máu cận lâm sàng (trục tung).
 Giá trị hồng cầu càng tăng thì xác
suất mắc thiếu máu cận lâm sàng
càng giảm.

41
PHÂN TÍCH HỒI QUY LOGISTIC ĐA BIẾN
 Phân tích hồi quy logistic đa biến là xem xét mối quan hệ từ 2 biến độc lập
trở lên (có thể là biến định tính hoặc định lượng) với một biến phụ thuộc là
biến nhị phân.
 Mô hình hồi quy logistic đa biến có dạng:
ln(p/(1-p)) = a + b1x1 + b2x2 + … + bkxk
 Hay viết ở dạng tổng quát:
ln(p/(1-p)) = a + b1x1i + b2x2i + … + bkxki + Ɛi

 Trong đó p là xác suất xảy ra và 1-p là xác suất không xảy ra biến cố của biến
phụ thuộc. x1, x2 … là các biến độc lập có liên hệ với biến phụ thuộc qua
phương trình trên.

42
PHÂN TÍCH HỒI QUY LOGISTIC ĐA BIẾN
Ví dụ 8: Sử dụng số liệu thiếu máu vùng A, viết mô hình hồi quy logistic để ước
đoán xác suất mắc thiếu máu cận lâm sàng dựa vào các biến độc lập: da xanh
xao, gan to.
Thực hành: Gọi p là xác suất mắc thiếu máu cận lâm sàng, mô hình có dạng:
ln(p/(1-p)) = a + b1*da xanh xao + b2*gan to

Sử dụng lệnh Binary Logistic theo đường dẫn Analyze  Regression  Binary
Logistic. Xuất hiện hộp thoại Logistic Regression.

43
PHÂN TÍCH HỒI QUY LOGISTIC ĐA BIẾN

Biến số phụ
thuộc Chọn nhóm
tham chiếu

Chọn 95%
KTC của OR…

Biến số độc
lập

44
PHÂN TÍCH HỒI QUY LOGISTIC ĐA BIẾN

Nhóm tham chiếu


Fist: nhóm đầu
Last: nhóm cuối

45
PHÂN TÍCH HỒI QUY LOGISTIC ĐA BIẾN

Chọn 95% KTC của OR


kiểm định Hosmer -
Lemeshow.

46
PHÂN TÍCH HỒI QUY LOGISTIC ĐA BIẾN
Mã hóa các biến trong mô hình hồi quy

47
PHÂN TÍCH HỒI QUY LOGISTIC ĐA BIẾN
Kiểm tra tính phù hợp của mô hình hồi quy:

giá trị này càng nhỏ thì


mô hình càng phù hợp

p<0,05: các biến độc lập có ý


nghĩa trong việc giải thích
biến phụ thuộc

p≥0,05: Mô hình phù hợp (không


có sự khác biệt giữa giá trị thực tế
và giá trị dự báo)
48
PHÂN TÍCH HỒI QUY LOGISTIC ĐA BIẾN
Các hệ số trong mô hình hồi quy logistic

Phương trình được viết hoàn chỉnh


ln(p/(1-p)) = -1,635 + 2,804*da xanh xao + 1,206*gan to

Mô hình hồi quy logistic đa biến trong báo cáo khoa học

Biến độc lập OR Khoảng tin cậy 95% P


Có 16,513 10,596 25,734 < 0,001
Da xanh xao
Không 1      
Có 3,339 1,131 9,860 0,029
Gan to
Không 1      
Một số lưu ý khi diễn giải mô hình hồi quy

 Trong mô hình hồi quy đa biến, các biến độc lập có mối tương quan với
nhau hoặc bị ảnh hưởng thông qua một biến trung gian.
 Khi phân tích mô hình hồi quy đơn biến, các biến này có ý nghĩa thống kê
nhưng khi phân tích mô hình hồi quy đa biến, các biến này lại có thể không
có ý nghĩa thống kê.
 Do đó, không nên sử dụng phương pháp phân tích đơn biến trước để chọn
biến độc lập đưa vào mô hình đa biến.
 Xây dựng một mô hình hồi quy, đặc biệt là hồi quy đa biến là một vấn đề
phức tạp, đòi hỏi người phân tích vừa có kiến thức, kỹ năng về phân tích
hồi quy đồng thời phải có kiến thức chuyên ngành liên quan đến nội dung
phân tích.
 Phần mềm SPSS có các phương pháp để chọn biến độc lập vào mô hình hồi
quy (stepwise, backward, foreward).
 Tuy nhiên, không nên chọn biến một cách máy móc phụ thuộc vào các
thuật toán trên phần mềm mà cần tham khảo y văn và cân nhắc ý nghĩa y
sinh học của các biến khi đưa vào mô hình.

You might also like