You are on page 1of 24

C ON SỐ 30 TRONG

NGHIÊN CỨU KHOA HỌC


BS. Hoàng Bảo Long
“C Ỡ MẪU TỐI THIỂU 30”

• Một câu nói thường được nghe thấy trong nghiên cứu khoa học
• Thường giải thích với học sinh là “cỡ mẫu tối thiểu để có ý nghĩa thống kê”
• ĐÚNG hay SAI?
• SAI
• Chỉ có “cỡ mẫu tối thiểu để PHÁT HIỆN được KHÁC BIỆT có ý nghĩa thống kê”
• Cỡ mẫu tối thiểu phụ thuộc vào câu hỏi nghiên cứu và phương pháp thống kê
• Con số 30 không có liên quan tới việc này
1
Ước lượng điểm
Q UẦN THỂ VÀ M ẪU

• Quần thể bệnh nhân (population)


rất lớn, không thể nghiên cứu hết
• Chọn một mẫu bệnh nhân
(sample) để nghiên cứu
• Từ kết quả của nhóm bệnh nhân,
suy diễn (infer) ra kết quả của
quần thể chung
Ví dụ: NC trên 50 bệnh nhân hội chứng gan-
thận tại khoa Tiêu hóa BV Bạch Mai
T HÔNG SỐ

• Khi đo lường, thu được các thông số (parameter):


• Thông số quần thể: population parameter
• Thông số mẫu: sample parameter
Ví dụ: tỉ lệ tử vong, nồng độ creatinine của BN hội chứng gan-thận

• Thông số mẫu = thông số quần thể???


• Gần như không bao giờ xảy ra
• Lí do:
• Sai số trong chọn mẫu (vd, tỉ lệ BN xuất huyết tiêu hóa của mẫu > quần thể)
• Sai số trong đo lường (vd, đo bằng những máy khác nhau)

• Thông số mẫu (ước lượng điểm) = thông số quần thể ± sai số


Ư ỚC LƯỢNG ĐIỂM

Ví dụ:
• Quần thể có 10000 cá thể, tỉ lệ
tăng huyết áp là 0.231.
• Lấy mẫu ngẫu nhiên 100 cá thể 10
lần, tính tỉ lệ tăng huyết áp.
• Các tỉ lệ (chấm màu cam, ước
lượng điểm) đều cách tỉ lệ THA
của quần thể (đường màu xanh)
một khoảng (sai số).
2
Phân bố
P HÂN BỐ CHUẨN

• Ví dụ: Nghiên cứu trên 1000 bệnh nhân thiếu máu, đánh giá Hb sau điều trị.
• Câu hỏi: Làm thế nào để báo cáo số liệu về Hb sau điều trị của cả 1000
bệnh nhân?
• Mô tả về phân bố (distribution) của số liệu định lượng:
• Độ tập trung (central tendency): các giá trị hay gặp nhất
• Độ phân tán (dispersion): các giá trị cách nhau bao xa
• Hình dáng phân bố (shape): một đỉnh/nhiều đỉnh, cân đối/xiên, lồi/dẹt

• Hai cách mô tả chính:


• Tham số (parametric): Trung bình, độ lệch chuẩn  phân bố chuẩn
• Phi tham số (non-parametric): Trung vị, khoảng tứ phân vị (IQR)
T HAM SỐ VS . P HI THAM SỐ

Tham số: sử dụng hàm mật độ xác suất (PDF) để biểu Phi tham số: không dự đoán được phân bố.
diễn phân bố của quần thể. Dự đoán được phân bố từ
các tham số.
K HI NÀO MÔ TẢ PHÂN BỐ BẰNG THAM SỐ ?

Khi lấy mẫu ngẫu nhiên từ một quần thể phân bố chuẩn

Quần thể (n=20000) Mẫu (n=200)


K HI NÀO MÔ TẢ PHÂN BỐ BẰNG THAM SỐ ?

Nếu lấy mẫu không ngẫu nhiên  mẫu có nguy cơ không phân bố chuẩn

Quần thể Lấy mẫu không ngẫu nhiên


K IỂM TRA “ TÍNH CHUẨN ” CỦA MẪU

• Do có nhiều yếu tố ảnh hưởng tới


việc lấy mẫu, người ta không thể
đảm bảo thông số của mẫu tuân
theo phân bố chuẩn
• Kiểm tra “tính chuẩn” của mẫu:
• Khi-bình phương của Pearson
• Kolmogorov–Smirnov (phi tham số)
• Shapiro–Wilk
• K-bình phương của D’Agostino

• Khi mẫu không chuẩn: xem xét mô


tả bằng trung vị (IQR)
Đ ỊNH LÍ GIỚI HẠN TRUNG TÂM

Định lí giới hạn trung tâm (Central limit theorem)


“Bất kể phân bố của quần thể như thế nào, nếu mẫu được lấy ngẫu nhiên
từ quần thể thì phân bố của các trung bình sẽ tiến về phân bố chuẩn khi
cỡ mẫu lớn.”

Quần thể Mẫu (N=5) Mẫu (N=30) Mẫu (N=100)


Lấy mẫu 100 lần, tính trung Lấy mẫu 100 lần, tính trung Lấy mẫu 100 lần, tính trung
bình mẫu bình mẫu bình mẫu
3
So sánh giữa các nhóm
K ỊCH BẢN NGHIÊN CỨU

• 2 nhóm bệnh nhân thiếu máu, điều trị bằng 2 phương pháp A và B.
• Đánh giá cải thiện Hb sau 1 tháng: ΔHb = Hb sau – Hb trước.
• Câu hỏi:
1. Biểu diễn kết quả nghiên cứu như thế nào?
2. So sánh hiệu quả điều trị giữa hai nhóm như thế nào?
S O SÁNH GIỮA CÁC NHÓM

• Trả lời:
• Nhóm A: trung bình ΔHb(A) [mA];
Nhóm B: trung bình ΔHb(B) [mB]
• Kiểm định để so sánh hai trung bình

• Kết quả của nghiên cứu hiện tại:


mB > mA
• Kết luận là phương pháp B tốt hơn
phương pháp A?
• KHÔNG được, vì kết quả của nghiên
cứu này chỉ là ước lượng điểm
S O SÁNH GIỮA CÁC NHÓM

• Nghiên cứu viên PHẢI đặt câu hỏi:


• Kết quả trong nghiên cứu này (sample) có phản ánh kết quả của TẤT CẢ bệnh nhân
(population) không?
• Giả thuyết thống kê:
H0: mB = mA
H1: mB > mA

• Nếu xác suất xảy ra H0 rất thấp (vd, < 0.05)  có thể bác bỏ H0, chấp nhận
H1  khác biệt có ý nghĩa thống kê
S O SÁNH GIỮA CÁC NHÓM

• Giá trị trung bình (mA, mB) trong


nghiên cứu này chỉ là ước lượng
điểm
• Cần dự đoán xem nếu lặp lại
nghiên cứu thêm vô số lần  giá
trị trung bình sẽ dao động như thế
nào?
• Lặp lại nghiên cứu thêm vô số lần
 quần thể giá trị trung bình
• So sánh hai quần thể giá trị trung
bình
S O SÁNH GIỮA CÁC NHÓM

• Vậy cần làm lại nghiên cứu thêm N lần?


• KHÔNG thể làm lại nghiên cứu
• Định lí giới hạn trung tâm: Cỡ mẫu ≥ 30  quần thể
giá trị trung bình sẽ gần về phân bố chuẩn
•  Dự đoán phân bố của quần thể giá trị trung bình từ
thông số mẫu

• Khoảng tin cậy 95%: Khi lặp lại phép đo 100


lần, có 95 lần khoảng này chứa giá trị trung
bình của quần thể
Hình: Lấy mẫu (N = 200) ngẫu nhiên 100 lần. Tính trung bình và
khoảng tin cậy 95% của mỗi lần. Có 94 lần khoảng này chứa giá trị
trung bình thật (đường kẻ màu xanh).
S O SÁNH GIỮA CÁC NHÓM

• Tính khoảng tin cậy 95% của mA và


mB (cách tính không đề cập ở đây)
• Nếu hai khoảng tin cậy này không
trùng nhau, xác suất để mA = mB
rất thấp
• Các phương pháp kiểm định tham
số (vd, t-test) có cùng cơ sở này
Hình: phân bố t của Student (99 bậc tự do)
của hai mẫu A và B. Khoảng tin cậy 95% của
kiểm định một phía được giới hạn trong
vùng tô màu.
S O SÁNH GIỮA CÁC NHÓM

• Để so sánh theo cơ sở này:


• Giả thuyết quần thể của giá trị trung bình gần với phân bố chuẩn
• Đòi hỏi cỡ mẫu của quần thể phải ít nhất 30 để áp dụng định lí giới hạn trung tâm
• Cỡ mẫu < 30: không áp dụng được CLT  không thể giả thuyết quần thể của giá trị
trung bình gần với phân bố chuẩn

• Cách giải quyết khi cỡ mẫu < 30:


• Chọn cách kiểm định không cần giả thuyết quần thể của giá trị trung bình tuân theo
phân bố chuẩn
•  Kiểm định phi tham số (Mann-Whitney U test, Wilcoxon sign-ranked test, Kruskal-
Wallis test, v.v.)
4
Tổng kết
T ỔNG KẾT

• Con số 30 là cỡ mẫu tối thiểu để áp dụng kiểm định tham số cho so


sánh hai trung bình (hoặc so sánh một trung bình với một giá trị)
• Con số 30 KHÔNG phải là cỡ mẫu tối thiểu để có ý nghĩa thống kê
• Việc tính cỡ mẫu tối thiểu phụ thuộc vào:
• Thiết kế nghiên cứu
• Mục tiêu nghiên cứu
• Phương pháp thống kê
K ẾT THÚC
Xin chân thành cảm ơn!

You might also like