You are on page 1of 47

Nghiên cứu khoa học

Xác định cỡ mẫu

Thái Thanh Trúc


Nội dung
• Sai lầm loại 1

• Sai lầm loại 2

• Sức mạnh thống kê

• Các công thức tính cỡ mẫu

• Tỉ lệ tham gia và mất mẫu

2
Tại sao cần tính cỡ mẫu?
• Muốn ước lượng một vấn đề sức khỏe được chính xác thì
cần đo lường toàn bộ dân số → không khả thi

• Cần có một số lượng đủ lớn để vừa đảm bảo tính khả thi,
vừa đảm bảo tính đúng đắn

• Từ ước lượng trong NC có thể suy diễn ra ước lượng của


toàn bộ dân số

• Cỡ mẫu sẽ có ảnh hưởng lớn đến

– Độ chính xác của ước lượng thống kê

– Tính khả thi và nguồn lực nghiên cứu

– Khả năng đại diện cho dân số nghiên cứu 3


Sai lầm loại 1
• Khả năng bác bỏ giả thuyết Ho khi Ho là đúng

• Khả năng hoài nghi một sự thật

• Mức ý nghĩa của kiểm định (alpha)

Sai lầm loại 2


• Khả năng chấp nhận giả thuyết Ho khi Ho sai

• Khả năng chấp nhận cái sai

– Beta → Sức mạnh thống kê (statistical power) 1- beta


4
Sai lầm loại 1 & loại 2
Ho đúng Ho sai
Bác bỏ Ho Sai lầm loại 1 Kết cuộc đúng
(p < 0,05) Dương tính giả Dương tính thật
Power
Chấp nhận Ho Kết cuộc đúng Sai lầm loại 2
(p>0,05) Âm tính thật Âm tính giả

Không bệnh Bệnh


Test dương tính Sai lầm loại 1 Kết cuộc đúng
Dương tính giả Dương tính thật
Power
Test âm tính Kết cuộc đúng Sai lầm loại 2
Âm tính thật Âm tính giả 5
Sai lầm loại 1 & loại 2
Ho đúng Ho sai
Bác bỏ Ho Sai lầm loại 1 Kết cuộc đúng
(p < 0,05) Dương tính giả Dương tính thật
Power
Chấp nhận Ho Kết cuộc đúng Sai lầm loại 2
(p>0,05) Âm tính thật Âm tính giả

Trong dân số
Trong Không có LQ Có LQ
Nghiên Kết luận có LQ Sai lầm loại 1 Power
(p < 0,05)
cứu
Kết luận không - Sai lầm loại 2
có LQ (p>0,05)
6
Sai lầm loại 1 & loại 2

• Thông điệp mang về nhà

– Không LQ mà kết luận có LQ : alpha

– Có LQ mà kết luận không LQ : beta

– Có LQ mà kết luận có LQ : power

• Bài tập

– Alpha = 0,07 có nghĩa là gì?

– Beta = 0,15 có nghĩa là gì?

– Power = 0,90 có nghĩa là gì? 7


Các cách tính cỡ mẫu
• Ước lượng một kết cuộc dựa vào
– Tỉ lệ
– Trung bình
– Nguy cơ tương đối, tỉ số nguy cơ
– Tỉ số số chênh
– Hệ số tương quan
– Tỉ số nguy hại (nghiên cứu sống còn)

• Kiểm định giả thuyết nhằm


– So sánh 2 tỉ lệ
– So sánh 2 trung bình
– So sánh 2 hệ số tương quan

• Dựa vào phương pháp phân tích số liệu


– Phân tích hồi quy đa biến
– Phân tích nhân tố
– Phân tích chẩn đoán 8
Cỡ mẫu để ước lượng một tỉ lệ

2
z p(1 − p)
n= 1− / 2
2
d
• n: cỡ mẫu tối thiểu cho NC

•  : sai lầm loại 1


• z1− / 2 : trị số từ phân phối chuẩn
• p: tỉ lệ ước lượng kết cuộc trong dân số

• d: sai số của ước lượng

9
Cỡ mẫu để ước lượng một tỉ lệ

z2
p(1 − p)
n= 1− / 2
2
d
• n: cỡ mẫu tối thiểu cho NC
•  : thường là 0,05
• z1− / 2 : nếu alpha = 0,05 thì Z = 1,96
• p: nghiên cứu trước, nghiên cứu thử (pilot), dữ liệu thứ cấp,
sự phán đoán của nhà nghiên cứu
• d: - p từ 0,3 đến 0,7 : d là 10%
- p từ 0,1 đến <0,3 hoặc p>0,7 đến 0,9 : d là 5%
- p <0,1 : d là p/2
- p>0,9 : d là (1-p)/2
10
Cỡ mẫu để ước lượng một tỉ lệ
• Ví dụ: một nghiên cứu muốn xác định tỉ lệ tuân thủ điều trị lao
tại Quận 8
– TH1: đã biết tỉ lệ từ các NC trước, trên đối tượng tương
đồng là 78%

z2
p(1 − p)
n= 1− / 2
2
d
•  : sai lầm loại 1 → 0.05
• z1− / 2 : trị số từ phân phối chuẩn → 1.96
• p: tỉ lệ ước lượng kết cuộc trong dân số → 0.78
• d: sai số của ước lượng → 0.05
→ n = 263.69 → cần 264 đối tượng cho NC
11
Cỡ mẫu để ước lượng một tỉ lệ
• Ví dụ: một nghiên cứu muốn xác định tỉ lệ tuân thủ điều trị lao
tại Quận 8
– TH2: không biết tỉ lệ từ các nghiên cứu trước

z2
p(1 − p)
n= 1− / 2
2
d
•  : sai lầm loại 1 → 0.05
• z1− / 2 : trị số từ phân phối chuẩn → 1.96
• p: tỉ lệ ước lượng kết cuộc trong dân số → 0.50
• d: sai số của ước lượng → 0.05
→ n = 384.16
→ cần 385 đối tượng cho nghiên cứu
12
Cỡ mẫu để ước lượng một tỉ lệ

z2
p(1 − p)
n= 1− / 2
2
d

• Alpha tăng thì n tăng hay giảm?

• p tăng thì n tăng hay giảm?

• d tăng thì n tăng hay giảm?

13
Sample size by type 1 error (Alpha) with d = 0.05, p = 0.5
700

664
600

542
500

471

422
400

385

354

329
300

307

288

271
0 .02 .04 .06 .08 .1
Alpha (Type 1 error)
Sample size by estimated proportion with alpha = 0.05, d = 0.05
400

385
381

381
369

369
350

350

350
323

323
300

289

289
250

246

246
200

196

196
150

139

139
0 .2 .4 .6 .8 1
Estimated proportion (p)
15
Sample size by marginal error with alpha = 0.05, p = 0.5
10000

9604
8000
6000
4000
2000

2401

1068

601

385

267

196

151
0

119

97
0 .02 .04 .06 .08 .1
Marginal error (d)
Cỡ mẫu để ước lượng một trung bình

• n: cỡ mẫu tối thiểu cho nghiên cứu

•  : sai lầm loại 1


• z1− / 2 : trị số từ phân phối chuẩn
• : độ lệch chuẩn ước lượng trong dân số

• d: sai số của ước lượng

17
Cỡ mẫu để ước lượng một trung bình
• VD: NC nhằm ước lượng trọng lượng sơ sinh trung bình tại
một bệnh viện với biên độ sai số chấp nhận là 20gram. Biết
rằng độ lệch chuẩn trọng lượng sơ sinh là 350gram.

•  : sai lầm loại 1 → 0.05


• z1− / 2 : trị số từ phân phối chuẩn → 1.96
• : độ lệch chuẩn ước lượng trong dân số → 350
• d: sai số của ước lượng → 20
→ n = 1176.4 → cần 1177 đối tượng cho NC
18
Cỡ mẫu để ước lượng một trung bình

• Khi alpha tăng thì n tăng hay giảm?

• Khi độ lệch chuẩn tăng thì n tăng hay giảm?

• Khi sai số d tăng thì n tăng hay giảm?

19
Sample size by type 1 error (Alpha) with d = 20, sd = 350
2000

2032

1658
1500

1443

1292

1177

1084
1000

1006

939

881

829
500

0 .02 .04 .06 .08 .1


Alpha (Type 1 error)
20
Sample size by estimated standard deviation with alpha = 0.05, d = 20
2500

2401
2000

1945
1500

1537
1177
1000

865
601
500

385
217
97
0

100 200 300 400 500


Estimated standard deviation (sd)
21
Sample size by marginal error with alpha = 0.05, sd = 350
5000

4706
4000
3000
2000
1000

1177

523

295

189

131

97
0

74

59

48

39

33

28

25

21

19

17

15

14

12
0 50 100 150 200
Marginal error (d)
22
Cỡ mẫu để đo lường nguy cơ tương đối

• p1: Tỉ lệ mắc bệnh trong nhóm không phơi nhiễm


• RR: nguy cơ mắc bệnh
• r: tỉ số cỡ mẫu giữa hai nhóm (không phơi nhiễm / phơi nhiễm) 23
Cỡ mẫu để đo lường nguy cơ tương đối
• VD: NC đoàn hệ nhằm xác định mối liên quan giữa hút thuốc lá và
nguy cơ ung thư phổi. Nhà NC cho rằng nguy cơ tương đối là vào
khoảng RR = 2,5. Biết rằng, ở những người không hút thuốc thì tỉ
lệ bị ung thư phổi là 8%. Cỡ mẫu cần thiết là:
• Alpha = 0.05
• Beta = 0.20 (power = 0.80)
• p1 = 0.08
• RR = 2.5
• r=1
→ n = 147 đối tượng mỗi nhóm
→ Cần tổng cộng 294 đối tượng cho NC
24
Cỡ mẫu để đo lường nguy cơ tương đối
• Alpha tăng thì n tăng hay giảm?

• Beta tăng thì n tăng hay giảm?

• p1 tăng thì n tăng hay giảm?

• RR tăng thì n tăng hay giảm?

• r tăng thì n tăng hay giảm?

25
Sample size by Alpha (Type 1 error) with beta = 0.2, p1 = 0.08, RR = 2.5, r = 1
450

422
400

366
350

334

312
300

294

278

266
250

256

246

238
0 .02 .04 .06 .08 .1
Alpha (Type 1 error)
26
Sample size by Beta (Type 2 error) with alpha = 0.05, p1 = 0.08, RR = 2.5, r = 1
500

462
400

380

330
300

294

264

238

216
200

196

178

162
100

0 .1 .2 .3 .4 .5
Beta (Type 2 error)
27
Sample size by Exposure in Control (p1) with alpha = 0.05, beta = 0.2, RR = 2.5, r = 1

2658
2500
2000
1500

1306
1000

856

632
500

496

406

342

294

256

226

202

180

164

148

136

124

114

106

98

90
0

0 .05 .1 .15 .2
Exposure in Control (p1)
28
Sample size by Odds Ratio (RR) with alpha = 0.05, beta = 0.2, p1 = 0.08, r = 1
2000

1864
1500
1000
500

566

294

188

134

102

80

66
0

1 2 3 4 5
Odds Ratio (RR)
29
Sample size by Ratio (Case / Control) (r) with alpha = 0.05, beta = 0.2, p1 = 0.08, RR = 2.5

564
550

528
500

485
450

450
412
400

378
350

342
312.5
300

294

1 2 3 4 5
Ratio (Case / Control) (r)
30
Cỡ mẫu để đo lường tỉ số số chênh

• p1: Tỉ lệ phơi nhiễm trong nhóm chứng


• OR: Tỉ số số chênh
• r: tỉ số cỡ mẫu giữa hai nhóm (không bệnh / bệnh) 31
Cỡ mẫu để đo lường tỉ số số chênh
• Alpha tăng thì n tăng hay giảm?

• Beta tăng thì n tăng hay giảm?

• p1 tăng thì n tăng hay giảm?

• OR tăng thì n tăng hay giảm?

• r tăng thì n tăng hay giảm?

32
Cỡ mẫu để ước lượng hệ số tương quan

• r: hệ số tương quan

33
Cỡ mẫu để ước lượng tỉ số nguy hại

• HR: Hazard Ratio

34
Cỡ mẫu để so sánh 2 tỉ lệ

• p1, p2: tỉ lệ của 2 nhóm cần so sánh

• r: tỉ số cỡ mẫu của 2 nhóm (nhóm 2 / nhóm 1)

• n2 = r x n1

35
Cỡ mẫu để so sánh 2 tỉ lệ

• p1, p2: tỉ lệ của 2 nhóm cần so sánh


• r: tỉ số cỡ mẫu của 2 nhóm (nhóm 2 / nhóm 1)
36
Cỡ mẫu để so sánh 2 tỉ lệ
• VD: NC nhằm so sánh hiệu quả điều trị của phương pháp
mới (PP2) so với phương pháp điều trị cổ điển (PP1).

• Tỉ lệ biến chứng của hai phương pháp được dùng để tính cỡ


mẫu.

• Tỉ lệ biến chứng của PP1 là 20%. Nhà NC tin rằng tỉ lệ biến


chứng của PP2 là 10%.

• p1 = 0.20; p2 = 0.10; alpha = 0.05; beta = 0.20; ratio (r) = 1

• Mỗi nhóm cần 219 đối tượng

→ Cần tổng cộng 438 đối tượng cho NC


37
Cỡ mẫu để so sánh 2 tỉ lệ
• Alpha tăng thì n tăng hay giảm?

• Beta tăng thì n tăng hay giảm?

• p1 ; p2 tăng thì n tăng hay giảm?

• r tăng thì n tăng hay giảm?

38
Sample size by Alpha with beta = 0.2, p1 = 0.2, p2 = 0.1, r = 1
700

634
600

550
500

500

466

438

416
400

396

380

366

354
300

0 .02 .04 .06 .08 .1


Alpha (Type 1 error)
39
Sample size by Beta with alpha = 0.05, p1 = 0.2, p2 = 0.1, r = 1
700

698
600

572
500

494

438
400

392

354

320
300

288

262

236
200

0 .1 .2 .3 .4 .5
Beta (Type 2 error) (beta)
40
Sample size by proportion in Group 1 with alpha = 0.05, beta = 0.2, p2 = 0.1, r = 1

438
400
300

226
200

144
100

102

76

60

50
0

.2 .3 .4 .5
Estimated proportino in Group 1 (p1)
41
Sample size by ratio Group 1 / Group 2 with alpha = 0.05, beta = 0.2, p1 = 0.2, , p2 = 0.1

726
700

682
640
600

594
552
500

511
474
447.5
438
400

1 2 3 4 5
Ratio (Group 1 / Group 2) (r)
42
Cỡ mẫu để so sánh 2 trung bình
• Khi có thông tin của từng nhóm

• Khi không có thông tin từng nhóm

43
Cỡ mẫu để so sánh 2 trung bình
• VD: NC nhằm so sánh tình trạng hô hấp (VO2max) ở hai nhóm
được can thiệp bằng hai chế độ an khác nhau.
• Chế độ ăn giàu dinh dưỡng (Atole) có trung bình VO2max;=
2.62; độ lệch chuẩn là 0.54.
• Chế độ ăn không giàu dinh dưỡng (Fresco) có trung bình là
2.34 và độ lệch chuẩn là 0.40.
• Alpha = 0.05; beta = 0.20
• m1 = 2.62; sd1 = 0.54
• m2 = 2.34; sd2 = 0.40
→ Cần 46 đối tượng mỗi nhóm
→ Cần tổng cộng 92 đối tượng trong NC

44
Cỡ mẫu để so sánh 2 trung bình
• Với NC trên nhưng không thể nào tìm được trung bình và độ
lệch chuẩn của từng nhóm thì có thể dựa vào d

• d = 0.2 ~ Small

• d = 0.5 ~ Medium

• d = 0.8 ~ Large

45
Tỉ lệ mất mẫu
• Tình huống: NC tính được cỡ mẫu là 400. Với ước đoán
10% mất mẫu. Số đối tượng cần thiết cho NC là bao nhiêu?

• Tỉ lệ mất mẫu / tỉ lệ tham gia nghiên cứu

– Vd: N = 400, tỉ lệ mất mẫu báo cáo trong các nghiên cứu
trước là 10% → N cần thiết cho nghiên cứu là 400 : (1 -
0.10) = 444.4 → cần 445 đối tượng
46
Nội dung đã học
• Sai lầm loại 1

• Sai lầm loại 2

• Sức mạnh thống kê

• Các công thức tính cỡ mẫu

• Tỉ lệ tham gia và mất mẫu

47

You might also like