You are on page 1of 14

ƯỚC TÍNH CỠ MẪU VÀ PHẦN MỀM TÍNH TOÁN CỠ MẪU

Phạm Đăng Quyết1


1
Hội thống kê Việt Nam
phamdangquyet@gmail.com

MỞ ĐẦU
Các kỹ thuật thống kê được sử dụng cho các mục đích như ước lượng các tham số của tổng
thể/ quần thể bằng cách sử dụng các ước lượng điểm hoặc ước lượng khoảng, phát triển các mô
hình, và kiểm định giả thiết. Đối với mỗi lần sử dụng, một mẫu phải được lấy từ tổng thể quan
tâm. Câu hỏi ngay lập tức sau đó là "mẫu nên lớn như thế nào?"

Nếu lấy mẫu là rất không tốn kém trong một ứng dụng cụ thể, chúng ta có thể bị lôi cuốn để
có được một mẫu rất lớn, và chưa chắc có một mẫu nhỏ trong ứng dụng lấy mẫu tốn kém. Dầu thế
nào, câu sáo "lớn hơn là tốt hơn" có thể gây ra những vấn đề mà người sử dụng các phương pháp
thống kê có thể không lường trước được.

Các câu hỏi về cỡ mẫu là phổ biến trong nghiên cứu. Trong các giáo trình thống kê hiện nay
chỉ đưa ra công thức tính cỡ mẫu cho trường hợp chọn mẫu ngẫu nghiên đơn giản. Việc tính toán
cỡ mẫu đơn giản này dựa vào công thức cơ bản, không tính đến thiết kế nghiên cứu, không tính
đến các thuật toán thống kê sử dụng trong thiết kế, tính toán đơn giản bằng calculator thông thường,
thường không chính xác, chỉ có tính chất giải trình đủ cho đề mục chọn mẫu và tính cỡ mẫu trong
đề cương báo cáo nghiên cứu.

Bài viết này trình bày việc tính toán cỡ mẫu nâng cao dựa vào một số phần mềm tính toán
cỡ mẫu tốt (ví dụ: PS Power and Sample Size), đề cập một số thiết kế nghiên cứu cơ bản + thuật
toán thống kê hay được sử dụng cho thiết kế đó + biến số/ dữ liệu liên quan, có công thức tính cỡ
mẫu cho giải trình, chính xác hơn so với tính toán cỡ mẫu đơn giản, tuy nhiên nó chưa được toàn
diện so với tính toán cỡ mẫu chuyên nghiệp.
Ước tính số lượng đối tượng (cỡ mẫu) cần thiết cho một nghiên cứu đóng vai trò cực kì quan
trọng, vì nó có thể là yếu tố quyết định sự thành công hay thất bại của nghiên cứu. Nếu số lượng
đối tượng không đủ thì kết luận rút ra từ công trình nghiên cứu không có độ chính xác cao, thậm
chí không thể kết luận gì được. Ngược lại, nếu số lượng đối tượng quá nhiều hơn số cần thiết thì
nguồn lực, tiền bạc và thời gian sẽ bị hao phí. Do đó, vấn đề then chốt trước khi nghiên cứu là phải
ước tính cho được một số đối tượng vừa đủ cho mục tiêu của nghiên cứu. Nếu một nghiên cứu
không có một cỡ mẫu tối ưu, ý nghĩa của các kết quả trong thực tế (sự khác biệt thực sự) có thể
không được phát hiện.
Số lượng đối tượng “vừa đủ” tùy thuộc vào loại hình nghiên cứu và hai thông số chính:

• Phương pháp thiết kế nghiên cứu và đo lường kết quả (outcome measure);

• Hệ số ảnh hưởng (effect size);

• Sai lầm mà nhà nghiên cứu chấp nhận, cụ thể là sai lầm loại I (mức ý nghĩa α) và II (hiệu
năng 1-β).
Không biết (hay chưa quyết định) được thiết kế nghiên cứu và không có số liệu về hai thông
số trên thì không thể nào ước tính cỡ mẫu. Kinh nghiệm cho thấy rất nhiều người khi tiến hành
nghiên cứu thường không có ý niệm gì về các số liệu này, cho nên khi đến tham vấn các chuyên
gia thống kê, họ chỉ nhận câu trả lời: “không thể tính được”! Trong bài viết này sẽ bàn qua hai
thông số trên và trình bày một số ví dụ nghiên cứu lâm sàng cụ thể về ước tính cỡ mẫu.

1. Thiết kế nghiên cứu và tiêu chí đo lường kết quả


1.1 Thiết kế nghiên cứu
Thông tin thứ nhất trong qui trình ước tính cỡ mẫu là thể loại nghiên cứu, bởi vì yếu tố này
có ảnh hưởng đến phương pháp phân tích thống kê và vì thế phương pháp ước tính cỡ mẫu. Có thể
phân biệt các thể loại nghiên cứu này dựa vào hai tiêu chí: thời gian và đặc tính. Về thời gian, các
nghiên cứu thu thập dữ liệu tại một thời điểm hiện tại được gọi là cross-sectional study (nghiên
cứu tiêu biểu một thời điểm); các nghiên cứu có định hướng theo dõi tình trạng sức khỏe của đối
tượng trong một thời gian, tức thu thập dữ liệu từng đối tượng nhiều lần (hiện tại và tương lai)
được gọi là prospective (hay longitudinal) study (nghiên cứu theo thời gian); và các nghiên cứu
được tiến hành hiện tại nhưng có định hướng tìm hiểu quá khứ (past) được gọi là retrospective
study.
Nghiên cứu tại một thời điểm hay cross-sectional study (được dịch theo nghĩa đen là “nghiên
cứu cắt ngang”). Đây là một thiết kế mà các nhà nghiên cứu chọn một quần thể một cách ngẫu
nhiên nhưng tiêu biểu cho một cộng đồng, tại một thời điểm nào đó. Nói cách khác, nhà nghiên
cứu thu thập dữ liệu chỉ một lần duy nhất của các đối tượng ngay tại thời điểm đó (hiện tại). Mục
đích chính của các nghiên cứu này là tìm hiểu tỷ lệ hiện hành (prevalence) của một bệnh nào đó,
hay tìm hiểu mối tương quan giữa một yếu tố nguy cơ và một bệnh.
Nghiên cứu đối chứng hay case-control study. Trong các nghiên cứu này, mục đích chính là
tìm hiểu mối liên hệ giữa một (hay nhiều) yếu tố nguy cơ (risk factors) và một bệnh rất cụ thể. Để
tiến hành nghiên cứu này, nhà nghiên cứu bắt đầu bằng một nhóm bệnh nhân và một nhóm đối
tượng không bệnh (đối chứng), và “đi ngược thời gian” tìm hiểu những yếu tố nguy cơ mà cả hai
nhóm phơi nhiễm trong quá khứ.
Nghiên cứu xuôi thời gian (longitudinal studies hay prospective study). Ngược lại với nghiên
cứu đối chứng (trường hợp nhà nghiên cứu biết ai mắc bệnh và ai không mắc bệnh), với các nghiên
cứu theo thời gian nhà nghiên cứu bắt đầu bằng một nhóm không mắc bệnh, và theo dõi một thời
gian sau để quan sát ai mắc bệnh hay không mắc bệnh trong thời gian đó. Ngược lại với nghiên
cứu đối chứng (trường hợp nhà nghiên cứu đi ngược về quá khứ để tìm hiểu ai bị phơi nhiễm yếu
tố nguy cơ), với các nghiên cứu theo thời gian, nhà nghiên cứu biết ngay từ lúc ban đầu ai bị phơi
nhiễm hay không phơi nhiễm yếu tố nguy cơ. Mục đích của các nghiên cứu xuôi thời gian thường
là ước tính tỷ lệ phát sinh (incidence) bệnh trong một thời gian (điều này khác với mục đích của
nghiên cứu tại một thời điểm là ước tính tỷ lệ hiện hành – tức prevalence – của bệnh). Ngoài ra,
các nghiên cứu theo thời gian còn cho phép nhà nghiên cứu tìm hiểu mối liên hệ giữa một hay
nhiều yếu tố nguy cơ và nguy cơ phát sinh bệnh tật. Khác với nghiên cứu cross-section chỉ ghi
nhận sự kiện tại một thời điểm, các nghiên cứu longitudinal phải theo dõi đối tượng trong một thời
gian có thể là nhiều năm tháng.

2
3

1.2 Tiêu chí đo lường kết quả


Sau khi đã xác định thể loại nghiên cứu, nhà nghiên cứu cần phải quyết định chọn một đo
lường kết quả chính (primary outcome measure) để căn cứ vào đó mà ước tính cỡ mẫu.
Chọn một biến/tiêu chí kết quả chính cũng giống như chọn món tráng miệng trong một nhà
hàng. Bạn có thể có nhiều sở thích, nhưng khi người phục vụ tới để lấy đơn đặt hàng của bạn, bạn
phải quyết định lựa chọn một món, mặc dù có thể bạn có thể nếm hương vị món tráng miệng của
mọi người khác. Món tráng miệng của mọi người khác cũng giống như biến kết quả thứ hai. Bạn
cũng có thể đánh giá chúng, nhưng đánh giá chính của bạn - cái gì xác định liệu câu hỏi nghiên
cứu được trả lời, hay liệu món tráng miệng lựa chọn là một thành công - phụ thuộc vào một biến
duy nhất.
Mặc dù có rất nhiều loại biến khác nhau, cho mục đích phân tích, chúng ta hoàn toàn có thể
đơn giản hóa chúng thành 2 loại là biến liên tục và biến phân loại. “Liên tục” ở đây bao gồm các
biến liên tục thực sự và biến sử dụng thang đo khoảng (interval). Trong khi đó biến phân loại bao
gồm biến nhị thức (dichotomous), định danh (nominal), và biến thứ bậc (ordinal). Biến số sử dụng
là liên tục hay phân loại sẽ quyết định cách chúng ta tóm tắt số liệu (trung bình hay tỷ lệ), hoặc
cách chúng ta lựa chọn kiểm định thống kê.
Quyết định chọn tiêu chí đo lường kết quả là một quyết định vừa mang tính thực tế, vừa
mang tính khoa học. Chẳng hạn như trong việc thẩm định hiệu quả của phương pháp truy tìm ung
thư, thì tỷ lệ phát hiện ung thư và điều trị không phải là tiêu chí có ý nghĩa thực tế, nhưng tỷ lệ tử
vong và thời gian sống sót sau khi truy tìm ung thư mới là tiêu chí có ý nghĩa lâm sàng và thực tế.
Mặc khác, tiêu chí phải đáp ứng các tiêu chuẩn khoa học về độ tin cậy và độ chính xác. Do đó,
việc chọn một tiêu chí đo lường kết quả cho nghiên cứu cần phải cân nhắc rất cẩn thận. Quyết định
chọn tiêu chí đo lường kết quả là một quyết định quan trọng, bởi vì nó có ảnh hưởng đến cỡ mẫu
rất lớn. Chẳng hạn như trong các nghiên cứu loãng xương, các nhà nghiên cứu có thể so sánh mật
độ xương hay tỷ lệ gãy xương giữa hai nhóm can thiệp để biết hiệu quả của thuốc. Nếu chọn mật
độ xương làm tiêu chí lâm sàng thì số lượng cỡ mẫu có thể sẽ là con số vài trăm bệnh nhân, nhưng
nếu chọn tỷ lệ gãy xương con số cỡ mẫu có thể lên đến vài chục ngàn đối tượng.
2. Khái niệm về hệ số ảnh hưởng (effect size)
Trong nghiên cứu so sánh các can thiệp khác nhau, hệ số ảnh hưởng là độ lớn của sự khác
biệt giữa các nhóm. Hệ số ảnh hưởng tuyệt đối là sự khác biệt giữa các trung bình, hoặc trung bình
các kết quả trong hai nhóm can thiệp khác nhau.
Hệ số ảnh hưởng, nói một cách đơn giản, là một chỉ số về độ ảnh hưởng của một thuật can
thiệp. Vì phản ảnh mức độ khác biệt, hệ số ảnh hưởng cho phép chúng ta tránh khỏi cách diễn dịch
giới hạn bởi ngôn ngữ nhị thức (như “có hay không có ảnh hưởng?”), và tập trung vào một cách
diễn dịch mang tính khoa học hơn (như “mức độ ảnh hưởng cao hay thấp cỡ nào?”)

Công thức chung cho ước tính hệ số ảnh hưởng (viết tắt ES) là:
Trong đó:

• ̅̅̅
𝑥1 là số trung bình của nhóm can thiệp;

• ̅̅̅
𝑥0 là số trung bình của nhóm đối chứng; và

• 𝑠0 là độ lệch chuẩn của nhóm đối chứng.


Nên nhớ rằng độ lệch chuẩn có cùng đơn vị đo lường với độ ảnh hưởng trung bình, cho nên
hệ số ảnh hưởng không có đơn vị.

Hệ số ảnh hưởng là phát hiện chính của nghiên cứu định lượng. Trong khi giá trị P có thể
thông báo liệu một ảnh hưởng tồn tại, giá trị P sẽ không tiết lộ mức độ của ảnh hưởng. Trong báo
cáo và nghiên cứu diễn giải, cả ý nghĩa thực chất (hệ số ảnh hưởng) và ý nghĩa thống kê (giá trị P)
là kết quả cần được báo cáo.

3. Sai lầm loại I, II và khái niệm về hiệu năng (power)

3.1 Sai lầm loại I và II


Thống kê học là một phương pháp khoa học có mục đích phát hiện, hay đi tìm những cái có
thể gộp chung lại bằng cụm từ “chưa được biết” (unknown). Cái chưa được biết ở đây là những
hiện tượng chúng ta không quan sát được, hay quan sát được nhưng không đầy đủ. Cái chưa biết
có thể là một ẩn số (như chiều cao trung bình ở người Việt Nam, hay trọng lượng một phần tử),
hiệu quả của một thuật điều trị, tỷ lệ hiện hành (prevalence), tỷ lệ phát sinh (incidence) của bệnh,
v.v… Chúng ta có thể đo chiều cao, hay tiến hành xét nghiệm để biết hiệu quả của thuốc, nhưng
các nghiên cứu như thế chỉ được tiến hành trên một nhóm đối tượng, chứ không phải toàn bộ quần
thể. Vấn đề là sử dụng kết quả của một nhóm đối tượng để suy luận cho một quần thể lớn hơn.
Mục đích của ước tính cỡ mẫu là tìm số lượng đối tượng sao cho suy luận đó đạt độ chính xác cao
nhất và đầy đủ nhất. Ở mức độ đơn giản nhất, những cái chưa biết này có thể xuất hiện dưới hai
hình thức: hoặc là có, hoặc là không. Chẳng hạn như một thuật điều trị có hay không có hiệu quả
chống gãy xương. Bởi vì không ai biết hiện tượng một cách đầy đủ, chúng ta phải đặt ra giả thiết.
Giả thiết đơn giản nhất là giả thiết không (hiện tượng không tồn tại, kí hiệu Ho) và giả thiết thay
thế (hiện tượng tồn tại, kí hiệu Ha).

Kiểm định giả thiết đòi hỏi, trước hết, và không ngạc nhiên, các giả thiết! Đó là, hai tuyên
bố cạnh tranh về một tham số hoặc các tham số (đặc trưng của một quần thể). Trong ngữ cảnh của
ước tính cỡ mẫu, các tham số thường là trung bình hoặc tỷ lệ của biến kết quả quan tâm quan trọng.
Giả thiết không là trạng thái giả thiết giữ nguyên trạng, không có sự khác biệt, không có ảnh hưởng,
hoặc không thay đổi. Giả thiết thay thế thường được gọi là giả thiết nghiên cứu. Nó thể hiện một
sự khác biệt giữa các nhóm, một ảnh hưởng thực sự, và sự từ bỏ nguyên trạng.

Chúng ta sử dụng các phương pháp kiểm định thống kê (statistical test) như kiểm định t, F,
z, χ2, v.v… để đánh giá khả năng của giả thiết. Kết quả của một kiểm định thống kê có thể đơn
giản chia thành hai giá trị: hoặc là có ý nghĩa thống kê (statistical significance), hoặc là không có
ý nghĩa thống kê (non-significance). Có ý nghĩa thống kê ở đây thường dựa vào trị số P: thông
thường, nếu P < 0.05, chúng ta phát biểu kết quả có ý nghĩa thống kê; nếu P > 0.05 chúng ta nói
kết quả không có ý nghĩa thống kê.
4
5
Mức ý nghĩa thống kê α = 0.05; P = xác suất để giả thiết Ho đúng.

Một kiểm định giả thiết lên đến đỉnh điểm với một kết luận về một trong hai giả thiết được
hỗ trợ bởi các dữ liệu có sẵn. Kết luận có thể là đúng hay sai. Và các nhà thống kê đã phân loại
cách thức mà kết luận có thể đúng hoặc không đúng. Sai lầm trong kết luận tưởng tượng được gọi
là sai lầm loại I hoặc loại II. Nếu chúng ta bác bỏ Ho (chấp nhận Ha) khi trong thực tế Ho đúng,
đó là sai lầm loại I. Nếu chúng ta chấp nhận Ho (bác bỏ Ha) khi trong thực tế Ha đúng, đó là sai
lầm loại II.

Bảng 1. Tóm tắt các kết quả có thể xảy ra của bất kỳ kiểm định giả thiết

Hiệu năng là xác suất bác bỏ một cách chính xác giả thiết không. Ví dụ, kết luận rằng có một
sự khác biệt khi, trên thực tế, thực sự là có sự khác biệt!

Tính toán cỡ mẫu thường được gọi là tính toán hiệu năng, cho bạn biết khái niệm hiệu năng
là rất quan trọng như thế nào tới toàn bộ thực hành.

4. Phương pháp ước tính cỡ mẫu


Như đã đề cập trong phần đầu, để ước tính số đối tượng cần thiết cho một công trình nghiên
cứu, ngoài thể loại nghiên cứu, chúng ta cần phải có 3 số liệu: xác suất sai lầm loại I, hiệu năng
(power), và hệ số ảnh hưởng. Số lượng cỡ mẫu là hàm số của ba thông số này. Gọi n là số lượng
cỡ mẫu cần thiết, α là sai số loại I, β là sai số loại II (tức 1-β là power), hệ số ảnh hưởng là ES, thì
công thức chung để ước tính cỡ mẫu là:

Trong đó, zα/2 và zβ là những hằng số (thật ra là số độ lệch chuẩn) từ phân phối chuẩn tắc
(standardized normal distribution) cho xác suất sai số α và β. Bởi vì, trong công thức trên ES là
mẫu số, cho nên nếu ES thấp thì số lượng cỡ mẫu sẽ tăng; ngược lại, nếu ES cao thì số lượng cỡ
mẫu sẽ giảm.

Trong thực tế, ước tính hệ số ảnh hưởng thường cần thiết trước khi bắt đầu nỗ lực nghiên
cứu, để tính toán số lượng các đối tượng có thể được yêu cầu để tránh sai lầm loại II, hoặc sai số
β, là xác suất kết luận không có ảnh hưởng khi một ảnh hưởng thực sự tồn tại. Nói cách khác, bạn
phải xác định số lượng đối tượng trong nghiên cứu sẽ là đủ để đảm bảo (với một mức độ cụ thể
của sự chắc chắn) rằng nghiên cứu có hiệu năng chấp nhận được để ủng hộ giả thiết không. Đó là,
nếu không có sự khác biệt được tìm thấy giữa các nhóm, thì đây là một phát hiện đúng sự thật.

Vì ảnh hưởng như thế, hệ số ảnh hưởng phải được giả định trước khi tính toán. Đây là thông
số không phải lúc nào cũng có sẵn, cho nên nhà nghiên cứu cần phải xem xét các nghiên cứu trước
hay độ ảnh hưởng có ý nghĩa thực tế để tính toán cỡ mẫu. Về xác suất sai số, thông thường một
nghiên cứu chấp nhận sai số loại I khoảng 1% hay 5% (tức α = 0.01 hay 0.05), và xác suất sai số
loại II khoảng β = 0.1 đến β = 0.2 (tức power phải từ 0.8 đến 0.9). Mỗi trường hợp gắn liền với
một hằng số zα/2 và zβ như vừa đề cập.

Hiệu năng

Hai hằng số này có thể tóm gọn bằng công thức C = (zα/2 + zβ)2 . C được xác định bởi luật
phân phối chuẩn tắc như trình bày trong Bảng 4 dưới đây. Chẳng hạn như nếu muốn α = 0.05 và
power = 0.80, thì hằng số C là 7.85.
Bảng 2: Hằng số C liên quan đến sai số loại I và II

5. Design effect – Hiệu ứng thiết kế


 Các công thức tính cỡ mẫu dựa trên phương pháp chọn mẫu ngẫu nhiên đơn giản (simple
random) cho một giai đoạn.

 Với các nghiên cứu dùng các phương pháp chọn mẫu nhiều giai đoạn, để hiệu chỉnh cho
sự khác biệt giữa thiết kế lựa chọn và chọn mẫu ngẫu nhiên đơn giản, hiệu ứng thiết kế design
effect DEFF được sử dụng để tính cỡ mẫu.

6
7
 DEFF hiệu ứng thiết kế là tỷ lệ giữa phương sai khi dùng cách chọn mẫu trong thiết kế lựa
chọn với phương sai khi dùng phương pháp ngẫu nhiên đơn giản.
 Hiệu ứng DEFF = 3 có nghĩa phương sai mẫu lớn gấp 3 lần phương sai mẫu nếu dùng chọn
mẫu ngẫu nhiên đơn giản.

 DEFF được tính dựa trên kết quả nghiên cứu tương tự đã làm trên quần thể đó, nếu không
có nghiên cứu tương tự thì DEFF được ước tính.
 Với chọn mẫu 2 giai đoạn – thường sử dụng trong khảo sát hộ gia đình hoặc điều tra dịch
tễ - DEFF = 2.

 Như vậy cỡ mẫu thực sự cần của các nghiên cứu sẽ = cỡ mẫu tính cho chọn mẫu ngẫu
nhiên đơn giản x DEFF.
 Trong nghiên cứu điều tra chọn mẫu 2 giai đoạn cỡ mẫu thường được x 2 (DEFF = 2).

Làm thế nào để giảm DEFF


 Tăng số lượng cụm/chùm;

 Giảm số cá thể chọn tại các cụm;


 Số lượng cá thể chọn tại các cụm bằng nhau;

 Dùng phương pháp chọn mẫu ngẫu nhiên hệ thống để chọn đối tượng tại giai đoạn cuối
của chọn mẫu.

Các yếu tố cân nhắc trước khi tính cỡ mẫu


 Xác định loại số liệu: ước tính hay so sánh tỷ lệ, tỷ suất, giá trị trung bình, độ lệch chuẩn;

 Xác định kiểm định thống kê sử dụng: kiểm định một mẫu hay kiểm định 2 mẫu (one-
sample test or two-sample test);
 Sử dụng kiểm định thống kê so sánh một chiều hay hai chiều: one-side or two sides test;
 Xác định các trị số cho hiệu năng mẫu (power), độ chính xác tuyệt đối, khác biệt;

 Lựa chọn công thức tính cỡ mẫu;

 Xác định DEFF design effect;

 Lựa chọn phương pháp tính cỡ mẫu – tính tay hoặc sử dụng phần mềm ước tính cỡ mẫu.

6. Các phần mềm ước tính cỡ mẫu


Có rất nhiều gói phần mềm để thực hiện tính toán cỡ mẫu/ hiệu năng, ví dụ:

 OpenEpi
 PS – Power and Sample Size Calculation

 EpiCalc 2000

 PASS – Power Analysis and Sample Size11 (commercial software)


 Stata (commercial software)

 Web-based calculator
PS có lẽ là lựa chọn phần mềm tốt nhất, vì nó bao gồm các thiết kế nghiên cứu thông dụng
nhất được sử dụng, là tương đối dễ sử dụng và quan trọng, là tải về dễ dàng và miễn phí. Ngoài ra,
người dùng có thể khám phá sở thích của cá nhân cho riêng mình.

7. Những ví dụ về sử dụng PS
PS là một chương trình máy tính tương tác để thực hiện tính toán hiệu năng và cỡ mẫu.
Chương trình PS có thể được sử dụng cho nghiên cứu với các đo lường nhị thức, liên tục, hoặc câu
trả lời về sống còn. Người dùng chỉ rõ các giả thiết thay thế về tỷ lệ trả lời khác nhau, trung bình,
thời gian sống, nguy cơ tương đối, hoặc tỷ lệ nguy cơ. Các thiết kế nghiên cứu độc lập hay cặp đôi
(phù hợp) có thể được sử dụng. Hiệu năng, cỡ mẫu, và các giả thiết thay thế phát hiện được là quan
hệ với nhau. Người dùng chỉ rõ hai trong ba đại lượng này và chương trình thu được đại lượng thứ
ba. Mô tả mỗi tính toán, được viết bằng tiếng Anh, được tạo ra và có thể sao chép được vào các tài
liệu của người dùng. Hỗ trợ tương tác là có sẵn. Chương trình cung cấp các phương pháp phù hợp
cho kiểm định t cặp đôi và độc lập, phân tích sống còn, nghiên cứu phù hợp và không phù hợp về
các sự kiện nhị thức, kiểm định Mantel-Haenszel, và hồi quy tuyến tính. Chương trình có thể tạo
ra các đồ thị của các mối quan hệ giữa hiệu năng, cỡ mẫu và các giả thiết thay thế phát hiện
được. Nó có thể vẽ đồ thị của bất kỳ hai trong các đại lượng này trong khi duy trì đại lượng thứ ba
không đổi. Các trục tuyến tính hoặc logarit có thể được sử dụng và nhiều đường cong có thể được
vẽ trên mỗi đồ thị. Đồ thị có thể được sao chép và dán vào tài liệu khác hoặc các chương trình để
chỉnh sửa thêm.

Vào PS và bạn sẽ thấy một màn hình như


sau:

Như bạn thấy, có rất nhiều khả năng tính toán để chọn lựa, và chỉ có một phần của các lựa
chọn này được trình bày tiếp trong các màn hình tiếp theo. Để có thể chọn được đúng cách tính
toán phù hợp bạn cần phải hiểu rõ về kế hoạch phân tích của bạn. Nếu bạn không thể viết được
những mô tả chi tiết hoặc những giả thiết khoa học cho câu hỏi nghiên cứu của bạn thì bạn sẽ
không thể lựa chọn được cách tính toán phù hợp giữa rất nhiều lựa chọn trên.

8
9
Với các ví dụ sau đây, hãy giả định rằng nghiên cứu vẫn ở giai đoạn thiết kế, và các nhà
nghiên cứu muốn đảm bảo tính tin cậy của thống kê mô tả, và cỡ mẫu phù hợp cho kiểm định giả
thiết nghiên cứu.

7.1 Ước tính cỡ mẫu cho một trung bình


Tính cỡ mẫu để ước tính chiều cao đàn ông
Việt với sai số  trong vòng 1 cm. Biết rằng độ
lệch chuẩn trong các nghiên cứu trước đây là 4.6
cm với khoảng tin cậy 95%, hay sai số =0.05 và
sai số =0.2 (hiệu năng mẫu=0.8).

Để tính cỡ mẫu cần thiết ta làm như sau: Từ


thực đơn trên màn hình chọn t-test, hộp Output
chọn Sample size, hộp Design chọn Paired, Input
α=0.05, power=0.8, σ=4.6, =1, nhấp chuột lên
Calculate. Màn hình sẽ hiển thị hộp Sample Size
với kết quả là 168.

Nói cách khác, chúng ta cần phải đo chiều cao ở 168 đối tượng để ước tính chiều cao đàn
ông Việt với sai số trong vòng 1 cm. Nếu sai số chấp nhận là 0.5 cm (thay vì 1 cm), số lượng đối
tượng cần thiết là 666. Qua các ước tính này, chúng ta dễ dàng thấy cỡ mẫu tùy thuộc rất lớn vào
độ sai số mà chúng ta chấp nhận. Muốn có ước tính càng chính xác, chúng ta cần càng nhiều đối
tượng nghiên cứu.

7.2 Ước tính cỡ mẫu cho hai nhóm độc lập


Một nghiên cứu đã đề xuất mong muốn tìm hiểu ảnh hưởng của một loại thuốc tăng huyết
áp mới (nhóm can thiệp) so với điều trị thông thường (nhóm đối chứng). Các nghiên cứu trước cho
thấy rằng tối thiểu khác biệt lâm sàng quan trọng là 15 mmHg và độ lệch chuẩn gộp (σ) là 20mmHg.

Sử dụng phần mềm PS (hình bên)


người ta ước tính rằng 29 đối tượng sẽ là cần
thiết trong mỗi nhóm đối chứng và can thiệp
(mức α = 0.05, hiệu năng 80%) để phát hiện
một sự khác biệt có ý nghĩa thống kê trong
huyết áp trung bình giữa hai nhóm (nếu nó
tồn tại). Tăng khác biệt trung bình đến 20
mmHg sẽ yêu cầu 17 người tham gia mỗi
nhóm, tức là giảm đáng kể cỡ mẫu. Giảm σ
đến 10 mmHg sẽ yêu cầu chỉ có năm người
tham gia trong mỗi nhóm.
7.3 Ước tính cỡ mẫu cho hai tỷ lệ (Chi-square test)

Một can thiệp nâng cao sức khỏe để


giảm hút thuốc sẽ được giới thiệu trong một
đất nước với tỷ lệ hiện hành hút thuốc cao. Tỷ
lệ hút thuốc hiện tại trong một báo cáo công
bố gần đây là 65% và ước tính rằng sự can
thiệp sẽ làm giảm mức độ hút thuốc gần 30%.
Một cỡ mẫu là 42 trong mỗi nhóm được yêu
cầu (P = 0.05, hiệu năng 80%). Tăng mức
hiệu năng tới 90% đòi hỏi cỡ mẫu 56 cho mỗi
nhóm.

7.4 Ước tính cỡ mẫu cho hai nhóm cặp đôi (paired t-test)

Có bằng chứng cho thấy clofirate thay


đổi giá trị trung bình mức cholesterol?
Cholesterol được đo trước và sau khi nhận
được clofirate. Từ nghiên cứu trước, một sự
khác biệt trung bình 40 mg/dl được coi là lâm
sàng có ý nghĩa, với độ lệch chuẩn là 50. Một
cỡ mẫu 14 là cần thiết (P = 0.05, hiệu năng
80%), nếu P = 0.01 đòi hỏi 21 đối tượng, tức
là cỡ mẫu tăng lên.

7.5 Tính toán hiệu năng sau nghiên cứu

Nghiên cứu cholesterol đề cập trên đã


được tiến hành, nhưng do kết quả tỷ lệ trả lời/
bỏ cuộc không cao, chỉ có 12 bệnh nhân được
tuyển chọn. Khác biệt trung bình là 50 và σ là
60 mg/dl được tìm thấy. Hiệu năng của nghiên
cứu này là bao nhiêu? Thực hiện một phân tích
hồi cứu cho hay hiệu năng là 75%, có nghĩa là
nghiên cứu là dưới mức hiệu năng chấp nhận
được vì nó nhỏ hơn 80%.

10
11
8. Tính toán cỡ mẫu chuyên nghiệp
Dựa vào phần mềm tính toán cỡ mẫu chuyên nghiệp, trong gói SAS, hoặc chuyên nghiệp
với n-query. Phần mềm rất đắt (cỡ 1 triệu USD cho SAS, 1050 USD cho nquery).

Nghiên cứu viên nhập thiết kế nghiên cứu, thuật toán thống kê sử dụng và các dữ liệu liên
quan đến biến số vào phần mềm để tính ra cỡ mẫu. Nghiên cứu viên có thể phân tích độ nhạy mối
liên quan giữa hiệu năng và cỡ mẫu. Nghiên cứu viên phải có kiến thức chuyên sâu về thiết kế
nghiên cứu và các thuật toán thống kê để có thể sử dụng được phần mềm cũng như phiên giải kết
quả.

Dưới đây là hình ảnh 4 bước sử dụng phần mềm nquery tính toán cỡ mẫu:
hiệu năng

12
13

hiệu năng

TÓM TẮT VÀ KẾT LUẬN


- Như đã nói ở trên, cách tính cỡ mẫu chỉ cho chúng ta một ước lượng thô của cỡ mẫu cần
thiết bởi vì nó dựa trên sự ước đoán về giá trị của thông số, quyết định chủ quan của chúng ta về
hậu quả mà chúng ta muốn phát hiện và công thức được sử dụng là công thức gần đúng. Do đó con
số tính ra giúp chúng ta phân biệt giữa cỡ mẫu 50 và 100 chứ không phân biệt cỡ mẫu 50 và 53.

- Chúng ta phải cân đối giữa điều chúng ta mong muốn và tính khả thi. Ðôi khi có thể dùng
công thức tính cỡ mẫu để đi ngược lại năng lực của nghiên cứu. Thí dụ nếu chúng ta có một kinh
phí hạn chế để thực hiện một nghiên cứu nên chỉ có một cỡ mẫu nhất định. Chúng ta có thể tính
ngược lại từ cỡ mẫu để biết năng lực của nghiên cứu. Nếu hóa ra năng lực của nghiên cứu rất thấp
(thí dụ như 20%) tốt nhất chúng ta không nên tiến hành nghiên cứu vì chúng ta đã nắm chắc kết
quả thất bại.

- Nếu một nghiên cứu có nhiều mục tiêu thì cỡ mẫu đủ cho một mục tiêu này có thể không
đủ cho mục tiêu khác. Ðể tính cỡ mẫu, tốt nhất phải chú trọng vào biến số (hoặc những biến số
quan trọng nhất).

- Tính cỡ mẫu không khó, cái khó là phải cung cấp những giả định của nghiên cứu: sai lầm
loại I, hiệu năng, năng lực nghiên cứu, sự khác biệt mà chúng ta muốn phát hiện.

- Trong cách tính cỡ mẫu ước lượng một tỷ lệ, chúng ta thấy có một tham số Design effect.
Tham số dùng để điều chỉnh nếu chúng ta lấy mẫu theo cụm. Do đó nếu ta lấy mẫu ngẫu nhiên đơn
giản thì Design effect=1. Nếu chúng ta lấy mẫu theo cụm thì tham số này sẽ lớn hơn 1 và độ lớn
cụ thể thì phụ thuộc vào mức độ không đồng nhất giữa các cụm.

- Nếu chúng ta lấy mẫu theo cụm thì chọn Design effect là bao nhiêu? Thông thường chúng
ta có thể tham khảo các nghiên cứu trước hoặc làm nghiên cứu thử nghiệm (pilot) để xác định mức
độ không đồng nhất. Nếu chúng ta có kinh nghiệm chúng ta có thể dùng trực giác để phán đoán
design effect. Nếu chúng ta không có kinh nghiệm, không tìm được tài liệu tham khảo và không
thể tiến hành nghiên cứu pilot, chúng ta chọn Design effect = 2 để có cỡ mẫu đảm bảo an toàn
(Design effect hiếm khi nào lớn hơn 2).
Bạn phải nhận thức được rằng sự lựa chọn các kiểm định thống kê chính xác là cực kỳ quan
trọng trong giai đoạn phân tích thống kê. Tham luận này đã mô tả quá trình tính toán cỡ mẫu bao
gồm các định nghĩa và cung cấp các ví dụ minh họa cho các thiết kế nghiên cứu khác nhau liên
quan. Một loạt các gói phần mềm cũng được giới thiệu. Thông tin này là hữu ích cho các nhà
nghiên cứu để thực hiện tính toán cỡ mẫu cho các dự án nghiên cứu của mình.

TÀI LIỆU THAM KHẢO


[1]. Đại học Y t ế công cộ ng, Thống kê y t ế II_ Phân t ích số liệu, Bộ môn Thố ng kê
– T in họ c, Hà Nộ i, 2004.
[2]. N g u y ễ n V ă n T u ấ n , P h ư ơ n g p h á p ư ớ c t í n h c ỡ m ẫ u c h o m ộ t n g h i ê n c ứ u y
h ọ c , www.ykhoa.net / baigiang/ la msangt hongke/ lst k_uoc tinhco mau.pdf
[3]. N g u y ễ n T r ư ơ n g N a m , X á c đ ị n h c ỡ m ẫ u n g h i ê n c ứ u , V i ệ n n g h i ê n c ứ u Y
x ã h ộ i h ọ c , t hongke. info.vn/Download.aspx/.../1/ISMS_T inht oan_CoMau.pdf
[4]. Evie McCrum-Gardner, “Sample size and power calculat io ns made simple ”,
Int ernat ional Jour nal of T herap y and Rehabilit at ion, Januar y 2010, Vol 17, No
1.

14

You might also like