You are on page 1of 93

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC Y KHOA

PHƯƠNG PHÁP LUẬN TRONG


NGHIÊN CỨU KHOA HỌC Y HỌC
(Giáo trình sau đại học)

NHÀ XUẤT BẢN Y HỌC


HÀ NỘI, 2007
Chủ biên:
PGS.TS ĐỖ HÀM

Tham gia biên soạn:


PGS.TS ĐỖ HÀM
PGS.TS NGUYỄN THÀNH TRUNG
PGS.TS NGUYÊN VĂN SƠN

Thư ký biên soạn:


PGS.TS NGUYỄN VĂN SƠN
LỜI NÓI ĐẦU

Nghiên cứu khoa học luôn là vấn đề không thể thiếu ở mọi ngành, mọi nghề, đặc
biệt trong giai đoạn công nghiệp hoá, hiện đại hoá đất nước. Trong Y học, nghiên cứu
khoa học vừa mang tính chất khai phá, đúc kết các vấn đề vừa có tính lý thuyết vừa
mang tính chất thực tiễn cao. Ngoài những vấn đề chung, cơ bản về phương pháp luận
ngày nay toán học đã xâm nhập vào hầu hết các ngành kinh tế xã hội. Toán thống kê
ứng dụng trong Y học là một minh chứng rõ rệt. Thông qua ứng dụng toán thống kê
các vấn đề Y học đã được lượng giá hoặc khái quát hoá một cách chuẩn xác. Các kết
quả nghiên cứu khoa học của các nhà chuyên môn nhờ đó mà đáng tin cậy hơn, giá trị
khoa học được nâng lên cả về mặt lý thuyết cũng như thực tiễn. Đối với mỗi một cán
bộ thực hiện công tác nghiên cứu và phục vụ trong lĩnh vực Y học đều cần thiết phải
có những kiến thức cơ bản về phươngpháp luận nói chung trong nghiên cứu khoa học
đồng thời cũng phải biết xử lý, kiểm định được các kết quả nghiên cứu và phục vụ của
mình. Trải qua nhiều năm giảng dạy và nghiên cứu khoa học, phục vụ sự nghiệp bảo
vệ sức khoẻ nhân dân, đặc biệt là qua nhiều khoá đào tạo sau đại học từ năm 1997
đến nay, chúng tôi đã từng bước rút kinh nghiệm để hoàn chỉnh cuốn “Phương pháp
luận trong nghiên cứu khoa học Y học” Cuốn sách bao gồm hai phần:
Phần I: Là những vấn đề chung về phương pháp luận trong nghiên cứu Y học
Phần II: Gồm các thuật toán thống kê cơ bản ứng dụng trong nghiên cứu và
kiểm định các kết quả nghiên cứu Y học ở các mức độ khác nhau.
Trong tương lai, cùng với sự phát triển về mọi mặt của nền kinh tế nước nhà,
công tác nghiên cứu khoa học sẽ ngày càng phát triển, trong đó có nghiên cứu Y học.
Cuốn “Phương pháp luận trong nghiên cứu Y học” cùng với các tư liệu được minh
chứng có thể hỗ trợ ít nhiều cho các bạn đồng nghiệp những kiến thức cơ bản ứng
dụng trong thực tiễn nghiên cứu khoa học. Do đặc điểm của các vấn đề khoa học là
rộng lớn, với kinh nghiệm của nhóm tác giả ít nhiều còn nhiều hạn chế nên cuốn sách
chắc chắn sẽ còn nhiều khiếm khuyết và chưa đầy đủ. Kính mong các quý vị độc giả,
các bạn đồng nghiệp đóng góp ý kiến để lần biên soạn sau cuốn sách sẽ được hoàn
chỉnh hơn.
Xin chân thành cảm ơn!

THAY MẶT NHÓM TÁC GIẢ


PGS.TS ĐỖ HÀM

1
MỤC LỤC
Trang
LỜI NÓI ĐẦU............................................................................................................................ 1
Phần I: ĐẠI CƯƠNG VỀ PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC.............................. 4
KHÁI NIỆM CƠ BẢN VỀ PHƯƠNG PHÁP LUẬN ................................................5
1. Khoa học, kỹ thuật và công nghệ trong quá trình phát triển ...............................5
2. Các lĩnh vực, phương pháp nghiên cứu...............................................................7
3. Đặc thù của nghiên cứu y học ...........................................................................10
CÁC PHƯƠNG PHÁP NGHIÊN CỨU THÔNG DỤNG ........................................12
1. Nghiên cứu mô tả ..............................................................................................12
2. Nghiên cứu phân tích.........................................................................................15
XÂY DỰNG ĐỀ CƯƠNG NGHIÊN CỨU KHOA HỌC........................................20
1. Đặt vấn đề..........................................................................................................20
2. Nội dung của đề cương nghiên cứu...................................................................20
3. Một số điểm cần lưu ý .......................................................................................21
CÁC BIẾN TRONG NGHIÊN CỨU........................................................................22
1. Phân loại các biến số .........................................................................................22
2. Các yếu tố nhiễu ................................................................................................23
3. Ý nghĩa của việc phân loại biến số....................................................................23
CHỌN MẪU TRONG NGHIÊN CỨU KHOA HỌC...............................................26
1. Các loại mẫu trong nghiên cứu..........................................................................26
2. Ước lượng mẫu nghiên cứu mô tả thông qua tỷ lệ ............................................32
3. Ứớc lượng mẫu nghiên cứu mô tả thông qua số trung bình và độ lệch chuẩn..33
4. Ước lượng cỡ mẫu cho nghiên cứu bệnh chứng ...............................................35
5. Tính cỡ mẫu cho nghiên cứa thuần tập (Cohort study) .....................................35
6. Chọn mẫu cho nghiên cứu can thiệp .................................................................36
CÁCH THU THẬP VÀ TRÌNH BÀY SỐ LIỆU NGHIÊN CỨU ...........................37
1. Thu thập số liệu .................................................................................................37
2. Điều tra bằng phiếu hỏi .....................................................................................37
3. Trình bày các số liệu nghiên cứu.......................................................................45
Phần II: THỐNG KÊ ỨNG DỤNG TRONG NGHIÊN CỨU Y HỌC.................................... 49
VAI TRÒ CỦA TOÁN THỐNG KÊ TRONG NGHIÊN CỨU Y HỌC..................50
CÁC KHÁI NIỆM THỐNG KÊ CƠ BẢN ...............................................................52

2
1. Tập hợp..............................................................................................................52
2. Xác suất .............................................................................................................53
3. Quần thể và mẫu ................................................................................................54
CÁC ĐẠI LƯỢNG VÀ CHỈ SỐ THỐNG KÊ .........................................................55
1. Số trung bình và các giá trị trung tâm khác.......................................................55
2. Các tham số, số đo chỉ sự phân tán ...................................................................58
KIỂM ĐỊNH CÁC GIẢ THIẾT THỐNG KÊ VÀ CÁC QUY LUẬT PHÂN PHỐI
TRONG NGHIÊN CỨU ...........................................................................................64
1. Kiểm định bằng test “t” .....................................................................................64
2. Kiểm định bằng test “χ2”...................................................................................66
3. Số đo kết hợp nhân quả .....................................................................................68
PHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUY .........................................................72
1. Một số khái niệm ...............................................................................................72
2. Phân tích tương quan và hồi quy cặp ................................................................73
KHOẢNG TIN CẬY.................................................................................................83
SAI SỐ QUAN TRẮC ..............................................................................................84
1. Ba loại sai số......................................................................................................84
2. Phân phối của sai số ngẫu nhiên trong các quan trắc ........................................84
3. Phương pháp khử sai số thô...............................................................................85
PHẦN PHỤ LỤC ..................................................................................................................... 87
TÀI LIỆU THAM KHẢO .........................................................................................90

3
Phần I

ĐẠI CƯƠNG VỀ PHƯƠNG PHÁP


NGHIÊN CỨU KHOA HỌC

4
KHÁI NIỆM CƠ BẢN VỀ PHƯƠNG PHÁP LUẬN

1. Khoa học, kỹ thuật và công nghệ trong quá trình phát triển
Trong quá trình phát triển xã hội, đặc biệt là trong thời đại ngày nay nghiên cứu
khoa học luôn là một vấn đề rất phổ biến và cần thiết. Nghiên cứu khoa học là việc mà
con người tìm cách để hiểu rõ bản chất sự việc, hiện tượng hoặc phương pháp giải
quyết vấn đề nào đó sao cho hiệu quả đạt được ở mức cao nhất theo mong muốn hoặc
ý tưởng của nhà nghiên cứu. Qua đó, hệ thống tri thức của loài người về các sự vật,
hiện tượng và các quy luật phát triển, tồn tại của tự nhiên, xã hội cũng như tư duy được
nâng lên một tầm cao mới theo quan điểm chung của ý thức hệ cộng đồng.
Vấn đề khoa học là những vấn đề trong hiện thực của vũ trụ, đời sống đã được
khái quát hoá, tuy nhiên về mặt này hay mặt khác nó đã và đang đòi hỏi chúng ta có
những quan tâm nhất định. Lúc này nhà nghiên cứu cần xem xét để giải quyết những
vấn đề này sao cho thoả mãn được các yêu cầu về khoa học và thực tiễn nhằm phục vụ
tốt cho cá nhân hoặc cộng đồng. Thông thường thì vấn đề khoa học không phải lúc nào
cũng có thể bộc lộ một cách dễ dàng, do vậy những người hiểu thấu đáo các sự vật,
hiện tượng hoặc là tự nhiên hay xã hội mới có thể nhìn nhận được những vấn đề khoa
học chắc chắn đặc biệt là những vấn đề ưu tiên, cần thiết phải giải quyết một cách cấp
bách.
Khoa học, kỹ thuật và công nghệ luôn là vấn đề mang tính thời đại và phù hợp
với quy luật phát triển tự nhiên cũng như xã hội loài người. Quy luật phát triển tự
nhiên thường diễn biến khách quan, không phụ thuộc vào ý muốn chủ quan của con
người. Thông thường, con người nên lợi dụng tính khách quan này để có thể tận dụng
nó theo hướng có lợi cho mình. Nếu hiểu thấu đáo tự nhiên thì con người mới tìm ra
được những quy luật của tự nhiên và sử dụng những quy luật đó vào trong đời sống
khoa học... Trong nghiên cứu khoa học đặc biệt là khoa học cơ bản, nếu làm tốt ta có
thể có những cơ sở vững chắc cho những thành công sau này. Về logic mà nói thì quốc
gia nào có nền khoa học cơ bản vững mạnh thì ở đó các vấn đề khoa học khác mới
mong vượt lên và phát triển được ở trình độ cao. Qui luật tự nhiên có những đặc điểm
riêng của nó do vậy trong nghiên cứu chúng ta nên tìm cách bắt chước tự nhiên, tuân
theo quy luật của tự nhiên hơn là cải tạo tự nhiên theo hướng duy ý trí hoặc gò ép theo
một hướng nào đó.
Các vấn đề xã hội, đặc biệt là môi trường xã hội nhiều khi quyết định mạnh mẽ
hơn các quy luật tự nhiên ở một số trường hợp. Với chế độ xã hội khác nhau việc
thanh toán nhiều bệnh dịch có hiệu quả rất khác nhau. Nếu tổng kết cả quá trình phát
triển xã hội loài người thì con người phá huỷ tự nhiên còn ít hơn và yếu hơn rất nhiều
so với thiên nhiên tự phá huỷ và tự thay đổi. Nền y học thảm hoạ có thể chứng minh

5
điều này. Tuy nhiên, trong những phạm vi hẹp, tầm khu vực hoặc cộng đồng thì các
vận động mang tính chất xã hội các quy luật vận động xã hội thường có vai trò quan
trọng mà ta dễ dàng nhận thấy hiệu quả cũng như những khả năng tác động của nó.
Con người cũng không nên ỷ lại hoặc không dám tác động vào tự nhiên để nhằm mục
đích tìm ra những khía cạnh có lợi cho mình. Trong chừng mực nào đó con người vẫn
có thể cải tạo tự nhiên bằng những tiến bộ khoa học.
Ngày nay các nghiên cứu về công nghệ đang đặt ra cho các nhà khoa học cũng
như các nhà quản lý những nhiệm vụ rất cụ thể và cấp thiết. Công nghệ là tất cả những
phương pháp, quy trình kỹ thuật, công cụ thực hiện, kỹ năng thực hành của con người
làm sao cho ra những sản phẩm mới và tốt hơn để có thể đáp ứng được thực tiễn hoặc
ý tưởng của nhà nghiên cứu hoặc cộng đồng. Ở những nước đang phát triển như chúng
ta thì cả việc nghiên cứu cơ bản hay ứng dụng công nghệ tiến bộ đều luôn là cấp thiết.
Những hoạt động nghiên cứu và phát triển công nghệ, phát huy những sáng kiến, cải
tiến kỹ thuật, hợp lý hoá các quy trình kỹ thuật và đặc biệt là áp dụng những tiến bộ về
khoa học - công nghệ vào thực tiễn ở các nước chậm phát triển luôn là cần thiết.
Chúng ta không nên coi những hoạt động này chỉ là công việc độc quyền chỉ dành
riêng cho những nhà bác học ở trình độ cao và chỉ họ mới làm được. Ví dụ về các phát
minh của nhà bác học thiên tài Edison là một ví dụ. Edison đã phát minh ra nhiều vấn
đề vĩ đại khi còn là một học sinh kém, một người thợ...
Nhiệm vụ của hoạt động nghiên cứu khoa học và công nghệ hiện nay tập trung
chủ yếu vào những vấn đề sau đây:
- Hoạch định được chính sách, chiến lược cho các hoạt động khoa học và công
nghệ phù hợp với từng khu vực hoặc đơn vị sao cho phù hợp với sự phát triển chung
của quốc gia và quốc tế song vẫn có những vấn đè đặc thù của đơn vị mình, tỉnh, khu
vực mình...Vấn đề khoa học và công nghệ phục vụ cho sự nghiệp phát triển kinh tế xã
hội khu vực, quốc gia luôn là định hướng mang tính thực tiễn cao. Hiện nay mỗi tỉnh,
mỗi huyện đều phải có chương trình, mục tiêu phát triển kinh tế xã hội riêng của mình
song phải phù hợp, theo kịp với tình hình chung của đất nước và quốc tế.
- Tăng cường nhân lực và các phương tiện cho hoạt động khoa học công nghệ
nhằm đáp ứng nhu cầu ngày càng cao của sự phát triển và hoà nhập quốc tế luôn là vấn
đề sống còn của đất nước. Nếu không giải quyết tốt vấn đề này thì không thể nói đến
phát triển khoa học và công nghệ. Việc đào tạo con người, đào tạo nguồn nhân lực
luôn luôn được các quốc gia đặt lên trên hết.
- Kế thừa và phát huy những thành tựu khoa học và công nghệ tiến bộ của các
nước tiên tiến trên thế giới là con đường tiết kiệm và hiệu quả nhất đối với các nước
chậm phát triển, đang phát triển như chúng ta vì qua đó chúng ta sẽ rút ngắn được
nhiều quãng đường cam go mà những quốc gia đi trước đã trải qua.
Về nguyên tắc trong hoạt động khoa học và công nghệ chúng ta cần lưu ý những

6
điểm sau đây:
- Hoạt động khoa học và công nghệ phải phục vụ cho lợi ích quốc gia trong quá
trình xây dựng và phát triển kinh tế xã hội. Đối với địa phương cũng theo đó mà ứng
dụng sao cho phù hợp.
- Hoạt động khoa học và công nghệ có tính đặc thù, chuyên ngành nên mỗi khu
vực, mỗi ngành phải có khả năng đáp ứng cao nhất đối với xu thế tiến bộ của thế giới
bao gồm cả về nhân lực và các vấn đề khác.
- Hoạt động khoa học và công nghệ phải luôn cập nhật để không bị tụt hậu so
với khu vực và quốc tế quá nhiều.
Ngoài ra các hoạt động khoa học và công nghệ cũng luôn phải tuân theo pháp
luật và vì sự nghiệp của quần chúng lao động, vì lợi ích của cộng đồng. Trong hoạt
động khoa học và công nghệ vấn đề bản quyền, chuyển giao công nghệ cũng luôn là
những vấn đề nóng mà chúng ta cần lưu tâm.
2. Các lĩnh vực, phương pháp nghiên cứu
Nghiên cứu khoa học là công việc của các nhà khoa học nhằm tìm hiểu bản chất
của các sự vật, hiện tượng cùng với những liên quan tới chúng trong quá trình hoạt
động và tồn tại, phát triển theo những quy luật hoặc không theo quy luật nào đó, đồng
thời cũng tìm tòi, phát hiện qua tư duy để tìm ra những vấn đề mới có thể ứng dụng
trong thực tiễn phục vụ cộng đồng. Trên thực tế có 3 loại hình nghiên cứu thường
được ứng dụng là các nghiên cứu khoa học cơ bản và nghiên cứu ứng dụng hoặc triển
khai. Tuỳ thuộc vào nhu cầu thực tiễn mà lúc này hoặc lúc khác có loại hình nghiên
cứu hoạt động khoa học và công nghệ nào đó được ưu tiên.
Tuỳ theo các lĩnh vực khoa học khác nhau mà có các phương pháp nghiên cứu
hoặc hoạt động khoa học và công nghệ có những đặc trưng sao cho phù hợp. Trên thực
tế người ta phân chia các lĩnh vực nghiên cứu khoa học ra ít nhất 7 nhóm sau đây:
- Khoa học tự nhiên
- Khoa học xã hội và nhân văn
- Khoa học giáo dục
- Khoa học kỹ thuật
- Khoa học nông - lâm - ngư nghiệp
- Khoa học y dược
- Khoa học môi trường
Về ý nghĩa thực tiễn thì ở nước ta cả 3 loại hình nghiên cứu: Cơ bản, ứng dụng
và Triển khai vẫn thường được áp dụng cho tất cả các lĩnh vực. Do điều kiện chậm
phát triển và nghèo nàn cả về nguồn nhân lực và vật lực nên các nghiên cứu cơ bản của

7
chúng ta chưa thể phát triển tốt, song những vấn đề đời thường, trực tiếp lại là thứ dễ
nhìn thấy nên việc ứng dụng khoa học, kỹ thuật tạo ra của cải vật chất thường được coi
trọng hơn. Ở các địa phương nếu đặt vấn đề nghiên cứu lý thuyết sẽ không được ủng
hộ nhiều vì vấn đề họ cần ngay là làm sao cho tỉnh, khu vực có sự tăng trưởng kinh tế
nhanh và mau giàu lên.
Nghiên cứu y học thường bắt đầu bằng các nghiên cứu mô tả. Trên cơ sở các
nghiên cứu mô tả chúng ta có thể xác định được bản chất, thực trạng những vấn đề sức
khoẻ cơ bản cũng như các vấn đề liên quan. Đây là loại nghiên cứu dễ thực hiện hơn
các phương pháp khác vì công việc chính là mô tả thực trạng thông qua những số liệu
cơ bản mà người làm công tác nghiên cứu đã thu thập được qua khảo sát tìm hiểu bằng
các phương pháp khác nhau. Ví dụ: mô tả sự phân bố quần thể theo các yếu tố Con
người - Không gian - Thời gian. Khi đi sâu vào tìm hiểu căn nguyên, phân tích các giả
thuyết nghĩa là công việc của nhà nghiên cứu đã chuyển sang giai đoạn nghiên cứu
phân tích.
Quá trình nghiên cứu phân tích là cách xem xét các vấn đề theo nhiều chiều khác
nhau, nhiều bình diện khác nhau cùng với sự tác động của ít hoặc nhiều yếu tố đối với
vấn đề và sự kiện đó để rồi có thể đưa ra những giả thuyết, những vấn đề mang tính
quy luật hơn, qua đó xác định được mối liên quan có tính nhân quả hoặc sự logic trong
bản thân các sự kiện. Kết quả nghiên cứu do vậy mà có khả năng ứng dụng rộng rãi
hơn, hiệu quả đích hơn. Như vậy trong y học, các hoạt động khoa học và công nghệ
thường hướng theo hai phương pháp nghiên cứu chính mà chúng ta thường dùng là:
- Phương pháp nghiên cứu mô tả với các loại hình khác nhau
- Phương pháp nghiên cứu phân tích với các loại hình và mức độ khác nhau
Ngoài ra còn có các phương pháp nghiên cứu đặc thù, có cơ sở dựa trên nền tảng
của các nghiên cứu mô tả kết hợp với phân tích : nghiên cứu can thiệp, thực nghiệm
cũng được sử dụng nhiều trong nghiên cứu y học hiện nay. Trên thực tế nghiên cứu
theo phương pháp nào cũng đều quan trọng và có ý nghĩa nên tuỳ vào mục đích nghiên
cứu mà chúng ta chọn phương pháp nào cho phù hợp. Một số nghiên cứu đòi hỏi sự
phối hợp nhiều phương pháp, ví dụ kết hợp giữa mô tả và phân tích hoặc kết hợp giữa
mô tả và thực nghiệm... để rồi sau đó dựa trên một kết quả tổng hợp, toàn diện đã thu
được người ta mới có thể giải quyết được vấn đề đã đặt ra một cách trọn vẹn.
Ngày nay vấn đề tác động đa chiều được nhiều tác giả quan tâm nên không thể
có phương pháp nghiên cứu nào thoả mãn được đầy đủ các yêu cầu thực tiễn thì việc
kết hợp nhiều phương pháp trong hoạt động khoa học và công nghệ khi tiến hành một
nghiên cứu là rất thường gặp, do vậy mô hình nghiên cứu cũng phong phú để phù hợp
theo.
Sự kết hợp trong các hoạt động khoa học và công nghệ đang là xu hướng tất yếu
trong thời đại ngày nay vì không mấy khi có một sản phẩm nào lại giản đơn, quá ít sự

8
tham gia của các ngành khoa học, kỹ thuật. Hàm lượng khoa học càng nhiều càng
chứng tỏ giá trị của sản phẩm đó. Bằng sự kết hợp, hợp tác và giúp đỡ lẫn nhau chúng
ta có thể kế thừa các thành quả khoa học của nhau và rút ngắn được thời gian, công
sức và kinh phí cho quá trình nghiên cứu mà như vậy các hoạt động khoa học và công
nghệ vẫn thực hiện tốt song vẫn có hiệu quả kinh tế cao.
Các đề tài nghiên cứu khoa học hay nhiệm vụ nghiên cứu thường có quy mô khác
nhau phụ thuộc vào mục tiêu nghiên cứu và năng lực của nhà nghiên cứu. Do vậy khi
đặt vấn đề cho các hoạt động khoa học và công nghệ nhà nghiên cứu cần lưu ý vấn đề
này để xây dựng lộ trình cũng như mô hình nghiên cứu sao cho phù hợp và có tính khả
thi.
Trong quá trình hoạt động khoa học và công nghệ, các nhà nghiên cứu cũng nên
lưu ý một số vấn đề sau để nghiên cứu của mình đảm bảo thành công
- Hoạt động khoa học và công nghệ phải nhằm tìm kiếm hoặc phát minh ra những
vấn đề mới, có tác động tốt hơn đối với sự phát triển kinh tế xã hội của đất nước, có
giá trị về khoa học hoặc thực tiễn.
- Hoạt động khoa học và công nghệ đòi hỏi tính chính xác cao và cần được kiểm
chứng nghiêm túc ở trình độ cao để có đủ độ tin cậy.
- Hoạt động khoa học và công nghệ phải được truyền bá, thông tin để trở thành
sản phẩm chung của nhân loại. Dù ở dạng này hay dạng khác thì thông tin cũng phải
được mang đến tới mọi người để được ứng dụng và qua đó sẽ được kiểm chứng thêm.
- Hoạt động khoa học và công nghệ luôn phải mang tính khách quan. Các áp đặt
chủ quan sẽ bóp chết nền khoa học chân chính, không thúc đẩy được sự tiến bộ đi vào
cuộc sống. Nhà nghiên cứu cần xem xét kỹ lưỡng những vấn đề đã đặt ra theo trình tự
vẫn có của sự vật tự nhiên hoặc xã hội với những quy luật riêng và trong sự vận động,
tác động nhiều chiều.
- Hoạt động khoa học và công nghệ vẫn thường có tính rủi ro xen lẫn vào làm
cho nhà nghiên cứu bị thất bại. Nhà nghiên cứu nên kiên trì xem xét để rút ra bài học
cần thiết nhằm đáp ứng tốt hơn nữa trong những nghiên cứu tiếp theo để có được
những thành công mới.
- Hoạt động khoa học và công nghệ cần có tính kế thừa. Có như vậy ta mới có
nền tảng vững chắc khi xây dựng một lộ trình nghiên cứu mới mà không gặp nhiều sai
lầm hoặc rủi ro không đáng có. Kế thừa là cách tiết kiệm nhất để đạt được hiệu quả
mong muốn của nhiều lĩnh vực trong đó có khoa học và công nghệ.
- Hoạt động khoa học và công nghệ có thể mang đặc tính cá nhân tuy đa số là
thành tựu của tập thể. Vai trò của cá nhân thể hiện rất rõ trong khoa học vì các cá nhân
thường nảy sinh ra các ý tưởng và cách làm phù hợp sau khi đã đầu tư nhiều tri thức
vào vấn đề đó. Ngày nay khoa học rộng lớn hơn bao giờ hết do vậy không có nhiều

9
người biết quá nhiều lĩnh vực nên cá nhân càng đóng vai trò quan trọng. Tập thể
thường tham gia góp ý kiến để cho vấn đề được hoàn thiện hơn và mang tính tích cực
hơn.
- Hoạt động khoa học và công nghệ phải đem lại hiệu quả kinh tế. Đây chính là
thể hiện tính thực tiễn, đáp ứng nhu cầu phát triển kinh tế, xã hội, phục vụ nhân dân,
phục vụ tổ quốc...
Trong quá trình nghiên cứu, đặc biệt là những người còn ít kinh nghiệm nên đi từ
những vấn đề giản đơn đến những vấn đề phức tạp. Mỗi giai đoạn nghiên cứu cần có
một lộ trình phù hợp tuỳ thuộc vào các lĩnh vực khác nhau.
Quá trình nghiên cứu có thể mô tả theo một quy trình sau đây:

3. Đặc thù của nghiên cứu y học


Nghiên cứu Y học có đặc điểm riêng là gắn liền với sự sống của con người. Bất
cứ nghiên cứu nào trong y học đều phải quan tâm đến mục đích tạo ra một hiệu ứng
kinh tế - xã hội, đặc biệt là sự sống tốt đẹp hơn do đó các nhà nghiên cứu Y học cần
hết sức thận trọng trong quá trình tác nghiệp.
Nghiên cứu Y học thường mang tính đa dạng và phức tạp do vậy các nhà nghiên
cứu thường chỉ có thể đi sâu vào lĩnh vực hoạt động nào mà mình có kinh nghiệm mới
có thể đạt được hiệu quả mong muốn và có thể hữu ích nhiều.
Nghiên cứu Y học thường phải quan tâm đến một sự tồn tại hiển nhiên của sự
sống là các quy luật tồn tại, phát sinh, phát triển trong một liên quan và sự tác động
của rất nhiều yếu tố bên ngoài trong đó có sự tác động qua lại của cả môi trường tự
nhiên và xã hội.
Nghiên cứu Y học bao gồm cả hai lĩnh vực lâm sàng và cộng đồng. Mỗi loại hình
có đặc thù riêng tuy nhiên chúng lại thường có những kết hợp, đan xen lẫn nhau và
nhiều khi ảnh hưởng đến nhau rất mạnh mẽ. Cả hai lĩnh vực này đều cần có sự hợp tác

10
ở tầm quốc gia hoặc quốc tế.
Nghiên cứu Y học cần có sự tham gia, phối hợp của nhiều ngành khoa học mới
có thể đạt được hiệu quả cao. Khoa học Y học có sự đan xen, tác động của rất nhiều
ngành khoa học do vậy trong quá trình hoạt động các nhà nghiên cứu cần lưu ý để giải
quyết những vấn đề có liên quan.
Nghiên cứu Y học cần đặt vấn đề đạo đức trong nghiên cứu ở một vị trí quan
trọng vì nó có mối liên hệ đến con người và những vấn đề xã hội có thể không theo
một quy luật nào.

11
CÁC PHƯƠNG PHÁP NGHIÊN CỨU THÔNG DỤNG

1. Nghiên cứu mô tả
Nghiên cứu mô tả là loại hình nghiên cứu mà nhà nghiên cứu tiến hành, thực hiện
nhằm xác định rõ bản chất các sự vật và hiện tượng trong những điều kiện đặc thù về
không gian cũng như thời gian. Nghiên cứu mô tả thông thường bao gồm việc thu thập
và trình bày số liệu một cách có hệ thống nhằm đưa ra một bức tranh rõ nét, đầy đủ về
một tình hình, vấn đề sức khoẻ cụ thể. Nghiên cứu mô tả giống như người hoạ sỹ vẽ
một bức tranh ký hoạ hoặc ta chụp nhanh một bức ảnh tại một thời điểm có không gian
cố định. Đây là một trong những phương pháp quan trọng và thường là khởi đầu của
các nghiên cứu dịch tễ học. Mô tả một hiện tượng sức khoẻ chính xác mới hình thành
được giả thuyết nhân - quả đúng, mới đề xuất được các biện pháp phòng ngừa có hiệu
quả.
1.1 Mục tiêu của các nghiên cứu mô tả
Nghiên cứu mô tả cần phải đáp ứng ít nhất 2 mục tiêu sau đây:
- Mô tả được một hiện tượng sức khoẻ và các yếu tố nguy cơ có liên quan đến
tình trạng sức khoẻ đó.
- Phác thảo được giả thuyết nhân quả giữa các yếu tố nguy cơ và hiện tượng sức
khoẻ nghiên cứu.
1.2. Những nội dung chính của các nghiên cứu mô tả
Nội dung cơ bản của nghiên cứu mô tả là xác định được thực trạng các yếu tố
con người và các yếu tố không gian, thời gian cụ thể ở một thời điểm nhất định.
1.2.1. Yếu tố nguy cơ, căn nguyên
Yếu tố nguy cơ ở đây được hiểu một cách rộng rãi đó là tất cả những yếu tố nào
thuộc về bản chất như: yếu tố vật lý, hoá học, sinh lý, tâm lý, di truyền, khí tượng, các
yếu tố kinh tế văn hoá xã hội... mà sự tác động của chúng có thể tạo nên cho cơ thể con
người những thay đổi có lợi hoặc đặc biệt là không có lợi về sức khoẻ con người.
1.2.2. Hậu quả
Hầu hết các vấn đề sức khoẻ đều có liên quan đến mối quan hệ nhân quả. Để tìm
hiểu ta phải nghiên cứu thật đầy đủ về nguyên nhân mới mong xác định được hậu quả
có thể của tình trạng phơi nhiễm. Trong mối quan hệ nhân quả, thì hậu quả là tất cả
mọi bệnh trạng mà ta quan tâm nghiên cứu, bao gồm các bệnh, khuyết tật và những
trạng thái không bình thường của sức khoẻ. Nếu ta tiến hành nghiên cứu với 2 mục
tiêu trên thì mối quan hệ nhân quả mới có thể xác lập được.
1.2.3. Xác định quần thể nghiên cứu

12
Quần thể nghiên cứu được xác định như sau:
- Quần thể định danh
- Quần thể phơi nhiễm
- Quần thể có nguy cơ
- Quần thể có nguy cơ cao.
Chọn quần thể nào để nghiên cứu, phụ thuộc mục đích và khả năng nghiên cứu.
Thông thường người ta chỉ tiến hành nghiên cứu trên một mẫu nghiên cứu mà mẫu đó
được xác định dựa trên một quần thể nhỏ nhất song vẫn đáp ứng được mục tiêu nghiên
cứu. Các quần thể được chọn thường là quần thể phơi nhiễm, quắn thể có nguy cơ,
quần thể có nguy cơ cao.
1.2.4. Định nghĩa bệnh trạng nghiên cứu
Đây là vấn đề xác định, làm rõ hơn những vấn đề cần và sẽ nghiên cứu. Một bệnh
trạng hay một hiện tượng sức khoẻ nào đó, sẽ mô tả đều phải được định nghĩa chính
xác và cụ thể nhất, dễ hiểu nhất trên cơ sở các tiêu chuẩn, tiêu chí rõ rệt. Trong lâm
sàng người ta vẫn gọi là tiêu chuẩn vàng. Người làm nghiên cứu sẽ dựa trên những
định nghĩa, những tiêu chí này để xác định chính xác vấn đề nhằm tránh sai sót hệ
thống không đáng có. Trong nghiên cứu mô tả thì định nghĩa vấn đề sẽ giúp ta giảm
bớt các yếu ố nhiễu và chuẩn hoá các chỉ tiêu nghiên cứu.
1.2.5. Mô tả yếu tố nguy cơ
Yếu tố có nguy cơ là yếu tố có liên quan hay làm tăng khả năng mắc một bệnh
nào đó, có thể là hành vi, lối sống, các yếu tố môi trường, các tác nhân lý, hoá, sinh
học gây bệnh... Mô tả rõ ràng các yếu tố nguy cơ của hiện tượng sức khoẻ, mới có cơ
sở để phân tích rõ ràng và đầy đủ các yếu tố liên quan với chúng, không bỏ sót và như
vậy mới đạt được mục tiêu của công việc mô tả đặc biệt là mô tả tương quan. Nếu thấy
mô tả tương quan không chắc chắn thì có thể phải thay đổi bằng các phương pháp khác
như mô tả so sánh nhiều nhóm hoặc nghiên cứu bệnh chứng... ta sẽ xác định được các
yếu tố nguy cơ.
1.3. Thiết kế nghiên cứu mô tả
1.3.1. Mô tả bệnh từ một trường hợp bệnh
Nghiên cứu mô tả trường hợp bệnh là mô tả rất sâu sắc đặc tính của một số giới
hạn các “trường hợp”. Một trường hợp cụ thể là một bệnh nhân, một trung tâm y tế
hay một làng... Những nghiên cứu dạng này cho ta thấy rõ được bản chất vấn đề mà ta
cần nghiên cứu. Nghiên cứu trường hợp phổ biến nhất là trong các lĩnh vực khoa học
xã hội, quản lý và y học lâm sàng. Ví dụ, trong y học lâm sàng các đặc tính của một
loại bệnh mà cho đến nay vẫn chưa nhận biết rõ cũng có thể được ghi nhận như là
nghiên cứu một trường hợp.

13
1.3.2. Điều tra cắt ngang nhằm định hướng sự phân bố của một số biến số trong
quần thể nghiên cứu tại một thời điểm như
- Các đặc tính về mặt thể chất của con người, hay môi trường như:
- Các cuộc điều tra về tỷ lệ hiện mắc (của bệnh phong, bệnh giun...).
- Đánh giá mức độ bao phủ của vấn đề (tiêm chủng, hố xí...)
- Các đặc điểm về mặt kinh tế - xã hội của con người như: tuổi, trình độ học vấn,
tình trạng hôn nhân, số con và thu nhập...
- Hành vi của con người và sự hiểu biết, thái độ, niềm tin và các quan niệm, có
thể giải thích hành vi đó (các nghiên cứu KAP).
- Các sự kiện xuất hiện trong quần thể xác định
Một cuộc điều tra cắt ngang có thể được tiến hành nhắc đi nhắc lại nhiều lần liên
tiếp nhằm đo lường các thay đổi diễn ra theo thời gian của các đặc tính được nghiên
cứu.
Song song với việc mô tả các hiện tượng sức khoẻ theo ba góc độ là: Con người
không gian - thời gian, trong các nghiên cứu dịch tễ mô tả, người ta bao giờ cũng nên
mô tả về các yếu tố nguy cơ có liên quan đến hiện tượng sức khoẻ đó. Mô tả về nguy
cơ, cũng giống như mô tả về bệnh, có thể mô tả theo định tính và định lượng. Yếu tố
nguy cơ cũng phải được định nghĩa rõ ràng, sáng sủa, dễ hiểu, có định mức lương hoá.
Trong những đợt nghiên cứu ngang, việc mô tả các yếu tố nguy cơ dễ có thể
được thu thập chính xác, nhưng lại cũng có nhiều hạn chế, nhất là đối với các bệnh có
khoảng cách từ thời điểm phơi nhiễm đến thời điểm phát bệnh dài.
1.3.3. Mô tả tương quan
Mô tả tương quan hay được sử dụng để bước đầu nêu giả thuyết về mối quan hệ
nhân quả giữa một hiện tượng sức khoẻ và các yếu tố nguy cơ. Đây là một nghiên cứu
mà nhà nghiên cứu phải xem xét vấn đề trong mối quan hệ với nhiều yếu tố khác mà ta
có thể thấy được hoặc xem xét được. Có thể nghiên cứu với sự tương quan một yếu tố
hoặc tương quan đa yếu tố vì trong thực tế có nhiều yếu tố nguy cơ cùng tác động
đồng thời hoặc trong từng khoảng thời gian.
1.4. Mối quan hệ nhân quả
Người ta coi mối quan hệ này chính là sự tương tác qua lại giữa hai thành phần:
yếu tố nguy cơ - bệnh. Đây là điều không thể thiếu được trong giả thuyết nhân - quả.
Đôi khi các nghiên cứu thường đi xa hơn bằng cách kết hợp việc mô tả một quần thể
nghiên cứu với việc so sánh một số nhóm trong quần thể đó. Việc làm này rất phổ
biến, chính vì vậy đôi khi khó phân biệt được danh giới rõ ràng giữa nghiên cứu mô tả
và các nghiên cứu so sánh mà người ta thường gọi là nghiên cứu mô tả tìm nguyên
nhân.

14
2. Nghiên cứu phân tích
Đây là phương pháp tìm cách xác định tương đối chắc chắn các nguyên nhân hay
các yếu tố nguy cơ của vấn đề nào đó. Việc này được tiến hành bằng cách so sánh hai
hay nhiều nhóm, trong đó có một số nhóm gặp phải vấn đề đó và một số nhóm khác thì
không. Thông thường có hai loại nghiên cứu phân tích là nghiên cứu bệnh chứng và
nghiên cứu thuần tập.
2.1. Nghiên cứu bệnh chứng
Nghiên cứu bệnh chứng là nghiên cứu xuất phát từ tình trạng bệnh, vấn đề đã
biết. Mục đích của nghiên cứu này là làm sao khai thác được các vấn đề có liên quan
đến tình trạng bệnh lý đã thấy qua nghiên cứu mô tả. Trên cơ sở kinh nghiệm nhà
nghiên cứu sẽ lập một lộ trình để khai thác, hồi cứu những yếu tố liên quan đến bệnh
trạng đã biết. Sau đó khẳng định được những yếu tố nguy cơ đối với hiện tượng bệnh
lý đó. Nhà nghiên cứu cần thiết lập các nhóm để nghiên cứu, so sánh và đối chứng. Ví
dụ một nhóm đối tượng hiện đang có vấn đề (ví dụ trẻ em đang bị suy dinh dưỡng) so
sánh với một nhóm khác được gọi là nhóm đối chứng không có vấn đề đó (trẻ em phát
triển bình thường) nhằm phát hiện các yếu tố nguy cơ nào đó đã góp phần tạo nên vấn
đề đó.
2.1.1. Mô hình, thiết kế nghiên cứu

2.1.2. Lựa chọn nhóm bệnh


- Nghiên cứu bệnh chứng dựa trên cơ sở bệnh viện:
Nhóm bệnh được chọn từ những bệnh nhân đang điều trị ở một bệnh viện hay
một cơ sở chăm sóc y tế. Phương pháp chọn nhóm bệnh này được áp dụng phổ biến vì
tương đối dễ và không tốn kém.
- Nghiên cứu bệnh chứng dựa trên quần thể:
Nhóm bệnh được chọn từ tất cả các bệnh nhân trong một mẫu ngẫu nhiên hay từ
quần thể tại một thời điểm hay một khoảng thời gian xác định.
2.1.3. Lựa chọn nhóm chứng

15
Lựa chọn nhóm chứng thích hợp là vấn đề khó khăn nhất trong thiết kế nghiên
cứu bệnh chứng. Không có một nhóm chứng nào tối ưu cho tất cả các tình huống, đặc
biệt là sự tương đồng giữa các nhóm bệnh và nhóm chứng.
- Nguồn chọn nhóm chứng từ bệnh viện là những bệnh nhân ở cùng một bệnh
viện do mắc một bệnh khác chứ không phải là bệnh mà ta nghiên cứu.
- Nguồn chọn nhóm chứng từ quẩn thể tổng quát: nhóm chứng từ quần thể đảm
bảo sự so sánh tết nhất vì họ xuất phát từ cùng một nguồn mà từ đó ta chọn ra cả nhóm
chứng và nhóm bệnh.
- Nguồn chọn nhóm chứng là bạn bè, họ hàng, vợ chồng, hàng xóm của nhóm
bệnh, ở đây có sự đồng nhất về môi trường sống và tập quán sinh hoạt cũng như sở
thích. Tuy nhiên sẽ vẫn nẩy sinh những vấn đề cá biệt mà ta dễ bỏ qua hoặc bỏ sót do
chủ quan.
- Số nhóm chứng: Lý tưởng là có một nhóm chứng thích hợp và tương ứng với
một nhóm bệnh, người bệnh. Nhưng thực tế khó có thể chọn được một nhóm so sánh
thích hợp đặc biệt khi nhóm chứng chọn ở bệnh viện. Cần thiết phải sử dụng nhiều
nhóm chứng chọn từ các bệnh nhân có chẩn đoán khác nhau.
- Số các cá thể của nhóm chứng: Tỷ số giữa các cá thể ở nhóm chứng với các cá
thể ở nhóm bệnh tốt nhất là 1/1. Khi tỷ số này tăng lên, sức mạnh thống kê của nghiên
cứu cũng tăng lên, nhưng không nên quá tỷ lệ 4/1.
* Phân tích nghiên cứu bệnh chứng:
Nên thành lập bảng tiếp liên để ứng dụng toán thống kê đánh giá cho chuẩn xác
(xem ở phần toán thống kê). Trên cơ sở các nhóm bệnh và nhóm chứng, ta tiến hành
phân tích mối quan hệ ngược lại về các yếu tố nguy cơ xem khả năng chịu ảnh hưởng
trước đó cũng như một liên quan giữa các yếu tố theo quan hệ nhân quả. Do xuất phát
điểm là các nhóm bệnh hoặc nhóm chứng, từ đó ta mới thăm dò ngược lại đối với các
yếu tố nguy cơ, cho nên sẽ xẩy ra hai trường hợp có thể làm sai lệch kết quả:
Một là: có nhiều yếu tố nguy cơ bị ta bỏ quên hoặc bỏ sót do không tìm hiểu,
khai thác kỹ.
Hai là: vì thời gian quá lâu nên các tình tiết có liên quan dễ bị mất thông tin, hoặc
quên lãng...
Trên thực tế trên đây là những khó khăn mà nghiên cứu bệnh chứng thường
thường gặp và rất khó khắc phục. Ví dụ khi nghiên cứu về các yếu tố nguy cơ dẫn tới
bệnh tiêu chảy ở trẻ em, chúng ta muốn tìm hiểu xem các cháu đã được bà mẹ cho ăn
sam vào lúc nào hoặc ăn như thế nào...thì đa số các bà mẹ hoặc người nhà chỉ nhớ
mang máng rằng hình như cháu được ăn bổ xung vào lúc 3 tháng hoặc 4 tháng gì đó.
Các bà mẹ chỉ nhớ được những thức ăn chính chứ không nhớ được những thức ăn mà
cháu ít ăn, trong khi có thể thức ăn đó lại có vai trò quan trọng, có thể là nguy cơ thực

16
sự đối với bệnh tiêu chảy của các cháu.
2.2. Nghiên cứu thuần tập
Xuất phát điểm của nghiên cứu thuần tập là nhà nghiên cứu lập lộ trình nghiên
cứu mà điểm khởi đầu là bắt đầu từ yếu tố nguy cơ đã biết để sau đó xem xét có phải
đó là nguyên nhân của sự phát sinh, phát triển một bệnh nào đó hay không. Ta tiến
hành chọn một nhóm các cá thể có tiếp xúc (còn gọi là “phơi nhiễm” - exposed) và
một nhóm các cá thể không tiếp xúc với yếu tố nguy cơ. Nhà nghiên cứu điều tra cả
hai nhóm trong một khoảng thời gian nhất định và so sánh sự xuất hiện của vấn đề mà
nhà nghiên cứu cho là có liên quan đến yếu tố nguy cơ để xác định xem trong nhóm có
tiếp xúc, vấn đề nghiên cứu có thực sự xuất hiện nhiều hơn hay không. Thông thường
thì quá trình nghiên cứu kéo dài và người ta cần phải theo dõi chặt chẽ sự tác động qua
lại giữa các yếu tố nguy cơ với vấn đề sức khoẻ dự định sẽ có thể xuất hiện.
2.2.1. Mô hình, thiết kế nghiên cứu

2.2.2. Phân tích đánh giá nghiên cứu thuần tập


Việc phân tích, đánh giá cần được tiến hành chặt chẽ, liên tục theo từng giai đoạn
để vừa xác minh được tính nhân quả, vừa khắc phục được sự trệch hướng trong nghiên
cứu. Mỗi loại nghiên cứu thuần tập cần có cách đánh giá riêng để sao cho mục đích cơ
bản của nhà nghiên cứu đạt được hiệu quả. Nghiên cứu thuần tập tương lai và can
thiệp thường có cách đánh giá phức tạp hơn cả. Có nhiều lựa chọn để có thể thu được
kết quả, song ít nhất ta cũng cần dựa vào bảng tiếp liên để phân tích và được coi như là
một biện pháp đơn giản mà vẫn đảm bảo được tính khoa học (xem phần toán thống
kê).
2.2.3. Các loại nghiên cứu thuần tập
Dựa vào mô hình nghiên cứu, người ta chia nghiên cứu thuần tập thành hai loại:
nghiên cứu thuần tập hồi cứu và nghiên cứu thuần tập tương lai. Tuy nhiên, còn có
nhiều dạng khác của nghiên cứu thuần tập tương lai như nghiên cứu can thiệp, thử

17
nghiệm lâm sàng, cận lâm sàng.
- Nghiên cứu thuần tập hồi cứu: Với nghiên cứu này tất các sự kiện cần nghiên
cứu, tình trạng phơi nhiễm của bệnh đã xảy ra trước thời điểm bắt đầu nghiên cứu, nên
ta phải điều tra hồi cứu về tình trạng phơi nhiễm (từ các nhóm phơi nhiễm ta điều tra
hồi cứu lại xem có sự xuất hiện chứng, bệnh tương ứng trước đó hay không).
- Nghiên cứu thuần tập tương lai: Với nghiên cứu này, tại thời điểm bắt đầu
nghiên cứu các cá thể được chọn vào nhóm nghiên cứu mới bắt đầu tiếp xúc với yếu tố
nguy cơ và như vậy hiện tại cả hai nhóm đều khoẻ mạnh. Ta tiến hành theo dõi một
thời gian dài trong tương lai tuỳ thuộc vào mục đích và khả năng nghiên cứu để xem
khả năng xuất hiện chứng, bệnh có liên quan mà ta đang cần tìm hiểu ở cả hai nhóm
tiếp xúc và không tiếp xúc với yếu tố nguy cơ.
- Nghiên cứu thuần tập kết hợp giữa hồi cứu và tương lai. Các thông tin thu thập
vừa được theo dõi cả tương lai vừa hồi cứu về quá khứ. Nghiên cứu có ích đối với tất
cả các loại phơi nhiễm nên có thể bổ sung những thiếu sót của mỗi loại nghiên cứu.
- Một số dạng đặc biệt của nghiên cứu thuần tập tương lai
Nghiên cứu can thiệp: Đối với nghiên cứu dạng này, nhà nghiên cứu đã có một
can thiệp trực tiếp vào nhóm chủ cứu theo một kế hoạch đã định sẵn trong khi ở nhóm
chứng thì không có tác động gì. Tuy nhiên với nghiên cứu dạng này cần có đánh giá
nghiêm túc về hiệu quả của can thiệp, mô hình can thiệp và sự chấp nhận, nhân rộng
mô hình. Chỉ số hiệu quả được tính theo công thức sau đây:

Trong đó:
P1 là tỷ lệ có trước can thiệp
P2 là tỷ lệ thu được hoặc dự kiến thu được sau can thiệp
Thông thường nhà nghiên cứu có thể áp dụng nhiều giải pháp can thiệp do vậy
cẩn so sánh đánh giá xem giải pháp nào tốt hơn, hiệu quả hơn. Nếu muốn so sánh hiệu
quả can thiệp ta chỉ cần tìm hiệu số của các chỉ số hiệu quả của các giải pháp can thiệp
đã được xác định. Ví dụ trường hợp trên chỉ số hiệu quả ưu tiên, tối ưu sẽ là: CSHQ(A)
- CSHQ(B)…
2.2.4. Lựa chọn nhóm chứng, so sánh (không phơi nhiễm)
Nhóm so sánh phải giống nhóm có phơi nhiễm ở tất cả các yếu tố khác, kể cả có
thể liên quan đến bệnh mà người ta gọi là tính tương đồng trừ yếu tố nghiên cứu (yếu
tố phơi nhiễm) thì không được giống nhau. Như vậy, nếu không có sự kết hợp thực sự
18
giữa bệnh và yếu tố phơi nhiễm mà ta nghiên cứu thì tỷ lệ bệnh ở hai nhóm có thể
giống nhau…
- So sánh bên trong: Nếu nghiên cứu thuần tập dựa trên một nhóm thuần tập toàn
bộ và các cá thể được chia thành nhiều nhóm có mức độ phơi nhiễm khác nhau ta áp
dụng các nhóm đó so sánh với nhau gọi là so sánh trong.
- So Bánh bên ngoài: Đối với nhiều nghiên cứu thuần tập mà người ta muốn so
sánh yếu tố phơi nhiễm đặc thù như nghề nghiệp, môi trường đặc biệt... ta phải tìm
cách so sánh ngoài, đồng thời nhóm này phải hoàn toàn không có phơi nhiễm với yếu
tố nguy cơ mà ta nghiên cứu.
- Nhiều nhóm so sánh: Nhiều khi các nhóm so sánh không đủ đặc trưng nên ta
phải lấy thêm nhiều nhóm đối chứng để bổ sung sẽ làm tăng giá trị so sánh.
2.3.Ưu nhược điểm của nghiên cứu phân tích
So với nghiên cứu thuần tập, nghiên cứu bệnh chứng nhanh và ít tốn kém hơn
song có cái khó là làm sao chọn được nhóm chứng phù hợp, đặc biệt trong ghép cặp
các trường hợp bệnh và chứng.
Nghiên cứu thuần tập là phương pháp chắc chắn nhất để xác định các mối quan
hệ nhân quả. Tuy nhiên thời gian và công sức bỏ ra lại nhiều hơn. Đặc biệt trong các
bệnh hiếm việc xác định các trường hợp bệnh rất khó khăn do tần suất xuất hiện thấp.
Các đối tượng nghiên cứu thay đổi chỗ ở hoặc công việc cũng là một khó khăn cho
nghiên cứu. Để nghiên cứu đạt hiệu quả cao và tránh được những thất thoát trong quá
trình thực hiện người nghiên cứu cần xem xét kỹ tính ổn định của quần thể nghiên cứu
đồng thời cũng lựa chọn mẫu sao cho đủ lớn và dư lực mẫu một chút.
2.4. Các loại nghiên cứu phân tích khác
Một số nghiên cứu khác là các dạng đặc biệt của nghiên cứu phân tích như
nghiên cứu can thiệp, nghiên cứu thực nghiệm, nghiên cứu thử nghiệm cận lâm sàng,
lâm sàng. Thực chất đây là cách mà nhà nghiên cứu có một tác động nào đó vào cụm
các vấn đề cần nghiên cứu để mong muốn có được một kết quả theo ý muốn hoặc đi
theo một chiều hướng tích cực hơn.
Ví dụ người ta muốn biết về tác dụng của tỏi đối với bệnh tăng huyết áp là có
thực hay không. Một nghiên cứu can thiệp được các tác giả tiến hành bằng cách thiết
kế một nghiên cứu thuần tập với việc chọn mẫu và theo dõi 10 năm và sau đó thu được
kết quả như sau:
- Nhóm uống tinh dầu tỏi 5ml/ngày (vào bữa sáng và tối) có 45 người tuổi từ 40
đến 50. Sau 10 năm có 2 người bị tăng huyết áp.
- Nhóm không cho uống tinh dầu thậm chí vào bữa ăn cũng chỉ ăn một vài lát tỏi
là cùng (có sự tự nguyện tham gia), có 50 người cũng với tuổi từ 40 đến 50 và có tỷ lệ
nam nữ như nhóm trên (cả hai nhóm đều sống ở cùng một thành phố). Sau 10 năm có
7 người bị tăng huyết áp.

19
XÂY DỰNG ĐỀ CƯƠNG NGHIÊN CỨU KHOA HỌC

1. Đặt vấn đề
Trong nghiên cứu khoa học việc xác lập một đề cương nghiên cứu tốt sẽ tạo điều
kiện thuận lợi cho cả quá trình nghiên cứu. Muốn xây dựng được một đề cương nghiên
cứu nhà nghiên cứu cẩn có những bước chuẩn bị tích cực, đầy đủ và chi tiết.
Ví dụ:
- Cần phải chọn ra những vấn đề nghiên cứu trong hàng loạt các vấn đề thực tiễn.
- Cần phải thu thập thông tin đầy đủ về vấn đề nghiên cứu, qua đó định hướng
cho nghiên cứu của mình.
- Cần phải xem xét nếu nghiên cứu vấn đề đó thì ta sẽ đạt được kết quả gì và có
tác dụng gì cho thực tiễn khoa học cũng như trong đời sống xã hội...
2. Nội dung của đề cương nghiên cứu
Về cơ bản đề cương nghiên cứu bao gồm các nội dung sau:
2.1. Tên đề tài, chương trình hoặc dự án
Tác giả nên tìm một tên vừa đủ để thể hiện được nội dung và mục đích nghiên
cứu. Tên đề tài nghiên cứu không quá 35 chữ, tốt nhất là khoảng 20 đến 30 chữ.
2.2. Phần hành chính
Tác giả, địa chỉ cơ quan, người phối hợp nghiên cứu...
2.3. Nội dung
2.3.1. Đặt vấn đề
Phần này phải nêu được tính cấp thiết của vấn đề và đặc biệt là phải nêu được
mục tiêu nghiên cứu rõ ràng.
2.3.2. Tổng quan
Thu thập những tài liệu có liên quan đến vấn đề mình cần nghiên cứu. Qua đó
hướng người đọc tập trung vào vấn đề của mình dự định nghiên cứu...
2.3.3. Đối tượng và phương pháp nghiên cứu
Có thể có thêm địa điểm, thời gian, vật liệu nghiên cứu. Phần này mô tả các cách
làm, phương pháp làm sao để ta có thể thu được kết quả nghiên cứu.
2.3.4. Dự kiến kết quả nghiên cứu
Phần này là nội dung chính để có thể mô tả được toàn bộ các kết quả nghiên cứu
sau này theo những nhóm vấn đề cơ bản để trả lời được mục đích nghiên cứu.

20
2.3.5. Kế hoạch và kinh phí nghiên cứu
Phần này nên chi tiết cụ thể các bước tiến hành theo từng giai đoạn và mỗi bước,
mỗi giai đoạn cần xác định những công việc cụ thể cùng với chi phí cần thiết.
2.3.6. Dự kiến bàn luận kết quả nghiên cứu
Bàn luận kết quả phải dựa vào kết quả nghiên cứu. Trên thực tế ta chưa có kết
quả nghiên cứu nên phải dựa vào khả năng có được của các kết quả nghiên cứu để tìm
đọc các tài liệu có liên quan. Có làm như vậy sau này ta mới đưa được chính kiến của
mình trên cơ sở các kết quả nghiên cứu mà mình sẽ thu được để so sánh với kết quả
của các tác giả khác.
2.3.7. Kết luận và kiến nghị
Là phần tổng hợp các kết quả nghiên cứu, nên dựa vào mục tiêu nghiên cứu để
kết luận, do vậy khi xây dựng đề cương ta chỉ cần viết là “Kết luận theo mục tiêu
nghiên cứu”. Tất nhiên phần kiến nghị cũng phải viết là “Dựa trên kết quả nghiên cứu
đã thu được”.
2.4. Tài liệu tham khảo
Viết theo quy định, đây là những tài liệu tham khảo chính dùng để phục vụ cho
việc lập đề cương nghiên cứu.
3. Một số điểm cần lưu ý
Trong quá trình hình thành đề cương nghiên cứu cần phải lưu ý một số điểm sau
đây:
- Khi đặt vấn đề nghiên cứu phải dựa trên một ý tưởng cụ thể, tuy nhiên nhà
nghiên cứu phải trả lời được một số câu hỏi: Tại sao hoặc có cần nghiên cứu vấn đề
này không? Đã có ai làm nghiên cứu này chưa?... Có như vậy cấp quản lý đề tài mới
biết và ủng hộ cho những thuyết minh của nhà nghiên cứu.
- Phần tổng quan tài liệu là rất phức tạp đòi hỏi người nghiên cứu phải đọc và
hiểu nhiều. Khi làm đề cương nghiên cứu ít nhất tác giả cũng phải biết vấn đề mình
nghiên cứu có ai đã và đang làm không để mình tìm hướng đi khác không trùng lặp
với các nghiên cứu đó.
- Phương pháp nghiên cứu. Đây là vấn đề cơ bản, đảm bảo cho sự thành công của
đề tài nghiên cứu do vậy tác giả phải suy nghĩ, tìm tòi mọi phương tiện, phương pháp
và tìm ra phương pháp tối ưu nhất để đảm bảo thành công cho nghiên cứu của mình. Ở
đây cũng phải xem xét một điều nữa là ai sẽ làm, người đó có khả năng và đủ độ tin
cậy hay không.

21
CÁC BIẾN TRONG NGHIÊN CỨU

Trong nghiên cứu khoa học ta thường phải tìm tòi nghiên cứu để thu thập được
những số liệu cần thiết. Các số liệu này thường tập trung vào các dạng nhóm mà ta có
thể gọi là các biến số trong nghiên cứu. Như vậy, biến số là một biểu thức chỉ ra cho ta
biết đó là nhóm số liệu gì, ví dụ: Môi trường tự nhiên, môi trường xã hội thì có rất
nhiều nhưng ta chọn nhóm số liệu vi khí hậu, nhóm số liệu về tình trạng hôn nhân...
mà thông qua việc nghiên cứu các nhóm số liệu này sẽ cho ta những kết quả tương
ứng.
1. Phân loại các biến số
Có nhiều cách phân loại các biến số, tuy nhiên ta thường phân loại chung chung
một cách đại cương theo bản chất hoặc mối tương quan lẫn nhau của các biến số.
1.1 Phân loại theo bản chất
Theo bản chất ta có thể phân ra hai loại biến số là định tính và định lượng.
1.1.1. Biến định tính
Các biến số này chỉ có tính chất định tính, ví dụ: tuổi, giới, địa chỉ, trình độ.. biến
số định tính này cũng phụ thuộc vào tác giả hoặc ở các điều kiện khác nhau.
1.1.2. Biến định lượng
Đây là các giá trị mà ta có thể định lượng được theo tiêu chuẩn quốc tế hoặc Việt
Nam. Ví dụ ta có thể cân đo đong đếm được như: nhiệt độ, huyết áp, chỉ số huyết sắc
tố... Về mặt khoa học “định lượng” mang tính cụ thể nên vấn đề phương pháp thu thập
và phân tích cần hết sức lưu ý, ví dụ: phải dựa trên những kĩ thuật tốt nhất mà khả
năng của ta có thể đáp ứng được...
1.2. Phân loại dựa vào mối tương quan
Trong y học đây là phân loại hay gặp nhất và thường là quan hệ nhân quả. Dựa
vào quan hệ này người ta phân chia thành hai nhóm:
- Biến số độc lập: thường là yếu tố nguy cơ, trong mối quan hệ nhân qua với hiện
tượng sức khoẻ cần nghiên cứu. Nó được xác định bởi người nghiên cứu dựa trên kinh
nghiệm và sự tham khảo tài liệu. Nó tồn tại một cách độc lập không chịu sự chi phối
của các hậu quả mà nó gây nên. Ví dụ: Nóng gây mất nước, mất muối ở người lao
động song nó lại độc lập với hiện tượng mất muối ở người lao động,
- Biến phụ thuộc: Thường là yếu tố mà người nghiên cứu muốn tham khảo. Nó
có thể là hậu quả trong mối quan hệ với nhiều yếu tố khác, cho nên giá trị của nó
không phụ thuộc hoàn toàn vào một giá trị nào của các biến ảnh hưởng đến nó. Tuy
nhiên, các biến số này thường không có giá trị độc lập trong mối quan hệ mà ta đang

22
nghiên cứu, nó chỉ xẩy ra hoặc tồn tại bởi một hoặc nhiều yếu tố khác. Trong nghiên
cứu vẫn tồn tại các yếu tố làm nhiễu biến phụ thuộc. Ví dụ: bệnh Bướu cổ đơn thuần
(biến phụ thuộc) do thiếu Iốt, nhưng vẫn có các yếu tố khác làm tăng tỷ lệ bệnh bướu
cổ đơn thuần như: độ cứng của nước, hoá chất trừ sâu...
2. Các yếu tố nhiễu
Trong nghiên cứu ta có thể gặp rất nhiều yếu tố gây nhiễu kết quả nghiên cứu.
Trên thực tế đa số các hiện tượng sức khoẻ thường bị tác động bởi nhiều yếu tố, trong
đó có yếu tố được biết rõ là nguyên nhân chính gây ra bệnh, tuy nhiên có nhiều yếu tố
góp phần làm cho bệnh dễ phát sinh hoặc làm thay đổi tình trạng sức khoẻ. Nếu yếu tố
này ảnh hưởng đồng thời với các yếu tố nguy cơ thì nó được coi là yếu tố nhiễu trong
một tương quan nhân quả đang được khảo sát. Ví dụ: bụi là yếu tố nguy cơ đối với các
bệnh đường hô hấp còn vi khí hậu là yếu tố nhiễu.
3. Ý nghĩa của việc phân loại biến số
- Biến số sẽ giúp cho việc xác định các chỉ số nghiên cứu, do vậy việc thu thập và
phân tích số liệu chính là làm việc với các chỉ số này.
- Biến số sẽ giúp cho việc chọn cách thu thập số liệu
- Biến số giúp cho viện lựa chọn các test thống kê thích hợp khi phân tích số liệu
- Biến số giúp cho việc chọn cách trình bày số liệu nghiên cứu.
Trong nghiên cứu, việc xác lập các biến số cần thiết để tiến hành nghiên cứu nhà
nghiên cứu cần thiết phải định nghĩa các biến số sao cho chính xác nhất và dễ vận
dụng nhất trên thực tế.
Ví dụ về những định nghĩa các biến số
Định nghĩa lý thuyết Định nghĩa thiết lập cho
Thước đo
về các biến số các biến (tức là các chỉ số)
Tuổi Tuổi tính theo ngày sinh Liên tục, theo tháng
Nồng độ Hemoglobin có Liên tục tính theo giam trên 100ml, tính
Lượng Hemoglobin trong mạch máu được tính gần đúng
bằng thước đo Hemoglobin
Thứ tự:
1. Có tình trạng dinh dưỡng tốt tức là có
Cân nặng/tuổi so với đường trên 80% trên mức chuẩn.
Tình trạng dinh
cong chuẩn trong biểu đồ 2. Tình trạng dinh dưỡng trung bình 60 -
dưỡng
phát triển 80% ở mức chuẩn.
3. Suy dinh dưỡng nặng: 60% dưới mức
trung bình.
Thứ tự:
1. Rất hài lòng.
Sự hài lòng của bệnh Phản ứng của bệnh nhân với
2. Nhìn chung là hài lòng.
nhân từng câu hỏi đặc trưng
3. Một vài vấn đề không.
4. Rất không hài lòng.
23
5. Không biết.
6. Không trả lời.
Tỉ lệ tiêm chủng % trẻ em được tiêm chủng ở Liên tục tức là tỉ lệ cao ≥ 80%
lứa tuổi nhất định Trung bình ≥ 60 - 80%.
Thấp ≤ 60%
Carbonhydrate chính Dạng thức ăn chính Định danh: ngô, khoai, sắn, gạo
trong thức ăn

3.1. Những khả năng thay đổi khi định nghĩa các biến thường gặp.
- Nghề nghiệp: Nghề nghiệp được phân loại theo chuyên môn được đào tạo hay
theo công việc thực tế? Nếu như đã về hưu hoặc thất nghiệp thì nên cân nhắc theo
công việc làm nhiều nhất.
- Giáo dục: Số năm được đào tạo hoặc lớp học có trình độ cao nhất đã qua,
trường đào tạo...
- Thu nhập: thu nhập cá nhân hoặc gia đình tính trung bình theo đầu người/năm...
- Mật độ dân số. số người trung bình trong một phòng, trong một căn hộ. Những
phòng nào không được tính đến (phòng tắm, bếp, vệ sinh, nhà kho...)
- Tầng lớp xã hội: Dựa theo nghề nghiệp, học vấn, thu nhập, nơi cư trú, tiện nghi
của gia đình hoặc những quan điểm của bản thân? Dựa trên một hoặc nhiều chỉ số đó.
- Tình trạng hôn nhân: Theo tình trạng hôn nhân chính thức (độc thân, có gia
đình, goá bụa hoặc ly hôn) hoặc theo tình trạng ổn định (gần nhau thường xuyên hoặc
không).
- Con cái: Tổng số những lần có thai trước đây hoặc tổng số con đã sinh sống
hoặc chết...
- Ngày khởi phát bệnh: ngày phát hiện ra những triệu chứng đầu tiên, hoặc ngày
khi có chẩn đoán, hoặc ngày được thông báo...
- Xuất hiện bệnh mạn tính: dựa vào thời gian và tiến triển của bệnh có thể xác
định là bệnh mạn tính hay không? Chính vì vấn đề này nên có nhiều quan niệm khác
nhau và định nghĩa khác nhau.
- Còn rất nhiều khái niệm, định nghĩa có thể thay đổi do yêu cầu cũng như thực
tiễn nghiên cứu mà những người làm nghiên cứu có thể đề xuất hoặc thay đổi.
3.2. Một số điểm cần lưu ý khi xác định các biến trong nghiên cứu
- Trong quá trình nghiên cứu, dù là mô tả hay phân tích thì người làm nghiên cứu
cũng nên nghĩ đến quan hệ nhân quả, tức là có cái này xuất hiện hoặc tồn tại thì có thể
phát sinh hoặc phát triển cái kia. Khi xác định được mối quan hệ nhân quả thì việc tìm
ra đâu là yếu tố nguy cơ, đâu là hậu quả không còn là vấn đề nữa.

24
- Trên cơ sở xác định các nhóm số liệu, các biến trong nghiên cứu ta cũng hình
thành ngay hoặc dần dần các phương pháp xử lý kết quả nghiên cứu sau này.
- Dù ta có chuẩn bị kỹ càng đến đâu đi chăng nữa thì trong quá trình nghiên cứu
vẫn xuất hiện các biến nghiên cứu mới. Đây là điều chúng ta luôn phải ghi nhớ để xử
lý kịp thời và phù hợp, lô gíc vấn đề đã đặt ra khi xây dựng đề cương nghiên cứu ban
đầu.

25
CHỌN MẪU TRONG NGHIÊN CỨU KHOA HỌC

Đa số các nghiên cứu đều nhằm phục vụ hay đáp ứng cho từng quần thể rộng lớn,
song ta chỉ có thể chọn một số nào đó có thể đại diện cho quần thể đó là mẫu nghiên
cứu. Mẫu chọn được như thế nào, và cỡ mẫu là bao nhiêu? để có thể đại diện cho quần
thể song ít mắc sai số và kinh tế, hiệu quả.
Cách chọn mẫu dù là mẫu ngẫu nhiên đơn, mẫu phân tầng hay mẫu chùm... đều
phải dựa vào quần thể.
Quần thể có quy mô nhỏ dần từ quần thể tổng quát, quần thể định danh, quần thể
có nguy cơ, quần thể có nguy cơ cao và cuối cùng là quần thể bị đe doạ.
Việc chọn mẫu nghiên cứu tuỳ thuộc vào mục tiêu nghiên cứu và khả năng
nghiên cứu, song người ta thường chọn mẫu trong khu vực quần thể bị đe doạ làm
nhóm chủ cứu để so sánh với nhóm chứng.
Thông thường mẫu được chọn dựa trên hai cơ sở quan trọng là kết quả nghiên
cứu trước đó hay kết quả ước định, kết quả nghiên cứu thử nghiệm và xác suất cho
trước do ta dự định.
Ví dụ: Ta có thể chọn mẫu trong nghiên cứu bệnh sất rét ở trẻ em dưới 5 tuổi khi
ta biết tỷ lệ bệnh sốt rét trong trẻ em tại vùng đó khoảng 20% và ước lượng có độ tin
cậy ở mức > 95%.
1. Các loại mẫu trong nghiên cứu
1.1 Mẫu không xác suất
- Mẫu mục đích: Là loại mẫu nghiên cứu không xác suất mà dựa vào mục đích
của nhà nghiên cứu. Không có các yêu cầu của chọn mẫu và tính cỡ mẫu (Mẫu chủ
đích).
- Mẫu kinh nghiệm: Là loại mẫu nghiên cứu không xác suất mà dựa vào kinh
nghiệm của nhà nghiên cứu đối với vấn đề nghiên cứu.
- Mẫu tiện lợi: Là mẫu thiết kế để làm sao cho việc lấy đơn giản, tiện lợi.
1.2. Mẫu xác suất
- Mẫu ngẫu nhiên đơn.
- Mẫu ngẫu nhiên hệ thống.
- Mẫu ngẫu nhiên phân tầng.
- Mẫu chùm.
1.3. Mẫu ngẫu nhiên đơn
Định nghĩa: Là loại mẫu nghiên cứu trong đó các cá thể có cơ hội được chọn như
26
nhau và mẫu nghiên cứu.
Cách tiến hành chọn: Sử dụng bảng số ngẫu nhiên là thông dụng hơn cả.
Giới thiệu cấu trúc bảng số: gồm có các hàng ngang và cột dọc, bảng có cấu trúc
rất ngẫu nhiên để cho việc chọn lựa các số theo bất kỳ chiều hướng nào.
Cách sử dụng:
Xác định số ký tự cần thiết: mỗi ký tự là một số, số ký tự được lấy phụ thuộc vào
kích thước quần thể nghiên cứu. Ví dụ: Nếu định nghiên cứu 10 cá thể trong số 100 cá
thể ta lấy 3 ký tự. Tương tự nêu nghiên cứu 200 cá thể trong quần thể 1000 người ta
chọn 4 ký tự.
Xác định chiều hướng chọn. Trước khi chọn số ta cần quy định chiều đi theo
hàng hay theo cột để đảm bảo ngẫu nhiên.
Chọn các số ngẫu nhiên: đầu tiên ta chọn cá thể đầu tiên năm trong số các cá thể
của quần thể, sau đó theo hướng đã chọn chọn tiếp các cá thể sau nếu chọn được số đã
chọn thì bỏ qua.
Có thể dùng cách bốc thăm, rút số đồng tiền, quay cổ chai để chọn.
Ưu nhược điểm:
Là cơ sở cho các kỹ thuật chọn mẫu khác.
Tốn kém và tốn thời gian
Không thuận tiện
Không thích hợp cho các bệnh phân bố theo tuổi, giới...
1.4. Mẫu hệ thống
Định nghĩa: Là loại mẫu nghiên cứu giống như mẫu ngẫu nhiên đơn nhưng các
cá thể được chọn cách nhau một khoảng cách nhất định.
Cách tiến hành chọn:
Tính khoảng cách mẫu k = N/n
Chọn số ngẫu nhiên đầu tiên < k (theo bảng số ngẫu nhiên)
Tìm các số sau bằng số trước nó + k
Ví dụ: Chọn 7 cá thể trong số 70 người để nghiên cứu ta làm như sau:
Tính k = N/n = 70/7 = 10
Chọn trên bảng số được một số ngẫu nhiên nhỏ hơn 10, giả sử là 8 đó chính là cá
thể đầu tiên, cá thể thứ 2 là 8 + 10 = 18, cá thể thứ 3 là 28... cá thể cuối cùng là 68.
Ưu nhược điểm:
Dễ triển khai hơn mẫu ngẫu nhiên đơn
27
Không thích hợp cho các đặc trưng nghiên cứu phân bố theo chu kỳ.
1.5. Mẫu tầng
Định nghĩa: Là một mẫu nghiên cứu mà quần thể được chia làm nhiều tầng, riêng
biệt, mỗi tầng có số lượng cá thể nhất định được chọn vào mẫu nghiên cứu.
Cách tiến hành chọn:
Định nghĩa tầng: tầng là tập hợp các cá thể tương đối giống nhau về các đặc
trưng nghiên cứu.
Phân bổ các cá thể vào các tầng: cân xứng và không cân xứng.
Ví dụ:
Một nghiên cứu về mô hình bệnh tật và sử dụng dịch vụ y tế được tiến hành tại
huyện Võ Nhai năm 1995. Mẫu tầng được chọn để nghiên cứu, thủ tục như sau. Người
ta chia huyện làm 3 tầng: Vùng núi cao, vùng núi, vùng trung du. Sau đó liệt kê các xã
thuộc từng vùng rồi chọn ngẫu nhiên mỗi vùng 2 xã để nghiên cứu. Tất cả các cá thể
trong 6 xã đều được nghiên cứu.
Ưu nhược điểm:
Giá thành thấp hơn
Chính xác hơn các mẫu khác nếu các đặc trưng nghiên cứu đồng nhất trong từng
tầng.
Có cả thông tin trên từng tầng lẫn thông tin của các tầng.
1.6. Mẫu chùm
Định nghĩa: Là một mẫu ngẫu nhiên đơn trong đó mỗi đơn vị mẫu là một tập hợp
các cá thể gọi là chùm.
Cách tiến hành chọn (xem phần bài chọn 30 chùm)
Ưu nhược điểm
Giá thành thấp nhất,
Thuận tiện và dễ tiến hành trên thực địa
Sai số chuẩn cao.
1.7. Các bước tiến hành chọn mẫu 30 chùm ngẫu nhiên
- Liệt kê các xã/ làng
- Điền dân số từng xã / làng
- Tính dân số cộng dồn.
- Tính khoảng cách mẫu k = tổng dân số cộng dồn / 30 chùm.

28
- Dùng bảng ngẫu nhiên chọn ra chùm đầu tiên có dân số < k
- Chọn tiếp các chùm khác bằng cách lấy chùm trước + k
- Chọn các cá thể trong từng chùm bằng cách chọn nhà đầu tiên rồi theo quy luật
nhà gần nhà.
Ví dụ:
Trong cuộc đánh giá tiêm chủng mở rộng tại huyện X năm 1988, mẫu chùm được
chọn để đánh giá tỷ lệ tiêm chủng đạt được cho trẻ dưới 10 tuổi. Người ta làm như ví
dụ sau:
Tỉnh TN có 113 xã và phường thì các cụm điều tra nằm trong 113 xã đó. Từ số
lượng 113 xã, ta chọn một cách ngẫu nhiên 30 cụm mẫu đại diện cho 113 xã của toàn
tỉnh TN.
(1) Trước hết ta lập danh sách 113 xã, phường với số dân của từng xã.
Tương ứng với hàng ngang của xã, ta cộng dồn dân số lại cho đến hết.
Danh sách các cụm trong tỉnh TN (cả các trang bên)
TT Tên xã (viết tắt) Dân số Cộng dồn dân số Cụm mẫu
1 a 12.888 12.888
2 b 3.489 16.377 Cụm 1
3 c 6.826 23.203
4 ơ 4.339 27.542
5 e 2.202 29.745
6 f 4.341 34.086
7 g 1.544 35.630
8 h 855 36.515 Cụm 2
9 i 12.962 49.477
10 K 14.234 63.71 1 Cụm 3
11 l 1 1.520 75.231
12 m 13.767 88.998 Cụm 4
13 o 13.053 92.051
14 p 10.000 112.051 Cụm 5
15 q 2.207 114.348
16 r 1.355 115.703
17 s 833 116.536 Cụm 6
18 t 4.118 120.654
19 u 2.782 123.436
20 v 3.285 126.721
21 ư 4.416 131.137
22 w 3.168 134.325
23 x 1.179 135.504
24 y 621 136.116
25 Z 3.193 139.309 Cụm 7

29
26 Q 17.808 157.117 Cụm 8
27 E 3.914 161.031
28 E 15.006 176.037
29 T 9.584 185.621 Cụm 9
30 Y 4.225 189.846
31 U 2.625 193.498
32 I 35.000 227.498 Cụm 10
33 Ô 3.954 231.452 Cụm 11
34 P 2.115 233.567
35 A 507 234.074
36 S 3.516 237.672 Cụm 12
37 D 14.402 251.992
38 Đ 2.575 254.567
39 F 3.105 257.672 Cụm 13
40 G 4.176 261.848
41 H 1.919 263.767
42 J 3.261 267.028
43 K 4.270 271.298
44 L 3.301 274.599
45 3.250 277.849 Cụm 14
46 Z 4.670 282.519
47 X 757 283.276
48 C 12.037 295.313
49 V 2. 1 55 297.468 Cụm 15
50 B 3.702 301.170
51 N 2.262 303.432
52 M 791 304.223
53 qư 3.468 307.691
54 qe 4.338 312.209
55 qr 3.930 315.959
56 qt 2.112 318.071 Cụm 16
57 qy 3.953 322.024
58 qu 2.198 324.222
59 qi 9.891 334.113
60 qo 3.154 337.267 Cụm 17
61 qp 2.548 339.815
62 qa 1.034 840.849
63 qd 2.415 343.264
64 qs 4.325 347.589
65 qf 13.233 360.822 Cụm 18
66 qg 511 361.333
67 qh 2.313 363.646
68 qj 3.108 366.754
69 qk 4.162 370.917
70 ql 4.250 371657

30
71 qz 784 375.951
72 qx 3.423 379.374 Cụm 19
73 qc 4.0987 383.472
74 qv 4.540 388.012
75 qb 2.322 390.334
76 qn 3.987 394.321
77 qm 4.211 398.532 Cụm 20
78 eư 2.541 401.073
79 er 848 401.921
80 et 1.281 403.202
81 ey 3.310 406.512
82 eu 4.513 410.825
83 ei 4.762 410.587
84 eo 3.647 419.234 Cụm 21
85 ep 2.530 421.764
86 ea 16.983 438.747 Cụm 22
87 es 2.730 441.447
88 ed 4.869 446.346
89 ef 3.300 449.646
90 êg 4.150 453.796
91 eh 3.760 457.556 Cụm 23
92 êh 1.587 459.143
93 ej 16.699 475.842
94 ek 2.703 478.545 Cụm 24
95 el 747 479.292
96 ez 4.451 483.743
97 ex 4.425 488.168
98 ec 3.860 492.028
99 ev 2.835 494.863
100 eb 1.725 496.588
101 en 3.988 500.576 Cụm 25
102 em 4.124 504.700
103 zq 4.389 509.089
104 zw 1.126 510.215
105 ze 2.166 512.381
106 zr 3.393 51 5.774
107 zt 4.787 520.561 Cụm 26
108 zy 23.447 544.008 Cụm 27
109 zy 13.689 557.697 Cụm 28
110 zu 14.696 572.393
111 zi 20.000 592.303 Cụm 29
112 zp 3.990 596.383
113 zx 4.754 601.137 Cụm 30
Số cộng dồn dân số 601.137
(2) Tính khoảng cách mẫu theo công thức sau đây:

31
Số cộng dồn dân số
= Khoảng cách mẫu
30 cụm
Ví dụ: Theo bảng trên ta có:
601.137
= 20.037
30

(3) Để xác định cụm từ thứ nhất, ta phải tìm một số ngẫu nhiên theo bảng số ngẫu
nhiên. Số này phải bằng hoặc ít hơn khoảng cách mẫu. Số này chỉ cụm từ thứ nhất.
Ví dụ: Theo bảng trên, dọc bảng số ngẫu nhiên ta có 16.225. Số này chấp thuận
được vì bé hơn khoảng cách mẫu. Vậy cụm đầu tiên nằm trong xã b có số thứ tự là 2 ở
cột thứ tự.
(4) Để xác định cụm thứ 2, ta theo công thức:
Số ngẫu nhiên + Khoảng cách mẫu = cụm 2
Ví dụ: Trong bảng
Cụm 2 = 16.225 + 20.037 = 36.262
Vậy cụm 2 nằm trong xã h, có số TT là 8 ở cột thứ tự.
(5) Để xác định cụm 3, ta theo công thức.
Số đã chỉ cụm trước + Khoảng cách mẫu = cụm 3
Ví dụ: Trong bảng
Cụm 3 = 36.262 + 20.037 = 56.299
Vậy cụm 3 nằm trong xã k, một xã đông dân, có số 10 ở cột thứ tự.
(6) Để xác định các cụm sau, ta vẫn theo công thức (5) và tìm đủ 30 cụm trong
danh sách.
2. Ước lượng mẫu nghiên cứu mô tả thông qua tỷ lệ
2.1. Mẫu nghiên cứu cho một tỷ lệ
Theo thường lệ trước hết người ta phải ấn định một ngưỡng chính xác 2 cho tỷ lệ
p. Người ta thường lấy ngưỡng 0,05 hoặc 0,01. Với ngưỡng này giá trị “X”, tương ứng
Z1 - α/2 sẽ là 1,96 hoặc 2,33.
Công thức tính cỡ mẫu thông thường được ứng dụng như sau:

Trong đó:

32
P = tỷ lệ ước định
q=1-p
e = ngưỡng chính xác (có thể ký hiệu là d)
Số 1 của công thức là số dư
Mẫu nên có:

Số dư là để cho mẫu chắc chắn có xác suất < xác suất ấn định.
Trong công thức có p là tỷ lệ ước định trong quần thể. Ty lệ p có được là từ
nghiên cứu trước hoặc nghiên cứu thăm dò (Philot study). Nếu không có nghiên cứu
trước thì ta phải lấy cỡ mẫu tối đa bằng cách chọn p = 0,5
Ví dụ: Muốn tìm khả năng gây độc của một chất độc x có trong môi trường người
ta đã đem nghiên cứu trên chuột xem tỷ lệ sống sót sau 1 tuần với mức tin cậy là 95%.
Một nghiên cứu tương tự đã cho biết là tỷ lệ sống sót là 20%. (P = 0,2). Độ chính xác
được ấn định e = 0,03. Vậy cần có n chuột là bao nhiêu con?
Ứng dụng công thức ta có:
0,2(1-0,2)
n = 1,962 x = 683 chuột, cộng thêm 1, ta có 684 con
(0,03)2
Như vậy xác xuất càng lớn hoặc (t) càng lớn thì mẫu càng nhiều.
2.2. Mẫu nghiên cứu cho hai tỷ lệ (hai mẫu)
Thông thường ước lượng mẫu nghiên cứu cho hai tỷ lệ thì nghiên cứu hai mẫu
này là có cùng một cỡ nA = nB.
Công thức :

Cách vận dụng tính mẫu n tương tự như với mẫu ước lượng cho một tỷ lệ.
3. Ứớc lượng mẫu nghiên cứu mô tả thông qua số trung bình và độ lệch
chuẩn
Nếu như những nghiên cứu sẽ có kết quả là số trung bình cộng và độ lệch chuẩn
như chiều cao, cân nặng, đường huyết... khi ước lượng mẫu phải dựa vào kết quả
nghiên cứu trước đó người ta đã tiến hành hoặc điều tra thăm dò của ta để có độ lệch
chuẩn và độ chính xác.
Ví dụ: Cân nặng là số giam, chiều cao là số cm...

33
3.1. Mẫu nghiên cứu cho một quần thể
Tương tự việc ước lượng tỷ lệ, ta cần phải ấn định ngưỡng xác suất (Z1 - α/2 là bao
nhiêu?) sau đó áp dụng công thức:

Trong đó:
S2: Phương sai ước định
e2: sai số ước định
Ví dụ: Cần n đủ để điều tra chiều cao thanh niên khu vực. Khi ta biết một điều tra
thăm dò cho thấy s = 5cm. Ta đặt độ chính xác của pháp đo e = 0,5cm và ngưỡng xác
suất là 0,05, ứng dụng trong công thức.

Vậy cần nghiên cứu với mẫu từ 385 thanh niên trở lên sẽ có kết quả có xác suất
p < 0,05. Như vậy muốn tăng độ chính xác lên 0,25 cm ta phải khám gấp 4 lần nhiều
hơn (trên 1537 người).
3.2. Mẫu nghiên cứu cho 2 quần thể hoặc 2 mẫu trong một quần thể
Tương tự với một mẫu ở một quần thể khi tính cỡ mẫu người ta cũng cần các
thông tin như vậy ở hai khu vực. Thường thì hai mẫu có cỡ mẫu tương tự: nA = nB.
Công thức cỡ mẫu:

Trong đó:
S2A : Phương sai đối với quần thể A
S2B : Phương sai đối với quần thể B
Ví dụ: Cần tìm mẫu đủ để nghiên cứu thời gian phản ứng ở hai nhóm thanh niên,
nhà tâm lý học ước lượng độ lệch chuẩn ở hai nhóm. Nhóm A có s = 0,05 giây; nhóm
B có s = 0,04 giấy, ở ngưỡng p = 0,01.
Ứng dụng công thức trên cơ sở mẫu nA = nB chúng ta có:

Vậy mỗi mẫu nghiên cứu cần 274 người thì mới đáp ứng được yêu cầu mẫu
34
chuẩn xác.
4. Ước lượng cỡ mẫu cho nghiên cứu bệnh chứng
Công thức được áp dụng như sau:

Trong đó:
p1: Tỷ lệ các cá thể phơi nhiễm với yếu tố nguy cơ được ước lượng cho nhóm
bệnh.
po: Tỷ lệ các cá thể phơi nhiễm với yếu tố nguy cơ được ước lượng cho nhóm
chứng (Giá trị p1 và po có thể được lấy từ kết quả từ các nghiên cứu trước đó hoặc
nghiên cứu thử).
ε: Mức độ chính xác mong đợi [chênh lệch cho phép giữa tỷ suất chênh (OR)
thực của quần thể và OR thu được từ mẫu].
Chú ý: Trong trường hợp chỉ biết một trong hai giá trị p1 và po hoặc OR ta có thể
tính giá trị chưa biết thông qua công thức sau:

5. Tính cỡ mẫu cho nghiên cứa thuần tập (Cohort study)


Công thức được áp dụng như sau:

Trong đó:
p1: Tỷ lệ các cá thể phơi nhiễm với yếu tố nguy cơ được ước lượng cho nhóm
bệnh.
po: Tỷ lệ các cá thể phơi nhiễm với yếu tố nguy cơ được ước lượng cho nhóm
chứng (Giá trị pl và tro có thể được lấy từ kết quả từ các nghiên cứu trước đó hoặc
nghiên cứu thử).
ε: Mức độ chính xác mong đợi [chênh lệch cho phép giữa tỷ suất chênh (OR)
thực của quần thể và OR thu được từ mẫu ].
Chú ý: Trong trường hợp chỉ biết một trong hai giá trị p1 và po hoặc OR ta có thể
tính giá trị chưa biết thông qua công thức sau:
p1 = (RR) po

35
6. Chọn mẫu cho nghiên cứu can thiệp
Có nhiều cách song người ta thường sử dụng công thức sau:

Trong đó:
Lấy Z1 - α/2 = 1,96
Z1-β : 0,84 (lực mẫu thường được lựa chọn là 80%)
p1: Tỷ lệ gặp trước can thiệp
p2: Ước lượng sau can thiệp
Đánh giá sau can thiệp ta lại phải thông qua các chỉ số hiệu quả như công thức đã
được giới thiệu trong phần các phương pháp nghiên cứu:

Trong đó:
pl: Tỷ lệ gặp trước can thiệp
p2: Tỷ lệ thu được sau can thiệp
Tuy nhiên cần phải tính các CSHQ% (A) ở nhóm nghiên cứu, can thiệp và các
CSHQ%(B) ở nhóm đối chứng, không can thiệp, sau đó tính các hiệu số CSHQ% (Ai)
CSHQ% (Bi) để xác định hiệu quả thực sự cho từng giải pháp can thiệp đã áp dụng.

36
CÁCH THU THẬP VÀ TRÌNH BÀY SỐ LIỆU NGHIÊN CỨU

1. Thu thập số liệu


Những số liệu nghiên cứu và minh chứng có thể thu được từ nhiều nguồn, cách
khác nhau với các phương pháp nghiên cứu hồi cứu hoặc nghiên cứu hiện tại thông
qua điều tra ở thời điểm nào đó, đồng thời cũng có thể qua các loại xét nghiệm hoặc
thực nghiệm như: xét nghiệm máu, nước tiểu... phỏng vấn đối tượng nghiên cứu, khám
đối tượng nghiên cứu, các,thông tin từ sổ sách, tạp chí, báo cáo bệnh án... Tuy nhiên
phương pháp thường áp dụng ở cộng đồng với chi phí thấp là phương pháp “Điều tra
bằng phiếu hỏi”.
2. Điều tra bằng phiếu hỏi
Mỗi cuộc điều tra đều có mục tiêu riêng. Dựa vào mục tiêu nghiên cứu mà người
nghiên cứu sẽ soạn thảo những bộ câu hỏi để làm sao thu thập được đủ thông tin đáp
ứng được mục tiêu nghiên cứu. Câu trả lời cho các câu hỏi này chính là các chỉ số, các
biến số nghiên cứu.
Thông tin có thể thu thập theo cách trực tiếp (phỏng vấn) hoặc gián tiếp (qua thư,
điện thoại...). Thông thường có hai cách lập câu hỏi:
Câu hỏi có trả lời tự do tuỳ theo người được hỏi và câu hỏi có trả lời theo định
hướng của người nghiên cứu muốn biết. Bất kỳ loại nào thì câu hỏi cũng cần đạt các
yêu cầu sau:
- Rõ ràng và đơn giản
- Tránh dùng các thuật ngữ quá sâu về chuyên môn
- Tránh “gợi ý” người trả lời
- Có tính liên tục
- Bảo vệ người được phỏng vấn
- Đã qua thử nghiệm trước khi triển khai rộng.
Để xây dựng công cụ thu thập thông tin được đầy đủ và chính xác, người nghiên
cứu cần phải đặt ra những câu hỏi sau đây:
- Điều cần biết cụ thể là gì?
- Điều đó có phù hợp với mục tiêu và nội dung nghiên cứu không?
- Công cụ thu thập các thông tin đã phù hợp với thiết kế nghiên cứu chưa?
- Cần bổ xung loại công cụ nào khác không”
- Đối tượng điều tra là ai? Bộ công cụ đã thích hợp với đối tượng nghiên cứu

37
không? Các phần, các chủ đề, mục có phù hợp với thiết kế nghiên cứu không? Liệu đối
tượng nghiên cứu có thể trả lời được những câu hỏi đặt ra không? Nguồn số liệu hiện
có đã đáp ứng đủ về lượng thông tin?
- Cỡ mẫu nghiên cứu (điều tra) có lớn không?...
2.1. Các loại bảng câu hỏi và câu hỏi
Bảng câu hỏi là công cụ sử dụng để hỏi trực tiếp hoặc gián tiếp đối tượng nghiên
cứu. Trong bảng câu hỏi, các câu hỏi cũng được sắp xếp theo các chương, mục khác
nhau.
Bảng câu hỏi: Có thể dùng bảng câu hỏi để phỏng vấn trực tiếp hoặc gián tiếp
đối tượng nghiên cứu. Phỏng vấn trực tiếp có ưu điểm hơn là phỏng vấn gián tiếp,
nhưng vẫn có những hạn chế nhất định. Bởi lẽ, kết quả nghiên cứu sẽ khác nhau nếu
trình độ của điều tra viên khác nhau, cách đặt câu hỏi khác nhau, tính trung thực trong
nghiên cứu khác nhau...Sai số của phỏng vấn trực tiếp tùy thuộc vào nghiên cứu viên
nhiều hơn, còn sai số của phỏng vấn gián tiếp lại tùy thuộc vào người trả lời nhiều
hơn.
Câu hỏi: Có 3 loại câu hỏi: Câu hỏi đóng, câu hỏi mở và câu hỏi nửa đóng (câu
hỏi bán cấu trúc)
Câu hỏi đóng: Câu hỏi kiểu này vừa đặt câu hỏi, vừa có câu trả lời sẵn để đối
tượng nghiên cứu trả lời. Loại câu hỏi này dùng cho điều tra hộ gia đình ở những nơi
dân trí thấp. Mục đích là để tìm kiếm “những điều ta cần biết” và những thông tin có
giới hạn, có tính chất phân loại, đo lường. Dạng câu hỏi này dễ xử lý và thường dùng
trong nghiên cứu y học.
Ví dụ: Chị có đủ sữa cho cháu bú không? có không
Câu hỏi mở: Câu hỏi không có câu trả lời sẵn. Dùng cho trường hợp điều tra các
cộng đồng có trình độ văn hóa cao, trong các điều tra về nhân chủng và xã hội. Câu
hỏi này dùng để tìm “những điều ta cần biết” và “những điều đối tượng nghiên cứu
muốn nói cho ta biết”. Tuy nhiên, đối tượng nghiên cứu có thể đi chệch hướng nghiên
cứu của đề tài.
Ví dụ: Hãy cho biết lợi ích của việc nuôi con bằng sữa mẹ?
Câu hỏi nửa đóng: là câu hỏi đóng, nhưng ở cuối câu đặt câu hỏi mở.
Loại câu hỏi này thường dùng khi người nghiên cứu chưa thực sự biết hết liệu
những câu trả lời có thể sẽ là gì. Câu hỏi này dùng để thu thập các ý kiến, tìm hiểu thái
độ, thu lượm những ý kiến của đối tượng nghiên cứu hoặc được sử dụng khi tình
huống cần linh hoạt, ứng biến, thăm dò cho việc đặt câu hỏi đóng cho nghiên cứu diện
rộng của những nghiên cứu sau đó.
Ví dụ: Lý do chị không đến trạm y tế khám khi chị bị ốm là gì?

38
- Trạm y tế ở xa
- Chất lượng chuyên môn kém
- Phải chờ đợi lâu
- Khác, là gì ?...............
Các dạng câu hỏi có cấu trúc: các dạng câu hỏi có cấu trúc có thể đưa ra: Sự lựa
chọn lấy một trong hai khả năng, ví dụ như có hoặc không, đồng ý hoặc không đồng ý,
phù hợp hay không phù hợp... Đối với các câu hỏi loại này nên thêm câu trả lời
“không biết”.
- Một sự lựa chọn trong nhiều khả năng
Ví dụ: Bạn sẽ chọn loại kháng sinh nào trước tiên để điều trị viêm phổi cho trẻ
em tại cộng đồng?
+ Erythromyxin
+ Ampixilin
+ Cotrimoxazol
+ Tetraxyclin
+ Khác (ghi rõ)
- Một thang điểm giống như thang nhiều bậc giữa hai cực
Ví dụ: Khi còn là sinh viên, phương pháp giảng dạy nào đã được sử dụng?
Phương pháp giảng dạy Tần số sử dụng
Thảo luận nhóm 12345
Đóng vai 12345
Nghiên cứu trường hợp 12345
1: Tất cả thời gian 4: Hiếm khi
2: Hầu hết thời gian 5: Không bao giờ
3: Đôi khi
- Câu trả lời bằng số. Ví dụ: Chị có mấy con? Chị bao nhiêu tuổi?
- Cơ hội thăm dò để gợi ý nhiều câu trả lời đặc biệt hơn
Ngôn ngữ và phong cách diễn tả: Ngôn ngữ các câu hỏi phải phù hợp với trình độ
người trả lời. Nên sử dụng tiếng bản xứ, địa phương hay cách nói thông dụng hàng
ngày. Tránh dùng các thuật ngữ chuyên môn hoặc chữ viết tắt.
Một số lưu ý khi xây dựng bảng câu hỏi:
Tránh đặt những câu hỏi khó hiểu hoặc dễ bị hiểu sai ý: Cần thiết phải đặt câu
hỏi đó cho chính mình, cho một số người khác xem cách hiểu của họ có giống nhau
39
không, có thể trả lời được đúng vào câu hỏi như ý đồ thiết kế không. Không nên đặt
câu hỏi quá dài, vòng vo, không đi ngay vào vấn đề cần hỏi. Không nên dùng ngôn
ngữ khoa học trong giao tiếp. Cần thiết phải làm việc theo nhóm và thử lại nhiều lần
trước khi sử dụng bộ công cụ.
Ví dụ: Anh chị dự định bao lâu nữa thì sinh con?
Tránh đặt câu hỏi có tính chất gợi ý trả lời: Ví dụ: Nên tránh dùng câu hỏi “ Chị
có cho rằng uống nước lã sẽ bị tiêu chảy không?”. Câu này nên hỏi lại là “uống nước
lã có thể gây bệnh gì?”
- Cần có một số câu hỏi kiểm tra lại những câu hỏi trước nếu thấy cần thiết.
- Cần sắp xếp các phần, mục, chủ đề theo những thứ tự nhất định: Thông thường,
bảng câu hỏi thường được cấu trúc theo thứ tự sau:
- Phần hành chính: các đặc điểm về nhân khẩu học như tuổi, giới, nghề nghiệp,
trình độ văn hóa, tình trạng hôn nhân, nơi ở, tình trạng kinh tế...
- Phần các câu hỏi có tính chất mô tả: Cần lần lượt từ khái quát đến cụ thể, từ
kiến thức, thái độ đến thực hành.
- Phần các câu hỏi khai thác các thông tin có tính chất tìm nguyên nhân và các
câu hỏi có tính chất tế nhị cần để ở cuối bảng hỏi. Ví dụ như các câu hỏi về thu nhập,
thái độ chính trị, nguyện vọng, lòng tin, hành vi trong sức khỏe sinh sản, bệnh lây
truyền qua đường tình dục...
- Độ dài của bộ câu hỏi: Nhìn chung bộ câu hỏi có độ dài hợp lý là mất khoảng
nửa giờ hoặc ít hơn để thực hiện trong một cuộc phỏng vấn có cấu trúc. Không nên
thiết kế bộ câu hỏi mà nếu phỏng vấn phải mất khoảng một giờ mới kết thúc. Những
bộ câu hỏi như vậy nên được chia ra để phỏng vấn tại hai thời điểm khác nhau thì hiệu
quả sẽ tốt hơn.
- Tính tin cậy và tính giá trị của bộ câu hỏi: Câu hỏi và câu trả lời cẩn có sự nhất
quán, minh bạch. Có thể có nhiều cách tiếp cận câu trả lời, nhưng nội hàm của các câu
hỏi phải giống nhau. Đôi khi phải làm lại các cuộc phỏng vấn để so sánh kết quả hoặc
kiểm tra, đối chiếu các câu trả lời với các minh chứng sẵn có khác. Tuy nhiên, những
câu hỏi về quan điểm thường không cung cấp một sự đo lường trực tiếp tính tin cậy vì
người ta có thể thay đổi ý kiến.
- Cách sắp xếp bộ câu hỏi phải đảm bảo tính khả thi, tính liên tục. Việc chuyển
tiếp từ phần này sang phần khác phải đảm bảo tính logic, nhẹ nhàng, uyển chuyển.
Trong phần chính của bộ câu hỏi, nên thiết kế những bước nhảy hợp lý trong một số
câu hỏi.
- Phải có phần chỉ dẫn điền câu trả lời, có thể đưa vào ngay các câu hỏi hoặc có
bản hướng dẫn riêng.

40
- Cần kiểm tra lại lần cuối xem các câu hỏi đặt ra đã đủ để trả lời cho những điều
mình cần biết chưa. Nếu thiếu phải bổ sung, nếu thừa thì cắt bỏ. Các câu hỏi quá dài
nên chia nhỏ thành các câu hỏi phụ có tính chất dẫn dắt và một câu hỏi chính ngắn
gọn.
- Phải đủ chỗ trống để điền cho các câu hỏi mở
- Để dễ vào số liệu, các đề mục nên ký hiệu bằng các chữ cái A, B, C...ngay ở
đầu, sau đó đánh số cho các câu hỏi trong đề mục.
Ví dụ: A. Các thông tin chung
+ Tuổi.....
+ Giới (nam=1, nữ =2)

Sau này vào máy tính chỉ cần viết A1 có nghĩa là tuổi, A2 có nghĩa là giới.
2.2. Biểu mẫu thu thập thông tin (Check - list)
Có nhiều loại thông tin, mỗi loại thông tin sau này sẽ được thể hiện bằng các chỉ
số hoặc biến số. Ngay cả một loại thông tin cũng có thể thu được từ nhiều nguồn khác
nhau. Cần có nhiều nguồn thông tin để so sánh.
Không có biểu mẫu sẵn, số liệu không thống nhất sẽ không tính toán, xử lý được
số liệu
Xuất phát từ mục tiêu nghiên cứu mà đưa ra các biểu mẫu khác nhau. Trình tự
xây dựng biểu mẫu cũng như xây dựng bảng câu hỏi. Chỉ khác là thông tin không phải
thu thập được bằng cách hỏi đối tượng mà bằng các số liệu có sẵn từ sổ sách hoặc
quan sát trực tiếp.
Một số lưu ý khi dùng biểu mẫu để thu thập thông tin:
Đối với các số liệu thống kê, do ít được chú ý nên việc ghi chép rất khác nhau
hoặc rất tản mạn, độ tin cậy thấp, nhiều số liệu bị giấu đi hoặc thổi phồng, nhiều số
liệu mâu thuẫn với nhau...cách khắc phục tốt nhất là cùng người điền số liệu vào mẫu
xem xét từng con số, kiểm tra nguồn, ghi lại nguồn số liệu nên làm nhiều lần, nếu số
liệu mâu thuẫn nhau phải hỏi lại từ đầu.
2.3. Bệnh án nghiên cứu
Bệnh án nghiên cứu là những hình thức phối hợp của hai dạng công cụ: bảng câu
hỏi và check-list. Bệnh án nghiên cứu có thể làm ngay từ đầu, trước khi thu thập số
liệu nhưng cũng có thể thiết kế để phân tích lại số liệu sẵn có. Tuy nhiên, vẫn phải dựa
vào mục tiêu nghiên cứu để thiết kế bệnh án nghiên cứu.
Phần câu hỏi và phần check - list có thể xen kẽ nhau. Tuy nhiên, những câu hỏi
có tính chất hành chính thường đặt ở phần đầu, các câu hỏi này rất giống với bệnh án

41
thông thường, nhưng phải thêm những câu hỏi đặc trưng khác cho nghiên cứu, mà
trong bệnh án thông thường không có. Sau đó, các câu hỏi được dùng vừa để xác định
các triệu chứng cơ năng, vừa mô tả các triệu chứng thực thể. Điều lưu ý là mọi triệu
chứng đều phải có tiêu chuẩn rõ ràng.
Khi sử dụng số liệu của bệnh án cũ, rất nhiều số liệu sẽ không có. Đây là một
trong những nhược điểm của hồi cứu số liệu.
2.4. Một số hoạt động trợ giúp
2.4.1. Thử bộ câu hỏi
Bộ câu hỏi cần được tiến hành trên một số nhỏ các đối tượng nghiên cứu trước
khi tiến hành điều tra
2.4.2. Đào tạo điều tra viên
Các điều tra viên cần được lựa chọn và huấn luyện kỹ trước khi tiến hành điều
tra. Phải luôn giám sát các hoạt động của các điều tra viên (1 giám sát viên cho 4-6
điều tra viên)
2.4.3. Kiểm tra và mã hóa
Cuối mỗi ngày điều tra, giám sát viên cần kiểm tra lại các phiếu điều tra để tìm
những câu hỏi bị bỏ sót, chưa trả lời hoàn chỉnh, câu trả lời chưa rõ ràng... Điều tra
viên có thể phải quay lại để thu thập thông tin còn thiếu hoặc chưa rõ ràng. Sau đó là
công việc mã hóa một cách cẩn thận các câu hỏi.
Ví dụ bộ câu hỏi lượng giá nhu cầu đào tạo dự phòng phơi nhiễm
nghề nghiệp với HIV/AIDS (trích một phần)
(Dùng cho cán bộ giảng dạy các trường đại học Y)
01.Trường đại học:
Y Thái Nguyên 1
Y Hà Nội 2
Y Hải Phòng 3
Y Thái Bình 4
Y Huế 5
Y Tây Nguyên 6
Y Dược TP Hồ Chí Minh 7
Y Dược Cần Thơ 8
02. Mã số người được phỏng vấn:
03. Tên cán bộ phỏng vấn:
04. Bộ môn/khoa phòng của cán bộ phỏng vấn:
05. Ngày phỏng vấn:
Điều tra viên khoanh tròn một hay nhiều tình huống trả lời mà người trả lời cho
là đúng

42
A. Những thông tin chung
STT Nội dung Trả lời
A1 Anh/chị bao nhiêu tuổi? Tuổi:........................

A2 Giới Nam 1
Nữ 2
A3 chuyên ngành đào tạo chính bậc đại Đa khoa
học của anh/chị là gì? Chuyên khoa truyền nhiễm 1
Chuyên khoa Da liễu 2
Chuyên khoa Nội 3
Chuyên khoa Ngoại 4
Chuyên khoa Sản 5
Chuyên khoa Nhi 6
Chuyên khoa Y tế công cộng và Y học Dự 7
phòng 8
Chuyên khoa Lao 9
Chuyên khoa khác (ghi rõ.........) 10
A4 Anh/chị tốt nghiệp đại học năm Năm:..............
nào?
A5 Chuyên ngành đào tạo chính bậc Đa khoa
sau đại học của anh/chị là gì? Chuyên khoa truyền nhiễm 1
Chuyên khoa Da liễu 2
Chuyên khoa Nội 3
Chuyên khoa Ngoại 4
Chuyên khoa Sản 5
Chuyên khoa Nhi 6
Chuyên khoa Y tế công cộng và Y học Dự 7
phòng 8
Chuyên khoa Lao 9
Chuyên khoa khác (ghi rõ......) 10
A6 Anh/chị tốt nghiệp sau đại học(bằng Năm:............
cao nhất) năm nào?
A7 Anh/chị hiện đang công tác ở bộ Dịch tễ học 1
môn/khoa/phòng nào? Sức khoẻ nghề nghiệp 2
Miễn dịch-sinh lý bệnh 3
Vi sinh 4
Truyền nhiễm 5
Huyết học 6
Sản 7
Điều dưỡng 8
Da liễu 9
Nội 10
Nhi 11
Ngoại 12
Lao 13
Khác(ghi rõ....................) 14
A8 Anh/chị tham gia công tác giảng số năm:
dạy ở bộ môn này được bao nhiêu
năm rồi?

43
B. Đào tạo và kinh nghiệm về HIV/AIDS

STT Nội dung Trả lời


B1 Trong những nguồn thông tin dưới đây anh/chị dùng loại
nào nhiêu nhất để tìm hiểu về HIV/AIDS (chỉ chọn một)
Tài liệu chuyên môn 1
Bạn bè, đồng nghiệp 2
Sách giáo khoa 3
Các tạp chí văn học 4
Các thông tin trên mạng 5
Khác (ghi rõ.................................................) 6
B2 Từ khi tham gia giảng dạy đến nay, anh/chị có tham gia
giảng dạy về HIV/AIDS không?
Có 1
Không 2 =>B4
B3 Nếu có, anh/chị giảng về vấn đề gì (chọn nhiều tình Có Không
huống) Dịch tễ học HIV/AIDS
Virus học HIV 1 2
Miễn dịch học HIV 1 2
Chẩn đoán nhiễm HIV/AIDS 1 2
Diễn tiến lâm sàng của nhiễm HIV 1 2
Phòng chống HIV/AIDS 1 2
Dự phòng phổ cập 1 2
Dự phòng và điều trị phơi nhiễm HIV nghề nghiệp 1 2
Khác (ghi rõ...................................................) 1 2
B4 Từ khi tốt nghiệp đại học đến nay, anh/chị có được tập
huấn thêm về HIV/AIDS không?
Có 1
Không 2 =>C1
B5 Nếu có, anh chị được tập huấn về vấn đề gì? (chọn nhiều Có Không
tình huống)
Dịch tễ học HIV/AIDS 1 2
Virus học HIV 1 2
Miễn dịch học HIV 1 2
Chẩn đoán nhiệm HIV/AIDS 1 2
Diễn tiến lâm sàng của nhiễm HIV 1 2
Phòng chống HIV/AIDS 1 2
Dự phòng phổ cập 1 2
Dự phòng và điều trị phơi nhiễm HIV nghề nghiệp 1 2
Khác (ghi rõ...................................................) 1 2
B6 Trong năm vừa qua, anh/chị có tham dự lớp tập huấn về
HIV/AIDS không?
Có 1
Không 2 =>C1

44
STT Nội dung Trả lời
B7 Nếu có, những lớp tập huấn về các chủ đề gì? Số lần Số ngày Đơn vị
Xét nghiệm …. …. tập huấn
Giám sát …. …. ….
Tư vấn …. …. ….
Truyền thông GDSK …. …. ….
Dự phòng phơi nhiễm nghề nghiệp vớt HIV/AIDS …. …. ….
Chăm sóc/điều trị HIV/AIDS …. …. ….
Quản lý, lập kế hoạch …. …. ….
Sàng lọc máu …. …. ….
Khác (ghi rõ................................) …. …. ….

3. Trình bày các số liệu nghiên cứu


Các số liệu nghiên cứu mang cả hai đặc tính định tính và định lượng.
Phân phối mang đặc tính định tính giúp ta phân nhóm các số liệu và phân loại các
số liệu nghiên cứu như mầu sắc, tình trạng có bệnh và khoẻ mạnh...
Đặc tính định lượng được đo đạc cụ thể theo các số đo đặc trưng và có thể lượng
giá được một cách chính xác.
Các số liệu nghiên cứu có thể trình bày dưới hai dạng bảng và hình. Sau đây là
một số dạng, phương pháp trình bày:
3.1. Phương pháp trình bày bằng bảng
Phương pháp trình bày bằng bảng rất thông dụng trong nghiên cứu, các bảng
thường được cấu tạo bởi các hàng và các cột có một liên quan với nhau.
- Có loại bảng hai hàng, hai cột biểu hiện một dữ liệu nghiên cứu được viết theo
danh sách có số thứ tự và số liệu tương ứng ở cột bên.
- Có loại bảng nhiều hàng nhiều cột, bao gồm nhiều dữ liệu và về số liệu tương
ứng với mỗi hàng.
Phân phối chiều cao của 40 thanh niên
Danh giới nhóm Trị số trung tâm các nhóm Tần số
150,5 - 153,5cm 152 1
153,6 - 156,5 155 3
156,6 - 159,5 158 7
159,6 - 162,5 161 9
162,6 - 165,5 164 8
165,6 - 168,5 167 6
168,6 - 171,5 170 4
171,6 - 174,5 173 2
Cộng 40

45
3.2. Phương pháp trình bày bằng hình
Đây là phương pháp trình bày số liệu rất phong phú, song vẫn tạo ra cảm giác
trực quan đặc trưng dễ quan Bát Và làm nổi bật vấn đề cần xem xét. Các loại hình bao
gồm các biểu đồ, đồ thị, tranh ảnh...
+ Biểu đồ hình chữ nhật tương ứng với bảng phân phối một chiều. Mỗi số liệu
được đại diện bằng hình chữ nhật. Chiều dài hình chữ nhật tỷ lệ thuận với số liệu
Chiều rộng của các hình chữ nhật phải bằng nhau. Chỉ dẫn về số liệu ghi trên trục tung
hoặc diện tích hình chữ nhật (hình l.1).

A: Chuột 3 tháng tuổi


B: Chuột 6 tháng tuổi
C: Chuột ở tuổi sinh đẻ

Hình 1.1: Trọng lượng chuột nhắt thí nghiệm


+ Biểu đồ hình quạt.
Biểu đồ hình quạt cũng tương ứng với bảng phân phối một chiều, song tổng các
dữ kiện được phủ kín 100% của một vấn đề nên mỗi phần cánh quạt là số phần trăm
tương ứng (hình l.2)

Hình 1.2: Tỷ lệ trọng lượng các cơ quan ở trẻ sơ sinh


+ Biểu đồ gấp khúc: biểu thị những đặc tính định lượng rời rạc từ các điểm M
(xi; yi), các điểm này nối với nhau được một đường gấp khúc (hình 1.3)

46
Hình 1.3: Phân bố chim hoang dại có khả năng mang Virus H5N1 ở
vùng đồi trung du Phú Thọ (theo tháng trong năm)
+ Biểu đồ đa giác tần số:
Biểu đồ này chứa đựng những số liệu định lượng đông đặc đan xen liên tục với
nhau như số liệu bệnh dịch hiện mắc, mới mắc trong một vụ dịch.
Số ca bệnh

Hình 1.4. Tình hình bệnh dịch tiêu chảy tháng 5 - 2006 tại phường X
+ Đồ thị: Có nhiều loại đồ thị biểu hiện các số tương quan lẫn nhau:
Ví dụ: Đồ thị hình chuông biểu hiện những hàm phân phối chuẩn có các nhánh
đối xứng nhau. Có loại đồ thị biểu hiện sự tương quan tuyến tính của một hàm số y =
ax + b. Có đồ thị hình Parabol, có đồ thị nhiều đỉnh.
+ Bản đồ:

47
Trong Y học thường có bản đồ dịch tễ cho ta biết tình hình bệnh dịch định tính
hoặc bán định lượng tại khu vực nào đó (hình l.5).

Hình 1.5. Bản đồ dịch tễ học sốt rét ở huyện A


Ngoài các loại biểu thị trên người ta còn có thể biểu diễn số liệu nghiên cứu dưới
dạng giản đồ, đồ thị dồn, đồ thị hình gậy...

48
Phần II

THỐNG KÊ ỨNG DỤNG TRONG


NGHIÊN CỨU Y HỌC

49
VAI TRÒ CỦA TOÁN THỐNG KÊ
TRONG NGHIÊN CỨU Y HỌC

Cơ thể Con người là một thực thể sinh học cũng như các sinh vật khác, luôn chịu
sự tác động qua lại của các yếu tố môi trường, vũ trụ xung quanh. Sự khoẻ mạnh của
một con người, của một quần thể dân cư nằm trong mối liên quan tổng hợp với các yếu
tố môi trường và sinh thái. Các quá trình sinh lý, sinh hoá diễn ra trong cơ thể cũng
tuân theo một quy luật toán học về mặt sinh học.
Việc sử dụng toán thống kê trong nghiện cứu Y học nói riêng, Y sinh học nói
chung sẽ góp phần đánh giá một cách chuẩn xác các vấn đề sức khoẻ và bệnh tật, đồng
thời cũng xác định được mối tương quan, quan hệ nhân quả của các yếu tố tác động
sinh ra trong môi trường lên sức khoẻ và bệnh tật của cộng đồng.
Ngày nay các nghiên cứu điều tra cơ bản, nghiên cứu can thiệp hoặc các giải
pháp công nghệ cũng được toán học hoá để tìm ra những quy luật trong sức khoẻ cộng
đồng. Các giải pháp ưu tiên và những can thiệp sẽ hữu hiệu hơn nếu như vấn đề được
bao quát đủ cả hai mặt định tính và định lượng. Như vậy sự cần thiết phải tập hợp,
phân tích và so sánh nhiều số liệu quan trắc, đúc kết thành quy tắc, quy luật định lượng
hoá có thể ứng dụng được là điều đương nhiên.
Thống kê Y sinh học (Biostatistics): là môn toán ứng dụng, sử dụng toán học để
nghiên cứu, phân tích các vấn đề Y học và sinh học, đó chính là sự toán học hoá các
vấn đề sinh học và sức khoẻ con người, làm cho nó phổ biến và đặc trưng cũng như sự
trừu tượng hoặc cụ thể về nội dung và hình thức được nâng lên một bước rõ rệt và sâu
sắc hơn để cho sự hiểu biết cũng tiến dần đến bản chất.
Từ một môn học mô tả và định tính, trong quá trình phát triển, thống kê đã trở
thành môn khoa học ứng dụng, chính xác hoá với nhiều phương tiện hiện đại trợ giúp
con người trong quá trình tính toán, xử lý các số liệu nghiên cứu đã thu được trên thực
tế như các thế hệ máy vi tính mới, ngôn ngữ lập trình sâu và rộng có thể giải đáp được
nhiều vấn đề nhanh chóng và phức tạp, như các phần mềm EPI- INFO, SPSS...
Toán thống kê trong y sinh học được trình bày trong khuôn khổ cuốn tài liệu này
bao gồm một số vấn đề cơ bản sau đây:
1. Thu thập số liệu: phần này được trình bày một cách sơ lược và sẽ bổ xung
trong quá trình thực hiện các nhiệm vụ nghiên cứu. Đây là giai đoạn quan trọng nhất
mà mỗi nhà nghiên cứu cần phải lưu tâm. Các số liệu nghiên cứu cần được thu thập
đầy đủ và chính xác, sau đó được kiểm tra một cách khoa học sẽ là cơ sở chắc chắn và
đáng tin cậy cho tất cả những giai đoạn kế tiếp.
2. Sắp xếp và trình bày số liệu thu được, tìm ra những tham số đặc trưng. Thông
thường việc sắp xếp phải theo những ý tưởng và kỹ thuật phù hợp với mục tiêu nghiên
50
cứu thì mới có được cách giải quyết vấn đề phù hợp, đồng thời cũng nổi rõ.được kết
quả.
3. Nghiên cứu các quy luật biến thiên của các trị số quan trắc thực tế, xây dựng
thành mô hình lý thuyết, toán học hoá. Đây là yêu cầu bắt buộc đối với những người
làm nghiên cứu ở trình độ cao vì qua đó những vấn đề nghiên cứu sẽ được khẳng định
một cách khoa học nhất.
4. So sánh các tập hợp số liệu với nhau về bản chất cũng như các vấn đề có liên
quan giữa các chùm số liệu được quan trắc.

51
CÁC KHÁI NIỆM THỐNG KÊ CƠ BẢN

1. Tập hợp
1.1 Khái niệm
Trong nghiên cứu, quan sát một nhóm các số liệu hoặc một nhóm các cá thể ta
nới tầng có một tập hợp mà mỗi cá thể trong đó gọi là một phần tử của tập hợp.
Ví dụ: Một lớp học 50 người được xem là một tập hợp trong đó mỗi người là một
phần tử của tập hợp.
1.2. Sắp xếp các số liệu trong tập hợp
Khi nghiên cứu với số lượng càng nhiều các số liệu, việc sắp xếp chúng càng trở
nên cần thiết. Cách sắp xếp số liệu cần dựa trên cơ sở định tính và định lượng và phân
nhóm cụ thể. Về nguyên tắc ta nên xếp các nhóm dựa vào định tính với thuộc tính
đồng khả năng sau đó mới tính đến thuộc tính về lượng và theo thứ bậc từ thấp đến cao
hoặc ngược lại. Tuỳ loại hình nghiên cứu mà có cách sắp xếp phù hợp tạo thành chuỗi
thống kê.
Ví dụ:
+ Phân nhóm theo lứa tuổi:
0 - 4 tuổi
5 - 9 tuổi
10 - 14 tuổi
15 - 19 tuổi
20 - 29 tuổi
30 - 39 tuổi
…………
60 - 69 tuổi
≥ 70 tuổi
Ngay cách phân nhóm này cũng có thể chi tiết hơn hoặc tổng hợp hơn.
+ Phân nhóm theo thời gian:
Trong nghiên cứu bệnh lý lâm sàng ngoại khoa có thể chia ra các nhóm, các
trường hợp viêm ruột thừa đến trước 24 giờ, (24 - 28 giờ, 48 - 72 giờ, sau 72 giờ).
+ Sắp xếp theo khoảng cách: khi đo chiều cao, cân nặng... Ta xếp các nhóm có
khoảng cách gần nhau vào các nhóm để số lần ghi chép, tính toán sẽ giảm đi.

52
Ví dụ:
Nhóm 141 - 145 cm
Nhóm 146 - 150 cm
Nhóm 151 - 155 cm
Nhóm 156 - 160 cm
Nhóm 161 - 165 cm
Nhóm 1 66 - 170 cm
……………………
2. Xác suất
2.1. Sự kiện
Sự kiện là một vấn đề hoặc kết quả của phép thử. Mỗi sự kiện tương ứng với một
tập hợp. Có sự kiện là tất yếu song có sự kiện là ngẫu nhiên thậm chí có sự kiện lại là
sự kiện không thể nhưng vẫn được đặt ra để tiến hành phép thử trong quá trình nghiên
cứu.
2.2. Xác suất
Nếu gọi K là số lần xuất hiện sự kiện A trong n phép thử ta có tần suất của A là
K
tỷ số:
n

Khi n tiến dần đến vô hạn (n → ∞) thì tần suất này dao động quanh hằng số p nào
đó, hằng số “p” được gọi là xác xuất của A. Ví dụ: Tỷ lệ trẻ em trai được sinh ra ở
bệnh viện X
Bảng: Tỷ lệ trẻ em trai được sinh ra ở bệnh viện X năm 2004
Quý Số trẻ sinh Số trẻ trai Tần suất
I 100 45 0,45
II 500 219 0,438
III 1000 432 0,432
IV 2000 861 0,4305
Số sản phụ đến đẻ ở bệnh viện nhiều lên, tần suất trẻ trai được sinh ra dao động
quanh giá trị 0,43. Do đó nếu A là sự kiện trẻ sơ sinh trai, gọi F (A) là số lần sinh trẻ
trai trong n lần sinh của các sản phụ của bệnh viện X năm 2006. Ta sẽ có: 1

Vậy xác suất P (A) bằng xác suất cả một sự kiện ngẫu nhiên A, là giới hạn của
tần suất xảy ra sự kiện A khi n tăng đến vô hạn.
53
Ta có: 0 ≤ P (A) ≤ 1
Nếu A là sự kiện tất yếu, P (A) = 1
Nếu A là sự kiện không thể, P(A) = 0
Vậy xác suất P(A) của sự kiện ngẫu nhiên A càng gần 1 thì sự kiện A càng chắc
chắn xảy ra và ngược lại.
Kết luận với P = 0,999999 xem như chính xác hoàn toàn
Kết luận với P = 0,999 coi như chắc chắn
Kết luận với P = 0,99 thì kết luận là chắc chắn
Kết luận với P = 0,9 thì kết luận này có chiều hướng chắc chắn
3. Quần thể và mẫu
3.1. Quần thể
Quần thể bao gồm các loại: Quần thể tổng quát (quần thể toàn bộ), quần thể định
danh, quần thể có nguy cơ, quần thể bị đe doạ. Các quần thể này có xu hướng đặc hiệu
dần và nhỏ dần. Khi chọn mẫu nghiên cứu (n) cho nhóm chủ cứu trong quần thể N ta
có thể chọn trong quần thể nào là tuỳ vào điều kiện và mục đích nghiên cứu.
3.2. Mẫu nghiên cứu
Không thể chọn mẫu nghiên cứu là tổng số cá thể trong quần thể toàn bộ N, ví
dụ: Toàn thể các cá thể của loài muỗi Aedes aegyty ở Thái Nguyên.
Mẫu nghiên cứu n là một tập thể được rút ra từ quần thể N số phần tử nằm trong
mẫu (n) gọi là kích thước mẫu.

54
CÁC ĐẠI LƯỢNG VÀ CHỈ SỐ THỐNG KÊ

1. Số trung bình và các giá trị trung tâm khác


Khi kết quả nghiên cứu được thu thập và sắp xếp thành các chuỗi thống kê hoặc
các phân phối tần số ta cần nhìn nhận một cách chung nhất, có thể tóm gọn lại bằng
một số con số để so sánh, đối chứng với nhau hoặc với hằng số hay nghiên cứu tương
tự. Đây là sự thể hiện bằng các tham số đặc trưng.
Có hai loại tham số đặc trưng thường gặp là:
- Các giá trị trung tâm (giá trị điển hình).
- Các tham số hoặc chỉ số phân tán.
1.1. Số trung bình (mean)
Đây là trung bình số học, là giá trị trung tâm thường dùng để làm nên giá trị điển
hình hoặc đặc trưng cho chuỗi thống kê.
Thí dụ: Đo hàm lượng glucose huyết lúc đói cg/lít ở 17 người (n = 17) ta thu
được các số liệu sau:
Bảng: Hàm lượng glucose huyết lúc đói cg/1ít
75 80 85 85 90 95 95 95 100
100 100 100 100 105 105 110 120

Số trung bình ký hiệu bằng ( X ) của chuỗi thống kê được tính như sau:

Có thể viết một cách tổng quát nếu đại lượng Xi có n trị số X1, X2, X3,…Xn thì
Số trung bình X sẽ được tính như sau:

Σ là chữ cái Hy Lạp viết hoa chỉ một tổng gồm nhiều trị số. Muốn thể hiện đầy
i=n
đủ ta phải viết Σ dưới dạng ∑i =1
mà ta phải đọc như sau: “Tổng (hoặc xích ma) các trị

số của đại lượng X từ i = 1 đến i = n”.


Ở thí dụ trên ta gặp trị số 85, 95, 100 nhiều lần nên khi tính toán ta có thể nhóm
lại cho gọn. Các tần xuất này ta gọi là ni

55
Vậy công thức tổng quát là:

Để tính các giá trị mà ni và xi đều lớn người ta có thể đơn giản bằng cách đổi gốc
nếu ta chọn được một giá trị xi có tần số n cao nhất gọi là xo như vậy ta sẽ có công
thức:

Ví dụ: Cách tính cân nặng trung bình của 815 em bé trai 10 tuổi với các số liệu
như bảng sau:
X1 n1 x1-x0, n1 (x1- x0)
16 4 -5 -20
17 9 -4 -36
18 31 -3 -93
19 75 -2 -150
20 183 -1 -183
21 204 0 0
22 157 1 157
23 97 2 194
24 40 3 120
25 12 4 48
26 3 5 15
n = 815 Σ = 52
Áp dụng công thức ta sẽ có:

Nếu giữa các nhóm có khoảng cách K (hằng số) thì công thức sẽ có dạng:

xi − x0
Nếu đặt = x i' ta sẽ có công thức:
K

Ví dụ: Tính huyết áp tối thiểu (mmHg) của 2750 nam giới được phân bố vào 12
nhóm với khoảng cách K = 5.

56
Bảng: Huyết áp trung bình của 2750 nam giới
xi − x0
Xi ni xi = xo x i' = ni, xi’
K
40 4 -30 -6 -24
45 8 -25 -5 -40
50 90 -20 -4 -360
55 186 -15 -3 -558
60 397 -10 -2 -794
65 464 -5 -1 -464
70 598 0 0 0
75 431 5 1 431
80 315 10 2 630
85 185 15 3 555
90 46 20 4 184
95 25 25 5 125
N = 2750 Σni,xi’ = -321
Ứng dụng công thức ta có:

Số trung bình là một từ số tổng hợp cô đọng, nhưng có đầy đủ giá trị của tất cả
những cá thể trong tập hợp. Trung bình cộng không chỉ là một trị số đơn thuần giữa
các giá trị khác nhau của xi trong tập hợp mà là một trung bình có trọng lượng bởi lẽ
nó được tính ra từ tất cả các cá thể.
Số trung bình ( X ) tiêu biểu cho toàn bộ các cá thể của tập hợp, nó đại diện một
cách đầy đủ và chặt chẽ nếu tập hợp có độ đồng nhất cao.
Số trung bình tiêu biểu cho một đặc điểm căn bản của tập hợp, đó là xu hướng
tập trung trên một cái cốt giống nhau.
1.2. Trung vị (median)- Me
Trung vị (Me) là số đứng giữa một chuỗi thống kê đã được sắp xếp. Ví dụ: 1 2 2
3 4 6 6 7 9 ở đây Me là số 4 vì nó đứng ở vị trí số 5 trong chuỗi thống kê có n = 9.
n +1
Vậy: Me = nếu n là số lẻ.
2
n n +1
Nếu n là số chẵn thì Me là trị số thứ và
2 2

57
1.3. Mốt (Mode)
Mốt là trị số của xi ứng với tần suất cao nhất, và nghĩa là trị số của xi này được
gặp nhiều lần nhất, tương ứng với giá trị xo mà ta đã nói ở trên (1.1). Mode được ký
hiệu là Mo. Ở bảng huyết áp tối thiểu của 2750 nam giới Mo = 70 mmHg. Trên các
hình, đặc biệt là biểu đồ đa giác tần số hoặc giản đồ cột ta có thể thấy trực tiếp Mo ở vị
trí cao nhất.
Mode có giá trị quan trọng về mặt mô tả vì nó cho biết giá trị xi thường gặp nhất,
đây là điều cần thiết trong các thống kê ứng dụng. Cho nên trong các trường hợp phân
phối không đối xứng ta cần biết nó cùng với số trung bình.
Bài tập mẫu: Tính giá trị trung bình đối với các số liệu của các bài toán sau:
Chiều cao và cân nặng của sinh viên 2 lớp A và B
Chiều cao lớp A Chiều cao lớp B Cân nặng lớp A Cân nặng lớp B
xi ni x1 n1 x1 n1 x1 n1
158 2 158 4 16 2 16 4
159 3 159 3 17 3 17 6
160 1 160 5 18 4 18 12
161 4 161 6 19 6 19 48
162 6 162 6 20 16 20 71
163 6 163 7 21 37 21 148
164 4 164 7 22 92 22 270
165 3 165 8 23 1 02 23 308
166 3 166 5 24 79 24 280
167 2 167 6 25 73 25 242
168 2 168 6 26 58 26 152
169 1 169 4 27 35 27 80
170 1 170 3 28 20 28 21
171 2 171 2 29 6 29 17
172 1 172 1 30 1 30 4
Ở bài toán trên có 4 giá trị X ta cần phải tính, như vậy việc cần làm trước hết là
chọn công thức nào cho phù hợp? Tiếp theo cần phải lập bảng với số cột tương ứng
với số thừa số trong công thức để tính kết quả.
2. Các tham số, số đo chỉ sự phân tán
Các tham số đặc trưng cho độ phân tán thường dùng là: Phương sai, độ lệch
chuẩn, hệ số biến thiên... Giá trị trung bình chỉ phản ánh được một đặc điểm của chuỗi
thống kê, là xu hướng tập trung của số liệu. Trong nhiều trường hợp bản thân hiện
tượng hay quá trình đã thay đổi rõ rệt nhưng số trung bình không thay đổi, hoặc thay
58
đổi rất ít. Do đó việc đánh giá mức độ phân tán của các số liệu so với số trung bình là
không thể bỏ qua được.
2.1. Khoảng biến thiên (KBT)
Khoảng biến thiên biểu thị độ phân tán trong một tập hợp một cách đơn giản
nhất. KBT được xác định bằng hiệu số giữa giá trị lớn nhất và nhỏ nhất của chuỗi số
liệu, tính bằng công thức:
R = Xmax - Xmin
Ví dụ: Trọng lượng của hai nhóm thanh niên cùng khu vực được chăm sóc theo
chế độ khác nhau và được ghi lại như sau:
Nhóm 1: 40 45 50 55 60 65 70 75 80 (kg)
Nhóm 2: 56 57 58 59 60 61 62 63 64 (kg)
Cả hai nhóm đều có trọng lượng trung bình là 60kg nhưng khoảng biến thiên của
hai nhóm khác nhau
R1 = 40 kg
R2 = 8 kg
Như vậy cân nặng nhóm hai đồng đều hơn nhóm một, KBT càng nhỏ, tính đồng
nhất của chuỗi thống kê càng cao, giá trị trung bình càng đại diện được cho chuỗi
thống kê hơn.
2.2. Phương sai (variance) và độ lệch chuẩn
Phương sai của một tập hợp thống kê, là tỷ số giữa tổng bình phương biến sai của
các trị số cá thể quanh số trung bình cộng ( X ) với tổng số bậc tự do của tập hợp.
Phương sai chỉ có ý nghĩa trong thống kê đơn thuần về mặt toán học. Trong thực tế
nhà nghiên cứu chỉ thông qua phương sai để tính độ lệch chuẩn bởi vì không thể tính
độ lệch chuẩn trực tiếp bằng toán học. Phương sai của một tập hợp giống như cầu nói
cho nhà nghiên cứu xác định độ phân tán của dãy số liệu.
Phương sai có thể ký hiệu như sau: δ2 hay S2
δ là chữ xích ma thường trong chữ cái Hy Lạp.
S là chữ La Tinh, còn có khi viết là SD.
Công thức:

nếu n < 30 thì n ở mẫu số sẽ là (n-1)


Trong trường hợp có nhiều số liệu được phân nhóm, để tính số trung bình ta sẽ
tìm được xo và đơn vị mới K, ta sẽ có công thức mới:
59
Hoặc đơn giản hơn (không phân nhóm K)

Độ lệch chuẩn S là trị số bậc một của phương sai hay nói cách khác chính là căn
bậc hai của phương sai: S = S2
Độ lệch chuẩn là giá trị được ứng dụng nhiều trong thực hành, nghiên cứu các
vấn đề sinh học và y học bởi chính nó mới cho nhà nghiên cứu biết sự phân tán của
những số liệu nghiên cứu đã thu thập được xung quanh số trung bình. Khi tính được độ
lệch chuẩn của một tập hợp to hay nhỏ người ta biết được sự dao động của các giá trị
Xi xung quanh giá trị trung bình nhiều hay ít và từ đó ta dần dần tính được các hằng
số. Hiện nay các hằng số sinh học được thiết lập nhờ sự tính toán số mẫu đông và sự
kết hợp các giá trị ngoại suy. Ví dụ ở các bảng sau với các số liệu đã cho của hai nhóm
A và B ta có thể lập bảng và tính như sau:
Bảng: Số liệu A và B

60
Bảng: Trị số huyết áp tối thiểu ở 2750 nam giới

2.3. Hệ số biến thiên


Khi so sánh hai mẫu có phương sai khác nhau Pearson đã đưa ra khái niệm: Hệ
số biến thiên (Coefflcient ofvariation), ký hiệu là CV

Ví dụ: Chiều cao và cân nặng của 217 sinh viên được nghiên cứu và cho các số
liệu như sau:
+ Chiều cao: X = 160,4cm S = 4,2 cm
+ Cân nặng: X = 51,2kg S = 3,4 kg
Ta tính dược chỉ số CV như sau:
Chiều cao: CV = 2,62%
Cân nặng: CV = 6,64%
Như vậy là số liệu về chiều cao ít phân tán hơn số liệu về cân nặng.
2.4. Hiệu chỉnh Sheppard
Trường hợp các số liệu được phân lớp, giá trị trung tâm của lớp đại diện cho tất
cả các trị số cá thể của lớp do đó đã có một sai số hệ thống. Nếu phân phối gần phân

61
phối chuẩn, việc phân lớp số liệu có chiều hướng làm gia tăng giá trị của S2.Vì vậy để
giảm bớt sai số có hệ thống này, Sheppar đưa ra công thức tính như sau:

Trong đó K là khoảng cách nhóm


2.5. Đánh giá hết hợp giữa giá trị trung bình và độ lệch chuẩn
Nhằm ước lượng xác suất hoặc độ chính xác trong các nghiên cứu, thông thường
người ta sử dụng chỉ số kết hợp “ X ± nS” để lượng giá, thông qua các diện tích đặc
biệt dưới đường cong chuẩn thuộc hàm phân bố của luật Gauss chuẩn tức là:

Đường cong chuẩn thu gọn xác suất dồn có hình dạng như sau:

Hình 1.6. Đường cong Gauss


(l) Diện tích của X ± 1S cho biết đa số gần với chuẩn mực của quần thể
(68,27%).
(2) Diện tích X ± 2S cho biết hầu hết các giá trị nằm trong quần thể. Nếu số
lượng nghiên cứu với mẫu đủ lớn thì số đo này sẽ là hằng số vì nó đại diện cho
95,45% quần thể.
(3) Diện tích X ± 3S cho biết khi này cần hầu hết các giá trị của quần thể đã lọt
vào khung này. Độ đại diện đã rất cao song thông thường nghiên cứu khó đạt được vì
đòi hỏi mẫu nghiên cứu rất lớn (99,73%), đây chính là hằng số thu được thông qua các
cuộc nghiên cứu quy mô lớn.
62
63
KIỂM ĐỊNH CÁC GIẢ THIẾT THỐNG KÊ VÀ CÁC QUY
LUẬT PHÂN PHỐI TRONG NGHIÊN CỨU

Trong nghiên cứu dù là mô tả hay phân tích người ta đều cần phải so sánh các kết
quả nghiên cứu với nhau hoặc với hằng số tương ứng xem có sự trùng lặp hoặc khác
nhau hay không? Cũng như xem khả năng can thiệp nào sẽ đem lại hiệu quả tất hơn?
Trong nghiên cứu kiểm định người ta thường dùng hai loại test là test t và test χ2 (test
khi bình phương).
1. Kiểm định bằng test “t”
Thử nghiệm này thường dùng để kiểm định các trị số trung bình, các tỷ lệ quan
sát của mẫu nghiên cứu trên cơ sở các số liệu mang tính chất hệ thống hoặc mẫu lớn.
1.1 So sánh hai số trung bình quan sát
Vấn đề này thường gặp trong nghiên cứu y sinh học.

Nếu mẫu nghiên cứu có n nhỏ hơn 30 thì công thức tính t sẽ là:

Sau khi tính được trị số “t” ta cần tìm độ tự do rồi tra bảng “t” để tìm giá trị xác
suất p. Độ tự do được tính bằng tích của từng các dữ liệu so sánh (số cột) trừ 1 nhân
với tổng các số liệu so sánh ở mỗi cột (hàng) trừ 1. Tuy vậy, dù độ tự do bằng bao
nhiêu (→ ∞) thì xác suất đều đạt được p < 0,05 khi t > 1,96 (ít nhất là khi n > 30).
Khi đặt vấn đề nghiên cứu, ta có thể đặt giả thuyết H0 (null hypothesis) là giả
thiết cho rằng hai số trung bình nằm trong sự chi phối của quần thể, nên không khác
nhau hoặc tương tự như nhau.
Sau đó nhờ thử nghiệm bằng test “t” hoặc “χ2” ta đi tới phủ nhận hoặc chấp nhận
giả thiết H0
Ví dụ: Từ một bài toán đã cho ta tính được các giá trị.

64
X A = 21,06 X B = 21,33
nA = 815nB = 200
SA = l,61SB = 1,6
Ứng dụng công thức ta có:

Vậy hai số trung bình quan sát A và B khác nhau có ý nghĩa với P < 0,05. Phủ
nhận giả thuyết H0 (tra bảng t).
1.2. So sánh một số trung bình quan sát với một số trung bình lý thuyết
Trường hợp này thường gặp trong so sánh với hằng số sinh học hoặc một nghiên
cứu lớn nào trước đó cho ta X lý thuyết và S lý thuyết, công thức tính như sau:

Trong đó:
X qs: X quan sát

X lt: X lý thuyết

X lt = S lý thuyết
Nếu n < 30 ta có công thức sau:

Sau khi tìm được “t” ta cũng tra bảng và xem xét, đánh giá như test “t” ở phần
“ So sánh hai số trung bình quan sát”. Nếu t ≥ 1,96 ⇒ bác bỏ H0 với mức ý nghĩa
thống kê P ≤ 0,05. Nếu t < 1,96 ⇒ chấp nhận H0 với mức ý nghĩa thấp,
(p > 0,05).
1.3. So sánh hai tỷ lệ quan sát
Khi nghiên cứu bệnh lý có thể cho các tỷ lệ cũng như các nghiên cứu mẫu lớn có
tỷ lệ, ta có thể tính “t” theo công thức sau:

65
* PA và PB là hai tỷ lệ quan sát ở mẫu A và B

Sau khi tính được “t” ta lại tra bảng “t” để tìm P như phần 1.1.
1.4. So sánh một tỷ lệ quan sát với một tỷ lệ lý thuyết
công thức sẽ tính là:

Trong đó:
P0 = Tỷ lệ quan sát
P = Tỷ lệ lý thuyết
n = Tổng cá thể ở mẫu quan sát
2. Kiểm định bằng test “χ2”
Đây cũng là một kiểm định luật xác suất dự đoán ra sao so với một vấn đề thực
nghiệm hoặc điều tra nghiên cứu quan hệ nhân quả... Trên cơ sở những số liệu nghiên
cứu có mẫu không lớn lắm hoặc không sử dụng được test t.
Để đánh giá sự phù hợp hay khác biệt của các phân số, Pearson đưa ra công thức:

Muốn tìm χ2 người ta phải lập bảng “tiếp liên” với cấu tạo bằng nhiều hàng và
cột. Nếu một nghiên cứu có hai loại số liệu tương ứng ta sẽ có bảng “tiếp liên” 4 ô (a,
b, c, d).
Bảng tiếp liên
Bệnh
Bệnh (+) Bệnh (-) Σ
Nhóm
Tiếp xúc (exp +) a b a+b
Không tiếp xúc (exp -) c d c+d
Σ a+c b+d a + b + c + d (N)

66
Trong công thức oi là các trị số quan sát a, b, c, d. Còn ei là các trị số tần số lý
thuyết (trị số mong đợi) tương ứng với các ô: a, b, c, d.
Cách tính tần số lý thuyết như sau:
Tổng hàng x tổng cột
ei =
Tổng chung (N)
Ví dụ:
(a+c)x(a+b)
ei =
N
Công thức cụ thể trong trường hợp bảng 4 ô sẽ là:

Nếu có nhiều hàng cột thì phải tính χ2 theo công thức tổng quát ban đầu: Sau khi
tính được giá trị χ2 ta cũng tìm bậc tự do (tổng hàng trừ 1 nhân với tổng cột trừ 1), sau
đó tra bảng χ2 để tìm p.
Ví dụ: ở một trại chăn nuôi lợn, người ta đã sử dụng một loại lá cây có giá trị
phòng bệnh lở mồm long móng, dựa theo một bài thuốc dân gian cho vào thức ăn cho
một lô lợn thí nghiệm (Lô I) và một lô khác(Lô II) thì không cho ăn loại lá đó. Sau 4
tháng vụ dịch thường niên đã xảy ra người ta tổng kết sự lây lan bệnh và khả năng bảo
vệ bằng cách kiểm định thống kê như sau: (trang bên)
Số lợn nuôi của 2 lô
Lô Khoẻ mạnh Bị bệnh Cộng
(Lô I) a b 225
202 23
(Lô II) c d 368
340 28
Σ 542 51 593
Để xem xét khả năng bảo vệ đàn lợn của hai lô có khác nhau không ta phải tính
2
χ.
Trước hết ta tính các trị số (tần sô) lý thuyết và sẽ có:

67
Ở đây bậc tự do bằng 1 nên ta thấy nếu χ2 = 3,841 mới có p = 0,05, do vậy tỷ lệ
lợn nuôi khoẻ mạnh và bị bệnh của hai lô giống nhau hoặc là loại lá cây không có giá
trị phòng bệnh lở mồm long móng nên tỷ lệ bệnh tương tự như nhau.
Nếu tần số lý thuyết ei nhỏ hơn 5 thì công thức tính χ2 có thể ứng dụng ở dạng
sau:

3. Số đo kết hợp nhân quả


Để đánh giá nguy cơ phơi nhiễm (expose) với các yếu tố nguy cơ sẽ gây nên hậu
quả bệnh lý hay không, qua bảng tiếp liên (expose và disease) ta có thể xác định được
các số đo kết hợp nhân quả sau đây:
3.1. Chỉ số nguy cơ tương đối (Relative Risk = RR)
Chỉ số này kiểm định một giả thiết nhân quả, xem có đúng là có sự kết hợp giữa
một yếu tố nguy cơ và một bệnh tương ứng. Chỉ số này được ứng dụng trong nghiên
cứu thuần tập và nếu như có kết hợp thì sự kết hợp đó phải được đánh giá mức độ lớn
hay nhỏ. Nguy cơ tương đối RR được tính bằng công thức sau:
Tỷ lệ mắc trong nhóm phơi nhiễm Ic
RR = =
Tỷ lệ mắc trong nhóm không phơi nhiễm I0

Nếu RR > 1 thì yếu tố nguy cơ có thể là nguyên nhân gây nên hậu quả bệnh lý
tương ứng.
Chỉ số này không được ứng dụng trong nghiên cứu khác như nghiên cứu mô tả,
bệnh chứng. Như vậy, trong nghiên cứu mô tả hoặc nghiên cứu bệnh chứng, đặc biệt
khi mà tần suất mắc bệnh trong nhóm chủ cứu thấp hoặc ta không theo dõi được, ta có
thể tính xấp xỉ dưới dạng tỷ suất chênh lệch (Odds Radio) viết tắt là OR.

Chỉ số này có nghĩa khi OR > 1. Chỉ số này được dùng trong nghiên cứu mô tả
theo diện cắt ngang là thông dụng nhất, song cần kiểm định lại bằng test χ2
3.2. Chỉ số nguy cơ quy thuộc (attributable risk = AR)
Chỉ số này dùng để đánh giá yếu tố nguy cơ cao hay thấp hay tính phụ thuộc
trong quan hệ nhân quả. Chỉ số AR được tính theo công thức sau:

68
Thông qua chỉ số này ta có thể tính được mức độ nguy cơ cao thấp hay xác định
được giải pháp ưu tiên trong phép tối ưu hoá. Đặc biệt trong nghiên cứu ở cộng đồng
xác định nguy cơ quy thuộc trong quần thể (Population Attrthutable Ri8k) được ứng
dụng bởi tác giả Le vin 1953, là một phép tính hữu ích đem lại nhiều ý nghĩa trong
đánh giá và lượng giá quan hệ nhân quả.
Ví dụ: Nguy cơ gây nên bệnh A có thể có rất nhiều yếu tố tiếp xúc X, Y, Z khi
tính AR ta được:
ARX = 1,6
ARV = 1,4
ARZ = 0,7
Ta kết luận nguy cơ X là chỉ số cao nhất, tác động mạnh hơn các yếu tố khác còn
lại.
Nguy cơ quy thuộc phần trăm (AR%) cũng thường được sử dụng.
Công thức tính như sau:

Trong một số nghiên cứu, nếu gặp sự nghi ngờ với số liệu mà ta cho là chưa chắc
chắn hoặc không theo dõi được, phân biệt được chính xác thì AR% có thể được tính
theo công thức sau:

Nguy cơ quy thuộc trong quần thể (Population Attributable Risk) (PAR)
PAR được tính bằng tỷ suất của hiệu số mới mắc ít trong quần thể toàn bộ và số
mới mắc ro trong các cá thể không phơi nhiễm và số mới mắc Ii trong quần thể toàn
bộ.

Tương tự:

Trong đó ItR là tỷ lệ mới mắc của bệnh trong quẩn thể toàn bộ.
Bài tập 1
Một nghiên cứu cắt ngang về hàm lượng hoá chất bảo vệ thực vật Wofatox trong

69
mồ hôi (g/m2 da/ 4giờ lao động) ở những người tiếp xúc trực tiếp thuộc hai nhóm
nông dân (Trồng rau - Nhóm A và Trồng lúa - Nhóm B), các tác giả thu được kết quả
như sau:
Nhóm A Nhóm B
xi ni xi ni
0,8 4 0,8 5
1,0 6 1,0 8
1,2 8 1,2 12
1,4 9 1,4 15
1,6 11 1,6 24
1,8 17 1,8 35
2,0 18 2,0 49
2,2 24 2,2 92
2,4 37 2,4 106
2,6 44 2,6 85
2,8 32 2,8 75
3,0 21 3,0 63
3,2 18 3,2 41
3,4 9 3,4 13
2,24 7 2,24 25
Hãy đánh giá xem mức độ độc hại do bị nhiễm hoá chất bảo vệ thực vật Wofatox
ở 2 nhóm có nguy hại như nhau không?
Bài tập 2
Một nghiên cứu về ảnh hưởng của hoá chất bảo vệ thực vật đối với các rối loạn
thần kinh thực vật được tiến hành theo dõi 2 năm từ những người khoẻ mạnh và chia
làm hai nhóm. Nhóm thứ nhất có 368 người trực tiếp phun hóa chất bảo vệ thực vật
cho rau màu, sau hai năm xuất hiện 75 người bị bệnh. Nhóm thứ hai có 327 người ở
cùng khu vực song tiếp xúc với hóa chất bảo vệ thực vật bất kỳ dạng nào, sau hai năm
chỉ xuất hiện 19 người bị bệnh. Phải chăng hóa chất bảo vệ thực vật có phải là nguy cơ
và có mối liên quan đối với các rối loạn thần kinh thực vật ở người tiếp xúc?
Với dữ kiện đã cho ở 2 bài toán trên ta cần phải chọn xem phương pháp kiểm
định nào sẽ giúp ta đánh giá sự khác biệt hoặc có liên quan hay không giữa các nhóm
số liệu nghiên cứu đã thu được? Tuy nhiên dù phương pháp nào ta cũng cần đặt giả
thuyết (Ha) hoặc (Ho) sau đó mới chứng minh. Nếu dùng test “t” thì cần thiết phải xác
định các giá trị trung bình, độ phân tán của các số liệu nghiên cứu đã thu được sau đó
lập bảng tính mà trong đó các cột sẽ tương ứng với các thành phần, tổ hợp nhỏ nhất
trong công thức. Nếu dùng test χ2tq thì việc lập bảng tiếp liên đóng vai trò hết sức quan
trọng. Nếu lập bảng tiếp liên đúng thì coi như công việc kiểm định đã hoàn thành 30%.
Tuy nhiên ở bài toán 2 ta cần xác định chỉ số nguy cơ tương đối trước để kết luận xem:
“Phải chăng hóa chất bảo vệ thực vật có phải là nguy cơ đối với các rối loạn thần kinh

70
thực vật ở người tiếp xúc?”.
Kết quả thu được ta sẽ tra bảng “t” hoặc “χ2 ” để xác định xác suất P và kết luận.
Một điểm cần lưu ý là phải kết luận chính xác song vẫn ở mức an toàn bởi nghiên cứu
của chúng ta thường là có cỡ mẫu tối thiểu nên có rất nhiều yếu tố nhiễu xen vào vì thế
nên kết luận thận trọng của nhà nghiên cứu trong Y học là điều không bao giờ thừa.

71
PHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUY

1. Một số khái niệm


1.1. Liên hệ hàm số
Là mối liên hệ giữa hai đại lượng có tính chất sau: ứng với mỗi giá trị xác định
bất kỳ của đại lượng này (từ tập hợp có nghĩa của nó) có và chỉ có một giá trị xác định
của đại lượng kia. Ví dụ: Mối liên hệ hàm số: chu vi S và bán kính r của đường tròn là:
S = 2πr
1.2. Liên hệ ngẫu nhiên
Trong nghiên cứu y sinh học có thể gặp một hình thái liên hệ khác đó là liên hệ
ngẫu nhiên. Môi liên hệ ngẫu nhiên giữa hai đại lượng được xác định khi nó thoả mãn
tính chất sau:
Nếu ứng với giá trị bất kỳ của đại lượng này thì đại lượng kia vẫn còn là ngẫu
nhiên và có thể nhận những giá trị khác nhau với xác suất nhất định. Ví dụ: cùng trong
điều kiện môi trường như nhau, năng suất sinh khối của nấm men Sacharomyces
cerevisiae là khác nhau ở các ống nghiệm của cùng lô thí nghiệm.
Những mối liên hệ tương quan và hồi quy là những trường hợp riêng của hình
thái liên hệ ngẫu nhiên.
1.2.1. Tương quan
Hai đại lượng ngẫu nhiên được gọi là có một liên hệ tương quan nếu kỳ vọng
toán học của một trong hai đại lượng này thay đổi tuỳ thuộc vào sự thay đổi của đại
lượng kia. Phương pháp thống kê toán học nghiên cứu các mối liên hệ tương quan giữa
các hiện tượng gọi là phân tích tương quan.
Điều kiện để phân tích tương quan.
1- Các đại lượng ngẫu nhiên X1, X2,… Xn có thể xem như mẫu của một tập hợp
tổng quát 2 (hoặc n) chiều với luật phân bố chuẩn.
2- Giá trị của quan trắc không phụ thuộc vào giá trị những quan trắc trước và sau.
Chúng là các giá trị độc lập, ngẫu nhiên.
3- Khi thay đổi định lượng Xi + 1, phương sai của đại lượng ngẫu nhiên Xi
không đổi hoặc tỷ lệ với một hàm số đã xét nào đó của Xi + 1.
4- Kỳ vọng toán học nào đó của đại lượng Xi, khi Xi + 1 nhận được một giá trị
xác định, có thể biểu diễn dưới dạng hàm Xi = f (xi + 1), tuyến tính đối với những
tham số nhất định.
1.2.2. Hồi quy

72
Liên hệ hồi quy là mối liên hệ giữa hai đại lượng không ngẫu nhiên. Phương
pháp toán học phân tích những mối liên hệ ấy gọi là phân tích hồi quy. Điều kiện để
phân tích hồi quy đã được mô tả ở các mục 2, 3, 4 của (l.2.l - Điều kiện để phân tích
tương quan). Như vậy phân tích tương quan thực chất là trường hợp riêng của phân
tích hồi quy. Khi thoả mãn các điều kiện để phân tích tương quan thì cũng thoả mãn
mọi điều kiện để phân tích hồi quy.
Lưu ý: Phân tích hồi quy lấy biến ngẫu nhiên làm hàm số (y), còn biến không
ngẫu nhiên làm biến số (x).
2. Phân tích tương quan và hồi quy cặp
2.1. Tương quan
Liên hệ thống kê hay liên hệ tương quan được xác định bởi dạng, hướng và mức
độ tương quan.
* Dạng: Tương quan tuyến tính hay tương quan phi tuyến.
* Hướng: Tương quan cùng chiều (+) hay tương quan ngược chiều (-)
* Mức độ: Đánh giá bằng giá trị của đại lượng Rxy cho tương quan tuyến tính và
đại lượng ηx/y hoặc ηy/x cho tương quan phi tuyến.
2.2. Tương quan tuyến tính
2.2.1. Công thức
Khi xét một liên hệ ngẫu nhiên giữa hai đại lượng, chẳng hạn đường kính rễ và
chiều cao của cây cao su, giữa hàm lượng mỡ trong sữa bò, hàm lượng Chì trong máu
của công nhân kim loại màu ở các xí nghiệp khác nhau được theo dõi nhiều lần trong
năm... cần đánh giá và kiểm tra giả thiết về sự có mặt một mối liên hệ giữa hai đại
lượng, hai quá trình nào đó trong sinh học, về mức độ chặt chẽ của sự liên hệ này,
người ta dùng hệ số tương quan Rxy. Hệ số này được tính như sau:

Trong đó: n: Kích thước mẫu nghiên cứu


x : Trung bình của đại lượng xi

y : Trung bình của đại lượng yi

Sx, Sy: Độ lệch chuẩn của xi và yi


Công thức viết lại để tính bằng máy tính bỏ túi như sau:

73
Hệ số Rxy biến thiên trong khoảng (- 1 → + 1)
* Khi Rxy = ± l, lúc này giữa x và y có một liên hệ hàm số tuyến tính, thuận (+),
nghịch (-).
* Rxy = 0, giữa x và y không có mối liên hệ nào cả.
* Khi | Rxy | càng gần 1 thì x và y có một liên hệ tương quan tuyến tính càng chặt
chẽ hơn.
Khi | Rxy | càng gần 0 thì một tương quan tuyến tính giữa x và y càng lỏng lẻo.
Người ta thường lấy các mốc sau đây để tính một liên hệ tương quan tuyến tính càng
chặt chẽ hay không: Rxy < 0,3; Rxy = 0,3 - 0,6; Rxy > 0,6.
Giá trị của hệ số tương quan cặp là một đại lượng ngẫu nhiên, phụ thuộc vào kích
thước mẫu. Khi kích thước mẫu giảm thì độ tin của hệ thống tương quan sẽ giam.
2.2.2. Bài toán
Nghiên cứu mỗi tương quan giữa liều độc X với độ sống sót Y của chuột nhắt
trắng, khi làm thí nghiệm ta thu được kết quả tính theo đơn vị liều độc và đơn vị thời
gian sống như sau:
Bảng: Kết quả thí nghiệm của bài toán
X 0 1 2 3 4 5 6
Y 4,25 3 3 1,75 1,5 05 0 25
Hãy đánh giá một tương quan giữa liều độc X và thời gian sống sót Y theo số
liệu trên.
Bài giải
Từ công thức trên, ta đặt các biến thiên như sau:
Đối với tử số: * A = n.Σxi.yi
* B1 = Σxi
* B2 = Σyi
* B = B1.B2
*C=A–B
Đối với mẫu số:

74
Tính cụ thể cho bài toán, được như sau:

Rxy mang giá trị (-), đây là mối tương quan ngược chiều, liều độc càng cao thì
thời gian sống sót của chuột càng giảm.
2.3. Đánh giá mức xác suất tin cậy của hệ số tương quan:
2.3.1. Công thức
Hệ số tương quan mẫu dùng làm ước lượng cho hệ số tương quan tổng thể. Như
vậy bản thân Rxy xem như đại lượng ngẫu nhiên. Do đó sẽ có một sai số được xác
định như sau:

Trường hợp n ≤ 100, ta tính sai số Sr theo công thức sau:

Người ta dùng tỷ số giữa tương quan mẫu và sai số Sr làm tiêu chuẩn để kiểm
định giả thiết H0 với mức ý nghĩa α nào đó.

Tính được ttn so sánh với ta như sau:


- Nếu ttn > tα Hệ số Rxy được chấp nhận, giữa xi và yi có mối tương quan tuyến
tính, kết luận này tin cậy ở mức ý nghĩa α hay p = 1 - α.
- Nếu ttn < tα. Hệ số Rxy không được chấp nhận, không có một tương quan tuyến
tính giữa xi và yi, kết luận này tin cậy ở mức ý nghĩa α.
2.3.2. Ví dụ

75
Lấy lại bài toán trên ta có:

Vậy ttn > tα, với α = 0,001. Hệ số tương quan của xi và yi tin cậy ở mức ý nghĩa α
= 0,001, hay xác suất p = 0,999.
2.4. Đánh giá mức khác biệt giữa hai hệ số tương quan
2.4.1. Công thức
Khi so sánh hệ số tương quan được xác định trên mẫu độc lập, giả thiết H0 cho
rằng sự khác nhau của chúng là không có ý nghĩa. Kiểm định giả thiết H0 bằng tiêu
chuẩn ttn được tính như sau:

Trong đó:
- ttn: Giá trị dùng kiểm định
- Zl, Z2 đại lượng Fisher của hệ số tương quan thực nghiệm tra trong bảng Z:
Bảng biến đổi hệ số tương quan R thành trị số Z.
- n1 và n2 những: Kích thước mẫu 1 và mẫu 2.
Nếu ttn ≥ tα giả thiết H0 bị bác bỏ với mức ý nghĩa đã cho. Tra bảng tα với bậc tự
do (n1 - 1) + (n2 - 1), kết luận có sự tương quan khác nhau một cách có ý nghĩa.
2.4.2. Ví dụ
Cho trước n1 = n2 = 50. R1 = 0,560; R2 = 0,69. Hãy đánh giá xem hai hệ số tương
quan này có sai khác không?
Bài giải
Từ R1 = 0, 560 ta tra bảng biến đổi hệ số tương quan thành trị số Z và được
Z1 = 0,633; tương tự R2 = 0,69 nên Z2 = 0,848.
Tính ttn theo công thức (4.6) ttn = -1,042. Với α = 0,05. BTD = 96,
tα = 1,96. Như vậy ttn < tα hai trị số tương quan R1, R2 không khác biệt nhau một
cách có ý nghĩa với mức ý nghĩa α đã cho.
2.5. Tương quan phi tuyến
2.5.1. Khái niệm
Khi sự liên hệ giữa xi và yi không tuân theo quan hệ tuyến tính, thì sự phụ thuộc

76
Xi và Yi là một quan hệ phi tuyến tính. Hệ số tương quan phi tuyến mô tả sự phụ thuộc
hai chiều của các giá trị Xi và Yi, nghĩa là ηX/Y khác với ηY/X
Ví dụ:
Xi 2 4 6 8 4 6 2 6
Yi 4 8 8 7 4 10 6 12
Giả sử từ số liệu trên, sắp xếp tăng dần theo giá trị Xi ta có:
Xi 2 2 4 4 6 6 6 8
Yi 4 6 8 4 8 10 12 7
Ta nhận thấy có một số giá trị của xi lặp lại, nên có thể xếp như sau:
Xi 2 4 6 8
Yx 5 6 10 7
Ta đã có các giá trị trung bình Yi, theo Xi là Y x. Nếu xếp ngược lại theo Y ta sẽ
có:
Yi 4 4 6 7 8 8 10 12
Xi 2 4 2 8 6 4 6 6

Yi 4 6 7 8 10 12
Xy 3 2 8 5 6 6
Sự phụ thuộc giữa Xi và Yi khác sự phụ thuộc giữa Yi và Xi. Hệ số η luôn luôn
dương. ηx/y ≠ ηy/x ; nếu ηx/y = ηy/x thì chúng bằng Rxy.
2.5.2. Công thức tính hệ số tương quan phi tuyến

Trong đó Sx và Sy là độ lệch tiêu chuẩn của mỗi đặc điểm Xi và Yi; Sxy và Syx
là độ lệch tiêu chuẩn của nhóm, được tính như sau:

Ở đây fx và fy là tần suất của xi và yi, n là kích thước của mẫu. Do đó η được
tính như sau:

Trình tự tính toán:


- Phân nhóm số liệu vào bảng tương quan, theo mỗi lớp của đặc tính Xi và đặc
77
tính Yi. Xác định đại lượng trung bình của x và y; trung bình của y theo x và x theo y.
- Tính độ lệch riêng phần ( Y X - Y ) và X Y - X ; Tính bình phương của đại
lượng trên, tính tổng.
- Tính tổng bình phương

Thay các giá trị đã tính được vào công thức để tính ηy/x và ηx/y.
Đánh giá độ tin cậy của hệ số tương quan theo tiêu chuẩn tα; BTD = n - 2
Bài toán:
Nghiên cứu sự biến thiên của hai đặc điểm x và y có kết quả như sau:
X1 17 17 18 18 18 18 20 20 23 23
Y1 12 13 13 14 14 15 16 16 13 14
Hãy tính hệ số tương quan phi tuyến của hai đặc tính trên.
Bài giải
Lập bảng tính như sau:
Bảng tính các giá trị trung gian của bài toán

Thay vào công thức được ηy/x = 0,90


2.6. Hệ số hồi quy thực nghiệm
2.6.1. Hệ số hồi quy
Sự phụ thuộc tuyến tính của x và y được biểu diễn bởi hàm y = ax + b. Mặt khác
sự phụ thuộc tuyến tính của giá trị trung bình Y và X có thể biểu diễn bằng phương
trình:

78
Trong đó: a = Rxy (Sy/Sx)
a được gọi là hệ số hồi quy thực nghiệm (xem lại phương pháp bình phương tối
thiểu).
2.6.2. Phương pháp xây dựng đường hồi quy thực nghiệm
- Bước 1
Dựa vào số liệu thực nghiệm, vẽ trên trục toạ độ XOY các điểm Mi (xi; yi). Nối
các điểm lại ta được đường gấp khúc thực nghiệm D1. Từ hình dạng của đường D1
này, ta xác định đường hồi quy lý thuyết D, sao cho đường D đại diện tất nhất cho tất
cả các điểm Mi (Xi; Yi) thực nghiệm.
- Bước 2: Từ công thức
Y - Y = a(X- X ) ta khai triển ra xác định a, y (y = ax + b hay b = y - ax). Đây là
phương trình biểu diễn crường thẳng D. Đặc điểm của đường thẳng D là cắt trục tung
tại b khi x = 0, cắt trục hoành tại x = -b/a khi y = 0. Tính I (0;b); J (-b/a; 0).
2.6.3. Ví dụ
Lấy lại ví dụ bài toán (ở phần 2.2.2.) tính được a = -0,66; b = 4,015
y = 0 66 X + 4,015
I (0; 4,015); J (6,083; 0).
Bảng: Tính giá trị lý thuyết của tương quan giữa X và Y
X 0 1 2 3 4 5 6
Ytn 4,25 3 3 1,75 1,5 0,5 0,25
Yit 4,015 3,355 2,695 2,935 1,375 0,715 0,055
Chú ý:
D chỉ là đoạn thẳng thoả mãn điều kiện của bài toán thực tế. Toàn bộ đường
thẳng biểu diễn phương trình tính được có thể không thoả mãn điều kiện của bài toán.

Đồ thị dạng tương quan Y = ax - b

79
2.6.4. Một số dạng hồi quy khác
+ Hồi quy biểu thị bằng phương trình hàm mũ: Khi sự phụ thuộc tuân theo quy
luật cấp số nhân, nó được mô tả bởi phương trình mũ như sau:
y = a.bx hay y = a. cxb
Logarit hoá ta sẽ được Lg y = Lg a + x. Lg b
Hệ chuẩn dùng để xác định các tham số a và b:

Giải hệ này tìm dược a và b:

+ Hồi quy biểu thị bởi phương trình luỹ thừa


Sự mô tả của các biến bằng phương trình luỹ thừa như sau:

Logarit hoá biến thành phương trình đường thẳng sau:

Hệ các phương trình chuẩn để xác định tham số a và b như sau:

80
Giải các hệ trên tính được a và b như sau:

2.7. Tương quan bội và tương quan riêng phần


2.7.1. Tương quan bội
Đối với các quá trình sinh học. Không chỉ có tương quan cặp hai chiều, nó còn có
mối tương quan đa chiều. Khi có 3 yếu tố tác động qua lại x, y, z ta có mối tương tác
mới gọi là tương quan bội. Ví dụ tác động của quan hệ pa, to, hoạt động enzym trong
miệng bệnh nhân mắc bệnh tai mũi họng. Biểu thức tính tương quan như sau:

Trong đó: Rxy, Rxz, Ryz là tương quan của từng cặp đặc điểm. Hệ số tương quan
bội trong khoảng (0; 1); Chú ý rằng Rx,y,z = 0, các đặc điểm không có tương quan.
2.7.2. Tương quan riêng phần
+ Công thức: Khi mối quan hệ phụ thuộc với các đại lượng khác được loại trừ
chỉ còn quan hệ phụ thuộc giữa hai đại lượng, được gọi là quan hệ riêng phần. Chẳng
hạn ta cố định yếu tố z, sẽ có:

Trong công thức Rxy (z) là tương quan riêng phần của x và y khi không có mặt
của z. Tương tự ta có hai hệ số còn lại như sau:

81
+ Khi cố định y:

+ Khi cố định x:

Hệ số tương quan riêng phần có cùng ý nghĩa tính chất như hệ số tương quan
cặp.
+ Tiêu chuẩn kiểm định
Sử dụng tiêu chuẩn t để kiểm định giả thiết về sự biến đổi không phụ thuộc giữa
2 đặc điểm khi loại trừ đặc điểm thứ 3 bằng tỷ số sau:

Trong đó:
n - kích thước mẫu
m - số đặc điểm tính Rrp (tương quan riêng phần).
Nếu ttn > tα mức ý nghĩa α cho trước, BTX = n - 3. Khi đó hai đặc điểm không có
mối tương quan.
Bài toán
Lấy ngẫu nhiên 10 bông hoa hoè gốc, đếm số bông nhánh (y) số bông con (z) và
chiều dài bông gốc (xm) của mỗi bông. Kết quả được tính trong bảng sau:
x 70 60 70 46 58 69 32 62 46 62
y 18 17 22 10 16 18 9 18 15 22
z 36 29 40 12 31 32 13 35 30 36
Hãy tính hệ số tương quan riêng phần của mỗi đặc điểm
Bài giải:
Dựa vào công thức tính được

Tính tyz(x) = 5,46


Với α = 0,05; BTX = 7; tα = 2,38, ttn > tα ; Mối quan hệ của y và z tin cậy ở mức
ý nghĩa α = 0,05

82
KHOẢNG TIN CẬY

Trong nghiên cứu nhiều khi tìm được giá trị p vẫn chưa thể có kết luận về ý
nghĩa thống kê một cách chắc chắn vì nếu các giá trị xung quanh trị số trung bình hay
giá trị ước lượng có chứa phần nhiều hay ít giá trị của quần thể thật hay không. Nếu
chưa nhiều và hội tụ gần thì chứng tỏ giá trị thu được tập trung và đại diện hoặc ngược
lại. Khi tìm được 2 cực của khoảng tin cậy là ta tìm được giới hạn tin cậy. Thông
thường trong nghiên cứu người ta hay giới hạn khoảng tin cậy ở mức 95% (p = 0,05)
nên gọi là CI 95% để đánh giá sự may rủi.
Đối với các phân phối chuẩn hoặc có hệ thống thì khoảng tin cậy được tính theo
công thức sau:

(Nếu CI 95% thì tbtd = 1,96 (dựa theo biểu đồ Gauss)

Trong đó:
X A − X B là các giá trị trung bình ngẫu nhiên hoặc mẫu chứng.

Scb là đọ lệnh chung.


tbtd: Trị số phân phối t ở các bậc tự do với ý nghĩa thống kê có mức ấn định.
Đối với các biến rời rạc khoảng tin cậy được tính trên cơ sở giá trị của nguy cơ
tương đối RR hoặc tỷ xuất chênh OR. Cách này có sự phức tạp của sự hiển diện ở
công thức một cách logarit tự nhiên với giá trị tương quan khác nhau. Để đơn giản
người ta dựa trên trắc nghiệm đã tính được χ2 để tính xấp xỉ và tìm phương sai theo
công thức sau:

z: Là trị số tương ứng với mức tin cậy mong muốn (1,645; l,96; 2,3261 2,576)

Khoảng tin cậy có thể cung cấp các thông tin của trị số p, nên khoảng rộng của
khoảng tin cậy dao động lớn, nhỏ có ý nghĩa rõ rệt và liên quan đến lực và cơ mẫu. Cỡ
mẫu càng lớn thì ước lượng càng ổn định và khoảng tin cậy càng hẹp và ngược lại,
chính vì vậy giá trị tin cậy cũng được xác định.

83
SAI SỐ QUAN TRẮC

1. Ba loại sai số
Ta biết rằng, dù với sự quan trắc khá chính xác cùng một loại đại lượng, các kết
quả của các quan trắc riêng biệt vẫn sai khác nhau, và do đó có chứa sai số.
Hiệu x - a giữa kết quả quan trắc x và giá trị chân thực a của đại lượng được quan
trắc gọi là sai số quan trắc. Đây lại một trong những bài toán cơ bản của việc xử lý
bằng toán học các kết quả thực nghiệm chính là ước lượng giá trị chân thực của đại
lượng quan trắc theo các kết quả đã thu được. Để giải bài toán đó, cắn biết các tính
chất cơ bản của sai số quan trắc và biết cách sử dụng chúng.
1.1. Sai số thô
Sai số sinh ra do vi phạm các điều kiện cơ bản của công việc quan trắc hoặc do
sơ xuất của người làm thí nghiệm. Khi phát hiện có sai số thô, cần bỏ ngay kết quả
quan trắc và quan trắc lại. Ta luôn luôn xem tằng chỉ giữ lại để xử lý bằng toán học các
kết quả quan trắc không chứa sai số thô.
1.2. Sai số hệ thống
Các sai số quan trắc do một số lớn nguyên nhân mang nhiều vẻ khác nhau gây
nên. Ví dụ do không điều chính chính xác dụng cụ, do thay đổi của các điều kiện bên
ngoài, ta có thể dễ dàng trừ bỏ các loại sai số hệ thống bằng cách dựa vào các hiệu
chỉnh với sự tương ứng trong kết quả quan trắc. Ta xem rằng ngay từ đầu của việc sử
lý bằng toán học các kết quả quan trắc, tất cả các sai số hệ thống đều đã được phát hiện
và trừ bỏ.
1.3. Sai số ngẫu nhiên
Sai số quan trắc còn lại sau khi đã khử tất cả các sai số hệ thống được gọi là sai
số ngẫu nhiên. Sai Bố ngẫu nhiên gây nên bởi một số rất lớn các nhân tố, mà tác dụng
của chúng bé đến mức ta không thể tách riêng và tính riêng biệt cho từng nhân tố
được. Bằng các phương pháp của lý thuyết xác suất, có thể tính được ảnh hưởng của
chúng đến việc ước lượng giá trị chân thực của các đại lượng được quan trắc.
2. Phân phối của sai số ngẫu nhiên trong các quan trắc
Sai số ngẫu nhiên trong các quan trắc được đặc trưng bởi một luật phân phối xác
định.
Trong mô hình lý thuyết xác xuất, có sai số ngẫu nhiên z = x - a cũng được xem
như là các đại lượng ngẫu nhiên (hay là biến ngẫu nhiên) có thể nhận các giá trị thực
tuỳ ý đồng thời mỗi khoảng (l1, z2) tương ứng với một số hoàn toàn xác định được gọi
là xác suất để đại lượng ngẫu nhiên z rơi vào khoảng đó, và ký hiệu là p (z1 < z < z2)

84
hoặc p (z ∈ z1. z2) xác Suất đó là Sự lý tưởng hoá của tần suất tương đối của sự rơi vào
khoảng (z1, z2) tức là trong thực hành, chính tần suất tương đối đã nêu trên đây gần với
xác suất đó.

Quy tắc cho phép tìm xác suất p (z1 < z < z2) đối với khoảng (z1, z2) tuỳ ý được
gọi là luật phân phối xác suất của đại lượng ngẫu nhiên z. Ta có thể viết dưới dạng tích
phân:

Trong đó p (z) là một hàm không âm nào đó, được chuẩn hoá bởi điều kiện:

Hàm đó xác định hoàn toàn luật phân phối xác suất tương ứng và được gọi là mật
độ xác suất (hay gọi mật độ phân phối)
3. Phương pháp khử sai số thô
3.1. Phương pháp khử sai số thô khi biết δ
Ta ký hiệu giá trị đột xuất là XA còn tất cả các giá trị còn lại là X1,

và so sánh giá trị tuyệt đối của hiệu X A − X với đại lượng, đối với tỷ số thu được:

Ta tính xác suất để cho tỷ số đang xét nhận một cách ngẫu nhiên giá trị không bé
hơn 1 với điều kiện giá trị XA không chứa sai số thô. Nếu như xác suất tính được bằng
cách đó rất bé, thì giá trị “đột xuất” chứa sai số thô và cần phải bỏ giá trị đó trong việc
sử lý tiếp theo các kết quả quan trắc.
Ví dụ: Giả sử trong số 41 kết quả quan trắc độc lập được tiến hành và sau khi
tính toán ta có kết quả s = 0,133; Phát hiện có giá trị đột xuất x* = 6,866, đồng thời giá
trị trung bình của 40 kết quả còn lại là X = 6,500 có thể xem rằng giá trị “đột suất” đó
chứa sai số và như vậy nó có giá trị nào đó trong việc xử lý các kết quả nghiên cứu về
sau không? Trong tình huống này chúng ta phải làm một phép thử đặc hiệu để đánh giá
và sau đó đưa ra hướng giải quyết theo công thức:

85
Giải:

Ta tính xác suất 1 -2 Φ (t) = 0,0066 < 0,007.


Độ tin cậy của kết luận p > 0,993 => có thể xem rằng giá trị x* chứa sai số thô và
bỏ giá trị đó trong việc sử lý sau này các kết quả quan trắc.
3.2. Phương pháp khử sai số thô khi không biết s
Ta dùng sai số tiêu chuẩn thực nghiệm vì s không tìm thấy trong tài liệu hoặc vì
lý do nào đó mà ta không sử dụng được. Công thức áp dụng và cách làm được tiến
hành như sau:

Ví dụ: Giả sử n kết quả quan trắc độc lập cùng độ chính xác ta có được giá trị
trung bình x = 6,500 còn sai số tiêu chuẩn thực nghiệm S = 0,133 và giả Bộ quan trắc
lần thứ n + 1 cho kết quả X* = 6,866. Ta đang đứng trước tình huống cần xem xét, lựa
chọn vì giá trị trung bình của lần quan trắc ni lớn hơn so với kết quả quan trắc độc lập.
Có thể khử kết quả đó khỏi việc xử lý về sau không là điều mà nhà nghiên cứu cần hết
sức cân nhắc để sao cho mẫu nghiên cứu không nhỏ đi nếu không cần thiết, ngược lại
nếu để thì có làm sai lệch toàn bộ các kết quả nghiên cứu chung đã thu được hay
không.
Giải:

Nếu số các kết quả chấp nhận được là n = 40 thì tỷ số thu được vượt quá giá trị
tới hạn 2,74 với độ tin cậy p = 0,99 và ta có thể khử giá trị x với độ tin cậy của kết
luận lớn hơn 0,99. Còn nếu số các kết quả chấp nhận được là hơn 5, tỷ số thu được bé
hơn giá trị tới hạn là 2,78 ngay cả với độ tin cậy p = 0,95 ta cũng không nên khử giá trị
x* vì mất quá nhiều số liệu (đây là sự vừa lòng với xác suất p = 5)

86
PHẦN PHỤ LỤC
Bảng 1: Bảng t
P
0,05 0,02 0,01 0,001
Đtd
1 12,706 31,821 63,657 636,619
2 4,303 6,965 9,925 31 589
3 3,182 4,541 5,841 12,924
4 2,776 3,747 4,604 8,610
5 2,571 3,365 4,032 6,860
6 2,447 3,143 3,707 5,595
7 2,365 2,998 3,499 5,408
8 2,306 2,896 3,355 5,401
9 2,262 2,821 3,250 4,781
10 2,228 2,764 3,169 4,587
11 2,201 2,718 3,106 4,437
12 2,179 2,681 3.055 4,318
13 2,160 2,650 3,012 4,221
14 2,145 2,524 3,977 4,140
15 2,131 2,602 2,947 4,073
16 2,120 2,583 2,931 4,015
17 2,110 2,567 2,808 3,965
18 2,101 2,552 2,878 3,922
19 2,093 2,539 2,861 3,883
20 2,086 2,528 2,845 3,850
21 2,080 2,518 2,831 3,819
22 2,074 2,508 2,819 3,792
23 2,069 2,500 2,807 3,767
24 2,064 2,492 2,797 3.745
25 2,060 2,485 2,787 3,725
26 2,056 2,479 2,779 3,707
27 2,052 2,473 2,771 3,690
28 2,048 2,467 2,763 3,674
29 2,045 2,462 2,756 3,659
30 2,042 2,457 2,750 3,646
31 1,960 2,326 2,576 3,291

87
Bảng 2: Bảng χ2
P
0,05 0,02 0,01 0,001
Đtd
1 3,841 5,412 6,635 10,827
2 5,991 7,824 9,210 13,815
3 7,815 9,837 11,315 16,266
4 0488 11,668 13,277 18,467
5 11,070 13,388 1 5,068 20,515
6 12,592 15,033 16,812 22,457
7 14,067 16,622 18,475 24,322
8 15,507 18,168 20,090 26,125
9 16,019 19,679 21,666 27,877
10 18,367 21,161 23,209 20,588
11 19,675 22,618 24,725 31,261
12 21,026 24,054 26,217 32,909
13 22,362 25,472 27,688 34,528
14 23,685 26,873 29,141 36,123
15 24,996 28,259 30,578 37,697
16 26,296 29,633 32,000 39,252
17 27,587 30,995 33,409 40,790
18 28,869 32,346 34,805 42,312
19 30,144 33,687 36,191 43,820
20 31,410 35,020 37,566 45,315
21 32,871 36,315 38,932 46,797
22 33,921 37,659 40,289 48,268
23 35,172 38,968 41,638 49,728
24 36,415 40,270 42,980 51,179
25 37,652 41,566 44,314 52,620
26 38,885 42,856 45,642 54,052
27 40,113 44,140 46,963 55,476
28 41,337 15,419 48,278 56,893
29 42,557 46,693 49,588 58,302
30 43,773 47,962 50,892 59,703

88
Bảng 3: Bảng hệ số tương quan
P
0,05 0,02 0,01 0,001
Đtd
1 0,0877 0,9969 0,9995 0,9999
2 0,9000 0,9500 0,9800 0,9900
3 0,8054 0,8783 0,9343 0,9587
4 0,7293 0,8114 0,8822 0,9172
5 0,6694 0,7545 0,8329 0,8745
6 0,6215 0,7067 0,7887 0,8343
7 0,5822 0,6664 0,7498 0,7977
8 0,5494 0,6319 0,7155 0,7646
9 0,5214 0,6021 0,6851 0,7348
10 0,4973 0,5760 0,6581 0,7079
11 0,4762 0,5529 0,6339 0,6835
12 0,4575 0,5324 0,6120 0,6611
13 0,4409 0,5139 0,5923 0,6411
14 0,4259 0,4973 0,5742 0,6226
15 0,4124 0,4821 0,5577 0,6055
16 0,4000 0,4683 0,5425 0,5897
17 0,3887 0,4555 0,5285 0,5751
18 0,3783 0,4438 0,5155 0,5614
19 0,3687 0,4329 0,5034 0,5487
20 0,3598 0,4227 0,4921 0,5368
21 0,3233 0,3809 0,4451 0,4869
22 0,2960 0,3494 0,4093 0,4487
23 0,2746 0,3246 0,3810 0,4182
24 0,2573 0,3044 0,3578 0,3932
25 0,2428 0,2875 0,3384 0,3721
26 0,2306 0,2732 0,3218 0,3541
27 0,2108 0,2500 0,2948 0,3248
28 0,1954 0,2319 0,2937 0,0317
29 0,1829 0,2172 0,2565 0,2830
30 0,1726 0,2050 0,2422 0,2673
31 0,1638 0,1946 0,2301 0,2540

89
TÀI LIỆU THAM KHẢO

1. Bộ Y tế (2004), Cẩm nang thực hành quản lý và chăm sóc sức khoẻ Nhà xuất
bản Lao động - Xã hội tr 11-93.
2. Ngô Như Hoà (1982). Thống kê trong nghiên cứu y học. Nhà xuất bản Y học,
tập I, II.
3. Nguyễn Đình Khoa (1975). Phương pháp thống kê ứng dụng trong sinh học.
Tủ sách Đại học Tổng hợp.
4. Nguyễn Xuân Phách và cộng sự (1992). Toán thống kê và tin học trong
nghiên cứu y sinh, dược học. Học viện Quân Y.
5. Lê Khánh Trai, Hoàng Hữu Như (1974). Ứng dụng xác suất thống kê trong
y sinh học. Nhà xuất bản Khoa học Kỹ thuật.
6. Dương Đình Thiện (1998). Dịch tễ học. Nhà xuất bản Y học.
7. Trường Đại học Y khoa Hà Nội (1992). Phương pháp nghiên cứu Bức khỏe
cộng đồng. Nhà xuất bản Y học.
8. Akhnaarova. S (1989), Experiment optimization in chemistry and chemical
engineering. Mockva.
9. Daliansyah Danil (2006), ProcesB Hazard Analysis Application through
Design for Earlier Incident prevention, The 22st annual conference of the Asia Pacific
Occupational safety & health organization. Bangkok Thailand B 1 - B 11.
10. Jim whiting (2005), The new international safety risk management standard,
The 21st annual conference of the Asia Paciflc Occupational safety & health
organization. Ban- Indonesia p 1750.
11. Joseph. Lellouch (1974). Methodes StatistiqueB en experimentation
biologique. P. Flammation.
12. Mendenhall (1974). Introduction to probability and statistics. W.P.C. Ins.
Balmont.

90
PHUƠNG PHÁP LUẬN TRONG
NGHIÊN CÚU KHOA HỌC Y HỌC
(Giáo trình sau đại học)

NHÀ XUẤT BẢN Y HỌC


352 Đội Cấn Ba Đình Hà Nội
ĐT: (04) 7.625922, 7.625934
Fax: (04) 7.625923
-----------------

Chịu trách nhiệm xuất bản:


HOÀNG TRỌNG QUANG

Biên tập và sửa bản in:


BAN BIÊN TẬP SÁCH DẠY NGHỀ - GIÁO TRÌNH

Trình bày bìa:


THANH HUYỀN

In 500 cuốn, khổ 19 x 27 (cm), tại Xí nghiệp in, Nhà xuất bản Lao động - Xã
hội. Giấy chấp nhận đăng ký kế hoạch xuất bản số 22-2007/CXB/245 151/YH.
In xong và nộp lưu chiểu Quý II/2007.
91

You might also like