You are on page 1of 49

KỸ THUẬT CHỌN MẪU

???

GS. TS. LÊ HOÀNG NINH


1
ThS. LÊ NỮ THANH UYÊN
MỤC TIÊU HỌC TẬP

Phân biệt các phương pháp lấy mẫu


phổ biến

Trình bày ưu khuyết điểm của từng


phương pháp

Liệt kê các sai lệch và biện pháp khắc


phục sai lệch chọn lựa trong chọn mẫu

2
SƠ ĐỒ NGHIÊN CỨU

Chọn dân số

Chọn mẫu

Thu thập dữ kiện

Phân tích dữ kiện

3
CÁC KHÁI NIỆM

Khái niệm chọn mẫu (sample sampling)


Là quá trình chọn một số lượng nhỏ những đơn vị
nghiên cứu từ một quần thể (dân số) nghiên
cứu xác định.

Câu hỏi:
1. Mẫu NC được rút ra trên nhóm người nào?
2. Cần bao nhiêu người trong mẫu NC?
3. Những người này được chọn như thế nào?

4
CÁC KHÁI NIỆM
Kỹ thuật chọn mẫu là cách rút chọn 1 đối
tượng/đơn vị nghiên cứu trong dân số vào
mẫu.

Nguyên tắc thống kê đòi hỏi một mẫu có giá trị


khi mẫu đó có kích thước đủ lớn (đủ cỡ mẫu)
và mẫu đại diện cho dân số.

Tính đại diện:


1. Trực giác (Huyện Ninh Hải đại điện cho khí hậu “gió
như phan, nắng như rang” của cả tỉnh Ninh Thuận
(Phan Rang – Tháp Chàm)
2. Chọn mẫu xác suất (tốt nhất)
5
CÁC KHÁI NIỆM
Dân số (population): tập hợp các đối tượng có
chung đặc điểm mà chúng ta muốn áp dụng kết
quả nghiên cứu
Mẫu (sample): tập hợp những đối tượng được
khảo sát có hệ thống nhằm ước lượng đặc trưng
của dân số đích
Dân số mục tiêu

Mẫu

Dân số chọn mẫu


6
Dân số, mẫu nghiên cứu và
suy diễn thống kê
Kỹ thuật chọn mẫu

Quần thể Mẫu


Suy diễn

7
Tham số Thống kê
CÁC KHÁI NIỆM (tt)
Các thành phần:
• Đơn vị nghiên cứu (study unit): đơn vị cơ bản, nhỏ
nhất cung cấp những giá trị của biến số

• Khung mẫu (sampling frame): tập hợp của những đơn


vị nghiên cứu hợp lệ trong dân số.

1. Nghiên cứu về tỷ lệ cao huyết áp của người dân trên


40 tuổi trong năm 2013 của tỉnh Bình Dương.
2. Nghiên cứu về tỷ lệ hộ gia đình sử dụng nước máy tại
tỉnh Tây Ninh, năm 2013.

8
Tất cả đối tượng
được quan tâm
Giá Trị Bên Trong

Mẫu Mẫu

kiểm
Chọn lọc
? soát
Đối tượng sai
với một số đặc Đo lường số
tính cụ thể
??

Giá Trị Bên Ngoài Kết quả


(Khả năng khái quát hóa)
9
CÁC PHƯƠNG PHÁP CHỌN MẪU PHỔ BIẾN

Có chủ đích (purposes)


Không xác Thuận tiện (convenience)
suất Phân bổ quota (Quota)
Quả bóng tuyết (Snowball)

Mẫu ngẫu nhiên đơn (simple random sampling)

Mẫu ngẫu nhiên hệ thống (systematic random sampling)

Xác suất Mẫu ngẫu nhiên phân tầng (stratified random sampling)

Mẫu cụm (cluster sampling) PPS


Lấy mẫu nhiều bậc (Multistage sampling)

10 Có thể phối hợp nhiều phương pháp trên


CHỌN MẪU CÓ CHỦ ĐÍCH
 Là phương pháp phổ biến nhất trong nghiên cứu
định tính
 Chọn tập hợp những người tham gia dựa theo
những tiêu chí có tính đại diện liên quan tới 1 câu
hỏi nghiên cứu
 Cỡ mẫu có thể ấn định hoặc không ấn đinh trước
khi thu thập thông tin vì cỡ mẫu phụ thuộc vào:
• Nguồn cung cấp thông tin
• Hạn định về thời gian
• Mục tiêu nghiên cứu.

11
CHỌN MẪU THUẬN TIỆN

• Là phương pháp lấy mẫu dựa trên sự thuận


lợi hay dựa trên tính dễ tiếp cận của đối tượng.
VD:
- Khảo sát mẫu trên một vài bệnh viện có quen biết
- Tình cờ gặp hay chặn bất cứ người nào mà gặp.. để
xin thực hiện cuộc phỏng vấn

12
PHÂN BỔ QUOTA
Là sự phân bổ số đơn vị cần điều tra cho từng đơn vị được
chia hoàn toàn theo kinh nghiệm chủ quan của người
nghiên cứu
VD: Nghiên cứu về tỷ lệ tăng huyết áp trên 400 người từ 40
tuổi trở lên tại 1 thành phố A, tiến hành như sau:
- Phân đơn vị theo giới tính và tuổi:
 200 người (100 nam và 100 nữ) từ 40 – 60 tuổi,
 200 người (100 nam và 100 nữ) từ 60 tuổi trở lên.
- Điều tra viên có thể chọn những người gần nhà hay thuận
lợi cho việc điều tra để dễ nhanh chóng hoàn thành công
việc.

13
QUẢ BÓNG TUYẾT (SNOWBALL)

 Là phương pháp chọn một nhóm người trả lời thứ

nhất được chọn theo phương pháp chọn mẫu ngẫu


nhiên, nhưng những người trả lời sau là do nhóm
thứ nhất giới thiệu

VD: Nghiên cứu khảo sát KAP về HIV/AIDS của gái


mại dâm đường phố tại TP. HCM, năm 2012

14
Các pp chọn mẫu xác suất phổ biến
1. Mẫu ngẫu nhiên đơn (simple random sampling)

2. Mẫu ngẫu nhiên hệ thống (systematic random

sampling)
3. Mẫu ngẫu nhiên phân tầng (stratified random

sampling)
4. Mẫu cụm (cluster sampling)

5. Lấy mẫu nhiều bậc (Multistage sampling)

Có thể phối hợp nhiều phương pháp trên


15
MẪU NGẪU NHIÊN ĐƠN (SRS)
NGẪU NHIÊN ĐƠN (simple random sampling): phương pháp
lấy mẫu mà mọi đơn vị lấy mẫu đều được chọn vào mẫu
nghiên cứu với xác suất bằng nhau và độc lập với việc chọn
đơn vị lấy mẫu khác.

VD: Rút thăm, lô tô, bảng số ngẫu nhiên, tờ tiền, vé số…

16
17
Bảng số ngẫu nhiên
34735 78219 18131 92594 94235 11721
35621 57344 02606 21961 07539 71006
78629 40478 63628 13640 82315 41919
08462 33570 21715 90409 33199 71764
24014 71381 58732 29417 32050 89880
37124 23597 73007 26705 94330 45206
92775 68533 86784 28870 61590 99165
26426 54602 71259 56747 36957 82629
21487 46012 10948 49446 32178 50727
17745 94929 23861 66784 15825 39009
Chọn 384 đối tượng trong khung mẫu?

Tìm bảng số ngẫu nhiên trong sách xác suất thống kê


18
Tạo bảng số ngẫu nhiên bằng phần mềm
1. Epi info 6
2. Stata 12: tsample số_đầu số_cuối số_lượng
Nghiên cứu chọn ngẫu nhiên 20 người có ID từ 1 đến 400
tsample 1 400 20

19
ƯU – KHUYẾT ĐIỂM: NGẪU NHIÊN ĐƠN

ƯU ĐIỂM:
 Đơn giản, chọn đơn vị NC thông qua 1 giai đoạn
 Có đủ cơ sở tính xác suất (biết rõ xác xuất)

KHUYẾT ĐIỂM:
 Cần khung mẫu chính xác  kém khả thi
 Mẫu được chọn có thể phân tán  khó thu thập
 Có cơ hội bỏ sót vài nhóm trong dân số (cơ hội)

20
MẪU NGẪU NHIÊN HỆ THỐNG (Systematic Sampling)

 Lấy mẫu hệ thống là phương pháp lấy mẫu chọn


ngẫu nhiên một nhóm gồm nhiều đơn vị lấy mẫu
cách nhau một khoảng cách mẫu.
Gồm các bước
 Tính khoảng cách mẫu k = N/n
N: dân số chọn mẫu (trong khung mẫu)
n: cỡ mẫu
 Chọn ngẫu nhiên một số r, 1  r  k
 Chọn một nhóm gồm các đơn vị lấy mẫu r,
r+k, r+2k,…

21
VÍ DỤ: NGẪU NHIÊN HỆ THỐNG

 Chọn 5 đối tượng từ một dân số 15 đối tượng.

- Tính khoảng cách mẫu: k = 15/5 = 3


- Chọn ngẫu nhiên một số r: 1  r  3
- Ví dụ r = 2
- Những đối tượng được chọn vào mẫu nghiên cứu
sẽ lần lượt có số thứ tự trong khung mẫu: 2, 2+3
= 5, 2 + 2(3) = 8, 2+3(3) = 11, 2 + 4(3) = 14

22
HÌNH MINH HỌA

23
24
ƯU – KHUYẾT ĐIỂM: Ngẫu nhiên hệ thống

ƯU ĐIỂM:
 Thay ngẫu nhiên đơn khi không có khung mẫu chính
xác
 Có tính đại diện hơn ngẫu nhiên đơn

KHUYẾT ĐIỂM:
 Khung mẫu được thiết lập có tính chu kỳ = k  mẫu
có thể bị sai lệch

Ví dụ: Khoa cấp cứu: 1 tuần 7 ngày, theo chu kỳ cứ


cách 7 ngày: thứ 3 hàng tuần (vắng bệnh nhân so
với thứ 7, CN)  không đại diện
25
MẪU NGẪU NHIÊN PHÂN TẦNG
CHỌN MẪU NGẪU NHIÊN PHÂN TẦNG (stratified random
sampling):
 Đối tượng chia thành nhiều lớp
 Mỗi lớp có những đặc trưng đồng nhất
 Có thể thực hiện lấy mẫu ngẫu nhiên từ mỗi lớp
Sử dụng khi:
 Các tầng có khác nhau về biến số quan tâm (nhóm tuổi,
giới, vùng sinh thái…)
 Sự khác biệt là ở mục tiêu của nghiên cứu

Dân số chung: nhiều dân số nhỏ có cùng một đặc trưng


nào đó (1 dân số nhỏ: 1 tầng).
26
VD: MẪU NGẪU NHIÊN PHÂN TẦNG
Dân số : 100 học viên, chọn 1 mẫu 30 học viên từ 5
khoa: nội, ngoại, sản, nhi, YHDP.
Cách 1:
Khoa Số HV Cách tính Số HV chọn

Nội 30 (30:100) x 30 9
Ngoại 30 (30:100) x 30 9
Sản 20 (20:100) x 30 6
Nhi 10 (10: 100) x 30 3
YHDP 10 (10: 100) x 30 3

Cách 2: 5 khoa chọn 30, trung bình 1 khoa 30/5 = 6 hv


27
“Hispanic hay Latino” là một
người gốc Cuba, Mexico,
Puerto Rico, Nam hoặc Trung
Mỹ, hay một người mang văn
hóa hoặc nguồn gốc Tây Ban
Nha bất kể chủng tộc
28
ƯU – KHUYẾT ĐIỂM: Ngẫu nhiên phân tầng

ƯU ĐIỂM:
 Số thống kê từ mẫu phân tầng có độ chính xác
cao hơn kết quả tương ứng từ mẫu ngẫu nhiên
đơn
 Có thể biết được hình ảnh của từng tầng
 Về mặt quản lý, mẫu phân tầng dễ hơn ngẫu
nhiên đơn

KHUYẾT ĐIỂM:
 Cần thiết lập khung mẫu chi tiết của từng tầng.

29
CHỌN MẪU CỤM
CHỌN MẪU CỤM(Cluster sampling): phương pháp chọn
ngẫu nhiên nhiều cụm (được gọi là đơn vị lấy mẫu bậc 1 –
PSU: primary sampling units). Nếu qua 2 giai đoạn: cụm lấy
mẫu bậc 2 (SSU: secondary sampling units) Lấy mẫu qua
nhiều giai đoạn.

Dân số nghiên cứu Mẫu cụm bậc 1 Mẫu cụm bậc 2


30
CHỌN MẪU CỤM (PPS)
- Một kỹ thuật chọn mẫu cụm thường dùng là
chọn cụm xác suất tỉ lệ theo cỡ (PPS:
probability proportionate to size)

- Cụm nào có dân số lớn sẽ có nhiều cơ hội


hơn để được chọn

- Số đơn vị liệt kê chọn ra trong từng cụm là


bằng nhau
31
32
ƯU – KHUYẾT ĐIỂM: chọn mẫu cụm

ƯU ĐIỂM:
 Chỉ cần khung mẫu chi tiết cho bước kế chót  tiết
kiệm thời gian, công sức
 Trong cộng đồng, mẫu cụm có tính kinh tế và khả thi
cao.

KHUYẾT ĐIỂM:
 Với cùng một cỡ mẫu, những số thống kê tính được
từ mẫu cụm kém chính xác so với những số tương
ứng từ mẫu ngẫu nhiên đơn.
 Khắc phục: cỡ mẫu lớn hơn -> n*design effect

33
CHỌN MẪU NHIỀU BẬC (Multistage sampling)
Là sự kết hợp nhiều phương pháp lấy mẫu
Ví dụ:
Khảo sát TCMR trong học sinh 1 tỉnh, gồm các bước:
- B1: chọn m huyện trong tổng M huyện của tỉnh
- B2: chọn n xã trong tổng N xã của 1 huyện
- B3: chọn p trường học trong tổng P trường học 1 xã
- B4: chọn q lớp học trong số Q lớp của 1 trường học
- B5: Khảo sát tất cả học sinh trong lớp đã chọn.

Đơn vị nghiên cứu: học sinh


Đơn vị liệt kê: lớp học
Đơn vị chọn mẫu bậc 1,2,3 lần lượt: huyện, xã, trường học.
Khung mẫu: tất cả học sinh trong tỉnh
34
Sai lệch trong chọn mẫu

- Sai lệch (BIAS): sai lầm hệ thống (Systemic Error)

- Sai lệch có khuynh hướng tạo ra những giá trị cao


hay thấp hơn giá trị thật (có thể tăng hoặc giảm
ước lượng của kết quả)
- Có 2 loại sai lệch: sai lệch chọn lựa và sai lệch
thông tin.
- Sai lệch chọn lựa: nghiêm trọng nhất (lỗi người
nghiên cứu  khó khắc phục) phụ thuộc: dân số,
kỹ thuật, và tiêu chí chọn mẫu

35
Sai lệch chọn lựa

- Khi xác suất chọn mẫu là không giống nhau trên


từng đối tượng
- Chọn đối tượng NC bị ảnh hưởng bởi yếu tố phơi
nhiễm (Bệnh chứng) hay bệnh (Đoàn hệ hồi cứu) 
Xác suất chọn không đều

 NC Bệnh chứng: người NC biết trước MLQ: hút


thuốc lá – K phổi  tăng ước lượng của MLQ
 NC đoàn hệ hồi cứu: vào thời điểm chọn mẫu cả
phơi nhiễm – bệnh đều xảy ra.

36
MẤT MẪU

Đối tượng từ chối tham gia NC Lớn  sai lệch

Mất mẫu trong quá trình theo dõi

Ví dụ: khảo sát tỷ lệ SDD trẻ em < 5 tuổi và thực


hành nuôi con của các bà mẹ: bà mẹ vắng nhà
nhiều lần?

37
TIÊU CHÍ CHỌN MẪU

Mẫu NC < dân số  tính đại diện  tiêu chí chọn mẫu:

 Tiêu chí đưa vào: thể hiện những đặc tính (who,
where, when) mà căn cứ vào đó đối tượng được chọn
vào NC.
 Tiêu chí loại ra: thuộc tính không phù hợp đưa vào
mẫu.

Lưu ý: TC loại ra không phải phần phụ của TC đưa vào

38
Sai lệch chọn lựa trong chọn mẫu
Các sai lệch khác:
 Nghiên cứu người tình nguyện
 Lấy mẫu những bệnh nhân đăng kí
 Sai lệch do mùa (SXH)
…
Đạo đức:
 Trung thực trong báo cáo khoa học nếu lấy mẫu
không đại diện

39
Biện pháp khắc phục sai lệch chọn mẫu
Lọai sai số Biện pháp hạn chế sai số
Sai số lựa chọn •Chọn khung mẫu phù hợp, cỡ mẫu cho từng
tầng trong nhóm NC.
•Tập huấn kỹ thuật chọn mẫu cho GSV.
•Áp dụng chọn ngẫu nhiên và liệt kê sẵn danh
sách, tiêu chuẩn chọn vào nhóm NC….

Sai số do •Thông tin/thuyết phục sử dụng người có uy


không đáp tín, có hình thức động viên;
ứng, •Danh sách thay thế đã chọn cùng cách với
do bỏ cuộc danh sách chính thức
•Theo dõi từng BN, thường xuyên thăm viếng
kiểm tra sự tuân thủ điều trị, tìm nguyên nhân
bỏ cuộc, động viên tham gia

40
Kết luận
 Việc chọn lựa một kỹ thuật lấy mẫu phụ thuộc
vào nhiều yếu tố bao gồm: mục tiêu nghiên
cứu, thiết kế nghiên cứu và các nguồn lực sẵn

 Chi phí và lợi ích của từng phương pháp cần
được cân nhắc kỹ lưỡng
 Trên thực tế, các nhà điều tra thường phối
hợp 2 hay nhiều chiến lược với nhau

41
BÀI TẬP KHẢO SÁT HỘ GIA ĐÌNH
Bộ câu hỏi Chỉ tiêu/ 1 học Đối tượng hỏi Ghi chú
viên
BCH phỏng vấn Khoảng 100 hộ Chủ hộ hay thành Ủy quyền trả lời
hộ gia đình của gia đình viên trong hộ từ thay:
WHO 18 tuổi trở lên
BCH phỏng vấn n = 1.5 x 384 = Hỏi tất cả thành Cha mẹ: trả lời thay
cá nhân về tình 576  600 người viên từ trẻ đến già trẻ em dưới 15 tuổi.
hình sức khỏe
của WHO Người chăm sóc
trực tiếp: trả lời
BCH Healthy Khoảng 100 hộ Những người từ thay người đang
Days GĐ (mỗi HGĐ 18 tuổi trở lên trong tình trạng sức
trung bình khoảng trong HGĐ khỏe không cho
2 người ≥ 18 tuổi phép trả lời: câm,
<==> 200 người) điếc, bệnh nặng…

42
CÁCH CHỌN MẪU PPS/1 học viên

HUYỆN PHÚ GIÁO – BÌNH DƯƠNG

43
CÁCH CHỌN MẪU PPS
Bước 1. Tính khoảng cách mẫu (Sampling Interval (SI))
= Tổng dân số tích lũy/tổng số cụm khảo sát
 SI = 82.956/30 = 2765,2 ~ 2765

Bước 2. Chọn số ngẫu nhiên (Random Start (RS)):


tsample 1 2765 1
+-----------+
| No | ID |
|----+------|
| 1 | 1000 |
+-----------+
Ví dụ: chọn RS = 1000
44
CÁCH CHỌN MẪU PPS
Bước 3. Các dãy số được chọn:

Cụm 1. RS = 1000 (tổ 4, ấp 1, Xã Tân Long)


Cụm 2. RS + SI = 1000 + 2765 (tổ 4, ấp 3, Xã TL)
Cụm 3. RS + 2SI = 1000 + 2 x 2765 = 6530
Cụm 4. RS + 3SI = 1000 + 3 x 2765 = 9295
Cụm 5. RS + 4SI = 1000 + 4 x 2765 = 12060
Tương tự chọn ra 30 cụm.

45
Các dãy số của các cụm còn lại
Cụm 6. 14825 Cụm 18. 48005
Cụm 7. 17590 Cụm 19. 50770
Cụm 8. 20355 Cụm 20. 53535
Cụm 9. 23120 Cụm 21. 56300
Cụm 10. 25885 Cụm 22. 59065
Cụm 11. 28650 Cụm 23. 61830
Cụm 12. 31415 Cụm 24. 64595
Cụm 13. 34180 Cụm 25. 67360
Cụm 14. 36945 Cụm 26. 70125
Cụm 15. 39710 Cụm 27. 72890
Cụm 16. 42475 Cụm 28. 75655
Cụm 17. 45240 Cụm 29. 78420
Cụm 30. 81185

46
CÁCH CHỌN MẪU PPS
Cụm 1. RS = 1000 (tổ 4, ấp 1, Xã Tân Long)
Cụm 2. RS + SI = 1000 + 2765 = 3765 (tổ 4, ấp 3, Xã TL)

1000

47
3765
BÀI TẬP KHẢO SÁT HỘ GIA ĐÌNH
Số người trong 1 cụm = 576/30 = 19.2 ~ 20 người

1. BCH hộ gia đình WHO: PV chủ hộ (hay người đại


diện ≥18 tuổi).
2. BCH cá nhân WHO: PV hết, từ già  trẻ trong HGĐ.
 Đối với trẻ em < 15 tuổi: ủy quyền cha mẹ trả lời
 Đối với người có vấn đề SK không trả lời được PV: Ủy
quyền người chăm sóc trực tiếp trả lời
 Người từ 15 tuổi trở lên: PV trực tiếp. Đến 3 lần
không gặp (loại khỏi KS)
3. BCH healthy days: PV thành viên trong hộ ≥ 18 tuổi
48
TÀI LIỆU THAM KHẢO
 DESIGNING AND CONDUCTING HEALTH SURVEYS (A
Comprehensive Guide) - Lu Ann Aday , Llewellyn J. Cornelius
(Foreword by Steven B. Cohen). Published by Jossey-Bass. A Wiley
Imprint, 3rd edition, 2006.

49

You might also like