Professional Documents
Culture Documents
Chương 5
ĐIỀU TRA CHỌN MẪU
Nội dung
I II III IV
XÁC SUẤT VÀ NHỮNG VẤN ĐỀ ƯỚC LƯỢNG KIỂM ĐỊNH GIẢ
QUY LUẬT CHUNG VỀ ĐIỀU KẾT QUẢ ĐIỀU THUYẾT
PHÂN PHỐI TRA CHỌN MẪU TRA CHỌN THỐNG KÊ
XÁC SUẤT MẪU
1
8/11/2022
• Quy luật phân phối xác suất của biến ngẫu nhiên
• Phép thử: quá trình dẫn đến sự xuất hiện của một và chỉ một kết quả trong
số các kết quả có thể xảy ra.
• Kết cục: một kết quả cụ thể của một phép thử.
• Biến cố: tập hợp của một hoặc nhiều kết cục của một phép thử.
• Xác suất: khả năng xảy ra một biến cố, có giá trị từ 0 đến 1.
• Ví dụ: xác suất nhận mặt ngửa trong một lần tung đồng xu là 0,5.
2
8/11/2022
3
8/11/2022
• Phân phối xác suất: là tập hợp tất cả các kết cục có thể xảy ra trong một
phép thử và xác suất tương ứng.
• Xác suất của một kết cục cụ thể nằm trong khoảng từ 0 đến 1.
• Các kết cục tạo thành một tập hợp đầy đủ. Vì vậy, tổng xác suất của
các kết cục này luôn bằng 1.
4
8/11/2022
𝐸 𝑋 𝜇 𝑥. 𝑃 𝑥
• Phương sai:
𝑉 𝑋 𝜎 𝑥 𝜇 .𝑃 𝑥
Áp dụng với các biến định tính chỉ có hai thuộc tính/phạm trù
10
5
8/11/2022
11
12
6
8/11/2022
•𝐸 𝑓 𝐸 𝐸 𝑋 𝑝
•𝑉 𝑓 𝑉 𝑉 𝑋
13
0 µ x
14
7
8/11/2022
8
8/11/2022
17
18
9
8/11/2022
x
– 3 – 1 + 1 + 3
– 2 + 2
19
Tra bảng giá trị tới hạn phân phối chuẩn hóa
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
. . . . . . . . . . .
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
. . . . . . . . . . .
Với 𝛼 0,05, phần diện tích phía trái còn lại là 1-0,05=0,95; giá trị tới hạn
tương ứng là 1,645
20
10
8/11/2022
𝑃 𝑡 1 ∀𝑡
21
22
11
8/11/2022
• Giá trị tới hạn Student, ký hiệu là 𝑡 là giá trị của biến ngẫu nhiên T phân
phối theo qui luật Student với n bậc tự do, thỏa mãn:
𝑃 𝑇 𝑡 𝛼
P 𝑡
• Tính chất: 𝑡 𝑡
𝑡
𝑡 𝑡
23
𝑛 𝑛
Γ .𝑛 .𝑛
𝑉ớ𝑖: 𝐶 2
𝑛 𝑛
Γ .Γ
2 2
𝑛 2𝑛 𝑛 𝑛 2
𝐸 𝐹 𝑉 𝐹
𝑛 2 𝑛 𝑛 2 𝑛 4
24
12
8/11/2022
, x
𝑓
25
26
13
8/11/2022
Điều tra chọn mẫu là loại hình điều tra không toàn bộ, trong đó người ta
chỉ chọn ra một số đơn vị đủ lớn thuộc đối tượng nghiên cứu để tiến hành
điều tra thực tế.
→Các đơn vị này được chọn theo những quy tắc nhất định để đảm bảo tính
đại biểu và kết quả của ĐTCM được dùng để suy rộng cho toàn bộ hiện
tượng.
27
28
14
8/11/2022
Quy mô N n
Số bình quân µ 𝑥̅
𝜎 𝑆
Phương sai
p(1-p) f(1-f)
29
30
15
8/11/2022
31
32
16
8/11/2022
33
34
17
8/11/2022
Lưu ý
• Các mẫu ngẫu nhiên là các mẫu được chọn có sử dụng các nguyên lý xác
suất
• Nó cho phép xác định phân phối mẫu của một thống kê mẫu
• Có thể xác định xác suất của bất kỳ sai số chọn mẫu nào và thực hiện suy
luận cho các đặc trưng của tổng thể
35
36
18
8/11/2022
37
38
19
8/11/2022
39
40
20
8/11/2022
41
Lấy mẫu
42
21
8/11/2022
43
• Đưa ra một khoảng giá trị dựa trên quan sát từ một mẫu
• Tìm giá trị gần nhất đối với các tham số của tổng thể
• Khoảng tin cậy luôn tương ứng với 1 xác suất nhất định
44
22
8/11/2022
Xác suất để tham số của tổng thể rơi vào trong khoảng tin cậy gọi là độ tin
cậy (level of confidence), là (1-α)%.
Ví dụ: 90%, 95%, 99%...
α là xác suất để tham số của tổng thể không rơi vào trong khoảng tin cậy,
gọi là mức ý nghĩa (significance level).
45
• Để ước lượng khoảng tin cậy cho trung bình của TT, phạm vi sai số chọn
mẫu phụ thuộc vào độ lệch chuẩn của TT б hoặc độ lệch chuẩn của mẫu S
46
23
8/11/2022
𝑥̅ p
𝜀 𝜀 ̅
𝜀 𝜀
̅
47
Trường hợp đã biết phương sai của TT (𝝈2) (hoặc chưa biết phương
sai nhưng mẫu lớn, n>100): 𝜺𝒙 𝒛. 𝝈𝒙
48
24
8/11/2022
x t n / 21. x x t n / 21. x
• Khoảng tin cậy phía phải:
x t n 1. x
• Khoảng tin cậy phía trái:
x t n 1. x
49
f z / 2 . f p f z / 2 . f
• Khoảng tin cậy phía phải:
∞ 𝑝 𝑓 𝑧 .𝜎
f z . f p
50
25
8/11/2022
Lưu ý
• Hệ số tin cậy zα là giá trị tới hạn mức α của phân phối chuẩn hoá
• Hệ số tin cậy tα là giá trị tới hạn mức α của phân phối Student
51
𝜎 𝜎 𝑁 𝑛
𝜎 ̄ 𝜎 ̄ 𝑥
Số bình quân 𝑛 𝑛 𝑁 1
𝑆 𝑆 𝑁 𝑛
𝜎 ̄ 𝜎 𝑥
𝑛 ̄
𝑛 𝑁 1
Tỷ lệ 𝑓 1 𝑓 𝑓 1 𝑓 𝑁 𝑛
𝜎 𝜎 𝑥
𝑛 𝑛 𝑁 1
52
26
8/11/2022
Lưu ý
• Sự khác biệt giữa hai phương pháp chọn hoàn lại và chọn không hoàn lại
chính là (N-n) / (N-1). Do đó, ta luôn có sai số bình quân chọn mẫu theo
cách chọn hoàn lại lớn hơn sai số bình quân chọn mẫu theo cách chọn
không hoàn lại.
• Khi n nhỏ hơn rất nhiều so với N thì (N-n) / (N-1) gần với 1. Do vậy có thể
chọn theo cách không hoàn lại nhưng sử dụng công thức của chọn hoàn
lại để tính sai số bình quân chọn mẫu cho đơn giản.
53
Ví dụ 1
Một mẫu gồm 20 nhân viên được tiến hành điều tra nhằm thu thập thông tin
liên quan đến một chương trình đào tạo. Người ta tính được thời gian trung
bình để hoàn tất chương trình của 20 nhân viên này là 51,5 ngày với độ
lệch chuẩn là 6,84 ngày. Hãy ước lượng thời gian trung bình để hoàn tất
chương trình với độ tin cậy 95%.
54
27
8/11/2022
Ví dụ 1
• Trường hợp ước lượng số trung bình, chưa biết phương sai của TT.
• n=20; 𝑥̅ 51,5; 𝑆 6,84
• Tra bảng t-Student với mức ý nghĩa 0,05 và 19 bậc tự do, t0,025;19=2,093.
• Công thức ước lượng:
,
51,5 2,093. hay 51,5 3,2
• Kết luận: Với mẫu đã cho, khoảng tin cậy 95% cho thời gian trung bình để
hoàn tất chương trình là:
48,3 ≤ μ ≤ 54,7 (ngày)
55
Ví dụ 2
• PSI là một tổ chức chuyên thực hiện thăm dò dư luận trong các cuộc bầu
cử ở New York. Các khảo sát được thực hiện bằng phương pháp phỏng
vấn qua điện thoại, tại đó, PSI sẽ hỏi các cử tri đã đăng ký xem họ sẽ bỏ
phiếu cho ứng cử viên nào nếu cuộc bầu cử được tổ chức vào ngày hôm
đó.
• Trong chiến dịch bầu cử hiện tại, PSI phát hiện ra rằng có 220 cử tri đã
đăng ký, trong số 500 người đã liên lạc, bày tỏ sự ủng hộ cho ứng cử viên
A. PSI muốn xây dựng khoảng tin cậy ước lượng 95% cho tỷ lệ cử tri đã
đăng ký ủng hộ cho ứng cử viên A.
56
28
8/11/2022
Ví dụ 2
• Trường hợp ước lượng tỷ lệ của TT
• Trong đó n = 500, f= 220/500 = 0,44
• Tra bảng Z với mức ý nghĩa 0,05, Z / =Z , =1,96
• Khoảng tin cậy ước lượng 95% cho tỷ lệ cử tri ủng hộ cho ứng cử viên A
𝑓 1 𝑓 0.44 1 0.44
𝑓 𝑍 / . 0.44 1.96 0.44 0.0435
𝑛 500
PSI tự tin 95% rằng tỷ lệ cử tri ủng hộ cho ứng cử viên A trong tổng thể là
từ 39,65% đến 48,35%
57
58
29
8/11/2022
𝑧 / .𝑝 1 𝑝 𝑁. 𝑧 .𝑝 1 𝑝
𝑛 /
Tỷ lệ 𝜀 𝑛
𝑁 1 .𝜀 𝑧 / .𝑝 1 𝑝
59
60
30
8/11/2022
Lưu ý
Trong trường hợp chưa biết phương sai của TT, có thể sử dụng một trong
các cách sau:
• Lấy phương sai (2) lớn nhất trong các lần điều tra trước (nếu có). Trong
trường hợp ước lượng tỷ lệ, chọn tỷ lệ (p) gần 0,5 nhất.
• Lấy phương sai hoặc tỷ lệ của các cuộc điều tra khác có tính chất tương
tự (nếu có)
• Điều tra thí điểm để xác định phương sai.
• Ước lượng độ lệch chuẩn dựa vào khoảng biến thiên
𝑅 𝑥 𝑥
𝜎
6 6
61
Ví dụ 3
Giả sử rằng PSI muốn tỷ lệ mẫu chênh lệch ±3% so với tỷ lệ của tổng thể
với độ tin cậy 99%.
Vậy quy mô mẫu cần điều tra trong trường hợp này là bao nhiêu? Biết
khảo sát được thực hiện theo phương pháp chọn hoàn lại.
62
31
8/11/2022
Ví dụ 3
Với độ tin cậy 99%, mức ý nghĩa là 1%, z0,005 = 2,576
• Tỷ lệ người ủng hộ ứng viên A trong cuộc điều tra trước tính được là 0,44.
Vậy p=0,44
• Phạm vi sai số chọn mẫu 𝜀 =0,03
• Cỡ mẫu cần điều tra:
𝑧 / 𝑝 1 𝑝 2,576 0,44 0,56
𝑛 ≅ 1817
𝜀 0,03
63
64
32
8/11/2022
• Các bước tiến hành kiểm định một giả thuyết thống kê
65
33
8/11/2022
67
68
34
8/11/2022
Kiểm định 2 phía là bác bỏ giả thuyết H0 khi tham số đặc trưng của mẫu
cao hơn hoặc thấp hơn so với giá trị của giả thuyết về tổng thể. Kiểm định
2 phía có 2 miền bác bỏ.
69
Kiểm định phía trái là bác bỏ giả thuyết H0 khi tham số đặc trưng của
mẫu nhỏ hơn một cách đáng kể so với giá trị của giả thuyết H0. Miền bác
bỏ nằm ở phía trái của đường phân phối.
70
35
8/11/2022
Kiểm định phía phải là bác bỏ giả thuyết H0 khi tham số đặc trưng của
mẫu lớn hơn một cách đáng kể so với giá trị của giả thuyết H0. Miền bác
bỏ nằm ở phía phải của đường phân phối.
71
72
36
8/11/2022
73
0
Miền bác bỏ
H0: ≤ 3
H1: > 3
0
/2
H0: 3
H1: 3
0
74
37
8/11/2022
75
76
38
8/11/2022
77
Sau khi tính được giá trị của tiêu chuẩn kiểm định từ mẫu quan sát,
tính P-value tùy theo loại kiểm định
• Với kiểm định phía trái, P-value=diện tích của đuôi trái
• Với kiểm định phía phải, P-value=diện tích của đuôi phải
• Với kiểm định hai phía, P-value=2 lần diện tích đuôi trái hoặc phải
78
39
8/11/2022
VD. Tiêu chuẩn kiểm định của kiểm định hai phía là z = 2,63. Tính P-value.
79
• Kiểm định trung bình của nhiều tổng thể (tự đọc)
80
40
8/11/2022
• Giả sử lượng biến của biến ngẫu nhiên X trong tổng thể có phân phối
chuẩn với trung bình là và phương sai là 2. Ký hiệu: X~N (, 2).
• Để kiểm định giả thuyết này, từ TT, chọn điều tra ngẫu nhiên một mẫu
gồm n đơn vị và tính được trung bình mẫu là 𝑥̅ .
81
H0 đúng, z phân phối theo quy luật chuẩn hoá N(0,1).
H0: ≤ 0
Kiểm định phía phải: Nếu z > Z, bác bỏ H0.
H1: > 0
H0: ≥ 0
Kiểm định phía trái: Nếu z < -Z, bác bỏ H0.
H1: < 0
H0: = 0
Kiểm định hai phía:
H1: ≠ 0
82
41
8/11/2022
H0: ≤ 0
Kiểm định phía phải: Nếu t > t,(n-1), bác bỏ H0.
H1: > 0
H0: ≥ 0
Kiểm định phía trái: Nếu t < -t,(n-1), bác bỏ H0.
H1: < 0
H0: = 0
Kiểm định hai phía:
H1: ≠ 0
83
Ví dụ 4
• Theo công bố của một nghiên cứu về chi tiêu hộ gia đình ở thành thị, năm
2018, trung bình mỗi hộ đã phải trả 1123 nghìn đồng một tháng cho tiêu
dùng năng lượng. Để kiểm tra thông tin này, người ta chọn 15 hộ gia đình
và tính được chi cho tiêu dùng năng lượng trung bình mỗi hộ là 1344,27
nghìn đồng một tháng với độ lệch chuẩn là 231 nghìn đồng. Ở mức ý
nghĩa 5 %, liệu kết luận của nghiên cứu có thấp hơn thực tế hay không ?
84
42
8/11/2022
Ví dụ 4
• Gọi µ là mức chi cho tiêu dùng năng lượng trung bình của mỗi hộ một
tháng.
• Ta cần kiểm định giả thuyết:
H0: ≤ 1123
H1: > 1123
• Do chưa biết phương sai của TT nên tiêu chuẩn kiểm định là thống kê t.
̅ ,
𝑡 ⁄ ⁄
=3,71
• Tra bảng phân phối Student với 14 bậc tự do có t0,05;14 = 1,761.
• Kết luận: vì t > t,(n -1) do đó với mẫu đã nghiên cứu, bác bỏ H0. Các hộ gia
đình chi cho tiêu dùng năng lượng nhiều hơn mức công bố của nghiên cứu.
85
• Kiểm định giả thuyết về tỷ lệ của 2 tổng thể (tự đọc)
• Kiểm định giả thuyết về tỷ lệ của nhiều tổng thể (tự đọc)
86
43
8/11/2022
f p
z
p 1 p
n
87
H0: p ≤ p0
Kiểm định phía phải: Nếu z > Z, bác bỏ H0.
H1: p > p0
H0: p ≥ p0
Kiểm định phía trái: Nếu z < -Z, bác bỏ H0.
H1: p < p0
H0: p = p0
Kiểm định hai phía: Nếu |z| > Z/2, bác bỏ H0.
H1: p ≠ p0
88
44
8/11/2022
Ví dụ 5
• Trong một nghiên cứu của công ty AZ, người ta thực hiện phỏng vấn 758
khách du lịch đến HL có sử dụng tour du lịch biển xem liệu họ có hài lòng
hay không. 394 người trong số được hỏi đã trả lời là có. Với mức ý nghĩa
5%, hãy kiểm định xem liệu có đúng là đa số (>50%) những người đến HL
có sử dụng tour du lịch biển là hài lòng với tour này hay không?
89
Ví dụ 5
• Gọi p là tỷ lệ khách du lịch đến HL có sử dụng tour du lịch biển và hài lòng với tour này.
• Giả thuyết cần kiểm định là:
H0: p ≤ 0,5
H1: p > 0,5
• Ta có np0 = 758.0,5 = 379 5 và n(1- p0) = 758.0,5 = 379 5 do đó điều kiện kiểm định
được thỏa mãn.
• Tỷ lệ mẫu f=394/758=0,52 và tiêu chuẩn kiểm định là:
, ,
𝑧 =1,1
, ,
Tra bảng Z = Z0,05 = 1,645. Vì z < Z do đó với mẫu đã nghiên cứu, chưa đủ cơ sở để
bác bỏ giả thuyết H0. Kết luận không phải đa số khách du lịch đến HL có sử dụng tour du
lịch biển là hài lòng với tour này.
90
45
8/11/2022
Sử dụng SPSS
Ước lượng thống kê
Chọn Analyze > Descriptive Statistics > Explore …
91
Sử dụng SPSS
Kiểm định giả thiết về giá trị trung bình của một tổng thể
Chọn Analyze > Compare Means > One-Sample T Test…
92
46
8/11/2022
Sử dụng SPSS
Kiểm định giả thiết về giá trị trung bình của một tổng thể
Chọn Analyze > Compare Means > One-Sample T Test…
93
47