You are on page 1of 47

8/11/2022

Chương 5
ĐIỀU TRA CHỌN MẪU

Nội dung

I II III IV
XÁC SUẤT VÀ NHỮNG VẤN ĐỀ ƯỚC LƯỢNG KIỂM ĐỊNH GIẢ
QUY LUẬT CHUNG VỀ ĐIỀU KẾT QUẢ ĐIỀU THUYẾT
PHÂN PHỐI TRA CHỌN MẪU TRA CHỌN THỐNG KÊ
XÁC SUẤT MẪU

1
8/11/2022

Xác suất và quy luật phân phối xác suất

• Một số khái niệm

• Quy luật phân phối xác suất của biến ngẫu nhiên

Một số khái niệm về xác suất

• Phép thử: quá trình dẫn đến sự xuất hiện của một và chỉ một kết quả trong
số các kết quả có thể xảy ra.

• Kết cục: một kết quả cụ thể của một phép thử.

• Biến cố: tập hợp của một hoặc nhiều kết cục của một phép thử.

• Xác suất: khả năng xảy ra một biến cố, có giá trị từ 0 đến 1.

• Ví dụ: xác suất nhận mặt ngửa trong một lần tung đồng xu là 0,5.

2
8/11/2022

Một số khái niệm về xác suất


Phép thử Gieo xúc xắc Đếm số lượng thành viên trên
60 tuổi của ban giám đốc các
công ty Fortune 500
Tất cả kết cục có thể Xuất hiện mặt 1 chấm Không có ai trên 60
Xuất hiện mặt 2 chấm Một người trên 60
Xuất hiện mặt 3 chấm Hai người trên 60 ...
Xuất hiện mặt 4 chấm 29 người trên 60 ...
Xuất hiện mặt 5 chấm 48 người trên 60 ...
Xuất hiện mặt 6 chấm
Một số biến cố có thể Xuất hiện mặt có số chấm là chẵn Nhiều hơn 13 người trên 60
Xuất hiện mặt có nhiều hơn 4 chấm Ít hơn 20 người trên 60
Xuất hiện mặt có từ 3 chấm trở
xuống

Phương pháp tính xác suất


• Cách tiếp cận cổ điển: giả định rằng các kết cục của một phép thử đều có khả
năng xảy ra như nhau
𝑆ố 𝑘ế𝑡 𝑐ụ𝑐 𝑡ℎ𝑢ậ𝑛 𝑙ợ𝑖
𝑋á𝑐 𝑠𝑢ấ𝑡 𝑐ủ𝑎 𝑚ộ𝑡 𝑏𝑖ế𝑛 𝑐ố
𝑇ổ𝑛𝑔 𝑠ố 𝑘ế𝑡 𝑐ụ𝑐 đồ𝑛𝑔 𝑘ℎả 𝑛ă𝑛𝑔
• Cách tiếp cận thực nghiệm: dựa trên tần suất xuất hiện biến cố.
𝑆ố 𝑙ầ𝑛 𝑏𝑖ế𝑛 𝑐ố 𝑥ả𝑦 𝑟𝑎
𝑋á𝑐 𝑠𝑢ấ𝑡 𝑡ℎự𝑐 𝑛𝑔ℎ𝑖ệ𝑚
𝑇ổ𝑛𝑔 𝑠ố 𝑙ầ𝑛 𝑡ℎử đã 𝑡ℎự𝑐 ℎ𝑖ệ𝑛
→ Quy luật số lớn: Với số lần thử lớn, xác suất thực nghiệm của một biến cố sẽ
tiệm cận với xác suất thực của nó.
• Cách tiếp cận chủ quan: xác suất của một biến cố cụ thể được xác định bởi một
cá nhân dựa trên các thông tin có sẵn.

3
8/11/2022

Phân phối xác suất

• Phân phối xác suất: là tập hợp tất cả các kết cục có thể xảy ra trong một
phép thử và xác suất tương ứng.

• Đặc điểm của phân phối xác suất

• Xác suất của một kết cục cụ thể nằm trong khoảng từ 0 đến 1.

• Các kết cục là xung khắc nhau.

• Các kết cục tạo thành một tập hợp đầy đủ. Vì vậy, tổng xác suất của
các kết cục này luôn bằng 1.

Biến ngẫu nhiên


• Biến ngẫu nhiên: là biến nhận các giá trị ngẫu nhiên khác nhau, đại diện
cho kết quả của phép thử.
• Biến ngẫu nhiên rời rạc: chỉ nhận những giá trị riêng rẽ, cụ thể.
• Ví dụ: số lượng thẻ tín dụng phát cho một nhóm khách hàng; số
sinh viên tham gia đội hỗ trợ F0…
• Biến ngẫu nhiên liên tục: có thể nhận vô số giá trị trong một phạm vi nhất
định.
• Ví dụ: thời gian bay của các chuyến bay thương mại giữa HN và
TPHCM là 1,95 giờ; 1,96 giờ, 2.00 giờ…

4
8/11/2022

Tham số đặc trưng trong phân phối xác


suất của biến ngẫu nhiên rời rạc
• Trung bình (Kỳ vọng toán):

𝐸 𝑋 𝜇 𝑥. 𝑃 𝑥

• Phương sai:

𝑉 𝑋 𝜎 𝑥 𝜇 .𝑃 𝑥

Quy luật phân phối không – một A(p)


(Bernoulli Distribution)
• Biến ngẫu nhiên rời rạc X nhận một trong hai giá trị có thể có là 0 hoặc 1
với các xác suất tương ứng được cho bởi công thức:
P(X=x) = pxq1−x trong đó 0<p<1, q=1-p và x=0;1
→ được gọi là có phân phối theo quy luật 0-1 với tham số p, ký hiệu X ~ A(p)
•E X μ ∑ 𝑥. 𝑃 𝑥 = 0 x q + 1 x p = p 𝐸 𝑋 𝑝
•V X 𝜎 ∑ 𝑥 𝜇 .𝑃 𝑥 𝐸 𝑋 𝐸 𝑋 𝑝 𝑝 𝑝 1 𝑝 𝑝𝑞

Áp dụng với các biến định tính chỉ có hai thuộc tính/phạm trù

10

5
8/11/2022

Quy luật phân phối nhị thức B(n,p)


(Binomial Probability Distribution)
• Phân phối nhị thức là phân phối xác suất của biến ngẫu nhiên rời rạc.
• Trong phép thử phân phối nhị thức:
• Mỗi lần thử của phép thử chỉ có hai kết cục xung khắc nhau - thành
công hoặc thất bại.
• Biến ngẫu nhiên là số lần thành công trong tổng số lần thử cố định.
• Xác suất thành công là như nhau qua mỗi lần thử.
• Các lần thử độc lập với nhau, nghĩa là kết cục của lần thử này không
ảnh hưởng tới kết cục của các lần thử khác.

11

Quy luật phân phối nhị thức B(n,p)


• Biến ngẫu nhiên rời rạc X được gọi là có phân phối theo quy luật nhị thức
với các tham số là n và p, ký hiệu X ~ B (n,p) có xác suất nhị thức:
𝑃 𝑋 𝐶 𝑝 1 𝑝
Trong đó:
C là ký hiệu của phép toán tổ hợp.
n là số lần thử.
x là biến ngẫu nhiên, biểu hiện số lần thành công.
p là xác suất thành công trong mỗi lần thử.
•E X μ np
• V X σ np 1 p

12

6
8/11/2022

Quy luật phân phối nhị thức B(n,p)


Quy luật nhị thức theo tỷ lệ
• Tần suất xuất hiện biến cố A trong n phép thử độc lập: f = X / n
• Tần suất f vẫn phân phối theo quy luật nhị thức với các tham số n, p.

•𝐸 𝑓 𝐸 𝐸 𝑋 𝑝

•𝑉 𝑓 𝑉 𝑉 𝑋

13

Quy luật phân phối chuẩn (Normal


Probability Distribution)
• Biến ngẫu nhiên liên tục X nhận các giá trị trong khoảng (-∞,+∞) tuân theo
quy luật phân phối chuẩn với trung bình 𝜇 và phương sai 𝜎 , nếu có xác
suất là:
1
P(x) P 𝑥 𝑒
𝜎 2𝜋
1
𝜎 2𝜋

0 µ x
14

7
8/11/2022

Quy luật phân phối chuẩn


Đặc điểm:
• Có dạng hình chuông, có một đỉnh duy nhất ở trung tâm của phân phối.
(Mo=Me=𝑥̅ . Tổng diện tích dưới đường cong bằng 1.00.
• Phân phối là đối xứng qua giá trị trung bình. Nếu cắt đường cong chuẩn theo
chiều dọc tại giá trị trung tâm, diện tích mỗi nửa là 0.5.
• Đuôi của đường cong có chiều cao giảm dần một cách đều đặn về hai hướng
từ giá trị trung tâm. Phân phối là tiệm cận: Đường cong giảm dần và tiệm cận
về trục X nhưng không bao giờ cắt trục này.
• Vị trí của phân phối chuẩn được xác định bởi giá trị trung bình μ. Độ biến thiên
của phân phối được xác định bởi độ lệch chuẩn σ.
• Có một “họ” các phân phối chuẩn: giống trung bình khác độ lệch chuẩn; giống
độ lệch chuẩn khác trung bình; trung bình và độ lệch chuẩn khác nhau
15

Quy luật phân phối chuẩn hóa (Standard


Normal Probability Distribution)
• Biến ngẫu nhiên có phân phối chuẩn X ~ N (𝜇, 𝜎 ) có thể thông qua phép
biến đổi thích hợp để đưa về trường hợp biến ngẫu nhiên chuẩn hóa.
𝑥 𝜇
𝑍
𝜎
• Giá trị z cho biết khoảng cách hoặc sự khác biệt giữa một giá trị cụ thể
của x và giá trị trung bình theo số đơn vị độ lệch chuẩn.
• Các giá trị z có phân phối chuẩn với trung bình bằng 0 và độ lệch chuẩn
bằng 1: Z ~ N (0;1)
• Phân phối z có tất cả các đặc điểm của phân phối chuẩn.
• Phân phối chuẩn hóa được sử dụng để tính xác suất cho bất kỳ biến ngẫu
nhiên có phân phối chuẩn.
16

8
8/11/2022

Quy luật phân phối chuẩn hóa


• Giá trị tới hạn chuẩn mức 𝛼, ký hiệu là 𝑧 là giá trị của biến ngẫu nhiên Z có phân
phối chuẩn hóa thỏa mãn: P (z> 𝑧 )= 𝛼, với 0 ≤ 𝛼 ≤ 1
• Các giá trị của 𝑧 được tính sẵn thành bảng.
• Tính chất: 𝑧 = 𝑧
• Một số giá trị cơ bản:
• z0,025 = 1,96 P (z>1,96) = 0,025
• z0,05 = 1,645 P (z>1,645) = 0,05
 
• z0,95 = -1,645 P (z>-1,645) = 0,95
𝑧
𝑧  𝑧

17

Quy tắc ba sigma


• Trong một số trường hợp phải tính xác suất để biến ngẫu nhiên X phân phối
chuẩn nhận giá trị sai lệch so với kỳ vọng toán của nó, tức:
𝑋 𝜇 𝜀 hay 𝜇 ε 𝑋 𝜇 ε
• Do đó, ta có:
𝑃 𝑋 𝜇 𝜀 𝑃 𝜇 ε 𝑋 𝜇 ε
• Quy tắc ba sigma
𝑃 𝑋 𝜇 1𝜎 𝑃 𝜇 1𝜎 𝑋 𝜇 1𝜎 0,6826
𝑃 𝑋 𝜇 2𝜎 𝑃 𝜇 2𝜎 𝑋 𝜇 2𝜎 0,9544
𝑃 𝑋 𝜇 3𝜎 𝑃 𝜇 3𝜎 𝑋 𝜇 3𝜎 0,9972

18

9
8/11/2022

Quy tắc ba sigma


99.72%
95.44%
68.26%

 x
 – 3  – 1  + 1  + 3
 – 2  + 2

19

Tra bảng giá trị tới hạn phân phối chuẩn hóa

z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
. . . . . . . . . . .
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
. . . . . . . . . . .

Với 𝛼 0,05, phần diện tích phía trái còn lại là 1-0,05=0,95; giá trị tới hạn
tương ứng là 1,645

20

10
8/11/2022

Quy luật phân phối Student


• Biến ngẫu nhiên liên tục T gọi là phân phối theo qui luật Student với n bậc
tự do nếu xác suất của nó được xác định như sau:

𝑃 𝑡 1 ∀𝑡

Trong đó: Γ(x) là hàm Gamma.

• Khi đó: E(T) = 0 V(T)=

21

Quy luật phân phối Student


• Phân phối Student là một họ các phân phối xác suất tương tự nhau.
• Một giá trị của phân phối t cụ thể phụ thuộc vào một tham số gọi là bậc tự do.
• Bậc tự do là số lượng phần thông tin độc lập trong tính toán độ lệch chuẩn S.
• Một phân phối t có bậc tự do lớn hơn thì có độ biến thiên nhỏ hơn.
• Khi bậc tự do tăng lên, phân phối Student t sẽ tiệm cận dần phân phối chuẩn
hóa.
• Nếu có bậc tự do > 100, giá trị z của phân phối chuẩn hóa sẽ xấp xỉ giá trị t của
phân phối Student.

22

11
8/11/2022

Quy luật phân phối Student

• Giá trị tới hạn Student, ký hiệu là 𝑡 là giá trị của biến ngẫu nhiên T phân
phối theo qui luật Student với n bậc tự do, thỏa mãn:
𝑃 𝑇 𝑡 𝛼
P 𝑡
• Tính chất: 𝑡 𝑡

 

𝑡
𝑡  𝑡

23

Quy luật phân phối Fisher


• Biến ngẫu nhiên liên tục F gọi là phân phối theo quy luật Fisher với n1 và
n2 bậc tự do nếu xác suất của nó được xác định là:
0 với x ≤ 0
𝑃 𝑥
𝑥
𝐶 với x > 0
𝑛 𝑛 .𝑥

𝑛 𝑛
Γ .𝑛 .𝑛
𝑉ớ𝑖: 𝐶 2
𝑛 𝑛
Γ .Γ
2 2
𝑛 2𝑛 𝑛 𝑛 2
𝐸 𝐹 𝑉 𝐹
𝑛 2 𝑛 𝑛 2 𝑛 4
24

12
8/11/2022

Quy luật phân phối Fisher


,
• Giá trị tới hạn Fisher, ký hiệu là 𝑓 là giá trị của biến ngẫu nhiên F
phân phối theo qui luật Fisher với n1 và n2 bậc tự do, thỏa mãn:
,
𝑃 𝐹 𝑓 𝛼
,
• Tính chất: 𝑓 , f(x)

, x
𝑓

25

Những vấn đề chung về điều tra chọn mẫu

 Một số khái niệm liên quan

 Ưu, nhược điểm của điều tra chọn mẫu

 Trường hợp vận dụng điều tra chọn mẫu

 Các cách chọn mẫu

• Phân phối mẫu

• Định lý giới hạn trung tâm

26

13
8/11/2022

Một số khái niệm liên quan

Điều tra chọn mẫu là loại hình điều tra không toàn bộ, trong đó người ta
chỉ chọn ra một số đơn vị đủ lớn thuộc đối tượng nghiên cứu để tiến hành
điều tra thực tế.

→Các đơn vị này được chọn theo những quy tắc nhất định để đảm bảo tính
đại biểu và kết quả của ĐTCM được dùng để suy rộng cho toàn bộ hiện
tượng.

27

Một số khái niệm liên quan


Tổng thể bao gồm toàn bộ các đơn vị thuộc đối tượng điều tra.
Mẫu bao gồm một số đơn vị nhất định được chọn ra từ tổng thể để tiến
hành điều tra thực tế.
Suy rộng (ước lượng): từ các mức độ tính toán được trên các đơn vị điều
tra (mẫu) suy ra các tham số tương ứng của toàn bộ hiện tượng (tổng
thể).
• Suy rộng số bình quân theo một tiêu thức.
• Suy rộng tỷ lệ theo một tiêu thức.

28

14
8/11/2022

Một số khái niệm liên quan

Chỉ tiêu Tổng thể Mẫu

Quy mô N n

Số bình quân µ 𝑥̅

Tỷ lệ theo một tiêu thức p f

𝜎 𝑆
Phương sai
p(1-p) f(1-f)

29

Ưu, nhược điểm của điều tra chọn mẫu


Ưu điểm
 Tiết kiệm (chi phí, nhân lực)
 Có thể mở rộng nội dung điều tra
 Tài liệu thu được trên mẫu có độ chính xác cao
 Nhanh gọn, đảm bảo tính kịp thời
Nhược điểm
 Không cho biết thông tin đầy đủ về tổng thể
 Không tránh khỏi sai số khi suy rộng
 Kết quả điều tra không thể tiến hành phân tổ theo mọi phạm vi nghiên cứu

30

15
8/11/2022

Sai số trong điều tra chọn mẫu

• Sai số do đăng ký, ghi chép

• Sai số chọn mẫu

• Vi phạm nguyên tắc chọn mẫu ngẫu nhiên

• Số lượng đơn vị mẫu không đủ lớn

• Kết cấu mẫu khác với kết cấu tổng thể

31

Trường hợp vận dụng của điều tra chọn mẫu

• Thay thế cho điều tra toàn bộ

• Kết hợp với điều tra toàn bộ

• Kiểm định giả thuyết thống kê

32

16
8/11/2022

Các phương pháp chọn mẫu


Chọn ngẫu nhiên (chọn xác suất): là kỹ thuật chọn mẫu mà mỗi đơn vị
trong tổng thể có một xác suất được chọn đã biết và khác 0.
 Các phương pháp chọn mẫu ngẫu nhiên
• Chọn ngẫu nhiên giản đơn
• Chọn hệ thống
• Chọn phân tổ
• Chọn phân cụm
• Chọn nhiều cấp (chọn nhiều giai đoạn)

33

Các phương pháp chọn mẫu


Chọn phi ngẫu nhiên (chọn phi xác suất): là kỹ thuật chọn mẫu mà các đơn vị
của mẫu được chọn dựa trên những đánh giá cá nhân hoặc sự thuận tiện.
→ Xác suất được chọn của mỗi đơn vị trong tổng thể là không biết.
 Các phương pháp chọn mẫu phi ngẫu nhiên
• Chọn thuận tiện
• Chọn theo chủ đích
• Chọn theo hạn ngạch
• Chọn kiểu quả cầu tuyết

34

17
8/11/2022

Lưu ý
• Các mẫu ngẫu nhiên là các mẫu được chọn có sử dụng các nguyên lý xác
suất
• Nó cho phép xác định phân phối mẫu của một thống kê mẫu
• Có thể xác định xác suất của bất kỳ sai số chọn mẫu nào và thực hiện suy
luận cho các đặc trưng của tổng thể

35

Chọn mẫu ngẫu nhiên giản đơn


• Là một trong các phương pháp chọn mẫu phổ biến nhất, gồm:
• Chọn từ tổng thể giới hạn: xác định được qui mô TT là N
• Chọn hoàn lại (chọn lặp, chọn nhiều lần): mỗi đơn vị của tổng thể có thể
có nhiều hơn 1 cơ hội được chọn vào mẫu nghiên cứu
Số mẫu có thể có: k  ANn  N n
• Chọn không hoàn lại (chọn không lặp, chọn một lần): mỗi đơn vị của tổng
thể chỉ có 1 cơ hội được chọn vào mẫu nghiên cứu
• Số mẫu có thể có: N!
k
n!( N  n)!

• Chọn từ tổng thể vô hạn: không xác định được qui mô TT

36

18
8/11/2022

Phân phối mẫu


Phân phối trung bình mẫu: là phân phối xác suất của tất cả các giá trị có
thể của trung bình mẫu 𝒙
Từ mẫu ngẫu nhiên kích thước n, với các quan sát có giá trị là x1, x2,….xn .
Trung bình mẫu là: x1  x 2  ....  x n
x
n
Giá trị kỳ vọng của trung bình mẫu 𝑥̅ là trung bình của tổng thể 𝜇: E(𝑥̅ ) = 

Độ lệch chuẩn của trung bình mẫu là: 𝜎 ̅

37

Phân phối mẫu


Phân phối tỷ lệ mẫu
Trong mẫu ngẫu nhiên kích thước n, có n* quan sát có đặc điểm thỏa mãn
yêu cầu nghiên cứu nào đó.
Tỷ lệ mẫu là: n*
f 
n
Giá trị kỳ vọng của tỷ lệ mẫu là tỷ lệ của tổng thể p: E(f) 𝑝

Độ lệch chuẩn của tỷ lệ mẫu là: 𝜎

38

19
8/11/2022

Phân phối mẫu


Lưu ý:
• Độ lệch chuẩn của trung bình mẫu và tỷ lệ mẫu được tính theo công thức
trên là với tổng thể vô hạn.
• Trong trường hợp tổng thể là hữu hạn, công thức tính độ lệch chuẩn của
trung bình mẫu và tỷ lệ mẫu cần nhân thêm hệ số hiệu chỉnh tổng thể hữu
hạn là 𝑁 𝑛 / 𝑁 1 .
• Tuy nhiên, nếu cỡ mẫu nhỏ hơn hoặc bằng 5% quy mô tổng thể (n/N ≤
0,05), có thể áp dụng công thức trên khi xác định độ lệch chuẩn của trung
bình mẫu và tỷ lệ mẫu với tổng thể hữu hạn.

39

Phân phối mẫu


• Khi một tổng thể có phân phối chuẩn, phân phối mẫu của 𝑥̅ cũng có phân phối
chuẩn với bất kỳ cỡ mẫu nào.
• Trong phần lớn các ứng dụng, phân phối mẫu của 𝑥̅ có thể được coi là xấp xỉ
chuẩn khi cỡ mẫu từ 30 trở lên.
• Trong trường hợp tổng thể có phân phối lệch nhiều hoặc có lượng biến đột
xuất, cỡ mẫu cần thiết nhỏ nhất là 50.
• Phân phối mẫu của 𝑓 xấp xỉ phân phối chuẩn nếu np > 5 và n(1 – p) > 5.
• Phân phối mẫu của 𝑥̅ và f có thể được sử dụng để cho biết thông tin xác suất
về việc trung bình mẫu 𝑥̅ gần với trung bình tổng thể µ như thế nào, tỷ lệ mẫu f
gần với tỷ lệ của tổng thể p như thế nào.

40

20
8/11/2022

Định lý giới hạn trung tâm


• Khi tổng thể không có phân phối chuẩn, định lý giới hạn trung tâm sẽ giúp
xác định hình dáng của phân phối mẫu 𝑥̅

ĐỊNH LÝ GIỚI HẠN TRUNG TÂM


Khi lựa chọn các mẫu ngẫu nhiên kích thước n từ
tổng thể, phân phối mẫu của trung bình mẫu 𝒙 có thể
là xấp xỉ phân phối chuẩn khi cỡ mẫu càng lớn.

41

Ước lượng kết quả điều tra chọn mẫu


Tổng thể Mẫu ngẫu nhiên Tôi tin chắc 95%
rằng trung bình
(Population) (Sample)
của tổng thể 
nằm trong
Trung bình, , TB = 50
khoảng 40 & 60
chưa biết

Lấy mẫu

42

21
8/11/2022

Ước lượng kết quả điều tra chọn mẫu

 Ước lượng khoảng tin cậy

 Ước lượng số bình quân của tổng thể

 Ước lượng tỷ lệ theo một tiêu thức của tổng thể

 Xác định quy mô mẫu

43

Ước lượng khoảng tin cậy

• Đưa ra một khoảng giá trị dựa trên quan sát từ một mẫu

• Tìm giá trị gần nhất đối với các tham số của tổng thể

• Khoảng tin cậy luôn tương ứng với 1 xác suất nhất định

• Xác suất đó không bao giờ đạt 100%

44

22
8/11/2022

Ước lượng khoảng tin cậy


Thống kê mẫu
Khoảng tin cậy
(Statistics)
(Confidence interval)

Giới hạn tin cậy Giới hạn tin cậy


(Giới hạn dưới) (Giới hạn trên)
Lower limit Upper limit

 Xác suất để tham số của tổng thể rơi vào trong khoảng tin cậy gọi là độ tin
cậy (level of confidence), là (1-α)%.
 Ví dụ: 90%, 95%, 99%...
 α là xác suất để tham số của tổng thể không rơi vào trong khoảng tin cậy,
gọi là mức ý nghĩa (significance level).
45

Ước lượng số bình quân và tỷ lệ của TT


 Công thức ước lượng

𝒙̄ Phạm vi sai số chọn mẫu 𝜺𝒙

f Phạm vi sai số chọn mẫu 𝜺𝒇

• Để ước lượng khoảng tin cậy cho trung bình của TT, phạm vi sai số chọn
mẫu phụ thuộc vào độ lệch chuẩn của TT б hoặc độ lệch chuẩn của mẫu S

46

23
8/11/2022

Ước lượng số bình quân và tỷ lệ của TT

Phân phối mẫu Phân phối mẫu


của 𝑥̅ của f

/2 Xác suất /2 /2 Xác suất /2


(1 -  (1 - 

𝑥̅ p

𝜀 𝜀 ̅
𝜀 𝜀
̅

47

Ước lượng số bình quân của TT

Trường hợp đã biết phương sai của TT (𝝈2) (hoặc chưa biết phương
sai nhưng mẫu lớn, n>100): 𝜺𝒙 𝒛. 𝝈𝒙

• Khoảng tin cậy hai phía: x  z / 2 . x    x  z / 2 . x

• Khoảng tin cậy phía phải:      x  z . x

• Khoảng tin cậy phía trái: x  z . x    

48

24
8/11/2022

Ước lượng số bình quân của TT


Trường hợp chưa biết phương sai của TT: 𝜺𝒙 𝒕. 𝝈𝒙
• Khoảng tin cậy hai phía:

x  t n / 21. x    x  t n / 21. x
• Khoảng tin cậy phía phải:

     x  t n 1. x
• Khoảng tin cậy phía trái:

x  t n 1. x    

49

Ước lượng tỷ lệ của TT


• Khoảng tin cậy hai phía:

f  z / 2 . f  p  f  z / 2 . f
• Khoảng tin cậy phía phải:
∞ 𝑝 𝑓 𝑧 .𝜎

• Khoảng tin cậy phía trái:

f  z . f  p  

50

25
8/11/2022

Lưu ý

• Hệ số tin cậy zα là giá trị tới hạn mức α của phân phối chuẩn hoá

• Hệ số tin cậy tα là giá trị tới hạn mức α của phân phối Student

• 𝜎 ̅ và 𝜎 là sai số bình quân chọn mẫu (hoặc sai số chuẩn)

51

Sai số bình quân chọn mẫu


Cách chọn Hoàn lại Không hoàn lại
Suy rộng (chọn nhiều lần) (chọn một lần)

𝜎 𝜎 𝑁 𝑛
𝜎 ̄ 𝜎 ̄ 𝑥
Số bình quân 𝑛 𝑛 𝑁 1

𝑆 𝑆 𝑁 𝑛
𝜎 ̄ 𝜎 𝑥
𝑛 ̄
𝑛 𝑁 1

Tỷ lệ 𝑓 1 𝑓 𝑓 1 𝑓 𝑁 𝑛
𝜎 𝜎 𝑥
𝑛 𝑛 𝑁 1

52

26
8/11/2022

Lưu ý
• Sự khác biệt giữa hai phương pháp chọn hoàn lại và chọn không hoàn lại
chính là (N-n) / (N-1). Do đó, ta luôn có sai số bình quân chọn mẫu theo
cách chọn hoàn lại lớn hơn sai số bình quân chọn mẫu theo cách chọn
không hoàn lại.
• Khi n nhỏ hơn rất nhiều so với N thì (N-n) / (N-1) gần với 1. Do vậy có thể
chọn theo cách không hoàn lại nhưng sử dụng công thức của chọn hoàn
lại để tính sai số bình quân chọn mẫu cho đơn giản.

53

Ví dụ 1

Một mẫu gồm 20 nhân viên được tiến hành điều tra nhằm thu thập thông tin
liên quan đến một chương trình đào tạo. Người ta tính được thời gian trung
bình để hoàn tất chương trình của 20 nhân viên này là 51,5 ngày với độ
lệch chuẩn là 6,84 ngày. Hãy ước lượng thời gian trung bình để hoàn tất
chương trình với độ tin cậy 95%.

54

27
8/11/2022

Ví dụ 1
• Trường hợp ước lượng số trung bình, chưa biết phương sai của TT.
• n=20; 𝑥̅ 51,5; 𝑆 6,84
• Tra bảng t-Student với mức ý nghĩa 0,05 và 19 bậc tự do, t0,025;19=2,093.
• Công thức ước lượng:
,
51,5 2,093. hay 51,5 3,2

• Kết luận: Với mẫu đã cho, khoảng tin cậy 95% cho thời gian trung bình để
hoàn tất chương trình là:
48,3 ≤ μ ≤ 54,7 (ngày)

55

Ví dụ 2
• PSI là một tổ chức chuyên thực hiện thăm dò dư luận trong các cuộc bầu
cử ở New York. Các khảo sát được thực hiện bằng phương pháp phỏng
vấn qua điện thoại, tại đó, PSI sẽ hỏi các cử tri đã đăng ký xem họ sẽ bỏ
phiếu cho ứng cử viên nào nếu cuộc bầu cử được tổ chức vào ngày hôm
đó.
• Trong chiến dịch bầu cử hiện tại, PSI phát hiện ra rằng có 220 cử tri đã
đăng ký, trong số 500 người đã liên lạc, bày tỏ sự ủng hộ cho ứng cử viên
A. PSI muốn xây dựng khoảng tin cậy ước lượng 95% cho tỷ lệ cử tri đã
đăng ký ủng hộ cho ứng cử viên A.

56

28
8/11/2022

Ví dụ 2
• Trường hợp ước lượng tỷ lệ của TT
• Trong đó n = 500, f= 220/500 = 0,44
• Tra bảng Z với mức ý nghĩa 0,05, Z / =Z , =1,96
• Khoảng tin cậy ước lượng 95% cho tỷ lệ cử tri ủng hộ cho ứng cử viên A

𝑓 1 𝑓 0.44 1 0.44
𝑓 𝑍 / . 0.44 1.96 0.44 0.0435
𝑛 500
PSI tự tin 95% rằng tỷ lệ cử tri ủng hộ cho ứng cử viên A trong tổng thể là
từ 39,65% đến 48,35%

57

Xác định quy mô mẫu


Yêu cầu:

• Sai số nhỏ nhất

• Chi phí thấp nhất

58

29
8/11/2022

Xác định quy mô mẫu


Cách chọn Chọn hoàn lại Chọn không hoàn lại
Suy rộng (chọn nhiều lần) (chọn một lần)
𝑧 / 𝜎 𝑁. 𝑧 / .𝜎
Bình quân 𝑛 𝑛
𝜀 ̄ 𝑁 1 .𝜀 ̄ 𝑧 / .𝜎

𝑧 / .𝑝 1 𝑝 𝑁. 𝑧 .𝑝 1 𝑝
𝑛 /
Tỷ lệ 𝜀 𝑛
𝑁 1 .𝜀 𝑧 / .𝑝 1 𝑝

59

Xác định quy mô mẫu


Các nhân tố ảnh hưởng tới kích thước mẫu điều tra
• Hệ số tin cậy (z)/Trình độ tin cậy
• Phương sai (độ đồng đều) của tổng thể (2)

• Phạm vi sai số chọn mẫu (𝜀 ̅ hoặc 𝜀 ) (sampling error)

• Phương pháp tổ chức chọn mẫu

60

30
8/11/2022

Lưu ý
Trong trường hợp chưa biết phương sai của TT, có thể sử dụng một trong
các cách sau:
• Lấy phương sai (2) lớn nhất trong các lần điều tra trước (nếu có). Trong
trường hợp ước lượng tỷ lệ, chọn tỷ lệ (p) gần 0,5 nhất.
• Lấy phương sai hoặc tỷ lệ của các cuộc điều tra khác có tính chất tương
tự (nếu có)
• Điều tra thí điểm để xác định phương sai.
• Ước lượng độ lệch chuẩn dựa vào khoảng biến thiên
𝑅 𝑥 𝑥
𝜎
6 6

61

Ví dụ 3

 Giả sử rằng PSI muốn tỷ lệ mẫu chênh lệch ±3% so với tỷ lệ của tổng thể
với độ tin cậy 99%.
 Vậy quy mô mẫu cần điều tra trong trường hợp này là bao nhiêu? Biết
khảo sát được thực hiện theo phương pháp chọn hoàn lại.

62

31
8/11/2022

Ví dụ 3

 Với độ tin cậy 99%, mức ý nghĩa là 1%, z0,005 = 2,576
• Tỷ lệ người ủng hộ ứng viên A trong cuộc điều tra trước tính được là 0,44.
Vậy p=0,44
• Phạm vi sai số chọn mẫu 𝜀 =0,03
• Cỡ mẫu cần điều tra:
𝑧 / 𝑝 1 𝑝 2,576 0,44 0,56
𝑛 ≅ 1817
𝜀 0,03

63

Kiểm định giả thuyết thống kê


 Một số vấn đề chung về kiểm định giả thuyết thống kê

 Kiểm định giả thuyết về số trung bình

 Kiểm định giả thuyết về tỷ lệ

64

32
8/11/2022

Một số vấn đề chung về kiểm định giả


thuyết thống kê
• Giả thuyết thống kê

• Sai lầm và mức ý nghĩa trong kiểm định

• Tiêu chuẩn kiểm định

• Các bước tiến hành kiểm định một giả thuyết thống kê

65

Giả thuyết thống kê


Tôi cho rằng điểm trung
bình của cả lớp là 8.5!

Giả thuyết thống kê là giả định về một vấn đề


nào đó của tổng thể.

• Ví dụ: tham số như trung bình, tỷ lệ, phương


sai của TT, dạng phân phối của TT...

• Tham số phải được xác định trước khi phân


tích. © 1984-1994 T/Maker Co.

Thu thập thông tin từ mẫu để rút ra kết luận


về giả thuyết cần kiểm định.
66

33
8/11/2022

Các loại giả thuyết thống kê


 Giả thuyết “không”, H0

Đưa ra giả định (bằng số) để kiểm định


VD: Số lượng TV trung bình của các gia đình ở Hà Nội ít nhất
là 3 (H0: µ ≥ 3)
Bắt đầu với giả định giả thuyết “không” luôn luôn ĐÚNG.
Luôn luôn có dấu ‘ = ‘
Giả thuyết “không” có thể hoặc không thể bác bỏ.

67

Các loại giả thuyết thống kê

 Giả thuyết “đối”, H1

Là sự đối lập với giả thuyết “không”


VD: Số lượng TV trung bình trong các hộ gia đình ở Hà Nội ít hơn 3
(H1: µ < 3)
Không bao giờ có dấu ‘=‘
Giả thuyết đối có thể hoặc không thể chấp nhận

68

34
8/11/2022

Các loại kiểm định

Kiểm định 2 phía là bác bỏ giả thuyết H0 khi tham số đặc trưng của mẫu
cao hơn hoặc thấp hơn so với giá trị của giả thuyết về tổng thể. Kiểm định
2 phía có 2 miền bác bỏ.

69

Các loại kiểm định

Kiểm định phía trái là bác bỏ giả thuyết H0 khi tham số đặc trưng của
mẫu nhỏ hơn một cách đáng kể so với giá trị của giả thuyết H0. Miền bác
bỏ nằm ở phía trái của đường phân phối.

70

35
8/11/2022

Các loại kiểm định

Kiểm định phía phải là bác bỏ giả thuyết H0 khi tham số đặc trưng của
mẫu lớn hơn một cách đáng kể so với giá trị của giả thuyết H0. Miền bác
bỏ nằm ở phía phải của đường phân phối.

71

Sai lầm và mức ý nghĩa trong kiểm định


Sai lầm khi ra quyết định:

• Sai lầm loại 1 là bác bỏ giả thuyết H0 khi nó đúng.

♣Gây ra hậu quả nghiêm trọng

♣Xác suất mắc sai lầm loại 1 là α, gọi là mức ý nghĩa

• Sai lầm loại 2 là không bác bỏ giả thuyết H0 khi nó sai.

♣Xác suất mắc sai lầm loại 2 là β

72

36
8/11/2022

Sai lầm và mức ý nghĩa trong kiểm định


Mức ý nghĩa α
• Là xác suất bác bỏ H0 khi nó đúng:  = P(Bác bỏ H0/H0 đúng)
Gọi là miền bác bỏ của phân bố mẫu
• Lựa chọn giá trị α
Các giá trị điển hình: 0.01, 0.05, 0.10
• Được chọn trước khi bắt đầu nghiên cứu
• Đưa ra những giá trị tới hạn cho kiểm định

73

Sai lầm và mức ý nghĩa trong kiểm định

H0: ≥3  Giá trị


H1:  < 3 tới hạn

0
Miền bác bỏ 
H0:  ≤ 3
H1:  > 3
0
/2
H0:  3
H1:   3
0

74

37
8/11/2022

Tiêu chuẩn kiểm định


• Tiêu chuẩn kiểm định là quy luật phân phối xác suất nào đó được dùng
để kiểm định
• Trong tập hợp các kiểm định thống kê có cùng mức ý nghĩa  (có xác suất
mắc sai lầm loại 1 như nhau), kiểm định nào có xác suất mắc sai lầm loại
2 nhỏ nhất sẽ được xem là “tốt nhất”
• Tùy thuộc vào giả thuyết cần kiểm định mà chọn tiêu chuẩn phù hợp.
• Một số quy luật phân phối thông dụng như: quy luật phân phối chuẩn,
phân phối T-Student, phân phối 2, phân phối Fisher...

75

Các bước tiến hành kiểm định một giả


thuyết thống kê
• Phát biểu giả thuyết H0 và giả thuyết đối H1.
• Định rõ mức ý nghĩa .
• Chọn tiêu chuẩn kiểm định.
• Tính giá trị của tiêu chuẩn kiểm định từ mẫu quan sát.
• Kết luận bác bỏ hay chưa đủ cơ sở bác bỏ H0 tuỳ theo giá trị của tiêu chuẩn kiểm
định rơi vào miền bác bỏ hay chấp nhận
• Nếu giá trị của tiêu chuẩn kiểm định thuộc miền bác bỏ: H0 sai, bác bỏ giả
thuyết H0, thừa nhận H1.
• Nếu giá trị của tiêu chuẩn kiểm định thuộc miền chấp nhận: với mẫu cụ thể
này chưa đủ cơ sở để bác bỏ H0.

76

38
8/11/2022

Phương pháp tiếp cận P-value trong kiểm


định giả thuyết
Rất nhiều phần mềm thống kê tính P-value (Sig) khi thực hiện kiểm định giả
thuyết.
P-value là xác suất lớn nhất để có thể bác bỏ giả thuyết H0.
P-value thường được xem như là mức ý nghĩa quan sát.
• Nguyên tắc ra quyết định để bác bỏ giả thuyết H0 với P-value là:
• Nếu P-value ≥ α, chưa đủ cơ sở để bác bỏ H0.
• Nếu P-value < α, bác bỏ H0.

77

Phương pháp tiếp cận P-value trong kiểm


định giả thuyết

 Sau khi tính được giá trị của tiêu chuẩn kiểm định từ mẫu quan sát,
tính P-value tùy theo loại kiểm định
• Với kiểm định phía trái, P-value=diện tích của đuôi trái
• Với kiểm định phía phải, P-value=diện tích của đuôi phải
• Với kiểm định hai phía, P-value=2 lần diện tích đuôi trái hoặc phải

78

39
8/11/2022

Phương pháp tiếp cận P-value trong kiểm


định giả thuyết
 VD. Tiêu chuẩn kiểm định của kiểm định phía phải là z = 1,56. Tính P-value.

P-value = 0.0594 Diện tích phía phải của z = 1,56 là


1 – 0,9406 = 0,0594
1.56 z
0

 VD. Tiêu chuẩn kiểm định của kiểm định hai phía là z = 2,63. Tính P-value.

Diện tích đuôi trái của z = 2,63 là 1-0,9957= 0,0043


0.0043
z P-value là 2x0,0043 = 0,0086
2.63 0

79

Kiểm định giả thuyết về số trung bình

• Kiểm định trung bình của 1 tổng thể

• Kiểm định trung bình của 2 tổng thể (tự đọc)

• Kiểm định trung bình của nhiều tổng thể (tự đọc)

80

40
8/11/2022

Kiểm định trung bình của 1 tổng thể

• Giả sử lượng biến của biến ngẫu nhiên X trong tổng thể có phân phối
chuẩn với trung bình là  và phương sai là 2. Ký hiệu: X~N (, 2).

• Chưa biết , nhưng có cơ sở cho rằng nó bằng 0 (H0:  = 0)

• Để kiểm định giả thuyết này, từ TT, chọn điều tra ngẫu nhiên một mẫu
gồm n đơn vị và tính được trung bình mẫu là 𝑥̅ .

• Tính tiêu chuẩn kiểm định và kết luận.

81

Kiểm định trung bình của 1 tổng thể

Phương sai của tổng thể σ2 đã biết


𝑥̄ μ
 Tiêu chuẩn kiểm định được chọn là thống kê z: 𝑧
σ/ 𝑛

H0 đúng, z phân phối theo quy luật chuẩn hoá N(0,1).
H0:  ≤ 0
Kiểm định phía phải: Nếu z > Z, bác bỏ H0.
H1:  > 0
H0:  ≥ 0
Kiểm định phía trái: Nếu z < -Z, bác bỏ H0.
H1:  < 0
H0:  = 0
Kiểm định hai phía:
H1:  ≠ 0

82

41
8/11/2022

Kiểm định trung bình của 1 tổng thể

Phương sai của tổng thể σ2 chưa biết


𝑥̄ μ
 Tiêu chuẩn kiểm định được chọn là thống kê t: 𝑡
S/ 𝑛
  
 
2
( x x ) f f
S2  i i
 i
x2  ( x )2
f i  1 f i  1
 H0 đúng, t phân phối theo quy luật Student với (n - 1) bậc tự do.

H0:  ≤ 0
Kiểm định phía phải: Nếu t > t,(n-1), bác bỏ H0.
H1:  > 0
H0:  ≥ 0
Kiểm định phía trái: Nếu t < -t,(n-1), bác bỏ H0.
H1:  < 0
H0:  = 0
Kiểm định hai phía:
H1:  ≠ 0
83

Ví dụ 4

• Theo công bố của một nghiên cứu về chi tiêu hộ gia đình ở thành thị, năm
2018, trung bình mỗi hộ đã phải trả 1123 nghìn đồng một tháng cho tiêu
dùng năng lượng. Để kiểm tra thông tin này, người ta chọn 15 hộ gia đình
và tính được chi cho tiêu dùng năng lượng trung bình mỗi hộ là 1344,27
nghìn đồng một tháng với độ lệch chuẩn là 231 nghìn đồng. Ở mức ý
nghĩa 5 %, liệu kết luận của nghiên cứu có thấp hơn thực tế hay không ?

84

42
8/11/2022

Ví dụ 4
• Gọi µ là mức chi cho tiêu dùng năng lượng trung bình của mỗi hộ một
tháng.
• Ta cần kiểm định giả thuyết:
H0:  ≤ 1123
H1:  > 1123
• Do chưa biết phương sai của TT nên tiêu chuẩn kiểm định là thống kê t.
̅ ,
𝑡 ⁄ ⁄
=3,71
• Tra bảng phân phối Student với 14 bậc tự do có t0,05;14 = 1,761.
• Kết luận: vì t > t,(n -1) do đó với mẫu đã nghiên cứu, bác bỏ H0. Các hộ gia
đình chi cho tiêu dùng năng lượng nhiều hơn mức công bố của nghiên cứu.

85

Kiểm định giả thuyết về tỷ lệ

• Kiểm định giả thuyết về tỷ lệ của 1 tổng thể

• Kiểm định giả thuyết về tỷ lệ của 2 tổng thể (tự đọc)

• Kiểm định giả thuyết về tỷ lệ của nhiều tổng thể (tự đọc)

86

43
8/11/2022

Kiểm định giả thuyết về tỷ lệ của 1 tổng thể


• Giả sử ở TT, tỷ lệ theo một biểu hiện A của biến ngẫu nhiên X nào đó là p.
Chưa biết p song có cơ sở cho rằng giá trị của nó bằng p0, tức H0: p = p0
• Để kiểm định giả thuyết đó, lấy mẫu ngẫu nhiên kích thước n và thấy có nA
đơn vị có biểu hiện A (và n - nA đơn vị không có biểu hiện A). Như vậy tỷ
lệ mẫu là: f = nA/ n.
• Với n đủ lớn (n.p0  5 và n(1- p0)  5), chọn tiêu chuẩn kiểm định z:

f p
z
p 1 p
n

87

Kiểm định giả thuyết về tỷ lệ của 1 tổng thể


• Nếu H0 đúng thì z phân phối theo quy luật chuẩn hoá N(0,1).
• Miền bác bỏ được xây dựng như sau:

H0: p ≤ p0
Kiểm định phía phải: Nếu z > Z, bác bỏ H0.
H1: p > p0

H0: p ≥ p0
Kiểm định phía trái: Nếu z < -Z, bác bỏ H0.
H1: p < p0

H0: p = p0
Kiểm định hai phía: Nếu |z| > Z/2, bác bỏ H0.
H1: p ≠ p0

88

44
8/11/2022

Ví dụ 5
• Trong một nghiên cứu của công ty AZ, người ta thực hiện phỏng vấn 758
khách du lịch đến HL có sử dụng tour du lịch biển xem liệu họ có hài lòng
hay không. 394 người trong số được hỏi đã trả lời là có. Với mức ý nghĩa
5%, hãy kiểm định xem liệu có đúng là đa số (>50%) những người đến HL
có sử dụng tour du lịch biển là hài lòng với tour này hay không?

89

Ví dụ 5
• Gọi p là tỷ lệ khách du lịch đến HL có sử dụng tour du lịch biển và hài lòng với tour này.
• Giả thuyết cần kiểm định là:
H0: p ≤ 0,5
H1: p > 0,5
• Ta có np0 = 758.0,5 = 379  5 và n(1- p0) = 758.0,5 = 379  5 do đó điều kiện kiểm định
được thỏa mãn.
• Tỷ lệ mẫu f=394/758=0,52 và tiêu chuẩn kiểm định là:
, ,
𝑧 =1,1
, ,

Tra bảng Z = Z0,05 = 1,645. Vì z < Z do đó với mẫu đã nghiên cứu, chưa đủ cơ sở để
bác bỏ giả thuyết H0. Kết luận không phải đa số khách du lịch đến HL có sử dụng tour du
lịch biển là hài lòng với tour này.

90

45
8/11/2022

Sử dụng SPSS
Ước lượng thống kê
Chọn Analyze > Descriptive Statistics > Explore …

Đưa các biến cần tính toán các tham số sang


Dependent List
Muốn phân tích theo biến nào đó thì đưa sang
biến sang Factor List
Trong mục Display chọn Statistics hoặc Both

91

Sử dụng SPSS
Kiểm định giả thiết về giá trị trung bình của một tổng thể
Chọn Analyze > Compare Means > One-Sample T Test…

Đưa các biến cần kiểm định giá trị


trung bình vào Test Variable(s)
Nhập giá trị cần kiểm định trung bình
vào Test Value
Nhấn Options...

92

46
8/11/2022

Sử dụng SPSS
Kiểm định giả thiết về giá trị trung bình của một tổng thể
Chọn Analyze > Compare Means > One-Sample T Test…

Nhập độ tin cậy của kiểm định vào


Confidence Interval
Chỉ kiểm định đối với các quan sát có ý
nghĩa của biến chọn Exclude cases
analysis by analysis
Chỉ kiểm định đối với các quan sát có đầy
đủ trong các biến chọn Exclude cases
listwise (n như nhau)

93

47

You might also like