Professional Documents
Culture Documents
XB 1 4 9
PB 0,4 0,4 0,2
A. Đầu tư vào dự án B có lợi nhuận cao hơn và rủi ro thấp hơn đầu tư vào dự án A;
B. Đầu tư vào dự án B có lợi nhuận thấp hơn và rủi ro cao hơn đầu tư vào dự án A;
C. Đầu tư vào dự án B có lợi nhuận và rủi ro cao hơn đầu tư vào dự án A;
D. Không xác định được lợi nhuận và rủi ro khi đầu tư vào hai dự án trên.
ANSWER: A
4. Cho X là biến ngẫu nhiên có bảng phân phối xác suất:
BM-002
A. 0,64
B. 0,36
C. 0,48
D. 0,84
ANSWER: A
5. Một nhà máy sản suất chíp bán dẫn có xác suất bị lỗi của 1 con chip là 0,05. Trong một
lô sản phẩm có 100 con chíp của nhà máy thì xác suất có nhiều nhất 10 con chíp bị lỗi là
bao nhiêu?
A. 0,989
B. 0,912
C. 0,875
D. 0,889
ANSWER: A
6. Cho Z N 0;1 . Giá trị P 2,98 Z 0, 42 là
A. 0,3358
B. 0,4986
C. 0,1628
D. 0,8363
ANSWER: A
7. Thời gian sử dụng pin điện thoại có phân phối chuẩn với trung bình 7 giờ và độ lệch
chuẩn 1 giờ. Pin được xem là đạt yêu cầu nếu thời gian sử dụng không ít hơn 5 giờ. Tính tỷ
lệ pin đạt yêu cầu.
A. 98%
B. 89%
C. 85%
D. 95%
ANSWER: A
BM-002
A. 168,1
B. 157,7
C. 155,3
D. 166,2
ANSWER: A
9. Khảo sát số điểm cuối kỳ môn Xác suất thống kê của lớp A, ta có kết quả
Tính số điểm cuối kỳ trung bình môn Xác suất thống kê của lớp A.
A. 6,2
B. 5,8
C. 6,5
D. 6,7
ANSWER: A
10. Quan sát tuổi thọ X (giờ) của một số bóng đèn do công ty A sản suất, ta có kết quả
B. 12460,5
C. 11523,7
D. 10872,1
ANSWER: A
11. Thời gian làm việc X (giờ) của nhân viên văn phòng trong một ngày có phân phối
chuẩn. Khảo sát thông tin từ máy chấm công trên 75 nhân viên cho ta bảng kết quả
Nếu muốn ước lượng trung bình thời gian làm việc của nhân viên văn phòng trong một
ngày với độ tin cậy 95% thì ta cần sai số cho phép là bao nhiêu?
BM-002
A. 0,13
B. 0,17
C. 0,21
D. 0,25
ANSWER: A
12. Thời gian X (phút) để một nhân viên cây xăng phục vụ 1 khách có phân phối chuẩn.
Quan sát 120 khách hàng, thời gian phục vụ trung bình mỗi khách là 3,8 phút và độ lệch
chuẩn là 1 phút. Tìm khoảng ước lượng cho thời gian phục vụ trung bình mỗi khách hàng
với độ tin cậy 95%.
A. (3,62; 3,98)
B. (3,65; 3,95)
C. (3,70; 3,90)
D. (3,67; 3,93)
ANSWER: A
13. Thời gian lên mạng xã hội trong tháng của học sinh trong mùa hè tuân theo phân phối
chuẩn với trung bình 200 giờ và độ lệch chuẩn 60 giờ. Muốn sai số của ước lượng trung
bình không quá 19 giờ ở độ tin cậy 97% thì cần kiểm tra ít nhất bao nhiêu học sinh?
A. 47
B. 54
C. 42
D. 56
ANSWER: A
14. Đường kính ống cống dẫn nước được cho trong bảng sau:
Những ống có đường kính từ 1020 đến 1100 là những ống dẫn loại trung. Muốn ước lượng
tỷ lệ ống dẫn loại trung có độ tin cậy 95% thì sai số ε của ước lượng tỷ lệ là bao nhiêu?
A. 0,0465
B. 0,0897
BM-002
C. 0,1256
D. 0,1378
ANSWER: A
15. Thời gian xử lý (phút) một bài test dựng hình 3D bằng phần mềm chuyên dụng của các
máy tính được cho trong bảng sau:
Những máy có thời gian xử lý từ 20 phút đến 40 phút là những máy đạt tiêu chuẩn A. Hãy
ước lượng tỉ lệ máy tính đạt tiêu chuẩn A với độ tin cậy 95%.
ANSWER: A
16. Người ta muốn biết tỷ lệ sử dụng điện thoại Iphone trong cộng đồng. Nếu muốn sai số
ước lượng không quá 0,035 ở độ tin cậy 95% thì phải quan sát ít nhất bao nhiêu trường
hợp?
A. 784
B. 824
C. 725
D. 856
ANSWER: A
17. Khảo sát 320 sinh viên về thời gian đi làm thêm X (giờ) của mình trong một ngày tại
một trường đại học cho ta kết quả thời gian làm thêm trung bình là 3,1 giờ và độ lệch tiêu
chuẩn là 1,2 giờ. Một người trong phòng hỗ trợ sinh viên cho biết thời gian làm thêm trung
bình của sinh viên trong một ngày là 2,9 giờ. Hãy tính giá trị kiểm định với đối thuyết
H1 : 2,9.
A. 2,981
B. 3,146
BM-002
C. 2,753
D. 3,364
ANSWER: A
18. Độ tuổi nghỉ hưu theo quy định là 60 tuổi. Để nghiên cứu tuổi nghỉ hưu ở ngành xây
dựng, người ta khảo sát ngẫu nhiên 220 người và tính được x 59 tuổi và s 2 10 . Với
mức ý nghĩa 5%, hãy cho kết luận về tuổi nghỉ hưu ở ngành xây dựng. Yêu cầu tính giá trị
tiêu chuẩn kiểm định và đưa ra kết luận.
A. Z = – 4,69 và tuổi nghỉ hưu ở ngành xây dựng khác 60 tuổi.
B. Z = – 1,53 và tuổi nghỉ hưu ở ngành xây dựng là 60 tuổi.
C. Z = – 2,98 và tuổi nghỉ hưu ở ngành xây dựng khác 60 tuổi.
D. Z = 5,29 và tuổi nghỉ hưu ở ngành xây dựng là 60 tuổi.
ANSWER: A
19. Một trưởng khoa của một trường đại học cho biết, sinh viên ra trường có mức lương từ
12 triệu đồng trở lên là 60%. Khảo sát ngẫu nhiên 300 người đã tốt nghiệp và đang đi làm
ở khoa này thì có 62 người mức lương từ 12 triệu đồng trở lên. Với mức ý nghĩa 10%, hãy
nêu giả thuyết để kiểm định thông tin của vị trưởng khoa đã nêu.
A. H 0 : p 0,6 ; H1 : p 0,6
B. H 0 : p 0,6 ; H1 : p 0,6
C. H 0 : p 0, 21 ; H1 : p 21
D. H 0 : p 0, 21 ; H1 : p 21
ANSWER: A
20. Một báo cáo cho thấy 15% lượng laptop trên thị trường là hàng cao cấp. Một mẫu
thăm dò cho thấy trong 200 laptop có 20 laptop loại cao cấp. Tính giá trị của tiêu chuẩn
kiểm định khi kiểm tra thông tin trên ở mức ý nghĩa 5%.
A. Z 1,98
B. Z 2,59
C. Z 3,15
D. Z 2,81
ANSWER: A
21. Một bài báo cho biết tỉ lệ nón bảo hiểm không đảm bảo chất lượng trên thị trường là
47%. Khảo sát 350 nón trên thị trường có 153 nón không đảm bảo chất lượng. Với mức ý
nghĩa 1%, hãy tính giá trị của tiêu chuẩn kiểm định, từ đó đưa ra kết luận về kết quả bài
báo trên.
A. Z 1, 23 , thông tin bài báo công bố là đúng.
BM-002
B. H 0 : 228 ; H1 : 228
C. H 0 : 300 ; H1 : 300
D. H 0 : 228 ; H1 : 228
ANSWER: A
BM-002
XB 1 4 9
PB 0,4 0,4 0,2
A. Đầu tư vào dự án A có lợi nhuận thấp hơn và rủi ro cao hơn đầu tư vào dự án B;
B. Đầu tư vào dự án A có lợi nhuận thấp hơn và rủi ro cao hơn đầu tư vào dự án B;
C. Đầu tư vào dự án A có lợi nhuận và rủi ro thấp hơn đầu tư vào dự án B;
D. Không xác định được lợi nhuận và rủi ro khi đầu tư vào hai dự án trên.
ANSWER: A
4. Cho biến ngẫu nhiên X có bảng phân phối xác suất:
BM-002
C. 0,45
D. 0,2
ANSWER: A
5. Một mặt hàng có xác suất bị làm giả là 0,15. Một người mua 20 sản phẩm của mặt hàng
đó. Tính xác suất người đó mua phải nhiều nhất là 5 sản phẩm giả.
A. 0,933
B. 0,9
C. 0,8
D. 0,95
ANSWER: A
6. Cho Z N 0;1 . Giá trị P 2, 43 Z 1,01 là
A. 0,8363
B. 0,4925
C. 0,3438
D. 0,3358
ANSWER: A
7. Thời gian cho đến khi cần sạc pin lại của một loại bóng đèn A trong điều kiện bình
thường là biến ngẫu nhiên có phân phối chuẩn với trung bình là 18 giờ và độ lệch chuẩn là
2,05 giờ. Tính xác suất để pin có thể sử dụng trên 16 giờ.
A. 84%
B. 92%
C. 89%
D. 80%
ANSWER: A
8. Cho X N 148;1 . Tìm a sao cho P X a 0,9 .
A. 149
B. 146
BM-002
C. 152
D. 155
ANSWER: A
9. Khảo sát số điểm cuối kỳ môn Xác suất thống kê của lớp A, ta có kết quả
Tính số điểm cuối kỳ trung bình môn Xác suất thống kê của lớp A.
A. 6,38
B. 5,89
C. 6,14
D. 6,75
ANSWER: A
10. Thời gian chờ X được tính bằng phút của khách hàng được cho trong bảng sau:
B. 4,25
C. 3,15
D. 4,51
ANSWER: A
11. Tốc độ hoàn thành bài test hiệu năng đồ họa 3D tính bằng phút của một số máy tính
được cho trong bảng sau:
Nếu muốn ước lượng trung bình với độ tin cậy 97% thì ta cần sai số cho phép là bao
nhiêu?
A. 2,18
B. 2,54
C. 1,89
BM-002
D. 1,65
ANSWER: A
12. Thời gian X (giờ) sử dụng liên tục của pin Li-Ion 3 cel của laptop có phân phối chuẩn.
Khảo sát 120 laptop sử dụng loại pin này thì thời gian sử dụng liên tục trung bình là 7,1
(giờ) và độ lệch chuẩn là 0,5 giờ. Tìm khoảng ước lượng thời gian trung bình sử dụng liên
tục của loại pin trên với độ tin cậy 95%.
A. (7,01; 7,19)
B. (6,98; 7,22)
C. (7,03; 7,17)
D. (7,05; 7,21)
ANSWER: A
13. Thời gian hoàn thành một bài test của các máy tính tuân theo phân phối chuẩn với
trung bình 2000 giây và độ lệch chuẩn 99 giây. Muốn sai số của ước lượng trung bình
không quá 24 giây ở độ tin cậy 96% thì cần kiểm tra ít nhất bao nhiêu máy tính?
A. 72
B. 65
C. 78
D. 80
ANSWER: A
14. Mức chiết khấu (%) của một cửa hàng cho các khách hàng được cho ở bảng sau:
Những khách hàng có mức chiết khấu từ 15% đến 40% là những khách hàng thân thiết.
Muốn ước lượng tỷ lệ khách hàng thân thiết với độ tin cậy 95% thì sai số ε của ước lượng
tỷ lệ là bao nhiêu?
A. 0,066
B. 0,01
C. 0,015
D. 0,035
BM-002
ANSWER: A
15. Độ dày lớp phủ (mm) của các loại màn hình được cho trong bảng sau:
Những màn hình có lớp phủ dày hơn 25 mm là các màn hình tốt. Hãy ước lượng tỉ lệ màn
hình tốt với độ tin cậy 96%.
ANSWER: A
16. Tập đoàn A điều tra tỷ lệ sử dụng phần mềm Y trong các nhân viên. Tập đoàn khảo sát
ngẫu nhiên 400 nhân viên thì thấy 295 nhân viên sử dụng phần mềm Y. Muốn ước lượng tỉ
lệ sử dụng phần mềm Y với sai số ước lượng 0,026 thì độ tin cậy của ước lượng là bao
nhiêu?
A. 76%
B. 85%
C. 95%
D. 99%
ANSWER: A
17. Khảo sát 250 sinh viên dạy gia sư về thời gian đi dạy X (giờ) của mình trong một ngày
tại một trường đại học cho ta kết quả thời gian đi dạy trung bình là 2,4 giờ và độ lệch
chuẩn là 1,05 giờ. Một người trong phòng hỗ trợ sinh viên cho biết thời gian đi dạy trung
bình của sinh viên trong một ngày là 2,6 giờ. Hãy tính giá trị kiểm định với đối thuyết
H1 : 2,6 .
A. –3,012
B. –2,898
C. –1,036
BM-002
D. –2,541
ANSWER: A
18. Thời gian trung bình học một kỹ năng mới của một người là 9 ngày. Để kiểm chứng
bố này, người ta lấy khảo sát ngẫu nhiên 160 người và tính được x 8,8 ngày và s 2 2 .
Với mức ý nghĩa 4%, hãy cho kết luận về thời gian trung bình học một kỹ năng mới. Yêu
cầu tính giá trị tiêu chuẩn kiểm định và đưa ra kết luận.
A. Z = –1,79 và thời gian trung bình học một kỹ năng mới là 9 ngày.
B. Z = –2,56 và thời gian trung bình học một kỹ năng mới là khác 9 ngày.
C. Z = –7,248 và thời gian trung bình học một kỹ năng mới là 9 ngày.
D. Z = 4,63 và thời gian trung bình học một kỹ năng mới là khác 9 ngày.
ANSWER: A
19. Theo một thống kê thì tỉ lệ tham gia các câu lạc bộ của sinh viên là 40%. Khảo sát
ngẫu nhiên 150 sinh viên thấy có 50 sinh viên tham gia các câu lạc bộ. Hãy đặt giả thuyết
về kiểm định trong trường hợp này?
A. H 0 : p 0, 4 ; H1 : p 0, 4
1 1
B. H 0 : p ; H1 : p
3 3
1
C. H 0 : p ; H1 : p 40%
3
1
D. H 0 : p
; H1 : p 40%
3
ANSWER: A
20. Một nghiên cứu cho thấy tỉ lệ cận thị của sinh viên đại học là 62%. Một mẫu thăm dò
cho thấy trong 500 sinh viên có 278 sinh viên cận thị. Tính giá trị của tiêu chuẩn kiểm định
khi kiểm tra thông tin nghiên cứu trên ở mức ý nghĩa 1%.
A. Z 2.948
B. Z 2,163
C. Z 2, 434
D. Z 2,786
ANSWER: A
21. Một bài báo cho biết tỉ lệ tìm được việc làm đúng ngành của sinh viên ở trường A là
55%. Khảo sát trên 300 cựu sinh viên của trường này có 168 người làm đúng ngành. Tính
giá trị của tiêu chuẩn kiểm định, từ đó đưa ra kết luận về thông tin trên ở mức ý nghĩa 5%.
A. Z 0,348 , thông tin bài báo công bố là đúng.
BM-002
B. H 0 : 12 ; H1 : 12
C. H 0 : 12 ; H1 : 12
D. H 0 : 8,9 ; H1 : 8,9
ANSWER: A
BM-002
XB 1 4 9
PB 0,4 0,4 0,2
A. Đầu tư vào dự án A có lợi nhuận thấp hơn và rủi ro cao hơn đầu tư vào dự án B;
B. Đầu tư vào dự án A có lợi nhuận thấp hơn và rủi ro cao hơn đầu tư vào dự án B;
C. Đầu tư vào dự án A có lợi nhuận và rủi ro thấp hơn đầu tư vào dự án B;
D. Không xác định được lợi nhuận và rủi ro khi đầu tư vào hai dự án trên.
ANSWER: A
4. Cho X là biến ngẫu nhiên có bảng phân phối xác suất:
BM-002
A. 0,64
B. 0,36
C. 0,48
D. 0,84
ANSWER: A
5. Một mặt hàng có xác suất bị làm giả là 0,15. Một người mua 20 sản phẩm của mặt hàng
đó. Tính xác suất người đó mua phải nhiều nhất là 5 sản phẩm giả.
A. 0,933
B. 0,9
C. 0,8
D. 0,95
ANSWER: A
6. Cho Z N 0;1 . Giá trị P 2,98 Z 0, 42 là
A. 0,3358
B. 0,4986
C. 0,1628
D. 0,8363
ANSWER: A
7. Thời gian cho đến khi cần sạc pin lại của một loại bóng đèn A trong điều kiện bình
thường là biến ngẫu nhiên có phân phối chuẩn với trung bình là 18 giờ và độ lệch chuẩn là
2,05 giờ. Tính xác suất để pin có thể sử dụng trên 16 giờ.
A. 84%
B. 92%
C. 89%
D. 80%
ANSWER: A
8. Cho X N 167;1 . Tìm a sao cho P X a 0,86 .
A. 168,1
B. 157,7
BM-002
C. 155,3
D. 166,2
ANSWER: A
9. Khảo sát số điểm cuối kỳ môn Xác suất thống kê của lớp A, ta có kết quả
Tính số điểm cuối kỳ trung bình môn Xác suất thống kê của lớp A.
A. 6,38
B. 5,89
C. 6,14
D. 6,75
ANSWER: A
10. Thời gian chờ X được tính bằng phút của khách hàng được cho trong bảng sau:
B. 4,25
C. 3,15
D. 4,51
ANSWER: A
11. Tốc độ hoàn thành bài test hiệu năng đồ họa 3D tính bằng phút của một số máy tính
được cho trong bảng sau:
Nếu muốn ước lượng trung bình với độ tin cậy 97% thì ta cần sai số cho phép là bao
nhiêu?
A. 2,18
B. 2,54
C. 1,89
BM-002
D. 1,65
ANSWER: A
12. Thời gian X (phút) để một nhân viên cây xăng phục vụ 1 khách có phân phối chuẩn.
Quan sát 120 khách hàng, thời gian phục vụ trung bình mỗi khách là 3,8 phút và độ lệch
chuẩn là 1 phút. Tìm khoảng ước lượng cho thời gian phục vụ trung bình mỗi khách hàng
với độ tin cậy 95%.
A. (3,62; 3,98)
B. (3,65; 3,95)
C. (3,70; 3,90)
D. (3,67; 3,93)
ANSWER: A
13. Thời gian hoàn thành một bài test của các máy tính tuân theo phân phối chuẩn với
trung bình 2000 giây và độ lệch chuẩn 99 giây. Muốn sai số của ước lượng trung bình
không quá 24 giây ở độ tin cậy 96% thì cần kiểm tra ít nhất bao nhiêu máy tính?
A. 72
B. 65
C. 78
D. 80
ANSWER: A
14. Mức chiết khấu (%) của một cửa hàng cho các khách hàng được cho ở bảng sau:
Những khách hàng có mức chiết khấu từ 15% đến 40% là những khách hàng thân thiết.
Muốn ước lượng tỷ lệ khách hàng thân thiết với độ tin cậy 95% thì sai số ε của ước lượng
tỷ lệ là bao nhiêu?
A. 0,066
B. 0,01
C. 0,015
D. 0,035
BM-002
ANSWER: A
15. Độ dày lớp phủ (mm) của các loại màn hình được cho trong bảng sau:
Những màn hình có lớp phủ dày hơn 25 mm là các màn hình tốt. Hãy ước lượng tỉ lệ màn
hình tốt với độ tin cậy 96%.
ANSWER: A
16. Tập đoàn A điều tra tỷ lệ sử dụng phần mềm Y trong các nhân viên. Tập đoàn khảo sát
ngẫu nhiên 400 nhân viên thì thấy 295 nhân viên sử dụng phần mềm Y. Muốn ước lượng tỉ
lệ sử dụng phần mềm Y với sai số ước lượng 0,026 thì độ tin cậy của ước lượng là bao
nhiêu?
A. 76%
B. 85%
C. 95%
D. 99%
ANSWER: A
17. Khảo sát 250 sinh viên dạy gia sư về thời gian đi dạy X (giờ) của mình trong một ngày
tại một trường đại học cho ta kết quả thời gian đi dạy trung bình là 2,4 giờ và độ lệch
chuẩn là 1,05 giờ. Một người trong phòng hỗ trợ sinh viên cho biết thời gian đi dạy trung
bình của sinh viên trong một ngày là 2,6 giờ. Hãy tính giá trị kiểm định với đối thuyết
H1 : 2,6 .
A. –3,012
B. –2,898
C. –1,036
BM-002
D. –2,541
ANSWER: A
18. Thời gian trung bình học một kỹ năng mới của một người là 9 ngày. Để kiểm chứng
bố này, người ta lấy khảo sát ngẫu nhiên 160 người và tính được x 8,8 ngày và s 2 2 .
Với mức ý nghĩa 4%, hãy cho kết luận về thời gian trung bình học một kỹ năng mới. Yêu
cầu tính giá trị tiêu chuẩn kiểm định và đưa ra kết luận.
A. Z = –1,79 và thời gian trung bình học một kỹ năng mới là 9 ngày.
B. Z = –2,56 và thời gian trung bình học một kỹ năng mới là khác 9 ngày.
C. Z = –7,248 và thời gian trung bình học một kỹ năng mới là 9 ngày.
D. Z = 4,63 và thời gian trung bình học một kỹ năng mới là khác 9 ngày.
ANSWER: A
19. Theo một thống kê thì tỉ lệ tham gia các câu lạc bộ của sinh viên là 40%. Khảo sát
ngẫu nhiên 150 sinh viên thấy có 50 sinh viên tham gia các câu lạc bộ. Hãy đặt giả thuyết
về kiểm định trong trường hợp này?
A. H 0 : p 0, 4 ; H1 : p 0, 4
1 1
B. H 0 : p ; H1 : p
3 3
1
C. H 0 : p ; H1 : p 40%
3
1
D. H 0 : p
; H1 : p 40%
3
ANSWER: A
20. Một nghiên cứu cho thấy tỉ lệ cận thị của sinh viên đại học là 62%. Một mẫu thăm dò
cho thấy trong 500 sinh viên có 278 sinh viên cận thị. Tính giá trị của tiêu chuẩn kiểm định
khi kiểm tra thông tin nghiên cứu trên ở mức ý nghĩa 1%.
A. Z 2.948
B. Z 2,163
C. Z 2, 434
D. Z 2,786
ANSWER: A
21. Một bài báo cho biết tỉ lệ tìm được việc làm đúng ngành của sinh viên ở trường A là
55%. Khảo sát trên 300 cựu sinh viên của trường này có 168 người làm đúng ngành. Tính
giá trị của tiêu chuẩn kiểm định, từ đó đưa ra kết luận về thông tin trên ở mức ý nghĩa 5%.
A. Z 0,348 , thông tin bài báo công bố là đúng.
BM-002
B. H 0 : 12 ; H1 : 12
C. H 0 : 12 ; H1 : 12
D. H 0 : 8,9 ; H1 : 8,9
ANSWER: A
114
CHƯƠNG 7
Mục lục chương 7
7.1 Chuỗi thời gian, các khái niệm cơ bản ........................................................... 114
7.2 Các phương pháp dự báo đơn giản ............................................................... 118
7.3 Các phương pháp làm trơn ........................................................................... 119
Biểu diễn cho dữ liệu được sắp xếp theo thứ tự thời gian, dạng tổng quát như sau
t t1 t2 … tn
Y Y1 Y2 … Yn
Trong đó : t i là thời gian thứ i và Yi là giá trị lượng biếnquan sát được ở thời gian t i . i 1; n
Căn cứ vào đặc điểm biến động về quy mô của hiện tượng thời gian, chuỗi thời gian được chia ra
làm hai trường hợp
Chuỗi thời kỳ : biểu hiện giá trị lượng biến quan sát thu được trong từng khoảng thời gian
nhất định. Các giá trị của lượng biến có thế cộng dồn với nhau tạo thành giá trị của lượng
biến trong khoảng thời gian dài hơn.
Ví dụ 7.1 Sản lượng xuất khẩu cà phê của Việt Nam từ 2001 đến 2005:
Năm 2001 2002 2003 2004 2005
Sản lượng (ngàn tấn) 931,1 722,2 794,4 976,2 892,4
Chuỗi thời điểm : biểu hiện giá trị lượng biến quan sát tại các thời điểm quan sát nhất định,
và giá trị của lượng biến khi cộng dồn thì không có ý nghĩa.
Ví dụ 7.2 Giá vàng SJC tại TPHCM trong tuần cuối tháng 7 năm 2017:
Ngày 23/7 24/7 25/7 26/7 27/7 28/7
Ngàn đồng/chỉ 1317,0 1316,5 1310,0 1307,5 1294,0 1294,0
Các phương pháp dự báo chuỗi thời gian được chia thành hai loại:
Phương pháp dự báo, tính toán cho các giá trị tương lai dựa trên toàn bộ các quan sát có
được trong quá khứ.
Phương pháp dự báo dựa trên nguyên nhân kết quả của các dữ liệu.
CHƯƠNG 7: CHUỖI THỜI GIAN; DỰ BÁO CHUỖI THỜI GIAN 115
Ví dụ 7.3 Cho bảng số liệu về số lượng tủ lạnh một chuỗi siêu thị điện máy bán trong 8 năm, số
liệu khảo sát theo từng quý (đơn vị : ngàn cái).
Q1-2005 Q2-2005 Q3-2005 Q4-2005 Q1-2006 Q2-2006 Q3-2006 Q4-2006 Q1-2007
1317 1615 1662 1295 1271 1555 1639 1238 1277
Q2-2007 Q3-2007 Q4-2007 Q1-2008 Q2-2008 Q3-2008 Q4-2008 Q1-2009 Q2-2009
1258 1417 1185 1196 1410 1417 919 943 1175
Q3-2009 Q4-2009 Q1-2010 Q2-2010 Q3-2010 Q4-2010 Q1-2011 Q2-2011 Q3-2011
1269 973 1102 1344 1641 1225 1429 1699 1749
Q4-2011 Q1-2012 Q2-2012 Q3-2012 Q4-2012
1117 1242 1684 1764 1328
1800 Q3-2011 Q3-2012
Q2-2011 Q2-2012
Q3-2005 Q3-2006 Q3-2010
1700 Q2-2005
1600 Q2-2006
1500 Q3-2007Q2-2008
Q3-2008 Q1-2011
1400 Q1-2005 Q2-2010 Q4-2012
Q4-2005
Q1-2006 Q1-2007
Q2-2007 Q3-2009
1300 Q4-2006 Q4-2010 Q1-2012
Q1-2008
Q4-2007 Q2-2009
1200 Q4-2011
Q1-2010
1100
Q4-2009
1000 Q1-2009
Q4-2008
900
800
0 5 10 15 20 25 30 35
116
Biểu đồ trên cho thấy số lượng tủ lạnh bán được tăng giảm đều đặn, điều này thể hiện biến động
theo mùa, cụ thể trong 1 năm số lượng tủ lạnh tăng mạnh từ quý 1 lên quý 2 và giảm mạnh từ quý
3 xuống quý 4.
1 Y i
Y Y1 Y2 ... Yn i 1
n n
Trong đó : Y : mức độ trung bình của chuỗi.
Yi : Giá trị lượng biến chuỗi thời kỳ
Trung bình chuỗi thời gian, đối với chuỗi thời điểm, khoảng cách giữa thời điểm bằng nhau:
1 Y1 Y2 Y2 Y3 Y Y 1 1 1
Y ... n1 n Y1 Y2 ... Yn
n1 2 2 2 n1 2 2
Trong đó : Y : mức độ trung bình của chuỗi.
Yi : Giá trị lượng biến chuỗi thời kỳ
Ví dụ 7.4 Khảo sát lượng lao động của một doanh nghiệp tại các thời điểm thu được bảng số liệu
sau:
Vậy trung bình lượng lao động trong khoảng thời gian 3 tháng là:
Vậy trung bình doanh nghiệp này có bình quân 369 lao động từ 15/5 đến 15/8.
Trung bình chuỗi thời gian, đối với chuỗi thời điểm, khoảng cách giữa thời điểm không bằng nhau:
n
Đầu tháng 5 : có 380 lao động. Ngày 10/5 nhận thêm 5 lao động, tối 15/5 nhận thêm 3 lao động.
Ngày 21/5 sa thải 4 lao động, và giữ nguyên cho đến 30/5.
Y t
i 1
i i
11513
Vậy số lao động trung bình trong tháng là : Y n
383,77 (người)
30
t
i 1
i
1 n 1 Y Y
i n 1 Y2 Y1 Y3 Y2 ... Yn Yn 1 nn 11
n 1 i 2
Lưu ý : đại lượng này chỉ có ý nghĩa thống kê khi lượng tăng (giảm) tuyệt đối liên hoàn xấp xỉ nhau,
nếu không vô tình lượng tăng giảm tuyệt đối sẽ đánh giá sai nguyên nhân gây ra sự biến động của
chuỗi thời gian.
Yi
ti
Yi 1
i 2, n
Tốc độ phát triển định gốc : thể hiện tốc độ thay đổi của lượng biến ở mốc thời gian bất kỳ so với
lượng biến quan sát chọn làm gốc (thường được chọn là lượng biến quan sát đầu tiên)
Yi
Ti
Y1
i 2, n
Tốc độ phát triển trung bình : thể hiện nhịp độ phát triển bình quân giữa 2 lượng biến quan sát
liên tiếp nhau trong suốt thời gian, được tính bằng trung bình nhân của tất cả tốc độ phát triển
liên hoàn.
118
n
Y2 Y3 Yn Y
t n 1 t i n 1 . ... n 1 n
i 2 Y1 Y2 Yn1 Y1
Lưu ý : Cũng giống như lượng tăng giảm tuyệt đối trung bình, tốc độ phát triển trung bình chỉ
mang ý nghĩa khi các tốc độ phát triển liên hoàn xấp xỉ nhau trong suốt thời kỳ nghiên cứu.
Yi Yi 1 i
ai
Yi 1
t 1
Yi 1 i
i 2,n
Tốc độ tăng giảm định gốc : đánh giá tốc độ thay đổi tương đối của một lượng biến ở một mốc thời
gian bất kỳ so với lượng biến quan sát chọn làm gốc (thường được chọn là lượng biến quan sát
đầu tiên)
Yi Y1 i
Ai
Y1
Yi
Ti 1 i 2,n
Tốc độ tăng giảm trung bình :
a t 1
Ví dụ 7.6 Cho doanh thu của một công ty qua các năm (từ 2012 đến 2017) theo bảng số liệu dưới
đây.:
Y n L Yn .L
Trong đó : Y n L : là giá trị dự báo tại thời điểm n L .
CHƯƠNG 7: CHUỖI THỜI GIAN; DỰ BÁO CHUỖI THỜI GIAN 119
Yn : là giá trị quan sát tại thời điểm thứ n (thời điểm cuối)
: là lượng tăng giảm tuyệt đối trung bình.
L : tầm xa dự đoán.
Ví dụ 7.7 Quan sát lượng xe đạp của một doanh nghiệp Yi (đơn vị nghìn chiếc) bán qua các
năm t i cho bởi bảng số liệu sau:
Yi 1 2 3 4 5 6 7 8 9 10
ti 21.6 22.9 25.5 21.9 23.9 27.5 31.5 29.7 28.6 31.4
Dự báo cho lượng xe đạp mà doanh nghiệp sẽ bán được trong năm tiếp theo là
Y Y 31,4 21,6
Y 11 Y10 .1 Y10 10 1 .1 31,4 32,48 (nghìn chiếc)
9 9
Hoặc dự báo cho cách 2 năm sau:
Y Y 31,4 21,6
Y 12 Y10 .2 Y10 10 1 .2 31,4 .2 33,57 (nghìn chiếc)
9 9
7.2.2 Dự báo bằng tốc độ phát triển trung bình.
Phương pháp thường dùng khi dãy lượng biến theo thời gian biến động với nhịp độ ổn định, nghĩa
là tốc độ phát triển liên hoàn xấp xỉ bằng nhau
L
Y n L Yn . t
Trong đó : Y n L : là giá trị dự báo tại thời điểm n L .
Yn : là giá trị quan sát tại thời điểm thứ n (thời điểm cuối)
t : là tốc độ phát triển trung bình.
L : tầm xa dự đoán.
Ví dụ 7.8 Quan sát lượng xe đạp của một doanh nghiệp Yi (đơn vị nghìn chiếc) bán qua các
năm t i cho bởi bảng số liệu sau:
Yi 1 2 3 4 5 6 7 8 9 10
ti 21.6 22.9 25.5 21.9 23.9 27.5 31.5 29.7 28.6 31.4
Dự báo cho lượng xe đạp mà doanh nghiệp sẽ bán được trong năm tiếp theo là
1 31,4
Y 11 Y10 t
31,4 9 32,7328 (nghìn chiếc)
21,6
Hoặc dự báo cho cách 2 năm sau:
2
2 31,4
Y 12 Y10 t
31,4 9 34,1221 (nghìn chiếc)
21,6
Lưu ý : Nhược điểm của phương pháp dự báo đơn giản là chỉ quan tâm tới giá trị quan sát kỳ đầu
và kỳ cuối để đưa ra dự báo mới nhất, và như vậy vô tình đã bỏ qua các biến động bất thường của
các dữ liệu ở giữa nên nếu dữ liệu có nhiều biến động thì phương pháp dự báo đơn giản có độ
chính xác thấp.
Khác với dự báo lượng tăng giảm tuyệt đối và tốc độ phát triển trung bình là dùng số liệu mới nhất
để dự báo cho mốc thời gian kê tiếp. Phương pháp trung bình trượt sẽ dùng nhiều hơn 3 số liệu
mới nhất để dự báo.
Y Y ... Yi k 1
Y i 1 i i 1
k
Trong đó : Y i 1 : là giá trị dự báo tại thời điểm t 1 .
Yi ;Yi 1 ;...;Yi k 1 : là k giá trị quan sát thực tế tới thời điểm t .
k : khoảng trượt k 3 .
Ưu điểm của phương pháp thể hiện rõ khi dữ liệu chuỗi thời gian có sự biến động nhiều, khi đó
trung bình trượt sẽ bình quân những nguyên nhân gây ra dao động bất thường của dữ liệu, để đưa
về quy luật biến động chung nhất của dữ liệu.
Khoảng trượt k là yếu tố ảnh hưởng rất lớn đến sai số dự báo, nên k được chọn sao cho thỏa
mãn các tiêu chí sai số tốt nhất. Với Y và Y lần lượt là giá trị quan sát thực tế và giá trị dự báo
i i
tại thời điểm i và ei Yi Yi là sai số tại mỗi thời điểm, ta có các tiêu chí đánh giá sai số:
1 n
MAE ei : sai số tuyệt đối trung bình (Mean Absolute Error)
n i 1
1 n ei
MAPE .100% : sai số phần trăm tuyệt đối trung bình (Mean Absolute Percent
n i 1 Yi
Error)
1 n 2
MSE ei : sai số bình phương trung bình (Mean Square Error)
n i 1
RMSE MSE : căn bậc hai sai số bình phương trung bình (Root Mean Square Error)
Về mặt thực tế RMSE và MAE có cung đơn vị với đơn vị lượng biến, nhưng RMSE thông dụng hơn
vì về mặt công thức thì RMSE dễ xử lý hơn.
Ví dụ 7.9 Cho một chuỗi thời gian với lượng biến quan sát là Yi trong 12 tuần, bảng sau đưa ra
dự báo bằng phương pháp trung bình trượt với khoảng trượt k 3 và k 5 ;
2 2
Tuần Yi Yi ; k 3 Y Y
i i Yi ; k 5 Y Y
i i
1 17
2 21
3 19
4 23 19 16
5 18 21 9
6 16 20 16 19.6 12.96
7 20 19 1 19.4 0.36
8 18 18 0 19.2 1.44
9 22 18 16 19 9
10 20 20 0 18.8 1.44
11 15 20 25 19.2 17.64
12 22 19 9 19 9
MSE 10,22 MSE 7,45
CHƯƠNG 7: CHUỖI THỜI GIAN; DỰ BÁO CHUỖI THỜI GIAN 121
Vì tiêu chuẩn MSEk 3 10,22 và MSEk 5 7,45 nên trong tình huống này , ta sẽ chọn khoảng trượt
k 5.
24
23
22
21
20
Dữ liệu
quan sát 19
K=3
18
k=5 17
16
15
14
-1 1 3 5 7 9 11 13
Y i 1 Y i Yi Y i
Trong đó : Y i 1 ;Y i : là giá trị dự báo tại thời điểm i ; i 1 .
Yi : là giá trị quan sát thực tế tại thời điểm i .
: là hệ số làm trơn.
Lưu ý : Hệ số làm trơn nhận giá trị 0;1
Một dạng khai triển khác của phương pháp san bằng mũ
Y i 1 1 Y i Y i
i 1 Y1 Y1
i 2 Y 2 1 Y 1 Y1 Y1
Y 4 1 Y 3 Y3 1 Y1 1 Y2 Y3
2
i 4
Y 5 1 Y 4 Y4 1 Y1 1 Y2 1 Y3 Y4
3 2
i 5
Nên phương pháp san bằng mũ có thể xem là tương đương với phương pháp trung bình trượt có
trọng số.
Về mặt ý nghĩa giá trị dự báo mới Y bằng giá trị dự báo cũ Y cộng thêm một lượng điều
i 1
i
Khi 0 thì dự báo mới cộng một lượng điều chỉnh tối thiểu, và ta chỉ nên chọn 0
khi dữ liệu quan sát thực tế có nhiều thay đổi bất thường.
Và cũng giống như phương pháp trung bình trượt, để lựa chọn hệ số làm trơn tốt nhất, ta có thể
dựa trên các tiêu chí đánh giá sai số.
Ví dụ 7.10 Sử dụng bảng số liệu của Ví dụ 7.9
2 2
Tuần Yi 0.2 Y Y
i i
0.3 Y Y
i i
1 17 17 0 17 0
2 21 17 16 18.2 7.84
3 19 17.8 1.44 18.16 0.7056
4 23 18.04 24.6016 19.528 12.05478
5 18 19.032 1.065024 18.7224 0.521862
6 16 18.8256 7.984015 17.97792 3.912168
7 20 18.26048 3.02593 18.78234 1.482706
8 18 18.60838 0.370131 18.42587 0.181364
9 22 18.48671 12.34323 19.5407 6.048181
10 20 19.18937 0.657128 19.43256 0.321993
11 15 19.35149 18.93549 18.04604 9.278389
12 22 18.48119 12.382 19.53684 6.067178
MSE 9.98 MSE 4.40
Do MSE 0,2 MSE 0,3 nên ta sẽ dùng 0,3 để làm trơn và dự báo.
23
22
21
20
Quan sát
19
thực tế
18 alpha=0.2
17
alpha=0.3
16
15
14
0 2 4 6 8 10 12 14
Yi
t
1 2 i
Thực tế về mặt giá trị, thì giá trị lượng biến quan sát thực tế Yi và giá trị dự báo bằng mô hình
Y sẽ không trùng nhau tại tất cả các mốc quan sát, mà hai đại lượng này sẽ có sự chênh lệch là
i
sai số ei với i 1,n .
ei Yi Yi
Bản chất sai số ei là do về mặt thực tế có rất nhiều yếu tố ảnh hưởng đến sự biến động của lượng
biến quan sát Yi , nhưng trong mô hình thì ta chỉ chọn đại diện để giải thích cho sự biến động
này là thời gian t i .
Hệ số hồi quy 1 ; 2 trong mô hình được xác định bằng phương pháp bình phương tối thiểu (OSL:
ordianary squared least). Nguyên tắc của phương pháp bình phương tối thiểu là tổng bình phương
sai số tại tất cả quan sát phải đạt giá trị nhỏ nhất.
n
E 1 ;
e 2 Min
2 i
i 1
Hàm E 1 ;
là một mặt bậc hai, do đó giá trị nhỏ nhất của hàm xảy ra tại điểm tới hạn thỏa :
2
n
E ˆ ˆ n ˆ ˆ
n
1 i 1
ˆ 2 Yi 1 2t i 0
t i 2 n 1 Yi
i 1 i 1
n
E 2 t Y ˆ ˆ t 0
n n n
t 2 ˆ t ˆ t Y
ˆ i i 1
2 i i
i 1 2 i
i 1
1
i 1
i i
2 i 1
n
t iYi ntY
ˆ
2 ni 1
t i 2 nt .
2
i 1
1 Y ˆ2 t
ˆ
Vậy các hệ số trong hàm xu thế tuyến tính được ước lượng theo công thức:
124
t Y ntYi i
ˆ2 i 1
n
và ˆ1 Y ˆ2 t
2 2
t
i 1
i nt
Ví dụ 7.11 Một khảo sát về mối quan hệ giữa lượng xe đạp ( Yi nghìn chiếc) của một cửa hàng bán
được theo từng năm thu được bảng số liệu sau
t Y Yi t i t i2
1 21.6 21.6 1
2 22.9 45.8 4
3 25.5 76.5 9
4 21.9 87.6 16
5 23.9 119.5 25
6 27.5 165 36
7 31.5 220.5 49
8 29.7 237.6 64
9 28.6 257.4 81
10 31.4 314 100
t i 55 Y i 264,5 tiYi 1545,5 t i2 385
34
32
y = 1.1x + 20.4
30
28
26
24
22
20
0 2 4 6 8 10 12
t Y ntY
i i
1545,5 10.5,5.26,45
Hệ số góc : 2 i 1
n
1,1
2 2 385 10.5,52
t
i 1
i nt
Nghĩa là qua một năm, trung bình lượng xe đạp của cửa hàng này bán tăng trung bình 1,1 ngàn
chiếc.
2
ti Yi Yi Y Y
i i
CHƯƠNG 5
ƯỚC LƯỢNG THAM SỐ
Mục lục chương 5
Mức độ tốt của một số ước lượng được đánh giá bằng cách quan sát hành vi của nó trong sự chọn
mẫu lặp lại. Chúng ta hãy xem xét sự giống nhau sau đây. Trên nhiều khía cạnh, thì sự ước lượng
điểm là tương tự với việc bắn một khẩu súng vào một mục tiêu.
Ví dụ 5.1 Giả sử rằng một người đàn ông bắn một phát súng duy nhất vào một mục tiêu và phát
súng đó đã trúng ngay điểm đen. Liệu chúng ta có thể kết luận rằng ông ta là một xạ thủ cừ khôi?
Câu trả lời là không - không một ai trong số chúng ta ắt sẽ bằng lòng giữ mục tiêu đó trong khi
phát súng thứ hai được bắn đi. Đến khi nào mà sự chính xác của ông ta đã được quan sát thấy
trong những lần bắn được lặp đi lặp lại, với tất cả phát súng đều trúng vào gần điểm đen, thì chúng
ta ắt mới có thể tuyên bố rằng ông ta là một tay súng giỏi.
Về mặt hình ảnh ta có thể xem xét trường hợp ước lượng chệch và không chệch như sau:
CHƯƠNG 5 : ƯỚC LƯỢNG KHOẢNG 83
Khi ta đã đưa ra một ước lượng không chệch thì đặc trưng thứ hai đáng mong ước của một ước
lượng là khoảng rộng (được đo bằng phương sai) của phân phối mẫu phải càng nhỏ càng tốt. Điều
này đảm bảo rằng, với một xác suất cao, một sự ước lượng riêng lẻ sẽ rơi gần vào giá trị đúng của
tham số. Các phân phối mẫu cho hai ước lượng không bị lệch, một với phương sai nhỏ và ước
lượng kia với một phương sai lớn hơn, đương nhiên là chúng ta sẽ thích ước lượng với phương
sai nhỏ hơn bởi vì những sự ước lượng có xu hướng nằm gần với giá trị đúng của tham số hơn là
với phương sai lớn hơn.
Định lý. Giả sử X 1 , X 2 ,..., X n là các biến ngẫu nhiên lấy từ tổng thể có trung bình là và độ lệch
chuẩn là . Khi đó
X 1 X 2 ... X n
X là một ước lượng không chệch cho .
n
n
1 2
Sˆ 2 X i X là một ước lượng tiệm cận không chệch cho 2 .
n i 1
n ˆ2
S2 S là một ước lượng không chệch cho 2 .
n 1
Đối với một cỡ mẫu cố định, bề rộng của khoảng tin cậy tăng lên khi hệ số tin cậy gia tăng, một kết
quả mà đồng ý với trực giác của chúng ta. Chắc hẳn là nếu chúng ta mong muốn hơn rằng khoảng
này sẽ bao quanh µ, thì chúng ta ắt sẽ tăng bề rộng của khoảng. Bởi vì chúng ta chỉ chấp nhận các
khoảng tin cậy hẹp và hệ số tin cậy lớn hơn, nên chúng ta phải chỉ ra được một mối quan hệ giữa
hệ số tin cậy, khoảng tin cậy. Lựa chọn hệ số tin cậy được sử dụng trong một tình huống cho trước
được thực hiện bởi người làm thí nghiệm và tùy thuộc vào mức độ tin cậy mà người làm thí nghiệm
mong muốn đặt ra trong ước lượng này. Hệ số tin cậy phổ biến nhất có lẽ là các khoảng tin cậy
95%. Việc sử dụng các khoảng tin cậy 99% là ít phổ biến hơn bởi vì bề rộng khoảng lớn hơn được
tạo ra. Dĩ nhiên, lúc nào các bạn cũng có thể giảm bớt bề rộng này bằng cách gia tăng cỡ mẫu .
Ngoài các khoảng tin cậy hai phía (mà chúng ta đơn giản gọi là các khoảng tin cậy), chúng ta cũng
có thể xây dựng các khoảng tin cậy một phía cho những tham số.
Theo các tiêu chuẩn ước lượng, khi ta sử dụng bất kỳ hàm ước lượng Tn để ước lượng cho tham
số thì khoảng ước lượng có dạng Tn ,Tn giá trị sai số gọi là độ chính xác. Ở đây ta
84
không tuyệt đối tin rằng giá trị thật của tham số nằm trong khoảng Tn ,Tn , mà ta chỉ tin
rằng
P Tn Tn 1
Nhận xét.
Khi độ chính xác càng nhỏ thì độ tin cậy càng thấp.
Khi Tn là ước lượng vững cho , cố định độ chính xác thì độ tin cậy 1 tiến đến 1
khi cở mẫu thực nghiệm n tiến đến vô cùng.
Thông thường ta cố định độ tin cậy 1 rồi tìm khoảng tin cậy tương ứng.
X 1 X 2 ... X n
Hàm ước lượng Tn X , ta xây dựng khoảng ước lượng thỏa:
n
P X X 1
Định lý. Cho X 1 , X 2 ,..., X n là biến ngẫu nhiên có quy luật phân phối chuẩn với kỳ vọng là và
2
phương sai là 2 , thì X có quy luật phân phối chuẩn X ~ N , .
n
Định lý. Cho X 1 , X 2 ,..., X n là biến ngẫu nhiên có quy luật phân phối chuẩn với kỳ vọng là và
phương sai là 2 , với X và S 2 là trung bình mẫu và phương sai mẫu (có hiệu chỉnh) ta có
X X
~ N 0;1 và ~ T n 1
S
n n
X
Xét P X X 1 P 1
n n n
CHƯƠNG 5 : ƯỚC LƯỢNG KHOẢNG 85
2 X
Vì X ~ N ; Z ~ N 0,1
n 2
n
Vì hàm ước lượng phụ thuộc vào 2 nên khoảng ước lượng cho chia làm hai trường hợp
Trường hợp 2 đã biết.
Ta có Z ~ N 0;1 P z /2 Z z /2 1
X
Và P 1 nên ta có z /2 z /2
n
n n n n
Trường hợp 2 chưa biết.
Trong thực tế ta thường xuyên không biết phương sai tổng thể 2 , trong trường hợp này ta vẫn
giả định tổng thể có quy luật phân phối chuẩn. Để đưa ra khoảng ước lượng cho ta cần tham số
để ước lượng cho 2 , ta có:
X X 1 X n 1
. .
S S n 1 S 2
n n n 2
X n 1 S 2 ~ 2,n1 nên X n1
Trong đó ~ N 0;1 và Z ~T
2 S
n n
n1 n1
n1
Ta có Z ~ T P t /2 Z t /2 1 .
X
Và P 1 nên ta có tn/21 tn /21 . .
n
n n n n
5.3.2 Quy tắc thực hành.
Khoảng ước lượng cho giá trị trung bình tổng thể với độ tin cậy 1 là khoảng X ; X
trong đó giá trị độ chính xác được tính theo công thức:
n 30 n 30
86
2 đã biết z /2
z /2
n n
2 chưa biết z /2
S
tn /21 .
S
n n
Trong đó z /2 ; z /2 được tính theo phân phối chuẩn.
n
S
tn /21 . ; tn/21 được tính theo phân phối Student
n
Ví dụ 5.2 Một công ty muốn ước lượng số tài liệu trung bình được chuyển bằng fax trong một
ngày. Kết quả thu được từ 15 ngày cho thấy trung bình một ngày có 267 trang tài liệu được chuyển
bằng fax, và theo kinh nghiệm từ các văn phòng tương tự thì độ lệch chuẩn là 32 trang. Với số tài
liệu chuyển bằng fax trong một một ngày có quy luật phân phối chuẩn, thì với độ tin cậy 95% ta
ước lượng được số tài liệu trung bình chuyển trong ngày nằm trong khoảng:
X z /2 . X z /2 .
n n
Trong đó X 267, 32, n 15,1 95% z /2 1.96
Vậy khoảng ước lượng là 250,8055 283,1945
Ví dụ 5.3 Công ty điện thoại một thành phố muốn ước lượng thời gian trung bình của một cuộc
điện đàm đường dài vào cuối tuần, mẫu ngẫu nhiên 20 cuộc gọi đường dài vào cuối tuần cho thấy
thời gian gọi trung bình là 14,8 phút và độ lệch chuẩn là 5,6 phút. Như vậy với độ tin cậy 95% ta
ước lượng được thời gian gọi trung bình nằm trong khoảng.
S S
X tn/21 . X tn/21 .
n n
n 1
Trong đó X 14,8; S 5,6; n 20;1 95% t /2 2,093
Vậy khoảng ước lượng là 12,1792 17,4208
5.3. Khoảng tin cậy cho độ lệch hai giá trị trung bình.
5.3.1 Phân tích
Gọi 1 , 2 là trung bình của 2 tổng thể, dựa trên việc khảo sát hai bộ mẫu độc lập của hai tổng thể
ta mong muốn chỉ ra sự khác biết của hai trung bình tổng thể này. Ta xây dựng khoảng ước lượng
cho 1 2 với độ tin cậy 1 .
Hàm ước lượng là Z X 1 X 2 và khoảng ước lượng thỏa
P X 1 X 2 1 2 X 1 X 2 1
Định lý. Nếu hai mẫu độc lập được lấy ngẫu nhiên từ hai tổng thể có trung bình và phương sai lần
lượt là 1 , 2 , 12 , 22 , thì phân phối cho độ lệch của hai giá trị trung bình theo quy luật phân phối
chuẩn với kỳ vọng và phương sai lần lượt là ( n1 , n2 lần lượt là cở mẫu của 2 mẫu 2 tổng thể)
12 22
X 1 2 và X
1 X2 1 X2
n1 n2
5.3.2 Quy tắc thực hành
Trường hợp 1: Hai mẫu dữ liệu lấy độc lập.
Khoảng ước lượng cho độ chênh lệch giữa hai giá trị trung bình tổng thể 1 2 là khoảng
CHƯƠNG 5 : ƯỚC LƯỢNG KHOẢNG 87
X 1 X2 ; X1 X2
Trong đó độ chính xác được tính theo công thức
n1 ; n2 30
n1 30; X 1 ~ N 1 ; 12
n2 30; X2 ~ N ;
2
2
2
Biết 12 ; 22 12 22 12 22
z /2 z /2
n1 n2 n1 n2
Chưa biết 2 S12 S22 S2 S2
z /2 tn1/2n2 2
n1 n2 n1 n2
Trong đó khi cỡ mẫu của hai mẫu đều nhỏ thì phương sai mẫu của kết hợp hai mẫu là
n1 1 S12 n2 1 S22
S2
n1 n2 2
12 22
z /2 ; z /2 được tính theo phân phối chuẩn.
n1 n2
S 2 S 2 n1 n2 2
tn1/2n2 2 ; t /2 được tính theo phân phối Student.
n1 n2
Trường hợp 2: Hai mẫu dữ liệu lấy phối hợp từng cặp. (Hai mẫu dữ liệu phụ thuộc).
Giả sử ta có mẫu n cặp quan sát x , y lấy từ hai tổng thể X , Y : x1 , y1 ; x 2 , y 2 ;..., x n , yn , gọi
1 , 2 là trung bình của hai tổng thể. Ta lặp bộ dữ liệu mới là sự chênh lệch của từng cặp giá trị,
và d , d lần lượt là trung bình và độ lệch chuẩn của bộ dữ liệu mới. Với độ tin cậy 1 thì khoảng
ước lượng cho sự chênh lệch hai giá trị trung bình của hai tổng thể là khoảng
d ;d
Trong đó độ chính xác tính theo các trường hợp sau
n 30 n 30
2
d đã biết d
z /2 d z /2
n n
d 2 chưa biết S Sd
z /2 d tn /21 .
n n
d
z /2 ; z /2 được tính theo phân phối chuẩn.
n
S
tn /21 . d ; tn /21 được tính theo phân phối Student.
n
Ví dụ 5.4 Công ty điện lực thực hiện các biện pháp khuyến khích tiết kiệm điện. Lượng điện tiêu
thụ ghi nhân ở 12 hộ gia đình trước và sau khi có các biện pháp khuyến khích tiết kiệm điện như
sau
Hộ gia Lượng điện tiêu thụ (kwh) Hộ gia Lượng điện tiêu thụ (kwh)
đình Trước Sau đình Trước Sau
1 73 69 7 74 75
88
2 50 54 8 87 78
3 83 82 9 69 64
4 78 67 10 72 72
5 56 60 11 77 70
6 74 73 12 75 63
Sự thay đổi trung bình về lượng điện tiêu thụ trước và sau khi có các biện pháp tiết kiệm với độ
tin cậy 95% nằm trong khoảng:
S S
d tn /21 . d 1 2 d tn/21 . d
n n
n 1
Trong đó d 3,4167; Sd 5,4848; n 12;1 95% t /2 2,201
Ví dụ 5.5 Một công ty đang xem xét kế hoạch tiết giảm chi phí sản xuất thông qua việc xây dựng
dây chuyền sản xuất mới nhằm rút ngắn thời gian sản xuất sản phẩm. Ở dây chuyền sản xuất mới,
40 sản phẩm được sản xuất với thời gian trung bình 46,5 phút, và độ lệch chuẩn 8 phút. Còn dây
chuyền cũ 38 sản phẩm với thời gian trung bình là 51,2 phút, và độ lệch chuẩn 9,5 phút. Với độ tin
cậy 95% thì sự chênh lệch về thời gian trung bình sản xuất 1 sản phẩm nằm trong khoảng
S12 S22 S2 S2
X 1
X2 z /2 .
n1 n2
1 2 X1 X 2 z /2 . 1 2
n1 n2
X 46,5; S 1 8 ; n1 40
Trong đó 1 và 1 95% z /2 1,96
X 2 51,2; S 2 9,5; n2 38
Vậy khoảng ước lượng là 8,6077 1 2 0,7923
f p
Ta có P f p f 1 P 1
pq pq pq
n n n
pq f p pq
Mà Tn f ~ N p; ~ N 0;1 nên z /2 z /2
n pq pq n
n n
Nhưng trong công thức độ chính xác thì p , q là các tham số tổng thể nên ta sẽ thay bằng tham số
mẫu, ta có:
CHƯƠNG 5 : ƯỚC LƯỢNG KHOẢNG 89
f 1 f
z /2
n
5.4.2 Quy tắc thực hành.
Khoảng ước lượng cho giá trị tỷ lệ p là khoảng f ; f .
f 1 f
Trong đó z /2 , với z /2 là phân vị của phân phối chuẩn.
n
Ví dụ 5.6 Một nghiên cứu được thực hiện nhằm ước lượng thị phần của sản phẩm nội địa đối
với mặt hàng bánh kẹo. Kết quả điều tra 100 khách hàng cho thấy có 34 người dùng sản phẩm nội
địa. Với độ tin cậy 95%, ta có khoảng ước lượng cho tỷ lệ khách hàng dùng bánh kẹo nội địa là
f 1 f f 1 f
f z /2 . p f z /2 .
n n
34
Trong đó f ; n 100;1 95% z /2 1,96
100
Ví dụ 5.7 Trung tâm Quốc gia về Thống kê Giáo dục báo cáo rằng 47% sinh viên cao đẳng làm
việc để trả học phí và chi phí sinh hoạt. Giả sử một mẫu của 450 sinh viên cao đẳng được sử dụng
trong nghiên cứu.
a. Cung cấp một khoảng tin cậy 95% cho tỷ lệ tổng thể sinh viên cao đẳng làm việc để trả cho học
phí và chi phí sinh hoạt.
b. Cung cấp một khoảng tin cậy 99% cho tỷ lệ tổng thể sinh viên cao đẳng làm việc để trả học phí
và chi phí sinh hoạt.
c. Điều gì xảy ra với sai số biên khi độ tin cậy gia tăng từ 95% đến 99%?
Giải.
a. Cung cấp một khoảng tin cậy 95% cho tỷ lệ tổng thể sinh viên cao đẳng làm việc để trả cho học
phí và chi phí sinh hoạt.
Ta có:
f 47%, n 450 , z / 2 1,96
f 1 f 0, 47 1 0, 47
z /2 1,96 0, 0461
n 450
f ; f 0, 47 0,0461;0, 47 0,0461 0, 4239;0,5161
b. Cung cấp một khoảng tin cậy 99% cho tỷ lệ tổng thể sinh viên cao đẳng làm việc để trả học phí
và chi phí sinh hoạt.
f 47%, n 450 , z /2 2,58
f 1 f 0, 47 1 0, 47
z /2 2,58 0, 0607
n 450
f ; f 0, 47 0,0607;0, 47 0,0607 0, 4093;0,5307
c. Điều gì xảy ra với sai số biên khi độ tin cậy gia tăng từ 95% đến 99%?
Sai số biên với độ tin cậy 95%, bằng 0,0461, nhỏ hơn sai số biến với độ tin cậy 99%, bằng 0,0607,
là 0,0146.
90
5.5. Khoảng tin cậy cho độ lệch hai giá trị tỷ lệ.
5.5.1 Phân tích.
Gọi p1 , p2 lần lượt là tỷ lệ của phần tử loại A trong 2 tổng thể. Khoảng ước lượng cho độ lệch hai
tỷ lệ đối với độ tin cậy 1 thông qua hàm ước lượng Z f1 f2 (với f1 , f2 lần lượt là tỷ lệ phần
tử loại A trên 2 mẫu độc lập của hai tổng thể) thỏa
P f1 f2 p1 p2 f1 f2 1
f1 1 f1 f2 1 f2
z /2 .
n1 n2
Ví dụ 5.8 Kết quả điều tra từ mẫu ngẫu nhiên 1000 người ở mỗi thành phố cho thấy năm 2014
tỷ lệ thất nghiệp ở thành phố Hồ Chí Minh là 7,5%, ở thành phố Phan Thiết là 7,2%; với độ tin cậy
99% thì sự chệnh lệch về tỷ lệ thất nghiệp của 2 thành phố nằm trong khoảng
f1 1 f1 f2 1 f2 f1 1 f1 f2 1 f2
f1 f2 z /2 . p1 p2 f1 f2 z /2 . Trong đó
n1 n2 n1 n2
p1 0,075; n1 1000
và 1 99% t /2 2,575
p2 0,072; n2 1000
Vậy khoảng ước lượng là 0,027 p1 p2 0,033
Vì vùng giá trị nằm đều xung quanh 0 nên ta không thể kết luận thành phố nào có tỷ lệ thất nghiệp
cao hơn, ta chỉ có thể kết luận tỷ lệ thất nghiệp của thành phố Hồ Chí Minh trong khoảng từ thấp
hơn 2,7% đến cao hơn 3,3% so với thành phố Phan Thiết.
P A 2 B 1
Định lý. Cho X 1 , X 2 ,..., X n là biến ngẫu nhiên có quy luật phân phối chuẩn với kỳ vọng là và
phương sai là 2 , và S 2 là phương sai mẫu (có hiệu chỉnh). Thì ta có
n 1 S 2 ~ 2,n1
2
Là phân phối Chi bình phương với n 1 bậc tự do.
2,n 1
Ta có P /2
2,n1
12,n/21 1 .
CHƯƠNG 5 : ƯỚC LƯỢNG KHOẢNG 91
2,n1 n 1 S 2
P
Nên ta có /2 ~ 2,n1 12,n/2
1
1 thay vào phương trình ta có
2
n 1 S 2 2 n 1 S 2
P 1
2,n1 2,/2n1
1 /2
n 1 S 2 n 1 S 2
Vậy khoảng ước lượng cho 2 với độ tin cậy 1 là ;
2,n 1 2,/2n1
1 /2
n 1 S 2 n 1 S 2
;
2,n 1
1 /2 2,/2n1
Trong đó 2,/2
n 1
; 12,n/2
1
tính theo phân vị Chi bình phương.
Đây là khoảng ước lượng hai phía, nghĩa là với giá trị chặn trên và chặn dưới chấp nhận sai số với
mức ý nghĩa / 2 .100% . Trong trường hợp ước lượng một phía, nghĩa là chặn trên hoặc chặn
dưới sẽ chấp nhận sai số với mức ý nghĩa 100% ta có ước lượng tương ứng:
2
S 2 n 1
Ước lượng phải (chặn trên) với độ tin cậy 1 100% : .
2,n 1
S 2 n 1
Ước lượng trái (chặn dưới) với độ tin cậy 1 100% : 2 .
12,n1
Ví dụ 5.9 Khảo sát thời gian tự học (giờ) trong 1 tuần của sinh viên một trường cao đẳng, khảo
sát số liệu trên 78 sinh viên ta có bảng số liệu sau
Số giờ 5 6 7 8 9 10
Số sinh viên 2 25 30 15 4 2
Với độ tin cậy 95%, ước lượng cho phương sai thời gian tự học của sinh viên sẽ nằm trong khoảng
là
n 1 S 2 n 1 S 2
2
12,n/21 2,/2n1
2,77
0,025 54,62
Trong đó n 78; S 2 1,065 và 1 95% 2,77
0,975 104,3
Vậy khoảng ước lượng cho phương sai là 0,7946 2 1,5014
92
5.7. Khoảng tin cậy cho dự đoán giá trị quan sát
i. Phân tích
Trong một số trường hợp ta phải dự đoán một giá trị sẽ xảy ra của biến ngẫu nhiên, ta sẽ đưa ra
một phương pháp để thu được khoảng dự đoán cho giá trị tương lai theo quy luật phân phối
chuẩn.Giả sữ X 1 , X 2 ,..., X n là biến ngẫu nhiên có quy luật phân phối chuẩn. Ta cần dự đoán khoảng
giá trị cho biến ngẫu nhiên X n 1 . Điểm dự đoán cho X n1 là trung bình mẫu X , với sai số dự đoán
là X n1 X .
Kỳ vọng của sai số dự đoán là E Xn1 X 0
2 1
Phương sai của sai số dự đoán là Var Xn1 X
2
2 1
n n
Vì giá trị quan sát X n 1 và trung bình mẫu hoàn toàn độc lập nên X n1 X có quy luật phân phối
chuẩn, do đó:
Z
X n 1 X 0
~ N 0,1
1
1
n
Thay thế bằng S ta có
T
X n 1 X 0
~ T n 1
1
S 1
n
Ước lượng khoảng cho giá trị X n 1 bằng giá trị trung bình X với độ tin cậy 1 100% :
X n 1 X
P X Xn1 X 1 P
1
1
1
1
S 1 S 1 S 1
n n n
n 1 n1
Với T ~ T n1 ta có P t /2 T t /2 1
1
Vậy tn /21 tn/21 S 1 .
1 n
S 1
n
ii. Quy tắc thực hành.
Ví dụ 5.10 Một bài viết trên tạp chí Vật liệu (năm 1989, Vol. II, số 4, tr. 275-281) mô tả các kết
quả của bài kiểm tra độ bám dính trên 22 mẫu hợp kim U-700. Bộ mẫu thu được như sau (theo
đơn vị megapascals)
19.8 10.1 14.9 7.5 15.4 15.4 15.4 18.5 7.9 12.7 11.9
11.4 11.4 14.1 17.6 16.7 15.8 19.5 8.8 13.6 11.9 11.4
Với độ tin cậy 95%, khoảng ước lượng cho giá trị dự đoán thứ 23 nằm trong khoảng
CHƯƠNG 5 : ƯỚC LƯỢNG KHOẢNG 93
1 1
X tn/21 .S 1 X23 X tn/21 .S 1
n n
Trong đó X 13,71; S 3,55; n 22;1 95% t 21,25 2,08
Vậy khoảng ước lượng cho dự đoán giá trị thứ 23 là : 6,16 X 23 21,26
94
CHƯƠNG 6
KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ
Mục lục chương 6
Trong phần chương 6 chúng ta đã đưa ra phương pháp để ước lượng cho tham số tổng thể dựa
trên dữ liệu mẫu dữ liệu, mục đích của chương 7 là đưa ra phương pháp cho việc kiểm tra các kết
luận đối với tham số tổng thể dựa trên mẫu dữ liệu.
Ví dụ 6.1 Một trường đại học, khảo sát về vấn đề tỷ lệ có việc làm của sinh viên sau khi học đại
học. Nếu trường đại học muốn đưa ra một số liệu về tỷ lệ có việc làm của sinh viên sau khi học, thì
đây là bài toán ước lượng. Trường hợp lúc này, trường đại học muốn khẳng định về uy tính và
chất lượng của trường ngày càng tăng, thì nhà trường phải khẳng định tỷ lệ sinh viên có việc làm
sau khi học có khuynh hướng tăng so với một mức tỷ lệ mà trường đã đạt được trong những năm
trước. Thì bài toán lúc này trở thành kiểm định giả thiết thống kê.
Trong bài toán kiểm định về giả thiết thống kê. Một giả thiết được đặt ra, thì mục tiêu chúng ta
muốn là thu thập dữ liệu để có thể khẳng định giả thiết đó là sai. Nhưng khi không thể khẳng định
giả thiết ban đầu sai, thì điều này đồng nghĩa là ta chưa thu thập đủ dữ liệu, chứ không phải là giả
thiết ban đầu đúng.
Mục tiêu bài toán có một sự tương đồng về qui trình được sử dụng tại một phiên tòa xét xử. Khi
xét xử một người vì tội trộm cắp, thì tòa án cho rằng bị cáo là vô tội cho đến khi được chứng minh
là có tội. Bên nguyên thu thập và trình bày tất cả các bằng chứng sẵn có trong một nỗ lực nhằm
phủ nhận giả thuyết “không có tội” để đạt được kết luận người này có tội. Tuy nhiên, nếu bên
nguyên thất bại trong việc bác bỏ giả thuyết “không có tội” này, thì điều này không chứng minh
được rằng bị cáo là “vô tội” mà chỉ đơn thuần là chưa có đủ bằng chứng để kết luận rằng bị cáo là
“có tội”.
Giả thiết H0 là một khẳng định mà nhà nghiên cứu không mong muốn ủng hộ. Giả thiết H0
được đặt ra để làm nền tảng tính toán cho bài toán kiểm định.
Đối thiêt H1 là sự phủ nhận của giả thiết H0 ; nghĩa là, nếu giả thuyết không là sai, thì đối thiết
phải là đúng. Và nhà nghiên cứu phải thu thập dữ liệu để cố gắng đạt được điều đó.
Quyết định bác bỏ hay chấp nhận giả thiết H0 được căn cứ vào thông tin chứa trong một mẫu
được lấy ra từ tổng thể. Các giá trị của mẫu được sử dụng để tính toán một con số duy nhất, gọi là
trị thống kê . Toàn bộ tập hợp các giá trị mà trị thống kê kiểm định này có thể có được chia thành
hai miền. Một miền, bao gồm các giá trị mà ủng hộ cho đối thiết H1 , được gọi là miền bác bỏ.
Miền kia, bao gồm các giá trị mà không mâu thuẫn với giả thuyết không, được gọi là miền chấp
nhận.
Miền chấp nhận và bác bỏ được phân cách bởi một giá trị tới hạn của trị thống kê kiểm định đó.
Nếu trị thống kê kiểm định này được tính từ một mẫu cụ thể có một giá trị nằm trong miền bác
bỏ, thì giả thuyết không bị bác bỏ, và giả thuyết thay thế H1 được chấp nhận. Nếu trị thống kê đó
rơi vào miền chấp nhận, thì hoặc là giả thuyết không được chấp nhận hoặc trị thống kê đó bị đánh
giá là không thuyết phục. Trong bất cứ trường hợp nào, thì sự thất bại trong việc bác bỏ H1
hàm ý rằng dữ liệu này không đủ bằng chứng để hỗ trợ H1 .
Ví dụ 6.2 Khảo sát về điểm trung bình của sinh viên sau khi tốt nghiệp, của một khoa, của một
trường Đại học. Chúng ta muốn biết điểm trung bình của sinh viên có khác 7,0 không. Thì giả thiết
và đối thiết như sau:
Giả thiết H0 : 7,0 Đối thiết H1 : 7,0
Công việc kiểm định được thực hiện, bằng cách khảo sát 100 sinh viên về điểm trung bình. Và tính
trung bình điểm trung bình của 1 sinh viên, giá trị là X . Vì ta đang so giữa trung bình mẫu và
trung bình tổng thể 7,0 , nên việc so sánh phải phù hợp với một sai số cho phép. Với sai số đó
ta mở ra một vùng giá trị xung quanh 7,0 . Nếu X không nằm trong vùng đó thì ta bác bỏ giả
thiết H0 , tức đối thiết H1 đúng, còn ngược lại thì ta chưa đủ bằng chứng bác bỏ H0 . Sơ đố
như sau:
Sai lầm loại I: Bác bỏ H0 khi thực tế H 0 đúng. Xác suất của việc tạo ra một sai lầm loại I được biểu
thị bởi ký hiệu .
Sai lầm loại II: Chấp nhận H0 khi thực tế H0 sai. Xác suất của việc tạo ra một sai lầm loại II được
biểu thị bởi ký hiệu .
Mức độ thích hợp của một kiểm định thống kê được đo lường bởi xác suất tạo ra sai lầm loại I và
sai lầm loại II. Bởi vì là xác suất của việc bác bỏ H0 khi thực tế giả thuyết này là đúng, cho nên
đây là một đại lượng của cơ may bác bỏ sai H0 . Bởi vì là xác suất của việc chấp nhận H0 khi
thực tế giả thuyết này là sai, cho nên phần bù của nó, 1 là xác suất của việc bác bỏ H 0 khi thực
tế giả thuyết này là sai. Xác suất 1 được gọi là năng lực của sự kiểm định của mô hình.
Một cách thức khác để báo cáo kết quả kiểm định là thông qua giá trị p ( p -value). Xác suất
của việc tạo ra sai lầm loại I thường gọi là mức ý nghĩa của mô hình kiểm định, và trong quá trình
kiểm định thì chúng ta có thể chọn các mức ý nghĩa khác nhau (ví dụ như 0,05 z /2 1,96 ,
0,01 z /2 2,58 ,…) nên đôi khi kết quả kiểm định bác bỏ với mức ý nghĩa thứ nhất, nhưng
lại chấp nhận với mức ý nghĩa thứ hai. Nên đôi khi các bài báo cáo sẽ chọn mức ý nghĩa thấp nhất
để mô hình kiểm định có ý nghĩa.
Giá trị p hay mức ý nghĩa quan sát được là giá trị nhỏ nhất của mà qua đó các mô hình kiểm
định có ý nghĩa về mặt thống kê
Nếu một kết quả kiểm định có ý nghĩa về mặt thống kê với 0,10 nhưng không có ý nghĩa với
0,05 thì ta có thể hiểu giá trị p là một số trong khoảng 0,05 p 0,10 . Hay nói cách khác nếu
giá trị p nhỏ hơn giá trị , thì ta bác bỏ giả thiết H 0 và ngược lại.
6.2 KIỂM ĐỊNH GIẢ THIẾT CHO MỘT GIÁ TRỊ TỶ LỆ TỔNG THỂ.
Quan sát từng phần tử, coi phần tử quan sát có mang tính chất A hay không. Thực hiện công việc
n lần, tương ứng chính là mẫu dữ liệu. Gọi X là biến ngẫu nhiên chỉ số phần tử mang tính chất A
, kết hợp giả thiết p p0 ta có (theo chương 3 và 6) ta có:
X np0
X ~ N npo , np0 1 p0 z ~ N 0;1
np0 1 p0
Đặt f là tỷ lệ phần tử mang tính chất A trong n phần tử quan sát. Ta có
X
X np0 p0 f p0
z n n ~ N 0;1
np0 1 p0 np0 1 p0 p0 1 p0
n
CHƯƠNG 6 : KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ 97
Giá trị z mang ý nghĩa đo mức chênh lệch giữa f (tỷ lệ phần tử mang tính chất A trên mẫu dữ
liệu, đại diện cho p ) với p0 .
Trong bài toán kiểm định với giả thiết H0 : p p0 và đối thiết H1 : p p0 .
Mức ý nghĩa được phân đều 2 phía và P z z /2 : là
xác suất quyết định bác bỏ giả thiết H 0 khi thực tế giả thiết
H0 đúng.
Nghĩa là ta chấp nhận đối thiết H1 khi z z /2 hoặc
z z /2
Trong bài toán kiểm định với giả thiết H0 : p p0 và đối thiết H1 : p p0 .
Trong bài toán kiểm định với giả thiết H 0 : p p0 và đối thiết H1 : p p0 .
Ví dụ 6.3 Các báo cáo trước đây khảo sát về gia cảnh của sinh viên năm nhất ở một trường đại
học cho biết có 86% sinh viên đại học năm thứ nhất. Năm nay,trường đại học này làm một cuộc
khảo sát tương tự về vấn đề trên, khi hỏi 1000 sinh viên năm thứ nhất được chọn ngẫu nhiên thì
thấy có 890 sinh viên được nhận hỗ trợ tài chính từ gia đình. Với mức ý nghĩa 5% , các báo cáo
trên có còn đúng cho tình hình sinh viên năm nay hay không.
Giải. Mô hình kiểm định trong trường hợp này có dạng
1. H0 : p 86% và H1 : p 86%
Trong đó p là tỷ lệ sinh viên năm nhất nhận được hỗ trợ tài chính từ gia đình.
890
Và dữ liệu đề bài cho: n 1000 và f 0,89
1000
Kết luận : vì trị thống kê cao hơn phân vị z z /2 nên ta hoàn toàn có thể bác bỏ giả thiết H0 , tức
tỷ lệ sinh viên năm nhất năm nay nhận được hỗ trợ tài chính từ gia đình khác với báo cáo các năm
trước.
6.3 KIỂM ĐỊNH GIẢ THIẾT CHO MỘT TRUNG BÌNH TỔNG THỂ.
Giá trị của z đo mức độ chênh lệch giữa trung bình mẫu (đại diện cho ) và 0 , là trị thống kê
trong mô hình kiểm định giả thiết H 0 : 0 .
Trong trường hợp phương sai tổng thể chưa biết, ta thay thế phương sai tổng thể bằng phương
2
sai mẫu S . Đặt:
X X 1 X n 1
z . .
S S n 1 S 2
n n n 2
2
X n 1 S X
n ~ t n 1
Trong đó ~ N 0;1 và 2
~ n21 nên z
S
n
Nhưng khi cỡ mẫu lớn hơn 30 thì phần phôi Student xấp xỉ bằng phân phối chuẩn. Nên khi phương
sai tổng thể chưa biết và cỡ mẫu n 30 , ta có:
X
n ~ N 0;1
z
S
6.3.2 So sánh trung bình tổng thể với một số khi biết phương sai.
1. Giả thiết không H0 : 0 .
2. Giả thiết đối.
Kiểm định hai phía Kiểm định một phía
H1 : 0 H1 : 0
H1 : 0
3. Trị thống kê
X 0
Trị thống kê : z n
4. Miền bác bỏ
Kiểm định 2 phía Kiểm định 1 phía Kiểm định 1 phía
6.3.3 So sánh trung bình tổng thể với một số khi không biết phương sai.
1. Giả thiết không H0 : 0 .
2. Giả thiết đối.
Kiểm định hai phía Kiểm định một phía
H1 : 0 H1 : 0
H1 : 0
3. Trị thống kê
X 0
Trị thống kê : z n
S
100
4. Miền bác bỏ
a. Trường hợp cỡ mẫu n 30 , trị thống kê có quy luật phân phối chuẩn : z ~ N 0;1 .
Kiểm định 2 phía Kiểm định 1 phía Kiểm định 1 phí
Ví dụ 6.4 Sản lượng hàng ngày tại một nhà máy hóa chất, được ghi nhận cho n 50 ngày, có một
số trung bình và độ lệch chuẩn của mẫu là X 871 tấn và S 21 tấn. Hãy kiểm định giả thuyết
rằng sản lượng bình quân hàng ngày của nhà máy đó là 880 tấn mỗi ngày so với giả thuyết
thay thế là hoặc lớn hơn hay nhỏ hơn 880 tấn mỗi ngày.
Giải:
Mô hình kiểm định:
1. H 0 : 880 tấn và H1 : 880 tấn
Với là sản lượng trung bình của nhà máy hóa chất trong một ngày.
X 0
2. Trị thống kê : z
S/ n
Trong đó X 871; 880; S 21; n 50 , vậy ta có z 3,03
Ví dụ 6.5 Khảo sát về việc đánh bắt các ngừ tại một vùng biển trong năm qua. Một báo cáo cho
biết trọng lượng trung bình một con cá ngừ trong các năm trước là khoảng 30,31 pound
CHƯƠNG 6 : KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ 101
1pound 0.453592kg . Nhưng gần đây việc đánh bắt cá ngừ gia tăng, làm ảnh hưởng đến trọng
lượng trung bình của một con cá ngừ trong vùng, khảo sát mẫu gồm 20 con cho bảng số liệu sau:
17,4 18,9 39,6 34,4 19,6 24,1 39,6 12,2 25,5 22,1
33,7 37,2 43,4 41,7 27,5 29,3 21,1 23,8 43,2 24,4
Hỏi mẫu dữ liệu trên có đủ sức bác bỏ luận điểm trên hay không với mức ý nghĩa 5%
Giải. Mô hình kiểm định tương ứng bài toán là:
1. H0 : 30,31 và H1 : 30,31
Trong đó là trọng lượng trung bình của 1 con cá ngừ bắt tại vùng biển này.
2. Trị thống kê của mô hình: (cỡ mẫu nhỏ n 20 ; phương sai tổng thể chưa biết) :
X 0
z n
S
Với các số liệu thu được ta có n 20 ; X 28,935 ; S 9,5074 . Nên ta có giá trị của trị thống kê:
z 0,6468 .
3. Với mức ý nghĩa 5% ta có phân vị sử dụng tn/21 t0,025
19
2,093 .
19
4. Kết luận z t0,025 nên không đủ bằng chứng để bác bỏ giá thiết H0 , tức trọng lượng trung
bình của 1 con cá ngừ ở vùng biển này vẫn là 30,31 pound.
6.4 KIỂM ĐỊNH GIẢ THIẾT CHO PHƯƠNG SAI TỔNG THỂ.
2 2 2 2 2 2
Đối thiết : H1 : 0 Đối thiết : H1 : 0 Đối thiết : H1 : 0
Bác bỏ H0 khi: Bác bỏ H0 khi: Bác bỏ H0 khi:
n
n
1 /2 1 n
n
/2
6.4.3 So sánh phương sai tổng thể với một số khi chưa biết trung bình µ.
2 2
1. Giả thiết không H0 : 0 .
2. Giả thiết đối.
Kiểm định hai phía Kiểm định một phía
H1 : 2 02 H1 : 2 02
H1 : 2 02
3. Trị thống kê.
Với
Trị thống kê :
n 1 S 2
02
4. Miền bác bỏ.
Trị thống kê có quy luật phân phối Chi bình phương bậc tự do n 1 : ~ n21
Kiểm định 2 phía Kiểm định 1 phía Kiểm định 1 phía
2 2 2 2 2 2
Đối thiết : H1 : 0 Đối thiết : H1 : 0 Đối thiết : H1 : 0
Bác bỏ H0 khi: Bác bỏ H0 khi: Bác bỏ H0 khi:
CHƯƠNG 6 : KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ 103
Ví dụ 6.6 Một nhà máy sản xuất tay đòn kim loại dùng trong hệ thống giảm xóc của xe máy, một
mẫu gồm 15 tay đòn được chọn ngẫu nhiên,và được đo đạc đường kính. Kết quả theo đơn vị mm
cho bởi bảng dữ liệu sau:
8.24 8.25 8.2 8.23 8.24
8.21 8.26 8.26 8.2 8.25
8.23 8.23 8.19 8.28 8.24
Biết rằng các báo cáo trước đây khẳng định đường kính của tay đòn do nhà máy sản xuất có giá trị
trung bình là 8,22mm, và độ lệch chuẩn là 0,02mm. Hỏi các báo cáo trước đây về phương sai của
đường kính tay đòn có còn đúng với mức ý nghĩa 5% hay không.
Giải. Mô hình kiểm định có dạng là
1. H0 : 2 0,022 và H1 : 2 0,022
Trong đó x i là đường kình của tay đòn thu từ mẫu dữ liệu, 8,22 , 02 0,022 . Ta có giá trị trị
thống kê: 29,75 .
20 20
3. Phân vị sử dụng : 0,975 9,591 và 0,025 34,170 .
20 20
4. Kết luận: Vì 0,975 0,025 , nên ta kết luận không đủ bằng chứng bác bỏ báo cáo trước
đây về phương sai của đường kính tay đòn do nhà máy này sản xuất.
Ví dụ 6.7 Một xí nghiệp sản xuất xi măng đã xác nhận rằng bê tông được làm từ xi măng của xí
2
nghiệp có sức chịu nén kg / cm khá ổn định theo tiêu chuẩn xây dựng là sức chịu nén dao động
quanh giá trị trung bình với độ lệch 10 kg / cm2 . Khảo sát trên n 10 mẫu bê tông đo tạo ra một
số trung bình và phương sai lần lượt bằng với X 312; S 2 195 . Liệu có đủ bằng chứng bác bỏ sự
xác nhận của nhà máy này không rằng sức chịu nén của bê tông là không ổn định, với mức ý nghĩa
5%.
Giải: Mô hình kiểm định trong trường hợp này có dạng
1. H0 : 2 102 và H1 : 2 102
n 1 S 2
2. Trị thống kê dùng trong mô hình này là
02
Trong đó n 10; 0 10; S 195 , nên trị thống kê 17,55 .
n 1 9
3. Mức ý nghĩa của kiểm định là 5% tương ứng phân vị 0,05 16,919 .
9
4. Kết luận : vì trị thống kê cao hơn phân vị ( 0,05 ) nên ta hoàn toàn có thể bác bỏ khẳng
định của nhà máy này về bê tông của họ.
104
6.5 KIỂM ĐỊNH GIẢ THIẾT CHO HAI GIÁ TRỊ TỶ LỆ TỔNG THỂ.
6.5.1 Kiểm định giả thiết so sánh 2 tỷ lệ tổng thể sử dụng phân phối chuẩn.
i. Phân tích.
Xét hai tổng thể và một đặc trưng A , mỗi phần tử trong tổng thể chỉ mang hai tính chất là có tính
chất A hoặc không có tính chất A . Xét trên hai mẫu cụ thể lấy từ mỗi tổng thể, ta cần kiểm định
giả thiết tỷ lệ phần tử có tính chất A trong hai tổng thể này có bằng nhau hay không với mức ý
nghĩa .
Gọi f1 ; f2 là tỷ lệ phần tử mang đặc trưng A của hai mẫu, (theo chương 5) ta có :
p 1 p1 p2 1 p2
f1 ~ N p1 ; 1 ; f2 ~ N p2 ;
n1 n2
p 1 p1 p2 1 p2
Vậy f1 f2 ~ N p1 p2 ; 1 , nên ta có
n1 n2
f1 f2 p1 p2 ~ N 0;1
z
p1 1 p1 p2 1 p2
n1 n2
Kết hợp giả thiết H0 : p1 p2 và gọi f là tỷ lệ phần tử mang đặc trưng A của cả hai mẫu dùng để
ước lượng cho p1 và p2 . Ta có
f1 f 2 f1 f2
z ~ N 0;1
f 1 f f 1 f 1 1
f 1 f
n1 n2 n1 n2
z là trị thống kê cho mô hình kiểm định giả thiết về sự bằng nhau của 2 tỷ lệ phần tử mang đặc
trưng A trên hai tổng thể.
ii. Mô hình kiểm định.
1. Giả thiết không H0 : p1 p2
2. Giả thiết đối
Kiểm định hai phía Kiểm định một phía
H1 : p1 p2 H1 : p1 p2
H1 : p1 p2
3. Trị thống kê
Với f1 ; f2 : tỷ lệ phần tử mang tính chất A trên mỗi mẫu.
Với f : tỷ lệ phần tử mang tính chất A của 2 mẫu :
n1 f1 n2 f2
f
n1 n2
Trị thống kê : z
f1 f2
1 1
f 1 f
n1 n2
Trong đó f là tỷ lệ phần tử loại A của 2 mẫu lấy trên hai tổng thể.
4. Miền bác bỏ.
Trị thống kê có quy luật phân phối chuẩn : z ~ N 0;1
CHƯƠNG 6 : KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ 105
Ví dụ 6.8 Một nguời quản lý bệnh viện nghi ngờ rằng trễ hạn trong việc thanh toán các hóa đơn
viện phí đã gia tăng trong năm vừa qua. Hồ sơ lưu trữ của bệnh viện cho thấy rằng các hóa đơn
của 48 trong số 1284 người nhập viện trong tháng Tư đã trễ hạn trong hơn 90 ngày. Con số này
so với 34 trong số 1002 người nhập viện trong cùng tháng này năm trước đó. Liệu những dữ liệu
này có cung cấp đủ bằng chứng để cho thấy có một sự gia tăng trong tỷ lệ trễ hạn thanh toán vượt
quá 90 ngày không? Hãy kiểm định qua việc sử dụng 0,10 .
Giải: Vì chúng ta muốn kiểm định có một sự gia tăng trong tỷ lệ, nên mô hình kiểm định có dạng
1. H0 : p1 p2 và H0 : p1 p2
(trong đó chỉ số 1 tương trưng số liệu năm cũ và chỉ số 2 chỉ số liệu cho năm nay)
6.5.2 Kiểm định giả thiết so sánh 2 tỷ lệ tổng thể sử dụng phân phối chi bình
phương
i. Phân tích.
Thay vì dùng kiểm định z cho hai tỷ lệ tổng thể thông qua việc so sánh trực tiếp hai giá trị tỷ lệ.
Ta có thể dùng kiểm định bằng cách sử dụng bảng 2 chiều bai gồm tần số thành công và không
thành công trong hai nhóm :
Biến trên cột
Biến trên hàng Nhóm 1 Nhóm 2 Tổng
Thành công X1 X2 X X1 X2
Không thành công n1 X 1 n2 X 2 n X
Tổng n1 n2 n n1 n2
Trong đó
X1 ; X2 : tần số thực tế thành công trong nhóm 1 và 2.
106
Ví dụ 6.9 Một công ty sở hữu hai khu nghỉ dưỡng trên một hòn đảo du lịch đã tiến hành một
cuộc khảo sát sự hài lòng của khách hàng sau khi họ nghỉ tại đây, trong bảng câu hỏi điều tra có
câu hỏi về việc khác hàng có dự định quay lại đây một lần nữa không? Số liệu thu được cho trong
bảng bên dưới. Với mức ý nghĩa 5%, có bằng chứng thống kê nào cho thấy có sự khác biệt trong
mức độ hài lòng của khách hàng (đo bằng ý định họ sẽ quay trở lại) tại hai khu nghỉ dưỡng A và B
hay không.
Khu nghỉ
Dự định quay lại A B Tổng
Có 163 154 317
Không 64 108 172
Tổng 227 262 489
CHƯƠNG 6 : KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ 107
Giả thiết H 0 : p1 p2 ( p1 ; p2 là tỷ lệ khách hàng dự định quay lại khu nghỉ dưỡng A và B)
Đối thiết H 1 : p1 p2
Bảng tần số thực tế
Khu nghỉ
Dự định quay lại A B Tổng
317
Có E 11 163 E12 154 317 ps
489
172
Không E 21 64 E22 108 172 1 ps
489
Tổng 227 262 489
Bảng tần số lý thuyết
Khu nghỉ
Dự định quay lại A B Tổng
Có 317 317 317
O11 .227 O12 .262
489 489
Không 172 172 172
O21 .227 O22 .262
489 489
Tổng 227 262 489
2
6.6 KIỂM ĐỊNH GIẢ THIẾT CHO HAI TRUNG BÌNH TỔNG THỂ.
z
X 1
X 2 1 2
X 1 X2 ~ N 0;1
2 2 2 2
1 2
1 2
n1 n2 n1 n2
z là trị thống kê trong mô hình kiểm định giả thiết H 0 : 1 2 , khi biết phương sai hai tổng thể.
6.6.2 So sánh hai trung bình tổng thể khi biết phương sai.
108
Ví dụ 6.10 Một cửa hàng bán thức ăn nhanh đã cân nhắc sử dụng phiếu giảm giá để kích thích
doanh số bán hàng của mình. Công ty đặc biệt quan tâm đến việc liệu có sự khác biệt giữa những
110
người độc thân so với các cặp vợ chồng đối với việc dùng phiếu giảm giá không. Một cuộc thăm dò
của người tiêu dùng đã yêu cầu họ trả lời câu hỏi "Bạn có sử dụng phiếu giảm giá thường xuyên?"
Theo thang điểm số, trong đó 1 là đồng ý mạnh mẽ, 2 cho đồng ý, 3 cho trung lập, 4 cho không
đồng ý, và 5 cho không đồng ý mạnh mẽ. Kết quả cuộc thăm dò được đưa ra trong bảng sau:
Người độc thân Cặp vợ chồng
n1 31 . n2 57 .
X 1 3,10 X2 2,43
S 1 1, 460 S 2 1,350
Theo dữ liệu thu được, hỏi có sự khác biệt về điểm đánh giá trung bình của hai nhóm người khảo
sát với mức ý nghĩa 5% hay không
Giải. Mô hình kiểm định trong trường hợp này
1. H 0 : 1 2 và H1 : 1 2
Trong đó 1 ; 2 là điểm trung bình của nhóm người độc thân và nhóm các các cặp vợ chồng cho
đối với phiếu giảm giá.
X1 X2
2. Trị thống kê trong mô hình: (Không biết phương sai, cỡ mẫu lớn) z .
S 12 S 22
n1 n2
4. Kết luận: Vì z z /2 nên bác bỏ giả thiết H 0 , nghĩa là hai nhóm người này có điểm đánh
giá trung bình cho phiếu khuyến mãi là khác nhau.
Ví dụ 6.11 Một công ty hóa chất, quan tâm ảnh hưởng của chất xúc tác ảnh hưởng đến tốc độ
trung bình của một quá trình hóa học. Một thử nghiệm được chạy trong nhà máy thí điểm và kết
quả trong các dữ liệu thể hiện trong bảng sau. Dựa trên dữ liệu, hỏi có sự khác nhau giữa tốc độ
trung bình của quá trình hóa học bị tác động bởi hai chất xúc tác khác nhau hay không với mức ý
nghĩa 5% và phương sai về tốc độ phản ứng tương ứng 2 chất xúc tác giống nhau.
Quá trình 1 2 3 4 5 6 7 8
Chất xúc tác 1 91.5 94.18 92.18 95.39 91.79 89.07 94.72 89.21
Chất xúc tác 2 89.19 90.95 90.46 93.21 97.19 97.04 91.07 92.75
Giải. Mô hình kiểm định trong trường hợp này là:
1. H 0 : 1 2 và H 0 : 1 2 .
Trong đó 1 ; 2 là tốc độ phản ứng trung bình khi cho tương ứng chất xúc tác 1 và 2.
2. Trị thống kê cho mô hình: (cỡ mẫu nhỏ, phương sai chưa biết và bằng nhau)
X X2 X1 X2
z 1 .
2 2
S S 1 1
S2
n1 n2 n1 n2
Từ hai mẫu dữ liệu cho ta các kết quả về tốc độ của phản ứng hóa học ảnh hưởng bởi hai chất xúc
tác là:
Cỡ mẫu Trung bình Độ lệch chuẩn
Chất xúc tác 1 8 X1 92,255 S 1 2,39
CHƯƠNG 6 : KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ 111
6.7 KIỂM ĐỊNH GIẢ THIẾT CHO HAI PHƯƠNG SAI TỔNG THỂ
Khi cần có một phương pháp để thực hiện kiểm định 2 tổng thể có biến động cùng mức độ như
nhau hay không (ví dụ tính ổn định của phương pháp sản xuất, cách cho điểm của 2 giảng viên đại
học…) chúng ta dùng phương pháp kiểm định phương sai của hai tổng thể độc lập:
2 2
1. Giả thiết không H0 :1 2 .
2. Giả thiết đối.
Kiểm định hai phía Kiểm định một phía
2 2
H1 : 1 2 H 1 : 12 22
H 1 : 12 22
3. Trị thống kê.
Với S 1 ; S 2 : độ lệch chuẩn của mẫu thứ nhất và mẫu thứ hai với cỡ mẫu lần lượt là n1 ; n2
S12
Trị thống kê : F
S22
4. Miền bác bỏ.
Trị thống kê có quy luật phân phối Fisher bậc tự do n1 ; n2 : F ~ Fn1 1,n2 1
Kiểm định 2 phía Kiểm định 1 phía Kiểm định 1 phía
Xét một tổng thể trên đó có hai dấu hiệu định tính X ;Y . Giả sử thuộc tính X có k trường hợp là
x1 ; x2 ;...; x k , và thuộc tính Y có m trường hợp là y1 ; y2 ;...; ym . Khảo sát một bộ mẫu gồm n dữ
liệu, bảng tần số tương ứng với từng cặp trường hợp của 2 thuộc tính X ;Y có dạng:
X Y y1 y2 … yj … ym Tổng cột
x1 n11 n12 … n1 j … n1m p1
x2 n21 .. … n2 j … n2m p2
… … … … … … … …
xi ni1 ni 2 … nij … nim pi
… … … … … … … …
xk nk 1 nk 2 ... nkj … nkm pk
Tổng hàng q1 q2 … qj … qm n
m k
Trong đó pi nij và q j nij
j 1 i 1
Giả thiết H 0 đặt ra là hai thuộc tính X ;Y là độc lập với nhau. Theo giả thiết đó ta có
P X xi Y y j P X x i .P Y y j
nij
pi q j
Và tương đương với . với mọi i 1, k ; j 1, m .
n n n
Vì thế trị thống kê cho mô hình kiểm định giả thiết H 0 là:
nij pi q j
.
n n n k m
G n ~ 2k 1m1
i 1 j 1 pi jq
.
n n
Rút gọn biểu thức G ta có công thức tính trị thống kê:
k m nij2
G n 1
i 1 j 1 pi .q j
6.8.2 Kiểm định độc lập của hai bộ dữ liệu định tính.
1. Giả thiết không H 0 : X ;Y độc lập với nhau.
2. Giả thiết đối H1 : X ;Y không độc lập với nhau.
3. Trị thống kê
Với nij : chỉ số phần tử mà thuộc tính X nhận giá trị x i và thuộc tính Y nhận
Ví dụ 6.12 Một hãng bánh muốn khảo sát về sự ảnh hưởng của màu sắc đối với các loại bánh được
khách hàng chọn mua. Một mẫu gồm 148 chiếc bánh được bán ra có kết quả như sau
Bánh đậu Bánh dừa Bánh thập cẩm
Màu tự nhiên 20 25 18
Phẩm màu 29 43 13
Với mức ý nghĩa 5% , kiểm định bánh được chọn mua có ảnh hưởng bởi màu sắc không.
Bánh đậu Bánh dừa Bánh thập cẩm Tổng cột
Màu tự nhiên 20 25 18 63
Phẩm màu 29 43 13 85
Tổng dòng 49 68 31 148
Mô hình kiểm định
1. H0 : Màu sắc và loại bánh độc lập với nhau.
H1 : Màu sắc và loại bánh phụ thuộc vào nhau.
2. Trị thống kê :
202 252 182 292 432 132
G 148 4,0552
49.63 68.63 31.63 49.85 68.85 31.85
3. Với mức ý nghĩa 5% ta có phân vị của phân phối Chi bình phương bậc tự do 2 13 1
3
là 0,05 5,991
3
4. Kết luận : Vì G 0,05 nên chấp nhận giả thiết H 0 nghĩa bánh được mua, giữa loại bánh và
màu sắc là độc lập với nhau.
46
CHƯƠNG
13
NGUYÊN LÝ THỐNG KÊ VÀ
CÁC KHÁI NIỆM CƠ BẢN
Mục lục chương 3
Trong quá trình ứng dụng thống kê để giải quyết các vấn đề, đối với một đối tượng nghiên cứu, vì
những lý do thực tế đôi khi ta không thể thu thập toàn bộ dữ liệu, mà ta chỉ nghiên cứu trên một
phần, một bộ phận của đối tượng. Do đó dữ liệu thống kê được dùng theo hai mục tiêu là thống kê
mô tả và thống kê suy diễn.
Thống kê mô tả: dùng để tóm tắt dữ liệu, mô tả dữ liệu dưới dạng số hay dùng các công cụ đồ họa.
Tóm tắt dưới dạng số thường dùng giá trị trung bình, độ lệch chuẩn, trung vị, yếu vị. Công cụ đồ
họa thường dùng là biểu đồ và đồ thị.
Thống kê suy diễn: dùng để mô hình hóa các kiểu biến thiên của dữ liệu và rút ra các kết luận cho
tổng thể mà ta không có điều kiện để nghiên cứu hết đội tượng mà ta quan tâm. Các kết luận có
thể thiên về ước lượng, kiểm định, dự đoán, mô tả mối liên hệ hay mô hình hóa mối liên hệ. Ngoài
ra còn các kỹ thuật khác mô hình hóa dữ liệu như: phân tích phương sai, dãy số và chuỗi thời gian
và khai thác dữ liệu.
một số đặc điểm nào đó. Các đơn vị cá biệt cấu thành nên tổng thể thống kê gọi là đơn vị tổng thể.
Tuỳ mục đích nghiên cứu mà xác định tổng thể và từ tổng thể xác định được đơn vị tổng thể.
Tổng thể bộc lộ : là tổng thể mà trong đó các đơn vị có thể trực tiếp quan sát. (Ví dụ: tổng
thể sinh viên của một trường đại học, tổng thể các siêu thị, tổng thể các ngân hàng)
Tổng thể tiềm ẩn : là tổng thể mà các đơn vị không thể trực tiếp quan sát hay nhận biết
(Ví dụ: các hiện tượng kinh tế xã hội, quan điểm về một vấn đề, các hiện tượng tự nhiên)
Tổng thể đồng nhất và không đồng nhất : (đồng nhất) khi các đơn vị tổng thể có cùng
một hay nhiều đặc điểm liên quan trực tiếp đến mục địch nghiên cứu. (Ví dụ : mục đích
nghiên cứu là tìm hiểu về hiệu quả sử dụng vốn của doanh nghiệp trên một khu vực. Trong
mục đích nghiên cứu đó, doanh nghiệp dệt trong khu vực đó là tổng thể đồng nhất, nhưng
tổng thể tất cả các doanh nghiệp trong khu vực đó là tổng thể không đồng nhất vì mỗi
doanh nghiệp ở những ngành kinh tế khác nhau sẽ có quy mô, tính chất khác nhau dẫn
đến mức độ sử dụng vốn sẽ khác nhau.)
Tổng thể có thể hữu hạn hoặc vô hạn, phụ thuộc vào thời gian hoặc không gian. Do
đó khi xác định tổng thể ngoài các giới hạn về đặc điểm tổng thể còn cần giới hạn tổng thể
về thời gian và không gian.
Mẫu dữ liệu : Một nhóm các đơn vị tổng thể được chọn một cách ngẫu nhiên, độc lập từ tổng thể
được gọi là mẫu dữ liệu.
Tiêu thức.
Tiêu thức thống kê là các đặc tính (hay đặc điểm thống kê) của đơn vị tổng thể.
Mỗi đơn vị tổng thể có nhiều tiêu thức. Mỗi tiêu thức có thể biểu hiện giống nhau hoặc khác nhau
ở các đơn vị tổng thể. Tiêu thức được phân chia theo các tiêu chuẩn sau:
i. Tiêu thức bất biến và tiêu thức biến động.
Tiêu thức bất biến biểu hiện giống nhau ở mọi đơn vị tổng thể, căn cứ vào tiêu thức này người
ta tập hợp các đơn vị tổng thể để xây dựng nên tổng thể.
Ví dụ 3.1 Tiêu thức quốc tịch “Việt Nam”xây dựng tổng số dân Việt Nam. Giới tính “nam”, “nữ”
xây dựng tổng thể dân số nữ, dân số nam.
Tiêu thức biến động là tiêu thức biểu hiện của nó không giống nhau ở các đơn vị tổng thể,
dựa trên sự thay đổi đơn vị t’ổng thể trên tiêu thức này mà giúp phân tích đặc trưng của tổng
thể.
Ví dụ 3.2 Số lượng, độ tuổi, sai số, chất lượng ….
ii. Tiêu thức số lượng và tiêu thức thuộc tính.
Tiêu thức số lượng là tiêu thức thể hiện trực tiếp bằng con số, đặc trưng đó quan sát được
bằng các biện pháp cân đo đong đếm.
Ví dụ 3.3 Độ tuổi, mức lương, số đo,...
Tiêu thức thuộc tính là tiêu thức thể hiện không bằng con số, phản ánh loại hoặc chất của
đơn vị.
Ví dụ 3.4 Giới tính, quốc tịch, chất lượng, trình độ ngoại ngữ…
Lượng biến.
Lượng biến là biểu hiện cụ thể về lượng của các đơn vị tổng thể theo tiêu thức số lượng.
Có hai loại lượng biến. Lượng biến rời rạc và lượng biến liên tục.
Lượng biến rời rạc: là lượng biến mà các giá trị có thể có của nó là hữu hạn hay vô hạn nhưng
có thể đếm được.
Ví dụ 3.5 Số công nhân trong một doanh nghiệp; số sản phẩm sản xuất ra trong một ngày của
một xí nghiệp…..
48
Lượng biến liên tục: là lượng biến mà các giá trị có thể có của nó được lấp kín cả một khoảng
trên trục số.
Ví dụ 3.6 năng suất cây trồng; chiều cao của trẻ, giá bán của cố phiếu, sai số chi tiết máy,….
Tham số.
Tham số tổng thể là giá trị đặc trưng của tổng thể dùng để mô tả đặc trưng của hiên tượng nghiên
cứu.
Tham số mẫu là tham số dựa trên đặc trưng tổng thể và tính toán trên mẫu số liệu để suy đoán
ngược lại cho tham số tổng thể. (Ví dụ: giá trị trung bình mẫu dùng để ước lượng cho kỳ vọng của
tổng thể, phương sai mẫu dùng để ước lượng cho phương sai của tổng thể…)
Thang đo.
Thang đo là các quy định về giá trị cho dữ liệu thu thập. Có 4 cấp thang đo theo mức độ thông tin
tăng dần: định danh, thứ bậc, khoảng cách và tỷ lệ.
i. Thang đo định danh: (hay còn gọi là thang đo phân loại, định nghĩa - Nominal Scale) là thang
đo sử dụng cho các tiêu thức thuộc tính, dùng các mã số để phân loại các đối tượng. Thang đo dịnh
danh không mang ý nghĩa nào cả mà chỉ để lượng hoá các dữ liệu cần cho nghiên cứu. Người ta
thường dùng các chữ số tự nhiên như 1, 2, 3, 4... để làm mã số.
Ví dụ 3.7 Giới tính của người trả lời : nam (0) , nữ (1).
Ví dụ 3.8 Hệ thống rạp mà bạn hài lòng nhất : Lotte Cinema (1) ; CGV (2) ; Cinemar (3) ; BHD
Star Cineplex (4) ; Cinebox (5).
Ví dụ 3.9 Một cuộc khảo sát về dân số, bạn được hỏi như sau :”vui lòng cho biết tình trạng hôn
nhân của bạn hiện nay”
Độc thân □1
Đang có gia đình □2
Ở góa □3
Ly thân hoặc ly dị □4
Việc tính toán giữa các giá trị này không mang ý nghĩa nào (trung bình, phương sai), một số phép
toán dùng cho thang đo định danh như là: đếm, tần suất, giá trị mode, hoặc các phép kiểm định.
ii. Thang đo thứ bậc: (- Ordinal Scale) là thang đo sự chênh lệch giữa các biểu hiện của tiêu thức
có quan hệ thứ bậc hơn kém. Sự chênh lệch này không nhất thiết phải bằng nhau. Nó được dùng
cho cả tiêu thức thuộc tính và tiêu thức số lượng.
Ví dụ 3.10 Trình độ tay nghề của công nhân theo bậc thợ 1,2,3,4,5. Phân loại giảng viên trong các
trường đại học như Giáo sư, Phó Giáo sư, Giảng viên chính, Giảng viên.
Ví dụ 3.11 Đánh giá mức độ rất hài lòng, hài lòng, không hài lòng và rất không hài lòng. Giữa các
mức độ đánh giá không khó có một sự xác định rõ ràng. Một bảng khảo sát với câu hỏi như sau:
“bạn hài lòng như thế nào về mùi sản phẩm dầu gội X-men mà bạn vừa dùng thử: hài lòng, bình
thường, không hài lòng”. Và điều này không cho ta biết được là mức hài lòng này gấp 2 hay 10 lần
so với mức bình thường, hay không hài lòng.
Ví dụ 3.12 Thu nhập của anh chị hàng tháng
1. < 5 triệu đồng 2. Từ 5 đến 10 triệu 3. Từ 10 đến 15 triệu
4. > 15 triệu đồng.
iii. Thang đo khoảng: (- interval scale) là thang đo thứ bậc có khoảng cách đều nhau. Nó được
dùng cho cả tiêu thức thuộc tính và tiêu thức số lượng. Thang đo khoảng cho phép chúng ta đo
lường một cách chính xác sự khác nhau giữa hai giá trị đơn vị.
CHƯƠNG 3 : NGUYÊN LÝ THỐNG KÊ VÀ CÁC KHÁI NIỆM CƠ BẢN 49
Ví dụ 3.13 Một bảng khảo sát như sau: “theo anh, chị tầm quan trọng của các yếu tố sau đây như
thế nào với cuộc sống của một người (Mức đánh giá từ 1 (không quan trọng) cho đến 7 (rất quan
trọng))”
1. Có nhiều tiền 1 2 3 4 5 6 7
2. Đạt trình độ học vấn cao 1 2 3 4 5 6 7
3. Có địa vị trong xã hội 1 2 3 4 5 6 7
4. Có quan hệ rộng rãi 1 2 3 4 5 6 7
5. Có sức khỏe tốt 1 2 3 4 5 6 7
Ví dụ 3.14 Anh (chị) hãy đánh giá mức độ quan trọng của các yếu tố sau trong một thông tin
quảng cáo trên truyền hình:
Mức độ quan trọng
Yếu tố rất quan khá quan quan trọng khá không rất không
trọng trọng quan trọng quan trọng
Sự ngắn gọn dễ nhớ 1 2 3 4 5
Hình ảnh 1 2 3 4 5
Âm thanh 1 2 3 4 5
Với việc phân ra các định mức rõ ràng thì việc đo lường thái độ hay ý kiến thì thang do khoảng
cung cấp nhiều thông tin hơn so với thang đo thứ bậc. Những phép toán sử dụng trên thang đo
này cũng nhiều hơn so với hai thang đo trước như: tính khoảng biến thiên, số trung bình, độ lệch
chuẩn…
Một điểm cần chú ý trong thang đo khoảng không có điểm 0 tuyệt đối, nên phép toán thực hiện ở
đây chỉ là các phép toán cộng trừ. Nghĩa là tỷ số giữa các giá trị thu thập được không có ý nghĩa,
tuy nhiên các khoảng chênh lệch giữa các giá trị thì có thể lấy tỷ lệ được (Ví dụ: chênh lệch này
gấp đôi chênh lệch kia)
Ví dụ 3.15 Trong thang đo độ bách phân, điểm 0 ( 0 o C ) chỉ là điểm được quy ước, tại đó nước
chuyển sang thể rắn, còn nhiệt độ lại có thể xuống đến các điểm dưới 0. Đặc điểm này dẫn đến việc
so sánh tỷ lệ giữa các trị số đo không có ý nghĩa. Cụ thể là nhiệt độ trung bình của thành phố A là
30o C , thành phố B là 10o C , ta không thể nói thành phố A nóng gấp 3 lần thành phố B.
iv. Thang đo tỷ lệ: (- ration scale) là thang đo có tất cả các đặc tính khoảng cách và thứ tự của
thang đo khoảng, ngoài ra điểm “0” trong thang đo tỷ lệ là một giá trị tuyệt đối (là giá trị gốc trên
thang đo) nên ta có thể thực hiện các phép toán chia để tính tỷ lệ nhằm mục đích so sánh.
Ví dụ 3.16 Thu nhập trung bình của ông A là 5 triệu đồng một tháng, và của ông B là 10 triệu đồng
một tháng, thì ta hoàn toàn có thể nói lương ông B gấp 2 lần lương ông A về ý nghĩa thu nhập.
Thang đo tỷ lệ được sử dụng rất rộng rãi để đo lường các hiện tượng kinh tế - xã hội, như: thu
nhập, chi tiêu, thời gian lao động, tuổi, số con ... Các đơn vị đo lường vật lý thông thường (kg, mét,
lít ..) cũng là các thang đo loại này.
Theo tuần tự, thang đo sau có chất lượng đo lường cao hơn thang đo trước, đồng thời việc xây
dựng thang đo cũng phức tạp hơn. Song không phải cứ sử dụng thang tỷ lệ là tốt nhất, mà phải tuỳ
thuộc vào đặc điểm của hiện tượng và tiêu thức nghiên cứu mà chọn thang đo thích hợp. Hai loại
đầu chưa có tiêu chuẩn đo, thuộc loại thang định tính. Đó là loại thang đo mà khi thay đổi từ giá
trị này sang giá trị khác thì đối tượng đo đã có sự thay đổi về chất, chúng phù hợp với việc đo
lường các tiêu thức thuộc tính. Hai loại sau đã có tiêu chuẩn đo, khi chuyển từ một điểm này sang
điểm khác trên thang thì có sự thay đổi về lượng, nhưng chưa chắc đã có sự thay đổi về chất. Đây
là loại thang đo định lượng, phù hợp để đo lường các tiêu thức số lượng.
Khi dữ liệu đã thu thập xong, chúng ta vẫn có thể chuyển đổi từ dữ liệu định lượng sang dữ liệu
định tính. Nghĩa là chuyển từ thang đo tỷ lệ, khoảng sang thang đo định danh và thang đo thứ bậc.
Nhưng chuyển đổi theo chiều ngược lại thì không thể.
50
Thang đo này đơn giản nhưng chỉ thích hợp trong trường hợp các yếu tố được đưa vào so sánh
từng cặp có số lượng không nhiều và có thể đưa ra ngay sự lựa chọn chính xác. Tuy nhiên những
đánh giá trong so sánh từng cặp này thường không là ý thích tuyệt đối. Đôi khi những giả thiết về
các so sánh bắc cầu sẽ làm sai lệch kết quả.
Người trả lời phải phân biệt sự hơn kém giữa các đối tượng, tốn ít thời gian hơn, dễ trả lời hơn (ở
ví dụ trên, nếu là so sánh cặp thì người trả lời phải có 10 lần xếp hạng theo từng cặp). Tuy nhiên
chỉ có thể áp dụng kỹ thuật này đối với dữ liệu có thể xếp theo thứ tự. Người trả lời thường chú ý
đến những xếp hạng đầu và cuối, hơn là các xếp hạng ở giữa. Nếu người trả lời không có sẵn ý
thích so sánh giữa các đối tượng thì câu trả lời của họ sẽ không có ý nghĩa. Không thể biết được lý
do vì sao người trả lời xếp hạng như vậy.
Ví dụ 3.18 Hãy chia 100% cho sự đánh giá của bạn về tầm quan trọng của các yếu tố sau đây khi
bạn quyết định mua quần áo thể thao cho chơi tenis. Yếu tố nào được bạn đánh giá càng quan
trọng thì bạn cho điểm càng cao, nếu nó hoàn toàn không quan trọng đối với bạn thì bạn hãy cho
điểm 0. Tiện lợi khi mặc …..%, bền ….%, nhãn hiệu nổi tiếng……%, kiểu dáng…..%, giá cả hợp lý….%,
hợp thời trang…..%/. Cộng 100%
Cho phép phân biệt nhanh sự khác biệt giữa các nội dung được đánh giá. Tuy nhiên thang đo không
liệt kê được hết các nội dung của vấn đề đang nghiên cứu (ví dụ ngoài 7 yếu tố trên có thể có
những yếu tố có tầm quan trọng đối với người tiêu dùng nhưng lại không được nêu trong bảng
cho điểm này). Dễ gặp trường hợp người trả lời cho điểm nhiều hơn hay ít hơn tổng điểm cố định.
Dễ gây sự nhầm lẫn và chán nản cho người trả lời khi phải tính toán chia cho hết tổng điểm. Thông
thường chỉ nên liệt kê tối đa là 10 khoản mục.
Ví dụ 3.19 Công ty Đồng Tâm có 80 slogan gợi ý từ các chuyên gia, muốn chọn ra 1 slogan, cách
thức tiến hành cho các đối tượng được hỏi như sau:
CHƯƠNG 3 : NGUYÊN LÝ THỐNG KÊ VÀ CÁC KHÁI NIỆM CƠ BẢN 51
Bước 1: dùng thang điểm 5 (rất hay: 5, hay: 4, không ý kiến: 3, không hay : 2, rất không hay: 1)
chọn ra 10 slogan mà bạn cho là rất hay.
Bước 2: từ 70 slogan còn lại, chọn ra 10 slogan mà bạn cho là hay.
Bước 3: từ 60 slogan còn lại, chọn ra 15 slogan mà bạn cho là không hay
Bước 4: từ 45 slogan còn lại, chọn ra 15 slogan mà bạn cho là rất không hay
Bước 5: 30 slogan còn lại là số slogan mà bạn không có ý kiến
ii. Kỹ thuật tạo thang đo không so sánh:
Mục đích: Các đối tượng được đo lường một cách độc lập với nhau. Bao gồm các dạng sau:
Ví dụ 3.20 Cho biết ý kiến của bạn về vấn đề….. : Đồng ý □, Không đồng ý □
Bạn ưa thích ngành học của mình ở mức độ nào:
Rất thích □ Khá thích □ Bình thường □ Không thích □ Rất ghét □
Ví dụ 3.21 Một mẫu thang điểm Likert nghiên cứu đánh giá của khách hàng đối với hoạt động của
1 cửa hàng:
Hoàn toàn Nói chung Không có Không Hoàn toàn
Nội dung nhận định
đồng ý là đồng ý ý kiến đồng ý không đồng ý
Đa dạng về chủng loại hàng 1 2 3 4 5
Đa dạng về mẫu mã cho mỗi
1 2 3 4 5
chủng loại hàng
Trưng bày hàng đẹp 1 2 3 4 5
Ví dụ 3.22 Hãy nêu các nhận định của bạn về các mặt sau đây của nhà hàng A. Hãy khoanh tròn
số tương ứng với sự lựa chọn của bạn:
Sạch 1 2 3 4 5 6 7 Bẩn
Rẻ 1 2 3 4 5 6 7 Đắt
Phục vụ nhanh 1 2 3 4 5 6 7 Phục vụ chậm
Ngon 1 2 3 4 5 6 7 Dở
Thang điểm Stapel:
Đây là một thang điểm, được biểu hiện dưới dạng một dãy số liên tục từ dương (+) đến âm (-),
chẳng hạn từ +3 đến -3, +5 đến -5 để đo lường hướng và cường độ của thái độ của người trả lời.
Trong thang đo này chỉ dùng một tính từ duy nhất, thường tương ứng với số 0 nằm ở giữa. Là một
biến tướng của thang điểm có hai cực đối lập.
52
Ví dụ 3.23 Nếu dùng thang điểm Stapel cho nhận định về nhà hàng A thì thiết kế như sau:
+3 +2 +1 0 -1 -2 -3
Sạch □ □ □ □ □ □ □
Rẻ □ □ □ □ □ □ □
Phục vụ nhanh □ □ □ □ □ □ □
Ngon □ □ □ □ □ □ □
Thang đo này tránh khó khăn cho người hỏi khi phải tìm những cặp từ diễn tả các trạng thái đối
nghịch nhau
Giá trị của thang đo: là khả năng đo lường đúng những gì mà nhà nghiên cứu cần đo. Muốn đảm
bảo gía trị của thang đo, cần xác định đúng các đặc tính cần đo và lựa chọn các cấp độ đo lường
thích hợp.
Giữa độ tin cậy và giá trị của thang đo có mối liên hệ chặt chẽ với nhau: Một thang đo muốn có giá
trị thì phải đảm bảo độ tin cậy tức là loại trừ được sai số ngẫu nhiên. Một thang đo đảm bảo được
độ tin cậy thì chưa hẳn đã có giá trị nếu còn tồn tại sai số hệ thống.
Tính đa dạng của thang đo: Một thang đo phải đáp ứng được nhiều mục đích sử dụng: giải thích
cho kết quả nghiên cứu, từ kết quả thu thập đưa ra những kết luận suy đoán khác.
Tính dễ trả lời: Khi thu thập dữ liệu bằng phương thức phỏng vấn, không được để xảy ra tình
trạng người được hỏi từ chối trả lời vì khó trả lời, hay tình trạng đưa ra những nhận định sai lệch
bản chất do cách đặt câu hỏi không phù hợp
Các dữ liệu sơ cấp sẽ giúp giải quyết cấp bách và kịp thời những vấn đề đặt ra. Dữ liệu sơ cấp là
do trực tiếp thu thập nên độ chính xác cao hơn. Tuy nhiên,dữ liệu sơ cấp phải qua quá trình nghiên
cứu thực tế mới có được, vì vậy việc thu thập dữ liệu sơ cấp thường tốn nhiều thời gian và chi phí.
Vì vậy, các nhà nghiên cứu sẽ phải cân nhắc khi nào sẽ phải thu thập dữ liệu sơ cấp và lựa chọn
phương pháp thu thập hiệu quả để hạn chế nhược điểm này.
1. Xác định vấn đề cần nghiên cứu.
2. Thiết lập kế hoạch nghiên cứu.
3. Tiến hành thu thập dữ liệu.
4. Phân tích dữ liệu thu thập được.
5. Phân bổ các kết quả phân tích.
Các phương pháp thu thập dữ liệu sơ cấp
i. Phương pháp điều tra trực tiếp
CHƯƠNG 3 : NGUYÊN LÝ THỐNG KÊ VÀ CÁC KHÁI NIỆM CƠ BẢN 53
Đây là phương pháp thu thập dữ liệu trực tiếp qua đối tượng nghiên cứu. Phương pháp này được
thực hiện bằng một số hình thức như phỏng vấn trực tiếp, phỏng vấn qua điện thoại, trả lời bảng
câu hỏi...
ii. Phương pháp quan sát
Phương pháp này được áp dụng khi đối tượng nghiên cứu không sẵn sàng cung cấp thông tin, hoặc
cố tình cung cấp thông tin không chính xác.Lúc này, người nghiên cứu sẽ phải dùng các giác quan
hoặc máy móc để quan sát các hành vi, thói quen của đối tượng nghiên cứu trong một khoảng thời
gian cố định. Từ đó phân tích kết quả và có được dữ liệu.
iii. Phương pháp khảo sát trực tuyến
Với sự xuất hiện của Internet, các dữ liệu có thể thu thập được bằng các khảo sát qua thư điện tử
hay các website. Ưu điểm của phương pháp này là thu thập dữ liệu rất nhanh với số lượng lớn,
tiết kiệm chi phí hơn so với phương pháp thu thập truyền thống.
Các kỹ thuật lấy mẫu dữ liệu
i. Kỹ thuật lấy mẫu theo xác suất.
Chọn mẫu ngẫu nhiên (hay chọn mẫu xác suất) là phương pháp chọn mẫu mà khả năng được chọn
vào tổng thể mẫu của tất cả các đơn vị của tổng thể đều như nhau. Đây là phương pháp tốt nhất
để ta có thể chọn ra một mẫu có khả năng đại biểu cho tổng thể. Vì có thể tính được sai số do chọn
mẫu, nhờ đó ta có thể áp dụng được các phương pháp ước lượng thống kê, kiểm định giả thuyết
thống kê trong xử lý dữ liệu để suy rộng kết quả trên mẫu cho tổng thể chung
Tuy nhiên ta khó áp dụng phương pháp này khi không xác định được danh sách cụ thể của tổng
thể chung (ví dụ nghiên cứu trên tổng thể tiềm ẩn); tốn kém nhiều thời gian, chi phí, nhân lực cho
việc thu thập dữ liệu khi đối tượng phân tán trên nhiều địa bàn cách xa nhau,…
ii. Lấy mẫu ngẫu nhiên đơn giản.
Trước tiên lập danh sách các đơn vị của tổng thể chung theo một trật tự nào đó : lập theo vần của
tên, hoặc theo quy mô, hoặc theo địa chỉ…, sau đó đánh số thứ tự các đơn vị trong danh sách; rồi
rút thăm, quay số, dùng bảng số ngẫu nhiên, hoặc dùng máy tính để chọn ra từng đơn vị trong tổng
thể chung vào mẫu.
Thường vận dụng khi các đơn vị của tổng thể chung không phân bố quá rộng về mặt địa lý, các
đơn vị khá đồng đều nhau về đặc điểm đang nghiên cứu. Thường áp dụng trong kiểm tra chất
lượng sản phẩm trong các dây chuyền sản xuất hàng loạt.
iii. Lấy mẫu ngẫu nhiên hệ thống.
Trước tiên lập danh sách các đơn vị của tổng thể chung theo một trật tự quy ước nào đó, sau đó
đánh số thứ tự các đơn vị trong danh sách. Đầu tiên chọn ngẫu nhiên 1 đơn vị trong danh sách ;
sau đó cứ cách đều k đơn vị lại chọn ra 1 đơn vị vào mẫu,…cứ như thế cho đến khi chọn đủ số đơn
vị của mẫu. Ví dụ : Dựa vào danh sách bầu cử tại 1 thành phố, ta có danh sách theo thứ tự vần của
tên chủ hộ, bao gồm 240.000 hộ. Ta muốn chọn ra một mẫu có 2000 hộ. Vậy khoảng cách chọn là :
k= 240000/2000 = 120, có nghĩa là cứ cách 120 hộ thì ta chọn một hộ vào mẫu.
iv. Lấy mẫu cả khối/cụm và lấy mẫu theo giai đoạn.
Trước tiên lập danh sách tổng thể chung theo từng khối (như làng, xã, phường, lượng sản phẩm
sản xuất trong 1 khoảng thời gian…). Sau đó, ta chọn ngẫu nhiên một số khối và điều tra tất cả các
đơn vị trong khối đã chọn. Thường dùng phương pháp này khi không có sẵn danh sách đầy đủ của
các đơn vị trong tổng thể cần nghiên cứu. Ví dụ : Tổng thể chung là sinh viên của một trường đại
học. Khi đó ta sẽ lập danh sách các lớp chứ không lập danh sách sinh viên, sau đó chọn ra các lớp
để điều tra.
v. Lấy mẫu phân tầng.
Trước tiên phân chia tổng thể thành các tổ theo 1 tiêu thức hay nhiều tiêu thức có liên quan đến
mục đích nghiên cứu (như phân tổ các DN theo vùng, theo khu vực, theo loại hình, theo quy mô,…).
Sau đó trong từng tổ, dùng cách chọn mẫu ngẫu nhiên đơn giản hay chọn mẫu hệ thống để chọn
ra các đơn vị của mẫu. Đối với chọn mẫu phân tầng, số đơn vị chọn ra ở mỗi tổ có thể tuân theo tỷ
lệ số đơn vị tổ đó chiếm trong tổng thể, hoặc có thể không tuân theo tỷ lệ. Ví dụ : Một toà soạn báo
muốn tiến hành nghiên cứu trên một mẫu 1000 doanh nghiệp trên cả nước về sự quan tâm của
họ đối với tờ báo nhằm tiếp thị việc đưa thông tin quảng cáo trên báo. Toà soạn có thể căn cứ vào
54
các tiêu thức : vùng địa lý (miền Bắc, miền Trung, miền Nam) ; hình thức sở hữu (quốc doanh,
ngoài quốc doanh, công ty 100% vốn nước ngoài,…) để quyết định cơ cấu của mẫu nghiên cứu.
vi. Chọn mẫu nhiều giai đoạn (multi-stage sampling):
Phương pháp này thường áp dụng đối với tổng thể chung có quy mô quá lớn và địa bàn nghiên
cứu quá rộng. Việc chọn mẫu phải trải qua nhiều giai đoạn (nhiều cấp). Trước tiên phân chia tổng
thể chung thành các đơn vị cấp I, rồi chọn các đơn vị mẫu cấp I. Tiếp đến phân chia mỗi đơn vị
mẫu cấp I thành các đơn vị cấp II, rồi chọn các đơn vị mẫu cấp II…Trong mỗi cấp có thể áp dụng
các cách chọn mẫu ngẫu nhiên đơn giản, chọn mẫu hệ thống, chọn mẫu phân tầng, chọn mẫu cả
khối để chọn ra các đơn vị mẫu. Ví dụ :Muốn chọn ngẫu nhiên 50 hộ từ một thành phố có 10 khu
phố, mỗi khu phố có 50 hộ. Cách tiến hành như sau : Trước tiên đánh số thứ tự các khu phố từ 1
đến 10, chọn ngẫu nhiên trong đó 5 khu phố. Đánh số thứ tự các hộ trong từng khu phố được chọn.
Chọn ngẫu nhiên ra 10 hộ trong mỗi khu phố ta sẽ có đủ mẫu cần thiết.
vii. Kỹ thuật lấy mẫu phi xác suất.
Lấy mẫu thuận tiện
Có nghĩa là lấy mẫu dựa trên sự thuận lợi hay dựa trên tính dễ tiếp cận của đối tượng, ở những
nơi mà nhân viên điều tra có nhiều khả năng gặp được đối tượng. Chẳng hạn nhân viên điều tra
có thể chặn bất cứ người nào mà họ gặp ở trung tâm thương mại, đường phố, cửa hàng,.. để xin
thực hiện cuộc phỏng vấn. Nếu người được phỏng vấn không đồng ý thì họ chuyển sang đối tượng
khác. Lấy mẫu thuận tiện thường được dùng trong nghiên cứu khám phá, để xác định ý nghĩa thực
tiễn của vấn đề nghiên cứu; hoặc để kiểm tra trước bảng câu hỏi nhằm hoàn chỉnh bảng; hoặc khi
muốn ước lượng sơ bộ về vấn đề đang quan tâm mà không muốn mất nhiều thời gian và chi phí.
Lấy mẫu định mức
Là phương pháp mà phỏng vấn viên là người tự đưa ra phán đoán về đối tượng cần chọn vào mẫu.
Như vậy tính đại diện của mẫu phụ thuộc nhiều vào kinh nghiệm và sự hiểu biết của người tổ chức
việc điều tra và cả người đi thu thập dữ liệu. Chẳng hạn, nhân viên phỏng vấn được yêu cầu đến
các trung tâm thương mại chọn các phụ nữ ăn mặc sang trọng để phỏng vấn. Như vậy không có
tiêu chuẩn cụ thể “thế nào là sang trọng” mà hoàn toàn dựa vào phán đoán để chọn ra người cần
phỏng vấn
Lấy mẫu phán đoán
Đối với phương pháp chọn mẫu này, trước tiên ta tiến hành phân tổ tổng thể theo một tiêu thức
nào đó mà ta đang quan tâm, cũng giống như chọn mẫu ngẫu nhiên phân tầng, tuy nhiên sau đó ta
lại dùng phương pháp chọn mẫu thuận tiện hay chọn mẫu phán đoán để chọn các đơn vị trong
từng tổ để tiến hành điều tra. Sự phân bổ số đơn vị cần điều tra cho từng tổ được chia hoàn toàn
theo kinh nghiệm chủ quan của người nghiên cứu. Chẳng hạn nhà nghiên cứu yêu cầu các vấn viên
đi phỏng vấn 800 người có tuổi trên 18 tại 1 thành phố. Nếu áp dụng phương pháp chọn mẫu định
ngạch, ta có thể phân tổ theo giới tính và tuổi như sau:chọn 400 người (200 nam và 200 nữ) có
tuổi từ 18 đến 40, chọn 400 người (200 nam và 200 nữ) có tuổi từ 40 trở lên. Sau đó nhân viên
điều tra có thể chọn những người gần nhà hay thuận lợi cho việc điều tra của họ để dễ nhanh
chóng hoàn thành công việc.
Xác định quy mô mẫu.
i. Mức độ chính xác do việc chọn mẫu mang lại:
Mức độ chính xác do việc chọn mẫu mang lại tỷ lệ thuận với bình phương của quy mô mẫu. Khi
tăng quy mô mẫu lên k lần thì mức độ chính xác sẽ tăng lên k lần.
Ví dụ 3.24 Khi tăng quy mô mẫu từ 500 người lên 1000 người, tức tăng gấp 2 lần thì mức độ chính
xác tăng lên gấp √2 lần, tức là tăng 40%. Còn muốn tăng độ chính xác lên gấp 2 lần thì phải tăng
quy mô mẫu lên gấp 4 lần.
Chú ý: Mức độ chính xác do việc chọn mẫu mang lại khác mức độ chính xác của kết quả điều tra.
Bởi vì mức độ chính xác của kết quả điều tra chịu tác động của nhiều yếu tố như: mức độ chính
xác do việc chọn mẫu mang lại, bảng câu hỏi đã được xây dựng hoàn chỉnh chưa, vấn viên đã làm
đúng quy trình chưa,…
CHƯƠNG 3 : NGUYÊN LÝ THỐNG KÊ VÀ CÁC KHÁI NIỆM CƠ BẢN 55
Các hiện tượng và quá trình kinh tế xã hội là những tổng thể vô cùng phong phú, phức tạp vì chúng
tồn tại và phát triển dưới các loại hình thức khác nhau. Mỗi loại hình có qui mô và đặc điểm khác
nhau. Do vậy, muốn phản ánh dược đúng bản chất và quy luật phát triển của hiện tượng nghiên
cứu, mà chỉ dựa vào những con số đặc trưng chung thì chưa đủ mà ta phải tìm cách nêu lên cho
được đặc điểm riêng của từng bộ phận cấu thành nên tổng thể, phải đánh giá cho tầm quan trọng
và mối liên hệ tác động qua lại giữa chúng với nhau, để qua đó thấy được đầy đủ đặc điểm chung
của toàn bộ tổng thể nghiên cứu. Do vậy, cần thiết phải phân tổ thống kê. Phân tổ thống kê được
xem là phương pháp cơ bản để tổng hợp thống kê. Đồng thời cũng là một phương pháp quan trọng
của phân tích thống kê.
: sổ tổ
: Trị số quan sát lớn nhất.
: Trị số quan sát bé nhất.
Ví dụ 3.29 Bảng số liệu về năng suất lúa (tạ/ha)
Mức năng suất lúa (tạ/ha) Số hộ
36-38 6
38-40 13
49-42 25
42-44 40
44-46 11
46-48 5
Tổng cộng 100
Khi phân tổ có khoảng cách đều nhau, trị số khoảng cách tổ được xác định (trong trường hợp
chỉ số rời rạc)
xmax xmin k 1
h
k
Ví dụ 3.30 Bảng số liệu về tuổi nghề của công nhân một xí nghiệp
Tuổi nghề Số công nhân
5-7 80
8-10 210
11-13 360
14-16 225
17-19 125
Tổng cộng 1000
Phân tổ mở là phân tổ mà tổ đầu tiên không có giới hạn dưới, tô cuối cùng không có giới hạn
trên, các tổ còn lại có thể có khoảng cách tổ đều hoặc không đều. Mục đích của việc phân tổ
mở là để tổ đầu tiên và tổ cuối cùng chứa các đơn vị có trị số lượng biến đột biến và tránh việc
hình thành quá nhiều tổ.
Ví dụ 3.31 Bảng số liệu về năng suất lúa (tạ/ha)
Mức năng suất lúa (tạ/ha) Số hộ
<35 5
35-40 10
40-45 20
45-50 12
50 3
Tổng cộng 100
iii. Phân tổ liên hệ.
Giữa các tiêu thức mà thống kê nghiên cứu thường có mối quan hệ với nhau. Mối liên hệ này
thể hiên sự thay đổi trị số tiêu thức này sẽ dẫn đến sự thay đổi của tiêu thức kia theo một qui
luật nhất định.
Mức đầu tư thức ăn Số cơ Mức bình quân tổ Tăng trọng bình quân
(kg/con/ngày) sở (kg/con/ngày) (g/con/ngày)
<1,4 3 1,31 292
1,4-1,6 5 1,52 318
1,6-1,8 4 1,69 334
CHƯƠNG 3 : NGUYÊN LÝ THỐNG KÊ VÀ CÁC KHÁI NIỆM CƠ BẢN 57
Những yêu cầu đối với việc xây dựng bảng thống kê:
Quy mô của bảng không nên quá lớn
Các tiêu đề, tiêu mục cần được ghi chính xác, ngắn gọn và dễ hiểu
Các hàng, cột thường được ký hiệu bằng chữ hoặc bằng số
Các chỉ tiêu giải thích trong bảng cần được sắp xếp theo thứ tự hợp lý, phù hợp mục đích
nghiên cứu
Cách ghi các số liệu vào trong bảng thống kê
Nếu hiện tượng không có số liệu thì ghi dấu gạch ngang ( - )
Nếu số liệu còn thiếu, sau này bổ sung thì ghi ký hiệu 3 chấm (…)
Ký hiệu gạch chéo (x): ô cấm
Các số liệu trong cùng một cột, có đơn vị tính toán giống nhau phải ghi theo trình độ chính xác
như nhau
Các số cộng và tổng cộng có thể ghi ở đầu hoặc cuối hàng và cột
Cột thứ nhất: Liệt kê tất cả các biểu hiện có thể có của đối tượng nghiên cứu.
Cột thứ hai : là cột tần số, được điền số liệu bằng cách đếm xem có bao nhiêu quan sát có
cùng 1 biểu hiện, kí hiệu tương ứng với biểu hiện thứ k là nk . Tổng của tất cả các tần số
bằng số lượng cỡ mẫu quan sát n .
Cột thứ ba : là cột tần suất. Tần suất tương ứng với từng biểu hiện được tính bằng cách lấy
giá trị tần số tương ứng chia cho số lượng cỡ mẫu, kí hiệu tương ứng với biểu hiện thứ k
nk
là f k .100% . Tổng của cột tần suất tương ứng bằng 100% dữ liệu quan sát.
n
Đại lượng thống kê Tần số Tần suất
58
n1
Biểu hiện định tính 1 n1 f1
n
… … …
nk
Biểu hiện định tính k nk fk
n
Tổng n 100%
Cách lập bảng dữ liệu cho dữ liệu định lượng.
Trong trường hợp đặc điểm thống kê ta đang nghiên cứu có ít biểu hiện giá trị, thì cấu trúc của
bảng tần số giống cấu trúc của bảng dữ liệu định tính. Cấu trúc gồm dòng là các biểu hiện của
lượng biến và các cột trong bảng gồm : tần số của biểu hiện lượng biến, tần suất tương ứng và tần
suất tích lũy.
Đại lượng thống kê Tần số Tần suất Tần suất tích lũy
1
n1
Biểu hiện lượng biến 1 n1 f1
N
f i 1
i
… … … …
k
nk
Biểu hiện lượng biến k nk fk
N
f 100%
i 1
i
Tổng N 100%
Trong trường hợp đặc điểm thống kê ta đang nghiên cứu có nhiều biểu hiện giá trị. Thì trước khi
tiến hành lập bảng tần số cho dữ liệu ta tiến hành phân tổ cho lượng biến, thì khi đó bảng tần số
thu được tương ứng với các tổ dữ liệu sẽ hoàn toàn giống với hai trường hợp trên.
Ví dụ: Số
Cơ cấu Số lượng Cơ cấu Số lượng Cơ cấu
lượng
(%) (Người) (%) (Người) (%)
(Người)
Tổng số 1000 100,0 1140 100,0 1310s 100,0
Tiểu học 500 50,0 600 53,0 700 53,5
Trung học cơ sở 300 30,0 320 28,0 360 27,5
Trung học phổ thông 200 20,0 220 19,0 250 19,0
Trong trường hợp có nhiều hơn hai biến thì ta nhóm dòng theo từng nhóm biến.
CHƯƠNG 3 : NGUYÊN LÝ THỐNG KÊ VÀ CÁC KHÁI NIỆM CƠ BẢN 59
CHƯƠNG 44
TÓM TẮT DỮ LIỆU BẰNG
ĐẠI LƯỢNG SỐ
Mục lục chương 4
4.1 Các đại lượng đo lường mức độ tập trung của dữ liệu. ............................................... 60
4.2 Các hệ số đo lường mức độ phân tán ....................................................................... 68
4.3 Các hệ số đo vị trí tương đối của dữ liệu ................................................................... 72
4.4 Các hệ số tương quan của các bộ dữ liệu .................................................................. 75
4.5 Các hệ số đo hình dạng của quy luật phân phối ......................................................... 79
Tóm tắt dữ liệu bằng đại lượng số là một trong ba kỹ thuật trong thống kê mô tả, các tham số đặc
trưng của bộ dữ liệu thực nghiệm là những tham số dùng để phản ánh trực tiếp quy mô và cấu
trúc của số liệu. Cùng với các phân tích đồ họa, các đại lượng số đặc trưng của bộ dữ liệu tạo nền
tảng của mọi phân tích định lượng về số liệu, giúp hiểu rõ hiện tượng và ra các quyết định đúng
đắn liên quan đến dữ liệu.
4.1. Các đại lượng đo lường mức độ tập trung của dữ liệu.
Các đại lượng đo lường mức độ tập trung là các tham số tính toán mức độ bình quân và phổ biến
của số liệu. Các đặc trưng này được sử dụng phổ biến trong thống kê để nêu lên đặc điểm chung
nhất, phổ biến nhất của hiện tượng kinh tế - xã hội trong các điều kiện cụ thể. Ngoài ra còn dùng
để so sánh đặc điểm của các hiện tượng không có cùng quy mô hay dùng làm căn cứ để đánh giá
trình độ đồng đều của các đơn vị tổng thể.
x
i 1
i
N
Trong đó : trung bình tổng thể.
x i : lượng biến thứ i.
N : tổng số liệu của tổng thể.
Trung bình mẫu :
CHƯƠNG 4 : TÓM TẮT DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ 61
x
i 1
i
X
n
Trong đó X : trung bình mẫu.
xi : lượng biến thứ i.
n : tổng số liệu của tổng mẫu.
ii. Trung bình số học có trọng số
Trường hợp lượng biến có trọng số (tần số) thì giá trị trung bình thu gọn theo công thức có trọng
số như sau:
Xi x1 x2 …. x k 1 xk
ni n1 n2 …. nk 1 nk
k
x n
i 1
i i
X k
n
i 1
i
Ý nghĩa của giá trị trung bình : Trên một thanh đòn có quy định vị trí, tại các vị trí x i trên thanh
đòn đặt các quả cân có trọng lượng ni . Giá trị trung bình X là vị trí trên thanh đòn mà tại đó thanh
đòn sẽ đạt trạng thái cân bằng như hình vẽ.
n2 nk
nk 1
n1
n3
X
Xi x1 ; x2 x2 ; x3 …. xk1 ; xk xk ; xk 1
ni n1 n2 …. nk 1 nk
k
n
i 1
i i
X k
n
i 1
i
một mẫu dữ liệu cỡ mẫu n gồm X 1 ; X 2 ;,...; X n , thì ta có đại lượng trung bình mẫu X cũng tuân
theo quy luật phân phối chuẩn với
2
X ~ N ;
n
Lưu ý. Khi cỡ mẫu lớn n 30 trung bình mẫu của tổng thể bất kỳ có khuynh hướng xấp xỉ bởi
một phân phối chuẩn.
Ví dụ 4.1 Giám đốc nhân sự của công ty xây dựng hồ sơ của 2500 của nhân viên để báo
cáo ban giám đốc. Trong mục báo cáo về tiền lương hằng năm của nhân viên cho thông tin
Trung bình tổng thể tiền lương hằng năm của nhân viên là 51800 USD.
Độ lệch chuẩn tổng thể tiền lương hằng năm của nhân viên là 4000 USD.
Giả sử bây giờ cơ sở dữ liệu chi tiết của 2500 nhân viên chưa được cập nhật, nên thay vào
đó giám đốc nhân sự dùng dữ liệu của 30 nhân viên để báo cáo thay tổng thể. Câu hỏi là
nếu sai số trung bình mẫu tiền lương hằng năm nhân viên so với tổng thể không quá
500USD có xác suất là bao nhiêu?
Giải. Theo quy luật phân phối của trung bình mẫu, với n 30 ta có
4000
X ~ N ; N 51800 ;
n 30
500 500
Ta có P X 500 P 500 X 500
n n
500 500
2 0,68 2 0,2517 50,34%
4000 4000
30 30
Như vậy với một mẫu n 30 , cho xác suất về mức chênh lệch giữa trung bình mẫu tiền
lương hằng năm so với tổng thể không quá 500USD là 50,34%. Nên nếu muốn xác suất
này tăng cao hơn, giám đốc nhân sự nên suy nghĩ về việc sử dụng một mẫu dữ liệu với cỡ
mẫu lơn hơn.
M
i 1
i
X k
Mi
x
i 1 i
X n x1 x2 ...xn
Trong đó X : trung bình nhân.
xi : lượng biến thứ i.
Giá trị trung bình nhân là một công cụ quan trọng trong tính toán hiệu quả hoạt động kinh tế bởi
sự ảnh hưởng của hệ số nhân gộp của các giá trị qua các thời kỳ, trong việc đo tốc độ phát triển
kinh tế được gọi là tốc độ tăng trưởng gộp hay tỉ suất lợi nhuận theo thời gian.
Ví dụ 4.2 Một người đem $100 đi đầu tư và nhận được mức lợi nhuận như sau:
Năm 1 Năm 2 Năm 3 Năm 4 Năm 5
3% 5% 8% -1% 10%
Vậy số tiền tăng trưởng mỗi năm sẽ là:
Năm 1: $100 1.03 $103.00
Năm 2: $103 1.05 $108.15
Năm 3: $108.15 1.08 $116.80
Năm 4: $116.80 0.99 $115.63
Năm 5: $115.63 1.10 $127.20
Giá trị trung bình nhân hay tỉ suất lợi nhuận là:
5
1.03 1.05 1.08 .99 1.10 1 4.93%.
Tỉ suất lợi nhuận hàng năm là 4.93%, gần bằng là 5% là giá trị được tính bằng phương pháp cộng.
Trong ví dụ trên lợi nhuận không thay đổi đáng kể qua từng năm nên trung bình cộng và trung
bình nhân gần bằng nhau. Tuy nhiên, nếu danh mục đầu tư của bạn có mức lợi nhuận thay đổi
đáng kể qua các năm thì sự chênh lệch giữa hai phương pháp là khá lớn.
Ví dụ 4.3 Một nhà đầu tư nắm giữ một mã cổ phiếu biến động mạnh. Trong lần đầu tiên ông ta
đã đầu tư $100, giá tăng rất mạnh nhưng sau đó có một đợt giảm nhanh. Mức lợi nhuận đem lại
như sau:
Năm 1 Năm 2 Năm 3 Năm 4
10% 150% -30% 10%
10 150 30 10
Trong ví dụ trên giá trị trung bình cộng là 35%
4
Tuy nhiên giá trị đúng là:
Năm 1: $100 1.10 $110.00
Năm 2: $110 2.5 $275.00
Năm 3: $275 0.7 $192.50
Năm 4: $192.50 1.10 $211.75
Giá trị trung bình nhân hay tốc độ tăng trưởng là 20.6%, nhỏ hơn rất nhiều so với 35% được tính
bằng phương pháp cộng.
64
Ví dụ 4.4 Có tài liệu về doanh thu của 79 cửa hàng trong tháng 10 năm 2009 như bảng dưới. Xác
định Mod của dữ liệu.
Doanh thu Cửa hàng Khoảng ni
Mật độ phân phối Mi
(triệu đồng) ( ni ) cách tổ hi
200 – 400 8 200 0,04
400 – 500 12 100 0,12
500 – 600 25 100 0,25
CHƯƠNG 4 : TÓM TẮT DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ 65
x n/2 x n2/2
Trường hợp tổng số quan sát là số chẵn ( n chẵn) : Me
2
ii. Trường hợp lượng biến liên tục.
Khảo sát giá trị lượng biến trên việc phân tổ giá trị ta có bảng số liệu có dạng
X x1 ; x 2 x2 ; x3 … x k ; x k 1
n n1 n2 … nk
Việc xác định giá trị trung vị qua hai bước
Bước 1: xác định tổ chứ trung vị.
Tổ chứ trung vị là tổ chứa giá trị n /2 trong trường hợp tổng số quan sát là chẵn hoặc là tổ
chứa giá trị n 1 / 2 nếu tổng số quan sát là số lẻ.
Bước 2: xác định giá trị trung vị trong tổ.
hMe S
Me X Me Min S Me 1
nMe 2
Ví dụ 4.5 Có tài liệu về doanh thu của 79 cửa hàng trong tháng 10 năm 2009 như bảng dưới. Xác
định trung vị của dữ liệu.
Doanh thu (triệu đồng) Cửa hàng ( ni ) Tần số cộng dồn
200 – 400 8 8
66
400 – 500 12 20
500 – 600 25 45
600 – 800 25 70
800 – 1000 9 79
Tổng 79
Tổ 3 là tổ chứa trung vị. Ta có trung vị của dữ liệu
hMe S 100 79
MeX X Me Min S Me1 500 20 578
nMe 2 25 2
Ví dụ 4.6 Có tài liệu tổng hợp về doanh số bán của 50 trạm xăng dầu thuộc tỉnh X trong tháng
10/2018 như sau:
Doanh số bán (triệu đồng) Số trạm
200 – 300 8
300 – 400 10
400 – 500 20
500 – 600 7
600 – 700 5
Tổng 50
Xác định trung bình, trung vị và mốt của tập số liệu trên.
Giải. Ta lập bảng:
Doanh số bán (triệu đồng) Trị trung bình tổ Số trạm
200 – 300 250 8
300 – 400 350 10
400 – 500 450 20
500 – 600 550 7
600 – 700 650 5
Tổng 50
Trung bình:
k
x n
i 1
i i
250 8 350 10 450 20 550 7 650 5
X k
432
50
n
i 1
i
Ví dụ 4.7 Giả sử rằng bạn chạy 100m trong sáu lần, mỗi lần chạy bạn dùng đồng hồ đo lại thời
gian chạy (giây) và kết quả 6 lần chạy của bạn gồm sáu giá trị như sau
x 25.1; 21.2; 17.9; 23.0; 24.6; 19.5 . Phân tích các đặc trưng ta có:
Thời gian chạy trung bình (mean) là 21.9 giây
Giá trị trung vị (median) là 22.1 giâyThời gian chạy nhiều nhất (maximum) là 25.1 giây và ít
nhất (minimum) là 17.9 giây.
Giả sử sau khi chạy hết 6 lần, bạn chạy tiếp lần thứ 7. Lần này đột nhiên chân bạn bị đau và bạn đi
bộ thay vì chạy, kết quả thời gian của lần này là 79.9 giây. Bạn cố gắng thử thêm lần nữa và kết
quả vẫn 79.9 giây. Ta có số liệu về 8 lần chạy như sau:
x 25.1; 21.2; 17.9; 23.0; 24.6; 19.5; 79.9; 79.9
Các giá trị Mean, Median và Mode so sánh giữa 2 bộ dữ liệu như sau:
Bộ 6 dữ liệu Bộ 8 dữ liệu
Mean 21.9 giây 36.4 giây
Median 22.1 giây 23.8 giây
Mode 79.9 giây
Đối với 6 lần chạy đầu tiên thì thời gian chạy ổn định, còn 2 lần sau có sự khác biệt rất lớn so với
6 lần chạy ban đầu (2 giá trị này được xem là bất thường của dữ liệu). Nếu bạn không bị đau thì
thời gian chạy dao động quanh Median. Theo bảng trên ta thấy rằng 2 số liệu sau không ảnh hưởng
nhiều đến Median (từ 22.1 lên 23.8) nhưng ảnh hưởng rất lớn đến Mean (từ 21.9 lên 36.4) và
Mode. Mặc dù Median có khả năng đo lường xu hướng tập trung của dữ liệu mạnh hơn Mean vì
Median không bị ảnh hưởng bởi các dữ liệu bất thường nhưng nhiều người vẫn thích sử dụng
68
Mean để đo lường xu hướng tập trung của dữ liệu vì dễ tính hơn và không cần phải sắp xếp dữ
liệu như Median.
Ví dụ 4.8 Nếu dữ liệu mô tả giới tính là nominal và 1 là nam, 0 là nữ thì Mean hay Median là 0.5
không có ý nghĩa gì. Trong khi đó Mode cho biết tần suất nam hay nữ xuất hiện nhiều nhất trong
bộ dữ liệu khảo sát.
Độ biến thiên của dữ liệu dùng để đánh giá mức độ đại diện của của số bình quân đối với tổng thể
nghiên cứu, nghĩa là độ biến thiên của dữ liệu càng lớn thì mức đại diện của bình quân cho tổng
thể càng thấp và ngược lại. Độ biến thiên của dữ liệu trong dãy lượng biến sẽ cho thấy nhiều đặc
trưng về phân phối của tổng thể hơn so với các giá trị trung tâm và bình quân, giúp ích nhiều trong
việc điều tra chọn mẫu, chỉ ra mối quan hệ giữa các điều kiện khảo sát số liệu và dự đoán thống
kê.
Hãy xét hai phân phối được trình bày trong hai hình dưới. Cả hai phân phối đều được đặt ở vị trí
có trung tâm tại X 4 , nhưng có sự khác biệt lớn về độ biến thiên của những giá trị đo lường
xung quanh số trung bình đối với hai phân phối này. Các giá trị đo lường trong hình thứ nhất thay
đổi xấp xỉ từ 3 đến 5; trong hình thứ hai, các giá trị đo lường thay đổi từ 0 đến 8.
Sự biến thiên là một đặc trưng quan trọng của dữ liệu. Nhưng việc dữ liệu phân tán giá trị rộng
hay hẹp và quyết định về điều đó còn tùy thuộc vào đặc điểm của dữ liệu đang xét.
Hình 4.5 : Phân phối dữ liệu với độ lệch chuẩn khác nhau.
Ví dụ 4.9 Giả sử chúng ta đang chế tạo bu-lông, thì sự biến thiên quá mức trong đường kính của
bu-lông sẽ kéo theo một tỷ lệ phần trăm cao của sản phẩm có khiếm khuyết. Mặt khác, khi chúng
ta sử dụng một bài kiểm tra để phân biệt giữa những kế toán viên giỏi và kém, thì chúng ta sẽ
không vui nhất nếu bài kiểm tra này lúc nào cũng mang lại những điểm kiểm tra với ít biến thiên,
bởi vì điều này sẽ làm cho việc phân biệt trở nên rất khó khăn.
x
i 1
i X
d
n
Ưu điểm: Công thức độ lệch tuyệt đối trung bình cho chỉ chính xác giá trị lệch trung bình giữa
lượng biến và trung bình lượng biến, trong trường hợp bảng số liệu thực tế công thức dễ tính toán.
Nhược điểm: Công thức tính phụ thuộc vào dấu giá trị tuyệt đối, nên trong trường hợp khảo sát
về mặt lý thuyết thì công thức không thể áp dụng và mở rộng.
2
2 E X EX E X 2 EX
2
1 N 2
2
N i 1
Xi X
N
2
X
i 1
i X
Độ lệch chuẩn tổng thể :
N
1 n 2
Độ lệch chuẩn của mẫu : S
n 1 i 1
xi X
một mẫu dữ liệu cỡ mẫu n gồm X1; X 2 ;,...; X n , thì ta có đại lượng phương sai mẫu S 2 thỏa
n 1 S 2
~ 2;n1
2
Lưu ý.
Quy luật phân phối đồng thời trung bình mẫu và phương sai mẫu.
Giả sử tổng thể X có quy luật phân phối chuẩn với X ~ N ; 2 , trên tổng thể này ta thu thập
một mẫu dữ liệu cỡ mẫu n gồm X1; X 2 ;,...; X n , thì ta có đại lượng trung bình mẫu X và phương
sai mẫu S 2 kết hợp thỏa
X
~ T n1
S
n
1 2 2 2 2 2 2
[ 182 178 168 178 184 178 190 178 170 178 174 178 ]
5
75,2
Độ lệch tiêu chuẩn: S 75,2 8,6717
CHƯƠNG 4 : TÓM TẮT DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ 71
S 8,6718
Hệ số biến thiên: V 4,87%
X 178
Ví dụ 4.11 Một dàn máy rạp hát gia đình trong một phòng nhỏ là cách dễ nhất và rẻ nhất để tạo
ra âm thanh lập thể chi trung tâm giải trí gia đình. Một mẫu về giá được cho ở đây (Consumer
Reports Buying Guide, 2004). Giá cả cho các mô hình có một đầu DVD và cho mô hình không có đầu
DVD.
Mô hình có đầu DVD Giá USD (X) Mô hình không đầu DVD Giá USD (Y)
Sony HT-1800DP 450 Pioneer HTP-230 300
Pioneer HTD-330DV 300 Sony HT-DDW750 300
Sony HT-C800DP 400 Kenwood HTB-306 360
Panasonic SC-HT900 500 RCA RT-2600 290
Panasonic SC-MTI 400 Henwood HTB-206 300
a) Tính giá trung bình cho các mô hình có đầu DVD và giá trung bình cho mô hình không có đầu
DVD. Giá phải trả thêm để có đầu DVD trong dàn máy nhà hát gia đình là bao nhiêu?
b) Tính khoảng biến thiên, phương sai và độ lệch chuẩn của hai mẫu. Thông tin này cho bạn
biết gì về giá cả của mô hình có đầu DVD và không có đầu DVD.
Giải.
a) Tính giá trung bình cho các mô hình có đầu DVD và giá trung bình cho mô hình không có đầu
DVD. Giá phải trả thêm để có đầu DVD trong dàn máy nhà hát gia đình là bao nhiêu?
450 300 400 500 400
Giá trung bình cho các mô hình có đầu DVD: X 410
5
300 300 360 290 300
Giá trung bình cho mô hình không có đầu DVD: Y 310
5
b) Tính khoảng biến thiên, phương sai và độ lệch chuẩn của hai mẫu. Thông tin này cho bạn
biết gì về giá cả của mô hình có đầu DVD và không có đầu DVD.
Mô hình có đầu DVD:
Khoảng biến thiên: RX X Max X Min 500 300 200
Phương sai:
1 n 2
S 2X
n 1 i 1
xi X
1 2 2 2 2 2
[ 450 410 300 410 400 410 500 410 400 410 ]
4
5500
Độ lệch tiêu chuẩn: S X S X2 5500 47,162
1 2 2 2 2 2
[300 310 300 310 360 310 290 310 300 310 ]
4
800
Độ lệch tiêu chuẩn: SY S Y2 800 28,28
72
Từ những thông tin trên cho thấy giá của mô hình có đầu DVD ổn định hơn giá của mô hình
không có đầu DVD.
Ví dụ 4.12 Sau khi kết thúc kỳ thi cuối kỳ môn xác suất thống kê, điểm một sinh viên đã được
thông báo rằng số điểm là 6.5 đặt tại phân vị thứ 60 trong phân phối của những số điểm. Giá trị
điểm khi so với điểm thi trung bình và độ lệch với điểm trung bình thì khẳng định tại phân vị thứ
60 có nghĩa là 60% những số điểm kiểm tra khác là thấp hơn số điểm của sinh viên này và 40% là
cao hơn.
i. Trường hợp lượng biến rời rạc.
Khi lượng biến rời rạc ta sắp xếp giá trị lượng biến theo thứ tự tăng dần và đánh chỉ số cho lượng
biến.
p
Xác định vị trí của giá trị phân vị thứ : chỉ số i n 1
100
Giá trị phân vị thứ xác định bằng công thức:
x[ i ]
a
x
b i 1
x[ i ]
Trong đó: i là phần nguyên của chỉ số i.
a
là phần lẻ thứ nhất của chỉ số i.
b
ii. Trường hợp lượng biến liên tục.
Khảo sát giá trị lượng biến trên việc phân tổ giá trị ta có bảng số liệu có dạng
X x1 ; x2 x 2 ; x3 … x k ; x k 1
n n1 n2 … nk
Việc xác định giá trị phân vị thứ qua hai bước
Bước 1: xác định tổ chứa phân vị thứ
p
Là tổ có tần số cộng dồn vừa đủ lớn hơn chỉ số i n
100
Bước 2: xác định giá trị phân vị thứ :
hi p
X iMIN n S i1
ni 100
CHƯƠNG 4 : TÓM TẮT DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ 73
4.3.2 Tứ phân vị
Tứ phân vị
Là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu. Tứ phân vị có 3 giá trị, đó là tứ phân
vị thứ nhất (Q1), thứ nhì (Q2), và thứ ba (Q3). Ba giá trị này chia một bộ dữ liệu (đã sắp xếp dữ
liệu theo trật từ từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau.
Q1 Q2 Q3
Min 25% 25% Max
Dữ liệu Dữ liệu
25% dữ liệu
Min Q1 Q2 Q3 Max
Hình 4.7 : Biểu đồ tứ phân vị.
Biểu đồ hộp biểu diễn tứ phân vị.
Box Plot giúp bạn biểu diễn các đại lượng quan trọng của dãy số như min, max, phân vị, khoảng
tứ phân vị (Interquartile Range) một cách trực quan, dễ hiểu. Một Box plot có dạng như sau:
90 Q3
70
50 Q2
30
Q1
10 Min
1
Định lý Tchebysheff
1
Một tổng thể bất chấp hình dạng phân phối, ít nhất 1 .100% giá trị rơi vào khoảng m
m2
so với giá trị trung bình.
1
P X m x X m 1
m2
Bản thân các giá trị z chỉ đơn thuần cho thấy dữ liệu cần kiểm tra cao hơn hay thấp hơn trung bình
bao nhiêu độ lệch chuẩn. Tuy nhiên, khi giá trị được sử dụng cùng với Định lý Tchebysheff, thì
có thể đưa ra một số lời phát biểu thận trọng về vị trí tương đối của một dữ liệu quan sát.
Hơn nữa, nếu dữ liệu có phân bố theo quy luật phân phối chuẩn (dạng phân phối hình chuông úp),
thì Quy tắc Thực nghiệm có thể được dùng để đưa ra những lời phát biểu mạnh hơn về vị trí tương
đối của một dữ liệu quan sát xét theo giá trị của nó.
Giá trị cực kỳ lớn nêu lên câu hỏi về hiệu lực của một giá trị quan sát, tức giá trị quan sát này có
thể đã được ghi nhận không đúng, hoặc nó có thể không thuộc về tổng thể mà chúng ta đã mong
muốn lấy mẫu. Những giá trị quan sát với các giá trị hết sức lớn thường được gọi là giá trị dị biệt
bởi vì chúng nằm cách xa trung tâm của tập dữ liệu. Những giá trị quan sát nằm cao hơn hay thấp
hơn trung bình trong khoảng từ hai đến ba độ lệch chuẩn là những giá trị dị biệt có thể có, trong
khi đó những giá trị quan sát nằm cao hơn hay thấp hơn trung bình nhiều hơn ba độ lệch chuẩn
thì được xem là những giá trị dị biệt rõ ràng.
CHƯƠNG 4 : TÓM TẮT DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ 75
10
1 10 2 2
xi2 277 ; S 2
11
x i X 18.6778 S 4.32 (độ lệch chuẩn mẫu)
10 1 11
x X 15 3,3
Với giá trị x 15 ta có trị z 2.71
S 4.32
Vì giá trị z nằm cách giá trị trung bình một khoảng là 2.71 lần độ lệch chuẩn nên có thể khẳng định
x 15 là một giá trị đột biến. Nên chúng ta sẽ coi lại thủ tục lấy mẫu có sai số trong lần đo này
không.
Ví dụ 4.15 Kết quả của một cuộc khảo sát quốc gia cho thấy trung bình người lớn ngủ 6,9 giờ mỗi
đêm. Giả sử rằng độ lệch chuẩn là 1,2 giờ.
a) Sử dụng quy tắc Chebyshev để tính toán tỷ lệ phần trăm của những người ngủ từ 4,5 giờ đến
9,3 giờ.
b) Sử dụng quy tắc Chebyshev để tính toán tỷ lệ phần trăm của những người ngủ từ 3,9 đến 9,9
giờ.
c) Giả sử rằng số giờ ngủ có phân phối hình chuông. Sử dụng quy tắc thực nghiệm để tính toán
tỷ lệ phần trăm của những người ngủ từ 4,5 đến 9,3 giờ mỗi ngày. So sánh kết quả mà bạn có
được bằng cách sử dụng quy tắc Chebysev trong câu (a)?
Giải.
a) Sử dụng quy tắc Chebyshev để tính toán tỷ lệ phần trăm của những người ngủ từ 4,5 giờ đến
9,3 giờ.
x X 4,5 6,9 x X 9,3 6,9
z1 1 2 độ lệch chuẩn và z2 2 2 độ lệch chuẩn
S 1,2 S 1,2
1 1
Có ít nhất 1 2
.100% 1 2 .100% 75% .
z1 2
b) Sử dụng quy tắc Chebyshev để tính toán tỷ lệ phần trăm của những người ngủ từ 3,9 đến 9,9
giờ.
x1 X 3,9 6,9 x X 9,9 6,9
z1 2,5 độ lệch chuẩn và z2 2 2,5 độ lệch chuẩn
S 1,2 S 1,2
1 1
Có ít nhất 1 2
.100% 1 2 .100% 84% .
z1 2,5
c) Giả sử rằng số giờ ngủ có phân phối hình chuông. Sử dụng quy tắc thực nghiệm để tính toán
tỷ lệ phần trăm của những người ngủ từ 4,5 đến 9,3 giờ mỗi ngày. So sánh kết quả mà bạn có
được bằng cách sử dụng quy tắc Chebysev trong câu (a)?
z1 2 và z2 2 . Theo thực nghiệm: P 2 Z 2 95%
đây bao gồm các đặc điểm như mức độ tương quan (hệ số tương quan) và xây dựng một mô hình
tiên đoán. Mô hình ở đây chính là hàm số nối kết hai biến với nhau.
Ví dụ 4.16 Liên hệ giữa độ tuổi và mật độ có nghĩa là chúng ta muốn biết mối tương quan giữa
hai biến này ra sao và có thể sử dụng độ tuổi để tiên lượng mật độ xương cho một cá nhân hay
không.
Cov X ;Y E XY E X .E Y
Đối với trường hợp khảo sát số liệu thực tế, biến ngẫu nhiên X có n số liệu X i | i 1, n và biến
ngẫu nhiên Y có n số liệu Yi | i 1, n ta có hiệp phương sai được tính thông qua công thức
1 n
Cov X ,Y
xi X
n 1 i 1
y Y
i
Hoặc
1 n 1 n n
Cov X ;Y i i x y x i yi
n 1 i 1 n i 1 i 1
Nhận xét: Với việc đưa ra khái niệm hiệp phương sai sẽ gặp khó khăn khi nhận xét mối quan hệ
của hai biến ngẫu nhiên về giá trị nhận được, vì hiệp phương sai của hai biến ngẫu nhiên phụ thuộc
vào đơn vị của biến và khi đơn vị thay đổi dẫn đến độ lớn của hiệp phương sai thay đổi.
Ví dụ 4.18 Cho hai biến ngẫu nhiên – chỉ chiều cao của một người đơn vị là (m), và – chỉ cân
nặng của một người đơn vị là (kg). Nếu chuyển sang đơn vị là (cm)
(10 ; ) = (10 ) − (10 ).
= 10[ ( ) − . ] = 10 ( ; )
Vậy việc tính hiệp phương sai giữa các biến ngẫu nhiên sẽ phụ thuộc vào đơn vị của các biến ngẫu
nhiên, để khắc phục điều này ta xây dựng một chỉ số tương quan mới nhưng không lệ thuộc vào
đơn vị của các biến ngẫu nhiên.
4.4.2 Hệ số tương quan.
Cho hai biến ngẫu nhiên , . Hệ số tương quan giữa , được ký hiệu là ( , ) có công thức là
( ; )
ℎ ; ≠0
( , )= √ .
0 ℎ = 0 ℎ =0
Đối với trường hợp khảo sát số liệu thực tế, biến ngẫu nhiên X có n số liệu X i | i 1, n và biến
ngẫu nhiên Y có n số liệu Yi | i 1, n ta có hiệp phương sai được tính thông qua công thức :
n
n
1 n n
x i X y Y
i
i 1
x y
i i x
n i 1 i i 1
yi
X ,Y i 1
n 2 n 2 n 2 n 2
x
i 1
i X y Y
i 1
i x
i 1
i X y Y
i 1
i
Ví dụ 4.19 Cân nặng và vòng eo. Số liệu sau đây được trích ra từ một nghiên cứu qui mô (trên
3000 người) ở Việt Nam về mối liên hệ giữa các chỉ số nhân trắc và bệnh tiểu đường. Trọng lượng
và vòng eo của 15 đối tượng được đo lường và kết quả như sau
95
90
85
80
75
70
65
60
55
50
40 45 50 55 60 65 70 75 80 85 90
n n 1 X
i 1
i X 1
X
i 1
i X
Kurtosis 4
n 1n 2 n 3 s n s4
n : Cỡ mẫu.
X i : giá trị mẫu quan sát thứ i.
X : giá trị trung bình mẫu.
s : độ lệch chuẩn mẫu có hiệu chỉnh.
Lưu ý: Tuy trên đồ thị không thể hiện rõ lắm, nhưng phân phối leptokurtic có phần đuôi (phần
lớn hơn +4 và nhỏ hơn -4) “béo” hơn phân phối chuẩn khoảng gấp đôi, và phân phối platykurtic
có phần đuôi “mỏng” hơn phân phối chuẩn khoảng một nửa.
Excess kurtosis được tính là đáng kể nếu giá trị tuyệt đối của nó lớn hơn hoặc bằng 1.0; vd:
kurtosis > 4.0 (excess positive kurtosis > 1.0) hoặc kurtosis < 2.0 (excess negative kurtosis < -
1.0).
n 3 n 3
n
i 1
Xi X 1
X
i 1
i X
Skewness
n 1 n 2 s3 n s3
n : Cỡ mẫu.
X i : giá trị mẫu quan sát thứ i.
X : giá trị trung bình mẫu.
s : độ lệch chuẩn mẫu có hiệu chỉnh.
CHƯƠNG 2
Mục lục chương 2
Ví dụ 2.1 Một sinh viên thi kết thúc môn học A, ta quan tâm kết quả sinh viên này thi có đạt hay
không đạt. Phép thử này là phép thử Bernoulli.
Định nghĩa (Biến ngẫu nhiên Bernoulli). Thực hiện một phép thử Bernoulli, ta quan tâm đến
0 NÕu biÕn cè A kh«ng x¶y ra
biến cố A có xảy ra hay không. Đặt : X
1 NÕu biÕn cè A x¶y ra
Giả sử P A P X 1 p . Khi đó biến ngẫu nhiên X được gọi là biến ngẫu nhiên Bernoulli với
tham số p, ký hiệu X ~ B p
Bảng phân phối xác suất của biến ngẫu nhiên Bernoulli có dạng
X 0 1
P q =1−p p
Dựa vào bảng phân phối xác suất của biến ngẫu nhiên Bernoulli có EX p và VarX pq
Ví dụ 2.2 Sinh viên A trả lời một bài tập trắc nghiệm có bốn lựa chọn trong đó chỉ có một lựa
chọn đúng, giả sử sinh viên này chọn câu trả lời một cách ngẫu nhiên. Ta đặt biến ngẫu nhiên
0 nÕu sinh viªn tr¶ lêi sai.
X
1 nÕu sinh viªn tr¶ lêi ®óng.
thì X ~ B p . Bảng phân phối xác suất của X
X 0 1
28
P 3/4 1/4
Trong thực tế ta thường thực hiện liên tiếp nhiều phép thử Bernoulli và đếm số lần xảy ra biến cố
A trong các lần thực hiện đó. Phân phối xác suất số lần xảy ra A được trình bày ở mục kế tiếp.
Định nghĩa (Phân phối nhị thức).Thực hiện n phép thử Bernoulli độc lập với xác suất xảy ra
biến cố A trong mỗi phép thử là p. Đặt biến ngẫu nhiên
0 nÕu biÕn cè A kh«ng x¶y ra ë phÐp thö thø i.
Xi
1 nÕu biÕn cè A x¶y ra ë phÐp thö thø i.
Biến ngẫu nhiên X X 1 X 2 ... X n chỉ số lần A xảy ra trong n lần thực hiện.
Biến ngẫu nhiên X được gọi là có phân phối nhị thức tham số n và p; ký hiệu X ~ B n, p
Ví dụ 2.3 Quan sát quyết định mua hàng của 5 khách hàng bước vào một cữa hàng quần áo. Dựa
trên kinh nghiệm từ trước, quản lý cửa hàng ước lượng xác suất khách hàng sẽ mua hàng là 0,3
và biết các khách hàng mua hàng độc lập với nhau. Các vấn đề liên quan đến số lượng khách hàng
mua hàng như:
a. Xác suất có 3 khách hàng sẽ mua hàng là bao nhiêu.
b. Trung bình sẽ có bao nhiêu khách hàng sẽ mua hàng.
c. Độ lệch trung bình xung quanh giá trị trung bình của khách hàng sẽ mua hàng là bao nhiêu.
d. Số khách hàng chắc chắn nhất sẽ mua hàng hàng là bao nhiêu.
Ví dụ 2.4 Một xạ thủ bắn 3 phát đạn vào một mục tiêu một cách độc lập, xác suất trúng mục tiêu
ở mỗi lần bắn là 0,7. Gọi các biến ngẫu nhiên:
0 nÕu ph¸t thø i kh«ng tróng môc tiªu.
Xi
1 nÕu ph¸t thø i tróng môc tiªu.
Vậy biến ngẫu nhiên : X X 1 X 2 X 3 ~ B 3;0.7 là số phát trúng mục tiêu trong 3 phát. Giá trị
có thể của X là 0; 1; 2:
Ta thử tính xác suất có 2 phát trúng mục tiêu:
0.7 0.7 0.3 0.72 0.3 nÕu viªn 1,2 tróng.
2
P X 2 0.7 0.3 0.7 0.72 0.3 nÕu viªn 1,3 tróng. 3 0.72 0.3 C32 0.7 0.3
0.3 0.7 0.7 0.72 0.3 nÕu viªn 2,3 tróng.
Chứng minh.
Bởi vì X ~ B n, p cho nên : X X 1 X 2 ... X n .
vậy ModX 3
30
Ví dụ 2.7 Có 9% sinh viên đại học nợ thẻ tín dụng lớn hơn 7000 USD (Reader Digest, tháng 7,
2002). Giả sử chọn ngẫu nhiên 10 sinh viên đại học để phỏng vấn về việc sử dụng thẻ tín dụng.
Giả sử số sinh viên có mức dư nợ thẻ tín dụng cao hơn 7000 USD, thì X là biến ngẫu nhiên có phân
CHƯƠNG 2 : PHÂN PHỐI XÁC SUẤT THÔNG DỤNG 31
Định nghĩa (phân phối siêu bội) một tập gồm có N phần tử, trong đó có NA phần tử có
tính chất A và N — NA phần tử không có tính chất A. Từ tập ta lấy ngẫu nhiên n phần
tử (lấy một lần n phần tử hoặc lấy n lần không hoàn lại mỗi lần một phần tử).
Gọi X là số phần tử có tính chất A lẫn trong n phần tử lấy ra từ tập . Khi đó X là biến
0 k n
ngẫu nhiên rời rạc nhận giá trị k sao cho
n N N A k N A
C Nk A C Nn kN A
PX k ; k S
C Nn
Biến ngẫu nhiên rời rạc X được gọi là có phân phối siêu bội với tham số N; NA; n, ký
hiệu X ~ H N ; N A ; n
Ví dụ 2.8 Siêu thị mở đợt khuyến mãi dành cho khách hàng mua 5 sản phẩm từ một lô hàng gồm
15 sản phẩm trong đó có 5 sản phẩm loại A và 10 sản phẩm loại B. Quản lý muốn quan tâm về số
lượng sản phẩm mà khách hàng mua như sau:
a. Trong 5 sản phẩm khách hàng chọn, xác suất có 3 sản phẩm loại A là bao nhiêu.
b. Trung bình có bao nhiêu sản phẩm loại A mà khách hàng sẽ mua trong 5 sản phẩm.
c. Độ lệch chuẩn về số sản phẩm A mà khách hàng mua trong 5 sản phẩm.
d. Số sản phẩm A chắc chắn nhất mà khách hàng sẽ mua trong 5 sản phẩm.
Ví dụ 2.9 Bộ phận marketing của một dooanh nghiệp có 50 nhân viên trong đó có 30 nhân
viên nữ. Cần chọn 10 nhân viên tiếp thị cho một sản phẩm mới, giả sử khả năng được chọn
của các nhân viên là như nhau. Gọi X là số nhân viên nữ được chọn. Tính xác suất có
a. Không quá 3 nhân viên nữ được chọn.
b. Ít nhất một nhân viên nữ được chọn
Giải.
X là số nhân viên nữ được chọn, khi đó X ~ H 50;30;10
a. Xác suất không quá 3 nhân viên nữ được chọn :
P X 3 P X 0 P X 1 P X 2 P X 3
0 10 1 9 2 8 3 7
C30C20 C30 C20 C30 C20 C30 C20
10
10
10
0
0.03648
C50 C50 C50 C50
b. Xác suất ít nhất một nhân viên nữ được chọn :
32
0 10
C30C20
P X 1 1 P X 1 1 P X 0 1 10
0.99998
C50
Định lý. Trong mô hình phân phối siêu bội, khi thực hiện phép thử ta lấy liên tiếp n
lần không hoàn lại, mỗi lần lấy một phần tử. Ta gọi
1 nÕu lÇn i lÊy ®îc phÇn tö lo¹i A.
Xi
0 nÕu lÇn i kh«ng lÊy ®îc phÇn tö lo¹i A.
i. Xác suất mỗi lần lấy phần tử A là như nhau, nghĩa là
NA
P X i 1 ; i 1,..., n
N
ii. Với mọi i j thì
NA N A 1
P X i 1; X j 1
N N 1
NA NA 1
Kỳ vọng của tích E X i X j P Xi 1; X j 1 .
N N 1
2
N
Và tích của hai kỳ vọng EX i .EX j A
N
Hiệp phương sai
Cov X i ; X j E X i X j EX i .EX j
2
N A N A 1 NA N A N NA
2
N N 1 N N N 1
Định lý (Các đặc trưng của biến ngẫu nhiên siêu bội). Nếu biến ngẫu nhiên
X ~ H N ; N A ; n thì
NA
i. Kỳ vọng EX np với p
N
N n
ii. Phương sai VarX npq với q 1 p
N 1
Chứng minh.
NA
i. Ta có X X 1 X 2 ... X n nên EX EX 1 EX 2 ... EX n n
N
ii. Khai triển phương sai cho biểu thức:
n n N N NA N N NA
Var X i Var X i 2 Cov X i ; X j n A . 2Cn2 2
i 1 i 1 i j N N N n 1
NA N N A N N NA N N NA n1
n . n 1 n 2 n A . 1
N N N n 1 N N N 1
NA N N A N n
n . .
N N N 1
iii. Gọi Pk P X k ; xét tỷ số
Pk P X k N k 1 n k 1
A
Pk 1 P X k 1 k N NA n k
N n 8 3 7 336
Phương sai VarX npq 4. . .
N 1 11 11 10 605
Trong EXCEL, phân phối siêu bội được tính bằng lệnh : HYPGEOM.DIST
Sample_s : là số phần tử thỏa A
được lấy ra k
Number_sample : là số phần tử
lấy ra n
Population_s : là số phần tử
thỏa A có trong tập hợp. N A
Number_pop : là tổng số phần
tử có trong tập hợp N
Cumulative : bằng 0 nếu là hàm
mật độ và bằng 1 nếu là hàm
phân phối
Ví dụ 2.11 : X ~ H 50;30;10
P X 5 0,3550
Ví dụ 2.12 Trong một cuộc khảo sát được thực hiện bởi Tổ chức Gallup, người tham
gia được hỏi: “Bạn thích môn thể thao nào?” Bóng đã Mỹ và bóng rổ xếp hạng nhất và
hạng hai về sở thích (www.gallup.com, ngày 03/01/2004). Giả sử rằng trong một nhóm
10 người, bảy người thích bóng đá và ba người thích bóng rổ. Xét một mẫu ngẫu nhiên
gồm 3 trong số 10 người trên.
a. Xác suất có đúng 2 người thích bóng đá là bao nhiêu?
CHƯƠNG 2 : PHÂN PHỐI XÁC SUẤT THÔNG DỤNG 35
C72C31
P X 2 3
0.525
C10
b. Xác suất mà phần lớn (hai hay ba người) thích bóng đá là bao nhiêu?
C72C31 C73C30
P X 2 P x 2 P X 3 3
3 0.8176
C10 C10
2.3 Phân phối Poisson
Trong phần này ta xét biến ngẫu nhiên rời rạc thường dùng để ước lượng số lần xảy ra trong
một khoảng thời gian hoặc không gian nhất định.
Ví dụ 2.13 Biến ngẫu nhiên chỉ số ôtô đến một cửa hàng rửa xe trong một một giờ, số hư
hỏng cần sửa chửa trên 10 dặm đường cao tốc, hoặc số lỗ lủng trên 100m ống dẫn nước.
Tính chất của phép thử Poisson:
1. Đối với hai khoảng bất kỳ có độ dài bằng nhau thì xác suất xảy ra bằng nhau.
2. Việc xuất hiện hoặc không xuất hiện trong khoảng này độc lập với trong khoảng khác.
Định nghĩa (Phân phối Poisson). Biến ngẫu nhiên rời rạc X nhận giá trị nguyên dương
k 0,1,2,... với xác suất
k e
P X k ; k 0,1,2,...
k!
được gọi là có phân phối Poisson với tham số , ký hiệu X ~ P .
Ví dụ 2.14 Tại một trường đại học mở một khóa học, và học viên đăng ký qua điện thoại, theo
kinh nghiệm trong những đợt ghi danh trước thì trung bình cứ 2 phút có 1 cuộc gọi đến. Để
đạt hiệu quả cao trong việc tiếp học viên, quản lý phòng ghi danh cần quan tâm đến việc bố trí
nhân viên trực phù hợp thông qua các vấn đề:
a. Xác suất có 5 học viên gọi đến trong 10 phút.
b. Trung bình có bao nhiêu học viên gọi đến trong 10 phút.
c. Độ lệch chuẩn về số lượng học viên gọi đến trong 10 phút.
d. Số lượng học viên gọi điện đến chắc chắn nhất trong 10 phút là bao nhiêu.
Ví dụ 2.15 Tại một nhà máy dệt, trung bình có 8 ống sợi bị đứt trong hai giờ. Tìm xác
suất để trong một giờ có không quá 2 ống sợi bị đứt.
Giải. Gọi X là số ống sợi bị đứt trong một giờ, X ~ P 4 . Ta cần tìm xác suất
40 e 4 41 e 4 42 e 4
P X 2 P X 0 P X 1 P X 2 13e 4
0! 1! 2!
BNN MẬT ĐỘ
0 0.0183156 0.25
1 0.0732626 0.2
2 0.1465251
3 0.1953668 0.15
…. …. 0.1
12 0.0006415
0.05
13 0.0001974
14 5.64E-05 0
15 1.504E-05 0 5 10 15
Ví dụ 2.16 Ở một tổng đài điện thoại, trung bình có 50 cuộc gọi đến trong 5 phút. Tìm
xác suất để trong 1 phút:
a. Có đúng 5 cuộc gọi đến trong 1 phút.
b. Có ít nhất 2 cuộc gọi trong 1 phút.
Giải. Trung bình trong một phút có 10 cuộc gọi đến. Gọi X là số cuộc gọi đến tổng đài
trong 1 phút thì X ~ P 10
Ví dụ 2.17 Tại một trường đại học đăng ký khóa học bằng điện thoại, trung bình có 1 cuộc
gọi đến trong 2 phút.
a. Số cuộc gọi kỳ vọng trong một giờ là bao nhiêu?
b. Xác suất có 3 cuộc gọi trong vòng 5 phút là bao nhiêu?
c. Xác suất không có cuộc gọi nào trong một khoảng thời gian là 5 phút là bao nhiêu?
Giải.
a. Vì trung bình có 1 cuộc gọi đến trong 2 phút nên có 30 cuộc gọi đến trong một giờ (60
phút)
b. Xác suất có 3 cuộc gọi trong vòng 5 phút là bao nhiêu?
e 10 103
P X 3 0,0076
3!
với X là số cuộc gọi đến trong 5 phút
c. Xác suất không có cuộc gọi nào trong một khoảng thời gian là 5 phút là bao nhiêu?
e 10 100
P X 0 4.54 105.
0!
Định nghĩa (Phân phối chuẩn tắc). Biến ngẫu nhiên Z có phân phối chuẩn với tham
số 0 và 2 1 được gọi là có phân phối chuẩn tắc, ký hiệu Z ~ N 0;1 Hàm mật độ
của Z ~ N 0;1
z2
1
2
f z e , z
2
Đồ thị hàm mật độ biến ngẫu nhiên chuẩn tắc Z ~ N 0;1 đối xứng qua trục tung,
38
Laplace (Giá trị x được tính sẵn trong bảng B.2 phần phụ lục)
Hàm NORM.DIST
X: cận của vùng tính xác suất
P X x
Mean: kỳ vọng
Standard_dev: độ lệch chuẩn s
Cumulative: bằng 0 nếu là hàm mật
độ, bằng 1 nếu là hàm phân phối.
Hàm NORM.INV
Probability : giá trị xác suất tính từ
đến cận cần tìm p P X x
Ví dụ 2.18 Cho biến ngẫu nhiên X ~ N 0;1 ; tính các xác suất.
a. P 1 X 2
b. P 1.5 X
Giải. Theo tính chất iii
a. P 1 X 2 2 1 2 1 0.4772 0.3413 0.8185
b. P 1.5 X P 1.5 X 1.5 0.5 0.4332 0.0668
Ví dụ 2.19 Điểm Toeic của sinh viên sắp tốt nghiệp ở trường đại học có phân phối
chuẩn với giá trị trung bình 560 và độ lệch chuẩn 78. Tính:
a. Tỷ lệ sinh viên có điểm nằm giữa 600 và 700.
b. Tỷ lệ sinh viên có điểm Toeic trên 500.
c. Giả sử nhà trường muốn xác định điểm Toeic tối thiểu để sinh viên có thể ra trường với tỉ lệ
80%. Tính điểm Toeic tối thiểu (lấy phần nguyên).
Giải. Gọi X là điểm Toeic của sinh viên sắp tốt nghiệp,
a. Tỷ lệ sinh viên có điểm nằm giữa 600 và 700
700 560 600 560
P 600 X 700
78 78
1,79 0,51 0,4633 0,1950 0,2683
b. Gọi k là đểm Toeic của sinh viên có thể ra trường. Theo giả thiết
40
Ví dụ 2.20 Đối với người đi vay có điểm tính dụng tốt, nợ trung bình của các tài khoản trả dần và
tài khoản trả góp là 15015 USD (Business Week, 20/3/2006). Giả sử độ lệch chuẩn là 3540 USD
và tiền nợ có phân phối chuẩn.
a. Xác suất để tiền nợ của người vay có điểm tín dụng tốt được lựa chọn ngẫu nhiên cao hơn
18000 USD là bao nhiêu?
b. Xác suất để tiền nợ của người vay có điểm tín dụng tốt được lựa chọn ngẫu nhiên thấp hơn
10000 USD là bao nhiêu?
c. Xác suất để tiền nợ của người vay có điểm tín dụng tốt được lựa chọn ngẫu nhiên nằm giữa
12000 USD và 18000 USD là bao nhiêu?
d. Xác suất để tiền nợ của người vay có điểm tín dụng tốt được lựa chọn ngẫu nhiên không cao
hơn 14000 USD là bao nhiêu?
Giải.
Gọi X là tiền nợ của người đi vay có điểm tín dụng tốt. X ~ N 15015; 35402
a. Xác suất để tiền nợ của người vay có điểm tín dụng tốt được lựa chọn ngẫu nhiên cao hơn 18
000 USD là bao nhiêu?
18000 15015
P X 18000 0.5 0.5 0.84 0.5 0.2995 0.2005
3540
b. Xác suất để tiền nợ của người vay có điểm tín dụng tốt được lựa chọn ngẫu nhiên thấp hơn
10 000 USD là bao nhiêu?
10000 15015
P X 10000 0.5 1.42 0.5 0.4222 0.5 0.0778
3540
c. Xác suất để tiền nợ của người vay có điểm tín dụng tốt được lựa chọn ngẫu nhiên nằm giữa
12000 USD và 18000 USD là bao nhiêu?
18000 15015 12000 15015
P 12000 X 18000
3540 3540
0.84 0.85 0.2996 0.3023 0.6019
d. Xác suất để tiền nợ của người vay có điểm tín dụng tốt được lựa chọn ngẫu nhiên không cao
hơn 14 000 USD là bao nhiêu?
14000 15015
P X 14000 0.5 0.29 0.5 0.1141 0.5 0.3859
3540
2.5 Phân phối Chi bình phương
Định nghĩa (Phân phối Chi bình phương). Cho các biến ngẫu nhiên X 1 ,..., X n độc lập cùng
phân phối chuẩn tắc, X i ~ N 0;1 . Biến ngẫu nhiên 2 X 12 X n2 được gọi là có phân
phối Chi - bình phương với n - bậc tự do , ký hiệu 2 ~ 2,n .
CHƯƠNG 2 : PHÂN PHỐI XÁC SUẤT THÔNG DỤNG 41
Với 2 được định nghĩa như trên, ta tìm được hàm mật độ của 2 . Trước hết ta nhận xét
2
P X 12 x 0 với mọi x 0 . Nếu x 0 thì hàm phân phối xác suất của X1 là
P X 12 x P x X 1 x F x F x (*)
Trong đó F là hàm phân phối của biến ngẫu nhiên có phân phối chuẩn tắc. Lấy đạo hàm
ha i v ế c ủa (*), ta nhận được biểu t hứ c hàm mật độ của X12 là
1 1 12 x2
x 2 e khi x 0
2
0 khi x 0
Định lý (Các đặc trưng của phân phối Chi bình phương). Nếu biến ngẫu nhiên 2 ~ 2,n
thì
i. Kỳ vọng EX n
ii. Phương sai VarX 2n
Trong EXCEL, phân phối siêu bội được tính bằng lệnh : CHISQ.DIST và CHISQ.INV
Hàm CHISQ.DIST
X : cận vùng xác suất tính
từ 0 : P 0 2 x
Deg_freedom: bậc tự do
n
Cumulative: bằng 0 nếu là
hàm mật độ, bằng 1 nếu là
hàm phân phối.
Hàm CHISQ.INV
Probability: Xác suất của
vùng tính từ 0 đến cận x :
p P 0 2 x
Hàm T.DIST
x : cận vùng xác suất tính
từ : P T x
Deg_freedom: bậc tự do
n
Cumulative: bằng 0 nếu là
hàm mật độ, bằng 1 nếu là
hàm phân phối.
Hàm T.INV
Probability: vùng xác suất
tính từ đến cận x :
p P T x
Giống như phân phối chuẩn tắc, hàm mật độ của biến ngẫu nhiên có phân phối Student
đối xứng qua trục tung. Hơn nữa, là khi n càng lớn thì hàm mật độ của T ~ T n càng giống
với hàm mật độ chuẩn tắc, bởi vì
2 X 12 ... X n2
với X i , i 1,..., n ; là các biến ngẫu nhiên độc lập cùng phân phối chuẩn tắc.
2 P X n F
Theo định lý luật số lớn 6.10 thì 1 . Cũng từ định lý 6.7 thì T X
n 2
Vậy khi n lớn thì phân phối của biến ngẫu nhiên T ~ Tn được xấp xỉ bằng phân phối của
biến ngẫu nhiên X ~ N 0;1 ;
Nếu gọi F1 x , F2 x lần lượt là hàm phân phối xác suất của Z ~ N 0;1 và T ~ T n . Sai số
khi ta xấp xỉ phân phối Student bằng phân phối chuẩn tắc
err x F1 x F2 x , x
Sai số lớn nhất sẽ giảm khi n tăng. Sai số lớn nhất là 0,1256 khi n 1 và giảm nhanh đến
0,005244 khi n 30 ; xem hình 5.13.
Khi bậc tự do n 30 ; sai số giữa hai phân phối được mô đánh giá như đồ thị 5.14.
Sai số lớn nhất sẽ giảm khi n tăng lên, sai số lớn nhất là 0,1256 khi n 1 sẽ giảm xuống còn
0,005244 khi n 30 .
Nên trong thực nghiệm, khi n đủ lớn ( n 30 ) ta có thể xấp xỉ phân phối Student bằng phân phối
chuẩn
CHƯƠNG 2 : PHÂN PHỐI XÁC SUẤT THÔNG DỤNG 45
0.14
r=1 r = 10 r = 30
Hình 2.12: Biểu đồ mức chênh lệch giữa phân phối chuẩn và Student
CHƯƠNG 1: BIẾN NGẪU NHIÊN 1
CHƯƠNG
1
Mục lục chương 1
Ban đầu khi tiếp cận về lý thuyết xác suất, sinh viên đã tiếp cận về khái niệm biến cố, phân
loại và phương pháp tính xác suất xảy ra của các biến cố. Trong chương một này, mục tiêu
là tiếp tục cung cấp các kiến thức cơ bản cho sinh viên về lý thuyết xác suất ở mức độ hệ
thống và quản lý khả năng xảy ra của các kết quả có thể có trong một phép thử. Khái niệm
mới được đưa vào trong chương này là thuật ngữ biến ngẫu nhiên, là một khái niệm quan
trọng trong lý thuyết xác suất, giúp chúng ta hiểu rõ quy luật, bản chất của các hiện tượng
ngẫu nhiên.
1.1 Khái niệm biến ngẫu nhiên
Trong nhiều trường hợp, chúng ta không quan tâm chi tiết đến mọi kết quả trong không
gian mẫu của phép thử mà thay vào đó ta quan tâm đến phân nhóm cho các kết quả đó. Ví
dụ thực hiện phép thử tung 3 đồng xu lần lượt, ta có không gian mẫu của phép thử là:
S NNN ; NNS ; NSN ; NSS ; SNN ; SNS ; SSN ; SSS
Trong đó ký hiệu S : tung đồng xu được sấp và N : tung đồng xu được ngữa. Như vậy ta
có thể phân loại kết quả của phép thử thành 4 trường hợp: không được mặt sấp nào có
1 3 3
xác suất là , được một mặt sấp có xác suất là , được hai mặt sấp có xác suất là và
8 8 8
1
được ba mặt sấp có xác suất là . Như vậy nếu ta đặt một biến ngẫu nhiên chỉ số mặt sấp
8
có được sau 3 lần tung, kí hiệu là X , thì X 0,1,2,3 sẽ đại diện cho 8 trường hợp trong
Định nghĩa Biến ngẫu nhiên X của một phép thử là một hàm số đi từ không gian các biến
cố sơ cấp S vào R :
X :S
X X
Người ta thường dùng các chữ in X; Y; Z; … để ký hiệu các biến ngẫu nhiên và các chữ
thường x; y; z; … để chỉ các giá trị của biến ngẫu nhiên.
Ta ký hiệu biến ngẫu nhiên X nhận giá trị x là X x và xác suất để X nhận giá trị x là
PX x .
Ví dụ 1.1.
Thực hiện phép thử tung đồng xu 3 lần, gọi X là biến ngẫu nhiên chỉ số mặt sấp có được
trong 3 lần tung.
Ta có không gian mẫu của phép thử S NNN ; NNS ; NSN ; NSS ; SNN ; SNS ; SSN ; SSS
Ví dụ 1.2.
CHƯƠNG 1: BIẾN NGẪU NHIÊN 3
Một quyển tập Starbook có kích thước chuẩn 175 255 2mm đang được lưu hành
ngoài thị trường. Chọn một quyển tập bất kỳ và đo chiều dài quyển tập. Gọi X là biến
ngẫu nhiên chỉ số đo chiều dài quyển tập.
Trong trường hợp này thì tập giá trị của biến ngẫu nhiên X là tất cả các giá trị nằm trong
khoảng 253 ;257 mm .
Dựa trên tập giá trị của biến ngẫu nhiên có thể nhận được, người ta phân biến ngẫu
nhiên ra làm hai loại.
Biến ngẫu nhiên được gọi là rời rạc: nếu tập giá trị của biến ngẫu nhiên chỉ nhận hữu
hạn hoặc vô hạn đếm được các giá trị. Ta có thể liệt kê các giá trị của biến ngẫu nhiên rời
rạc x1 , x2 ,..., x n ,...
Biến ngẫu nhiên được gọi là liên tục: nếu tập giá trị của biến ngẫu nhiên có thể lấy bất
kỳ trên một khoảng của trục số thực.
Ví dụ 1.3.
Quan sát kết quả bài thi lấy chứng chỉ kiểm toán viên (CPA) của một nhân viên kế toán.
Bài kiểm tra gồm 4 phần. Gọi X là số phần của bài kiểm tra mà nhân viên đó đã vượt qua.
Khi đó, X là biến ngẫu nhiên rời rạc vì tập các giá trị mà nó có thể nhận là hữu hạn gồm
các giá trị 0, 1, 2, 3, 4.
Ví dụ 1.4.
Quan sát xe ô tô đi qua một trạm thu phí. Biến ngẫu nhiên X là số xe hơi đi qua trạm thu
phí trong 1 ngày. Khi đó, X là biến ngẫu nhiên rời rạc có thể nhận một trong các giá trị của
dãy vô hạn (0, 1, 2, … ).
Ví dụ 1.5.
Chiều cao của thanh niên Việt Nam thường nằm trong khoảng từ 150 cm đến 180 cm.
Chiều cao đo được cụ thể của một thanh niên nào đó có thể nhận bất kỳ giá trị nào nằm
trong khoảng này, tùy thuộc vào độ chính xác sủa phép đo.
Ví dụ 1.6.
Quan sát các cuộc gọi đến phòng tiếp nhận thông tin của một công ty bảo hiểm. Gọi X là
thời gian giữa hai cuộc gọi liên tiếp. X có thể nhận bất kỳ giá trị nào trong khoảng 0;
. X có thể nhận vô số các giá trị, chẳng hạn 1,26 phút, 2,755 phút, …
Với X là biến ngẫu nhiên rời rạc, tập giá trị của X gồm các giá trị x1 ; x2 ;...; x n ;... với
x1 x2 ... x n ... . Và xác suất tương ứng với các giá trị của biến ngẫu nhiên là
Để biểu diễn biến ngẫu nhiên X ta dùng bảng phân phối xác suất có cấu trúc như sau:
X x1 x2 … xn …
P p1 p2 … pn ...
Nhận xét. Trong kết quả phép thử ngẫu nhiên, biến ngẫu nhiên rời rạc chỉ nhận một trong
các giá trị x1 ,..., xn ,... nên các biến cố X x j và X x i xung khắc với mọi i j .
Tính chất. Bảng phân phối xác suất của biến ngẫu nhiên có tính chất sau:
i P X x p
i 1
i
i 1
i 1
ii P a X b PX x i pi
a xi b a xi b
Cho biến ngẫu nhiên rời rạc X nhận các giá trị x1 , x2 ,..., x n ,... với xác suất tương ứng là
p , x xi
f x i với i 1,2,..., n,...
0, x xi
Tính chất. Tương tự bảng phân phối, hàm mật độ xác suất có các tính chất sau:
i f x 0 ; x
ii f x 1
x
iii P a X b f x
a x b
Ví dụ 1.7.
Với phép thử gieo 4 đồng xu lần lượt, và đặt là biến ngẫu nhiên chỉ số mặt sấp có được
sau 4 lần tung. Ta có bảng phân phối xác suất và hàm mật độ xác suất cho .
X 0 1 2 3 4
1 4 6 4 1
P
16 16 16 16 16
CHƯƠNG 1: BIẾN NGẪU NHIÊN 5
Hình 1.2: Hàm mật độ xác suất biến ngẫu nhiên rời rạc.
Ví dụ 1.8.
Xem xét doanh thu bán xe ô tô tại cửa hàng Dicalo Motors ở Saratoga, New York. Quan sát
300 ngày, thấy rằng có 54 ngày không bán được chiếc ô tô nào, 117 ngày bán được một
chiếc, 72 ngày bán được 2 chiếc, 42 ngày bán được 3 chiếc, 12 ngày bán được 4 chiếc, 42
ngày bán được 3 chiếc, 12 ngày bán được 4 chiếc và 3 ngày bán được 5 chiếc. Giả sử phép
thử là chọn một ngày bất kỳ của DiCarlo Motors và định nghĩa biến ngẫu nhiên X là số
chiếc ô tô bán được trong ngày đó. Từ dữ liệu quá khứ, ta biết X là biến ngẫu nhiên rời rạc
có thể nhận một trong các giá trị 0, 1, 2, 3, 4, 5. Ta có bảng phân phối xác suất của biến
ngẫu nhiên X như sau:
X 0 1 2 3 4 5
P 0,18 0,39 0,24 0,14 0,04 0,01
0.5
0.4
0.3
0.2
0.1
0
0 1 2 3 4 5
Ví dụ 1.9.
Giả sử biến ngẫu nhiên X có bảng phân phối xác suất như sau:
X 1 2 3 4
1 2 3 4
P
10 10 10 10
Phân phối xác suất của biến ngẫu nhiên X có thể được biểu diễn bằng công thức:
x
f x , với x 1,2,3, hoặc 4
10
Ứng với từng giá trị có thể có của X, ta có thể xác định phân phối xác suất f x
6
2
tương ứng. Chẳng hạn, ta có thể xác định f 2 chính là xác suất để X nhận
10
giá trị 2.
Cho biến ngẫu nhiên liên tục X , có tập giá trị D , hàm mật độ xác suất của biến ngẫu
nhiên X là hàm f x thỏa với mọi a, b D thì:
b
P a X b f x dx
a
Ý nghĩa. Hàm mật độ xác suất của biến ngẫu nhiên liên tục miêu tả xác suất biến ngẫu
nhiên thuộc một khoảng giá trị bằng vùng diện tích của hàm mật độ trong khoảng đó.
Hình 1.4: Hàm mật độ xác suất biến ngẫu nhiên liên tục.
Nhận xét. Tính chất ii) giúp chỉ ra mối quan hệ giữa định nghĩa hàm mật độ xác suất và
công thức tính xác suất.
A f x dx
P X A xA
f x dx
S
f x dx
xA
Hệ quả.
CHƯƠNG 1: BIẾN NGẪU NHIÊN 7
iii Đối với biến ngẫu nhiên liên tục thì mật độ xác suất tại một điểm thì bằng 0,
P X x0 0 , x0 .
iv Từ đó ta có
b
P a X b P a X b P a X b P a X b f x dx
a
Ví dụ 1.10.
Cho biến ngẫu nhiên liên tục X có hàm mật độ xác suất
kx 3 khi 0 x 1
f x
0 khi x 0 x 1
a. Xác định hằng số k .
b. Tính xác suất biến ngẫu nhiên X 0,4;0,6
Giải.
a. Xác định hằng số k .
Theo tính chất ii) ta có
0 1 1
3 k 4 k
f x dx 1 0dx 0 kx dx 1 0dx 1 4 x 1 4 1
0
Vậy để f x là hàm mật độ xác suất của biến ngẫu nhiên X thì k 4 . Và
4x 3 khi 0 x 1
f x
0 khi x 0 x 1
Hình 1.5: Hàm mật độ xác suất biến ngẫu nhiên liên tục
13
Xác suất X 0,4;0,6 bằng so với 1 là xác suất X chắc chắn thuộc 0;1 .
125
8
Ví dụ 1.11.
Nhãn trên chai nước giặt cho biết mỗi chai chứa 12 ounces. Giả sử dung tích trên các chai
sản xuất được phân phối đều theo hàm mật độ xác suất sau:
Gọi X là biến ngẫu nhiên chỉ dung tích trên một chai nước giặt.
a. Xác suất để một chai chứa từ 12 đến 12,05 ounces là bao nhiêu?
b. Xác suất để một chai chứa từ 12,02 ounces trở lên là bao nhiêu?
c. Những chai có dung tích sai lệch không quá 0,02 ounces so với số in trên nhãn được
chấp nhận là đạt tiêu chuẩn. Xác suất để một chai không đạt tiêu chuẩn là bao
nhiêu?
Giải.
a. Xác suất để một chai chứa từ 12 đến 12,05 ounces là bao nhiêu?
12,05 12,05
P 12 X 12,05 8dx 8 x 12 0,4.
12
b. Xác suất để một chai chứa từ 12,02 ounces trở lên là bao nhiêu?
12,1 12,1
P X 12,05 P 12,05 X 12,1 8dx 8 x 12,05 0,4.
12,05
c. Những chai có dung tích sai lệch không quá 0,02 ounces so với số in trên nhãn được
chấp nhận là đạt tiêu chuẩn. Xác suất để một chai không đạt tiêu chuẩn là bao nhiêu?
Vậy, xác suất để một chai không đạt tiêu chuẩn là 1 0,32 0,68.
Hàm phân phối xác suất của biến ngẫu nhiên X là hàm F x được định nghĩa:
F : với
F x PX x
Hàm phân phối xác suất hay còn gọi là hàm phân phối tích lũy.
CHƯƠNG 1: BIẾN NGẪU NHIÊN 9
Nhận xét. Khai triển công thức hàm phân phối trong hai trường hợp:
i. Trường hợp X là biến ngẫu nhiên rời rạc
F x P X x P X xi pi
xi x xi x
Ví dụ 1.12.
Ta có bảng phân phối xác suất của X
X x1 x2 … xn
P p1 p2 … pn
0 ; x x1
p1 ; x1 x x2
p p ; x 2 x x3
F x 1 2
............
p1 p2 ... pn1 ; xn 1 x x n
1 ; xn x
Hình 1.6: Hàm phân phối biến ngẫu nhiên rời rạc.
ii. Trường hợp biến ngẫu nhiên liên tục
x
F x P X x f u du
Ví dụ 1.13.
Cho biến ngẫu nhiên X liên tục có hàm mật độ xác suất
4x 3 khi 0 x 1
f x
0 khi x 0 x 1
Lập hàm phân phối xác suất cho biến ngẫu nhiên X
Giải.
x x
Nếu x 0 ta có F x f t dt 0dt 0
x x x
x
Nếu 0 x 1 ta có F x f t dt f t dt 4t 3dt t 4 x 4
0
0 0
x 1 x 1
Nếu x 1 ta có F x f t dt f t dt 0dt 4t 3dt 1
0 1 0
0 ;x 0
F x x 4 ;0 x 1
1 ;1 x
0 ;x 0
4 x 3 khi 0 x 1
f x F x x 4 ;0 x 1
0 khi x 0 x 1 1 ;1 x
Nhận xét. Nếu một biến ngẫu nhiên X liên tục có
h x , x a; b
hàm mật độ dạng f x ; với h x liên tục trên a; b .
0, x a; b
0 ;x a
thì hàm phân phối xác suất dạng F x H x ; a x b ; với H ' x h x .
1 ;b x
i. 0 F x 1 , x
iii. Với F x là hàm phân phối của biến ngẫu nhiên liên tục ta có
P a X b F b F a với mọi a , b , a b
Nếu hàm phân phối xác suất F x của biến ngẫu nhiên X khả vi tại mọi x , với f x là
x
F x f t dt F ' x f x
X x1 x2 … xn Y y1 y2 … ym
P p1 p2 … pn P q1 q2 … qn
Hai biến ngẫu nhiên X ;Y được gọi là độc lập với nhau khi và chỉ khi xác suất biến ngẫu
nhiên này nhận giá trị không ảnh hưởng đến xác suất biến ngẫu nhiên kia nhận giá trị.
Và theo công thức nhân xác suất trong chương 1 ta có:
P X xi . Y y j P X xi .P Y y j pi .q j i , j
Ví dụ 1.14.
Tung 2 viên xúc sắc riêng biệt. Gọi X ; Y là biến ngẫu nhiên chỉ số nút của xúc sắc thứ nhất
và thứ hai. Ta có ví dụ
1 1 1
P X 2 . Y 3 . P X 2 .P Y 3
36 6 6
Là một trường hợp về xác suất của cặp giá trị X ;Y nhận được lần lượt là 2 ; 3.
1 1 1
Tương tự ta có P X i . Y j 36 . P X i .P Y j
6 6
i , j 1,6
1.4.2 Kết hợp hai biến ngẫu nhiên rời rạc độc lập.
Cho biến ngẫu nhiên X và Y rời rạc, độc lập có bảng phân phối như ban đầu
Trong đó z1 ; z2 ;...; zk x i y j / i 1, n ; j 1, m
Và Pl P X Y zl P X xi .P Y y j pi q j
xi ; y j : xi y j zl xi ; y j : xi y j zl
Tương tự trong một trường hợp khác nếu ta kết hợp X .Y thì bảng phân phối xác suất
có cấu trúc tương tự:
12
X .Y z1 z2 … zk
P P1 P2 … Pk
Trong đó z1 ; z2 ;...; zk x i . y j / i 1, n ; j 1, m
Và Pl P X .Y zl P X x i .P Y y j pi q j
xi ; y j : xi . y j zl xi ; y j : xi . y j zl
Ví dụ 1.15.
Cho hai biến ngẫu nhiên rời rạc X ;Y độc lập có bảng phân phối xác suất lần lượt:
X -1 1 2 3 Y 1 3 5
P 0,3 0,4 0,2 0,1 P 0,3 0,5 0,2
Lập bảng phân phối xác suất cho biến ngẫu nhiên X Y .
Giải.
Ta có bảng phân phối xác suất của X Y dạng:
X Y 0 2 3 4 5 6 7 8
P 0,09 0,27 0,06 0,29 0,1 0,13 0,04 0,02
Trong đó:
P X Y 0 P X 1 .P Y 1 0,3.0,3 0,09
P X Y 2 P X 1 .P Y 3 P X 1 P Y 1 0,3.0,5 0,4.0,3 0,27
P X Y 3 P X 2 .P Y 1 0,2.0,3 0,06
P X Y 4 P X 1 .P Y 5 P X 1 .P Y 3 P X 3 .P Y 1
0,3.0,2 0,4.0,5 0,1.0,3 0,29
P X Y 5 P X 2 .P Y 3 0,2.0,5 0,1
P X Y 6 P X 1 .P Y 5 P X 3 .P Y 3 0,4.0,2 0,1.0,5 0,13
P X Y 7 P X 2 .P Y 5 0,2.0,2 0,04
P X Y 8 P X 3 .P Y 5 0,1.0,2 0,02
1.5 Hàm của biến ngẫu nhiên.
Cho biến ngẫu nhiên X và f x là một hàm số xác định tại mọi giá trị trong tập giá trị
của biến ngẫu nhiên X , thì Y f X là một biến ngẫu nhiên mới và là hàm theo biến
ngẫu nhiên X .
Cho biến ngẫu nhiên X rời rạc có bảng phân phối xác suất
X x1 x2 … xn
P p1 p2 … pn
Và Y f X là hàm theo biến ngẫn nhiên X .
Bảng phân phối xác suất của biến ngẫu nhiên Y có dạng
CHƯƠNG 1: BIẾN NGẪU NHIÊN 13
Y f X y1 y2 … yk
P P1 P2 … Pk
Theo nguyên tắc:
Tập giá trị của biến ngẫu nhiên Y : y1 , y2 ,..., yk f x 1 , f x 2 ,..., f x n .
Giá trị xác suất : Pi P Y yi pj .
x j ; f x j yi
Ví dụ 1.16.
Cho biến ngẫu nhiên X rời rạc có bảng phân phối xác suất:
X 1 2 3 4
P 0,4 0,3 0,2 0,1
Bảng phân phối xác suất của biến ngẫu nhiên Y X 2 có dạng:
Y X2 1 4 9 16
P 0,4 0,3 0,2 0,1
Ví dụ 1.17.
Cho biến ngẫu nhiên X rời rạc có bảng phân phối xác suất:
X -1 1 2 3
P 0,4 0,3 0,2 0,1
Bảng phân phối xác suất của biến ngẫu nhiên Y X 2 có dạng
Y X2 1 4 9
P 0,7 0,2 0,1
Trong đó P Y 1 P X 2 1 P X 1 P X 1 0,4 0,3 0,7 .
G y P Y y P h X y f x dx
x , h x y
g y G ' y
Ví dụ 1.18.
14
Cho biến ngẫu nhiên liên tục X có hàm mật độ xác suất
4 x 3 khi 0 x 1
f x
0 khi x 0 x 1
Và hàm biến ngẫu nhiên Y X 3 , lập hàm mật độ xác suất cho biến ngẫu nhiên Y .
Giải.
Gọi G y là hàm phân phối xác suất cho biến ngẫu nhiên Y .
3 y
3
G y P Y y P X y P X 3
f x dx
y
3 y
Nếu 3
y 0 y 0 ta có G y 0dx 0
3 y 3 y
3
4
3 4 y
Nếu 0 3
y 1 0 y 1 ta có G y f x dx 4x dx x y3
0
0
3 y 3 y
1
Nếu 1 3
y 1 y ta có G y f x dx f x dx 0dx 1
0 1
0 ;y0
4
Vậy G y y 3 ;0 y 1
1 ;1 y
4 3
y ; y 0;1
g y 3 .
0 ; y 0;1
1.6 Các đặc trưng của biến ngẫu nhiên.
1.6.1 Kỳ vọng
Định nghĩa. Giả sử biến ngẫu nhiên rời rạc X có bảng phân phối xác suất
X x1 x2 … xn …
P p1 p2 … pn ...
Ví dụ 1.19.
CHƯƠNG 1: BIẾN NGẪU NHIÊN 15
Gọi X là biến ngẫu nhiên chỉ số nút nhận được khi tung xúc sắc. Ta có bảng phân phối xác
suất của X
X 1 2 3 4 5 6
1 1 1 1 1 1
P
6 6 6 6 6 6
thì kỳ vọng của biến ngẫu nhiên X
1 1 1 1 1 1 21
EX 1 2 3 4 5 6 3,5
6 6 6 6 6 6 6
Nhận xét. Giá trị 3,5 cũng chính là số nút trung bình nhận được khi tung một xúc sắc.
Ví dụ 1.20.
Một người tham gia vào một trò chơi vòng xoay roulette, (Một bánh xe xoay xung quanh
tâm, trên bánh xe có 38 ô tương ứng với các ô 00, 0, 1, 2, 3,…, 35, 36), tương ứng với ô 00
là màu trắng, ô 0 là màu xanh, các ô chẵn (2, 4,…, 36) màu đỏ, và các ô lẻ (1, 3,…, 35) màu
đen. Có nhiều hình thức đặt cược trong trò chơi, và người này đặt cược vào chẵn lẻ. Giả
sử người này đặt cược vào ô chẵn $1, trung bình trong một lượt chơi thì người này thắng
hay thua bao nhiêu tiền.
Giải.
Gọi X là biến ngẫu nhiên chỉ số tiền người này được hay mất sau mỗi lượt chơi, thì
X 1,1 . Tương ứng với giá trị xác suất là
18 20
P X 1 và P X 1 .
38 38
Nghĩa là người này tham gia trò chơi 38 lần thì có 18 lần người này được $1 và 20 lần
người này mất $1. Trung bình số tiền về mặt tần số là
18 20
EX $1. $1 . $0.053
38 38
Vậy trung bình một lượt chơi thì người này mất hơn 5 cent.
Nhận xét. Về mặt hình ảnh ta có thể quan sát như sau:
-0,053
-1 1
Coi 1 và 1 là hai cột mốc trên thanh đòn nằm ngang. Tại đây ta đặt hai quả cân có khối
10 9
lượng là đơn vị tại 1 và tại 1 . Thì giá trị EX 0,053 là cột mốc trên thanh
19 19
16
x2 … xk 1
Ta có thể hình dung lúc này kỳ vọng của biến ngẫu nhiên chính là tọa độ của điểm trên
thanh đòn mà tại đó giúp thanh đòn thăng bằng.
Định nghĩa. Giả sử biến ngẫu nhiên liên tục X có hàm mật độ xác suất là f x , kỳ vọng
Ví dụ 1.21.
CHƯƠNG 1: BIẾN NGẪU NHIÊN 17
1
; x 0;2
Biến ngẫu nhiên liên tục X có hàm mật độ : f x 2
0 ; x ;0 2;
Tính kỳ vọng của biến ngẫu nhiên X?
Giải.
ii. E CX C EX
iii. E X Y EX EY
iv. Nếu hai biến ngẫu nhiên X và Y độc lập thì E XY EX .EY
Đặt Y h X , xác định hàm mật độ xác suất g y của Y và tính kỳ vọng của biến ngẫu
nhiên Y .
E h X EY yg y dy
Tuy nhiên, để tính kỳ vọng E h X không cần thiết phải tìm hàm mật độ của biến ngẫu
nhiên h X mà ta có thể tính E h X trực tiếp bằng tính chất sau:
Tính chất kỳ vọng hàm của biến ngẫu nhiên. Cho h là hàm số thực bất kỳ
i. Nếu X là biến ngẫu nhiên rời rạc có bảng phân phối xác suất cho bởi
X x1 x2 … xn …
P p1 p2 … pn ...
18
ii. Nếu X là biến ngẫu nhiên liên tục có hàm mật độ xác suất f x thì kỳ vọng của
Ví dụ 1.22.
Cho biến ngẫu nhiên rời rạc X có bảng phân phối xác suất:
X -1 1 2 3
P 0,1 0,2 0,4 0,3
Để đối chiếu kết quả kỳ vọng của biến ngẫu nhiên X 2 , ta có 2 cách tính như sau
Cách 1. Lập bảng phân phối xác suất cho biến ngẫu nhiên X 2
Y X2 1 4 9
P 0,3 0,4 0,3
2
Kỳ vọng của biến ngẫu nhiên Y X là
EY E X 2 1 0,3 4 0,4 9 0,3 4,6
Cách 2. Sử dụng công thức tính kỳ vọng hàm biến ngẫu nhiên:
2 2 2 2
E X 2 1 0,1 1 0,2 2 0,4 3 0,3 4,6
Hai cách tính đều cho kết quả E X 2 4,6 .
Ví dụ 1.23.
Cho biến ngẫu nhiên liên tục X có hàm mật độ xác suất
4 x 3 khi 0 x 1
f x
0 khi x 0 x 1
Kỳ vọng của biến ngẫu nhiên Y X 3 , kết quả tính và đối chiếu thông qua 2 cách:
Cách 1. Lập hàm mật độ xác suất cho biến ngẫu nhiên Y X 3
Theo ví dụ 2.11) ta có hàm mật độ của biến ngẫu nhiên Y có dạng:
4 3
y ; y 0;1
g y 3
0 ; y 0;1
Vậy theo định nghĩa kỳ vọng biến ngẫu nhiên Y bằng:
CHƯƠNG 1: BIẾN NGẪU NHIÊN 19
1 1 1
4 4 4 3 7
4 4
EY yg y dy y. 3 ydy y 3 dy . y 3
0
3 30 3 7 0 7
Cách 2. Sử dụng công thức kỳ vọng cho hàm biến ngẫu nhiê liên tục ta có:
1 1
x7 4
E X3 x 3 f x dx x 3 .4 x 3dx 4.
7 0 7
0
4
Đối chiếu hai kết quả ta có kỳ vọng của biến ngẫu nhiên Y X 3 bằng .
7
ngẫu nhiên thể hiện mức chênh lệch của giá trị biến ngẫu nhiên so với kỳ vọng là
Y X EX . Và biến ngẫu nhiên Y có thể nhận các giá trị âm và dương như hình vẽ
dưới.
x2 EX 0
x1 EX 0 X k 1 EX 0
X2
X1 X k 1
EX
....
X3 Xk
x3 EX 0 Xk EX 0
Trong một số trường hợp EY 0 và điều này không phản ánh đúng mức phân tán của
giá trị biến ngẫu nhiên xung quanh kỳ vọng.
Để khắc phục điều này, ta không tính trực tiếp sai lệch của giá trị biến ngẫu nhiên so với
kỳ vọng, mà ta tính thông qua trị tuyệt đối hoặc bình phương sai lệch. Và để thuận tiện
trong việc tính toán thì ta tìm trung bình của bình phương các sai lệch.
Định nghĩa. Cho biến ngẫu nhiên X có kỳ vọng là EX . Phương sai của X, ký hiệu là VarX
20
Áp dụng các tính chất của kỳ vọng ta có công thức tính phương sai:
2 2
VarX E X EX E X 2 EX
Trường hợp X là biến ngẫu nhiên rời rạc.
2
2
VarX E X 2 EX x i2 pi x i pi
i 1 i 1
Trường hợp X là biến ngẫu nhiên liên tục.
2
2
VarX E X EX
2 2
x f x dx xf x dx
Ví dụ 1.24.
Một chủ vườn thanh long thu hoạch trên hai thửa ruộng, mỗi thửa 10 quả bất kỳ, thu được
bảng trọng lượng (gram) của từng quả như sau:
Thửa 1 380 420 380 420 380 400 420 400 420 380
Thửa 2 400 500 300 300 500 300 400 450 450 400
Gọi X1 , X2 là biến ngẫu nhiên chỉ trọng lượng một quả thanh long trên thửa 1; 2.
Giải.
a. Ta có bảng phân phối xác suất của X1 , X 2 là
4 2 4
EX1 380. 400. 420. 400
10 10 10
3 3 2 2
EX2 300. 400. 450. 500. 400
10 10 10 10
Nhận xét. Kỳ vọng về trọng lượng của một quả thanh long trồng trên hai thửa là bằng
nhau. Nếu bạn là người thu mua thanh long, bạn sẽ chọn của thửa nào?
CHƯƠNG 1: BIẾN NGẪU NHIÊN 21
2 3 3 2 2
VarX 2 EX 22 EX 2 3002. 4002. 4502. 5002.
10 10 10 10
2
3 3 2 2
300. 400. 450. 500. 5500
10 10 10 10
Nhận xét. Nếu theo định nghĩa phương sai, là kỳ vọng của bình phương sai lệch của biến
ngẫu nhiên so với giá trị kỳ vọng biến ngẫu nhiên, vậy trong ví dụ này với kỳ vọng của 2
biến ngẫu nhiên là bằng nhau, thì phương sai về trọng lượng của quả thanh long của thửa
ruộng hai lớn hơn của thửa 1 nghĩa là các quả thanh long của thửa 1 “đều” hơn so với thửa
2. Và nếu chọn thu mua, thì thanh long của thửa 1 sẽ được ưu tiên chọn hơn.
Ví dụ 1.25.
Biến ngẫu nhiên liên tục X có hàm mật độ xác suất
4 x 3 khi 0 x 1
f x
0 khi x 0 x 1
Tính phương sai biến ngẫu nhiên X.
Giải.
Phương sai của biến ngẫu nhiên X là:
2
2
VarX E X EX
2 2
x f x dx xf x dx
1 2 2
1 1 1 2
x .4x dx x .4x 3dx 4 x 5dx 4 x 4dx
2 3
0 0 0 0 75
i. Var C 0
Do cách xây dựng công thức tính phương sai của biến ngẫu nhiên mà đơn vị đo của
phương sai bằng bình phương đơn vị đo của biến ngẫu nhiên. Nên để đánh giá mức độ
phân tán trung bình của giá trị biến ngẫu nhiên theo đơn vị đo của nó, người ta dùng một
đặc trưng mới đó là độ lệch tiêu chuẩn.
Định nghĩa. Độ lệch tiêu chuẩn của biến ngẫu nhiên X bằng căn bậc hai phương sai của
biến ngẫu nhiên X, ký hiệu
VarX
Ví dụ 1.26.
Cho biến ngẫu nhiên liên tục X có hàm mật độ xác suất
3 2 3
x x khi x 0;4
f x 32 8
0 khi x 0;4
Tính phương sai và độ lệch chuẩn biến ngẫu nhiên X.
Giải.
Kỳ vọng của biến ngẫu nhiên X :
4
3 2 3
EX xf x dx 0 x 32 x 8 x dx
4 4
3 3 3 4 1 3
x 3 x 2 dx x x 2
0
32 8 128 8 0
2 24 4
2
Ta có VarX E X EX
5
4
5
Độ lệch chuẩn của biến ngẫu nhiên X :
2 5
VarX
5
Giá trị tin chắc nhất của biến ngẫu nhiên X, ký hiệu ModX .
Trường hợp X là biến ngẫu nhiên rời rạc có bảng phân phối xác suất:
CHƯƠNG 1: BIẾN NGẪU NHIÊN 23
X x1 x2 … xn …
P p1 p2 … pn ...
Trường hợp X là biến ngẫu nhiên liên tục với hàm mật độ xác suất f x thì Mod xác
định là:
ModX x0 f0 Max f x , x
Ý nghĩa. Giá trị tin chắc nhất của biến ngẫu nhiên là giá trị của biến ngẫu nhiên mà đại
diện nhất cho phân bố. Về mặt hình vẽ ta có hai trường hợp như sau:
Trường hợp X là biến ngẫu nhiên rời rạc:
Lưu ý. Giá trị tin chắc nhất có thể không duy nhất.
Ví dụ 1.27.
Tìm Mod của biến ngẫu nhiên rời rạc X có bảng phân phối xác suất
X 1 2 3 4 5
P 0,05 0,15 0,3 0,3 0,2
Ví dụ 1.28.
24
3 2 3
x x khi x 0;4
f x 32 8
0 khi x 0;4
Tìm Mod của biến ngẫu nhiên X.
Giải.
Ta sẽ tìm giá trị lớn nhất của f x khi x 0;4
3 3
Ta có f ' x x , x 0;4 . Xét f ' x 0 ta thu được x 2 .
16 8
3
Giá trị f 0 0 ; f 4 0 ; f 2
8
Vậy Max f x f 2 . Vậy ModX 2
x0;4
1.6.4 Trung vị
1 1
P X x i 2 P X x i 2
hay
P X x 1 P X x 1
i i
2 2
Trường hợp X là biến ngẫu nhiên liên tục, MedX m khi mà:
1
P X m P X m
2
CHƯƠNG 1: BIẾN NGẪU NHIÊN 25
Ý nghĩa. Trung vị của biến ngẫu nhiên là giá trị của biến ngẫu nhiên chia phân phối xác
suất của biến ngẫu nhiên thành hai phần bằng nhau.
Nếu ta xét trong trường hợp biến ngẫu nhiên liên tục, thì về mặt hình học, trung vị là giá
trị của biến chia vùng diện tích của hàm mật độ xác suất làm hai phần có diện tích bằng
nhau.
Nhận xét. Trường hợp X là biến ngẫu nhiên rời rạc, có F x là hàm phân phối xác suất,
thì ta có:
1
medX xi F xi F x i 1
2
Trường hợp X là biến ngẫu nhiên liên tục, có F x là hàm phân phối xác suất, thì ta có:
m
1
medX m F m f x dx 2
Ví dụ 1.29.
Giả sử biến ngẫu nhiên rời rạc X có bảng phân phối xác suất như sau:
X 1 2 3 4
P 0.1 0.2 0.3 0.4
Tìm trung vị của biến ngẫu nhiên X.
Giải.
1 1
P X 3 0,3 2 P X 3 0,3 2
Ta có hay
P X 3 0,4 1 P X 3 0,6 1
2 2
Theo định nghĩa ta có medX 3 .
Ví dụ 1.30.
Giả sử biến ngẫu nhiên liên tục X có hàm mật độ xác suất cho bởi
26
4x 3 khi 0 x 1
f x
0 khi x 0 x 1
Tìm trung vị của biến ngẫu nhiên X.
Giải.
1
Theo định nghĩa ta có med m nếu P X m P X m với m 0;1
2
m m
m 1 1
f x dx 0,5 4 x 3dx 0,5 x 4 0,5 m4 m 4
0
0 2 2
1
Vậy trung vị medX
4
2
| ĐẠI HỌC VĂN LANG
KHOA KHOA HỌC CƠ BẢN
1.4 Hai biến ngẫu nhiên rời rạc độc lập. .................................................................................11
1.4.1 Hai biến ngẫu nhiên rời rạc độc lập. .................................................................... 11
1.4.2 Kết hợp hai biến ngẫu nhiên rời rạc độc lập. .......................................................11
3.2.1 Xác định dữ liệu và phương pháp thu thập dữ liệu sơ cấp ................................. 52
4.1. Các đại lượng đo lường mức độ tập trung của dữ liệu. .................................................. 60
5.2. Khoảng tin cậy cho giá trị trung bình. ...............................................................................84
5.3. Khoảng tin cậy cho độ lệch hai giá trị trung bình.............................................................86
5.5. Khoảng tin cậy cho độ lệch hai giá trị tỷ lệ. ...................................................................... 90
5.6. Khoảng tin cậy cho giá trị phương sai. ..............................................................................90
5.7. Khoảng tin cậy cho dự đoán giá trị quan sát .................................................................... 92
6.2. KIỂM ĐỊNH GIẢ THIẾT CHO MỘT GIÁ TRỊ TỶ LỆ TỔNG THỂ. ........................................... 96
6.3. KIỂM ĐỊNH GIẢ THIẾT CHO MỘT TRUNG BÌNH TỔNG THỂ. ............................................ 98
6.3.2 So sánh trung bình tổng thể với một số khi biết phương sai. ............................ 99
6.3.3 So sánh trung bình tổng thể với một số khi không biết phương sai. ................. 99
6.4. KIỂM ĐỊNH GIẢ THIẾT CHO PHƯƠNG SAI TỔNG THỂ. .................................................... 101
6.4.2 So sánh phương sai tổng thể với một số khi biết trung bình µ. ......................... 101
6.4.3 So sánh phương sai tổng thể với một số khi chưa biết trung bình µ. ................ 102
6.5. KIỂM ĐỊNH GIẢ THIẾT CHO HAI GIÁ TRỊ TỶ LỆ TỔNG THỂ. .............................................. 103
6.5.1 Kiểm định giả thiết so sánh 2 tỷ lệ tổng thể sử dụng phân phối chuẩn. ........... 103
6.5.2 Kiểm định giả thiết so sánh 2 tỷ lệ tổng thể sử dụng phân phối chi bình phương
............................................................................................................................... 105
6.6. KIỂM ĐỊNH GIẢ THIẾT CHO HAI TRUNG BÌNH TỔNG THỂ. .............................................. 107
6.6.2 So sánh hai trung bình tổng thể khi biết phương sai.......................................... 107
6.6.3 So sánh hai trung bình tổng thể khi không biết phương sai và cỡ mẫu lớn. ..... 108
6.6.4 So sánh hai trung bình tổng thể khi không biết phương sai, phương sai bằng nhau
và cỡ mẫu nhỏ. .................................................................................................................. 109
iv
6.7. KIỂM ĐỊNH GIẢ THIẾT CHO HAI PHƯƠNG SAI TỔNG THỂ ...............................................111
6.8.2 Kiểm định độc lập của hai bộ dữ liệu định tính. ..................................................112
7.1 CHUỖI THỜI GIAN, CÁC KHÁI NIỆM CƠ BẢN .................................................................... 114
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981
2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986
3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990
3.1 0.4990 0.4991 0.4991 0.4991 0.4992 0.4992 0.4992 0.4992 0.4993 0.4993
3.2 0.4993 0.4993 0.4994 0.4994 0.4994 0.4994 0.4994 0.4995 0.4995 0.4995
3.3 0.4995 0.4995 0.4995 0.4996 0.4996 0.4996 0.4996 0.4996 0.4996 0.4997
3.4 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4998
3.5 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998
3.6 0.4998 0.4998 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.7 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.8 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.9 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000
128
[3]. Lý thuyết xác suất và thống kê toán, Nguyễn Cao Văn, NXB Kinh tế quốc dân, 2012.
[4]. Thống kê ứng dụng trong quản trị, kinh doanh và nghiên cứu kinh tế, Trần Bá Nhẫn, Đinh
Thái Hoàng. 2006, Nhà xuất bản Thống Kê.
[5]. Essentials of probability & statistics for engineers & scientists, Ronald E Walpole, Pearson,
2013.