You are on page 1of 160

BM-002

BÀI TẬP CÁ NHÂN


1. Cho biến ngẫu nhiên X có bảng phân phối xác suất:

Giá trị độ lệch chuẩn của X là:


A. 3,9
B. 2,7
C. 4,9
D. 2,5
ANSWER: A
2. Người A làm việc tại một đơn vị kinh doanh và nhận lương tháng theo số hợp đồng ký
được. Mỗi hợp đồng ký được thì A sẽ được nhận 10 triệu đồng. Biết rằng, số hợp đồng ký
được trong 1 tháng có thể là 0, 1, 2 hoặc 3 hợp đồng với khả năng tương ứng là 10%, 30%,
40% và 20%. Mức lương trung bình của người A khoảng bao nhiêu một tháng?
A. 17 triệu đồng
B. 8,5 triệu đồng
C. 15 triệu đồng
D. không xác định được
ANSWER: A
3. Lợi nhuận (tỷ đồng) của hai dự án A và B có phân phối xác suất như sau
XA –2 3 10
PA 0,2 0,6 0,2

XB 1 4 9
PB 0,4 0,4 0,2

Khẳng định nào sau đây đúng?

A. Đầu tư vào dự án B có lợi nhuận cao hơn và rủi ro thấp hơn đầu tư vào dự án A;

B. Đầu tư vào dự án B có lợi nhuận thấp hơn và rủi ro cao hơn đầu tư vào dự án A;
C. Đầu tư vào dự án B có lợi nhuận và rủi ro cao hơn đầu tư vào dự án A;
D. Không xác định được lợi nhuận và rủi ro khi đầu tư vào hai dự án trên.
ANSWER: A
4. Cho X là biến ngẫu nhiên có bảng phân phối xác suất:
BM-002

Giá trị của P  X  1 là

A. 0,64
B. 0,36

C. 0,48

D. 0,84

ANSWER: A
5. Một nhà máy sản suất chíp bán dẫn có xác suất bị lỗi của 1 con chip là 0,05. Trong một
lô sản phẩm có 100 con chíp của nhà máy thì xác suất có nhiều nhất 10 con chíp bị lỗi là
bao nhiêu?
A. 0,989
B. 0,912

C. 0,875

D. 0,889

ANSWER: A
6. Cho Z  N  0;1 . Giá trị P  2,98  Z  0, 42  là

A. 0,3358
B. 0,4986

C. 0,1628

D. 0,8363

ANSWER: A
7. Thời gian sử dụng pin điện thoại có phân phối chuẩn với trung bình 7 giờ và độ lệch
chuẩn 1 giờ. Pin được xem là đạt yêu cầu nếu thời gian sử dụng không ít hơn 5 giờ. Tính tỷ
lệ pin đạt yêu cầu.
A. 98%
B. 89%
C. 85%
D. 95%
ANSWER: A
BM-002

8. Cho X  N 167;1 . Tìm a sao cho P  X  a   0,86 .

A. 168,1

B. 157,7

C. 155,3

D. 166,2

ANSWER: A
9. Khảo sát số điểm cuối kỳ môn Xác suất thống kê của lớp A, ta có kết quả

Tính số điểm cuối kỳ trung bình môn Xác suất thống kê của lớp A.
A. 6,2

B. 5,8

C. 6,5

D. 6,7

ANSWER: A
10. Quan sát tuổi thọ X (giờ) của một số bóng đèn do công ty A sản suất, ta có kết quả

X 1000 1100 1200 1300 1400


Số bóng đèn 8 10 31 18 3
Tính giá trị phương sai của mẫu.
A. 10426,5

B. 12460,5

C. 11523,7

D. 10872,1

ANSWER: A
11. Thời gian làm việc X (giờ) của nhân viên văn phòng trong một ngày có phân phối
chuẩn. Khảo sát thông tin từ máy chấm công trên 75 nhân viên cho ta bảng kết quả

Nếu muốn ước lượng trung bình thời gian làm việc của nhân viên văn phòng trong một
ngày với độ tin cậy 95% thì ta cần sai số cho phép là bao nhiêu?
BM-002

A. 0,13

B. 0,17
C. 0,21

D. 0,25

ANSWER: A
12. Thời gian X (phút) để một nhân viên cây xăng phục vụ 1 khách có phân phối chuẩn.
Quan sát 120 khách hàng, thời gian phục vụ trung bình mỗi khách là 3,8 phút và độ lệch
chuẩn là 1 phút. Tìm khoảng ước lượng cho thời gian phục vụ trung bình mỗi khách hàng
với độ tin cậy 95%.

A. (3,62; 3,98)

B. (3,65; 3,95)

C. (3,70; 3,90)

D. (3,67; 3,93)

ANSWER: A
13. Thời gian lên mạng xã hội trong tháng của học sinh trong mùa hè tuân theo phân phối
chuẩn với trung bình 200 giờ và độ lệch chuẩn 60 giờ. Muốn sai số của ước lượng trung
bình không quá 19 giờ ở độ tin cậy 97% thì cần kiểm tra ít nhất bao nhiêu học sinh?

A. 47

B. 54

C. 42

D. 56

ANSWER: A
14. Đường kính ống cống dẫn nước được cho trong bảng sau:

Những ống có đường kính từ 1020 đến 1100 là những ống dẫn loại trung. Muốn ước lượng
tỷ lệ ống dẫn loại trung có độ tin cậy 95% thì sai số ε của ước lượng tỷ lệ là bao nhiêu?

A. 0,0465
B. 0,0897
BM-002

C. 0,1256

D. 0,1378

ANSWER: A
15. Thời gian xử lý (phút) một bài test dựng hình 3D bằng phần mềm chuyên dụng của các
máy tính được cho trong bảng sau:

Những máy có thời gian xử lý từ 20 phút đến 40 phút là những máy đạt tiêu chuẩn A. Hãy
ước lượng tỉ lệ máy tính đạt tiêu chuẩn A với độ tin cậy 95%.

A. 80% đến 93,6%

B. 85% đến 95%

C. 81,5% đến 90%


D. 82,5% đến 94,5%

ANSWER: A
16. Người ta muốn biết tỷ lệ sử dụng điện thoại Iphone trong cộng đồng. Nếu muốn sai số
ước lượng không quá 0,035 ở độ tin cậy 95% thì phải quan sát ít nhất bao nhiêu trường
hợp?

A. 784

B. 824

C. 725

D. 856

ANSWER: A
17. Khảo sát 320 sinh viên về thời gian đi làm thêm X (giờ) của mình trong một ngày tại
một trường đại học cho ta kết quả thời gian làm thêm trung bình là 3,1 giờ và độ lệch tiêu
chuẩn là 1,2 giờ. Một người trong phòng hỗ trợ sinh viên cho biết thời gian làm thêm trung
bình của sinh viên trong một ngày là 2,9 giờ. Hãy tính giá trị kiểm định với đối thuyết
H1 :   2,9.

A. 2,981

B. 3,146
BM-002

C. 2,753

D. 3,364
ANSWER: A
18. Độ tuổi nghỉ hưu theo quy định là 60 tuổi. Để nghiên cứu tuổi nghỉ hưu ở ngành xây
dựng, người ta khảo sát ngẫu nhiên 220 người và tính được x  59 tuổi và s 2  10 . Với
mức ý nghĩa 5%, hãy cho kết luận về tuổi nghỉ hưu ở ngành xây dựng. Yêu cầu tính giá trị
tiêu chuẩn kiểm định và đưa ra kết luận.
A. Z = – 4,69 và tuổi nghỉ hưu ở ngành xây dựng khác 60 tuổi.
B. Z = – 1,53 và tuổi nghỉ hưu ở ngành xây dựng là 60 tuổi.
C. Z = – 2,98 và tuổi nghỉ hưu ở ngành xây dựng khác 60 tuổi.
D. Z = 5,29 và tuổi nghỉ hưu ở ngành xây dựng là 60 tuổi.
ANSWER: A
19. Một trưởng khoa của một trường đại học cho biết, sinh viên ra trường có mức lương từ
12 triệu đồng trở lên là 60%. Khảo sát ngẫu nhiên 300 người đã tốt nghiệp và đang đi làm
ở khoa này thì có 62 người mức lương từ 12 triệu đồng trở lên. Với mức ý nghĩa 10%, hãy
nêu giả thuyết để kiểm định thông tin của vị trưởng khoa đã nêu.
A. H 0 : p  0,6 ; H1 : p  0,6

B. H 0 : p  0,6 ; H1 : p  0,6

C. H 0 : p  0, 21 ; H1 : p  21

D. H 0 : p  0, 21 ; H1 : p  21
ANSWER: A
20. Một báo cáo cho thấy 15% lượng laptop trên thị trường là hàng cao cấp. Một mẫu
thăm dò cho thấy trong 200 laptop có 20 laptop loại cao cấp. Tính giá trị của tiêu chuẩn
kiểm định khi kiểm tra thông tin trên ở mức ý nghĩa 5%.
A. Z  1,98
B. Z  2,59
C. Z  3,15
D. Z  2,81
ANSWER: A
21. Một bài báo cho biết tỉ lệ nón bảo hiểm không đảm bảo chất lượng trên thị trường là
47%. Khảo sát 350 nón trên thị trường có 153 nón không đảm bảo chất lượng. Với mức ý
nghĩa 1%, hãy tính giá trị của tiêu chuẩn kiểm định, từ đó đưa ra kết luận về kết quả bài
báo trên.
A. Z  1, 23 , thông tin bài báo công bố là đúng.
BM-002

B. Z  2,04 , thông tin bài báo công bố là không đúng.


C. Z  2, 21 , thông tin bài báo công bố là không đúng.
D. Z  1,54 , thông tin bài báo công bố là đúng.
ANSWER: A
22. Theo quảng cáo, một loại bộ phát wifi A có thể truyền dữ liệu với tốc độ tối đa đạt 300
Mbps. Một số ý kiến cho rằng tốc độ truyền dữ liệu bộ phát trên chậm hơn. Tiến hành thử
nghiệm trên 165 khách hàng sử dụng bộ phát này cho thấy tốc độ truyền dữ liệu là 228
Mbps. Hãy đặt giả thuyết để kiểm định cho ý kiến trên.
A. H 0 :   300 ; H1 :   300

B. H 0 :   228 ; H1 :   228

C. H 0 :   300 ; H1 :   300

D. H 0 :   228 ; H1 :   228
ANSWER: A
BM-002

BÀI TẬP CÁ NHÂN


1. Cho biến ngẫu nhiên X có bảng phân phối xác suất:

Giá trị độ lệch chuẩn của X là:


A. 3,7
B. 7,7
C. 8,1
D. 8,2
ANSWER: A
2. Người A làm việc tại một đơn vị kinh doanh và nhận lương tháng theo số hợp đồng ký
được. Mỗi hợp đồng ký được thì A sẽ được nhận 5 triệu đồng. Biết rằng, số hợp đồng ký
được trong 1 tháng có thể là 0, 1, 2 hoặc 3 hợp đồng với khả năng tương ứng là 10%, 30%,
40% và 20%. Mức lương trung bình của người A khoảng bao nhiêu một tháng?
A. 8,5 triệu đồng
B. 17 triệu đồng
C. 15 triệu đồng
D. không xác định được
ANSWER A
3. Lợi nhuận (tỷ đồng) của hai dự án A và B có phân phối xác suất như sau
XA –2 3 10
PA 0,2 0,6 0,2

XB 1 4 9
PB 0,4 0,4 0,2

Khẳng định nào sau đây đúng?

A. Đầu tư vào dự án A có lợi nhuận thấp hơn và rủi ro cao hơn đầu tư vào dự án B;

B. Đầu tư vào dự án A có lợi nhuận thấp hơn và rủi ro cao hơn đầu tư vào dự án B;
C. Đầu tư vào dự án A có lợi nhuận và rủi ro thấp hơn đầu tư vào dự án B;
D. Không xác định được lợi nhuận và rủi ro khi đầu tư vào hai dự án trên.
ANSWER: A
4. Cho biến ngẫu nhiên X có bảng phân phối xác suất:
BM-002

Giá trị P (4≤ X < 6) là:


A. 0,35
B. 0,15

C. 0,45

D. 0,2

ANSWER: A
5. Một mặt hàng có xác suất bị làm giả là 0,15. Một người mua 20 sản phẩm của mặt hàng
đó. Tính xác suất người đó mua phải nhiều nhất là 5 sản phẩm giả.
A. 0,933
B. 0,9

C. 0,8

D. 0,95

ANSWER: A
6. Cho Z  N  0;1 . Giá trị P  2, 43  Z  1,01 là

A. 0,8363
B. 0,4925

C. 0,3438

D. 0,3358

ANSWER: A
7. Thời gian cho đến khi cần sạc pin lại của một loại bóng đèn A trong điều kiện bình
thường là biến ngẫu nhiên có phân phối chuẩn với trung bình là 18 giờ và độ lệch chuẩn là
2,05 giờ. Tính xác suất để pin có thể sử dụng trên 16 giờ.
A. 84%
B. 92%
C. 89%
D. 80%
ANSWER: A
8. Cho X  N 148;1 . Tìm a sao cho P  X  a   0,9 .

A. 149

B. 146
BM-002

C. 152

D. 155

ANSWER: A
9. Khảo sát số điểm cuối kỳ môn Xác suất thống kê của lớp A, ta có kết quả

Tính số điểm cuối kỳ trung bình môn Xác suất thống kê của lớp A.

A. 6,38

B. 5,89
C. 6,14

D. 6,75

ANSWER: A
10. Thời gian chờ X được tính bằng phút của khách hàng được cho trong bảng sau:

Tính giá trị phương sai của mẫu?


A. 3,56

B. 4,25

C. 3,15

D. 4,51

ANSWER: A
11. Tốc độ hoàn thành bài test hiệu năng đồ họa 3D tính bằng phút của một số máy tính
được cho trong bảng sau:

Nếu muốn ước lượng trung bình với độ tin cậy 97% thì ta cần sai số cho phép là bao
nhiêu?

A. 2,18

B. 2,54
C. 1,89
BM-002

D. 1,65

ANSWER: A
12. Thời gian X (giờ) sử dụng liên tục của pin Li-Ion 3 cel của laptop có phân phối chuẩn.
Khảo sát 120 laptop sử dụng loại pin này thì thời gian sử dụng liên tục trung bình là 7,1
(giờ) và độ lệch chuẩn là 0,5 giờ. Tìm khoảng ước lượng thời gian trung bình sử dụng liên
tục của loại pin trên với độ tin cậy 95%.

A. (7,01; 7,19)

B. (6,98; 7,22)

C. (7,03; 7,17)

D. (7,05; 7,21)

ANSWER: A
13. Thời gian hoàn thành một bài test của các máy tính tuân theo phân phối chuẩn với
trung bình 2000 giây và độ lệch chuẩn 99 giây. Muốn sai số của ước lượng trung bình
không quá 24 giây ở độ tin cậy 96% thì cần kiểm tra ít nhất bao nhiêu máy tính?

A. 72

B. 65

C. 78

D. 80

ANSWER: A
14. Mức chiết khấu (%) của một cửa hàng cho các khách hàng được cho ở bảng sau:

Những khách hàng có mức chiết khấu từ 15% đến 40% là những khách hàng thân thiết.
Muốn ước lượng tỷ lệ khách hàng thân thiết với độ tin cậy 95% thì sai số ε của ước lượng
tỷ lệ là bao nhiêu?

A. 0,066

B. 0,01

C. 0,015

D. 0,035
BM-002

ANSWER: A
15. Độ dày lớp phủ (mm) của các loại màn hình được cho trong bảng sau:

Những màn hình có lớp phủ dày hơn 25 mm là các màn hình tốt. Hãy ước lượng tỉ lệ màn
hình tốt với độ tin cậy 96%.

A. 66% đến 84%

B. 61% đến 89%

C. 58% đến 91%

D. 60% đến 90%

ANSWER: A
16. Tập đoàn A điều tra tỷ lệ sử dụng phần mềm Y trong các nhân viên. Tập đoàn khảo sát
ngẫu nhiên 400 nhân viên thì thấy 295 nhân viên sử dụng phần mềm Y. Muốn ước lượng tỉ
lệ sử dụng phần mềm Y với sai số ước lượng 0,026 thì độ tin cậy của ước lượng là bao
nhiêu?

A. 76%

B. 85%

C. 95%

D. 99%

ANSWER: A
17. Khảo sát 250 sinh viên dạy gia sư về thời gian đi dạy X (giờ) của mình trong một ngày
tại một trường đại học cho ta kết quả thời gian đi dạy trung bình là 2,4 giờ và độ lệch
chuẩn là 1,05 giờ. Một người trong phòng hỗ trợ sinh viên cho biết thời gian đi dạy trung
bình của sinh viên trong một ngày là 2,6 giờ. Hãy tính giá trị kiểm định với đối thuyết
H1 :   2,6 .

A. –3,012

B. –2,898

C. –1,036
BM-002

D. –2,541
ANSWER: A
18. Thời gian trung bình học một kỹ năng mới của một người là 9 ngày. Để kiểm chứng
bố này, người ta lấy khảo sát ngẫu nhiên 160 người và tính được x  8,8 ngày và s 2  2 .
Với mức ý nghĩa 4%, hãy cho kết luận về thời gian trung bình học một kỹ năng mới. Yêu
cầu tính giá trị tiêu chuẩn kiểm định và đưa ra kết luận.
A. Z = –1,79 và thời gian trung bình học một kỹ năng mới là 9 ngày.
B. Z = –2,56 và thời gian trung bình học một kỹ năng mới là khác 9 ngày.
C. Z = –7,248 và thời gian trung bình học một kỹ năng mới là 9 ngày.
D. Z = 4,63 và thời gian trung bình học một kỹ năng mới là khác 9 ngày.
ANSWER: A
19. Theo một thống kê thì tỉ lệ tham gia các câu lạc bộ của sinh viên là 40%. Khảo sát
ngẫu nhiên 150 sinh viên thấy có 50 sinh viên tham gia các câu lạc bộ. Hãy đặt giả thuyết
về kiểm định trong trường hợp này?
A. H 0 : p  0, 4 ; H1 : p  0, 4

1 1
B. H 0 : p  ; H1 : p 
3 3
1
C. H 0 : p  ; H1 : p  40%
3
1
D. H 0 : p 
; H1 : p  40%
3
ANSWER: A
20. Một nghiên cứu cho thấy tỉ lệ cận thị của sinh viên đại học là 62%. Một mẫu thăm dò
cho thấy trong 500 sinh viên có 278 sinh viên cận thị. Tính giá trị của tiêu chuẩn kiểm định
khi kiểm tra thông tin nghiên cứu trên ở mức ý nghĩa 1%.
A. Z  2.948
B. Z  2,163
C. Z  2, 434
D. Z  2,786
ANSWER: A
21. Một bài báo cho biết tỉ lệ tìm được việc làm đúng ngành của sinh viên ở trường A là
55%. Khảo sát trên 300 cựu sinh viên của trường này có 168 người làm đúng ngành. Tính
giá trị của tiêu chuẩn kiểm định, từ đó đưa ra kết luận về thông tin trên ở mức ý nghĩa 5%.
A. Z  0,348 , thông tin bài báo công bố là đúng.
BM-002

B. Z  1,973 , thông tin bài báo công bố là đúng.


C. Z  0,350 , thông tin bài báo công bố là không đúng.
D. Z  1,350 , thông tin bài báo công bố là không đúng.
ANSWER: A
22. Một bộ phát wifi được quảng cáo là có thể phát mạng trong phạm vi có bán kính trung
bình là 12 m. Một số ý kiến cho rằng bộ phát trên phát đến phạm vi có bán kính nhỏ hơn.
Tiến hành thử nghiệm trên 150 khách hàng sử dụng bộ phát này cho thấy phạm vi phát
sóng wifi chỉ là 8,9 m. Hãy đặt giả thuyết để kiểm định cho ý kiến trên.
A. H 0 :   12 ; H1 :   12

B. H 0 :   12 ; H1 :   12

C. H 0 :   12 ; H1 :   12

D. H 0 :   8,9 ; H1 :   8,9
ANSWER: A
BM-002

BÀI TẬP CÁ NHÂN


1. Cho biến ngẫu nhiên X có bảng phân phối xác suất:

Giá trị độ lệch chuẩn của X là:


A. 3,7
B. 7,7
C. 8,1
D. 8,2
ANSWER: A
2. Người A làm việc tại một đơn vị kinh doanh và nhận lương tháng theo số hợp đồng ký
được. Mỗi hợp đồng ký được thì A sẽ được nhận 10 triệu đồng. Biết rằng, số hợp đồng ký
được trong 1 tháng có thể là 0, 1, 2 hoặc 3 hợp đồng với khả năng tương ứng là 10%, 30%,
40% và 20%. Mức lương trung bình của người A khoảng bao nhiêu một tháng?
A. 17 triệu đồng
B. 8,5 triệu đồng
C. 15 triệu đồng
D. không xác định được
ANSWER: A
3. Lợi nhuận (tỷ đồng) của hai dự án A và B có phân phối xác suất như sau
XA –2 3 10
PA 0,2 0,6 0,2

XB 1 4 9
PB 0,4 0,4 0,2

Khẳng định nào sau đây đúng?

A. Đầu tư vào dự án A có lợi nhuận thấp hơn và rủi ro cao hơn đầu tư vào dự án B;

B. Đầu tư vào dự án A có lợi nhuận thấp hơn và rủi ro cao hơn đầu tư vào dự án B;
C. Đầu tư vào dự án A có lợi nhuận và rủi ro thấp hơn đầu tư vào dự án B;
D. Không xác định được lợi nhuận và rủi ro khi đầu tư vào hai dự án trên.
ANSWER: A
4. Cho X là biến ngẫu nhiên có bảng phân phối xác suất:
BM-002

Giá trị của P  X  1 là

A. 0,64
B. 0,36

C. 0,48

D. 0,84

ANSWER: A
5. Một mặt hàng có xác suất bị làm giả là 0,15. Một người mua 20 sản phẩm của mặt hàng
đó. Tính xác suất người đó mua phải nhiều nhất là 5 sản phẩm giả.
A. 0,933
B. 0,9

C. 0,8

D. 0,95

ANSWER: A
6. Cho Z  N  0;1 . Giá trị P  2,98  Z  0, 42  là

A. 0,3358
B. 0,4986

C. 0,1628

D. 0,8363

ANSWER: A
7. Thời gian cho đến khi cần sạc pin lại của một loại bóng đèn A trong điều kiện bình
thường là biến ngẫu nhiên có phân phối chuẩn với trung bình là 18 giờ và độ lệch chuẩn là
2,05 giờ. Tính xác suất để pin có thể sử dụng trên 16 giờ.
A. 84%
B. 92%
C. 89%
D. 80%
ANSWER: A
8. Cho X  N 167;1 . Tìm a sao cho P  X  a   0,86 .

A. 168,1

B. 157,7
BM-002

C. 155,3

D. 166,2

ANSWER: A
9. Khảo sát số điểm cuối kỳ môn Xác suất thống kê của lớp A, ta có kết quả

Tính số điểm cuối kỳ trung bình môn Xác suất thống kê của lớp A.

A. 6,38

B. 5,89
C. 6,14

D. 6,75

ANSWER: A
10. Thời gian chờ X được tính bằng phút của khách hàng được cho trong bảng sau:

Tính giá trị phương sai của mẫu?


A. 3,56

B. 4,25

C. 3,15

D. 4,51

ANSWER: A
11. Tốc độ hoàn thành bài test hiệu năng đồ họa 3D tính bằng phút của một số máy tính
được cho trong bảng sau:

Nếu muốn ước lượng trung bình với độ tin cậy 97% thì ta cần sai số cho phép là bao
nhiêu?

A. 2,18

B. 2,54
C. 1,89
BM-002

D. 1,65

ANSWER: A
12. Thời gian X (phút) để một nhân viên cây xăng phục vụ 1 khách có phân phối chuẩn.
Quan sát 120 khách hàng, thời gian phục vụ trung bình mỗi khách là 3,8 phút và độ lệch
chuẩn là 1 phút. Tìm khoảng ước lượng cho thời gian phục vụ trung bình mỗi khách hàng
với độ tin cậy 95%.

A. (3,62; 3,98)

B. (3,65; 3,95)

C. (3,70; 3,90)

D. (3,67; 3,93)

ANSWER: A
13. Thời gian hoàn thành một bài test của các máy tính tuân theo phân phối chuẩn với
trung bình 2000 giây và độ lệch chuẩn 99 giây. Muốn sai số của ước lượng trung bình
không quá 24 giây ở độ tin cậy 96% thì cần kiểm tra ít nhất bao nhiêu máy tính?

A. 72

B. 65

C. 78

D. 80

ANSWER: A
14. Mức chiết khấu (%) của một cửa hàng cho các khách hàng được cho ở bảng sau:

Những khách hàng có mức chiết khấu từ 15% đến 40% là những khách hàng thân thiết.
Muốn ước lượng tỷ lệ khách hàng thân thiết với độ tin cậy 95% thì sai số ε của ước lượng
tỷ lệ là bao nhiêu?

A. 0,066

B. 0,01

C. 0,015

D. 0,035
BM-002

ANSWER: A
15. Độ dày lớp phủ (mm) của các loại màn hình được cho trong bảng sau:

Những màn hình có lớp phủ dày hơn 25 mm là các màn hình tốt. Hãy ước lượng tỉ lệ màn
hình tốt với độ tin cậy 96%.

A. 66% đến 84%

B. 61% đến 89%

C. 58% đến 91%

D. 60% đến 90%

ANSWER: A
16. Tập đoàn A điều tra tỷ lệ sử dụng phần mềm Y trong các nhân viên. Tập đoàn khảo sát
ngẫu nhiên 400 nhân viên thì thấy 295 nhân viên sử dụng phần mềm Y. Muốn ước lượng tỉ
lệ sử dụng phần mềm Y với sai số ước lượng 0,026 thì độ tin cậy của ước lượng là bao
nhiêu?

A. 76%

B. 85%

C. 95%

D. 99%

ANSWER: A
17. Khảo sát 250 sinh viên dạy gia sư về thời gian đi dạy X (giờ) của mình trong một ngày
tại một trường đại học cho ta kết quả thời gian đi dạy trung bình là 2,4 giờ và độ lệch
chuẩn là 1,05 giờ. Một người trong phòng hỗ trợ sinh viên cho biết thời gian đi dạy trung
bình của sinh viên trong một ngày là 2,6 giờ. Hãy tính giá trị kiểm định với đối thuyết
H1 :   2,6 .

A. –3,012

B. –2,898

C. –1,036
BM-002

D. –2,541
ANSWER: A
18. Thời gian trung bình học một kỹ năng mới của một người là 9 ngày. Để kiểm chứng
bố này, người ta lấy khảo sát ngẫu nhiên 160 người và tính được x  8,8 ngày và s 2  2 .
Với mức ý nghĩa 4%, hãy cho kết luận về thời gian trung bình học một kỹ năng mới. Yêu
cầu tính giá trị tiêu chuẩn kiểm định và đưa ra kết luận.
A. Z = –1,79 và thời gian trung bình học một kỹ năng mới là 9 ngày.
B. Z = –2,56 và thời gian trung bình học một kỹ năng mới là khác 9 ngày.
C. Z = –7,248 và thời gian trung bình học một kỹ năng mới là 9 ngày.
D. Z = 4,63 và thời gian trung bình học một kỹ năng mới là khác 9 ngày.
ANSWER: A
19. Theo một thống kê thì tỉ lệ tham gia các câu lạc bộ của sinh viên là 40%. Khảo sát
ngẫu nhiên 150 sinh viên thấy có 50 sinh viên tham gia các câu lạc bộ. Hãy đặt giả thuyết
về kiểm định trong trường hợp này?
A. H 0 : p  0, 4 ; H1 : p  0, 4

1 1
B. H 0 : p  ; H1 : p 
3 3
1
C. H 0 : p  ; H1 : p  40%
3
1
D. H 0 : p 
; H1 : p  40%
3
ANSWER: A
20. Một nghiên cứu cho thấy tỉ lệ cận thị của sinh viên đại học là 62%. Một mẫu thăm dò
cho thấy trong 500 sinh viên có 278 sinh viên cận thị. Tính giá trị của tiêu chuẩn kiểm định
khi kiểm tra thông tin nghiên cứu trên ở mức ý nghĩa 1%.
A. Z  2.948
B. Z  2,163
C. Z  2, 434
D. Z  2,786
ANSWER: A
21. Một bài báo cho biết tỉ lệ tìm được việc làm đúng ngành của sinh viên ở trường A là
55%. Khảo sát trên 300 cựu sinh viên của trường này có 168 người làm đúng ngành. Tính
giá trị của tiêu chuẩn kiểm định, từ đó đưa ra kết luận về thông tin trên ở mức ý nghĩa 5%.
A. Z  0,348 , thông tin bài báo công bố là đúng.
BM-002

B. Z  1,973 , thông tin bài báo công bố là đúng.


C. Z  0,350 , thông tin bài báo công bố là không đúng.
D. Z  1,350 , thông tin bài báo công bố là không đúng.
ANSWER: A
22. Một bộ phát wifi được quảng cáo là có thể phát mạng trong phạm vi có bán kính trung
bình là 12 m. Một số ý kiến cho rằng bộ phát trên phát đến phạm vi có bán kính nhỏ hơn.
Tiến hành thử nghiệm trên 150 khách hàng sử dụng bộ phát này cho thấy phạm vi phát
sóng wifi chỉ là 8,9 m. Hãy đặt giả thuyết để kiểm định cho ý kiến trên.
A. H 0 :   12 ; H1 :   12

B. H 0 :   12 ; H1 :   12

C. H 0 :   12 ; H1 :   12

D. H 0 :   8,9 ; H1 :   8,9
ANSWER: A
114

CHƯƠNG 7
Mục lục chương 7

7.1 Chuỗi thời gian, các khái niệm cơ bản ........................................................... 114
7.2 Các phương pháp dự báo đơn giản ............................................................... 118
7.3 Các phương pháp làm trơn ........................................................................... 119

7.1 CHUỖI THỜI GIAN, CÁC KHÁI NIỆM CƠ BẢN

7.1.1 Khái niệm chuỗi thời gian.


Chuỗi thời gian là tập hợp các dữ liệu có sự phụ thuộc của các giá trị quan sát được thu thập qua
thời gian. Với mục tiêu là dùng các dữ liệu trong quá khứ để phân tích và dự báo cho dữ liệu trong
tương lai.

Biểu diễn cho dữ liệu được sắp xếp theo thứ tự thời gian, dạng tổng quát như sau
t t1 t2 … tn
Y Y1 Y2 … Yn
Trong đó : t i là thời gian thứ i và Yi là giá trị lượng biếnquan sát được ở thời gian t i . i  1; n  
Căn cứ vào đặc điểm biến động về quy mô của hiện tượng thời gian, chuỗi thời gian được chia ra
làm hai trường hợp
 Chuỗi thời kỳ : biểu hiện giá trị lượng biến quan sát thu được trong từng khoảng thời gian
nhất định. Các giá trị của lượng biến có thế cộng dồn với nhau tạo thành giá trị của lượng
biến trong khoảng thời gian dài hơn.
Ví dụ 7.1 Sản lượng xuất khẩu cà phê của Việt Nam từ 2001 đến 2005:
Năm 2001 2002 2003 2004 2005
Sản lượng (ngàn tấn) 931,1 722,2 794,4 976,2 892,4
 Chuỗi thời điểm : biểu hiện giá trị lượng biến quan sát tại các thời điểm quan sát nhất định,
và giá trị của lượng biến khi cộng dồn thì không có ý nghĩa.
Ví dụ 7.2 Giá vàng SJC tại TPHCM trong tuần cuối tháng 7 năm 2017:
Ngày 23/7 24/7 25/7 26/7 27/7 28/7
Ngàn đồng/chỉ 1317,0 1316,5 1310,0 1307,5 1294,0 1294,0

Các phương pháp dự báo chuỗi thời gian được chia thành hai loại:
 Phương pháp dự báo, tính toán cho các giá trị tương lai dựa trên toàn bộ các quan sát có
được trong quá khứ.
 Phương pháp dự báo dựa trên nguyên nhân kết quả của các dữ liệu.
CHƯƠNG 7: CHUỖI THỜI GIAN; DỰ BÁO CHUỖI THỜI GIAN 115

7.1.2 Các thành phần chuỗi thời gian.


i. Thành phần xu hướng.
Thành phần xu hướng là thành phần thể hiện mức tăng giảm của lượng biến quan sát theo một
quy luật nào đó trong một khoảng thời gian đủ dài. Nguyên nhân của thành phần xu hướng là do
những thay đổi về dân số, thay đổi về xã hội, thay đổi về công nghệ, thay đổi về nhu cầu, sở thích…

ii. Thành phần chu kỳ.


Mặc dù chuỗi thời gian có thể biểu hiện tính xu hướng qua thời kỳ dài, nhưng không phải tất cả
các giá trị lượng biến sẽ quan sát trong tương lai sẽ nằm trên đường xu hướng. Thực tế dữ liệu
khi quan sát trong một khoảng thời gian dài với tần suất tính bằng năm thì ta nhận ra có sự thay
đổi luân phiên lên xuống của lượng biến xung quanh đường xu hướng, nguyên nhân là do thành
phần chu kỳ trong chuỗi thời gian.

iii. Thành phần mùa.


Trong khi thành phần xu hướng và thành phần chu lỳ của chuỗi thời gian được xác định bằng cách
phân tích chuỗi thời gian kéo dài qua nhiều năm, thì nhiều chuỗi thời gian cho thấy có những kiểu
biến thiên lặp lại theo tần suất theo quý , theo mùa,…, biến động của lượng biến tuân theo một quy
luật nào đó giữa các thời điểm trong năm và lặp lại trong các năm kế tiếp

iv. Thành phần bất thường.


Ngoài các yếu tố xu hướng , chu kỳ, và mùa, thực tế giá trị lượng biến quan sát còn chịu sự chi phối
của các yếu tố ngẫu nhiên, các yếu tố bất thường ngắn hạn không chịu sự liên kết với thành phần
khác như mùa, chu kỳ, xu thế.

Ví dụ 7.3 Cho bảng số liệu về số lượng tủ lạnh một chuỗi siêu thị điện máy bán trong 8 năm, số
liệu khảo sát theo từng quý (đơn vị : ngàn cái).
Q1-2005 Q2-2005 Q3-2005 Q4-2005 Q1-2006 Q2-2006 Q3-2006 Q4-2006 Q1-2007
1317 1615 1662 1295 1271 1555 1639 1238 1277
Q2-2007 Q3-2007 Q4-2007 Q1-2008 Q2-2008 Q3-2008 Q4-2008 Q1-2009 Q2-2009
1258 1417 1185 1196 1410 1417 919 943 1175
Q3-2009 Q4-2009 Q1-2010 Q2-2010 Q3-2010 Q4-2010 Q1-2011 Q2-2011 Q3-2011
1269 973 1102 1344 1641 1225 1429 1699 1749
Q4-2011 Q1-2012 Q2-2012 Q3-2012 Q4-2012
1117 1242 1684 1764 1328
1800 Q3-2011 Q3-2012
Q2-2011 Q2-2012
Q3-2005 Q3-2006 Q3-2010
1700 Q2-2005
1600 Q2-2006

1500 Q3-2007Q2-2008
Q3-2008 Q1-2011
1400 Q1-2005 Q2-2010 Q4-2012
Q4-2005
Q1-2006 Q1-2007
Q2-2007 Q3-2009
1300 Q4-2006 Q4-2010 Q1-2012
Q1-2008
Q4-2007 Q2-2009
1200 Q4-2011
Q1-2010
1100
Q4-2009
1000 Q1-2009
Q4-2008
900

800
0 5 10 15 20 25 30 35
116

Biểu đồ trên cho thấy số lượng tủ lạnh bán được tăng giảm đều đặn, điều này thể hiện biến động
theo mùa, cụ thể trong 1 năm số lượng tủ lạnh tăng mạnh từ quý 1 lên quý 2 và giảm mạnh từ quý
3 xuống quý 4.

7.1.3 Các đại lượng mô tả chuỗi thời gian.


i. Mức độ trung bình theo thời gian
Trung bình chuỗi thời gian, đối với chuỗi thời kỳ.
n

1 Y i
Y Y1  Y2  ...  Yn   i 1
n n
Trong đó : Y : mức độ trung bình của chuỗi.
Yi : Giá trị lượng biến chuỗi thời kỳ

Trung bình chuỗi thời gian, đối với chuỗi thời điểm, khoảng cách giữa thời điểm bằng nhau:
1  Y1  Y2 Y2  Y3 Y Y  1 1 1 
Y    ...  n1 n    Y1  Y2  ...  Yn 
n1  2 2 2  n1  2 2 
Trong đó : Y : mức độ trung bình của chuỗi.
Yi : Giá trị lượng biến chuỗi thời kỳ
Ví dụ 7.4 Khảo sát lượng lao động của một doanh nghiệp tại các thời điểm thu được bảng số liệu
sau:

Ngày 15/5/2018 15/6/2018 15/7/2018 15/8/2018


Số lao động 350 370 370 380
Y  Y 350  370
Giữa hai thời điểm giữa tháng 5 và 6, ta có số lao động trung bình là 1 2 
2 2
Tương tự cho các khoảng thời gian còn lại.

Vậy trung bình lượng lao động trong khoảng thời gian 3 tháng là:

1  350  370 370  370 370  380 


Y      368,33
3 2 2 2 

Vậy trung bình doanh nghiệp này có bình quân 369 lao động từ 15/5 đến 15/8.

Trung bình chuỗi thời gian, đối với chuỗi thời điểm, khoảng cách giữa thời điểm không bằng nhau:
n

Y1t 1  Y2t 2  ...  Ynt n Y t


i 1
i i
Y  n
t 1  t2  ...  t n
t
i 1
i

Trong đó : Y : mức độ trung bình của chuỗi.


Yi : Giá trị lượng biến chuỗi thời kỳ
t i : độ dài thời gian tương ứng mức độ thứ i .
Ví dụ 7.5 Ghi nhận về số lao động, ghi nhận trong tháng 5 thay đổi như sau

Ngày 1/5/2018 10/5/2018 15/5/2018 21/5/2018


Số lao động 380 385 388 384
CHƯƠNG 7: CHUỖI THỜI GIAN; DỰ BÁO CHUỖI THỜI GIAN 117

Đầu tháng 5 : có 380 lao động. Ngày 10/5 nhận thêm 5 lao động, tối 15/5 nhận thêm 3 lao động.
Ngày 21/5 sa thải 4 lao động, và giữ nguyên cho đến 30/5.

Ngày Số lao động Khoảng thời gian Yi t i


1 380 9 3420
10 385 5 1925
15 388 6 2328
21 384 10 3840
30 384 t i  30 t Y
i i  11513
n

Y t
i 1
i i
11513
Vậy số lao động trung bình trong tháng là : Y  n
  383,77 (người)
30
t
i 1
i

ii. Lượng tăng giảm tuyệt đối.


Lượng tăng giảm tuyệt đối liên hoàn: thể hiện mức chênh lệch tuyệt đối của lượng biến quan sát
ở hai mốc thời gian liên tiếp nhau.
 i  Yi  Yi 1  i  2, n
Lượng tăng giảm tuyệt đối định gốc: thể hiện mức chênh lệch tuyệt đối giữa lượng biến ở mốc thời
gian bất kỳ so với lượng biến quan sát chọn làm gốc (thường được chọn là lượng biến quan sát
đầu tiên)
 i  Yi  Y1 i  2, n
Lượng tăng giảm tuyệt đối trung bình: là trung bình cộng các lượng tăng giảm tuyệt đối liên hoàn
qua tất cả các mốc thời gian.

1 n 1 Y Y
   i  n  1 Y2  Y1  Y3  Y2  ...  Yn  Yn 1   nn  11
n  1 i 2

Lưu ý : đại lượng này chỉ có ý nghĩa thống kê khi lượng tăng (giảm) tuyệt đối liên hoàn xấp xỉ nhau,
nếu không vô tình lượng tăng giảm tuyệt đối sẽ đánh giá sai nguyên nhân gây ra sự biến động của
chuỗi thời gian.

iii. Tốc độ phát triển.


Tốc độ phát triển liên hoàn: thể hiện tốc độ thay đổi của 2 lượng biến quan sát ở hai mốc thời gian
liên tiếp nhau.

Yi
ti 
Yi 1
i  2, n
Tốc độ phát triển định gốc : thể hiện tốc độ thay đổi của lượng biến ở mốc thời gian bất kỳ so với
lượng biến quan sát chọn làm gốc (thường được chọn là lượng biến quan sát đầu tiên)

Yi
Ti 
Y1
i  2, n 
Tốc độ phát triển trung bình : thể hiện nhịp độ phát triển bình quân giữa 2 lượng biến quan sát
liên tiếp nhau trong suốt thời gian, được tính bằng trung bình nhân của tất cả tốc độ phát triển
liên hoàn.
118

n
Y2 Y3 Yn Y
t  n 1  t i  n 1 . ...  n 1 n
i 2 Y1 Y2 Yn1 Y1

Lưu ý : Cũng giống như lượng tăng giảm tuyệt đối trung bình, tốc độ phát triển trung bình chỉ
mang ý nghĩa khi các tốc độ phát triển liên hoàn xấp xỉ nhau trong suốt thời kỳ nghiên cứu.

iv. Tốc độ tăng giảm.


Tốc độ tăng giảm liên hoàn : đánh giá tốc độ thay đổi tương đối của 2 lượng biến quan sát ở hai
mốc thời gian liên tiếp nhau.

Yi  Yi 1  i
ai 
Yi 1
  t 1
Yi 1 i
 i  2,n 
Tốc độ tăng giảm định gốc : đánh giá tốc độ thay đổi tương đối của một lượng biến ở một mốc thời
gian bất kỳ so với lượng biến quan sát chọn làm gốc (thường được chọn là lượng biến quan sát
đầu tiên)

Yi  Y1  i
Ai 
Y1

Yi
 Ti  1 i  2,n 
Tốc độ tăng giảm trung bình :

a  t 1

Ví dụ 7.6 Cho doanh thu của một công ty qua các năm (từ 2012 đến 2017) theo bảng số liệu dưới
đây.:

Chỉ tiêu 2011 2012 2013 2014 2015 2016 2017


1. Doanh thu (tỷ VNĐ) 50
2. Lượng tăng tuyệt đối liên hoàn (tỷ VNĐ) 25 20
3.Tốc độ phát triển liên hoàn (%) 115 125
4.Tốc độ tăng giảm liên hoàn (%) 10
5. Giá trị tuyệt đối của 1% của tốc độ tăng
(tỷ VNĐ)
0,98

Chỉ tiêu 2011 2012 2013 2014 2015 2016 2017


1. Doanh thu (tỷ VNĐ) 50 75 82,5 94,875 98 122,5 142,5
2. Lượng tăng tuyệt đối liên hoàn (tỷ VNĐ) 25 20
3.Tốc độ phát triển liên hoàn (%) 115 125
4.Tốc độ tăng giảm liên hoàn (%) 10
5. Giá trị tuyệt đối của 1% của tốc độ tăng
0,98
(tỷ VNĐ)

7.2 CÁC PHƯƠNG PHÁP DỰ BÁO ĐƠN GIẢN

7.2.1 Dự báo bằng lượng tăng (giảm) tuyệt đối.


Phương pháp thường dụng khi dãy lượng biến theo thời gian có biến động ít, nghĩa là lượng tăng
(giảm) tuyệt đối liên hoàn xấp xỉ nhau.

Y n L  Yn   .L
Trong đó : Y n L : là giá trị dự báo tại thời điểm n  L .
CHƯƠNG 7: CHUỖI THỜI GIAN; DỰ BÁO CHUỖI THỜI GIAN 119

Yn : là giá trị quan sát tại thời điểm thứ n (thời điểm cuối)
 : là lượng tăng giảm tuyệt đối trung bình.
L : tầm xa dự đoán.
Ví dụ 7.7 Quan sát lượng xe đạp của một doanh nghiệp Yi  (đơn vị nghìn chiếc) bán qua các
năm  t i  cho bởi bảng số liệu sau:
Yi 1 2 3 4 5 6 7 8 9 10
ti 21.6 22.9 25.5 21.9 23.9 27.5 31.5 29.7 28.6 31.4
Dự báo cho lượng xe đạp mà doanh nghiệp sẽ bán được trong năm tiếp theo là
Y Y 31,4  21,6
Y 11  Y10   .1  Y10  10 1 .1  31,4   32,48 (nghìn chiếc)
9 9
Hoặc dự báo cho cách 2 năm sau:
Y Y 31,4  21,6
Y 12  Y10   .2  Y10  10 1 .2  31,4  .2  33,57 (nghìn chiếc)
9 9
7.2.2 Dự báo bằng tốc độ phát triển trung bình.
Phương pháp thường dùng khi dãy lượng biến theo thời gian biến động với nhịp độ ổn định, nghĩa
là tốc độ phát triển liên hoàn xấp xỉ bằng nhau
L
Y n  L  Yn . t

Trong đó : Y n L : là giá trị dự báo tại thời điểm n  L .
Yn : là giá trị quan sát tại thời điểm thứ n (thời điểm cuối)
t : là tốc độ phát triển trung bình.
L : tầm xa dự đoán.
Ví dụ 7.8 Quan sát lượng xe đạp của một doanh nghiệp Yi  (đơn vị nghìn chiếc) bán qua các
năm  t i  cho bởi bảng số liệu sau:
Yi 1 2 3 4 5 6 7 8 9 10
ti 21.6 22.9 25.5 21.9 23.9 27.5 31.5 29.7 28.6 31.4
Dự báo cho lượng xe đạp mà doanh nghiệp sẽ bán được trong năm tiếp theo là
1  31,4 
Y 11  Y10 t
 31,4   9  32,7328 (nghìn chiếc)
 21,6 
 
Hoặc dự báo cho cách 2 năm sau:
2
2  31,4 
Y 12  Y10 t
  31,4   9  34,1221 (nghìn chiếc)
 21,6 
 

Lưu ý : Nhược điểm của phương pháp dự báo đơn giản là chỉ quan tâm tới giá trị quan sát kỳ đầu
và kỳ cuối để đưa ra dự báo mới nhất, và như vậy vô tình đã bỏ qua các biến động bất thường của
các dữ liệu ở giữa nên nếu dữ liệu có nhiều biến động thì phương pháp dự báo đơn giản có độ
chính xác thấp.

7.3 CÁC PHƯƠNG PHÁP LÀM TRƠN

7.3.1 Dự báo bằng phương pháp trung bình trượt.


120

Khác với dự báo lượng tăng giảm tuyệt đối và tốc độ phát triển trung bình là dùng số liệu mới nhất
để dự báo cho mốc thời gian kê tiếp. Phương pháp trung bình trượt sẽ dùng nhiều hơn 3 số liệu
mới nhất để dự báo.

Y  Y  ...  Yi k 1
Y i 1  i i 1
k
Trong đó : Y i 1 : là giá trị dự báo tại thời điểm t  1 .
Yi ;Yi 1 ;...;Yi k 1 : là k giá trị quan sát thực tế tới thời điểm t .
k : khoảng trượt  k  3  .

Ưu điểm của phương pháp thể hiện rõ khi dữ liệu chuỗi thời gian có sự biến động nhiều, khi đó
trung bình trượt sẽ bình quân những nguyên nhân gây ra dao động bất thường của dữ liệu, để đưa
về quy luật biến động chung nhất của dữ liệu.

Khoảng trượt k là yếu tố ảnh hưởng rất lớn đến sai số dự báo, nên k được chọn sao cho thỏa
mãn các tiêu chí sai số tốt nhất. Với Y và Y lần lượt là giá trị quan sát thực tế và giá trị dự báo
i i

tại thời điểm i và ei  Yi  Yi là sai số tại mỗi thời điểm, ta có các tiêu chí đánh giá sai số:

1 n
 MAE   ei : sai số tuyệt đối trung bình (Mean Absolute Error)
n i 1
1 n ei
 MAPE   .100% : sai số phần trăm tuyệt đối trung bình (Mean Absolute Percent
n i 1 Yi
Error)
1 n 2
 MSE   ei : sai số bình phương trung bình (Mean Square Error)
n i 1
 RMSE  MSE : căn bậc hai sai số bình phương trung bình (Root Mean Square Error)

Về mặt thực tế RMSE và MAE có cung đơn vị với đơn vị lượng biến, nhưng RMSE thông dụng hơn
vì về mặt công thức thì RMSE dễ xử lý hơn.
Ví dụ 7.9 Cho một chuỗi thời gian với lượng biến quan sát là Yi trong 12 tuần, bảng sau đưa ra
dự báo bằng phương pháp trung bình trượt với khoảng trượt k  3 và k  5 ;
2 2
Tuần Yi Yi ; k  3 Y  Y 
i i Yi ; k  5 Y  Y 
i i

1 17
2 21
3 19
4 23 19 16
5 18 21 9
6 16 20 16 19.6 12.96
7 20 19 1 19.4 0.36
8 18 18 0 19.2 1.44
9 22 18 16 19 9
10 20 20 0 18.8 1.44
11 15 20 25 19.2 17.64
12 22 19 9 19 9
MSE  10,22 MSE  7,45
CHƯƠNG 7: CHUỖI THỜI GIAN; DỰ BÁO CHUỖI THỜI GIAN 121

Vì tiêu chuẩn MSEk 3  10,22 và MSEk 5  7,45 nên trong tình huống này , ta sẽ chọn khoảng trượt
k 5.

24
23

22
21
20
Dữ liệu
quan sát 19
K=3
18
k=5 17
16
15
14
-1 1 3 5 7 9 11 13

7.3.2 Dự báo bằng phương pháp san bằng hàm mũ.


Phương pháp san bằng mũ hay làm trơn bằng hàm mũ là phương pháp dùng giá trị dự báo ở thời
điểm trước và điều chỉnh một lượng sai số dự báo để tạo ra giá trị dự báo mới.

Y i 1  Y i   Yi  Y i
 
Trong đó : Y i 1 ;Y i : là giá trị dự báo tại thời điểm i ; i  1 .
Yi : là giá trị quan sát thực tế tại thời điểm i .
 : là hệ số làm trơn.
Lưu ý : Hệ số làm trơn  nhận giá trị    0;1
Một dạng khai triển khác của phương pháp san bằng mũ
Y i 1  1   Y i  Y i

i 1 Y1  Y1
i 2 Y 2  1    Y 1   Y1  Y1

i 3 Y 3  1   Y 2  Y2  1   Y1   Y2

Y 4  1   Y 3   Y3   1    Y1  1    Y2   Y3
2
i 4
Y 5  1   Y 4   Y4  1    Y1  1    Y2  1    Y3  Y4
3 2
i 5

Tổng quát : Y i  1  1    Y1  1    Y2  1    Y3  ....  1    Yi 1   Yi


i 1 i 2 i 3

Nên phương pháp san bằng mũ có thể xem là tương đương với phương pháp trung bình trượt có
trọng số.
Về mặt ý nghĩa giá trị dự báo mới Y bằng giá trị dự báo cũ Y cộng thêm một lượng điều
 
i 1  
i

chỉnh liên quan sai số ở lần dự báo cũ.


 Khi   1 thì dự báo mới cộng một lượng điều chỉnh tối đa, và ta chỉ nên chọn   1 khi
dữ liệu quan sát thực tế ít có thay đổi bất thường.
122

 Khi   0 thì dự báo mới cộng một lượng điều chỉnh tối thiểu, và ta chỉ nên chọn   0
khi dữ liệu quan sát thực tế có nhiều thay đổi bất thường.
Và cũng giống như phương pháp trung bình trượt, để lựa chọn hệ số làm trơn tốt nhất, ta có thể
dựa trên các tiêu chí đánh giá sai số.
Ví dụ 7.10 Sử dụng bảng số liệu của Ví dụ 7.9
2 2
Tuần Yi   0.2 Y  Y 
i i
  0.3 Y  Y 
i i

1 17 17 0 17 0
2 21 17 16 18.2 7.84
3 19 17.8 1.44 18.16 0.7056
4 23 18.04 24.6016 19.528 12.05478
5 18 19.032 1.065024 18.7224 0.521862
6 16 18.8256 7.984015 17.97792 3.912168
7 20 18.26048 3.02593 18.78234 1.482706
8 18 18.60838 0.370131 18.42587 0.181364
9 22 18.48671 12.34323 19.5407 6.048181
10 20 19.18937 0.657128 19.43256 0.321993
11 15 19.35149 18.93549 18.04604 9.278389
12 22 18.48119 12.382 19.53684 6.067178
MSE  9.98 MSE  4.40
Do MSE 0,2  MSE 0,3 nên ta sẽ dùng   0,3 để làm trơn và dự báo.

23
22
21
20
Quan sát
19
thực tế
18 alpha=0.2
17
alpha=0.3
16
15
14
0 2 4 6 8 10 12 14

7.3.3 Dự báo bằng phương pháp hàm xu thế tuyến tính


Quan hệ hồi quy xây dựng hàm để ước lượng mức độ phụ thuộc biến này vào biến kia. Hai biến
trong quan hệ hồi quy mang tính không đối xứng, và hai biến sẽ có một biến là biến phụ thuộc là
đại lượng ngẫu nhiên và một biến là biến độc lập là đại lượng phi ngẫu nhiên.
Trong chuỗi thời gian lượng biến quan sát theo thời gian Yi  là biến phụ thuộc và mốc thời gian
t i  là biến độc lập. Và mục tiêu dự báo là xây dựng một hàm số để tính biến phụ thuộc theo biến
độc lập. Khi đó hàm xu thế tuyến tính là mô hình hồi quy có dạng :

Yi  
  t
1 2 i

Trong đó : Yi : là giá trị dự báo tại mốc thứ i


1 : hệ số tự do của mô hình.
CHƯƠNG 7: CHUỖI THỜI GIAN; DỰ BÁO CHUỖI THỜI GIAN 123

2 : hệ số góc của mô hình.

Thực tế về mặt giá trị, thì giá trị lượng biến quan sát thực tế Yi  và giá trị dự báo bằng mô hình

Y  sẽ không trùng nhau tại tất cả các mốc quan sát, mà hai đại lượng này sẽ có sự chênh lệch là
i


sai số  ei  với i  1,n . 
ei  Yi  Yi
Bản chất sai số ei là do về mặt thực tế có rất nhiều yếu tố ảnh hưởng đến sự biến động của lượng
biến quan sát Yi  , nhưng trong mô hình thì ta chỉ chọn đại diện để giải thích cho sự biến động
này là thời gian  t i  .

Hệ số hồi quy 1 ; 2 trong mô hình được xác định bằng phương pháp bình phương tối thiểu (OSL:
ordianary squared least). Nguyên tắc của phương pháp bình phương tối thiểu là tổng bình phương
sai số tại tất cả quan sát phải đạt giá trị nhỏ nhất.
n
E 1 ; 
   e 2  Min
 2 i
i 1

Hàm E 1 ; 
 là một mặt bậc hai, do đó giá trị nhỏ nhất của hàm xảy ra tại điểm tới hạn thỏa :
2 
n
 E ˆ ˆ  n  ˆ ˆ 
n

 1 i 1

 ˆ  2 Yi  1  2t i  0 
  t i  2   n  1    Yi 
 i 1   i 1 
 n

 E  2 t Y  ˆ  ˆ t  0
n n n
 t 2  ˆ   t  ˆ   t Y 
 ˆ  i i 1 
2 i    i
 i 1   2   i
 i 1 
 1  
 i 1
i i 

 2 i 1 
n

  t iYi  ntY
ˆ
 2  ni 1

t i 2  nt .
 2

 i 1

 1  Y  ˆ2 t
ˆ
Vậy các hệ số trong hàm xu thế tuyến tính được ước lượng theo công thức:
124

 t Y  ntYi i
ˆ2  i 1
n
và ˆ1  Y  ˆ2 t
2 2
t
i 1
i  nt

Ví dụ 7.11 Một khảo sát về mối quan hệ giữa lượng xe đạp ( Yi nghìn chiếc) của một cửa hàng bán
được theo từng năm thu được bảng số liệu sau

t Y Yi t i t i2
1 21.6 21.6 1
2 22.9 45.8 4
3 25.5 76.5 9
4 21.9 87.6 16
5 23.9 119.5 25
6 27.5 165 36
7 31.5 220.5 49
8 29.7 237.6 64
9 28.6 257.4 81
10 31.4 314 100
t i  55 Y i  264,5  tiYi  1545,5  t i2  385
34

32
y = 1.1x + 20.4
30

28

26

24

22

20
0 2 4 6 8 10 12

 t Y  ntY
i i
1545,5  10.5,5.26,45
Hệ số góc : 2  i 1
n
  1,1
2 2 385  10.5,52
t
i 1
i  nt

Hệ số tự do : 1  Y  ˆ2 t  26,45  10.5,5  20,4

Vậy hàm xu thế tuyến tính có dạng : Yi  20,4  1,1t i

Nghĩa là qua một năm, trung bình lượng xe đạp của cửa hàng này bán tăng trung bình 1,1 ngàn
chiếc.
2
ti Yi Yi Y  Y 
i i

1 21.6 21.5 0.01


2 22.9 22.6 0.09
CHƯƠNG 7: CHUỖI THỜI GIAN; DỰ BÁO CHUỖI THỜI GIAN 125

3 25.5 23.7 3.24


4 21.9 24.8 8.41
5 23.9 25.9 4
6 27.5 27 0.25
7 31.5 28.1 11.56
8 29.7 29.2 0.25
9 28.6 30.3 2.89
10 31.4 31.4 0
MSE  3,07
82

CHƯƠNG 5
ƯỚC LƯỢNG THAM SỐ
Mục lục chương 5

5.1. Các tiêu chuẩn ước lượng .............................................................................. 82


5.2. Khoảng tin cậy cho giá trị trung bình .............................................................. 84
5.3. Khoảng tin cậy cho độ lệch hai giá trị trung bình............................................. 86
5.4. Khoảng tin cậy cho giá trị tỷ lệ ....................................................................... 88
5.5. Khoảng tin cậy cho độ lệch hai giá trị tỷ lệ ...................................................... 90
5.6. Khoảng tin cậy cho giá trị phương sai............................................................. 90
5.7. Khoảng tin cậy cho giá trị dự báo ................................................................... 92

5.1. CÁC TIÊU CHUẨN ƯỚC LƯỢNG.


Cho tổng thể đặc trưng bởi biến ngẫu nhiên X , và X 1 , X 2 ,..., X n là các biến ngẫu nhiên quan sát từ
tổng thể có phân phối xác suất với tham số  chưa biết. Thống kê Tn  T  X 1 , X 2 ,..., X n  dùng để
ước lượng cho  gọi là một hàm ước lượng. Với mỗi bộ giá trị quan sát  x1 , x2 ,..., xn  thì giá trị
t  T  x1 , x 2 ,..., x n  gọi là giá trị ước lượng cho tham số 

5.1.1 Ước lượng không chệch.


Cho hàm ước lượng Tn  T  X 1 , X 2 ,..., X n  Tn được gọi là
 Ước lượng không chệch cho  nếu ETn   .
 Nếu ETn   thì ETn   gọi là độ lệch của ước lượng. Tn được gọi là ước lượng tiệm cận không
chệch cho  nếu lim ETn   .
n

Mức độ tốt của một số ước lượng được đánh giá bằng cách quan sát hành vi của nó trong sự chọn
mẫu lặp lại. Chúng ta hãy xem xét sự giống nhau sau đây. Trên nhiều khía cạnh, thì sự ước lượng
điểm là tương tự với việc bắn một khẩu súng vào một mục tiêu.

Ví dụ 5.1 Giả sử rằng một người đàn ông bắn một phát súng duy nhất vào một mục tiêu và phát
súng đó đã trúng ngay điểm đen. Liệu chúng ta có thể kết luận rằng ông ta là một xạ thủ cừ khôi?
Câu trả lời là không - không một ai trong số chúng ta ắt sẽ bằng lòng giữ mục tiêu đó trong khi
phát súng thứ hai được bắn đi. Đến khi nào mà sự chính xác của ông ta đã được quan sát thấy
trong những lần bắn được lặp đi lặp lại, với tất cả phát súng đều trúng vào gần điểm đen, thì chúng
ta ắt mới có thể tuyên bố rằng ông ta là một tay súng giỏi.

Về mặt hình ảnh ta có thể xem xét trường hợp ước lượng chệch và không chệch như sau:
CHƯƠNG 5 : ƯỚC LƯỢNG KHOẢNG 83

Khi ta đã đưa ra một ước lượng không chệch thì đặc trưng thứ hai đáng mong ước của một ước
lượng là khoảng rộng (được đo bằng phương sai) của phân phối mẫu phải càng nhỏ càng tốt. Điều
này đảm bảo rằng, với một xác suất cao, một sự ước lượng riêng lẻ sẽ rơi gần vào giá trị đúng của
tham số. Các phân phối mẫu cho hai ước lượng không bị lệch, một với phương sai nhỏ và ước
lượng kia với một phương sai lớn hơn, đương nhiên là chúng ta sẽ thích ước lượng với phương
sai nhỏ hơn bởi vì những sự ước lượng có xu hướng nằm gần với giá trị đúng của tham số hơn là
với phương sai lớn hơn.

Định lý. Giả sử X 1 , X 2 ,..., X n là các biến ngẫu nhiên lấy từ tổng thể có trung bình là  và độ lệch
chuẩn là  . Khi đó

X 1  X 2  ...  X n
 X là một ước lượng không chệch cho  .
n
n
1 2
 Sˆ 2    X i  X  là một ước lượng tiệm cận không chệch cho  2 .
n i 1
n ˆ2
 S2  S là một ước lượng không chệch cho  2 .
n 1

5.1.2 Khoảng tin cậy.


Khi xây dựng một ước lượng khoảng cho một tham số, chúng ta xác định hai điểm mà bên trong
khoảng đó chúng ta mong đợi giá trị của tham số chưa biết đó rơi vào. Những ước lượng khoảng
được xây dựng để khi chọn mẫu lặp lại thì với một tỷ lệ lớn (gần 1) của các khoảng này sẽ bao
quanh tham số quan tâm. Tỷ lệ này được gọi là hệ số tin cậy, và khoảng tạo ra được gọi là khoảng
tin cậy.

Đối với một cỡ mẫu cố định, bề rộng của khoảng tin cậy tăng lên khi hệ số tin cậy gia tăng, một kết
quả mà đồng ý với trực giác của chúng ta. Chắc hẳn là nếu chúng ta mong muốn hơn rằng khoảng
này sẽ bao quanh µ, thì chúng ta ắt sẽ tăng bề rộng của khoảng. Bởi vì chúng ta chỉ chấp nhận các
khoảng tin cậy hẹp và hệ số tin cậy lớn hơn, nên chúng ta phải chỉ ra được một mối quan hệ giữa
hệ số tin cậy, khoảng tin cậy. Lựa chọn hệ số tin cậy được sử dụng trong một tình huống cho trước
được thực hiện bởi người làm thí nghiệm và tùy thuộc vào mức độ tin cậy mà người làm thí nghiệm
mong muốn đặt ra trong ước lượng này. Hệ số tin cậy phổ biến nhất có lẽ là các khoảng tin cậy
95%. Việc sử dụng các khoảng tin cậy 99% là ít phổ biến hơn bởi vì bề rộng khoảng lớn hơn được
tạo ra. Dĩ nhiên, lúc nào các bạn cũng có thể giảm bớt bề rộng này bằng cách gia tăng cỡ mẫu .

Ngoài các khoảng tin cậy hai phía (mà chúng ta đơn giản gọi là các khoảng tin cậy), chúng ta cũng
có thể xây dựng các khoảng tin cậy một phía cho những tham số.

Theo các tiêu chuẩn ước lượng, khi ta sử dụng bất kỳ hàm ước lượng Tn để ước lượng cho tham
số  thì khoảng ước lượng có dạng Tn   ,Tn    giá trị sai số  gọi là độ chính xác. Ở đây ta
84

không tuyệt đối tin rằng giá trị thật của tham số nằm trong khoảng Tn   ,Tn    , mà ta chỉ tin
rằng
P Tn      Tn     1  

Trong đó 1   là độ tin cậy.

Nhận xét.
 Khi độ chính xác  càng nhỏ thì độ tin cậy càng thấp.
 Khi Tn là ước lượng vững cho  , cố định độ chính xác  thì độ tin cậy 1    tiến đến 1
khi cở mẫu thực nghiệm n tiến đến vô cùng.
 Thông thường ta cố định độ tin cậy 1    rồi tìm khoảng tin cậy tương ứng.

5.2. Khoảng tin cậy cho giá trị trung bình.


5.3.1 Phân tích.
Gọi  là trung bình của tổng thể chưa biết. Từ giá trị quan sát X 1 , X 2 ,..., X n độc lập có cùng phân
phối chuẩn, ta xây dựng khoảng ước lượng cho  với độ tin cậy 1   .

X 1  X 2  ...  X n
Hàm ước lượng Tn  X  , ta xây dựng khoảng ước lượng thỏa:
n
P  X      X     1 

Định lý. Cho X 1 , X 2 ,..., X n là biến ngẫu nhiên có quy luật phân phối chuẩn với kỳ vọng là  và
 2 
phương sai là  2 , thì X có quy luật phân phối chuẩn X ~ N   ,  .
 n 

Định lý. Cho X 1 , X 2 ,..., X n là biến ngẫu nhiên có quy luật phân phối chuẩn với kỳ vọng là  và
phương sai là  2 , với X và S 2 là trung bình mẫu và phương sai mẫu (có hiệu chỉnh) ta có
X  X 
~ N  0;1  và ~ T n 1
 S
n n

 
  X   
Xét P  X      X     1    P       1 
    
 
 n n n
CHƯƠNG 5 : ƯỚC LƯỢNG KHOẢNG 85

 2  X 
Vì X ~ N   ;   Z  ~ N 0,1 
 n  2
n
Vì hàm ước lượng phụ thuộc vào  2 nên khoảng ước lượng cho  chia làm hai trường hợp
 Trường hợp  2 đã biết.
 
Ta có Z ~ N 0;1  P z /2  Z  z /2  1  

 
  X     
Và P       1   nên ta có  z /2    z /2
      n
 
 n n n n
 Trường hợp  2 chưa biết.
Trong thực tế ta thường xuyên không biết phương sai tổng thể  2 , trong trường hợp này ta vẫn
giả định tổng thể có quy luật phân phối chuẩn. Để đưa ra khoảng ước lượng cho  ta cần tham số
để ước lượng cho  2 , ta có:
X  X  1 X  n 1
 .  .
S  S  n  1 S 2
n n  n 2
X   n  1 S 2 ~  2,n1 nên X   n1
Trong đó ~ N 0;1 và Z ~T
 2 S
n n
n1 n1
 n1

Ta có Z ~ T  P t /2  Z  t /2  1   .

 
  X     
Và P       1   nên ta có  tn/21    tn /21 . .
      n
 
 n n n n
5.3.2 Quy tắc thực hành.

Khoảng ước lượng cho giá trị trung bình tổng thể  với độ tin cậy 1    là khoảng X   ; X   
trong đó giá trị độ chính xác  được tính theo công thức:
n  30 n  30
86

 2 đã biết   z /2

  z /2

n n
 2 chưa biết   z /2
S
  tn /21 .
S
n n

Trong đó   z /2 ; z /2 được tính theo phân phối chuẩn.
n
S
  tn /21 . ; tn/21 được tính theo phân phối Student
n

Ví dụ 5.2 Một công ty muốn ước lượng số tài liệu trung bình được chuyển bằng fax trong một
ngày. Kết quả thu được từ 15 ngày cho thấy trung bình một ngày có 267 trang tài liệu được chuyển
bằng fax, và theo kinh nghiệm từ các văn phòng tương tự thì độ lệch chuẩn là 32 trang. Với số tài
liệu chuyển bằng fax trong một một ngày có quy luật phân phối chuẩn, thì với độ tin cậy 95% ta
ước lượng được số tài liệu trung bình chuyển trong ngày nằm trong khoảng:
 
X  z /2 .    X  z /2 .
n n
Trong đó X  267,  32, n  15,1    95%  z /2  1.96
Vậy khoảng ước lượng là 250,8055    283,1945

Ví dụ 5.3 Công ty điện thoại một thành phố muốn ước lượng thời gian trung bình của một cuộc
điện đàm đường dài vào cuối tuần, mẫu ngẫu nhiên 20 cuộc gọi đường dài vào cuối tuần cho thấy
thời gian gọi trung bình là 14,8 phút và độ lệch chuẩn là 5,6 phút. Như vậy với độ tin cậy 95% ta
ước lượng được thời gian gọi trung bình nằm trong khoảng.
S S
X  tn/21 .    X  tn/21 .
n n
n 1
Trong đó X  14,8; S  5,6; n  20;1    95%  t /2  2,093
Vậy khoảng ước lượng là 12,1792    17,4208

5.3. Khoảng tin cậy cho độ lệch hai giá trị trung bình.
5.3.1 Phân tích
Gọi 1 , 2 là trung bình của 2 tổng thể, dựa trên việc khảo sát hai bộ mẫu độc lập của hai tổng thể
ta mong muốn chỉ ra sự khác biết của hai trung bình tổng thể này. Ta xây dựng khoảng ước lượng
cho 1  2 với độ tin cậy 1   .
Hàm ước lượng là Z  X 1  X 2 và khoảng ước lượng thỏa

  
P X 1  X 2    1  2  X 1  X 2    1    
Định lý. Nếu hai mẫu độc lập được lấy ngẫu nhiên từ hai tổng thể có trung bình và phương sai lần
lượt là 1 , 2 ,  12 ,  22 , thì phân phối cho độ lệch của hai giá trị trung bình theo quy luật phân phối
chuẩn với kỳ vọng và phương sai lần lượt là ( n1 , n2 lần lượt là cở mẫu của 2 mẫu 2 tổng thể)
 12  22
X  1  2 và  X  
1  X2 1  X2
n1 n2
5.3.2 Quy tắc thực hành
Trường hợp 1: Hai mẫu dữ liệu lấy độc lập.
Khoảng ước lượng cho độ chênh lệch giữa hai giá trị trung bình tổng thể  1  2  là khoảng
CHƯƠNG 5 : ƯỚC LƯỢNG KHOẢNG 87

X 1  X2   ; X1  X2   
Trong đó độ chính xác được tính theo công thức

n1 ; n2  30 
n1  30; X 1 ~ N 1 ; 12 
n2  30; X2 ~ N   ; 
2
2
2

Biết  12 ; 22  12  22  12  22
  z /2    z /2 
n1 n2 n1 n2
Chưa biết  2 S12 S22 S2 S2
  z /2    tn1/2n2 2 
n1 n2 n1 n2
Trong đó khi cỡ mẫu của hai mẫu đều nhỏ thì phương sai mẫu của kết hợp hai mẫu là
 n1  1 S12   n2  1 S22
S2 
n1  n2  2

 12  22
  z /2  ; z /2 được tính theo phân phối chuẩn.
n1 n2

S 2 S 2 n1 n2 2
  tn1/2n2 2  ; t /2 được tính theo phân phối Student.
n1 n2

Trường hợp 2: Hai mẫu dữ liệu lấy phối hợp từng cặp. (Hai mẫu dữ liệu phụ thuộc).
Giả sử ta có mẫu n cặp quan sát  x , y  lấy từ hai tổng thể X , Y :  x1 , y1  ;  x 2 , y 2  ;...,  x n , yn  , gọi
1 , 2 là trung bình của hai tổng thể. Ta lặp bộ dữ liệu mới là sự chênh lệch của từng cặp giá trị,
và d , d lần lượt là trung bình và độ lệch chuẩn của bộ dữ liệu mới. Với độ tin cậy 1   thì khoảng
ước lượng cho sự chênh lệch hai giá trị trung bình của hai tổng thể là khoảng
d   ;d   
Trong đó độ chính xác tính theo các trường hợp sau

n  30 n  30
2
 d đã biết  d
  z /2 d   z /2
n n
 d 2 chưa biết S Sd
  z /2 d   tn /21 .
n n
d
   z /2 ; z /2 được tính theo phân phối chuẩn.
n
S
   tn /21 . d ; tn /21 được tính theo phân phối Student.
n

Ví dụ 5.4 Công ty điện lực thực hiện các biện pháp khuyến khích tiết kiệm điện. Lượng điện tiêu
thụ ghi nhân ở 12 hộ gia đình trước và sau khi có các biện pháp khuyến khích tiết kiệm điện như
sau

Hộ gia Lượng điện tiêu thụ (kwh) Hộ gia Lượng điện tiêu thụ (kwh)
đình Trước Sau đình Trước Sau
1 73 69 7 74 75
88

2 50 54 8 87 78
3 83 82 9 69 64
4 78 67 10 72 72
5 56 60 11 77 70
6 74 73 12 75 63
Sự thay đổi trung bình về lượng điện tiêu thụ trước và sau khi có các biện pháp tiết kiệm với độ
tin cậy 95% nằm trong khoảng:
S S
d  tn /21 . d  1  2  d  tn/21 . d
n n
n 1
Trong đó d  3,4167; Sd  5,4848; n  12;1    95%  t /2  2,201

Khoảng ước lượng là 0,0682  1  2  6,9016

Ví dụ 5.5 Một công ty đang xem xét kế hoạch tiết giảm chi phí sản xuất thông qua việc xây dựng
dây chuyền sản xuất mới nhằm rút ngắn thời gian sản xuất sản phẩm. Ở dây chuyền sản xuất mới,
40 sản phẩm được sản xuất với thời gian trung bình 46,5 phút, và độ lệch chuẩn 8 phút. Còn dây
chuyền cũ 38 sản phẩm với thời gian trung bình là 51,2 phút, và độ lệch chuẩn 9,5 phút. Với độ tin
cậy 95% thì sự chênh lệch về thời gian trung bình sản xuất 1 sản phẩm nằm trong khoảng

S12 S22 S2 S2
X 1 
 X2  z /2 . 
n1 n2
 
 1  2  X1  X 2  z /2 . 1  2
n1 n2
 X  46,5; S 1  8 ; n1  40
Trong đó  1 và 1    95%  z /2  1,96
 X 2  51,2; S 2  9,5; n2  38
Vậy khoảng ước lượng là 8,6077  1  2  0,7923

5.4. Khoảng tin cậy cho giá trị tỷ lệ.


5.4.1 Phân tích.
Gọi p là giá trị tỷ lệ phần tử loại A trong một tổng thể. Từ giá trị quan sát X 1 , X 2 ,..., X n độc lập có
cùng phân phối nhị thức (trong đó X i  1 cho việc ở lần kiểm tra thứ ta được phần tử loại và
X i  0 khi không được phần tử loại ), ta cần lập khoảng ước lượng cho p với độ tin cậy 1   .
X 1  X 2  ...  X n
Xét hàm ước lượng Tn  f  , ta xây dựng khoảng ước lượng sao cho
n
P  f    p  f     1 
Định lý. Cho X 1 , X 2 ,..., X n là biến ngẫu nhiên có quy luật phân phối nhị thức, thì Tn  f theo quy
 pq 
luật phân phối chuẩn Tn  f ~ N  p; 
 n 

 
  f p  
Ta có P  f    p  f     1    P       1 
 pq pq pq 
 
 n n n 
pq f p  pq
Mà Tn  f ~ N  p;   ~ N  0;1  nên  z /2    z /2
 n  pq pq n
n n
Nhưng trong công thức độ chính xác thì p , q là các tham số tổng thể nên ta sẽ thay bằng tham số
mẫu, ta có:
CHƯƠNG 5 : ƯỚC LƯỢNG KHOẢNG 89

f 1  f 
  z /2
n
5.4.2 Quy tắc thực hành.
Khoảng ước lượng cho giá trị tỷ lệ p là khoảng  f   ; f    .

f 1  f 
Trong đó   z /2 , với z /2 là phân vị của phân phối chuẩn.
n

Ví dụ 5.6 Một nghiên cứu được thực hiện nhằm ước lượng thị phần của sản phẩm nội địa đối
với mặt hàng bánh kẹo. Kết quả điều tra 100 khách hàng cho thấy có 34 người dùng sản phẩm nội
địa. Với độ tin cậy 95%, ta có khoảng ước lượng cho tỷ lệ khách hàng dùng bánh kẹo nội địa là

f 1  f  f 1  f 
f  z /2 .  p  f  z /2 .
n n

34
Trong đó f  ; n  100;1    95%  z /2  1,96
100

Vậy khoảng ước lượng là 24,72%  p  43,28%

Ví dụ 5.7 Trung tâm Quốc gia về Thống kê Giáo dục báo cáo rằng 47% sinh viên cao đẳng làm
việc để trả học phí và chi phí sinh hoạt. Giả sử một mẫu của 450 sinh viên cao đẳng được sử dụng
trong nghiên cứu.
a. Cung cấp một khoảng tin cậy 95% cho tỷ lệ tổng thể sinh viên cao đẳng làm việc để trả cho học
phí và chi phí sinh hoạt.
b. Cung cấp một khoảng tin cậy 99% cho tỷ lệ tổng thể sinh viên cao đẳng làm việc để trả học phí
và chi phí sinh hoạt.
c. Điều gì xảy ra với sai số biên khi độ tin cậy gia tăng từ 95% đến 99%?
Giải.
a. Cung cấp một khoảng tin cậy 95% cho tỷ lệ tổng thể sinh viên cao đẳng làm việc để trả cho học
phí và chi phí sinh hoạt.
Ta có:
f  47%, n  450 , z / 2  1,96

f 1  f  0, 47  1  0, 47 
  z /2  1,96   0, 0461
n 450
 f   ; f      0, 47  0,0461;0, 47  0,0461   0, 4239;0,5161
b. Cung cấp một khoảng tin cậy 99% cho tỷ lệ tổng thể sinh viên cao đẳng làm việc để trả học phí
và chi phí sinh hoạt.
f  47%, n  450 , z /2  2,58

f 1  f  0, 47  1  0, 47 
  z /2  2,58   0, 0607
n 450
 f   ; f      0, 47  0,0607;0, 47  0,0607    0, 4093;0,5307 
c. Điều gì xảy ra với sai số biên khi độ tin cậy gia tăng từ 95% đến 99%?
Sai số biên với độ tin cậy 95%, bằng 0,0461, nhỏ hơn sai số biến với độ tin cậy 99%, bằng 0,0607,
là 0,0146.
90

5.5. Khoảng tin cậy cho độ lệch hai giá trị tỷ lệ.
5.5.1 Phân tích.
Gọi p1 , p2 lần lượt là tỷ lệ của phần tử loại A trong 2 tổng thể. Khoảng ước lượng cho độ lệch hai
tỷ lệ đối với độ tin cậy 1   thông qua hàm ước lượng Z  f1  f2 (với f1 , f2 lần lượt là tỷ lệ phần
tử loại A trên 2 mẫu độc lập của hai tổng thể) thỏa

P   f1  f2     p1  p2   f1  f2      1  

5.5.2 Quy tắc thực hành


Khoảng ước lượng cho độ lệch giữa hai giá trị tỷ lệ  p1  p2  là khoảng:
 f1  f 2   ; f1  f2   
Trong đó giá trị độ chính xác cho bởi:

f1  1  f1  f2  1  f2 
  z /2 . 
n1 n2

Được tính thông qua z /2 là phân vị của phân phối chuẩn.

Ví dụ 5.8 Kết quả điều tra từ mẫu ngẫu nhiên 1000 người ở mỗi thành phố cho thấy năm 2014
tỷ lệ thất nghiệp ở thành phố Hồ Chí Minh là 7,5%, ở thành phố Phan Thiết là 7,2%; với độ tin cậy
99% thì sự chệnh lệch về tỷ lệ thất nghiệp của 2 thành phố nằm trong khoảng

f1  1  f1  f2  1  f2  f1  1  f1  f2  1  f2 
 f1  f2   z /2 .   p1  p2   f1  f2   z /2 .  Trong đó
n1 n2 n1 n2
 p1  0,075; n1  1000
 và 1    99%  t /2  2,575
 p2  0,072; n2  1000
Vậy khoảng ước lượng là 0,027  p1  p2  0,033
Vì vùng giá trị nằm đều xung quanh 0 nên ta không thể kết luận thành phố nào có tỷ lệ thất nghiệp
cao hơn, ta chỉ có thể kết luận tỷ lệ thất nghiệp của thành phố Hồ Chí Minh trong khoảng từ thấp
hơn 2,7% đến cao hơn 3,3% so với thành phố Phan Thiết.

5.6. Khoảng tin cậy cho giá trị phương sai.


i. Phân tích.
Gọi  2 là phương sai của tổng thể chưa biết. Từ giá trị quan sát X 1 , X 2 ,..., X n độc lập có cùng phân
phối chuẩn, ta cần lập khoảng ước lượng cho  2 với độ tin cậy 1   . Xét hàm ước lượng Tn  S 2
, ta xây dựng khoảng ước lượng sao cho:

 
P A   2  B  1 
Định lý. Cho X 1 , X 2 ,..., X n là biến ngẫu nhiên có quy luật phân phối chuẩn với kỳ vọng là  và
phương sai là  2 , và S 2 là phương sai mẫu (có hiệu chỉnh). Thì ta có
 n  1 S 2 ~  2,n1
2
Là phân phối Chi bình phương với  n  1 bậc tự do.


2,n 1
Ta có P  /2  
2,n1

 12,n/21  1   .
CHƯƠNG 5 : ƯỚC LƯỢNG KHOẢNG 91

 2,n1  n  1 S 2 
P
Nên ta có   /2  ~  2,n1  12,n/2
1
  1   thay vào phương trình ta có
  2
 
  n  1 S 2 2  n  1 S 2 
 P      1 
  2,n1 2,/2n1 
 1 /2
  n  1 S 2  n  1  S 2 
Vậy khoảng ước lượng cho  2 với độ tin cậy 1   là  ; 
  2,n 1 2,/2n1 
 1 /2

ii. Quy tắc thực hành.


2 2

Khoảng tin cậy cho  2 với độ tin cậy 1    100% là S  1 ; S  2 .Khoảng tin cậy có công 
thức

  n  1 S 2  n  1  S 2 
 ; 
2,n 1
  1 /2 2,/2n1 

Trong đó 2,/2
n 1
; 12,n/2
1
tính theo phân vị Chi bình phương.

Đây là khoảng ước lượng hai phía, nghĩa là với giá trị chặn trên và chặn dưới chấp nhận sai số với
mức ý nghĩa  / 2 .100% . Trong trường hợp ước lượng một phía, nghĩa là chặn trên hoặc chặn
dưới sẽ chấp nhận sai số với mức ý nghĩa   100% ta có ước lượng tương ứng:

2
S 2  n  1
 Ước lượng phải (chặn trên) với độ tin cậy 1    100% :   .
2,n 1
S 2  n  1
 Ước lượng trái (chặn dưới) với độ tin cậy 1    100% :  2 .
 12,n1
Ví dụ 5.9 Khảo sát thời gian tự học (giờ) trong 1 tuần của sinh viên một trường cao đẳng, khảo
sát số liệu trên 78 sinh viên ta có bảng số liệu sau

Số giờ 5 6 7 8 9 10
Số sinh viên 2 25 30 15 4 2
Với độ tin cậy 95%, ước lượng cho phương sai thời gian tự học của sinh viên sẽ nằm trong khoảng

 n  1 S 2  n  1 S 2
 2 
12,n/21 2,/2n1
2,77
  0,025  54,62
Trong đó n  78; S 2  1,065 và 1    95%   2,77
  0,975  104,3
Vậy khoảng ước lượng cho phương sai là 0,7946   2  1,5014
92

5.7. Khoảng tin cậy cho dự đoán giá trị quan sát
i. Phân tích
Trong một số trường hợp ta phải dự đoán một giá trị sẽ xảy ra của biến ngẫu nhiên, ta sẽ đưa ra
một phương pháp để thu được khoảng dự đoán cho giá trị tương lai theo quy luật phân phối
chuẩn.Giả sữ X 1 , X 2 ,..., X n là biến ngẫu nhiên có quy luật phân phối chuẩn. Ta cần dự đoán khoảng
giá trị cho biến ngẫu nhiên X n 1 . Điểm dự đoán cho X n1 là trung bình mẫu X , với sai số dự đoán
là X n1  X .
 
Kỳ vọng của sai số dự đoán là E Xn1  X      0 
2  1
Phương sai của sai số dự đoán là Var  Xn1  X    
2
   2 1  
n  n
Vì giá trị quan sát X n 1 và trung bình mẫu hoàn toàn độc lập nên X n1  X có quy luật phân phối
chuẩn, do đó:

Z
X n 1  X  0
~ N  0,1 
1
 1
n
Thay thế  bằng S ta có

T
X n 1  X  0
~ T n 1
1
S 1
n
Ước lượng khoảng cho giá trị X n 1 bằng giá trị trung bình X với độ tin cậy 1    100% :
 
  X n 1  X  
 
P X    Xn1  X    1    P  
 1

1
   1 
1
 S 1 S 1 S 1 
 n n n

n 1 n1
Với T ~ T n1 ta có P t /2  T  t /2  1   
 1
Vậy  tn /21    tn/21 S 1  .
1 n
S 1
n
ii. Quy tắc thực hành.

Khoảng tin cậy cho X n 1 với độ tin cậy 1    100% là X   ; X    


1
Độ chính xác   tn/21 S 1  , tính theo phân vị phân phối Student.
n
 1 1
Khoảng ước lượng là  X  tn/21 S 1  ; X  tn /21 S 1   .
 n n

Ví dụ 5.10 Một bài viết trên tạp chí Vật liệu (năm 1989, Vol. II, số 4, tr. 275-281) mô tả các kết
quả của bài kiểm tra độ bám dính trên 22 mẫu hợp kim U-700. Bộ mẫu thu được như sau (theo
đơn vị megapascals)

19.8 10.1 14.9 7.5 15.4 15.4 15.4 18.5 7.9 12.7 11.9

11.4 11.4 14.1 17.6 16.7 15.8 19.5 8.8 13.6 11.9 11.4

Với độ tin cậy 95%, khoảng ước lượng cho giá trị dự đoán thứ 23 nằm trong khoảng
CHƯƠNG 5 : ƯỚC LƯỢNG KHOẢNG 93

1 1
X  tn/21 .S 1   X23  X  tn/21 .S 1 
n n
Trong đó X  13,71; S  3,55; n  22;1    95%  t 21,25  2,08
Vậy khoảng ước lượng cho dự đoán giá trị thứ 23 là : 6,16  X 23  21,26
94

CHƯƠNG 6
KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ
Mục lục chương 6

6.1 Khái niệm. ............................................................................................................ 94


6.2 Kiểm định giả thuyết về tỷ lệ tổng thể ................................................................... 96
6.3 Kiểm định giả thuyết về trung bình tổng thể. ........................................................ 98
6.4 Kiểm định giả thuyết về phương sai tổng thể. ......................................................101
6.5 Kiểm định so sánh hai tỷ lệ của hai tổng thể. ........................................................103
6.6 Kiểm định so sánh hai trung bình của hai tổng thể. ..............................................107
6.7 Kiểm định giả thiết cho hai phương sai tổng thể ..................................................111
6.8 Kiểm định giả thuyết về sự độc lập.......................................................................111

Trong phần chương 6 chúng ta đã đưa ra phương pháp để ước lượng cho tham số tổng thể dựa
trên dữ liệu mẫu dữ liệu, mục đích của chương 7 là đưa ra phương pháp cho việc kiểm tra các kết
luận đối với tham số tổng thể dựa trên mẫu dữ liệu.

Ví dụ 6.1 Một trường đại học, khảo sát về vấn đề tỷ lệ có việc làm của sinh viên sau khi học đại
học. Nếu trường đại học muốn đưa ra một số liệu về tỷ lệ có việc làm của sinh viên sau khi học, thì
đây là bài toán ước lượng. Trường hợp lúc này, trường đại học muốn khẳng định về uy tính và
chất lượng của trường ngày càng tăng, thì nhà trường phải khẳng định tỷ lệ sinh viên có việc làm
sau khi học có khuynh hướng tăng so với một mức tỷ lệ mà trường đã đạt được trong những năm
trước. Thì bài toán lúc này trở thành kiểm định giả thiết thống kê.

Trong bài toán kiểm định về giả thiết thống kê. Một giả thiết được đặt ra, thì mục tiêu chúng ta
muốn là thu thập dữ liệu để có thể khẳng định giả thiết đó là sai. Nhưng khi không thể khẳng định
giả thiết ban đầu sai, thì điều này đồng nghĩa là ta chưa thu thập đủ dữ liệu, chứ không phải là giả
thiết ban đầu đúng.

Mục tiêu bài toán có một sự tương đồng về qui trình được sử dụng tại một phiên tòa xét xử. Khi
xét xử một người vì tội trộm cắp, thì tòa án cho rằng bị cáo là vô tội cho đến khi được chứng minh
là có tội. Bên nguyên thu thập và trình bày tất cả các bằng chứng sẵn có trong một nỗ lực nhằm
phủ nhận giả thuyết “không có tội” để đạt được kết luận người này có tội. Tuy nhiên, nếu bên
nguyên thất bại trong việc bác bỏ giả thuyết “không có tội” này, thì điều này không chứng minh
được rằng bị cáo là “vô tội” mà chỉ đơn thuần là chưa có đủ bằng chứng để kết luận rằng bị cáo là
“có tội”.

6.1 KHÁI NIỆM

6.1.1 Giả thiết H0 và đối thuyết H1 .

Một kiểm định giả thiết thống kê bao gồm:


CHƯƠNG 6 : KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ 95

Giả thiết  H0  là một khẳng định mà nhà nghiên cứu không mong muốn ủng hộ. Giả thiết  H0 
được đặt ra để làm nền tảng tính toán cho bài toán kiểm định.
Đối thiêt  H1  là sự phủ nhận của giả thiết  H0  ; nghĩa là, nếu giả thuyết không là sai, thì đối thiết
phải là đúng. Và nhà nghiên cứu phải thu thập dữ liệu để cố gắng đạt được điều đó.
Quyết định bác bỏ hay chấp nhận giả thiết  H0  được căn cứ vào thông tin chứa trong một mẫu
được lấy ra từ tổng thể. Các giá trị của mẫu được sử dụng để tính toán một con số duy nhất, gọi là
trị thống kê . Toàn bộ tập hợp các giá trị mà trị thống kê kiểm định này có thể có được chia thành
hai miền. Một miền, bao gồm các giá trị mà ủng hộ cho đối thiết  H1  , được gọi là miền bác bỏ.
Miền kia, bao gồm các giá trị mà không mâu thuẫn với giả thuyết không, được gọi là miền chấp
nhận.
Miền chấp nhận và bác bỏ được phân cách bởi một giá trị tới hạn của trị thống kê kiểm định đó.
Nếu trị thống kê kiểm định này được tính từ một mẫu cụ thể có một giá trị nằm trong miền bác
bỏ, thì giả thuyết không bị bác bỏ, và giả thuyết thay thế H1 được chấp nhận. Nếu trị thống kê đó
rơi vào miền chấp nhận, thì hoặc là giả thuyết không được chấp nhận hoặc trị thống kê đó bị đánh
giá là không thuyết phục. Trong bất cứ trường hợp nào, thì sự thất bại trong việc bác bỏ H1
hàm ý rằng dữ liệu này không đủ bằng chứng để hỗ trợ H1 .

Ví dụ 6.2 Khảo sát về điểm trung bình của sinh viên sau khi tốt nghiệp, của một khoa, của một
trường Đại học. Chúng ta muốn biết điểm trung bình của sinh viên có khác 7,0 không. Thì giả thiết
và đối thiết như sau:
Giả thiết H0 :   7,0 Đối thiết H1 :   7,0
Công việc kiểm định được thực hiện, bằng cách khảo sát 100 sinh viên về điểm trung bình. Và tính
trung bình điểm trung bình của 1 sinh viên, giá trị là X . Vì ta đang so giữa trung bình mẫu và
trung bình tổng thể   7,0 , nên việc so sánh phải phù hợp với một sai số cho phép. Với sai số đó
ta mở ra một vùng giá trị xung quanh   7,0 . Nếu X không nằm trong vùng đó thì ta bác bỏ giả
thiết  H0  , tức đối thiết  H1  đúng, còn ngược lại thì ta chưa đủ bằng chứng bác bỏ  H0  . Sơ đố
như sau:

6.1.2 Sai lầm loại I và sai lầm loại II.


Những quyết định cho mô hình sẽ gồm các kết quả đúng và sai cho bởi bảng sau:
Thực tế giả thiết không
Quyết định Đúng Sai
Bác bỏ H0 Sai lầm loại I :   Quyết định đúng
Chấp nhận H 0 Quyết định đúng Sai lầm loại II   
96

Sai lầm loại I: Bác bỏ H0 khi thực tế H 0 đúng. Xác suất của việc tạo ra một sai lầm loại I được biểu
thị bởi ký hiệu  .

Sai lầm loại II: Chấp nhận H0 khi thực tế H0 sai. Xác suất của việc tạo ra một sai lầm loại II được
biểu thị bởi ký hiệu  .

Mức độ thích hợp của một kiểm định thống kê được đo lường bởi xác suất tạo ra sai lầm loại I và
sai lầm loại II. Bởi vì  là xác suất của việc bác bỏ H0 khi thực tế giả thuyết này là đúng, cho nên
đây là một đại lượng của cơ may bác bỏ sai H0 . Bởi vì  là xác suất của việc chấp nhận H0 khi
thực tế giả thuyết này là sai, cho nên phần bù của nó, 1   là xác suất của việc bác bỏ H 0 khi thực
tế giả thuyết này là sai. Xác suất 1   được gọi là năng lực của sự kiểm định của mô hình.

Một cách thức khác để báo cáo kết quả kiểm định là thông qua giá trị p ( p -value). Xác suất 
của việc tạo ra sai lầm loại I thường gọi là mức ý nghĩa của mô hình kiểm định, và trong quá trình
kiểm định thì chúng ta có thể chọn các mức ý nghĩa khác nhau (ví dụ như   0,05  z /2  1,96 ,
  0,01  z /2  2,58 ,…) nên đôi khi kết quả kiểm định bác bỏ với mức ý nghĩa thứ nhất, nhưng
lại chấp nhận với mức ý nghĩa thứ hai. Nên đôi khi các bài báo cáo sẽ chọn mức ý nghĩa thấp nhất
để mô hình kiểm định có ý nghĩa.

Giá trị p hay mức ý nghĩa quan sát được là giá trị nhỏ nhất của  mà qua đó các mô hình kiểm
định có ý nghĩa về mặt thống kê

Nếu một kết quả kiểm định có ý nghĩa về mặt thống kê với   0,10 nhưng không có ý nghĩa với
  0,05 thì ta có thể hiểu giá trị p là một số trong khoảng 0,05  p  0,10 . Hay nói cách khác nếu
giá trị p nhỏ hơn giá trị  , thì ta bác bỏ giả thiết H 0 và ngược lại.

6.2 KIỂM ĐỊNH GIẢ THIẾT CHO MỘT GIÁ TRỊ TỶ LỆ TỔNG THỂ.

6.2.1 Phân tích.


Xét một tổng thể và một đặc trưng A , mỗi phần tử trong tổng thể chỉ mang hai tính chất là có tính
chất A hoặc không có tính chất A . Xét trên một mẫu dữ liệu cụ thể, ta cần kiểm định giả thiết tỷ
lệ phần tử loại A trong tổng thể này là p , thì p có bằng giá trị p0 cho trước hay không với mức ý
nghĩa  .

Quan sát từng phần tử, coi phần tử quan sát có mang tính chất A hay không. Thực hiện công việc
n lần, tương ứng chính là mẫu dữ liệu. Gọi X là biến ngẫu nhiên chỉ số phần tử mang tính chất A
, kết hợp giả thiết p  p0 ta có (theo chương 3 và 6) ta có:
X  np0
X ~ N  npo , np0 1  p0    z  ~ N  0;1
np0 1  p0 
Đặt f là tỷ lệ phần tử mang tính chất A trong n phần tử quan sát. Ta có
X
X  np0  p0 f  p0
z  n  n ~ N  0;1
np0 1  p0  np0 1  p0  p0 1  p0 
n
CHƯƠNG 6 : KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ 97

Giá trị z mang ý nghĩa đo mức chênh lệch giữa f (tỷ lệ phần tử mang tính chất A trên mẫu dữ
liệu, đại diện cho p ) với p0 .

Trong bài toán kiểm định với giả thiết H0 : p  p0 và đối thiết H1 : p  p0 .

 
Mức ý nghĩa  được phân đều 2 phía và P z  z /2   : là
xác suất quyết định bác bỏ giả thiết H 0 khi thực tế giả thiết
H0 đúng.
Nghĩa là ta chấp nhận đối thiết H1 khi z  z /2 hoặc
z  z /2

Trong bài toán kiểm định với giả thiết H0 : p  p0 và đối thiết H1 : p  p0 .

Mức ý nghĩa  được phân 1 phía phải và P  z  z    : là


xác suất quyết định bác bỏ giả thiết H 0 khi thực tế giả thiết
H0 đúng.
Nghĩa là ta chấp nhận đối thiết H1 khi z  z

Trong bài toán kiểm định với giả thiết H 0 : p  p0 và đối thiết H1 : p  p0 .

Mức ý nghĩa  được phân 1 phía phải và P  z  z    : là


xác suất quyết định bác bỏ giả thiết H 0 khi thực tế giả thiết
H 0 đúng.
Nghĩa là ta chấp nhận đối thiết H1 khi z   z

6.2.2 Mô hình kiểm định.


1. Giả thiết không H 0 : p  p0
2. Giả thiết đối
Kiểm định hai phía Kiểm định một phía
H1 : p  p0 H 1 : p  p0
H1 : p  p0
3. Trị thống kê
Với f là tỷ lệ phần tử mang đặc trưng A của mẫu.
 f  p0 
Trị thống kê là : z  n
p0 1  p0 
4. Miền bác bỏ
98

Kiểm định 2 phía Kiểm định 1 phía Kiểm định 1 phía

Đối thiết : H1 : p  p0 Đối thiết : H1 : p  p0 Đối thiết : H1 : p  p0


Bác bỏ H 0 khi: Bác bỏ H 0 khi: Bác bỏ H 0 khi:
 z   z /2 z  z /2 z  z
  z  z /2
 z  z /2

Ví dụ 6.3 Các báo cáo trước đây khảo sát về gia cảnh của sinh viên năm nhất ở một trường đại
học cho biết có 86% sinh viên đại học năm thứ nhất. Năm nay,trường đại học này làm một cuộc
khảo sát tương tự về vấn đề trên, khi hỏi 1000 sinh viên năm thứ nhất được chọn ngẫu nhiên thì
thấy có 890 sinh viên được nhận hỗ trợ tài chính từ gia đình. Với mức ý nghĩa   5% , các báo cáo
trên có còn đúng cho tình hình sinh viên năm nay hay không.
Giải. Mô hình kiểm định trong trường hợp này có dạng

1. H0 : p  86% và H1 : p  86%
Trong đó p là tỷ lệ sinh viên năm nhất nhận được hỗ trợ tài chính từ gia đình.
890
Và dữ liệu đề bài cho: n  1000 và f   0,89
1000

2. Trị thống kê dùng trong mô hình này là z 


 f  p0  n
p0 1  p0 
Trong đó p0  0,86 nên ta có z  2,734
3. Mức ý nghĩa của kiểm định là 5% tương ứng phân vị z /2  1,96 .

 
Kết luận : vì trị thống kê cao hơn phân vị z  z /2 nên ta hoàn toàn có thể bác bỏ giả thiết H0 , tức
tỷ lệ sinh viên năm nhất năm nay nhận được hỗ trợ tài chính từ gia đình khác với báo cáo các năm
trước.

6.3 KIỂM ĐỊNH GIẢ THIẾT CHO MỘT TRUNG BÌNH TỔNG THỂ.

6.3.1 Phân tích.


Xét một tổng thể, gọi  là giá trị trung bình của tổng thể, dựa trên một mẫu cụ thể ta cần kiểm
định giả thiết trung bình tổng thể có bằng giá trị 0 cho trước không với mức ý nghĩa  .
Gọi X là biến ngẫu nhiên chỉ giá trị của một phần tử trong tổng thể, giả sử X có quy luật phân
2
 
phối chuẩn X ~ N  ; ,  2 là phương sai tổng thể. Xét mẫu dữ liệu, có cỡ mẫu n và trung bình
 2 
của mẫu là X , (theo chương 5) ta có X ~ N   ;  . Kết hợp giả thiết   0 , đặt:
 n 
X  X  0
z  n ~ N  0;1
 2 
n
CHƯƠNG 6 : KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ 99

Giá trị của z đo mức độ chênh lệch giữa trung bình mẫu (đại diện cho  ) và 0 , là trị thống kê
trong mô hình kiểm định giả thiết H 0 :   0 .
Trong trường hợp phương sai tổng thể chưa biết, ta thay thế phương sai tổng thể bằng phương
2
 
sai mẫu S . Đặt:

X  X  1 X  n 1
z  .  .
S  S  n  1 S 2
n n  n 2
2
X   n  1 S X 
n ~ t  n  1
Trong đó ~ N 0;1 và 2
~  n21 nên z 
  S
n
Nhưng khi cỡ mẫu lớn hơn 30 thì phần phôi Student xấp xỉ bằng phân phối chuẩn. Nên khi phương
sai tổng thể chưa biết và cỡ mẫu n  30 , ta có:
X 
n ~ N 0;1
z
S
6.3.2 So sánh trung bình tổng thể với một số khi biết phương sai.
1. Giả thiết không H0 :   0 .
2. Giả thiết đối.
Kiểm định hai phía Kiểm định một phía
H1 :    0 H1 :    0
H1 :    0
3. Trị thống kê
X  0
Trị thống kê : z  n

4. Miền bác bỏ
Kiểm định 2 phía Kiểm định 1 phía Kiểm định 1 phía

Đối thiết : H1 :   0 Đối thiết : H1 :   0 Đối thiết : H1 :   0


Bác bỏ H 0 khi: Bác bỏ H 0 khi: Bác bỏ H 0 khi:
 z   z /2 z   z z  z

 z  z /2

6.3.3 So sánh trung bình tổng thể với một số khi không biết phương sai.
1. Giả thiết không H0 :   0 .
2. Giả thiết đối.
Kiểm định hai phía Kiểm định một phía
H1 :    0 H1 :    0
H1 :    0
3. Trị thống kê
X  0
Trị thống kê : z  n
S
100

4. Miền bác bỏ
a. Trường hợp cỡ mẫu n  30 , trị thống kê có quy luật phân phối chuẩn : z ~ N  0;1 .
Kiểm định 2 phía Kiểm định 1 phía Kiểm định 1 phí

Đối thiết : H1 :   0 Đối thiết : H1 :   0 Đối thiết : H1 :   0


Bác bỏ H0 khi: Bác bỏ H 0 khi: Bác bỏ H 0 khi:
 z   z /2 z   z z  z

 z  z /2
b. Trường hợp cỡ mẫu n  30 , trị thống kê có quy luật phân phối Student, bậc tự do
 n  1 : z ~ t  n 1 .
Kiểm định 2 phía Kiểm định 1 phía Kiểm định 1 phía

Đối thiết : H1 :   0 Đối thiết : H1 :   0 Đối thiết : H1 :   0


Bác bỏ H0 khi: Bác bỏ H 0 khi: Bác bỏ H 0 khi:
n 1
 z  tn/21 z  t  z  tn1

 z  t n /21

Ví dụ 6.4 Sản lượng hàng ngày tại một nhà máy hóa chất, được ghi nhận cho n  50 ngày, có một
số trung bình và độ lệch chuẩn của mẫu là X  871 tấn và S  21 tấn. Hãy kiểm định giả thuyết
rằng sản lượng bình quân hàng ngày của nhà máy đó là   880 tấn mỗi ngày so với giả thuyết
thay thế là  hoặc lớn hơn hay nhỏ hơn 880 tấn mỗi ngày.
Giải:
Mô hình kiểm định:
1. H 0 :   880 tấn và H1 :   880 tấn
Với  là sản lượng trung bình của nhà máy hóa chất trong một ngày.
X  0
2. Trị thống kê : z 
S/ n
Trong đó X  871;   880; S  21; n  50 , vậy ta có z  3,03

3. Với   0.05 ; ta có z /2  1,96


4. Kết luận: vì z  z /2 nên ta bác bỏ giả thiết H0 ; tức   880 tấn là sai.

Ví dụ 6.5 Khảo sát về việc đánh bắt các ngừ tại một vùng biển trong năm qua. Một báo cáo cho
biết trọng lượng trung bình một con cá ngừ trong các năm trước là khoảng 30,31 pound
CHƯƠNG 6 : KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ 101

1pound  0.453592kg  . Nhưng gần đây việc đánh bắt cá ngừ gia tăng, làm ảnh hưởng đến trọng
lượng trung bình của một con cá ngừ trong vùng, khảo sát mẫu gồm 20 con cho bảng số liệu sau:
17,4 18,9 39,6 34,4 19,6 24,1 39,6 12,2 25,5 22,1
33,7 37,2 43,4 41,7 27,5 29,3 21,1 23,8 43,2 24,4
Hỏi mẫu dữ liệu trên có đủ sức bác bỏ luận điểm trên hay không với mức ý nghĩa   5%
Giải. Mô hình kiểm định tương ứng bài toán là:
1. H0 :   30,31 và H1 :   30,31
Trong đó  là trọng lượng trung bình của 1 con cá ngừ bắt tại vùng biển này.
2. Trị thống kê của mô hình: (cỡ mẫu nhỏ n  20 ; phương sai tổng thể chưa biết) :
X  0
z n
S
Với các số liệu thu được ta có n  20 ; X  28,935 ; S  9,5074 . Nên ta có giá trị của trị thống kê:
z  0,6468 .
3. Với mức ý nghĩa   5% ta có phân vị sử dụng tn/21  t0,025
19
 2,093 .
19
4. Kết luận z  t0,025 nên không đủ bằng chứng để bác bỏ giá thiết H0 , tức trọng lượng trung
bình của 1 con cá ngừ ở vùng biển này vẫn là 30,31 pound.

6.4 KIỂM ĐỊNH GIẢ THIẾT CHO PHƯƠNG SAI TỔNG THỂ.

6.4.1 Phân tích


Xét tổng thể, gọi  2 là phương sai của tổng thể, dựa trên mẫu dữ liệu cụ thể, ta cần kiểm định giả
2
thiết phương sai tổng thể có bằng giá trị  0 cho trước hay không với mức ý nghĩa  .
2 2
Trong trường hợp, tổng thể biết giá trị trung bình là  và kết hợp giả thiết H0 :    0 . Với mẫu
dữ liệu lần lượt nhận giá trị X i với i  1, n , ta có
Xi  

X i ~ N  , 02  0
~ N  0;1 với i  1, n .

Theo định nghĩa phân phối Chi bình phương ta có:


n
2
X i  
 i 1
~  n2
 02
2 2
Như vậy  là trị thống kê trong mô hình kiểm định giả thiết H0 :    0 , với quy luật phân phối
Chi bình phương bậc tự do n .
Trong trường hợp, trung bình tổng thể chưa biết, với S 2 là phương sai mẫu dữ liệu, kết hợp giả
2 2
thiết H0 :    0 , trong Chương 5 ta có:
 n  1 S 2
 ~  n21
 02
Và ta có  lúc này là trị thống kê cho mô hình kiểm định H0 :  2   02 , khi không biết trung bình
tổng thể, và có quy luật phân phối Chi bình phương bậc tự do  n 1 .
6.4.2 So sánh phương sai tổng thể với một số khi biết trung bình µ.
2 2
1. Giả thiết không H0 :    0 .
2. Giả thiết đối.
102

Kiểm định hai phía Kiểm định một phía


H1 : 2   02 H1 :  2   02
H1 :  2   02
3. Trị thống kê.
Với  : trung bình tổng thể.
n
2
x
i 1
i  
Trị thống kê :  
 02
4. Miền bác bỏ.
Trị thống kê có quy luật phân phối Chi bình phương bậc tự do n :  ~  n2
Kiểm định 2 phía Kiểm định 1 phí Kiểm định 1 phía

2 2 2 2 2 2
Đối thiết : H1 :   0 Đối thiết : H1 :   0 Đối thiết : H1 :    0
Bác bỏ H0 khi: Bác bỏ H0 khi: Bác bỏ H0 khi:
n
   n
1  /2   1   n
 n
    /2

6.4.3 So sánh phương sai tổng thể với một số khi chưa biết trung bình µ.
2 2
1. Giả thiết không H0 :   0 .
2. Giả thiết đối.
Kiểm định hai phía Kiểm định một phía
H1 :  2   02 H1 : 2   02
H1 : 2   02
3. Trị thống kê.
Với

Trị thống kê :  
 n  1 S 2
 02
4. Miền bác bỏ.
Trị thống kê có quy luật phân phối Chi bình phương bậc tự do  n 1 :  ~  n21
Kiểm định 2 phía Kiểm định 1 phía Kiểm định 1 phía

2 2 2 2 2 2
Đối thiết : H1 :   0 Đối thiết : H1 :   0 Đối thiết : H1 :   0
Bác bỏ H0 khi: Bác bỏ H0 khi: Bác bỏ H0 khi:
CHƯƠNG 6 : KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ 103

   1n1 /2   1n1   n1



   n/21

Ví dụ 6.6 Một nhà máy sản xuất tay đòn kim loại dùng trong hệ thống giảm xóc của xe máy, một
mẫu gồm 15 tay đòn được chọn ngẫu nhiên,và được đo đạc đường kính. Kết quả theo đơn vị mm
cho bởi bảng dữ liệu sau:
8.24 8.25 8.2 8.23 8.24
8.21 8.26 8.26 8.2 8.25
8.23 8.23 8.19 8.28 8.24
Biết rằng các báo cáo trước đây khẳng định đường kính của tay đòn do nhà máy sản xuất có giá trị
trung bình là 8,22mm, và độ lệch chuẩn là 0,02mm. Hỏi các báo cáo trước đây về phương sai của
đường kính tay đòn có còn đúng với mức ý nghĩa   5% hay không.
Giải. Mô hình kiểm định có dạng là
1. H0 :  2  0,022 và H1 :  2  0,022

Trong đó  là độ lệch chuẩn của đường kính tay đòn.


n
2
x
i 1
i 
2. Trị thống kê của mô hình: (trường hợp trung bình tổng thể đã biết)   .
 02

Trong đó x i là đường kình của tay đòn thu từ mẫu dữ liệu,   8,22 ,  02  0,022 . Ta có giá trị trị
thống kê:   29,75 .

20 20
3. Phân vị sử dụng : 0,975  9,591 và 0,025  34,170 .
20 20
4. Kết luận: Vì 0,975    0,025 , nên ta kết luận không đủ bằng chứng bác bỏ báo cáo trước
đây về phương sai của đường kính tay đòn do nhà máy này sản xuất.

Ví dụ 6.7 Một xí nghiệp sản xuất xi măng đã xác nhận rằng bê tông được làm từ xi măng của xí

2

nghiệp có sức chịu nén kg / cm khá ổn định theo tiêu chuẩn xây dựng là sức chịu nén dao động
quanh giá trị trung bình với độ lệch 10 kg / cm2 . Khảo sát trên n  10 mẫu bê tông đo tạo ra một
số trung bình và phương sai lần lượt bằng với X  312; S 2  195 . Liệu có đủ bằng chứng bác bỏ sự
xác nhận của nhà máy này không rằng sức chịu nén của bê tông là không ổn định, với mức ý nghĩa
5%.
Giải: Mô hình kiểm định trong trường hợp này có dạng
1. H0 :  2  102 và H1 :  2  102
 n  1 S 2
2. Trị thống kê dùng trong mô hình này là  
 02
Trong đó n  10; 0  10; S  195 , nên trị thống kê   17,55 .
n 1 9
3. Mức ý nghĩa của kiểm định là 5% tương ứng phân vị   0,05  16,919 .
9
4. Kết luận : vì trị thống kê cao hơn phân vị (   0,05 ) nên ta hoàn toàn có thể bác bỏ khẳng
định của nhà máy này về bê tông của họ.
104

6.5 KIỂM ĐỊNH GIẢ THIẾT CHO HAI GIÁ TRỊ TỶ LỆ TỔNG THỂ.

6.5.1 Kiểm định giả thiết so sánh 2 tỷ lệ tổng thể sử dụng phân phối chuẩn.
i. Phân tích.
Xét hai tổng thể và một đặc trưng A , mỗi phần tử trong tổng thể chỉ mang hai tính chất là có tính
chất A hoặc không có tính chất A . Xét trên hai mẫu cụ thể lấy từ mỗi tổng thể, ta cần kiểm định
giả thiết tỷ lệ phần tử có tính chất A trong hai tổng thể này có bằng nhau hay không với mức ý
nghĩa  .
Gọi f1 ; f2 là tỷ lệ phần tử mang đặc trưng A của hai mẫu, (theo chương 5) ta có :
 p 1  p1    p2 1  p2  
f1 ~ N  p1 ; 1  ; f2 ~ N  p2 ; 
 n1   n2 
 p 1  p1  p2 1  p2  
Vậy f1  f2 ~ N  p1  p2 ; 1   , nên ta có
 n1 n2
 
 f1  f2    p1  p2  ~ N 0;1
z  
p1 1  p1  p2 1  p2 

n1 n2
Kết hợp giả thiết H0 : p1  p2 và gọi f là tỷ lệ phần tử mang đặc trưng A của cả hai mẫu dùng để
ước lượng cho p1 và p2 . Ta có
f1  f 2 f1  f2
z  ~ N  0;1
f 1  f  f 1  f  1 1
 f 1  f    
n1 n2  n1 n2 
z là trị thống kê cho mô hình kiểm định giả thiết về sự bằng nhau của 2 tỷ lệ phần tử mang đặc
trưng A trên hai tổng thể.
ii. Mô hình kiểm định.
1. Giả thiết không H0 : p1  p2
2. Giả thiết đối
Kiểm định hai phía Kiểm định một phía
H1 : p1  p2 H1 : p1  p2
H1 : p1  p2
3. Trị thống kê
Với f1 ; f2 : tỷ lệ phần tử mang tính chất A trên mỗi mẫu.
Với f : tỷ lệ phần tử mang tính chất A của 2 mẫu :
n1 f1  n2 f2
f
n1  n2

Trị thống kê : z 
 f1  f2 
1 1
f 1  f    
 n1 n2 
Trong đó f là tỷ lệ phần tử loại A của 2 mẫu lấy trên hai tổng thể.
4. Miền bác bỏ.
Trị thống kê có quy luật phân phối chuẩn : z ~ N  0;1
CHƯƠNG 6 : KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ 105

Kiểm định 2 phía Kiểm định 1 phía Kiểm định 1 phía

Đối thiết : H1 : p1  p2 Đối thiết : H1 : p1  p2 Đối thiết : H1 : p1  p2


Bác bỏ H0 khi: Bác bỏ H0 khi: Bác bỏ H0 khi:
 z   z /2 z   z z  z

 z  z /2

Ví dụ 6.8 Một nguời quản lý bệnh viện nghi ngờ rằng trễ hạn trong việc thanh toán các hóa đơn
viện phí đã gia tăng trong năm vừa qua. Hồ sơ lưu trữ của bệnh viện cho thấy rằng các hóa đơn
của 48 trong số 1284 người nhập viện trong tháng Tư đã trễ hạn trong hơn 90 ngày. Con số này
so với 34 trong số 1002 người nhập viện trong cùng tháng này năm trước đó. Liệu những dữ liệu
này có cung cấp đủ bằng chứng để cho thấy có một sự gia tăng trong tỷ lệ trễ hạn thanh toán vượt
quá 90 ngày không? Hãy kiểm định qua việc sử dụng   0,10 .
Giải: Vì chúng ta muốn kiểm định có một sự gia tăng trong tỷ lệ, nên mô hình kiểm định có dạng
1. H0 : p1  p2 và H0 : p1  p2
(trong đó chỉ số 1 tương trưng số liệu năm cũ và chỉ số 2 chỉ số liệu cho năm nay)

2. Trị thống kê trong mô hình là : z 


 f1  f2 
1 1
f 1  f    
 n1 n2 
34 48 82
Trong đó f1  ; f2  ;f  ; n1  1002; n2  1284 , vậy z  0, 45
1002 1284 2286
3. Với mức ý nghĩa   0,10 ta có z  1,65 ,
4. Kết luận: z   z nên không đủ bằng chứng cung cấp cho việc khẳng định năm nay số
lượng hóa đơn trả chậm gia tăng so với năm ngoái với mức ý nghĩa 10%.

6.5.2 Kiểm định giả thiết so sánh 2 tỷ lệ tổng thể sử dụng phân phối chi bình
phương
i. Phân tích.
Thay vì dùng kiểm định z cho hai tỷ lệ tổng thể thông qua việc so sánh trực tiếp hai giá trị tỷ lệ.
Ta có thể dùng kiểm định  bằng cách sử dụng bảng 2 chiều bai gồm tần số thành công và không
thành công trong hai nhóm :
Biến trên cột
Biến trên hàng Nhóm 1 Nhóm 2 Tổng
Thành công X1 X2 X  X1  X2
Không thành công n1  X 1 n2  X 2 n X
Tổng n1 n2 n  n1  n2
Trong đó
X1 ; X2 : tần số thực tế thành công trong nhóm 1 và 2.
106

n1  X 1 ; n2  X 2 : tần số thực tế không thành công trong nhóm 1 và 2.


n1 ; n2 : cỡ mẫu nhóm 1 và 2.
Mô hình kiểm định : so sánh 2 tỷ lệ thành công.
ii. Mô hình kiểm định
1. Giả thiết : H 0 : p1  p2 (trong đó p1 ; p2 :tỷ lệ thành công trong tổng thể 1 và 2)
2. Đối thiết : H 1 : p1  p2
Cơ sở lý luận của mô hình kiểm định :
Nếu H 0 đúng, thì tỷ lệ thành công trên 2 tổng thể là như nhau, sự khác biệt là sai số tình cờ trên
2 nhóm khảo sát. Vậy để giảm sai số, ta dùng con số chỉ tỷ lệ thành công và không thành công
của 2 nhóm kết hợp lần lượt là:
X  X2 X X
pS  1  và 1  ps  1 
n1  n2 n n
Ta lập bảng tần số lý thuyết trên cơ sở giả thiết H 0 xảy ra
Biến trên cột
Biến trên hàn Nhóm 1 Nhóm 2 Tổng
Thành công n1 pS n2 p s np S
Không thành công n1 1  ps  n2 1  ps  n1 ps 
Tổng n1 n2 n  n1  n2
Đặt Oij : là tần số thực tế trong bảng bảng khảo sát

Đặt Eij : là tần số lý thuyết khi giả thiết H 0 xảy ra


2

3. Trị kiểm định :   2


O
ij  Eij 
~  2;1
Eij
2,1
4. Trị tới hạn : Với mức ý nghĩa  , tra bảng Chi bình phương :  .
Đối thiết H 1 : X ;Y không độc lập với nhau.
2;1
Bác bỏ H 0 khi: G  

Ví dụ 6.9 Một công ty sở hữu hai khu nghỉ dưỡng trên một hòn đảo du lịch đã tiến hành một
cuộc khảo sát sự hài lòng của khách hàng sau khi họ nghỉ tại đây, trong bảng câu hỏi điều tra có
câu hỏi về việc khác hàng có dự định quay lại đây một lần nữa không? Số liệu thu được cho trong
bảng bên dưới. Với mức ý nghĩa 5%, có bằng chứng thống kê nào cho thấy có sự khác biệt trong
mức độ hài lòng của khách hàng (đo bằng ý định họ sẽ quay trở lại) tại hai khu nghỉ dưỡng A và B
hay không.
Khu nghỉ
Dự định quay lại A B Tổng
Có 163 154 317
Không 64 108 172
Tổng 227 262 489
CHƯƠNG 6 : KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ 107

Giả thiết H 0 : p1  p2 ( p1 ; p2 là tỷ lệ khách hàng dự định quay lại khu nghỉ dưỡng A và B)
Đối thiết H 1 : p1  p2
Bảng tần số thực tế
Khu nghỉ
Dự định quay lại A B Tổng
317
Có E 11  163 E12  154 317 ps 
489
172
Không E 21  64 E22  108 172 1  ps 
489
Tổng 227 262 489
Bảng tần số lý thuyết
Khu nghỉ
Dự định quay lại A B Tổng
Có 317 317 317
O11  .227 O12  .262
489 489
Không 172 172 172
O21  .227 O22  .262
489 489
Tổng 227 262 489
2

Trị kiểm định  2  


O ij  Eij 
 9,061
Eij
2,1 2 2,1
Trị tới hạn 0,05  3,84 và vì   0,05 nên bác bỏ giả thiết, chấp nhận đối thiết. Vậy có đủ bằng
chứng để khẳng định tỷ lệ khách muốn quay lại 2 khu nghỉ dưỡng này là khác nhau, mức độ hài
lòng của khách đối với hai khu nghỉ dưỡng là khác nhau.

6.6 KIỂM ĐỊNH GIẢ THIẾT CHO HAI TRUNG BÌNH TỔNG THỂ.

6.6.1 Phân tích.


Cho hai tổng thể định lượng, gọi  1 ;  2 là trung bình của 2 tổng thể. Với hai mẫu dữ liệu lấy trên
hai tổng thể, ta cần kiểm định giả thiết về việc trung bình trên hai tổng thể này có bằng nhau hay
không với mức ý nghĩa  .
Xét hai mẫu với trung bình mẫu, cỡ mẫu lần lượt là X1 ; X2 và n1 ; n2 . Giả sử phương sai trên hai
tổng thể đã có lần lượt là  12 ;  22 , ta có:
 2   2 
X1 ~ N  1 ; 1  ; X 2 ~ N  2 ; 2 
 n1   n2 
 2 2 
Nên suy ra X1  X2 ~ N  1  2 ; 1  2  , kết hợp giả thiết H 0 :  1  2 , đặt:
 n1 n2 

z
X 1 
 X 2   1  2 

X 1  X2  ~ N 0;1
2 2 2 2
 
1 2  
1 2
 
n1 n2 n1 n2
z là trị thống kê trong mô hình kiểm định giả thiết H 0 : 1  2 , khi biết phương sai hai tổng thể.
6.6.2 So sánh hai trung bình tổng thể khi biết phương sai.
108

1.Giả thiết không H 0 :  1  2


2.Giả thiết đối
Kiểm định hai phía Kiểm định một phía
H1 : 1  2 H1 : 1  2
H1 : 1  2
3.Trị thống kê
Với hai mẫu có dữ liệu như sau:
Mẫu Cỡ mẫu Trung bình mẫu Độ lệch chuẩn tổng
thể
I n1 X1 1
II n2 X2 2
X1  X2
Trị thống kê : z 
 12  22

n1 n2
4.Miền bác bỏ
Trị thống kê có quy luật phân phối chuẩn : z ~ N  0,1
Kiểm định 2 phía Kiểm định 1 phía Kiểm định 1 phía

Đối thiết : H1 : 1  2 Đối thiết : H1 : 1  2 Đối thiết : H1 : 1  2


Bác bỏ H 0 khi: Bác bỏ H 0 khi: Bác bỏ H 0 khi:
 z   z /2 z   z z  z

 z  z /2
6.6.3 So sánh hai trung bình tổng thể khi không biết phương sai và cỡ mẫu lớn.
1. Giả thiết không H 0 : 1  2
2. Giả thiết đối
Kiểm định hai phía Kiểm định một phía
H1 : 1  2 H1 : 1  2
H1 : 1  2
3. Trị thống kê
Với hai mẫu có các dữ liệu như sau:
Mẫu Cỡ mẫu Trung bình mẫu Độ lệch chuẩn
I n1  30 X1 S1
II n2  30 X2 S2
X1  X2
Trị thống kê : z 
S 12 S 22

n1 n2
4. Miền bác bỏ
CHƯƠNG 6 : KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ 109

Trị thống kê có phân phối chuẩn : z ~ N  0,1 .


Kiểm định 2 phía Kiểm định 1 phía Kiểm định 1 phía

Đối thiết : H1 : 1  2 Đối thiết : H1 : 1  2 Đối thiết : H1 : 1  2


Bác bỏ H 0 khi: Bác bỏ khi: Bác bỏ H 0 khi:
z   z z  z
 z   z /2

 z  z /2
6.6.4 So sánh hai trung bình tổng thể khi không biết phương sai, phương sai
bằng nhau và cỡ mẫu nhỏ.
1.Giả thiết không H 0 :  1  2
2.Giả thiết đối H 0
Kiểm định hai phía Kiểm định một phía
H1 : 1  2 H1 : 1  2
H1 : 1  2
3.Trị thống kê
Với hai mẫu có các dữ liệu như sau:
Mẫu Cỡ mẫu Trung bình mẫu Độ lệch chuẩn
I n1  30 X1 S1
II n2  30 X2 S2
2 2
 n1  1 S   n2  1 S
1 2
Với S 2 
n1  n2  2
X1  X 2 X1  X 2
Trị thống kê : z  
2 2
S S 1 1
 S2   
n1 n2  n1 n2 
4.Miền bác bỏ
Trường hợp phân vị z ~ t  n1  n2  2 .
Kiểm định 2 phía Kiểm định 1 phía Kiểm định 1 phía

Đối thiết : H1 : 1  2 Đối thiết : H1 : 1  2 Đối thiết : H1 : 1  2

Ví dụ 6.10 Một cửa hàng bán thức ăn nhanh đã cân nhắc sử dụng phiếu giảm giá để kích thích
doanh số bán hàng của mình. Công ty đặc biệt quan tâm đến việc liệu có sự khác biệt giữa những
110

người độc thân so với các cặp vợ chồng đối với việc dùng phiếu giảm giá không. Một cuộc thăm dò
của người tiêu dùng đã yêu cầu họ trả lời câu hỏi "Bạn có sử dụng phiếu giảm giá thường xuyên?"
Theo thang điểm số, trong đó 1 là đồng ý mạnh mẽ, 2 cho đồng ý, 3 cho trung lập, 4 cho không
đồng ý, và 5 cho không đồng ý mạnh mẽ. Kết quả cuộc thăm dò được đưa ra trong bảng sau:
Người độc thân Cặp vợ chồng
n1  31 . n2  57 .
X 1  3,10 X2  2,43
S 1  1, 460 S 2  1,350
Theo dữ liệu thu được, hỏi có sự khác biệt về điểm đánh giá trung bình của hai nhóm người khảo
sát với mức ý nghĩa  5% hay không
Giải. Mô hình kiểm định trong trường hợp này
1. H 0 :  1   2 và H1 : 1  2
Trong đó  1 ;  2 là điểm trung bình của nhóm người độc thân và nhóm các các cặp vợ chồng cho
đối với phiếu giảm giá.
X1  X2
2. Trị thống kê trong mô hình: (Không biết phương sai, cỡ mẫu lớn) z  .
S 12 S 22

n1 n2

Trong đó theo dữ liệu đề bài n1  31 ; n2  57 ; X 1  3,10 ; X2  2,43 ; S 1  1, 460 ; S 2  1,350 . Ta có


giá trị của trị thống kê: z  2,111 .
3. Phân vị sử dụng : Với mức ý nghĩa 5%, ta có: z /2  1,96 .

4. Kết luận: Vì z  z /2 nên bác bỏ giả thiết H 0 , nghĩa là hai nhóm người này có điểm đánh
giá trung bình cho phiếu khuyến mãi là khác nhau.

Ví dụ 6.11 Một công ty hóa chất, quan tâm ảnh hưởng của chất xúc tác ảnh hưởng đến tốc độ
trung bình của một quá trình hóa học. Một thử nghiệm được chạy trong nhà máy thí điểm và kết
quả trong các dữ liệu thể hiện trong bảng sau. Dựa trên dữ liệu, hỏi có sự khác nhau giữa tốc độ
trung bình của quá trình hóa học bị tác động bởi hai chất xúc tác khác nhau hay không với mức ý
nghĩa  5% và phương sai về tốc độ phản ứng tương ứng 2 chất xúc tác giống nhau.
Quá trình 1 2 3 4 5 6 7 8
Chất xúc tác 1 91.5 94.18 92.18 95.39 91.79 89.07 94.72 89.21
Chất xúc tác 2 89.19 90.95 90.46 93.21 97.19 97.04 91.07 92.75
Giải. Mô hình kiểm định trong trường hợp này là:
1. H 0 :  1   2 và H 0 :  1   2 .
Trong đó  1 ;  2 là tốc độ phản ứng trung bình khi cho tương ứng chất xúc tác 1 và 2.
2. Trị thống kê cho mô hình: (cỡ mẫu nhỏ, phương sai chưa biết và bằng nhau)
X  X2 X1  X2
z 1  .
2 2
S S  1 1 
 S2   
n1 n2  n1 n2 
Từ hai mẫu dữ liệu cho ta các kết quả về tốc độ của phản ứng hóa học ảnh hưởng bởi hai chất xúc
tác là:
Cỡ mẫu Trung bình Độ lệch chuẩn
Chất xúc tác 1 8 X1  92,255 S 1  2,39
CHƯƠNG 6 : KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ 111

Chất xúc tác 2 8 X2  92,733 S 2  2,98


Và phương sai chung của hai mẫu là:
 n1  1 S12  n2  1 S22 7.2,392  7.2,982
S2    7,29625 .
n1  n2  2 882
Vậy trị thống kê của mô hình kiểm định là z 0,3539 .
3. Phân vị sử dụng trong mô hình: tn1/2n2 2  t0,025
14
 2.145 .
14
4. Kết luận: Vì z  t0,025 nên không đủ bằng chứng để bác bỏ giả thiết H 0 nghĩa là tốc độ trung
bình của phản ứng hóa học khi tác động bởi 2 chất xúc tác là như nhau.

6.7 KIỂM ĐỊNH GIẢ THIẾT CHO HAI PHƯƠNG SAI TỔNG THỂ

Khi cần có một phương pháp để thực hiện kiểm định 2 tổng thể có biến động cùng mức độ như
nhau hay không (ví dụ tính ổn định của phương pháp sản xuất, cách cho điểm của 2 giảng viên đại
học…) chúng ta dùng phương pháp kiểm định phương sai của hai tổng thể độc lập:
2 2
1. Giả thiết không H0 :1   2 .
2. Giả thiết đối.
Kiểm định hai phía Kiểm định một phía
2 2
H1 :   1 2 H 1 :  12   22
H 1 :  12   22
3. Trị thống kê.
Với S 1 ; S 2 : độ lệch chuẩn của mẫu thứ nhất và mẫu thứ hai với cỡ mẫu lần lượt là n1 ; n2
S12
Trị thống kê : F 
S22
4. Miền bác bỏ.
Trị thống kê có quy luật phân phối Fisher bậc tự do n1 ; n2 : F ~ Fn1 1,n2 1
Kiểm định 2 phía Kiểm định 1 phía Kiểm định 1 phía

Đối thiết : H1 :  12   22 Đối thiết : H1 :  12   22 Đối thiết : H1 :  12   22


Bác bỏ H0 khi: Bác bỏ H0 khi: Bác bỏ H0 khi:
F   1n1 ;n/2
2
  1n1 ;n2   n1 ;n2

F  n1/2;n2

6.8 KIỂM TRA GIẢ THIẾT VỀ SỰ ĐỘC LẬP

6.8.1 Phân tích.


112

Xét một tổng thể trên đó có hai dấu hiệu định tính X ;Y . Giả sử thuộc tính X có k trường hợp là
x1 ; x2 ;...; x k , và thuộc tính Y có m trường hợp là y1 ; y2 ;...; ym . Khảo sát một bộ mẫu gồm n dữ
liệu, bảng tần số tương ứng với từng cặp trường hợp của 2 thuộc tính X ;Y có dạng:

X Y y1 y2 … yj … ym Tổng cột
x1 n11 n12 … n1 j … n1m p1
x2 n21 .. … n2 j … n2m p2
… … … … … … … …
xi ni1 ni 2 … nij … nim pi
… … … … … … … …
xk nk 1 nk 2 ... nkj … nkm pk

Tổng hàng q1 q2 … qj … qm n
m k
Trong đó pi   nij và q j   nij
j 1 i 1

Giả thiết H 0 đặt ra là hai thuộc tính X ;Y là độc lập với nhau. Theo giả thiết đó ta có

 
P  X  xi  Y  y j   P  X  x i  .P Y  y j 

nij
pi q j
Và tương đương với . với mọi i  1, k ; j  1, m .

n n n
Vì thế trị thống kê cho mô hình kiểm định giả thiết H 0 là:
 nij pi q j 
  . 
n n n k m
G  n  ~  2k 1m1
i 1 j 1 pi jq
.
n n
Rút gọn biểu thức G ta có công thức tính trị thống kê:
 k m nij2 
G  n   1 
 i 1 j 1 pi .q j 
 
6.8.2 Kiểm định độc lập của hai bộ dữ liệu định tính.
1. Giả thiết không H 0 : X ;Y độc lập với nhau.
2. Giả thiết đối H1 : X ;Y không độc lập với nhau.
3. Trị thống kê
Với nij : chỉ số phần tử mà thuộc tính X nhận giá trị x i và thuộc tính Y nhận

giá trị y j với i  1, k và j  1, m .


pi : chỉ số phần tử mà thuộc tính X nhận giá trị x i .
q j : chỉ số phần tử mà thuộc tính Y nhận giá trị y j .
 k m nij2 
Trị thống kê : G  n   1
 i 1 j 1 pi .q j 
 
4. Miền bác bỏ
Trị thống kê có quy luật phân phối Chi bình phương, bậc tự do s  k  1 m  1 :
G ~ 2k 1 m1 .
CHƯƠNG 6 : KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ 113

Đối thiết H1 : X ;Y không độc lập với


nhau.
 k 1m1
Bác bỏ H0 khi: G  

Ví dụ 6.12 Một hãng bánh muốn khảo sát về sự ảnh hưởng của màu sắc đối với các loại bánh được
khách hàng chọn mua. Một mẫu gồm 148 chiếc bánh được bán ra có kết quả như sau
Bánh đậu Bánh dừa Bánh thập cẩm
Màu tự nhiên 20 25 18
Phẩm màu 29 43 13
Với mức ý nghĩa   5% , kiểm định bánh được chọn mua có ảnh hưởng bởi màu sắc không.
Bánh đậu Bánh dừa Bánh thập cẩm Tổng cột
Màu tự nhiên 20 25 18 63
Phẩm màu 29 43 13 85
Tổng dòng 49 68 31 148
Mô hình kiểm định
1. H0 : Màu sắc và loại bánh độc lập với nhau.
H1 : Màu sắc và loại bánh phụ thuộc vào nhau.
2. Trị thống kê :
 202 252 182 292 432 132 
G  148         4,0552
 49.63 68.63 31.63 49.85 68.85 31.85 
3. Với mức ý nghĩa 5% ta có phân vị của phân phối Chi bình phương bậc tự do  2  13  1
3
là 0,05  5,991
3
4. Kết luận : Vì G  0,05 nên chấp nhận giả thiết H 0 nghĩa bánh được mua, giữa loại bánh và
màu sắc là độc lập với nhau.
46

CHƯƠNG
13
NGUYÊN LÝ THỐNG KÊ VÀ
CÁC KHÁI NIỆM CƠ BẢN
Mục lục chương 3

3.1 Một số khái niệm dùng trong thống kê ........................................................ 46


3.2 Tổng hợp và trình bày dữ liệu thống kê ....................................................... 52

3.1. Một số khái niệm dùng trong thống kê.

Trong quá trình ứng dụng thống kê để giải quyết các vấn đề, đối với một đối tượng nghiên cứu, vì
những lý do thực tế đôi khi ta không thể thu thập toàn bộ dữ liệu, mà ta chỉ nghiên cứu trên một
phần, một bộ phận của đối tượng. Do đó dữ liệu thống kê được dùng theo hai mục tiêu là thống kê
mô tả và thống kê suy diễn.

Thống kê mô tả: dùng để tóm tắt dữ liệu, mô tả dữ liệu dưới dạng số hay dùng các công cụ đồ họa.
Tóm tắt dưới dạng số thường dùng giá trị trung bình, độ lệch chuẩn, trung vị, yếu vị. Công cụ đồ
họa thường dùng là biểu đồ và đồ thị.

Thống kê suy diễn: dùng để mô hình hóa các kiểu biến thiên của dữ liệu và rút ra các kết luận cho
tổng thể mà ta không có điều kiện để nghiên cứu hết đội tượng mà ta quan tâm. Các kết luận có
thể thiên về ước lượng, kiểm định, dự đoán, mô tả mối liên hệ hay mô hình hóa mối liên hệ. Ngoài
ra còn các kỹ thuật khác mô hình hóa dữ liệu như: phân tích phương sai, dãy số và chuỗi thời gian
và khai thác dữ liệu.

Tổng thể thống kê và đơn vị tổng thể, và mẫu.


Tổng thể thống kê (còn gọi là tổng thể chung) là tập hợp các đơn vị cá biệt (hay phần tử) thuộc
hiện tượng nghiên cứu, cần quan sát, thu thập và phân tích mặt lượng của chúng theo một hay
CHƯƠNG 3 : NGUYÊN LÝ THỐNG KÊ VÀ CÁC KHÁI NIỆM CƠ BẢN 47

một số đặc điểm nào đó. Các đơn vị cá biệt cấu thành nên tổng thể thống kê gọi là đơn vị tổng thể.
Tuỳ mục đích nghiên cứu mà xác định tổng thể và từ tổng thể xác định được đơn vị tổng thể.

 Tổng thể bộc lộ : là tổng thể mà trong đó các đơn vị có thể trực tiếp quan sát. (Ví dụ: tổng
thể sinh viên của một trường đại học, tổng thể các siêu thị, tổng thể các ngân hàng)
 Tổng thể tiềm ẩn : là tổng thể mà các đơn vị không thể trực tiếp quan sát hay nhận biết
(Ví dụ: các hiện tượng kinh tế xã hội, quan điểm về một vấn đề, các hiện tượng tự nhiên)
 Tổng thể đồng nhất và không đồng nhất : (đồng nhất) khi các đơn vị tổng thể có cùng
một hay nhiều đặc điểm liên quan trực tiếp đến mục địch nghiên cứu. (Ví dụ : mục đích
nghiên cứu là tìm hiểu về hiệu quả sử dụng vốn của doanh nghiệp trên một khu vực. Trong
mục đích nghiên cứu đó, doanh nghiệp dệt trong khu vực đó là tổng thể đồng nhất, nhưng
tổng thể tất cả các doanh nghiệp trong khu vực đó là tổng thể không đồng nhất vì mỗi
doanh nghiệp ở những ngành kinh tế khác nhau sẽ có quy mô, tính chất khác nhau dẫn
đến mức độ sử dụng vốn sẽ khác nhau.)
 Tổng thể có thể hữu hạn hoặc vô hạn, phụ thuộc vào thời gian hoặc không gian. Do
đó khi xác định tổng thể ngoài các giới hạn về đặc điểm tổng thể còn cần giới hạn tổng thể
về thời gian và không gian.

Mẫu dữ liệu : Một nhóm các đơn vị tổng thể được chọn một cách ngẫu nhiên, độc lập từ tổng thể
được gọi là mẫu dữ liệu.

Tiêu thức.
Tiêu thức thống kê là các đặc tính (hay đặc điểm thống kê) của đơn vị tổng thể.

Mỗi đơn vị tổng thể có nhiều tiêu thức. Mỗi tiêu thức có thể biểu hiện giống nhau hoặc khác nhau
ở các đơn vị tổng thể. Tiêu thức được phân chia theo các tiêu chuẩn sau:
i. Tiêu thức bất biến và tiêu thức biến động.
 Tiêu thức bất biến biểu hiện giống nhau ở mọi đơn vị tổng thể, căn cứ vào tiêu thức này người
ta tập hợp các đơn vị tổng thể để xây dựng nên tổng thể.
Ví dụ 3.1 Tiêu thức quốc tịch “Việt Nam”xây dựng tổng số dân Việt Nam. Giới tính “nam”, “nữ”
xây dựng tổng thể dân số nữ, dân số nam.
 Tiêu thức biến động là tiêu thức biểu hiện của nó không giống nhau ở các đơn vị tổng thể,
dựa trên sự thay đổi đơn vị t’ổng thể trên tiêu thức này mà giúp phân tích đặc trưng của tổng
thể.
Ví dụ 3.2 Số lượng, độ tuổi, sai số, chất lượng ….
ii. Tiêu thức số lượng và tiêu thức thuộc tính.
 Tiêu thức số lượng là tiêu thức thể hiện trực tiếp bằng con số, đặc trưng đó quan sát được
bằng các biện pháp cân đo đong đếm.
Ví dụ 3.3 Độ tuổi, mức lương, số đo,...
 Tiêu thức thuộc tính là tiêu thức thể hiện không bằng con số, phản ánh loại hoặc chất của
đơn vị.
Ví dụ 3.4 Giới tính, quốc tịch, chất lượng, trình độ ngoại ngữ…
Lượng biến.
Lượng biến là biểu hiện cụ thể về lượng của các đơn vị tổng thể theo tiêu thức số lượng.
Có hai loại lượng biến. Lượng biến rời rạc và lượng biến liên tục.
 Lượng biến rời rạc: là lượng biến mà các giá trị có thể có của nó là hữu hạn hay vô hạn nhưng
có thể đếm được.
Ví dụ 3.5 Số công nhân trong một doanh nghiệp; số sản phẩm sản xuất ra trong một ngày của
một xí nghiệp…..
48

 Lượng biến liên tục: là lượng biến mà các giá trị có thể có của nó được lấp kín cả một khoảng
trên trục số.
Ví dụ 3.6 năng suất cây trồng; chiều cao của trẻ, giá bán của cố phiếu, sai số chi tiết máy,….
Tham số.
Tham số tổng thể là giá trị đặc trưng của tổng thể dùng để mô tả đặc trưng của hiên tượng nghiên
cứu.

Tham số mẫu là tham số dựa trên đặc trưng tổng thể và tính toán trên mẫu số liệu để suy đoán
ngược lại cho tham số tổng thể. (Ví dụ: giá trị trung bình mẫu dùng để ước lượng cho kỳ vọng của
tổng thể, phương sai mẫu dùng để ước lượng cho phương sai của tổng thể…)

Thang đo.
Thang đo là các quy định về giá trị cho dữ liệu thu thập. Có 4 cấp thang đo theo mức độ thông tin
tăng dần: định danh, thứ bậc, khoảng cách và tỷ lệ.
i. Thang đo định danh: (hay còn gọi là thang đo phân loại, định nghĩa - Nominal Scale) là thang
đo sử dụng cho các tiêu thức thuộc tính, dùng các mã số để phân loại các đối tượng. Thang đo dịnh
danh không mang ý nghĩa nào cả mà chỉ để lượng hoá các dữ liệu cần cho nghiên cứu. Người ta
thường dùng các chữ số tự nhiên như 1, 2, 3, 4... để làm mã số.
Ví dụ 3.7 Giới tính của người trả lời : nam (0) , nữ (1).
Ví dụ 3.8 Hệ thống rạp mà bạn hài lòng nhất : Lotte Cinema (1) ; CGV (2) ; Cinemar (3) ; BHD
Star Cineplex (4) ; Cinebox (5).
Ví dụ 3.9 Một cuộc khảo sát về dân số, bạn được hỏi như sau :”vui lòng cho biết tình trạng hôn
nhân của bạn hiện nay”
Độc thân □1
Đang có gia đình □2
Ở góa □3
Ly thân hoặc ly dị □4
Việc tính toán giữa các giá trị này không mang ý nghĩa nào (trung bình, phương sai), một số phép
toán dùng cho thang đo định danh như là: đếm, tần suất, giá trị mode, hoặc các phép kiểm định.

ii. Thang đo thứ bậc: (- Ordinal Scale) là thang đo sự chênh lệch giữa các biểu hiện của tiêu thức
có quan hệ thứ bậc hơn kém. Sự chênh lệch này không nhất thiết phải bằng nhau. Nó được dùng
cho cả tiêu thức thuộc tính và tiêu thức số lượng.
Ví dụ 3.10 Trình độ tay nghề của công nhân theo bậc thợ 1,2,3,4,5. Phân loại giảng viên trong các
trường đại học như Giáo sư, Phó Giáo sư, Giảng viên chính, Giảng viên.
Ví dụ 3.11 Đánh giá mức độ rất hài lòng, hài lòng, không hài lòng và rất không hài lòng. Giữa các
mức độ đánh giá không khó có một sự xác định rõ ràng. Một bảng khảo sát với câu hỏi như sau:
“bạn hài lòng như thế nào về mùi sản phẩm dầu gội X-men mà bạn vừa dùng thử: hài lòng, bình
thường, không hài lòng”. Và điều này không cho ta biết được là mức hài lòng này gấp 2 hay 10 lần
so với mức bình thường, hay không hài lòng.
Ví dụ 3.12 Thu nhập của anh chị hàng tháng
1. < 5 triệu đồng 2. Từ 5 đến 10 triệu 3. Từ 10 đến 15 triệu
4. > 15 triệu đồng.

iii. Thang đo khoảng: (- interval scale) là thang đo thứ bậc có khoảng cách đều nhau. Nó được
dùng cho cả tiêu thức thuộc tính và tiêu thức số lượng. Thang đo khoảng cho phép chúng ta đo
lường một cách chính xác sự khác nhau giữa hai giá trị đơn vị.
CHƯƠNG 3 : NGUYÊN LÝ THỐNG KÊ VÀ CÁC KHÁI NIỆM CƠ BẢN 49

Ví dụ 3.13 Một bảng khảo sát như sau: “theo anh, chị tầm quan trọng của các yếu tố sau đây như
thế nào với cuộc sống của một người (Mức đánh giá từ 1 (không quan trọng) cho đến 7 (rất quan
trọng))”
1. Có nhiều tiền 1 2 3 4 5 6 7
2. Đạt trình độ học vấn cao 1 2 3 4 5 6 7
3. Có địa vị trong xã hội 1 2 3 4 5 6 7
4. Có quan hệ rộng rãi 1 2 3 4 5 6 7
5. Có sức khỏe tốt 1 2 3 4 5 6 7
Ví dụ 3.14 Anh (chị) hãy đánh giá mức độ quan trọng của các yếu tố sau trong một thông tin
quảng cáo trên truyền hình:
Mức độ quan trọng
Yếu tố rất quan khá quan quan trọng khá không rất không
trọng trọng quan trọng quan trọng
Sự ngắn gọn dễ nhớ 1 2 3 4 5
Hình ảnh 1 2 3 4 5
Âm thanh 1 2 3 4 5

Với việc phân ra các định mức rõ ràng thì việc đo lường thái độ hay ý kiến thì thang do khoảng
cung cấp nhiều thông tin hơn so với thang đo thứ bậc. Những phép toán sử dụng trên thang đo
này cũng nhiều hơn so với hai thang đo trước như: tính khoảng biến thiên, số trung bình, độ lệch
chuẩn…
Một điểm cần chú ý trong thang đo khoảng không có điểm 0 tuyệt đối, nên phép toán thực hiện ở
đây chỉ là các phép toán cộng trừ. Nghĩa là tỷ số giữa các giá trị thu thập được không có ý nghĩa,
tuy nhiên các khoảng chênh lệch giữa các giá trị thì có thể lấy tỷ lệ được (Ví dụ: chênh lệch này
gấp đôi chênh lệch kia)
Ví dụ 3.15 Trong thang đo độ bách phân, điểm 0 ( 0 o C ) chỉ là điểm được quy ước, tại đó nước
chuyển sang thể rắn, còn nhiệt độ lại có thể xuống đến các điểm dưới 0. Đặc điểm này dẫn đến việc
so sánh tỷ lệ giữa các trị số đo không có ý nghĩa. Cụ thể là nhiệt độ trung bình của thành phố A là
30o C , thành phố B là 10o C , ta không thể nói thành phố A nóng gấp 3 lần thành phố B.

iv. Thang đo tỷ lệ: (- ration scale) là thang đo có tất cả các đặc tính khoảng cách và thứ tự của
thang đo khoảng, ngoài ra điểm “0” trong thang đo tỷ lệ là một giá trị tuyệt đối (là giá trị gốc trên
thang đo) nên ta có thể thực hiện các phép toán chia để tính tỷ lệ nhằm mục đích so sánh.
Ví dụ 3.16 Thu nhập trung bình của ông A là 5 triệu đồng một tháng, và của ông B là 10 triệu đồng
một tháng, thì ta hoàn toàn có thể nói lương ông B gấp 2 lần lương ông A về ý nghĩa thu nhập.
Thang đo tỷ lệ được sử dụng rất rộng rãi để đo lường các hiện tượng kinh tế - xã hội, như: thu
nhập, chi tiêu, thời gian lao động, tuổi, số con ... Các đơn vị đo lường vật lý thông thường (kg, mét,
lít ..) cũng là các thang đo loại này.
Theo tuần tự, thang đo sau có chất lượng đo lường cao hơn thang đo trước, đồng thời việc xây
dựng thang đo cũng phức tạp hơn. Song không phải cứ sử dụng thang tỷ lệ là tốt nhất, mà phải tuỳ
thuộc vào đặc điểm của hiện tượng và tiêu thức nghiên cứu mà chọn thang đo thích hợp. Hai loại
đầu chưa có tiêu chuẩn đo, thuộc loại thang định tính. Đó là loại thang đo mà khi thay đổi từ giá
trị này sang giá trị khác thì đối tượng đo đã có sự thay đổi về chất, chúng phù hợp với việc đo
lường các tiêu thức thuộc tính. Hai loại sau đã có tiêu chuẩn đo, khi chuyển từ một điểm này sang
điểm khác trên thang thì có sự thay đổi về lượng, nhưng chưa chắc đã có sự thay đổi về chất. Đây
là loại thang đo định lượng, phù hợp để đo lường các tiêu thức số lượng.
Khi dữ liệu đã thu thập xong, chúng ta vẫn có thể chuyển đổi từ dữ liệu định lượng sang dữ liệu
định tính. Nghĩa là chuyển từ thang đo tỷ lệ, khoảng sang thang đo định danh và thang đo thứ bậc.
Nhưng chuyển đổi theo chiều ngược lại thì không thể.
50

Thiết kế thang đo.


Có 2 kỹ thuật thiết kế thang đo cơ bản là:
i. Kỹ thuật tạo thang đo so sánh
Mục đích: Tạo ra những so sánh trực tiếp giữa các đối tượng nghiên cứu. Thường có 4 dạng như
sau:
Thang đo so sánh từng cặp:
Ví dụ 3.17 So sánh mức độ ưa thích giữa 5 nhãn hiệu dầu gội đầu : A, B, C, D, E. Bằng cách tạo ra
những so sánh từng cặp : A-B, A-C, A-D, A-E, B-C, B-D, B-E, C-D, C-E, D-E.
So sánh mức độ quan trọng của các yếu tố nghiên cứu, khi khách hàng muốn mua một chiếc xe
máy, bằng cách tạo ra những so sánh từng cặp giữa các yếu tố: giá - độ bền - kiểu dáng – màu sắc.

Thang đo này đơn giản nhưng chỉ thích hợp trong trường hợp các yếu tố được đưa vào so sánh
từng cặp có số lượng không nhiều và có thể đưa ra ngay sự lựa chọn chính xác. Tuy nhiên những
đánh giá trong so sánh từng cặp này thường không là ý thích tuyệt đối. Đôi khi những giả thiết về
các so sánh bắc cầu sẽ làm sai lệch kết quả.

Thang đo xếp hạng theo thứ tự:


Đưa ra nhiều đối tượng cùng một lần và tạo ra sự xếp hạng thứ tự giữa chúng về một đặc điểm
nào đó. Ví dụ: Hãy xếp hạng theo thứ tự từ 1 đến 5 cho 5 nhãn hiệu dầu gội sau đây về tác dụng
đem lại sự bóng mượt cho tóc (số 1 là tốt nhất, số 5 là xấu nhất)

Người trả lời phải phân biệt sự hơn kém giữa các đối tượng, tốn ít thời gian hơn, dễ trả lời hơn (ở
ví dụ trên, nếu là so sánh cặp thì người trả lời phải có 10 lần xếp hạng theo từng cặp). Tuy nhiên
chỉ có thể áp dụng kỹ thuật này đối với dữ liệu có thể xếp theo thứ tự. Người trả lời thường chú ý
đến những xếp hạng đầu và cuối, hơn là các xếp hạng ở giữa. Nếu người trả lời không có sẵn ý
thích so sánh giữa các đối tượng thì câu trả lời của họ sẽ không có ý nghĩa. Không thể biết được lý
do vì sao người trả lời xếp hạng như vậy.

Thang đo có tổng số điểm cố định:


Người nghiên cứu đưa ra một tổng điểm cố định phù hợp với đặc thù của đối tượng nghiên cứu,
sau đó yêu cầu người trả lời chia tổng điểm này bằng số tuyệt đối hay tương đối cho các đối tượng
được liệt kê sẵn

Ví dụ 3.18 Hãy chia 100% cho sự đánh giá của bạn về tầm quan trọng của các yếu tố sau đây khi
bạn quyết định mua quần áo thể thao cho chơi tenis. Yếu tố nào được bạn đánh giá càng quan
trọng thì bạn cho điểm càng cao, nếu nó hoàn toàn không quan trọng đối với bạn thì bạn hãy cho
điểm 0. Tiện lợi khi mặc …..%, bền ….%, nhãn hiệu nổi tiếng……%, kiểu dáng…..%, giá cả hợp lý….%,
hợp thời trang…..%/. Cộng 100%
Cho phép phân biệt nhanh sự khác biệt giữa các nội dung được đánh giá. Tuy nhiên thang đo không
liệt kê được hết các nội dung của vấn đề đang nghiên cứu (ví dụ ngoài 7 yếu tố trên có thể có
những yếu tố có tầm quan trọng đối với người tiêu dùng nhưng lại không được nêu trong bảng
cho điểm này). Dễ gặp trường hợp người trả lời cho điểm nhiều hơn hay ít hơn tổng điểm cố định.
Dễ gây sự nhầm lẫn và chán nản cho người trả lời khi phải tính toán chia cho hết tổng điểm. Thông
thường chỉ nên liệt kê tối đa là 10 khoản mục.

Kỹ thuật thang đo Q-Sort:


Người nghiên cứu dùng thang đo so sánh để sắp xếp các đối tượng theo thứ tự tăng dần hay giảm
dần về cường độ để đo lường thái độ của người điều tra về một đối tượng nào đó. Để đảm bảo độ
tin cậy khi đo lường, nên hỏi từ 60 đến 90 người (đạt tiêu chuẩn mẫu lớn).

Ví dụ 3.19 Công ty Đồng Tâm có 80 slogan gợi ý từ các chuyên gia, muốn chọn ra 1 slogan, cách
thức tiến hành cho các đối tượng được hỏi như sau:
CHƯƠNG 3 : NGUYÊN LÝ THỐNG KÊ VÀ CÁC KHÁI NIỆM CƠ BẢN 51

Bước 1: dùng thang điểm 5 (rất hay: 5, hay: 4, không ý kiến: 3, không hay : 2, rất không hay: 1)
chọn ra 10 slogan mà bạn cho là rất hay.
Bước 2: từ 70 slogan còn lại, chọn ra 10 slogan mà bạn cho là hay.
Bước 3: từ 60 slogan còn lại, chọn ra 15 slogan mà bạn cho là không hay
Bước 4: từ 45 slogan còn lại, chọn ra 15 slogan mà bạn cho là rất không hay
Bước 5: 30 slogan còn lại là số slogan mà bạn không có ý kiến
ii. Kỹ thuật tạo thang đo không so sánh:
Mục đích: Các đối tượng được đo lường một cách độc lập với nhau. Bao gồm các dạng sau:

Thang đo tỷ lệ liên tục:


Có nghĩa là sử dụng thang đo khoảng để tạo ra các mục lựa chọn, người trả lời sẽ chọn một mục
để đánh dấu vào đó. Số mục là chẵn hay lẻ không có sự sai biệt gì đáng kể. Nếu dùng số lẻ thì người
trả lời hay có xu hướng “trung dung” bằng cách chọn mục ở giữa, còn nếu dùng số chẵn thì người
trả lời sẽ thể hiện nghiêng nhiều hơn về hướng nào.

Ví dụ 3.20 Cho biết ý kiến của bạn về vấn đề….. : Đồng ý □, Không đồng ý □
Bạn ưa thích ngành học của mình ở mức độ nào:
Rất thích □ Khá thích □ Bình thường □ Không thích □ Rất ghét □

Thang điểm Likert:


Đây là một dạng thang đo lường về mức độ đồng ý hay không đồng ý với các mục được đề nghị,
được trình bày dưới dạng một bảng. Trong bảng thường bao gồm 2 phần: Phần nêu nội dung, và
phần nêu những đánh giá theo từng nội dung đó; với thang đo này người trả lời phải biểu thị một
lựa chọn theo những đề nghị được trình bày sẵn trong bảng.

Ví dụ 3.21 Một mẫu thang điểm Likert nghiên cứu đánh giá của khách hàng đối với hoạt động của
1 cửa hàng:
Hoàn toàn Nói chung Không có Không Hoàn toàn
Nội dung nhận định
đồng ý là đồng ý ý kiến đồng ý không đồng ý
Đa dạng về chủng loại hàng 1 2 3 4 5
Đa dạng về mẫu mã cho mỗi
1 2 3 4 5
chủng loại hàng
Trưng bày hàng đẹp 1 2 3 4 5

Thang điểm có hai cực đối lập:


Đây là một thang điểm, được biểu hiện dưới dạng một dãy số liên tục từ 1 đến 5, hay từ 1 đến 7,
hay từ -3 đến +3; trong đó hai cực của thang đo này luôn đối lập nhau về mặt ngữ nghĩa. Dữ liệu
thu được trong thang đo này thường được phân tích dưới dạng điểm trung bình của tất cả mẫu
nghiên cứu theo từng nội dung được hỏi, và kết quả được trình bày dưới dạng biểu đồ để có thể
so sánh trực quan những đánh giá riêng biệt của hai hay nhiều đối tượng nghiên cứu với nhau.

Ví dụ 3.22 Hãy nêu các nhận định của bạn về các mặt sau đây của nhà hàng A. Hãy khoanh tròn
số tương ứng với sự lựa chọn của bạn:
Sạch 1 2 3 4 5 6 7 Bẩn
Rẻ 1 2 3 4 5 6 7 Đắt
Phục vụ nhanh 1 2 3 4 5 6 7 Phục vụ chậm
Ngon 1 2 3 4 5 6 7 Dở
Thang điểm Stapel:
Đây là một thang điểm, được biểu hiện dưới dạng một dãy số liên tục từ dương (+) đến âm (-),
chẳng hạn từ +3 đến -3, +5 đến -5 để đo lường hướng và cường độ của thái độ của người trả lời.
Trong thang đo này chỉ dùng một tính từ duy nhất, thường tương ứng với số 0 nằm ở giữa. Là một
biến tướng của thang điểm có hai cực đối lập.
52

Ví dụ 3.23 Nếu dùng thang điểm Stapel cho nhận định về nhà hàng A thì thiết kế như sau:
+3 +2 +1 0 -1 -2 -3
Sạch □ □ □ □ □ □ □
Rẻ □ □ □ □ □ □ □
Phục vụ nhanh □ □ □ □ □ □ □
Ngon □ □ □ □ □ □ □
Thang đo này tránh khó khăn cho người hỏi khi phải tìm những cặp từ diễn tả các trạng thái đối
nghịch nhau

iii. Các tiêu chuẩn để đánh giá thang đo:


Độ tin cậy: Một thang đo cung cấp những kết quả nhất quán qua những lần đo khác nhau được coi
là đảm bảo độ tin cậy vì nó đã loại trừ được những sai số ngẫu nhiên, đảm bảo chất lượng của dữ
liệu thu thập. Để đánh giá độ tin cậy của thang đo thường dùng 3 cách sau:
 Đo lường lặp lại: dùng 1 cách đo lường cho người trả lời nhưng ở hai thời điểm khác nhau
(thường cách khoảng từ 2 đến 4 tuần) để xem kết quả thu được có tương tự nhau không.
 Đo lường bằng dụng cụ tương đương: Dùng dụng cụ đo lường tương đương đối với cùng một
sự vật để xem kết quả thu được có tương tự nhau không.

Giá trị của thang đo: là khả năng đo lường đúng những gì mà nhà nghiên cứu cần đo. Muốn đảm
bảo gía trị của thang đo, cần xác định đúng các đặc tính cần đo và lựa chọn các cấp độ đo lường
thích hợp.

Giữa độ tin cậy và giá trị của thang đo có mối liên hệ chặt chẽ với nhau: Một thang đo muốn có giá
trị thì phải đảm bảo độ tin cậy tức là loại trừ được sai số ngẫu nhiên. Một thang đo đảm bảo được
độ tin cậy thì chưa hẳn đã có giá trị nếu còn tồn tại sai số hệ thống.

Tính đa dạng của thang đo: Một thang đo phải đáp ứng được nhiều mục đích sử dụng: giải thích
cho kết quả nghiên cứu, từ kết quả thu thập đưa ra những kết luận suy đoán khác.

Tính dễ trả lời: Khi thu thập dữ liệu bằng phương thức phỏng vấn, không được để xảy ra tình
trạng người được hỏi từ chối trả lời vì khó trả lời, hay tình trạng đưa ra những nhận định sai lệch
bản chất do cách đặt câu hỏi không phù hợp

3.2. Thu thập và trình bày dữ liệu thống kê.


Xác định dữ liệu và phương pháp thu thập dữ liệu sơ cấp
Dữ liệu sơ cấp là những dữ liệu chưa có sẵn, được thu thập lần đầu, do chính người nghiên cứu
thu thập. Trong thực tế, khi dữ liệu thứ cấp không đáp ứng được yêu cầu nghiên cứu, hoặc không
tìm được dữ liệu thứ cấp phù hợp thì các nhà nghiên cứu sẽ phải tiến hành thu thập dữ liệu sơ
cấp.

Các dữ liệu sơ cấp sẽ giúp giải quyết cấp bách và kịp thời những vấn đề đặt ra. Dữ liệu sơ cấp là
do trực tiếp thu thập nên độ chính xác cao hơn. Tuy nhiên,dữ liệu sơ cấp phải qua quá trình nghiên
cứu thực tế mới có được, vì vậy việc thu thập dữ liệu sơ cấp thường tốn nhiều thời gian và chi phí.
Vì vậy, các nhà nghiên cứu sẽ phải cân nhắc khi nào sẽ phải thu thập dữ liệu sơ cấp và lựa chọn
phương pháp thu thập hiệu quả để hạn chế nhược điểm này.
1. Xác định vấn đề cần nghiên cứu.
2. Thiết lập kế hoạch nghiên cứu.
3. Tiến hành thu thập dữ liệu.
4. Phân tích dữ liệu thu thập được.
5. Phân bổ các kết quả phân tích.
Các phương pháp thu thập dữ liệu sơ cấp
i. Phương pháp điều tra trực tiếp
CHƯƠNG 3 : NGUYÊN LÝ THỐNG KÊ VÀ CÁC KHÁI NIỆM CƠ BẢN 53

Đây là phương pháp thu thập dữ liệu trực tiếp qua đối tượng nghiên cứu. Phương pháp này được
thực hiện bằng một số hình thức như phỏng vấn trực tiếp, phỏng vấn qua điện thoại, trả lời bảng
câu hỏi...
ii. Phương pháp quan sát
Phương pháp này được áp dụng khi đối tượng nghiên cứu không sẵn sàng cung cấp thông tin, hoặc
cố tình cung cấp thông tin không chính xác.Lúc này, người nghiên cứu sẽ phải dùng các giác quan
hoặc máy móc để quan sát các hành vi, thói quen của đối tượng nghiên cứu trong một khoảng thời
gian cố định. Từ đó phân tích kết quả và có được dữ liệu.
iii. Phương pháp khảo sát trực tuyến
Với sự xuất hiện của Internet, các dữ liệu có thể thu thập được bằng các khảo sát qua thư điện tử
hay các website. Ưu điểm của phương pháp này là thu thập dữ liệu rất nhanh với số lượng lớn,
tiết kiệm chi phí hơn so với phương pháp thu thập truyền thống.
Các kỹ thuật lấy mẫu dữ liệu
i. Kỹ thuật lấy mẫu theo xác suất.
Chọn mẫu ngẫu nhiên (hay chọn mẫu xác suất) là phương pháp chọn mẫu mà khả năng được chọn
vào tổng thể mẫu của tất cả các đơn vị của tổng thể đều như nhau. Đây là phương pháp tốt nhất
để ta có thể chọn ra một mẫu có khả năng đại biểu cho tổng thể. Vì có thể tính được sai số do chọn
mẫu, nhờ đó ta có thể áp dụng được các phương pháp ước lượng thống kê, kiểm định giả thuyết
thống kê trong xử lý dữ liệu để suy rộng kết quả trên mẫu cho tổng thể chung
Tuy nhiên ta khó áp dụng phương pháp này khi không xác định được danh sách cụ thể của tổng
thể chung (ví dụ nghiên cứu trên tổng thể tiềm ẩn); tốn kém nhiều thời gian, chi phí, nhân lực cho
việc thu thập dữ liệu khi đối tượng phân tán trên nhiều địa bàn cách xa nhau,…
ii. Lấy mẫu ngẫu nhiên đơn giản.
Trước tiên lập danh sách các đơn vị của tổng thể chung theo một trật tự nào đó : lập theo vần của
tên, hoặc theo quy mô, hoặc theo địa chỉ…, sau đó đánh số thứ tự các đơn vị trong danh sách; rồi
rút thăm, quay số, dùng bảng số ngẫu nhiên, hoặc dùng máy tính để chọn ra từng đơn vị trong tổng
thể chung vào mẫu.
Thường vận dụng khi các đơn vị của tổng thể chung không phân bố quá rộng về mặt địa lý, các
đơn vị khá đồng đều nhau về đặc điểm đang nghiên cứu. Thường áp dụng trong kiểm tra chất
lượng sản phẩm trong các dây chuyền sản xuất hàng loạt.
iii. Lấy mẫu ngẫu nhiên hệ thống.
Trước tiên lập danh sách các đơn vị của tổng thể chung theo một trật tự quy ước nào đó, sau đó
đánh số thứ tự các đơn vị trong danh sách. Đầu tiên chọn ngẫu nhiên 1 đơn vị trong danh sách ;
sau đó cứ cách đều k đơn vị lại chọn ra 1 đơn vị vào mẫu,…cứ như thế cho đến khi chọn đủ số đơn
vị của mẫu. Ví dụ : Dựa vào danh sách bầu cử tại 1 thành phố, ta có danh sách theo thứ tự vần của
tên chủ hộ, bao gồm 240.000 hộ. Ta muốn chọn ra một mẫu có 2000 hộ. Vậy khoảng cách chọn là :
k= 240000/2000 = 120, có nghĩa là cứ cách 120 hộ thì ta chọn một hộ vào mẫu.
iv. Lấy mẫu cả khối/cụm và lấy mẫu theo giai đoạn.
Trước tiên lập danh sách tổng thể chung theo từng khối (như làng, xã, phường, lượng sản phẩm
sản xuất trong 1 khoảng thời gian…). Sau đó, ta chọn ngẫu nhiên một số khối và điều tra tất cả các
đơn vị trong khối đã chọn. Thường dùng phương pháp này khi không có sẵn danh sách đầy đủ của
các đơn vị trong tổng thể cần nghiên cứu. Ví dụ : Tổng thể chung là sinh viên của một trường đại
học. Khi đó ta sẽ lập danh sách các lớp chứ không lập danh sách sinh viên, sau đó chọn ra các lớp
để điều tra.
v. Lấy mẫu phân tầng.
Trước tiên phân chia tổng thể thành các tổ theo 1 tiêu thức hay nhiều tiêu thức có liên quan đến
mục đích nghiên cứu (như phân tổ các DN theo vùng, theo khu vực, theo loại hình, theo quy mô,…).
Sau đó trong từng tổ, dùng cách chọn mẫu ngẫu nhiên đơn giản hay chọn mẫu hệ thống để chọn
ra các đơn vị của mẫu. Đối với chọn mẫu phân tầng, số đơn vị chọn ra ở mỗi tổ có thể tuân theo tỷ
lệ số đơn vị tổ đó chiếm trong tổng thể, hoặc có thể không tuân theo tỷ lệ. Ví dụ : Một toà soạn báo
muốn tiến hành nghiên cứu trên một mẫu 1000 doanh nghiệp trên cả nước về sự quan tâm của
họ đối với tờ báo nhằm tiếp thị việc đưa thông tin quảng cáo trên báo. Toà soạn có thể căn cứ vào
54

các tiêu thức : vùng địa lý (miền Bắc, miền Trung, miền Nam) ; hình thức sở hữu (quốc doanh,
ngoài quốc doanh, công ty 100% vốn nước ngoài,…) để quyết định cơ cấu của mẫu nghiên cứu.
vi. Chọn mẫu nhiều giai đoạn (multi-stage sampling):
Phương pháp này thường áp dụng đối với tổng thể chung có quy mô quá lớn và địa bàn nghiên
cứu quá rộng. Việc chọn mẫu phải trải qua nhiều giai đoạn (nhiều cấp). Trước tiên phân chia tổng
thể chung thành các đơn vị cấp I, rồi chọn các đơn vị mẫu cấp I. Tiếp đến phân chia mỗi đơn vị
mẫu cấp I thành các đơn vị cấp II, rồi chọn các đơn vị mẫu cấp II…Trong mỗi cấp có thể áp dụng
các cách chọn mẫu ngẫu nhiên đơn giản, chọn mẫu hệ thống, chọn mẫu phân tầng, chọn mẫu cả
khối để chọn ra các đơn vị mẫu. Ví dụ :Muốn chọn ngẫu nhiên 50 hộ từ một thành phố có 10 khu
phố, mỗi khu phố có 50 hộ. Cách tiến hành như sau : Trước tiên đánh số thứ tự các khu phố từ 1
đến 10, chọn ngẫu nhiên trong đó 5 khu phố. Đánh số thứ tự các hộ trong từng khu phố được chọn.
Chọn ngẫu nhiên ra 10 hộ trong mỗi khu phố ta sẽ có đủ mẫu cần thiết.
vii. Kỹ thuật lấy mẫu phi xác suất.
Lấy mẫu thuận tiện
Có nghĩa là lấy mẫu dựa trên sự thuận lợi hay dựa trên tính dễ tiếp cận của đối tượng, ở những
nơi mà nhân viên điều tra có nhiều khả năng gặp được đối tượng. Chẳng hạn nhân viên điều tra
có thể chặn bất cứ người nào mà họ gặp ở trung tâm thương mại, đường phố, cửa hàng,.. để xin
thực hiện cuộc phỏng vấn. Nếu người được phỏng vấn không đồng ý thì họ chuyển sang đối tượng
khác. Lấy mẫu thuận tiện thường được dùng trong nghiên cứu khám phá, để xác định ý nghĩa thực
tiễn của vấn đề nghiên cứu; hoặc để kiểm tra trước bảng câu hỏi nhằm hoàn chỉnh bảng; hoặc khi
muốn ước lượng sơ bộ về vấn đề đang quan tâm mà không muốn mất nhiều thời gian và chi phí.
Lấy mẫu định mức
Là phương pháp mà phỏng vấn viên là người tự đưa ra phán đoán về đối tượng cần chọn vào mẫu.
Như vậy tính đại diện của mẫu phụ thuộc nhiều vào kinh nghiệm và sự hiểu biết của người tổ chức
việc điều tra và cả người đi thu thập dữ liệu. Chẳng hạn, nhân viên phỏng vấn được yêu cầu đến
các trung tâm thương mại chọn các phụ nữ ăn mặc sang trọng để phỏng vấn. Như vậy không có
tiêu chuẩn cụ thể “thế nào là sang trọng” mà hoàn toàn dựa vào phán đoán để chọn ra người cần
phỏng vấn
Lấy mẫu phán đoán
Đối với phương pháp chọn mẫu này, trước tiên ta tiến hành phân tổ tổng thể theo một tiêu thức
nào đó mà ta đang quan tâm, cũng giống như chọn mẫu ngẫu nhiên phân tầng, tuy nhiên sau đó ta
lại dùng phương pháp chọn mẫu thuận tiện hay chọn mẫu phán đoán để chọn các đơn vị trong
từng tổ để tiến hành điều tra. Sự phân bổ số đơn vị cần điều tra cho từng tổ được chia hoàn toàn
theo kinh nghiệm chủ quan của người nghiên cứu. Chẳng hạn nhà nghiên cứu yêu cầu các vấn viên
đi phỏng vấn 800 người có tuổi trên 18 tại 1 thành phố. Nếu áp dụng phương pháp chọn mẫu định
ngạch, ta có thể phân tổ theo giới tính và tuổi như sau:chọn 400 người (200 nam và 200 nữ) có
tuổi từ 18 đến 40, chọn 400 người (200 nam và 200 nữ) có tuổi từ 40 trở lên. Sau đó nhân viên
điều tra có thể chọn những người gần nhà hay thuận lợi cho việc điều tra của họ để dễ nhanh
chóng hoàn thành công việc.
Xác định quy mô mẫu.
i. Mức độ chính xác do việc chọn mẫu mang lại:
Mức độ chính xác do việc chọn mẫu mang lại tỷ lệ thuận với bình phương của quy mô mẫu. Khi
tăng quy mô mẫu lên k lần thì mức độ chính xác sẽ tăng lên k lần.
Ví dụ 3.24 Khi tăng quy mô mẫu từ 500 người lên 1000 người, tức tăng gấp 2 lần thì mức độ chính
xác tăng lên gấp √2 lần, tức là tăng 40%. Còn muốn tăng độ chính xác lên gấp 2 lần thì phải tăng
quy mô mẫu lên gấp 4 lần.
Chú ý: Mức độ chính xác do việc chọn mẫu mang lại khác mức độ chính xác của kết quả điều tra.
Bởi vì mức độ chính xác của kết quả điều tra chịu tác động của nhiều yếu tố như: mức độ chính
xác do việc chọn mẫu mang lại, bảng câu hỏi đã được xây dựng hoàn chỉnh chưa, vấn viên đã làm
đúng quy trình chưa,…
CHƯƠNG 3 : NGUYÊN LÝ THỐNG KÊ VÀ CÁC KHÁI NIỆM CƠ BẢN 55

ii. Sai số do chọn mẫu:


Sai số do chọn mẫu là chênh lệch giữa giá trị tham số thu được trên mẫu và giá trị tham số đó trên
tổng thể chung
iii. Khoảng tin cậy:
Khoảng tin cậy là khoảng giá trị mà dựa vào giá trị tham số trên mẫu, ta ước lượng giá trị tham số
của tổng thể sẽ rơi vào đó
iv. Độ tin cậy:
Là khả năng đúng khi ta ước lượng giá trị tham số của tổng thể nằm trong khoảng tin cậy.
Chú ý: Chỉ có mẫu được chọn theo phương pháp chọn mẫu xác suất, ta mới có thể xác định được
khoảng tin cậy và độ tin cậy.
Phân tổ
Phân tổ thống kê là căn cứ vào một (hay một số) tiêu thức nào đó để tiến hành phân chia các đơn vị
của hiện tượng nghiên cứu thành các tổ có tính chất khác nhau.

Các hiện tượng và quá trình kinh tế xã hội là những tổng thể vô cùng phong phú, phức tạp vì chúng
tồn tại và phát triển dưới các loại hình thức khác nhau. Mỗi loại hình có qui mô và đặc điểm khác
nhau. Do vậy, muốn phản ánh dược đúng bản chất và quy luật phát triển của hiện tượng nghiên
cứu, mà chỉ dựa vào những con số đặc trưng chung thì chưa đủ mà ta phải tìm cách nêu lên cho
được đặc điểm riêng của từng bộ phận cấu thành nên tổng thể, phải đánh giá cho tầm quan trọng
và mối liên hệ tác động qua lại giữa chúng với nhau, để qua đó thấy được đầy đủ đặc điểm chung
của toàn bộ tổng thể nghiên cứu. Do vậy, cần thiết phải phân tổ thống kê. Phân tổ thống kê được
xem là phương pháp cơ bản để tổng hợp thống kê. Đồng thời cũng là một phương pháp quan trọng
của phân tích thống kê.

i. Phân tổ theo tiêu thức thuộc tính


Xác định số tổ theo tiêu thức thuộc tính là do bản chất của hiện tượng nghiên cứu quyết định.
 Trường hợp thuộc tính có ít biểu hiện thì mỗi biểu hiện là một tổ.
Ví dụ 3.25 Giới tính, trình độ chuyên môn, trình độ văn hóa, loại hình doanh nghiệp...
 Trường hợp thuộc tính có nhiều biễu hiện thì ta ghép một số biểu hiện tương tự nhau thành
một tổ
Ví dụ 3.26 Phân tổ dân số theo ngôn ngữ, phân tổ sản phẩm xuất khẩu theo các ngành công nghiệp
ii. Phân tổ theo tiêu thức số lượng
Theo tiêu thức này sự khác nhau giữa các tổ thể hiện về trị số lượng biến, có 2 trường hợp
 Tiêu thức số lượng có ít trị số.
Ví dụ 3.27 phân tổ các hộ gia đình theo nhân khẩu, số con, điểm thi môn học ....
 Tiêu thức số lượng có nhiều trị số
Ví dụ 3.28 Phân tổ theo độ tuổi, phân tổ công nhân trong xí nghiệp theo năng suất lao động, trọng
lượng của một loại gia súc.
 Trong trường hợp này ta phân tổ có khoảng cách tổ, mỗi tổ có giới hạn trên và giới hạn dưới
 Trị số chênh lệch giữa giới hạn trên và giới hạn dưới của mỗi tổ gọi là khoảng
 Tùy theo mục đích cụ thể của phân tổ và đặc điểm biến thiên của lượng biến tiêu thức để quyết
định xem phân tổ có khoảng cách đều hay không đều.
 Khi phân tổ có khoảng cách đều nhau, trị số khoảng cách tổ được xác định (trong trường hợp
chỉ số liên tục)
xmax  xmin
h
k
Trong đó ℎ : Trị số khoảng cách tổ
56

: sổ tổ
: Trị số quan sát lớn nhất.
: Trị số quan sát bé nhất.
Ví dụ 3.29 Bảng số liệu về năng suất lúa (tạ/ha)
Mức năng suất lúa (tạ/ha) Số hộ
36-38 6
38-40 13
49-42 25
42-44 40
44-46 11
46-48 5
Tổng cộng 100
 Khi phân tổ có khoảng cách đều nhau, trị số khoảng cách tổ được xác định (trong trường hợp
chỉ số rời rạc)
xmax  xmin   k  1
h
k
Ví dụ 3.30 Bảng số liệu về tuổi nghề của công nhân một xí nghiệp
Tuổi nghề Số công nhân
5-7 80
8-10 210
11-13 360
14-16 225
17-19 125
Tổng cộng 1000
 Phân tổ mở là phân tổ mà tổ đầu tiên không có giới hạn dưới, tô cuối cùng không có giới hạn
trên, các tổ còn lại có thể có khoảng cách tổ đều hoặc không đều. Mục đích của việc phân tổ
mở là để tổ đầu tiên và tổ cuối cùng chứa các đơn vị có trị số lượng biến đột biến và tránh việc
hình thành quá nhiều tổ.
Ví dụ 3.31 Bảng số liệu về năng suất lúa (tạ/ha)
Mức năng suất lúa (tạ/ha) Số hộ
<35 5
35-40 10
40-45 20
45-50 12
50 3
Tổng cộng 100
iii. Phân tổ liên hệ.
 Giữa các tiêu thức mà thống kê nghiên cứu thường có mối quan hệ với nhau. Mối liên hệ này
thể hiên sự thay đổi trị số tiêu thức này sẽ dẫn đến sự thay đổi của tiêu thức kia theo một qui
luật nhất định.
Mức đầu tư thức ăn Số cơ Mức bình quân tổ Tăng trọng bình quân
(kg/con/ngày) sở (kg/con/ngày) (g/con/ngày)
<1,4 3 1,31 292
1,4-1,6 5 1,52 318
1,6-1,8 4 1,69 334
CHƯƠNG 3 : NGUYÊN LÝ THỐNG KÊ VÀ CÁC KHÁI NIỆM CƠ BẢN 57

1,8-2,0 5 1,90 356


2,0-2,2 6 2,13 369
2,2-2,4 5 2,25 381
2,4 7 2,43 397
Tổng cộng 35 1,97 356
Trình bày dữ liệu thống kê
Số liệu thu thập được được trình bày trên bảng thống kê. Bảng thống kê là một hình thức biểu hiện
các tài liệu thống kê một cách có hệ thống, hợp lý và rõ ràng, nhằm nêu lên các đặc trưng về mặt
lượng của hiện tượng nghiên cứu.

Những yêu cầu đối với việc xây dựng bảng thống kê:
 Quy mô của bảng không nên quá lớn
 Các tiêu đề, tiêu mục cần được ghi chính xác, ngắn gọn và dễ hiểu
 Các hàng, cột thường được ký hiệu bằng chữ hoặc bằng số
 Các chỉ tiêu giải thích trong bảng cần được sắp xếp theo thứ tự hợp lý, phù hợp mục đích
nghiên cứu
 Cách ghi các số liệu vào trong bảng thống kê
 Nếu hiện tượng không có số liệu thì ghi dấu gạch ngang ( - )
 Nếu số liệu còn thiếu, sau này bổ sung thì ghi ký hiệu 3 chấm (…)
 Ký hiệu gạch chéo (x): ô cấm
 Các số liệu trong cùng một cột, có đơn vị tính toán giống nhau phải ghi theo trình độ chính xác
như nhau
 Các số cộng và tổng cộng có thể ghi ở đầu hoặc cuối hàng và cột

Cấu thành bảng thống kê


 Về hình thức
Các hàng ngang, cột dọc: phản ánh quy mô của bảng thống kê
Tiêu đề của bảng: phản ánh nội dung của bảng và của từng chi tiết trong bảng
Tiêu đề chung là tên gọi của bảng, ở phía trên đầu bảng
 Tiêu đề nhỏ (tiêu mục) là tên riêng của mỗi hàng và cột
Các tài liệu con số: được ghi vào các ô của bảng, phản ánh đặc trưng về mặt lượng của hiện tượng
nghiên cứu
 Về nội dung
Phần chủ đề (phần chủ từ): nêu lên tổng thể của hiện tượng nghiên cứu
Cách lập bảng dữ liệu cho dữ liệu định tính.
Trong trường hợp đặc điểm thống kê ta đang nghiên cứu có dữ liệu dạng định tính. Bảng tần số
được lập với các thông tin như sau

 Cột thứ nhất: Liệt kê tất cả các biểu hiện có thể có của đối tượng nghiên cứu.
 Cột thứ hai : là cột tần số, được điền số liệu bằng cách đếm xem có bao nhiêu quan sát có
cùng 1 biểu hiện, kí hiệu tương ứng với biểu hiện thứ k là nk . Tổng của tất cả các tần số
bằng số lượng cỡ mẫu quan sát n .
 Cột thứ ba : là cột tần suất. Tần suất tương ứng với từng biểu hiện được tính bằng cách lấy
giá trị tần số tương ứng chia cho số lượng cỡ mẫu, kí hiệu tương ứng với biểu hiện thứ k
nk
là f k  .100% . Tổng của cột tần suất tương ứng bằng 100% dữ liệu quan sát.
n
Đại lượng thống kê Tần số Tần suất
58

n1
Biểu hiện định tính 1 n1 f1 
n
… … …
nk
Biểu hiện định tính k nk fk 
n
Tổng n 100%
Cách lập bảng dữ liệu cho dữ liệu định lượng.
Trong trường hợp đặc điểm thống kê ta đang nghiên cứu có ít biểu hiện giá trị, thì cấu trúc của
bảng tần số giống cấu trúc của bảng dữ liệu định tính. Cấu trúc gồm dòng là các biểu hiện của
lượng biến và các cột trong bảng gồm : tần số của biểu hiện lượng biến, tần suất tương ứng và tần
suất tích lũy.

Đại lượng thống kê Tần số Tần suất Tần suất tích lũy
1
n1
Biểu hiện lượng biến 1 n1 f1 
N
f i 1
i

… … … …
k
nk
Biểu hiện lượng biến k nk fk 
N
 f  100%
i 1
i

Tổng N 100%
Trong trường hợp đặc điểm thống kê ta đang nghiên cứu có nhiều biểu hiện giá trị. Thì trước khi
tiến hành lập bảng tần số cho dữ liệu ta tiến hành phân tổ cho lượng biến, thì khi đó bảng tần số
thu được tương ứng với các tổ dữ liệu sẽ hoàn toàn giống với hai trường hợp trên.

Bảng tần số kết hợp hai biến.


Trong trường hợp bảng tần số mô tả đặc điểm của mẫu nghiên cứu theo một biến dưới sự phân
tách của một biến khác. Cấu trúc bảng có dạng như sau :
Biến thứ nhất
Thông tin mẫu điều
Tổ (1) .. Tổ (m)
tra
Tần số Tần suất … Tần số Tần suất
n11 n1m
Tổ (1) n11 f11  … n1m f1 m 
N1 Nm
Biến thứ
… … … … … …
hai
nn1 nnm
Tổ (n) nn1 f n1  … nnm fnm 
N1 Nm
Tổng cột N1 100% … Nm 100%

2001 2002 2003

Ví dụ: Số
Cơ cấu Số lượng Cơ cấu Số lượng Cơ cấu
lượng
(%) (Người) (%) (Người) (%)
(Người)
Tổng số 1000 100,0 1140 100,0 1310s 100,0
Tiểu học 500 50,0 600 53,0 700 53,5
Trung học cơ sở 300 30,0 320 28,0 360 27,5
Trung học phổ thông 200 20,0 220 19,0 250 19,0
Trong trường hợp có nhiều hơn hai biến thì ta nhóm dòng theo từng nhóm biến.
CHƯƠNG 3 : NGUYÊN LÝ THỐNG KÊ VÀ CÁC KHÁI NIỆM CƠ BẢN 59

Đồ thị, biểu đồ thống kê


Đồ thị thống kê là các hình vẽ hoặc đường nét hình học dùng để miêu tả có tính chất quy ước các
tài liệu thống kê:
Đặc điểm
 Sử dụng con số kết hợp với hình vẽ, đường nét và màu sắc
 Trình bày một cách khái quát đặc điểm về bản chất và xu hướng phát triển
 Có tính quần chúng, có sức hấp dẫn và sinh động.
Một số dạng biểu đồ khoa học dùng trong thống kê và dùng trong môn học và một số dạng của đồ
thị dùng trong báo cáo khoa học.
60

CHƯƠNG 44
TÓM TẮT DỮ LIỆU BẰNG
ĐẠI LƯỢNG SỐ
Mục lục chương 4
4.1 Các đại lượng đo lường mức độ tập trung của dữ liệu. ............................................... 60
4.2 Các hệ số đo lường mức độ phân tán ....................................................................... 68
4.3 Các hệ số đo vị trí tương đối của dữ liệu ................................................................... 72
4.4 Các hệ số tương quan của các bộ dữ liệu .................................................................. 75
4.5 Các hệ số đo hình dạng của quy luật phân phối ......................................................... 79

Tóm tắt dữ liệu bằng đại lượng số là một trong ba kỹ thuật trong thống kê mô tả, các tham số đặc
trưng của bộ dữ liệu thực nghiệm là những tham số dùng để phản ánh trực tiếp quy mô và cấu
trúc của số liệu. Cùng với các phân tích đồ họa, các đại lượng số đặc trưng của bộ dữ liệu tạo nền
tảng của mọi phân tích định lượng về số liệu, giúp hiểu rõ hiện tượng và ra các quyết định đúng
đắn liên quan đến dữ liệu.

4.1. Các đại lượng đo lường mức độ tập trung của dữ liệu.
Các đại lượng đo lường mức độ tập trung là các tham số tính toán mức độ bình quân và phổ biến
của số liệu. Các đặc trưng này được sử dụng phổ biến trong thống kê để nêu lên đặc điểm chung
nhất, phổ biến nhất của hiện tượng kinh tế - xã hội trong các điều kiện cụ thể. Ngoài ra còn dùng
để so sánh đặc điểm của các hiện tượng không có cùng quy mô hay dùng làm căn cứ để đánh giá
trình độ đồng đều của các đơn vị tổng thể.

4.1.1 Số trung bình số học.


i. Trung bình số học
Số trung bình số học hay là trung bình cộng được xác định bằng cách lấy tổng tất cả các lượng biến
và chia cho số lượng biến của đơn vị khảo sát. Về mặt ý nghĩa thì trung bình số học là số mà có
tổng bình phương độ lệch với tất cả các lượng biến đạt giá trị nhỏ nhất.
 Trung bình tổng thể (kỳ vọng):
N

x
i 1
i

N
Trong đó  : trung bình tổng thể.
x i : lượng biến thứ i.
N : tổng số liệu của tổng thể.
 Trung bình mẫu :
CHƯƠNG 4 : TÓM TẮT DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ 61

x
i 1
i
X
n
Trong đó X : trung bình mẫu.
xi : lượng biến thứ i.
n : tổng số liệu của tổng mẫu.
ii. Trung bình số học có trọng số
Trường hợp lượng biến có trọng số (tần số) thì giá trị trung bình thu gọn theo công thức có trọng
số như sau:
Xi x1 x2 …. x k 1 xk
ni n1 n2 …. nk 1 nk
k

x n
i 1
i i
X k

n
i 1
i

Trong đó X : trung bình mẫu.


x i : lượng biến thứ i.
ni : trọng số của lượng biến thứ i

Ý nghĩa của giá trị trung bình : Trên một thanh đòn có quy định vị trí, tại các vị trí x i trên thanh

đòn đặt các quả cân có trọng lượng ni . Giá trị trung bình X là vị trí trên thanh đòn mà tại đó thanh
đòn sẽ đạt trạng thái cân bằng như hình vẽ.

n2 nk
nk 1
n1
n3
X

Hình 4.1 : Ý nghĩa hình học giá trị trung bình.


Trường hợp dữ liệu có giá trị lượng biến liên tục, biểu diễn thông qua bảng dữ liệu dạng khoảng .

Xi  x1 ; x2   x2 ; x3  ….  xk1 ; xk   xk ; xk 1 
ni n1 n2 …. nk 1 nk
k

 n
i 1
i i
X k

n
i 1
i

Trong đó X : trung bình mẫu.


xi  xi 1
i : trung bình khoảng . i 
2
62

ni : trọng số của khoảng thứ i


iii. Quy luật phân phối của trung bình mẫu.
Giả sử tổng thể X có quy luật phân phối chuẩn với X ~ N ;  2  , trên tổng thể này ta thu thập

một mẫu dữ liệu cỡ mẫu n gồm  X 1 ; X 2 ;,...; X n  , thì ta có đại lượng trung bình mẫu X cũng tuân
theo quy luật phân phối chuẩn với
 2 
X ~ N ; 
 n 

Lưu ý. Khi cỡ mẫu lớn n  30 trung bình mẫu của tổng thể bất kỳ có khuynh hướng xấp xỉ bởi
một phân phối chuẩn.

Ví dụ 4.1 Giám đốc nhân sự của công ty xây dựng hồ sơ của 2500 của nhân viên để báo
cáo ban giám đốc. Trong mục báo cáo về tiền lương hằng năm của nhân viên cho thông tin
Trung bình tổng thể tiền lương hằng năm của nhân viên là   51800 USD.
Độ lệch chuẩn tổng thể tiền lương hằng năm của nhân viên là   4000 USD.
Giả sử bây giờ cơ sở dữ liệu chi tiết của 2500 nhân viên chưa được cập nhật, nên thay vào
đó giám đốc nhân sự dùng dữ liệu của 30 nhân viên để báo cáo thay tổng thể. Câu hỏi là
nếu sai số trung bình mẫu tiền lương hằng năm nhân viên so với tổng thể không quá
500USD có xác suất là bao nhiêu?
Giải. Theo quy luật phân phối của trung bình mẫu, với n  30 ta có
    4000 
X ~ N ;   N  51800 ; 
 n  30 
   
   500       500   
  
Ta có P X    500  P   500  X    500   

 
  
  


   
 n   n 
   
 500   500 
       2 0,68   2  0,2517  50,34%
 4000   4000 
   
 30   30 
Như vậy với một mẫu n  30 , cho xác suất về mức chênh lệch giữa trung bình mẫu tiền
lương hằng năm so với tổng thể không quá 500USD là 50,34%. Nên nếu muốn xác suất
này tăng cao hơn, giám đốc nhân sự nên suy nghĩ về việc sử dụng một mẫu dữ liệu với cỡ
mẫu lơn hơn.

4.1.2 Số trung bình điều hòa.


Trung bình điều hòa được dùng khi lượng biến quan quan sát có trọng số nhưng ta lại không biết
trọng số của từng loại lượng biến mà chỉ biết tổng của từng nhóm lượng biến cùng giá trị.
k

M
i 1
i
X k
Mi
x
i 1 i

Trong đó xi : lượng biến thứ i.


CHƯƠNG 4 : TÓM TẮT DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ 63

Mi  xi n i : tổng tất cả lượng biến có cùng giá trị xi

4.1.3 Số trung nhân.


Trường hợp lượng biến quan sát không cùng gốc so sánh, mà lượng biến sau thay đổi phụ thuộc
vào lượng biến trước, thì trung bình giữa các lượng biến được tính theo công thức trung bình
nhân.

X  n x1 x2 ...xn
Trong đó X : trung bình nhân.
xi : lượng biến thứ i.
Giá trị trung bình nhân là một công cụ quan trọng trong tính toán hiệu quả hoạt động kinh tế bởi
sự ảnh hưởng của hệ số nhân gộp của các giá trị qua các thời kỳ, trong việc đo tốc độ phát triển
kinh tế được gọi là tốc độ tăng trưởng gộp hay tỉ suất lợi nhuận theo thời gian.
Ví dụ 4.2 Một người đem $100 đi đầu tư và nhận được mức lợi nhuận như sau:
Năm 1 Năm 2 Năm 3 Năm 4 Năm 5
3% 5% 8% -1% 10%
Vậy số tiền tăng trưởng mỗi năm sẽ là:
Năm 1: $100  1.03  $103.00
Năm 2: $103  1.05  $108.15
Năm 3: $108.15  1.08  $116.80
Năm 4: $116.80  0.99  $115.63
Năm 5: $115.63  1.10  $127.20
Giá trị trung bình nhân hay tỉ suất lợi nhuận là:
5
1.03  1.05  1.08  .99  1.10  1  4.93%.
Tỉ suất lợi nhuận hàng năm là 4.93%, gần bằng là 5% là giá trị được tính bằng phương pháp cộng.
Trong ví dụ trên lợi nhuận không thay đổi đáng kể qua từng năm nên trung bình cộng và trung
bình nhân gần bằng nhau. Tuy nhiên, nếu danh mục đầu tư của bạn có mức lợi nhuận thay đổi
đáng kể qua các năm thì sự chênh lệch giữa hai phương pháp là khá lớn.

Ví dụ 4.3 Một nhà đầu tư nắm giữ một mã cổ phiếu biến động mạnh. Trong lần đầu tiên ông ta
đã đầu tư $100, giá tăng rất mạnh nhưng sau đó có một đợt giảm nhanh. Mức lợi nhuận đem lại
như sau:
Năm 1 Năm 2 Năm 3 Năm 4
10% 150% -30% 10%
 10  150  30  10 
Trong ví dụ trên giá trị trung bình cộng là    35%
 4 
Tuy nhiên giá trị đúng là:
Năm 1: $100  1.10  $110.00
Năm 2: $110  2.5  $275.00
Năm 3: $275  0.7  $192.50
Năm 4: $192.50  1.10  $211.75
Giá trị trung bình nhân hay tốc độ tăng trưởng là 20.6%, nhỏ hơn rất nhiều so với 35% được tính
bằng phương pháp cộng.
64

4.1.4 Yếu vị (Mod).


Yếu vị là biểu hiện của một lượng biến được gặp nhiều nhất trong tổng thể. Nếu xác định trên đồ
thị với trục tung là tần số, trục hoành là lượng biến thì ta có thể nói yếu vị là hoành độ của điểm
có tung độ cao nhất.
i. Trường hợp lượng biến rời rạc:
X x1 x2 … xk
n n1 n2 … nk
Mod  xi sao cho ni  Max n1 ; n2 ;...; nk 
ii. Trường hợp lượng biến liên tục
Khảo sát giá trị lượng biến trên việc phân tổ giá trị ta có bảng số liệu có dạng
X  x1 ; x 2   x2 ; x3  …  x k ; x k 1 
n n1 n2 … nk

Việc xác định giá trị Mod qua hai bước:

 Bước 1 : Xác định tổ chứa Mod


o Trường hợp số liệu phân tổ có khoảng cách bằng nhau.
Tổ chứa Mod là tổ có tần số lớn nhất.
o Trường hợp số liệu phân tổ có khoảng cách không bằng nhau.
ni
Tổ chứa Mod là tổ có mật độ lớn nhất, với mật độ tổ cho bởi Mi  , trong đó: ni là
hi
tần số của tổ thứ i và hi là chiều dài của tổ thứ i
 Bước 2 : Xác định giá trị Mod trong tổ:
MMo  MMo1
ModX  X Mo Min  hMo
 MMo  MMo1    MMo  MMo1 
Trong đó X Mo Min : cận dưới của tổ chứa Mod.

hMo : chiều dài của tổ chứa Mod.


MMo : mật độ tổ chứa Mod.
MMo1 : mật độ tổ trước tổ chứa Mod.
MMo1 : mật độ tổ sau tổ chứa Mod.
Chú ý : Công thức này có thể dùng trong cả hai trường hợp đối với phân tổ đều và không đều,
nhưng trong trường hợp phân tổ đều ta có thể thay mật độ tổ bằng tần số tổ để công thức đơn
giản hơn.

Ví dụ 4.4 Có tài liệu về doanh thu của 79 cửa hàng trong tháng 10 năm 2009 như bảng dưới. Xác
định Mod của dữ liệu.
Doanh thu Cửa hàng Khoảng ni
Mật độ phân phối Mi 
(triệu đồng) ( ni ) cách tổ hi
200 – 400 8 200 0,04
400 – 500 12 100 0,12
500 – 600 25 100 0,25
CHƯƠNG 4 : TÓM TẮT DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ 65

600 – 800 25 200 0,125


800 – 1000 9 200 0,045
Tổng 79
Tổ 3 là tổ chứa mốt. Vì đây là trường hợp phân tổ không đều nên dùng mật độ tổ để tìm mốt
MMo  MMo1
ModX  X Mo Min   hMo
 MMo  MMo1    MMo  MMo1 
0,25  0,12
 500  100  550,980
0,25  0,12  0,25  0,125
4.1.5 Số trung vị (Median)
Số trung vị là lượng biến của đơn vị tổng thể đứng ở vị trí giữa trong dãy số lượng biến đã được
sắp xếp theo thứ tự tăng dần. Số trung vị phân chia dãy số lượng biến làm hai phần (phần trên và
phần dưới số trung vị) mỗi phần có số đơn vị tổng thể bằng nhau.
i. Trường hợp lượng biến rời rạc.
Khi lượng biến rời rạc ta sắp xếp giá trị lượng biến theo thứ tự tăng dần và đánh chỉ số cho
lượng biến.

 Trường hợp tổng số quan sát là số lẻ ( n lẻ) : Me  x n 1


2

x n/2  x n2/2
 Trường hợp tổng số quan sát là số chẵn ( n chẵn) : Me 
2
ii. Trường hợp lượng biến liên tục.
Khảo sát giá trị lượng biến trên việc phân tổ giá trị ta có bảng số liệu có dạng

X  x1 ; x 2   x2 ; x3  …  x k ; x k 1 
n n1 n2 … nk
Việc xác định giá trị trung vị qua hai bước
 Bước 1: xác định tổ chứ trung vị.

Tổ chứ trung vị là tổ chứa giá trị n /2 trong trường hợp tổng số quan sát là chẵn hoặc là tổ
chứa giá trị  n  1  / 2 nếu tổng số quan sát là số lẻ.
 Bước 2: xác định giá trị trung vị trong tổ.
hMe  S 
Me  X Me Min   S Me 1 
nMe  2 

Trong đó X Me Min : Cận dưới tổ chứa trung vị.

hMe : chiều dài tổ chứa trung vị.


nMe : tần số tổ chứ trung vị.
S : tổng số lượng quan sát.
S Me1 : tổng tần số tất cả các tổ cho tới tổ trước tổ chứ trung vị.

Ví dụ 4.5 Có tài liệu về doanh thu của 79 cửa hàng trong tháng 10 năm 2009 như bảng dưới. Xác
định trung vị của dữ liệu.
Doanh thu (triệu đồng) Cửa hàng ( ni ) Tần số cộng dồn
200 – 400 8 8
66

400 – 500 12 20
500 – 600 25 45
600 – 800 25 70
800 – 1000 9 79
Tổng 79
Tổ 3 là tổ chứa trung vị. Ta có trung vị của dữ liệu
hMe  S  100  79 
MeX  X Me Min    S Me1   500    20   578
nMe  2  25  2 

Ví dụ 4.6 Có tài liệu tổng hợp về doanh số bán của 50 trạm xăng dầu thuộc tỉnh X trong tháng
10/2018 như sau:
Doanh số bán (triệu đồng) Số trạm
200 – 300 8
300 – 400 10
400 – 500 20
500 – 600 7
600 – 700 5
Tổng 50
Xác định trung bình, trung vị và mốt của tập số liệu trên.
Giải. Ta lập bảng:
Doanh số bán (triệu đồng) Trị trung bình tổ Số trạm
200 – 300 250 8
300 – 400 350 10
400 – 500 450 20
500 – 600 550 7
600 – 700 650 5
Tổng 50
 Trung bình:
k

x n
i 1
i i
250  8  350  10  450  20  550  7  650  5
X k
  432
50
n
i 1
i

 Trung vị: Tổ 3 là tổ chứa trung vị


hMe  S  100  50 
Me  X Me Min    S Me1   400    18   435
nMe  2  20  2 
 Yếu vị: Tổ 3 là tổ chứa mốt
Vì đây là trường hợp phân tổ đều nên dùng tần số tổ để tính mốt
MMo  MMo1 20  10
ModX  X Mo Min  hMo  400  100  443,4783
 MMo  MMo1    MMo  MMo1  20  10  20  7

iii. So sánh trung bình (Mean), trung vị (Median), yếu vị (Mod)


Trung bình lẫn trung vị đều là hai thước đo tốt đối với trung tâm của một bộ số liệu, nhưng trung
vị phản ánh mức độ tập trung đo lường mạnh hơn vì không bị ảnh hưởng bởi biến động của số
liệu, nhưng trung vị lại không phản ánh được sự thay đổi của số liệu. Yếu vị rất hữu ích đối với dữ
liệu có kiểu dữ liệu phân loại (nominal), đối với các dữ liệu có kiểu phân loại ta không thể dùng
trung bình hay trung vị vì nó không có ý nghĩa gì mà ta phải dùng yếu vị.
CHƯƠNG 4 : TÓM TẮT DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ 67

Nếu phân phối của một bộ dữ liệu đối xứng qua


trung bình của nó − nghı̃a là hai nửa bên trái và bên
phải là những hình ảnh phản chiếu − thì số trung
bình và số trung vị bằng nhau [Hình 4.2].

Hình 4.2 :Phân phối dữ liệu đối xứng


Nếu phân phối không đối xứng và có những quan sát
thái cực nằm ở đuôi bên phải của phân phối này, thì
phân phối này được gọi là bị lệch xiên về bên phải
[Hình 4.3]. Bởi vì những giá trị thái cực lớn ở đuôi
trên của phân phối này làm tăng tổng số của các giá
trị đo lường, nên số trung bình chuyển dịch sang
phải. Số trung vị không bị ảnh hưởng bởi những giá Hình 4.3 :Phân phối dữ liệu lệch trái
trị thái cực này, bởi vì giá trị tần số của các giá trị đo
lường không được sử dụng trong việc tính toán số
trung vị.
Tương tự, nếu một phân phối bị lệch xiên về bên trái,
thì số trung bình chuyển dịch sang trái [Hình 4.4].

Hình 4.4 :Phân phối dữ liệu lệch phải

Ví dụ 4.7 Giả sử rằng bạn chạy 100m trong sáu lần, mỗi lần chạy bạn dùng đồng hồ đo lại thời
gian chạy (giây) và kết quả 6 lần chạy của bạn gồm sáu giá trị như sau
x  25.1; 21.2; 17.9; 23.0; 24.6; 19.5 . Phân tích các đặc trưng ta có:
 Thời gian chạy trung bình (mean) là 21.9 giây
 Giá trị trung vị (median) là 22.1 giâyThời gian chạy nhiều nhất (maximum) là 25.1 giây và ít
nhất (minimum) là 17.9 giây.
Giả sử sau khi chạy hết 6 lần, bạn chạy tiếp lần thứ 7. Lần này đột nhiên chân bạn bị đau và bạn đi
bộ thay vì chạy, kết quả thời gian của lần này là 79.9 giây. Bạn cố gắng thử thêm lần nữa và kết
quả vẫn 79.9 giây. Ta có số liệu về 8 lần chạy như sau:
x  25.1; 21.2; 17.9; 23.0; 24.6; 19.5; 79.9; 79.9
Các giá trị Mean, Median và Mode so sánh giữa 2 bộ dữ liệu như sau:

Bộ 6 dữ liệu Bộ 8 dữ liệu
Mean 21.9 giây 36.4 giây
Median 22.1 giây 23.8 giây
Mode 79.9 giây
Đối với 6 lần chạy đầu tiên thì thời gian chạy ổn định, còn 2 lần sau có sự khác biệt rất lớn so với
6 lần chạy ban đầu (2 giá trị này được xem là bất thường của dữ liệu). Nếu bạn không bị đau thì
thời gian chạy dao động quanh Median. Theo bảng trên ta thấy rằng 2 số liệu sau không ảnh hưởng
nhiều đến Median (từ 22.1 lên 23.8) nhưng ảnh hưởng rất lớn đến Mean (từ 21.9 lên 36.4) và
Mode. Mặc dù Median có khả năng đo lường xu hướng tập trung của dữ liệu mạnh hơn Mean vì
Median không bị ảnh hưởng bởi các dữ liệu bất thường nhưng nhiều người vẫn thích sử dụng
68

Mean để đo lường xu hướng tập trung của dữ liệu vì dễ tính hơn và không cần phải sắp xếp dữ
liệu như Median.

Ví dụ 4.8 Nếu dữ liệu mô tả giới tính là nominal và 1 là nam, 0 là nữ thì Mean hay Median là 0.5
không có ý nghĩa gì. Trong khi đó Mode cho biết tần suất nam hay nữ xuất hiện nhiều nhất trong
bộ dữ liệu khảo sát.

4.2. Các khuynh hướng đo độ phân tán.


Một khi chúng ta đã xác định giá trị trung tâm và bình quân của một phân phối dữ liệu, bước tiếp
theo là cung cấp các thước đo về độ biến thiên, hay độ phân tán của dữ liệu. Gồm có khoảng biến
thiên, độ lệch tuyệt đối trung bình, phương sai, độ lệch chuẩn và hệ số biến thiên.

Độ biến thiên của dữ liệu dùng để đánh giá mức độ đại diện của của số bình quân đối với tổng thể
nghiên cứu, nghĩa là độ biến thiên của dữ liệu càng lớn thì mức đại diện của bình quân cho tổng
thể càng thấp và ngược lại. Độ biến thiên của dữ liệu trong dãy lượng biến sẽ cho thấy nhiều đặc
trưng về phân phối của tổng thể hơn so với các giá trị trung tâm và bình quân, giúp ích nhiều trong
việc điều tra chọn mẫu, chỉ ra mối quan hệ giữa các điều kiện khảo sát số liệu và dự đoán thống
kê.
Hãy xét hai phân phối được trình bày trong hai hình dưới. Cả hai phân phối đều được đặt ở vị trí
có trung tâm tại X  4 , nhưng có sự khác biệt lớn về độ biến thiên của những giá trị đo lường
xung quanh số trung bình đối với hai phân phối này. Các giá trị đo lường trong hình thứ nhất thay
đổi xấp xỉ từ 3 đến 5; trong hình thứ hai, các giá trị đo lường thay đổi từ 0 đến 8.
Sự biến thiên là một đặc trưng quan trọng của dữ liệu. Nhưng việc dữ liệu phân tán giá trị rộng
hay hẹp và quyết định về điều đó còn tùy thuộc vào đặc điểm của dữ liệu đang xét.

Hình 4.5 : Phân phối dữ liệu với độ lệch chuẩn khác nhau.
Ví dụ 4.9 Giả sử chúng ta đang chế tạo bu-lông, thì sự biến thiên quá mức trong đường kính của
bu-lông sẽ kéo theo một tỷ lệ phần trăm cao của sản phẩm có khiếm khuyết. Mặt khác, khi chúng
ta sử dụng một bài kiểm tra để phân biệt giữa những kế toán viên giỏi và kém, thì chúng ta sẽ
không vui nhất nếu bài kiểm tra này lúc nào cũng mang lại những điểm kiểm tra với ít biến thiên,
bởi vì điều này sẽ làm cho việc phân biệt trở nên rất khó khăn.

4.2.1 Khoảng biến thiên.


Khoảng biến thiên là độ dài khoảng giá trị mà lượng biến tối đa và tối thiều có thể nhận được.
R  X Max  X Min

Trong đó R : khoảng biến thiên.


X Max : lượng biến tối đa.
CHƯƠNG 4 : TÓM TẮT DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ 69

X Min : lượng biến tối thiểu.

4.2.2 Độ lệch tuyệt đối trung bình.


Độ lệch tuyệt đối bình quân là mức chênh lệch bình quân giữa các lượng biến và số bình quân cộng
của các lượng biến đó.
n

x
i 1
i X
d
n

Trong đó d : độ lệch tuyệt đối trung bình.


X : trung bình cộng lượng biến.

Ưu điểm: Công thức độ lệch tuyệt đối trung bình cho chỉ chính xác giá trị lệch trung bình giữa
lượng biến và trung bình lượng biến, trong trường hợp bảng số liệu thực tế công thức dễ tính toán.
Nhược điểm: Công thức tính phụ thuộc vào dấu giá trị tuyệt đối, nên trong trường hợp khảo sát
về mặt lý thuyết thì công thức không thể áp dụng và mở rộng.

4.2.3 Phương sai , độ lệch chuẩn.


Phương sai là bình quân cộng của bình phương các độ lệch giữa lượng biến với số bình quân của
hiện tượng đó. Thước đo này sẽ tương đối lớn đối với dữ liệu biến thiên nhiều và tương đối nhỏ
đối với dữ liệu biến thiên ít.

i. Phương sai tổng thể.


Phương sai tính trên toàn bộ số liệu tổng thể là phương sai tổng thể.
 Công thức phương sai theo xác suất:

 2

 2  E  X  EX   E  X 2    EX 
2

 Công thức phương sai theo tần số:

1 N 2
2  
N i 1
 Xi  X 

Trong đó  2 : phương sai tổng thể.


N : tổng số liệu của tổng thể.
ii. Phương sai mẫu.
Phương sai mẫu được tính trên một mẫu số liệu, là đại lượng ước lượng cho phương sai tổng thể
trong trường hợp không thể thu thập toàn bộ số liệu tổng thể.
1 n 2
S2  
n  1 i 1
 xi  X 

Trong đó S 2 : phương sai mẫu.


: tổng số liệu của mẫu.
iii. Độ lệch chuẩn.
Do trong cách tính của phương sai ta đã bình phương độ lệch lên, đồng nghĩa về mặt đơn vị
phương sai không còn cùng đơn vị với đơn vị đo tổng thể, do đó để đưa ra một đại lượng chỉ chính
xác độ lệch của lượng biến với trung bình lượng biến ta lấy căn của phương sai, đại lượng thu
được gọi là độ lệch chuẩn.
70

N
2
 X
i 1
i  X
 Độ lệch chuẩn tổng thể :  
N
1 n 2
 Độ lệch chuẩn của mẫu : S 
n  1 i 1
 xi  X 

iv. Quy luật phân phối của phương sai mẫu.


Giả sử tổng thể X có quy luật phân phối chuẩn với X ~ N ;  2  , trên tổng thể này ta thu thập

một mẫu dữ liệu cỡ mẫu n gồm  X1; X 2 ;,...; X n  , thì ta có đại lượng phương sai mẫu S 2 thỏa
n  1 S 2
~  2;n1
2
Lưu ý.

Quy luật phân phối đồng thời trung bình mẫu và phương sai mẫu.
Giả sử tổng thể X có quy luật phân phối chuẩn với X ~ N ;  2  , trên tổng thể này ta thu thập

một mẫu dữ liệu cỡ mẫu n gồm  X1; X 2 ;,...; X n  , thì ta có đại lượng trung bình mẫu X và phương
sai mẫu S 2 kết hợp thỏa
X 
~ T n1
S
n

4.2.4 Hệ số biến thiên.


Hệ số biến thiên là tỷ số so sánh giữa độ lệch tiêu chuẩn với số bình quân cộng của các lượng biến.
Trong quá trình kết luận sự phân tán giá trị của bảng số liệu, thì bản thân giá trị của phương sai
hay độ lệch chuẩn không thể nói lên mức độ phân tán của bảng số liệu là rộng hay hẹp, nên ta phải
so sánh mức độ phân tán giá trị với mức độ bình quân của số liệu để đánh giá mức chênh lệch.

Hệ số biến thiên theo độ lệch chuẩn.


S
V
X
Trong đó V : hệ số biến thiên.
X : giá trị trung bình
S : độ lệch chuẩn
Ví dụ 4.10 Xét mẫu với giá trị dữ liệu: 182, 168, 184, 190, 170, và 174. Tính các giá trị: khoảng
biến thiên, phương sai, và độ lệch tiêu chuẩn, hệ số biến thiên.
 Khoảng biến thiên: R  X Max  X Min  190  168  22
 Phương sai:
1 n 2
S2  
n  1 i 1
 xi  X 

1 2 2 2 2 2 2
 [ 182  178    168  178   184  178   190  178   170  178   174  178  ]
5
 75,2
 Độ lệch tiêu chuẩn: S  75,2  8,6717
CHƯƠNG 4 : TÓM TẮT DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ 71

S 8,6718
 Hệ số biến thiên: V    4,87%
X 178

Ví dụ 4.11 Một dàn máy rạp hát gia đình trong một phòng nhỏ là cách dễ nhất và rẻ nhất để tạo
ra âm thanh lập thể chi trung tâm giải trí gia đình. Một mẫu về giá được cho ở đây (Consumer
Reports Buying Guide, 2004). Giá cả cho các mô hình có một đầu DVD và cho mô hình không có đầu
DVD.

Mô hình có đầu DVD Giá USD (X) Mô hình không đầu DVD Giá USD (Y)
Sony HT-1800DP 450 Pioneer HTP-230 300
Pioneer HTD-330DV 300 Sony HT-DDW750 300
Sony HT-C800DP 400 Kenwood HTB-306 360
Panasonic SC-HT900 500 RCA RT-2600 290
Panasonic SC-MTI 400 Henwood HTB-206 300
a) Tính giá trung bình cho các mô hình có đầu DVD và giá trung bình cho mô hình không có đầu
DVD. Giá phải trả thêm để có đầu DVD trong dàn máy nhà hát gia đình là bao nhiêu?
b) Tính khoảng biến thiên, phương sai và độ lệch chuẩn của hai mẫu. Thông tin này cho bạn
biết gì về giá cả của mô hình có đầu DVD và không có đầu DVD.
Giải.
a) Tính giá trung bình cho các mô hình có đầu DVD và giá trung bình cho mô hình không có đầu
DVD. Giá phải trả thêm để có đầu DVD trong dàn máy nhà hát gia đình là bao nhiêu?
450  300  400  500  400
 Giá trung bình cho các mô hình có đầu DVD: X   410
5
300  300  360  290  300
 Giá trung bình cho mô hình không có đầu DVD: Y   310
5
b) Tính khoảng biến thiên, phương sai và độ lệch chuẩn của hai mẫu. Thông tin này cho bạn
biết gì về giá cả của mô hình có đầu DVD và không có đầu DVD.
Mô hình có đầu DVD:
 Khoảng biến thiên: RX  X Max  X Min  500  300  200
 Phương sai:
1 n 2
S 2X  
n  1 i 1
 xi  X 

1 2 2 2 2 2
 [ 450  410   300  410    400  410  500  410   400  410  ]
4
 5500
 Độ lệch tiêu chuẩn: S X  S X2  5500  47,162

Mô hình không có đầu DVD:

 Khoảng biến thiên: RY  YMax  YMin  360  290  70


 Phương sai:
1 n 2
SY2  
n  1 i 1
 yi  Y 

1 2 2 2 2 2
 [300  310   300  310  360  310   290  310  300  310  ]
4
 800
 Độ lệch tiêu chuẩn: SY  S Y2  800  28,28
72

Từ những thông tin trên cho thấy giá của mô hình có đầu DVD ổn định hơn giá của mô hình
không có đầu DVD.

4.3. Các khuynh hướng đo vị trí tương đối.


Đôi khi chúng ta muốn biết vị trí của một giá trị quan sát so với những giá trị quan sát khác trong
một tập dữ liệu, cũng như việc đưa ra giá trị đo mức bình quân và phân tán không thể chỉ ra chính
xác có những đột biến trong dữ liệu quan sát hay không thì các tham số về vị trí tương đối của bộ
dữ liệu sẽ đưa ra đánh giá cho hai câu hỏi trên.

4.3.1 Phân vị.


Cho  x1 ; x2 ;...; x n  là bộ giá trị quan sát đã được sắp theo thứ tự tăng dần. Phân vị thứ p là giá trị
của sao cho có nhiều nhất là p% các giá trị đo lường là thấp hơn giá trị của và ít nhất là
100  p  % là cao hơn giá trị của x .
Phân vị giúp ta nhận biết chính xác vị trí tương đối của lượng biến nằm đâu trong bảng số liệu.

Ví dụ 4.12 Sau khi kết thúc kỳ thi cuối kỳ môn xác suất thống kê, điểm một sinh viên đã được
thông báo rằng số điểm là 6.5 đặt tại phân vị thứ 60 trong phân phối của những số điểm. Giá trị
điểm khi so với điểm thi trung bình và độ lệch với điểm trung bình thì khẳng định tại phân vị thứ
60 có nghĩa là 60% những số điểm kiểm tra khác là thấp hơn số điểm của sinh viên này và 40% là
cao hơn.
i. Trường hợp lượng biến rời rạc.
Khi lượng biến rời rạc ta sắp xếp giá trị lượng biến theo thứ tự tăng dần và đánh chỉ số cho lượng
biến.

p
 Xác định vị trí của giá trị phân vị thứ : chỉ số i  n  1
100
 Giá trị phân vị thứ xác định bằng công thức:

x[ i ] 
a

x
b i 1
 x[ i ] 
Trong đó: i  là phần nguyên của chỉ số i.
a
là phần lẻ thứ nhất của chỉ số i.
b
ii. Trường hợp lượng biến liên tục.
Khảo sát giá trị lượng biến trên việc phân tổ giá trị ta có bảng số liệu có dạng

X  x1 ; x2   x 2 ; x3  …  x k ; x k 1 
n n1 n2 … nk
Việc xác định giá trị phân vị thứ qua hai bước
 Bước 1: xác định tổ chứa phân vị thứ
p
Là tổ có tần số cộng dồn vừa đủ lớn hơn chỉ số i  n
100
 Bước 2: xác định giá trị phân vị thứ :
hi  p 
X iMIN   n  S i1 
ni  100 
CHƯƠNG 4 : TÓM TẮT DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ 73

Trong đó Xi Min : Cận dưới của tổ chứa phân vị thứ .

hi : chiều dài tổ chứa phân vị thứ .


ni : tần số tổ chứa phân vị thứ .
S i 1 : tần số cộng dồn trước tổ chứa phân vị thứ .

4.3.2 Tứ phân vị
 Tứ phân vị
Là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu. Tứ phân vị có 3 giá trị, đó là tứ phân
vị thứ nhất (Q1), thứ nhì (Q2), và thứ ba (Q3). Ba giá trị này chia một bộ dữ liệu (đã sắp xếp dữ
liệu theo trật từ từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau.
Q1 Q2 Q3
Min 25% 25% Max
Dữ liệu Dữ liệu

Hình 4.6 : Biểu đồ tứ phân vị.


Phân vị thứ 25 và phân vị thứ 75, được gọi là tứ phân vị thấp và tứ phân vị cao (lower and upper
quartiles), cùng với phân vị thứ 50 cũng chính là trung vị. Hai mươi lăm phần trăm các giá trị đo
lường sẽ thấp hơn tứ phân vị thấp (đầu tiên), 50% sẽ thấp hơn trung vị (tứ phân vị thứ hai), và
75% các giá trị đo lường sẽ thấp hơn tứ phân vị cao (thứ ba). Như thế, trung vị và các tứ phân vị
cao và thấp nằm tại những điểm trên trục sao cho diện tích bên dưới biểu đồ tần suất tương đối
của dữ liệu được phân chia thành bốn diện tích bằng nhau,

25% dữ liệu

Min Q1 Q2 Q3 Max
Hình 4.7 : Biểu đồ tứ phân vị.
 Biểu đồ hộp biểu diễn tứ phân vị.
Box Plot giúp bạn biểu diễn các đại lượng quan trọng của dãy số như min, max, phân vị, khoảng
tứ phân vị (Interquartile Range) một cách trực quan, dễ hiểu. Một Box plot có dạng như sau:

BIỂU ĐỒ PLOT BOX


130 Max
110

90 Q3
70

50 Q2
30
Q1
10 Min
1

Hình 4.8: Biểu đồ tứ phân vị.


74

4.3.3 Giá trị z .


Một giá trị z của một số liệu trong bộ dữ liệu là đại lượng chỉ số tương đối về độ lệch chuẩn giữa
một giá trị quan sát và trung bình của tập dữ liệu. Giá trị z của một số liệu định nghĩa bằng công
thức :
xX
z
S
Trong đó x : giá trị lượng biến quan tâm.
X : giá trị trung bình mẫu.
S : độ lệch chuẩn mẫu

 Định lý Tchebysheff
 1 
Một tổng thể bất chấp hình dạng phân phối, ít nhất  1  .100% giá trị rơi vào khoảng m
 m2 
so với giá trị trung bình.
1
P  X  m  x  X  m   1 
m2
Bản thân các giá trị z chỉ đơn thuần cho thấy dữ liệu cần kiểm tra cao hơn hay thấp hơn trung bình
bao nhiêu độ lệch chuẩn. Tuy nhiên, khi giá trị được sử dụng cùng với Định lý Tchebysheff, thì
có thể đưa ra một số lời phát biểu thận trọng về vị trí tương đối của một dữ liệu quan sát.
Hơn nữa, nếu dữ liệu có phân bố theo quy luật phân phối chuẩn (dạng phân phối hình chuông úp),
thì Quy tắc Thực nghiệm có thể được dùng để đưa ra những lời phát biểu mạnh hơn về vị trí tương
đối của một dữ liệu quan sát xét theo giá trị của nó.

Hình 4.9: Quy tắc 3 sigma.


Ví dụ 4.13 It nhất là 75% các giá trị quan sát trong một tập dữ liệu nằm trong phạm vi hai độ lệch
chuẩn so với trung bình, nên các giá trị trong khoảng từ −2 đến +2 là rất có khả năng xảy ra, và
như thế không phải là không bình thường.Và ít nhất là 8/9, hay rất có thể là tất cả, các giá trị quan
sát nằm trong phạm vi ba độ lệch chuẩn so với trung bình, vì thế các giá trị trong khoảng từ 2
đến 3, ít có khả năng xảy ra hơn nhiều, và khi đó các giá trị cao hơn 3 rất không có khả năng xảy
ra và phải được xem xét cẩn thận.

Giá trị cực kỳ lớn nêu lên câu hỏi về hiệu lực của một giá trị quan sát, tức giá trị quan sát này có
thể đã được ghi nhận không đúng, hoặc nó có thể không thuộc về tổng thể mà chúng ta đã mong
muốn lấy mẫu. Những giá trị quan sát với các giá trị hết sức lớn thường được gọi là giá trị dị biệt
bởi vì chúng nằm cách xa trung tâm của tập dữ liệu. Những giá trị quan sát nằm cao hơn hay thấp
hơn trung bình trong khoảng từ hai đến ba độ lệch chuẩn là những giá trị dị biệt có thể có, trong
khi đó những giá trị quan sát nằm cao hơn hay thấp hơn trung bình nhiều hơn ba độ lệch chuẩn
thì được xem là những giá trị dị biệt rõ ràng.
CHƯƠNG 4 : TÓM TẮT DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ 75

Ví dụ 4.14 Hãy xét một mẫu gồm = 10 giá trị đo lường:


3 2 0 15 2 3 4 0 1 3
Thoạt nhìn bạn có thể thấy giá trị đo lường x  15 là một giá trị dị biệt. Hãy tính giá trị z cho giá
trị quan sát này, và hãy trình bày các kết luận của bạn. Đối với mẫu này ta có các đặc trưng như
sau:
10
 x
i 1
i  33  X  3.3 (trung bình mẫu)

10
1  10 2 2
  xi2  277 ; S 2 
11
  x i  X   18.6778  S  4.32 (độ lệch chuẩn mẫu)
10  1  11 
x  X 15  3,3
 Với giá trị x  15 ta có trị z    2.71
S 4.32
Vì giá trị z nằm cách giá trị trung bình một khoảng là 2.71 lần độ lệch chuẩn nên có thể khẳng định
x  15 là một giá trị đột biến. Nên chúng ta sẽ coi lại thủ tục lấy mẫu có sai số trong lần đo này
không.

Ví dụ 4.15 Kết quả của một cuộc khảo sát quốc gia cho thấy trung bình người lớn ngủ 6,9 giờ mỗi
đêm. Giả sử rằng độ lệch chuẩn là 1,2 giờ.
a) Sử dụng quy tắc Chebyshev để tính toán tỷ lệ phần trăm của những người ngủ từ 4,5 giờ đến
9,3 giờ.
b) Sử dụng quy tắc Chebyshev để tính toán tỷ lệ phần trăm của những người ngủ từ 3,9 đến 9,9
giờ.
c) Giả sử rằng số giờ ngủ có phân phối hình chuông. Sử dụng quy tắc thực nghiệm để tính toán
tỷ lệ phần trăm của những người ngủ từ 4,5 đến 9,3 giờ mỗi ngày. So sánh kết quả mà bạn có
được bằng cách sử dụng quy tắc Chebysev trong câu (a)?

Giải.
a) Sử dụng quy tắc Chebyshev để tính toán tỷ lệ phần trăm của những người ngủ từ 4,5 giờ đến
9,3 giờ.
x  X 4,5  6,9 x  X 9,3  6,9
z1  1   2 độ lệch chuẩn và z2  2   2 độ lệch chuẩn
S 1,2 S 1,2
 1  1
Có ít nhất  1  2 
.100%   1  2  .100%  75% .
 z1   2 
b) Sử dụng quy tắc Chebyshev để tính toán tỷ lệ phần trăm của những người ngủ từ 3,9 đến 9,9
giờ.
x1  X 3,9  6,9 x  X 9,9  6,9
z1    2,5 độ lệch chuẩn và z2  2   2,5 độ lệch chuẩn
S 1,2 S 1,2
 1  1 
Có ít nhất  1  2 
.100%   1  2  .100%  84% .
 z1   2,5 
c) Giả sử rằng số giờ ngủ có phân phối hình chuông. Sử dụng quy tắc thực nghiệm để tính toán
tỷ lệ phần trăm của những người ngủ từ 4,5 đến 9,3 giờ mỗi ngày. So sánh kết quả mà bạn có
được bằng cách sử dụng quy tắc Chebysev trong câu (a)?
z1  2 và z2  2 . Theo thực nghiệm: P  2  Z  2  95%

4.4. Hệ số tương quan của các bộ dữ liệu


Một trong những mục tiêu của khảo sát dữ liệu là tìm hiểu những mối tương quan giữa các bộ dữ
liệu, và qua đó có thể tiên lượng một yếu tố phụ thuộc từ các yếu tố độc lập. “Mối tương quan” ở
76

đây bao gồm các đặc điểm như mức độ tương quan (hệ số tương quan) và xây dựng một mô hình
tiên đoán. Mô hình ở đây chính là hàm số nối kết hai biến với nhau.

Ví dụ 4.16 Liên hệ giữa độ tuổi và mật độ có nghĩa là chúng ta muốn biết mối tương quan giữa
hai biến này ra sao và có thể sử dụng độ tuổi để tiên lượng mật độ xương cho một cá nhân hay
không.

4.4.1 Hiệp phương sai.


Cho hai biến ngẫu nhiên X ,Y ; và nếu hai biến này hoàn toàn độc lập với nhau, chúng ta có thể
phát biểu rằng phương sai của biến X  Y bằng phương sai của X cộng với phương sai của Y
Var  X  Y   Var  X   Var Y 
Nếu hai biến X ,Y có tương quan nhau, thì công thức trên được thay thế bằng một công thức khác
với hiệp biến (hiệp phương sai, ký hiệu Cov  X ,Y  )
Var  X  Y   VarX  VarY  2Cov  X ,Y 
Trong đó ta có hiệp phương sai được tính bằng công thức
Cov  X ,Y   E   X  EX Y  EY  
Trong nội dung chương 1 ta có:
2 2
Var  X  Y   E   X  Y   E  X  Y    E   X  EX   Y  EY  
2 2
 E  X  EX   E Y  EY   2E   X  EX Y  EY  
 VarX  VarY  2E   X  EX Y  EY  
Và ta có Cov  X ,Y   E  X  EX Y  EY  
Một dạng công thức khác của hiệp phương sai là:

Cov  X ;Y   E  XY   E  X  .E Y 

Từ công thức trên ta có thể rút ra nhận xét như sau:


• Phương sai của biến ngẫu nhiên thì luôn dương nhưng hiệp biến thì mang dấu bất kỳ
• Hiệp biến là số dương nghĩa là độ lệch so với giá trị trung bình của tuân theo chiều
hướng thuận với
• Hiệp biến là số âm nghĩa là độ lệch so với giá trị trung bình của ngược lại theo chiều
hướng của
• Hiệp biến bằng 0 thì hai biến , không tương quan gì với nhau, tức Cov  X ,Y   0
• Khi , độc lập với nhau nghĩa là , không tương quan.
• Nhưng , không tương quan chưa chắc đã độc lập với nhau.
Ví dụ 4.17 Cho hai biến ngẫu nhiên có bảng phân phối xác suất đồng thời như sau, , không
độc lập với nhau:
Y f X i 
6 8 10
X
1 0,2 0 0,2 0,4
2 0 0,2 0 0,2
3 0,2 0 0,2 0,4
fY  j  0,4 0,2 0,4 1
= (1 × 0.4) + (2 × 0.2) + (3 × 0.4) = 2
= (6 × 0.4) + (8 × 0.2) + (10 × 0.4) = 8
( ) = (6 × 1 × 0.2) + (6 × 3 × 0.2) + (8 × 2 × 0.2) + (10 × 1 × 0.2) + (10 × 3 × 0.2) = 16
CHƯƠNG 4 : TÓM TẮT DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ 77

Vậy = ( )− . = 0, vậy X, Y không tương quan nhau.

Đối với trường hợp khảo sát số liệu thực tế, biến ngẫu nhiên X có n số liệu X i | i  1, n và biến  
 
ngẫu nhiên Y có n số liệu Yi | i  1, n ta có hiệp phương sai được tính thông qua công thức

1 n
Cov  X ,Y   
 xi  X
n  1 i 1
 y  Y 
i

Hoặc
1  n 1  n  n  
Cov  X ;Y    i i x y    x i   yi  
n  1  i 1 n  i 1  i 1  

Nhận xét: Với việc đưa ra khái niệm hiệp phương sai sẽ gặp khó khăn khi nhận xét mối quan hệ
của hai biến ngẫu nhiên về giá trị nhận được, vì hiệp phương sai của hai biến ngẫu nhiên phụ thuộc
vào đơn vị của biến và khi đơn vị thay đổi dẫn đến độ lớn của hiệp phương sai thay đổi.
Ví dụ 4.18 Cho hai biến ngẫu nhiên – chỉ chiều cao của một người đơn vị là (m), và – chỉ cân
nặng của một người đơn vị là (kg). Nếu chuyển sang đơn vị là (cm)
(10 ; ) = (10 ) − (10 ).
= 10[ ( ) − . ] = 10 ( ; )
Vậy việc tính hiệp phương sai giữa các biến ngẫu nhiên sẽ phụ thuộc vào đơn vị của các biến ngẫu
nhiên, để khắc phục điều này ta xây dựng một chỉ số tương quan mới nhưng không lệ thuộc vào
đơn vị của các biến ngẫu nhiên.
4.4.2 Hệ số tương quan.
Cho hai biến ngẫu nhiên , . Hệ số tương quan giữa , được ký hiệu là ( , ) có công thức là
( ; )
                       ℎ   ; ≠0
( , )= √ .
0                                 ℎ   = 0 ℎ   =0

Đối với trường hợp khảo sát số liệu thực tế, biến ngẫu nhiên X có n số liệu X i | i  1, n và biến  
 
ngẫu nhiên Y có n số liệu Yi | i  1, n ta có hiệp phương sai được tính thông qua công thức :
n
n
1  n  n 
 x i X  y  Y 
i 
i 1
x y
i i   x  
n  i 1 i  i 1
yi 

  X ,Y   i 1

n 2 n 2 n 2 n 2
 x
i 1
i X   y  Y 
i 1
i  x
i 1
i X   y Y 
i 1
i

Tính chất của hệ số tương quan:


 −1 ≤ ( ; ) ≤ 1
 ( ; ) = ±1 khi và chỉ khi tồn tại , ≠ 0 sao cho = +
 Nếu giá trị của là dương, hai biến X ,Y cùng biến thiên theo một hướng; nếu giá trị của
r là âm X ,Y liên hệ đảo ngược: tức khi khi X tăng thì Y giảm, và ngược lại.
 Nếu   1;   1 (Biểu đồ 1a và 1b), mối liên hệ của y và x được hoàn toàn xác định; có
nghĩa là cho bất cứ giá trị nào của x, chúng ta có thể xác định giá trị của y.
 Nếu   0 (Biểu đồ 1c), hai biến x và y hoàn toàn độc lập, tức không có liên hệ với nhau.
78

Hình 4.10 : Biểu đồ phân tán và hệ số tương quan.


Mặc dù rất khó đưa ra một nhận xét chắc chắn về giá trị của hiệp phương sai và mối quan hệ giữa
các bộ dữ liệu, nhưng ta có thể đưa ra đánh giá thông qua bảng tương quan như sau

 Mức độ tương quan


0    0.2 Rất yếu, tương quan không đáng kể.
0.2    0.4 Yếu, tương quan thấp.
0.4    0.7 Vừa phải.
0.7    0.9 Mạnh, tương quan mạnh.
0.9    1.0 Tương quan tuyến tính rất mạnh

Ví dụ 4.19 Cân nặng và vòng eo. Số liệu sau đây được trích ra từ một nghiên cứu qui mô (trên
3000 người) ở Việt Nam về mối liên hệ giữa các chỉ số nhân trắc và bệnh tiểu đường. Trọng lượng
và vòng eo của 15 đối tượng được đo lường và kết quả như sau

Trọng lượng (Kg) 51 66 47 54 64 75 54 52


Vòng eo (cm) 71 89 64 74 87 93 66 74
Trọng lượng (Kg) 53 52 46 48 63 40 90 53
Vòng eo (cm) 75 72 66 70 81 57 94 75
...
Trọng lượng trung bình = = = 57.0
Phương sai của trọng lượng trung bình
1
= [(51 − 57) + (66 − 57) +. . . +(90 − 57) ] = 163.6
15 − 1
...
Vòng eo trung bình = = = 75.5
Phương sai của vòng eo trung bình
1
= ((71 − 75.5) + (89 − 75.5) +. . . +(94 − 75.5) ) = 122.6
15 − 1
Hiệp phương sai của hai đại lượng
(51 − 57)(71 − 75.5)+. . . (90 − 57)(94 − 57.7)
( ; )= = 71.2
14
Hệ số tương quan của 2 đại lượng
( ; ) 71.2
( ; )= = = 0.92
√ . √122.6 × 163.6
CHƯƠNG 4 : TÓM TẮT DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ 79

95
90
85
80
75
70
65
60
55
50
40 45 50 55 60 65 70 75 80 85 90

Hình 4.11 : Biểu đồ phân tán vòng eo và cân nặng


• Dựa vào hệ số tương quan ta thấy trong nhóm đối tượng này mối tương quan giữa cân
nặng và vòng eo là rất cáo.
• Và nếu nhóm đối tượng này được khảo sát nhiều lần mà hệ số tương quan vẫn cao như
vậy thì ta có thể kết luận có thể dựa vào cân nặng để dự đoán vòng eo và ngược lại.
• Nhưng cần hiễu rằng hệ số tương quan không phản ảnh mối quan hệ trực tiếp giữa trọng
lượng và vòng eo, còn rất nhiền mối quan hệ ảnh hưởng tới điều này nên ta không thể nói
rằng trọng lượng là nguyên nhân làm cho vòng eo rộng hay ngược lại, mối quan hệ ở đây
ta quan tâm chỉ là tương quan giữa hai đại lượng ngẫu nhiên ta đang xét.
4.5. Hệ số đo hình dạng của quy luật phân phối.
4.2.1 Hệ số Kurtoris (độ nhọn)
Độ nhọn (kurtosis) là đại lượng thống kê mô tả đo mức độ tập trung của phân phối xác suất của
biến ngẫu nhiên, cụ thể là mức độ tập trung của các dữ liệu quanh trung tâm của phân phối trong
mối quan hệ với hai đuôi.
Độ nhọn (Kurtosis) một chỉ số để đo lường về đặc điểm hình dáng của một phân phối xác suất. Cụ
thể hơn, nó so sánh độ cao phần trung tâm của một phân phối so sánh với một phân phối chuẩn.
Phần trung tâm càng cao và nhọn, chỉ số Kurtosis của phân phối đó càng lớn. Hay nói cách khác,
kurtosis đo lường độ “béo” phần đuôi của một phân phối xác suất. Cái đuôi càng “béo”, kurtosis
càng lớn. Kurtosis của một mẫu có công thức như sau:
n 4 n 4

n  n  1  X
i 1
i X  1
X
i 1
i X 
Kurtosis  4

 n  1n  2 n  3 s n s4

 n : Cỡ mẫu.
 X i : giá trị mẫu quan sát thứ i.
 X : giá trị trung bình mẫu.
 s : độ lệch chuẩn mẫu có hiệu chỉnh.

Tính chất của Kurtosis:


Về mặt tính toán giá trị của độ nhọn (kurtosis), hầu hết trong các phần mềm xử lý số liệu đều có
các hàm để tính, điều cần quan tâm ở đây là các tính chất liên quan tới giá trị của độ nhọn
(kurtosis). Ở đây tính chất của độ nhọn (kurtosis) xoay quanh 3 vấn đề:
 excess kurtosis
 hình dạng của phân phối xác suất với excess kurtosis dương/âm ?
80

 excess kurtosis bao nhiêu thì được coi là đáng kể ?


Tính chất: phân phối chuẩn có kurtosis = 3.
Định nghĩa của excess kurtosis: lấy kurtosis của phân phối trừ đi 3. Excess kurtosis dương có
nghĩa là kurtosis của phân phối lớn hơn 3, excess kurtosis âm nghĩa là kurtosis của phân phối nhỏ
hơn 3. Cụ thể hơn, phân phối có:
 excess kurtosis dương được gọi là leptokurtic (“lepto” nghĩa là gầy)
 excess kurtosis bằng 0 được gọi là mesokurtic
 excess kurtosis âm được gọi là platykurtic (“platy” nghĩa là “rộng”).

Hình 4.12 : Phân bố dữ liệu theo Kurtosis.


Ví dụ 4.20 Đồ thị của một phân phối chuẩn chuẩn hóa (µ = 0, σ = 1), một phân phối leptokurtic
và một phân phối platykurtic có hình dạng như sau:

Hình 4.13 : Phân bố dữ liệu theo Kurtosis.


Phân phối chuẩn có kurtosis 3,0, hay zero excess kurtosis.
Phân phối leptokurtic có kurtosis 4,0, hay excess kurtosis +1.0
Phân phối platykurtic có kurtosis of 2,7, hay excess kurtosis -0.3

Lưu ý: Tuy trên đồ thị không thể hiện rõ lắm, nhưng phân phối leptokurtic có phần đuôi (phần
lớn hơn +4 và nhỏ hơn -4) “béo” hơn phân phối chuẩn khoảng gấp đôi, và phân phối platykurtic
có phần đuôi “mỏng” hơn phân phối chuẩn khoảng một nửa.

Excess kurtosis được tính là đáng kể nếu giá trị tuyệt đối của nó lớn hơn hoặc bằng 1.0; vd:
kurtosis > 4.0 (excess positive kurtosis > 1.0) hoặc kurtosis < 2.0 (excess negative kurtosis < -
1.0).

4.2.2 Độ lệch – Skewness


Độ lệch (skewness) của một phân phối xác suất đo lường sự đối xứng của phân phối đó. Giá trị
tuyệt đối của độ lệch càng cao thì phân phối đó càng bất đối xứng. Một phân phối đối xứng có độ
lệch bằng 0. Công thức toán học của độ lệch là:
CHƯƠNG 4 : TÓM TẮT DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ 81

n 3 n 3

n 
i 1
Xi  X  1
X
i 1
i X 
Skewness  
 n  1 n  2 s3 n s3

 n : Cỡ mẫu.
 X i : giá trị mẫu quan sát thứ i.
 X : giá trị trung bình mẫu.
 s : độ lệch chuẩn mẫu có hiệu chỉnh.

Các tính chất của độ lệch (Skewness):


 hình dạng của một phân phối có độ lệch dương (positive skewness) hoặc độ lệch âm
(negative skewness)
 độ lệch dương hay âm bao nhiêu thì được coi đáng kể
 một số tính chất của phân phối có độ lệch dương hoặc độ lệch âm
Độ lệch dương có nghĩa là các giá trị cực lớn hơn giá trị trung bình (mean) sẽ ở xa hơn so với giá
trị cực nhỏ hơn giá trị trung bình (mean). Một đồ thị điển hình của một phân phối liên tục với độ
lệch dương sẽ trông như thế này:

Hình 4.14 : Phân bố dữ liệu theo Kurtosis dương.


Tương tự, một đồ thị điển hỉnh của một phân phối liên tục có độ lệch âm sẽ có hình dạng như sau:

Hình 4.15 : Phân bố dữ liệu theo Kurtosis âm.


Chú ý: Độ lệch được coi là đáng kể nếu giá trị tuyệt đối của nó ≥0.5 (tức là giá trị ≤−0.5 hoặc ≥+0.5).
Tính chất quan trọng của độ lệch được biểu thị qua 2 hình minh họa ở trên: với một phân phối có
một mode duy nhất, bạn cần phải biết giá trị tương đối của mean, mode và media . Ở đây có một
mẹo để ghi nhớ, đó là sắp xếp các từ này theo thứ tự bảng chữ cái, từ trái
mean median mode
Nếu phân phối có độ lệch dương – nó sẽ bị lệch sang phải – khi đó ký hiệu sẽ là dấu >. Cụ thể:
mean > median > mode
Ngược lại, nếu phân phối có độ lệch âm – nó sẽ bị lệch sang trái – ký hiệu sẽ là <:
mean < median < mode
CHƯƠNG 2 : PHÂN PHỐI XÁC SUẤT THÔNG DỤNG 27

CHƯƠNG 2
Mục lục chương 2

2.1 Phân phối nhị thức ................................................................................................. 27


2.2 Phân phối siêu bội .................................................................................................. 31
2.3 Phân phối Poisson .................................................................................................. 35
2.4 Phân phối chuẩn..................................................................................................... 36
2.5 Phân phối Chi bình phương ..................................................................................... 40
2.6 Phân phối Student .................................................................................................. 42

2.1 Phân phối nhị thức


Định nghĩa (Phép thử Bernoulli). Phép thử mà ta chỉ quan tâm đến biến cố A có xảy ra hay
không được gọi là phép thử Bernoulli.

Ví dụ 2.1 Một sinh viên thi kết thúc môn học A, ta quan tâm kết quả sinh viên này thi có đạt hay
không đạt. Phép thử này là phép thử Bernoulli.
Định nghĩa (Biến ngẫu nhiên Bernoulli). Thực hiện một phép thử Bernoulli, ta quan tâm đến
0 NÕu biÕn cè A kh«ng x¶y ra
biến cố A có xảy ra hay không. Đặt : X  
1 NÕu biÕn cè A x¶y ra
Giả sử P  A   P  X  1  p . Khi đó biến ngẫu nhiên X được gọi là biến ngẫu nhiên Bernoulli với
tham số p, ký hiệu X ~ B  p 

Bảng phân phối xác suất của biến ngẫu nhiên Bernoulli có dạng
X 0 1
P q =1−p p
Dựa vào bảng phân phối xác suất của biến ngẫu nhiên Bernoulli có EX  p và VarX  pq
Ví dụ 2.2 Sinh viên A trả lời một bài tập trắc nghiệm có bốn lựa chọn trong đó chỉ có một lựa
chọn đúng, giả sử sinh viên này chọn câu trả lời một cách ngẫu nhiên. Ta đặt biến ngẫu nhiên
0 nÕu sinh viªn tr¶ lêi sai.
X 
1 nÕu sinh viªn tr¶ lêi ®óng.
thì X ~ B  p  . Bảng phân phối xác suất của X
X 0 1
28

P 3/4 1/4

Trong thực tế ta thường thực hiện liên tiếp nhiều phép thử Bernoulli và đếm số lần xảy ra biến cố
A trong các lần thực hiện đó. Phân phối xác suất số lần xảy ra A được trình bày ở mục kế tiếp.
Định nghĩa (Phân phối nhị thức).Thực hiện n phép thử Bernoulli độc lập với xác suất xảy ra
biến cố A trong mỗi phép thử là p. Đặt biến ngẫu nhiên
0 nÕu biÕn cè A kh«ng x¶y ra ë phÐp thö thø i.
Xi  
1 nÕu biÕn cè A x¶y ra ë phÐp thö thø i.
Biến ngẫu nhiên X  X 1  X 2  ...  X n chỉ số lần A xảy ra trong n lần thực hiện.
Biến ngẫu nhiên X được gọi là có phân phối nhị thức tham số n và p; ký hiệu X ~ B  n, p 

Ví dụ 2.3 Quan sát quyết định mua hàng của 5 khách hàng bước vào một cữa hàng quần áo. Dựa
trên kinh nghiệm từ trước, quản lý cửa hàng ước lượng xác suất khách hàng sẽ mua hàng là 0,3
và biết các khách hàng mua hàng độc lập với nhau. Các vấn đề liên quan đến số lượng khách hàng
mua hàng như:
a. Xác suất có 3 khách hàng sẽ mua hàng là bao nhiêu.
b. Trung bình sẽ có bao nhiêu khách hàng sẽ mua hàng.
c. Độ lệch trung bình xung quanh giá trị trung bình của khách hàng sẽ mua hàng là bao nhiêu.
d. Số khách hàng chắc chắn nhất sẽ mua hàng hàng là bao nhiêu.

Ví dụ 2.4 Một xạ thủ bắn 3 phát đạn vào một mục tiêu một cách độc lập, xác suất trúng mục tiêu
ở mỗi lần bắn là 0,7. Gọi các biến ngẫu nhiên:
0 nÕu ph¸t thø i kh«ng tróng môc tiªu.
Xi  
1 nÕu ph¸t thø i tróng môc tiªu.
Vậy biến ngẫu nhiên : X  X 1  X 2  X 3 ~ B 3;0.7  là số phát trúng mục tiêu trong 3 phát. Giá trị
có thể của X là 0; 1; 2:
Ta thử tính xác suất có 2 phát trúng mục tiêu:
0.7  0.7  0.3  0.72  0.3 nÕu viªn 1,2 tróng.
2
P  X  2   0.7  0.3  0.7  0.72  0.3 nÕu viªn 1,3 tróng.  3  0.72  0.3  C32 0.7   0.3
0.3 0.7  0.7  0.72  0.3 nÕu viªn 2,3 tróng.

Định lý. Biến ngẫu nhiên X ~ B  n, p 


i. Xác suất có đúng k lần biến cố A xảy ra P  X  k   Cnk pk q nk ; k  0,..., n
ii. EX  np
iii. VarX  npq với q = 1- p
iv. np  q  ModX  np  q  1 , người ta còn gọi ModX là số lần xuất hiện tin chắc nhất.

Chứng minh.
Bởi vì X ~ B  n, p  cho nên : X  X 1  X 2  ...  X n .

Với X i ~ B  p  . Kỳ vọng EX  EX 1  EX 2  ...  EX n  np


Các biến ngẫu nhiên X 1 , X 2 ,..., X n độc lập nên : VarX  VarX 1  VarX 2  ...  VarX n  npq
Pk P X  k n  k  1 p  1
Gọi Pk  P  X  k  ; xét tỷ số  
Pk 1 P  X  k  1 kq
CHƯƠNG 2 : PHÂN PHỐI XÁC SUẤT THÔNG DỤNG 29

suy ra Pk là dãy không giảm khi và chỉ khi k  np  q  1


Pk
Tương tự  1 là dãy không tăng khi và chỉ khi k  np  q
Pk 1
Từ hai điều trên ta thu được:
np  q  ModX  np  q  1
Ví dụ 2.5 Một bài thi trắc nghiệm có 10 câu hỏi, mỗi câu hỏi có bốn lựa chọn trong đó chỉ có một
lựa chọn đúng. Một sinh viên trả lời ngẫu nhiên tất cả các câu. Gọi X là số câu trả lời đúng của sinh
viên này.
a. Tính xác suất sinh viên trả lời đúng 2 câu.
b. Tính giá trị kỳ vọng, phương sai và Mod của biến ngẫu nhiên X.

BNN Mật độ Phân phối


0 0.0563135 0.0563135
1 0.1877117 0.2440252
2 0.2815676 0.5255928
3 0.2502823 0.7758751
4 0.145998 0.9218731
5 0.0583992 0.9802723
6 0.016222 0.9964943
7 0.0030899 0.9995842
8 0.0003862 0.9999704
9 2.861E-05 0.999999
10 9.537E-07 1
Hình 2.1: Đồ thị f  x  và F  x  của X ~ B 10;0.25
1 nÕu tr¶ lêi ®óng c©u i.
Giải. Gọi biến ngẫu nhiên X i  
0 nÕu tr¶ lêi sai c©u i.
Trong đó P  X i  1   0.25 ; i  1,...10 .Biến ngẫu nhiên số câu đúng
X  X 1  X 2  ...  X 10 ~ B 10;0.25 
a. Xác suất sinh viên trả lời đúng 2 câu :
2 2 8
P  X  2  C10  0.25 . 0.75  0.2816
b. Kỳ vọng của biến ngẫu nhiên X :
EX  np  10  0.25  2.5
và phương sai :
VarX  npq  10  0.25  0.75  1.875
số lần xuất hiện chắc nhất (ModX ) thỏa điều kiện :
np  q  ModX  np  q  1
thay số vào ta được :

vậy ModX  3
30

X ~ B 10;0.25 X ~ B 10;0.5  X ~ B 10;0.75


Hình 2.2: Đồ thị f  x  và F  x  của X ~ B 10;0.25 ; B 10;0.5 ; B 10;0.75

X ~ B 5;0.5 X ~ B 10;0.5  X ~ B 15;0.5 


Hình 2.3: Đồ thị f  x  và F  x  của X ~ B 5;0.5  ; B 10;0.5 ; B 15;0.5 
Trong EXCEL, phân phối nhị thức được tính thông qua lệnh : BINOM.DIST
Number_s : số lần thành công
k 
Trials : số lần thực hiện phép
thử  n
Probability_s : xác suất 1 lần
thành công  p 
Cumulative : bằng 0 nếu là
hàm mật độ xác suất, bằng 1
nếu là hàm phân phối.
Ví dụ 2.6 Với X ~ B 10;0.5
P  X  5  0.2461

Ví dụ 2.7 Có 9% sinh viên đại học nợ thẻ tín dụng lớn hơn 7000 USD (Reader Digest, tháng 7,
2002). Giả sử chọn ngẫu nhiên 10 sinh viên đại học để phỏng vấn về việc sử dụng thẻ tín dụng.
Giả sử số sinh viên có mức dư nợ thẻ tín dụng cao hơn 7000 USD, thì X là biến ngẫu nhiên có phân
CHƯƠNG 2 : PHÂN PHỐI XÁC SUẤT THÔNG DỤNG 31

phối nhị thức.


a. Tính xác suất có 2 sinh viên có mức dư nợ thẻ tín dụng cao hơn 7000 USD. Cần tính P  X  2
2 2 8
P  X  2  C10  0.09 1  0.09  0.1714
b. Tính xác suất không có sinh viên nào có mức dư nợ thẻ tín dụng cao hơn 7000 USD.
0 0 10
P  X  0  C10 0.09 1  0.09  0.3894
c. Tính xác suất có ít nhất 3 sinh viên có mức dư nợ thẻ tín dụng cao hơn 7000 USD.
P  X  3  P 3  X  10   1   P  X  0   P  X  1   P  X  2   0.9460

2.2 Phân phối siêu bội

Định nghĩa (phân phối siêu bội) một tập  gồm có N phần tử, trong đó có NA phần tử có
tính chất A và N — NA phần tử không có tính chất A. Từ tập  ta lấy ngẫu nhiên n phần
tử (lấy một lần n phần tử hoặc lấy n lần không hoàn lại mỗi lần một phần tử).

Gọi X là số phần tử có tính chất A lẫn trong n phần tử lấy ra từ tập  . Khi đó X là biến
0  k  n
ngẫu nhiên rời rạc nhận giá trị k sao cho 
n   N  N A   k  N A
C Nk A C Nn kN A
PX  k ; k S
C Nn
Biến ngẫu nhiên rời rạc X được gọi là có phân phối siêu bội với tham số N; NA; n, ký
hiệu X ~ H  N ; N A ; n

Ví dụ 2.8 Siêu thị mở đợt khuyến mãi dành cho khách hàng mua 5 sản phẩm từ một lô hàng gồm
15 sản phẩm trong đó có 5 sản phẩm loại A và 10 sản phẩm loại B. Quản lý muốn quan tâm về số
lượng sản phẩm mà khách hàng mua như sau:
a. Trong 5 sản phẩm khách hàng chọn, xác suất có 3 sản phẩm loại A là bao nhiêu.
b. Trung bình có bao nhiêu sản phẩm loại A mà khách hàng sẽ mua trong 5 sản phẩm.
c. Độ lệch chuẩn về số sản phẩm A mà khách hàng mua trong 5 sản phẩm.
d. Số sản phẩm A chắc chắn nhất mà khách hàng sẽ mua trong 5 sản phẩm.

Ví dụ 2.9 Bộ phận marketing của một dooanh nghiệp có 50 nhân viên trong đó có 30 nhân
viên nữ. Cần chọn 10 nhân viên tiếp thị cho một sản phẩm mới, giả sử khả năng được chọn
của các nhân viên là như nhau. Gọi X là số nhân viên nữ được chọn. Tính xác suất có
a. Không quá 3 nhân viên nữ được chọn.
b. Ít nhất một nhân viên nữ được chọn
Giải.
X là số nhân viên nữ được chọn, khi đó X ~ H 50;30;10
a. Xác suất không quá 3 nhân viên nữ được chọn :
P  X  3   P  X  0   P  X  1   P  X  2  P  X  3 
0 10 1 9 2 8 3 7
C30C20 C30 C20 C30 C20 C30 C20
 10
 10
 10
 0
 0.03648
C50 C50 C50 C50
b. Xác suất ít nhất một nhân viên nữ được chọn :
32

0 10
C30C20
P  X  1  1  P  X  1  1  P  X  0  1  10
 0.99998
C50

BNN MẬT ĐỘ PHÂN PHỐI


0 1.799E-05 1.799E-05
1 0.0004905 0.0005085
2 0.0053344 0.005843
3 0.0306389 0.0364818
4 0.1034063 0.1398881
5 0.215085 0.3549731
6 0.2800586 0.6350317
7 0.2259296 0.8609613
8 0.1082579 0.9692193
9 0.0278558 0.9970751
10 0.0029249 1
Hình 2.4: Hàm f  x  và F  x  của X ~ H 50;30;10

Định lý. Trong mô hình phân phối siêu bội, khi thực hiện phép thử ta lấy liên tiếp n
lần không hoàn lại, mỗi lần lấy một phần tử. Ta gọi
1 nÕu lÇn i lÊy ®­îc phÇn tö lo¹i A.
Xi  
0 nÕu lÇn i kh«ng lÊy ®­îc phÇn tö lo¹i A.
i. Xác suất mỗi lần lấy phần tử A là như nhau, nghĩa là
NA
P  X i  1  ; i  1,..., n
N
ii. Với mọi i  j thì
NA N A  1
P  X i  1; X j  1 
N N 1

Chứng minh: Đặt các biến


Ai : “ trong n lần đầu có i phần tử loại A”, i  1,..., n
i. Xác suất lần n+1 lấy được phần tử loại A là
P  X n 1  1  P  A0  P  X k  1  A | A0   ...  P  An  P  X k 1  1| An 
k n k
n
N A  k C NA C N  NA 1  n n

 . n
 N C k C nk   kC Nk A C NnkNA 
n  A  N A N N A
k 0 N  n CN  N  n  C N  k 0 k 0 
n
1  n N A k 1 n  k  NA  n n1 k 1 n 1  k 1 
 N  n  C Nn  A N k 1 k NA 1 N NA   N  n C Nn  N 

  N C  k C C   C  C N A 1C N 1 NA 1 
k 1 
NA NA  n n n NA  n  NA

 N  n  N
C n  
CNn  C Nn11 
 nC Nn
N 
C N  C N  
 N
1   
   n  N  N
N
ii. Không mất tính tổng quát, ta giả sử j > i
N N 1
P  X i  1; X j  1  P  X i  1 P  X j  1| X i  1  A . A
N N 1
N 
Nhận xét : Ta thấy biến ngẫu nhiên X i ~ B  A  nên kỳ vọng và phương sai
 N 
NA N N  NA
EX i  ; Var  Xi   A .
N N N
CHƯƠNG 2 : PHÂN PHỐI XÁC SUẤT THÔNG DỤNG 33

NA NA  1
  
Kỳ vọng của tích E X i X j  P Xi  1; X j  1   .
N N 1
2
N 
Và tích của hai kỳ vọng EX i .EX j   A 
 N 
Hiệp phương sai
Cov  X i ; X j   E  X i X j   EX i .EX j
2
N A N A  1  NA  N A  N  NA 
   2
N N  1  N  N  N  1

Định lý (Các đặc trưng của biến ngẫu nhiên siêu bội). Nếu biến ngẫu nhiên
X ~ H  N ; N A ; n thì
NA
i. Kỳ vọng EX  np với p 
N
N n
ii. Phương sai VarX  npq với q  1  p
N 1

iii. Giá trị Mod với


 n  1  N A  1   1  ModX   n  1 N A  1
N 2 N 2

Chứng minh.
NA
i. Ta có X  X 1  X 2  ...  X n nên EX  EX 1  EX 2  ...  EX n  n
N
ii. Khai triển phương sai cho biểu thức:
 n  n N N  NA N  N  NA 
Var   X i    Var  X i   2 Cov  X i ; X j   n A .  2Cn2 2
 i 1  i 1 i j N N N  n  1
NA N  N A N  N  NA  N N  NA  n1 
n .   n  1 n 2 n A .  1
N N N  n  1 N N  N  1 
NA N  N A  N  n 
n . .
N N  N  1 
iii. Gọi Pk  P  X  k  ; xét tỷ số
Pk P X  k  N  k  1 n  k  1 
  A
Pk 1 P  X  k  1 k N  NA  n  k 

suy ra Pk là dãy tăng khi và chỉ khi k 


 n  1  N A  1  k
0
N 2

và là dãy không giảm khi và chỉ khi k  k0


 Khi k0 không là số nguyên. k  ModX là số nguyên lớn nhất nhỏ hơn k0 :
 n  1  N A  1   1  ModX   n  1 N A  1
N 2 N 2
 Khi k0 là số nguyên. Ta có ngay ModX  k0  k vì khi k  k0 thì Pk là dãy không giảm.
Mặc khác, lúc này nên Pk  Pk 1 cũng là ModX :
 n  1  N A  1   1  ModX   n  1 N A  1
N 2 N 2
Từ hai trường hợp trên suy ra
34

 n  1 N A  1  1  ModX   n  1 N A  1


N 2 N 2
Ví dụ 2.10 Có một cái hộp chứa 8 quả cầu trắng và 3 quả cầu đen. Lấy ngẫu nhiên không
hoàn lại 4 quả cầu. Gọi X là số quả cầu trắng lấy được. Tính xác suất
a. Lấy được ít nhất 1 quả cầu trắng.
b. Lấy được 2 quả cầu trắng.
c. Tính EX và VarX .
Giải.
X là số bi trắng lẫn trong 4 bi lấy ra, X ~ H  11;8;4  .
a. P  X  1  1
C 82C32 14
b. P  X  2  4

C11 15
8 32
c. Kỳ vọng EX  np  4. 
11 11

N n 8 3 7 336
Phương sai VarX  npq  4. . . 
N 1 11 11 10 605

Trong EXCEL, phân phối siêu bội được tính bằng lệnh : HYPGEOM.DIST
Sample_s : là số phần tử thỏa A
được lấy ra  k 
Number_sample : là số phần tử
lấy ra  n 
Population_s : là số phần tử
thỏa A có trong tập hợp.  N A 
Number_pop : là tổng số phần
tử có trong tập hợp  N 
Cumulative : bằng 0 nếu là hàm
mật độ và bằng 1 nếu là hàm
phân phối
Ví dụ 2.11 : X ~ H 50;30;10 
P  X  5   0,3550

Ví dụ 2.12 Trong một cuộc khảo sát được thực hiện bởi Tổ chức Gallup, người tham
gia được hỏi: “Bạn thích môn thể thao nào?” Bóng đã Mỹ và bóng rổ xếp hạng nhất và
hạng hai về sở thích (www.gallup.com, ngày 03/01/2004). Giả sử rằng trong một nhóm
10 người, bảy người thích bóng đá và ba người thích bóng rổ. Xét một mẫu ngẫu nhiên
gồm 3 trong số 10 người trên.
a. Xác suất có đúng 2 người thích bóng đá là bao nhiêu?
CHƯƠNG 2 : PHÂN PHỐI XÁC SUẤT THÔNG DỤNG 35

C72C31
P  X  2  3
 0.525
C10
b. Xác suất mà phần lớn (hai hay ba người) thích bóng đá là bao nhiêu?
C72C31 C73C30
P  X  2  P  x  2  P  X  3  3
 3  0.8176
C10 C10
2.3 Phân phối Poisson
Trong phần này ta xét biến ngẫu nhiên rời rạc thường dùng để ước lượng số lần xảy ra trong
một khoảng thời gian hoặc không gian nhất định.
Ví dụ 2.13 Biến ngẫu nhiên chỉ số ôtô đến một cửa hàng rửa xe trong một một giờ, số hư
hỏng cần sửa chửa trên 10 dặm đường cao tốc, hoặc số lỗ lủng trên 100m ống dẫn nước.
Tính chất của phép thử Poisson:
1. Đối với hai khoảng bất kỳ có độ dài bằng nhau thì xác suất xảy ra bằng nhau.
2. Việc xuất hiện hoặc không xuất hiện trong khoảng này độc lập với trong khoảng khác.

Định nghĩa (Phân phối Poisson). Biến ngẫu nhiên rời rạc X nhận giá trị nguyên dương
k  0,1,2,... với xác suất
 k e 
P X  k  ; k  0,1,2,...
k!
được gọi là có phân phối Poisson với tham số  , ký hiệu X ~ P    .

Ví dụ 2.14 Tại một trường đại học mở một khóa học, và học viên đăng ký qua điện thoại, theo
kinh nghiệm trong những đợt ghi danh trước thì trung bình cứ 2 phút có 1 cuộc gọi đến. Để
đạt hiệu quả cao trong việc tiếp học viên, quản lý phòng ghi danh cần quan tâm đến việc bố trí
nhân viên trực phù hợp thông qua các vấn đề:
a. Xác suất có 5 học viên gọi đến trong 10 phút.
b. Trung bình có bao nhiêu học viên gọi đến trong 10 phút.
c. Độ lệch chuẩn về số lượng học viên gọi đến trong 10 phút.
d. Số lượng học viên gọi điện đến chắc chắn nhất trong 10 phút là bao nhiêu.

Ví dụ 2.15 Tại một nhà máy dệt, trung bình có 8 ống sợi bị đứt trong hai giờ. Tìm xác
suất để trong một giờ có không quá 2 ống sợi bị đứt.
Giải. Gọi X là số ống sợi bị đứt trong một giờ, X ~ P  4 . Ta cần tìm xác suất
40 e 4 41 e 4 42 e 4
P  X  2  P  X  0   P  X  1   P  X  2      13e 4
0! 1! 2!
BNN MẬT ĐỘ
0 0.0183156 0.25
1 0.0732626 0.2
2 0.1465251
3 0.1953668 0.15

…. …. 0.1
12 0.0006415
0.05
13 0.0001974
14 5.64E-05 0
15 1.504E-05 0 5 10 15

Hình 2.4: Hàm f  x  của X ~ P  4


Định lý (Các đặc trưng của biến ngẫu nhiên phân phối Poisson). Nếu biến ngẫu nhiên X
36

có phân phối Poisson với tham số  , X ~ P    thì:


i. Kỳ vọng EX   .
ii. Phương sai VarX   .
iii.   1  ModX  

Ví dụ 2.16 Ở một tổng đài điện thoại, trung bình có 50 cuộc gọi đến trong 5 phút. Tìm
xác suất để trong 1 phút:
a. Có đúng 5 cuộc gọi đến trong 1 phút.
b. Có ít nhất 2 cuộc gọi trong 1 phút.
Giải. Trung bình trong một phút có 10 cuộc gọi đến. Gọi X là số cuộc gọi đến tổng đài
trong 1 phút thì X ~ P 10 

a. Xác suất có đúng 5 cuộc gọi đến trong 1 phút.


105 e 10
P  X  5   0.0378
5!
b. Xác suất có ít nhất 2 cuộc gọi đến trong một phút.
P  X  2   1  P  X  2  1  P  X  1   1  P  X  0   P  X  1   0.9995

Ví dụ 2.17 Tại một trường đại học đăng ký khóa học bằng điện thoại, trung bình có 1 cuộc
gọi đến trong 2 phút.
a. Số cuộc gọi kỳ vọng trong một giờ là bao nhiêu?
b. Xác suất có 3 cuộc gọi trong vòng 5 phút là bao nhiêu?
c. Xác suất không có cuộc gọi nào trong một khoảng thời gian là 5 phút là bao nhiêu?
Giải.
a. Vì trung bình có 1 cuộc gọi đến trong 2 phút nên có 30 cuộc gọi đến trong một giờ (60
phút)
b. Xác suất có 3 cuộc gọi trong vòng 5 phút là bao nhiêu?
e 10  103
P  X  3   0,0076
3!
với X là số cuộc gọi đến trong 5 phút
c. Xác suất không có cuộc gọi nào trong một khoảng thời gian là 5 phút là bao nhiêu?
e 10  100
P  X  0   4.54  105.
0!

2.4 Phân phối chuẩn


Định nghĩa (Phân phối chuẩn). Biến ngẫu nhiên lên tục X nhận giá trị trong khoảng
 ;   được gọi là có phân phối chuẩn tham số  ,  0 . Ký hiệu  
X ~ N  ,  2 nếu hàm
mật độ xác suất có dạng
  x   2 
 
1  2 2 
f x  e  
 x 
 2
CHƯƠNG 2 : PHÂN PHỐI XÁC SUẤT THÔNG DỤNG 37

Hình 2.5: Hàm f  x  của X ~ N   ; 2 


Nhận xét
1
 Hàm mật độ chuẩn dạng hình chuông đối xứng qua x   và giá trị cực đại
 2 
tại x  
 Hình 2.6 là đồ thị của biến ngẫu nhiên chuẩn khi cố định   0 , thay đổi giá trị của
  2  0.2;1;5 . Đồ thị hàm mật độ của biến ngẫu nhiên chuẩn với  2  0.2 sẽ cao hơn
và ít phân tán xung quanh giá trị trung bình hơn so với các trường hợp phương sai lớn
hơn.

Hình 2.6: Hàm f  x  của X ~ N   ; 2 


Định lý (Các đặc trưng của biến ngẫu nhiên chuẩn). Nếu X là biến ngẫu nhiên có
phân phối chuẩn tham số  ; thì
i. EX   và VarX   2
ii. ModX  

Định nghĩa (Phân phối chuẩn tắc). Biến ngẫu nhiên Z có phân phối chuẩn với tham
số   0 và  2  1 được gọi là có phân phối chuẩn tắc, ký hiệu Z ~ N  0;1 Hàm mật độ
của Z ~ N  0;1
 z2 
1   
 2
f z  e ,  z 
2
Đồ thị hàm mật độ biến ngẫu nhiên chuẩn tắc Z ~ N  0;1 đối xứng qua trục tung,
38

Hình 2.7: Hàm f  x  của X ~ N 0;1 


x

Định nghĩa (Hàm Laplace). Cho Z ~ N  0;1  . Đặt   x    f  z  dz , 0  x gọi là hàm


0

Laplace (Giá trị   x  được tính sẵn trong bảng B.2 phần phụ lục)

Hình 2.8: Hàm Laplace   x 


z 0.00 0.01 0.02 0.06 0.07 0.08 0.09
… … … … … … … … …
1.7 0.4554 0.4564 0.4573 … 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 … 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 … 0.4750 0.4756 0.4761 0.4767
2.0 0.4772 0.4778 0.4783 … 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 … 0.4846 0.4850 0.4854 0.4857
… … … … … … … … …
Đối với bảng tra B2 thì đo vùng xác suất   x  từ 0 đến cận x . Tức nếu biết cận thì sẽ tìm được
vùng xác suất và ngược lại.
Ví dụ :  1,96   0,475 , tức vùng xác suất từ 0 đến 1,96 trong quy luật phân phối chuẩn đơn giản
bằng 0,475.
Đối với bảng tra trong Excel ta dùng 2 lệnh sau:
 NORMSDIST(z) : đo vùng xác suất tới cận z trong quy luật phân phối chuẩn.
Ví dụ: Trong excel NORMSDIST 1,96   0,975 , ta có thể hiểu chênh lệch với kết quả trong bảng
tra là 0,5; là vùng xác suất từ  đến 0.
 NORMSINV(probability) : đo cận tương tứng với vùng xác suất tính từ  .
Ví dụ: Trong excel NORMSINV (0,975)  1,96
Nếu ta cần làm việc với phân phối chuẩn tổng quát, trong EXCEL có 2 hàm sau:
CHƯƠNG 2 : PHÂN PHỐI XÁC SUẤT THÔNG DỤNG 39

Hàm NORM.DIST
X: cận của vùng tính xác suất
P    X  x 
Mean: kỳ vọng   
Standard_dev: độ lệch chuẩn  s 
Cumulative: bằng 0 nếu là hàm mật
độ, bằng 1 nếu là hàm phân phối.
Hàm NORM.INV
Probability : giá trị xác suất tính từ
 đến cận cần tìm p  P    X  x 

Tính chất. Hàm Laplace   x  có các tính chất:


i.    x     x  .
ii.      0.5 và      0.5
iii. Nếu Z ~ N  0;1 thì P  a  Z  b     b     a 
X  b   a 
iv. Nếu X ~ N   ; 2  thì Z  ~ N  0;1 và P  a  X  b         
     

Ví dụ 2.18 Cho biến ngẫu nhiên X ~ N 0;1 ; tính các xác suất.
a. P  1  X  2 
b. P 1.5  X 
Giải. Theo tính chất iii
a. P  1  X  2    2    1   2   1  0.4772  0.3413  0.8185
b. P 1.5  X   P  1.5  X           1.5  0.5  0.4332  0.0668

Ví dụ 2.19 Điểm Toeic của sinh viên sắp tốt nghiệp ở trường đại học có phân phối
chuẩn với giá trị trung bình 560 và độ lệch chuẩn 78. Tính:
a. Tỷ lệ sinh viên có điểm nằm giữa 600 và 700.
b. Tỷ lệ sinh viên có điểm Toeic trên 500.
c. Giả sử nhà trường muốn xác định điểm Toeic tối thiểu để sinh viên có thể ra trường với tỉ lệ
80%. Tính điểm Toeic tối thiểu (lấy phần nguyên).
Giải. Gọi X là điểm Toeic của sinh viên sắp tốt nghiệp,
a. Tỷ lệ sinh viên có điểm nằm giữa 600 và 700
 700  560   600  560 
P  600  X  700       
 78   78 
  1,79    0,51  0,4633  0,1950  0,2683
b. Gọi k là đểm Toeic của sinh viên có thể ra trường. Theo giả thiết
40

   560   500  560 


P 500  X   P 500  X          
 78   78 
        0,77   0,50  0,2794  0,7794
c. Gọi k là điểm Toeic của sinh viên có thể ra trường. Theo giả thiết
 k  560   k  560 
P  k  X   0.8           0.8    78   0.3
 78   
k  560
Tra bảng B.2 ta được  0,84 vậy k  494 .
78

Ví dụ 2.20 Đối với người đi vay có điểm tính dụng tốt, nợ trung bình của các tài khoản trả dần và
tài khoản trả góp là 15015 USD (Business Week, 20/3/2006). Giả sử độ lệch chuẩn là 3540 USD
và tiền nợ có phân phối chuẩn.
a. Xác suất để tiền nợ của người vay có điểm tín dụng tốt được lựa chọn ngẫu nhiên cao hơn
18000 USD là bao nhiêu?
b. Xác suất để tiền nợ của người vay có điểm tín dụng tốt được lựa chọn ngẫu nhiên thấp hơn
10000 USD là bao nhiêu?
c. Xác suất để tiền nợ của người vay có điểm tín dụng tốt được lựa chọn ngẫu nhiên nằm giữa
12000 USD và 18000 USD là bao nhiêu?
d. Xác suất để tiền nợ của người vay có điểm tín dụng tốt được lựa chọn ngẫu nhiên không cao
hơn 14000 USD là bao nhiêu?
Giải.
Gọi X là tiền nợ của người đi vay có điểm tín dụng tốt. X ~ N 15015; 35402 
a. Xác suất để tiền nợ của người vay có điểm tín dụng tốt được lựa chọn ngẫu nhiên cao hơn 18
000 USD là bao nhiêu?
 18000  15015 
P  X  18000  0.5      0.5    0.84   0.5  0.2995  0.2005
 3540 
b. Xác suất để tiền nợ của người vay có điểm tín dụng tốt được lựa chọn ngẫu nhiên thấp hơn
10 000 USD là bao nhiêu?
 10000  15015 
P  X  10000      0.5    1.42  0.5  0.4222  0.5  0.0778
 3540 
c. Xác suất để tiền nợ của người vay có điểm tín dụng tốt được lựa chọn ngẫu nhiên nằm giữa
12000 USD và 18000 USD là bao nhiêu?
 18000  15015   12000  15015 
P 12000  X  18000       
 3540   3540 
   0.84     0.85  0.2996  0.3023  0.6019
d. Xác suất để tiền nợ của người vay có điểm tín dụng tốt được lựa chọn ngẫu nhiên không cao
hơn 14 000 USD là bao nhiêu?
 14000  15015 
P  X  14000      0.5    0.29   0.5  0.1141  0.5  0.3859
 3540 
2.5 Phân phối Chi bình phương
Định nghĩa (Phân phối Chi bình phương). Cho các biến ngẫu nhiên X 1 ,..., X n độc lập cùng
phân phối chuẩn tắc, X i ~ N  0;1 . Biến ngẫu nhiên  2  X 12    X n2 được gọi là có phân
phối Chi - bình phương với n - bậc tự do , ký hiệu  2 ~  2,n .
CHƯƠNG 2 : PHÂN PHỐI XÁC SUẤT THÔNG DỤNG 41

Với  2 được định nghĩa như trên, ta tìm được hàm mật độ của  2 . Trước hết ta nhận xét
  2
P X 12  x  0 với mọi x  0 . Nếu x  0 thì hàm phân phối xác suất của X1 là

    
P X 12  x  P  x  X 1  x  F  x  F   x  (*)
Trong đó F là hàm phân phối của biến ngẫu nhiên có phân phối chuẩn tắc. Lấy đạo hàm
ha i v ế c ủa (*), ta nhận được biểu t hứ c hàm mật độ của X12 là
 1  1   12 x2 
 x 2 e   khi x  0
 2

0 khi x  0

Hình 2.9: Hàm f  x  của X ~  2;k k  1 ; 2 ; 3; 4 ; 6 ; 9

Định lý (Các đặc trưng của phân phối Chi bình phương). Nếu biến ngẫu nhiên  2 ~  2,n
thì
i. Kỳ vọng EX  n
ii. Phương sai VarX  2n

Hình 2.10: Hàm f  x  của X ~  2;n


Tra bảng B4 phần phụ lục bảng tra phân phối Chi Bình Phương.
r … 0.995 0.01 0.99 0.015 0.985 …
… … … … … … … …
7 … 0.9893 18.4753 1.239 17.3984 1.4184 …
8 … 1.3444 20.0902 1.6465 18.9739 1.8603 …
9 … 1.7349 21.666 2.0879 20.5125 2.3349 …
10 … 2.1559 23.2093 2.5582 22.0206 2.8372 …
11 … 2.6032 24.725 3.0535 23.5028 3.3634 …
Dòng là bậc tự do n và cột là xác suất ở đuôi (phải) của quy luật phân phối
Ví dụ 2.21 2;10
 ~  2;10 , ta có  0.01  23,2093 , nghĩa là P    23,2093  1% .
42

Trong EXCEL, phân phối siêu bội được tính bằng lệnh : CHISQ.DIST và CHISQ.INV
Hàm CHISQ.DIST
X : cận vùng xác suất tính
từ 0 : P  0   2  x 
Deg_freedom: bậc tự do
n
Cumulative: bằng 0 nếu là
hàm mật độ, bằng 1 nếu là
hàm phân phối.
Hàm CHISQ.INV
Probability: Xác suất của
vùng tính từ 0 đến cận x :

p  P 0  2  x 

Ví dụ 2.22 Cho  2 ~  2,15 , tính P   2  32,8  và  0.975


2,15

Giải. Tra bảng B.5 ta tìm được : P   2  32.8   0.995

Và P   2  27.49   0.975 cho nên 0.975


2,15
 27.4884

2.6 Phân phối Student


Định nghĩa (Phân phối Student). Cho X ~ N  0;1  ; Y ~  2,n và X; Y độc lập. Khi đó biến ngẫu
nhiên
X n
T
Y
được gọi là có phân phối Student với n bậc tự do, ký hiệu T ~ T n .

Hình 2.10: Hàm f  x  của X ~ T n n  1 ; 2 ; 5; 


Bây giờ ta đi tìm hàm mật độ của biến ngẫu nhiên T ~ T n . Bởi vì X và Y độc lập cho nên
CHƯƠNG 2 : PHÂN PHỐI XÁC SUẤT THÔNG DỤNG 43

hàm mật độ đồng thời sẽ là g  x ; y   gX  x  gY  y  , với gX  x  và gY  y  lần lượt là hàm


mật độ của các biến ngẫu nhiên X và Y .
 x2  y 
1 

2 

g  x; y   e 

 n1 /2 n


2 2   
2
Thực hiện đổi biến:
W  Y Y  W
 
 X n  1
T  X  n T W
 Y 
Jacobian của phép đổi biến từ X và Y sang T và W là
y y 1 0
w t w
J  t w 
x x n
2 nw n
w t
 1  t 2  
n   1  w 
1 2
 2  n  
Suy ra f  t ; w   g  x t ; w  , y  t ; w   . J  w  
e
n
2
n 1 /2
2   
2
 n1   n 1 

2  

t2  2

Vậy hàm mật độ của T : fT  t   f  t ; w  dw  
 1   ;    x  
n n
0 n    
 2

Hình 2.11: Hàm f  x  của X ~ T n


Tra bảng B3 phần phụ lục bảng tra phân phối Student:
r … 0.015 0.02 0.025 0.03 0.035 …
… … … … … … … …
7 … 2.7146 2.5168 2.3646 2.2409 2.1365 …
8 … 2.6338 2.449 2.306 2.1892 2.0902 …
9 … 2.5738 2.3984 2.2622 2.1504 2.0554 …
10 … 2.5275 2.3593 2.2281 2.1202 2.0283 …
11 … 2.4907 2.3281 2.201 2.0961 2.0067 …
Dòng là bậc tự do : n và Cột là xác suất của đuôi (phải) quy luật phân phối.
10
Ví dụ 2.23 Cho T ~ T10 , ta có t 0,025  2,2281 , nghĩa là P T  t 0,025
10
  2,5% .
Trong EXCEL, phân phối siêu bội được tính bằng lệnh : T.DIST và T.INV
44

Hàm T.DIST
x : cận vùng xác suất tính
từ  : P    T  x 
Deg_freedom: bậc tự do
 n
Cumulative: bằng 0 nếu là
hàm mật độ, bằng 1 nếu là
hàm phân phối.
Hàm T.INV
Probability: vùng xác suất
tính từ  đến cận x :
p  P    T  x 

Giống như phân phối chuẩn tắc, hàm mật độ của biến ngẫu nhiên có phân phối Student
đối xứng qua trục tung. Hơn nữa, là khi n càng lớn thì hàm mật độ của T ~ T n càng giống
với hàm mật độ chuẩn tắc, bởi vì
 2  X 12  ...  X n2

với X i ,  i  1,..., n ; là các biến ngẫu nhiên độc lập cùng phân phối chuẩn tắc.

2 P X n F
Theo định lý luật số lớn 6.10 thì  1 . Cũng từ định lý 6.7 thì T  X

n 2
Vậy khi n lớn thì phân phối của biến ngẫu nhiên T ~ Tn được xấp xỉ bằng phân phối của
biến ngẫu nhiên X ~ N 0;1  ;
Nếu gọi F1  x  , F2  x  lần lượt là hàm phân phối xác suất của Z ~ N  0;1 và T ~ T n . Sai số
khi ta xấp xỉ phân phối Student bằng phân phối chuẩn tắc
err  x   F1  x   F2  x  , x  

Sai số lớn nhất sẽ giảm khi n tăng. Sai số lớn nhất là 0,1256 khi n  1 và giảm nhanh đến
0,005244 khi n  30 ; xem hình 5.13.
Khi bậc tự do n  30 ; sai số giữa hai phân phối được mô đánh giá như đồ thị 5.14.
Sai số lớn nhất sẽ giảm khi n tăng lên, sai số lớn nhất là 0,1256 khi n  1 sẽ giảm xuống còn
0,005244 khi n  30 .
Nên trong thực nghiệm, khi n đủ lớn ( n  30 ) ta có thể xấp xỉ phân phối Student bằng phân phối
chuẩn
CHƯƠNG 2 : PHÂN PHỐI XÁC SUẤT THÔNG DỤNG 45

0.14

ĐỘ LỆCH HAI PHÂN PHỐI


0.12
0.1
0.08
0.06
0.04
0.02
0
0.00 0.20 0.40 0.60 0.80 1.00 1.20 1.40 1.60 1.80 2.00 2.20 2.40 2.60 2.80 3.00 3.20 3.40
cận x

r=1 r = 10 r = 30

Hình 2.12: Biểu đồ mức chênh lệch giữa phân phối chuẩn và Student
CHƯƠNG 1: BIẾN NGẪU NHIÊN 1

CHƯƠNG
1
Mục lục chương 1

1.1 Khái niệm biến ngẫu nhiên ...................................................................................... 1


1.2 Biểu diễn biến ngẫu nhiên........................................................................................ 3
1.3 Hàm phân phối biến ngẫu nhiên ........................................................................... 8
1.4 Hai biến ngẫu nhiên rời rạc độc lập ...................................................................11
1.5 Hàm của biến ngẫu nhiên .......................................................................................12
1.6 Các đặc trưng số của biến ngẫu nhiên ..............................................................14

Ban đầu khi tiếp cận về lý thuyết xác suất, sinh viên đã tiếp cận về khái niệm biến cố, phân
loại và phương pháp tính xác suất xảy ra của các biến cố. Trong chương một này, mục tiêu
là tiếp tục cung cấp các kiến thức cơ bản cho sinh viên về lý thuyết xác suất ở mức độ hệ
thống và quản lý khả năng xảy ra của các kết quả có thể có trong một phép thử. Khái niệm
mới được đưa vào trong chương này là thuật ngữ biến ngẫu nhiên, là một khái niệm quan
trọng trong lý thuyết xác suất, giúp chúng ta hiểu rõ quy luật, bản chất của các hiện tượng
ngẫu nhiên.
1.1 Khái niệm biến ngẫu nhiên
Trong nhiều trường hợp, chúng ta không quan tâm chi tiết đến mọi kết quả trong không
gian mẫu của phép thử mà thay vào đó ta quan tâm đến phân nhóm cho các kết quả đó. Ví
dụ thực hiện phép thử tung 3 đồng xu lần lượt, ta có không gian mẫu của phép thử là:
S  NNN ; NNS ; NSN ; NSS ; SNN ; SNS ; SSN ; SSS 

Trong đó ký hiệu S : tung đồng xu được sấp và N : tung đồng xu được ngữa. Như vậy ta
có thể phân loại kết quả của phép thử thành 4 trường hợp: không được mặt sấp nào có
1 3 3
xác suất là , được một mặt sấp có xác suất là , được hai mặt sấp có xác suất là và
8 8 8
1
được ba mặt sấp có xác suất là . Như vậy nếu ta đặt một biến ngẫu nhiên chỉ số mặt sấp
8
có được sau 3 lần tung, kí hiệu là X , thì X 0,1,2,3 sẽ đại diện cho 8 trường hợp trong

không gian mẫu của phép thử.


Như vậy khái niệm biến ngẫu nhiên được mô hình hóa như sau:
2

Định nghĩa Biến ngẫu nhiên X của một phép thử là một hàm số đi từ không gian các biến
cố sơ cấp S vào R :
X :S 
  X  X  

Biến ngẫu nhiên


X

Hình 1.1: Biến ngẫu nhiên X.

Người ta thường dùng các chữ in X; Y; Z; … để ký hiệu các biến ngẫu nhiên và các chữ
thường x; y; z; … để chỉ các giá trị của biến ngẫu nhiên.

Ta ký hiệu biến ngẫu nhiên X nhận giá trị x là X  x và xác suất để X nhận giá trị x là
PX  x .
Ví dụ 1.1.
Thực hiện phép thử tung đồng xu 3 lần, gọi X là biến ngẫu nhiên chỉ số mặt sấp có được
trong 3 lần tung.
Ta có không gian mẫu của phép thử S  NNN ; NNS ; NSN ; NSS ; SNN ; SNS ; SSN ; SSS 

Và biến ngẫu nhiên X : S   có các giá trị như sau

X  NNN   0 ; X  NNS   1 ; X  NSN   1 ; X  NSS   2

X  SNN   1 ; X  SNS   2 ; X  SSN   2 ; X  SSS   3


Như vậy về mặt xác suất của biến ngẫu nhiên ta có:
1 3 3 1
P  X  0  ; P  X  1   ; P  X  2   ; P  X  3 
8 8 8 8
3
Lưu ý. Ký hiệu P  X  2  có thể hiểu là xác suất tung đồng xu 3 lần có 2 lần được sấp
8
3
là bằng .
8

Ví dụ 1.2.
CHƯƠNG 1: BIẾN NGẪU NHIÊN 3

Một quyển tập Starbook có kích thước chuẩn 175  255 2mm  đang được lưu hành

ngoài thị trường. Chọn một quyển tập bất kỳ và đo chiều dài quyển tập. Gọi X là biến
ngẫu nhiên chỉ số đo chiều dài quyển tập.
Trong trường hợp này thì tập giá trị của biến ngẫu nhiên X là tất cả các giá trị nằm trong
khoảng  253 ;257  mm .

Dựa trên tập giá trị của biến ngẫu nhiên có thể nhận được, người ta phân biến ngẫu
nhiên ra làm hai loại.

Biến ngẫu nhiên được gọi là rời rạc: nếu tập giá trị của biến ngẫu nhiên chỉ nhận hữu
hạn hoặc vô hạn đếm được các giá trị. Ta có thể liệt kê các giá trị của biến ngẫu nhiên rời
rạc x1 , x2 ,..., x n ,...

Biến ngẫu nhiên được gọi là liên tục: nếu tập giá trị của biến ngẫu nhiên có thể lấy bất
kỳ trên một khoảng của trục số thực.

Ví dụ 1.3.
Quan sát kết quả bài thi lấy chứng chỉ kiểm toán viên (CPA) của một nhân viên kế toán.
Bài kiểm tra gồm 4 phần. Gọi X là số phần của bài kiểm tra mà nhân viên đó đã vượt qua.
Khi đó, X là biến ngẫu nhiên rời rạc vì tập các giá trị mà nó có thể nhận là hữu hạn gồm
các giá trị 0, 1, 2, 3, 4.

Ví dụ 1.4.
Quan sát xe ô tô đi qua một trạm thu phí. Biến ngẫu nhiên X là số xe hơi đi qua trạm thu
phí trong 1 ngày. Khi đó, X là biến ngẫu nhiên rời rạc có thể nhận một trong các giá trị của
dãy vô hạn (0, 1, 2, … ).

Ví dụ 1.5.
Chiều cao của thanh niên Việt Nam thường nằm trong khoảng từ 150 cm đến 180 cm.
Chiều cao đo được cụ thể của một thanh niên nào đó có thể nhận bất kỳ giá trị nào nằm
trong khoảng này, tùy thuộc vào độ chính xác sủa phép đo.

Ví dụ 1.6.
Quan sát các cuộc gọi đến phòng tiếp nhận thông tin của một công ty bảo hiểm. Gọi X là
thời gian giữa hai cuộc gọi liên tiếp. X có thể nhận bất kỳ giá trị nào trong khoảng 0;   

. X có thể nhận vô số các giá trị, chẳng hạn 1,26 phút, 2,755 phút, …

1.2 Biểu diễn biến ngẫu nhiên.

1.2.1 Biến ngẫu nhiên rời rạc.

I. Bảng phân phối xác suất.


4

Với X là biến ngẫu nhiên rời rạc, tập giá trị của X gồm các giá trị x1 ; x2 ;...; x n ;... với

x1  x2  ...  x n  ... . Và xác suất tương ứng với các giá trị của biến ngẫu nhiên là

P  X  xi   pi với i  1,2,..., n,... .

Để biểu diễn biến ngẫu nhiên X ta dùng bảng phân phối xác suất có cấu trúc như sau:

X x1 x2 … xn …
P p1 p2 … pn ...

Nhận xét. Trong kết quả phép thử ngẫu nhiên, biến ngẫu nhiên rời rạc chỉ nhận một trong

 
các giá trị x1 ,..., xn ,... nên các biến cố X  x j và  X  x i  xung khắc với mọi i  j .

Tính chất. Bảng phân phối xác suất của biến ngẫu nhiên có tính chất sau:
 
i P X  x   p
i 1
i
i 1
i 1

ii P a  X  b   PX  x    i pi
a  xi  b a xi  b

II. Hàm mật độ xác suất.

Cho biến ngẫu nhiên rời rạc X nhận các giá trị x1 , x2 ,..., x n ,... với xác suất tương ứng là

P  X  xi   pi . Hàm mật độ xác suất biến ngẫu nhiên X dạng f :    thỏa

p , x  xi
f x   i với i  1,2,..., n,...
0, x  xi

Tính chất. Tương tự bảng phân phối, hàm mật độ xác suất có các tính chất sau:

i f  x   0 ; x 

ii  f x   1
x

iii P  a  X  b    f x 
a x  b

Ví dụ 1.7.
Với phép thử gieo 4 đồng xu lần lượt, và đặt là biến ngẫu nhiên chỉ số mặt sấp có được
sau 4 lần tung. Ta có bảng phân phối xác suất và hàm mật độ xác suất cho .
X 0 1 2 3 4
1 4 6 4 1
P
16 16 16 16 16
CHƯƠNG 1: BIẾN NGẪU NHIÊN 5

Hình 1.2: Hàm mật độ xác suất biến ngẫu nhiên rời rạc.

Ví dụ 1.8.
Xem xét doanh thu bán xe ô tô tại cửa hàng Dicalo Motors ở Saratoga, New York. Quan sát
300 ngày, thấy rằng có 54 ngày không bán được chiếc ô tô nào, 117 ngày bán được một
chiếc, 72 ngày bán được 2 chiếc, 42 ngày bán được 3 chiếc, 12 ngày bán được 4 chiếc, 42
ngày bán được 3 chiếc, 12 ngày bán được 4 chiếc và 3 ngày bán được 5 chiếc. Giả sử phép
thử là chọn một ngày bất kỳ của DiCarlo Motors và định nghĩa biến ngẫu nhiên X là số
chiếc ô tô bán được trong ngày đó. Từ dữ liệu quá khứ, ta biết X là biến ngẫu nhiên rời rạc
có thể nhận một trong các giá trị 0, 1, 2, 3, 4, 5. Ta có bảng phân phối xác suất của biến
ngẫu nhiên X như sau:
X 0 1 2 3 4 5
P 0,18 0,39 0,24 0,14 0,04 0,01
0.5

0.4

0.3

0.2

0.1

0
0 1 2 3 4 5

Ví dụ 1.9.
Giả sử biến ngẫu nhiên X có bảng phân phối xác suất như sau:
X 1 2 3 4
1 2 3 4
P
10 10 10 10
Phân phối xác suất của biến ngẫu nhiên X có thể được biểu diễn bằng công thức:
x
f x  , với x  1,2,3, hoặc 4
10
Ứng với từng giá trị có thể có của X, ta có thể xác định phân phối xác suất f  x 
6

2
tương ứng. Chẳng hạn, ta có thể xác định f  2  chính là xác suất để X nhận
10
giá trị 2.

1.2.2 Biến ngẫu nhiên liên tục.

I. Hàm mật độ xác suất.

Cho biến ngẫu nhiên liên tục X , có tập giá trị D , hàm mật độ xác suất của biến ngẫu
nhiên X là hàm f  x  thỏa với mọi a, b  D thì:
b
P  a  X  b    f  x  dx
a

Ý nghĩa. Hàm mật độ xác suất của biến ngẫu nhiên liên tục miêu tả xác suất biến ngẫu
nhiên thuộc một khoảng giá trị bằng vùng diện tích của hàm mật độ trong khoảng đó.

Hình 1.4: Hàm mật độ xác suất biến ngẫu nhiên liên tục.

II. Tính chất hàm mật độ xác suất.


Theo định nghĩa của hàm mật độ xác suất của biến ngẫu nhiên liên tục ta có hai tính chất
cơ bản của hàm mật độ:
i f  x   0 với mọi x    ,  

ii  f  x  dx  1


Nhận xét. Tính chất ii) giúp chỉ ra mối quan hệ giữa định nghĩa hàm mật độ xác suất và
công thức tính xác suất.

A  f  x  dx
P  X  A   xA

  f  x  dx
S
 f  x  dx
xA


Hệ quả.
CHƯƠNG 1: BIẾN NGẪU NHIÊN 7

iii Đối với biến ngẫu nhiên liên tục thì mật độ xác suất tại một điểm thì bằng 0,
P  X  x0   0 , x0  .
iv Từ đó ta có
b
P  a  X  b   P  a  X  b   P  a  X  b   P  a  X  b    f  x  dx
a

Ví dụ 1.10.
Cho biến ngẫu nhiên liên tục X có hàm mật độ xác suất

kx 3 khi 0  x  1
f x  
0 khi x  0  x  1
a. Xác định hằng số k .
b. Tính xác suất biến ngẫu nhiên X 0,4;0,6

Giải.
a. Xác định hằng số k .
Theo tính chất ii) ta có
 0 1  1
3 k 4 k
 f  x  dx  1   0dx  0 kx dx  1 0dx  1   4 x   1  4  1
 0

Vậy để f  x  là hàm mật độ xác suất của biến ngẫu nhiên X thì k  4 . Và

4x 3 khi 0  x  1
f x  
0 khi x  0  x  1

Hình 1.5: Hàm mật độ xác suất biến ngẫu nhiên liên tục

b. Xác suất biến ngẫu nhiên X 0,4;0,6


0,6
3 13
P  0,4  X  0,6    4 x dx  125
0,4

13
Xác suất X 0,4;0,6 bằng so với 1 là xác suất X chắc chắn thuộc 0;1 .
125
8

Ví dụ 1.11.

Nhãn trên chai nước giặt cho biết mỗi chai chứa 12 ounces. Giả sử dung tích trên các chai
sản xuất được phân phối đều theo hàm mật độ xác suất sau:

8 khi 11,975  x  12,1


f x  
0 khi x  11,975  x  12,1

Gọi X là biến ngẫu nhiên chỉ dung tích trên một chai nước giặt.

a. Xác suất để một chai chứa từ 12 đến 12,05 ounces là bao nhiêu?

b. Xác suất để một chai chứa từ 12,02 ounces trở lên là bao nhiêu?

c. Những chai có dung tích sai lệch không quá 0,02 ounces so với số in trên nhãn được
chấp nhận là đạt tiêu chuẩn. Xác suất để một chai không đạt tiêu chuẩn là bao
nhiêu?

Giải.

a. Xác suất để một chai chứa từ 12 đến 12,05 ounces là bao nhiêu?

Tức là ta cần tính P  12  X  12,05

12,05 12,05
P  12  X  12,05   8dx  8 x 12  0,4.
12

b. Xác suất để một chai chứa từ 12,02 ounces trở lên là bao nhiêu?
12,1 12,1
P  X  12,05  P 12,05  X  12,1    8dx  8 x 12,05  0,4.
12,05

c. Những chai có dung tích sai lệch không quá 0,02 ounces so với số in trên nhãn được
chấp nhận là đạt tiêu chuẩn. Xác suất để một chai không đạt tiêu chuẩn là bao nhiêu?

Xác suất để một chai đạt tiêu chuẩn là:


12,02 12,02
P  X  12  0,02  P 11,98  X  12,02   8dx  8x 11,98  0,32.
11,98

Vậy, xác suất để một chai không đạt tiêu chuẩn là 1  0,32  0,68.

1.3 Hàm phân phối biến ngẫu nhiên.

I. Định nghĩa hàm phân phối xác suất.

Hàm phân phối xác suất của biến ngẫu nhiên X là hàm F  x  được định nghĩa:

F :    với
F x  PX  x

Hàm phân phối xác suất hay còn gọi là hàm phân phối tích lũy.
CHƯƠNG 1: BIẾN NGẪU NHIÊN 9

Nhận xét. Khai triển công thức hàm phân phối trong hai trường hợp:
i. Trường hợp X là biến ngẫu nhiên rời rạc
F  x   P  X  x    P  X  xi    pi
xi  x xi  x

Ví dụ 1.12.
Ta có bảng phân phối xác suất của X

X x1 x2 … xn
P p1 p2 … pn

Theo định nghĩa hàm phân phối sẽ có dạng:

0 ; x  x1

 p1 ; x1  x  x2
 p  p ; x 2  x  x3
F x   1 2
............
 p1  p2  ...  pn1 ; xn 1  x  x n

1 ; xn  x

Hình 1.6: Hàm phân phối biến ngẫu nhiên rời rạc.
ii. Trường hợp biến ngẫu nhiên liên tục
x
F x   P  X  x    f u  du


Ví dụ 1.13.
Cho biến ngẫu nhiên X liên tục có hàm mật độ xác suất

4x 3 khi 0  x  1
f x  
0 khi x  0  x  1
Lập hàm phân phối xác suất cho biến ngẫu nhiên X
Giải.
x x
Nếu x  0 ta có F  x    f  t  dt   0dt  0
 

x x x
x
Nếu 0  x  1 ta có F  x    f  t  dt   f t  dt   4t 3dt  t 4  x 4
0
 0 0
x 1 x 1
Nếu x  1 ta có F  x    f  t  dt   f t  dt   0dt   4t 3dt  1
 0 1 0

Vậy hàm phân phối của biến ngẫu nhiên X có dạng


10

0 ;x  0

F  x   x 4 ;0  x  1
1 ;1  x

0 ;x  0
4 x 3 khi 0  x  1 
f x   F  x   x 4 ;0  x  1
0 khi x  0  x  1 1 ;1  x

Nhận xét. Nếu một biến ngẫu nhiên X liên tục có
h x  , x   a; b 
hàm mật độ dạng f  x    ; với h x  liên tục trên  a; b .
0, x   a; b 

0 ;x  a

thì hàm phân phối xác suất dạng F  x   H  x  ; a  x  b ; với H '  x   h  x  .

1 ;b  x

II. Tính chất hàm phân phối xác suất.


Hàm phân phối xác suất F  x  có các tính chất cơ bản sau:

i. 0  F  x   1 , x 

ii. Hàm F  x  là hàm không giảm, nghĩa là với x1  x 2  F  x1   F  x 2 

iii. Với F  x  là hàm phân phối của biến ngẫu nhiên liên tục ta có

P  a  X  b   F  b   F  a  với mọi a , b   , a  b

iv. Quan hệ giữa f  x  và F  x  .

Nếu hàm phân phối xác suất F  x  của biến ngẫu nhiên X khả vi tại mọi x , với f  x  là

hàm mật độ xác suất, thì ta có:


CHƯƠNG 1: BIẾN NGẪU NHIÊN 11

x
F x   f t  dt F ' x   f  x 


1.4 Hai biến ngẫu nhiên rời rạc độc lập.


Cho biến ngẫu nhiên X và Y rời rạc có bảng phân phối xác suất lần lượt:

X x1 x2 … xn Y y1 y2 … ym
P p1 p2 … pn P q1 q2 … qn

1.4.1 Hai biến ngẫu nhiên rời rạc độc lập.

Hai biến ngẫu nhiên X ;Y được gọi là độc lập với nhau khi và chỉ khi xác suất biến ngẫu
nhiên này nhận giá trị không ảnh hưởng đến xác suất biến ngẫu nhiên kia nhận giá trị.
Và theo công thức nhân xác suất trong chương 1 ta có:

 
P  X  xi  . Y  y j   P  X  xi  .P Y  y j   pi .q j i , j

Ví dụ 1.14.
Tung 2 viên xúc sắc riêng biệt. Gọi X ; Y là biến ngẫu nhiên chỉ số nút của xúc sắc thứ nhất
và thứ hai. Ta có ví dụ
1 1 1
P   X  2 . Y  3    .  P  X  2 .P Y  3
36 6 6
Là một trường hợp về xác suất của cặp giá trị X ;Y nhận được lần lượt là 2 ; 3.
1 1 1
Tương tự ta có P   X  i  . Y  j    36  .  P  X  i  .P  Y  j 
6 6
i , j  1,6

Nghĩa là hai biến ngẫu nhiên X ;Y độc lập với nhau.

1.4.2 Kết hợp hai biến ngẫu nhiên rời rạc độc lập.

Cho biến ngẫu nhiên X và Y rời rạc, độc lập có bảng phân phối như ban đầu

Ta có biến ngẫu nhiên  X  Y  có bảng phân phối xác suất dạng:


X Y z1 z2 … zk
P P1 P2 … Pk


Trong đó  z1 ; z2 ;...; zk   x i  y j / i  1, n ; j  1, m 
Và Pl  P  X  Y  zl    P  X  xi  .P Y  y j    pi q j
xi ; y j : xi  y j  zl xi ; y j : xi  y j  zl

Tương tự trong một trường hợp khác nếu ta kết hợp  X .Y  thì bảng phân phối xác suất
có cấu trúc tương tự:
12

X .Y z1 z2 … zk
P P1 P2 … Pk


Trong đó z1 ; z2 ;...; zk   x i . y j / i  1, n ; j  1, m 
Và Pl  P  X .Y  zl    P  X  x i  .P Y  y j    pi q j
xi ; y j : xi . y j  zl xi ; y j : xi . y j  zl

Ví dụ 1.15.
Cho hai biến ngẫu nhiên rời rạc X ;Y độc lập có bảng phân phối xác suất lần lượt:

X -1 1 2 3 Y 1 3 5
P 0,3 0,4 0,2 0,1 P 0,3 0,5 0,2

Lập bảng phân phối xác suất cho biến ngẫu nhiên  X  Y  .
Giải.
Ta có bảng phân phối xác suất của  X  Y  dạng:
X Y 0 2 3 4 5 6 7 8
P 0,09 0,27 0,06 0,29 0,1 0,13 0,04 0,02
Trong đó:
P  X  Y  0  P  X  1  .P Y  1   0,3.0,3  0,09
P  X  Y  2  P  X  1 .P Y  3  P  X  1  P Y  1  0,3.0,5  0,4.0,3  0,27
P  X  Y  3  P  X  2 .P Y  1  0,2.0,3  0,06
P  X  Y  4   P  X  1  .P Y  5  P  X  1  .P Y  3   P  X  3  .P Y  1 
 0,3.0,2  0,4.0,5  0,1.0,3  0,29
P  X  Y  5  P  X  2 .P Y  3  0,2.0,5  0,1
P  X  Y  6   P  X  1 .P Y  5  P  X  3 .P Y  3  0,4.0,2  0,1.0,5  0,13
P  X  Y  7   P  X  2 .P Y  5  0,2.0,2  0,04
P  X  Y  8   P  X  3 .P Y  5  0,1.0,2  0,02
1.5 Hàm của biến ngẫu nhiên.
Cho biến ngẫu nhiên X và f  x  là một hàm số xác định tại mọi giá trị trong tập giá trị
của biến ngẫu nhiên X , thì Y  f  X  là một biến ngẫu nhiên mới và là hàm theo biến
ngẫu nhiên X .

1.5.1 Hàm của biến ngẫu nhiên rời rạc.

Cho biến ngẫu nhiên X rời rạc có bảng phân phối xác suất

X x1 x2 … xn
P p1 p2 … pn
Và Y  f  X  là hàm theo biến ngẫn nhiên X .
Bảng phân phối xác suất của biến ngẫu nhiên Y có dạng
CHƯƠNG 1: BIẾN NGẪU NHIÊN 13

Y  f X y1 y2 … yk
P P1 P2 … Pk
Theo nguyên tắc:

Tập giá trị của biến ngẫu nhiên Y :  y1 , y2 ,..., yk   f  x 1  , f  x 2  ,..., f  x n  . 
Giá trị xác suất : Pi  P Y  yi    pj .
 
x j ; f x j  yi

Ví dụ 1.16.
Cho biến ngẫu nhiên X rời rạc có bảng phân phối xác suất:
X 1 2 3 4
P 0,4 0,3 0,2 0,1
Bảng phân phối xác suất của biến ngẫu nhiên Y  X 2 có dạng:

Y  X2 1 4 9 16
P 0,4 0,3 0,2 0,1

Ví dụ 1.17.
Cho biến ngẫu nhiên X rời rạc có bảng phân phối xác suất:
X -1 1 2 3
P 0,4 0,3 0,2 0,1

Bảng phân phối xác suất của biến ngẫu nhiên Y  X 2 có dạng

Y  X2 1 4 9
P 0,7 0,2 0,1

 
Trong đó P Y  1   P X 2  1  P  X  1   P  X  1   0,4  0,3  0,7 .

Cũng như P Y  4   P  X  4   P  X  2   P  X  2   0,2  0  0,2 .


2

P Y  4   P  X  9  P  X  3  P  X  3  0,1  0  0,1 .


2

1.5.2 Hàm của biến ngẫu nhiên liên tục.


Cho biến ngẫu nhiên X rời rạc có hàm mật độ xác suất f  x  . Và Y  h X  là hàm theo
biến ngẫn nhiên X .
Gọi G  y  là hàm phân phối xác suất của biến ngẫu nhiên Y , ta có:

G  y   P Y  y   P  h X   y    f  x  dx
x , h x   y

Và g  y  là hàm mật độ xác suất của biến ngẫu nhiên, ta có:

g  y   G ' y 
Ví dụ 1.18.
14

Cho biến ngẫu nhiên liên tục X có hàm mật độ xác suất

4 x 3 khi 0  x  1
f x   
0 khi x  0  x  1

Và hàm biến ngẫu nhiên Y  X 3 , lập hàm mật độ xác suất cho biến ngẫu nhiên Y .
Giải.
Gọi G  y  là hàm phân phối xác suất cho biến ngẫu nhiên Y .
3 y

 3
G  y   P Y  y   P X  y  P X    3
  f  x  dx
y 


3 y

Nếu 3
y  0  y  0 ta có G  y    0dx  0


3 y 3 y
3
4
3 4 y
Nếu 0  3
y  1  0  y  1 ta có G  y    f  x  dx   4x dx  x  y3
0
 0

3 y 3 y
1
Nếu 1  3
y  1  y ta có G  y    f  x  dx   f  x  dx   0dx  1
 0 1

0 ;y0
 4

Vậy G  y    y 3 ;0  y  1
1 ;1  y


Ta có hàm mật độ của biến ngẫu nhiên Y  X 3 có dạng:

4 3
 y ; y  0;1
g y   3 .
0 ; y 0;1

1.6 Các đặc trưng của biến ngẫu nhiên.

1.6.1 Kỳ vọng

I. Kỳ vọng biến ngẫu nhiên rời rạc.

Định nghĩa. Giả sử biến ngẫu nhiên rời rạc X có bảng phân phối xác suất
X x1 x2 … xn …

P p1 p2 … pn ...

Kỳ vọng của X , ký hiệu EX , là một số được định nghĩa:



EX   x i pi
i 1

Ví dụ 1.19.
CHƯƠNG 1: BIẾN NGẪU NHIÊN 15

Gọi X là biến ngẫu nhiên chỉ số nút nhận được khi tung xúc sắc. Ta có bảng phân phối xác
suất của X
X 1 2 3 4 5 6
1 1 1 1 1 1
P
6 6 6 6 6 6
thì kỳ vọng của biến ngẫu nhiên X
1 1 1 1 1 1 21
EX  1   2   3   4   5   6    3,5
6 6 6 6 6 6 6

Nhận xét. Giá trị 3,5 cũng chính là số nút trung bình nhận được khi tung một xúc sắc.
Ví dụ 1.20.
Một người tham gia vào một trò chơi vòng xoay roulette, (Một bánh xe xoay xung quanh
tâm, trên bánh xe có 38 ô tương ứng với các ô 00, 0, 1, 2, 3,…, 35, 36), tương ứng với ô 00
là màu trắng, ô 0 là màu xanh, các ô chẵn (2, 4,…, 36) màu đỏ, và các ô lẻ (1, 3,…, 35) màu
đen. Có nhiều hình thức đặt cược trong trò chơi, và người này đặt cược vào chẵn lẻ. Giả
sử người này đặt cược vào ô chẵn $1, trung bình trong một lượt chơi thì người này thắng
hay thua bao nhiêu tiền.
Giải.
Gọi X là biến ngẫu nhiên chỉ số tiền người này được hay mất sau mỗi lượt chơi, thì
X 1,1 . Tương ứng với giá trị xác suất là

18 20
P  X  1  và P  X  1   .
38 38
Nghĩa là người này tham gia trò chơi 38 lần thì có 18 lần người này được $1 và 20 lần
người này mất $1. Trung bình số tiền về mặt tần số là
18 20
EX  $1.   $1  .  $0.053
38 38
Vậy trung bình một lượt chơi thì người này mất hơn 5 cent.
Nhận xét. Về mặt hình ảnh ta có thể quan sát như sau:

-0,053

-1 1
Coi 1 và 1 là hai cột mốc trên thanh đòn nằm ngang. Tại đây ta đặt hai quả cân có khối
10 9
lượng là đơn vị tại 1 và tại 1 . Thì giá trị EX  0,053 là cột mốc trên thanh
19 19
16

đòn mà tại đó thanh đòn cân bằng như hình vẽ.


Dựa trên hai ví dụ 3.4 và 3.5 ta đưa ra ý nghĩa của kỳ vọng của biến ngẫu nhiên:
Ý nghĩa. Tiến hành n phép thử, giả sử X là biến ngẫu nhiên nhận các giá trị có thể
x1 ; x2 ;...; xk với số lần (tần số) n1 ;n2 ;...;nk . Giá trị trung bình của biến ngẫu nhiên X trong
n phép thử là
x1n1  ...  x k nk n1 n
X  x1  ...  k x k  p1n1  ...pk nk .
n n n
ni
pi  ,  i  1,..., k  là xác suất để biến ngẫu nhiên X nhận giá trị xi . Nên theo công thức
n
kỳ vọng ta có về mặt giá trị trong tình huống này:
X  EX
Kỳ vọng của biến ngẫu nhiên chính là giá trị trung bình theo xác suất của biến ngẫu nhiên.
Nó phản ánh giá trị trung tâm của phân phối xác suất.
Và hình ảnh để diễn tả cho kỳ vọng như sau: cho một thanh đòn không có khối lượng và
trên đó đặt các khối tròn có khối lượng lần lượt là pi , i  1,.., k tại các điểm có tọa độ xi

trên thanh đòn.



pk 1
p1
p3

x2 … xk 1

Ta có thể hình dung lúc này kỳ vọng của biến ngẫu nhiên chính là tọa độ của điểm trên
thanh đòn mà tại đó giúp thanh đòn thăng bằng.

II. Kỳ vọng biến ngẫu nhiên liên tục.

Định nghĩa. Giả sử biến ngẫu nhiên liên tục X có hàm mật độ xác suất là f  x  , kỳ vọng

của biến ngẫu nhiên X được định nghĩa:



EX   xf  x  dx


Ví dụ 1.21.
CHƯƠNG 1: BIẾN NGẪU NHIÊN 17

1
 ; x 0;2
Biến ngẫu nhiên liên tục X có hàm mật độ : f  x    2
0 ; x   ;0   2;  

Tính kỳ vọng của biến ngẫu nhiên X?
Giải.

Kỳ vọng của biến ngẫu nhiên X là :


 2 2
1 x2
EX   xf  x  dx   xdx  1
 0
2 4 0

III. Tính chất kỳ vọng biến ngẫu nhiên.


1. Tính chất kỳ vọng biến ngẫu nhiên.
X, Y là hai biến ngẫu nhiên bất kỳ và C  thì kỳ vọng của biến ngẫu nhiên có các tính
chất sau:
i. E C   C

ii. E  CX   C  EX 

iii. E  X  Y   EX  EY

iv. Nếu hai biến ngẫu nhiên X và Y độc lập thì E  XY   EX .EY

2. Tính chất kỳ vọng hàm biến ngẫu nhiên.


Cho biến ngẫu nhiên X có hàm mật độ xác suất f  x  , kỳ vọng của hàm của biến ngẫu nhiên

h X  có thể được xác định bằng cách

Đặt Y  h X  , xác định hàm mật độ xác suất g  y  của Y và tính kỳ vọng của biến ngẫu

nhiên Y .

E  h X    EY   yg  y  dy


 
Tuy nhiên, để tính kỳ vọng E h  X  không cần thiết phải tìm hàm mật độ của biến ngẫu

 
nhiên h X  mà ta có thể tính E h  X  trực tiếp bằng tính chất sau:

Tính chất kỳ vọng hàm của biến ngẫu nhiên. Cho h là hàm số thực bất kỳ

i. Nếu X là biến ngẫu nhiên rời rạc có bảng phân phối xác suất cho bởi
X x1 x2 … xn …
P p1 p2 … pn ...
18

Kỳ vọng của biến ngẫu nhiên h X  là:



E  h  X     h x i  pi
i 1

ii. Nếu X là biến ngẫu nhiên liên tục có hàm mật độ xác suất f  x  thì kỳ vọng của

biến ngẫu nhiên h X  là:



E  h X     h x  f  x  dx


Ví dụ 1.22.
Cho biến ngẫu nhiên rời rạc X có bảng phân phối xác suất:
X -1 1 2 3
P 0,1 0,2 0,4 0,3

Để đối chiếu kết quả kỳ vọng của biến ngẫu nhiên X 2 , ta có 2 cách tính như sau
Cách 1. Lập bảng phân phối xác suất cho biến ngẫu nhiên X 2

Y  X2 1 4 9
P 0,3 0,4 0,3

2
Kỳ vọng của biến ngẫu nhiên Y  X là

 
EY  E X 2  1  0,3  4  0,4  9  0,3  4,6

Cách 2. Sử dụng công thức tính kỳ vọng hàm biến ngẫu nhiên:
2 2 2 2
 
E X 2   1  0,1   1   0,2  2   0,4  3   0,3  4,6

 
Hai cách tính đều cho kết quả E X 2  4,6 .

Ví dụ 1.23.
Cho biến ngẫu nhiên liên tục X có hàm mật độ xác suất

4 x 3 khi 0  x  1
f x   
0 khi x  0  x  1

Kỳ vọng của biến ngẫu nhiên Y  X 3 , kết quả tính và đối chiếu thông qua 2 cách:
Cách 1. Lập hàm mật độ xác suất cho biến ngẫu nhiên Y  X 3
Theo ví dụ 2.11) ta có hàm mật độ của biến ngẫu nhiên Y có dạng:

4 3
 y ; y  0;1
g y   3
0 ; y 0;1

Vậy theo định nghĩa kỳ vọng biến ngẫu nhiên Y bằng:
CHƯƠNG 1: BIẾN NGẪU NHIÊN 19

1 1 1
4 4 4 3 7

4 4
EY   yg  y  dy   y. 3 ydy   y 3 dy  . y 3 
 0
3 30 3 7 0 7

Cách 2. Sử dụng công thức kỳ vọng cho hàm biến ngẫu nhiê liên tục ta có:
 1 1
x7 4
  
E X3  x 3 f  x  dx   x 3 .4 x 3dx  4. 
7 0 7
 0

4
Đối chiếu hai kết quả ta có kỳ vọng của biến ngẫu nhiên Y  X 3 bằng .
7

1.6.2 Phương sai

I. Định nghĩa phương sai biến ngẫu nhiên.


Đặc trưng thứ nhất của biến ngẫu nhiên là kỳ vọng, thể hiện giá trị trung tâm của biến
ngẫu nhiên. Đăc trưng thứ hai thể hiện mức phân tán trung bình của các giá trị của biến
ngẫu nhiên có thể nhận được xung quanh giá trị kỳ vọng.
Giả sử ta có biến ngẫu nhiên X rời rạc, nhận các giá trị xi với i  1,2,..., k . Như vậy biến

ngẫu nhiên thể hiện mức chênh lệch của giá trị biến ngẫu nhiên so với kỳ vọng là
Y   X  EX  . Và biến ngẫu nhiên Y có thể nhận các giá trị âm và dương như hình vẽ

dưới.

x2  EX  0
x1  EX  0 X k 1  EX  0
X2
X1 X k 1

EX

....
X3 Xk
x3  EX  0 Xk  EX  0

Trong một số trường hợp EY  0 và điều này không phản ánh đúng mức phân tán của
giá trị biến ngẫu nhiên xung quanh kỳ vọng.
Để khắc phục điều này, ta không tính trực tiếp sai lệch của giá trị biến ngẫu nhiên so với
kỳ vọng, mà ta tính thông qua trị tuyệt đối hoặc bình phương sai lệch. Và để thuận tiện
trong việc tính toán thì ta tìm trung bình của bình phương các sai lệch.

Định nghĩa. Cho biến ngẫu nhiên X có kỳ vọng là EX . Phương sai của X, ký hiệu là VarX
20

, được định nghĩa:


2
VarX  E  X  EX 

Áp dụng các tính chất của kỳ vọng ta có công thức tính phương sai:
2 2
VarX  E  X  EX   E X 2   EX  
Trường hợp X là biến ngẫu nhiên rời rạc.
 2
2   
 
VarX  E X 2   EX    x i2 pi    x i pi 
i 1  i 1 
Trường hợp X là biến ngẫu nhiên liên tục.
2

2   
VarX  E X     EX 
2 2
  x f  x  dx    xf  x  dx 
   
Ví dụ 1.24.
Một chủ vườn thanh long thu hoạch trên hai thửa ruộng, mỗi thửa 10 quả bất kỳ, thu được
bảng trọng lượng (gram) của từng quả như sau:

Thửa 1 380 420 380 420 380 400 420 400 420 380
Thửa 2 400 500 300 300 500 300 400 450 450 400

Gọi X1 , X2 là biến ngẫu nhiên chỉ trọng lượng một quả thanh long trên thửa 1; 2.

a. Tính kỳ vọng của X1 , X 2 .

b. Tính phương sai của X1 , X 2 .

Giải.
a. Ta có bảng phân phối xác suất của X1 , X 2 là

X1 380 400 420 X2 300 400 450 500


4 2 4 3 3 2 2
P P
10 10 10 10 10 10 10

Kỳ vọng của biến ngẫu nhiên X1 , X 2 lần lượt bằng:

4 2 4
EX1  380.  400.  420.  400
10 10 10
3 3 2 2
EX2  300.  400.  450.  500.  400
10 10 10 10
Nhận xét. Kỳ vọng về trọng lượng của một quả thanh long trồng trên hai thửa là bằng
nhau. Nếu bạn là người thu mua thanh long, bạn sẽ chọn của thửa nào?
CHƯƠNG 1: BIẾN NGẪU NHIÊN 21

b. Phương sai của biến ngẫu nhiên X1 :


2
VarX1  EX 12   EX1 
2
 4 2 4  4 2 4
  3802.  4002.  4202.    380.  400.  420.   320
 10 10 10   10 10 10 
Phương sai của biến ngẫu nhiên X2 :

2  3 3 2 2 
VarX 2  EX 22   EX 2    3002.  4002.  4502.  5002. 
 10 10 10 10 
2
 3 3 2 2 
  300.  400.  450.  500.   5500
 10 10 10 10 
Nhận xét. Nếu theo định nghĩa phương sai, là kỳ vọng của bình phương sai lệch của biến
ngẫu nhiên so với giá trị kỳ vọng biến ngẫu nhiên, vậy trong ví dụ này với kỳ vọng của 2
biến ngẫu nhiên là bằng nhau, thì phương sai về trọng lượng của quả thanh long của thửa
ruộng hai lớn hơn của thửa 1 nghĩa là các quả thanh long của thửa 1 “đều” hơn so với thửa
2. Và nếu chọn thu mua, thì thanh long của thửa 1 sẽ được ưu tiên chọn hơn.
Ví dụ 1.25.
Biến ngẫu nhiên liên tục X có hàm mật độ xác suất

4 x 3 khi 0  x  1
f x   
0 khi x  0  x  1
Tính phương sai biến ngẫu nhiên X.
Giải.
Phương sai của biến ngẫu nhiên X là:
 2
2   
VarX  E X     EX 
2 2
  x f  x  dx    xf  x  dx 
   
1 2 2
1  1 1  2
  x .4x dx    x .4x 3dx    4 x 5dx    4 x 4dx  
2 3

0 0  0 0  75

II. Tính chất phương sai.


Cho hai biến ngẫu nhiên X, Y và hằng số thực C  , phương sai có các tính chất sau

i. Var C   0

ii. Var  CX   C 2VarX

iii. Nếu X và Y độc lập thì Var  X  Y   VarX  VarY

III. Độ lệch chuẩn.


22

Do cách xây dựng công thức tính phương sai của biến ngẫu nhiên mà đơn vị đo của
phương sai bằng bình phương đơn vị đo của biến ngẫu nhiên. Nên để đánh giá mức độ
phân tán trung bình của giá trị biến ngẫu nhiên theo đơn vị đo của nó, người ta dùng một
đặc trưng mới đó là độ lệch tiêu chuẩn.

Định nghĩa. Độ lệch tiêu chuẩn của biến ngẫu nhiên X bằng căn bậc hai phương sai của
biến ngẫu nhiên X, ký hiệu

  VarX
Ví dụ 1.26.
Cho biến ngẫu nhiên liên tục X có hàm mật độ xác suất

 3 2 3
  x  x khi x 0;4
f  x    32 8
0 khi x  0;4

Tính phương sai và độ lệch chuẩn biến ngẫu nhiên X.
Giải.
Kỳ vọng của biến ngẫu nhiên X :
 4
 3 2 3 
EX   xf  x  dx  0 x   32 x  8 x  dx
4 4
 3 3   3 4 1 3
    x 3  x 2  dx    x  x  2
0
32 8   128 8 0

Phương sai của biến ngẫu nhiên X :


 4
2 3 2 3 
 
Ta tính E X 2  2
 x f  x  dx  0 x   32 x  8 x  dx
4 4
 3 3   3 5 3 4 24
    x 4  x 3  dx    x  x  
0
32 8   160 32  0 5

2 24 4
2
 
Ta có VarX  E X   EX  
5
4
5
Độ lệch chuẩn của biến ngẫu nhiên X :

2 5
  VarX 
5

1.6.3 Giá trị tin chắc nhất.

Giá trị tin chắc nhất của biến ngẫu nhiên X, ký hiệu ModX .
Trường hợp X là biến ngẫu nhiên rời rạc có bảng phân phối xác suất:
CHƯƠNG 1: BIẾN NGẪU NHIÊN 23

X x1 x2 … xn …
P p1 p2 … pn ...

Thì Mod của biến ngẫu nhiên xác định là:


ModX  x i  pi  Max p1 , p2 ,..., pn ,...

Trường hợp X là biến ngẫu nhiên liên tục với hàm mật độ xác suất f  x  thì Mod xác

định là:

ModX  x0  f0  Max  f  x  , x  

Ý nghĩa. Giá trị tin chắc nhất của biến ngẫu nhiên là giá trị của biến ngẫu nhiên mà đại
diện nhất cho phân bố. Về mặt hình vẽ ta có hai trường hợp như sau:
Trường hợp X là biến ngẫu nhiên rời rạc:

Trường hợp X là biến ngẫu nhiên liên tục:

Lưu ý. Giá trị tin chắc nhất có thể không duy nhất.
Ví dụ 1.27.
Tìm Mod của biến ngẫu nhiên rời rạc X có bảng phân phối xác suất
X 1 2 3 4 5
P 0,05 0,15 0,3 0,3 0,2

Dễ dàng nhận thấy, ModX  3 hoặc ModX  4

Ví dụ 1.28.
24

Cho biến ngẫu nhiên liên tục X có hàm mật độ:

 3 2 3
  x  x khi x 0;4
f  x    32 8
0 khi x  0;4

Tìm Mod của biến ngẫu nhiên X.
Giải.
Ta sẽ tìm giá trị lớn nhất của f  x  khi x 0;4

3 3
Ta có f '  x    x  , x 0;4 . Xét f ' x   0 ta thu được x  2 .
16 8
3
Giá trị f  0  0 ; f  4   0 ; f  2 
8
Vậy Max f  x   f  2 . Vậy ModX  2
x0;4 

1.6.4 Trung vị

Trung vị của biến ngẫu nhiên X, ký hiệu MedX .


Trường hợp X là biến ngẫu nhiên rời rạc, có bảng phân phối xác suất
X x1 x2 … xn …
P p1 p2 … pn ...

MedX  x i khi mà:

 1  1
 P  X  x i   2  P  X  x i   2
 hay 
P  X  x   1 P  X  x   1
i i
 2  2
Trường hợp X là biến ngẫu nhiên liên tục, MedX  m khi mà:
1
P  X  m  P  X  m  
2
CHƯƠNG 1: BIẾN NGẪU NHIÊN 25

Ý nghĩa. Trung vị của biến ngẫu nhiên là giá trị của biến ngẫu nhiên chia phân phối xác
suất của biến ngẫu nhiên thành hai phần bằng nhau.
Nếu ta xét trong trường hợp biến ngẫu nhiên liên tục, thì về mặt hình học, trung vị là giá
trị của biến chia vùng diện tích của hàm mật độ xác suất làm hai phần có diện tích bằng
nhau.

Nhận xét. Trường hợp X là biến ngẫu nhiên rời rạc, có F  x  là hàm phân phối xác suất,

thì ta có:
1
medX  xi  F  xi    F  x i 1 
2
Trường hợp X là biến ngẫu nhiên liên tục, có F  x  là hàm phân phối xác suất, thì ta có:
m
1
medX  m  F  m    f  x  dx  2


Ví dụ 1.29.
Giả sử biến ngẫu nhiên rời rạc X có bảng phân phối xác suất như sau:
X 1 2 3 4
P 0.1 0.2 0.3 0.4
Tìm trung vị của biến ngẫu nhiên X.
Giải.

 1  1
 P  X  3  0,3  2 P  X  3  0,3  2
Ta có  hay 
 P  X  3  0,4  1 P  X  3  0,6  1
 2  2
Theo định nghĩa ta có medX  3 .
Ví dụ 1.30.
Giả sử biến ngẫu nhiên liên tục X có hàm mật độ xác suất cho bởi
26

4x 3 khi 0  x  1
f x   
0 khi x  0  x  1
Tìm trung vị của biến ngẫu nhiên X.
Giải.
1
Theo định nghĩa ta có med  m nếu P  X  m   P  X  m  với m  0;1
2
m m
m 1 1
  f  x  dx  0,5   4 x 3dx  0,5  x 4  0,5  m4  m 4
 0
0 2 2

1
Vậy trung vị medX 
4
2
| ĐẠI HỌC VĂN LANG
KHOA KHOA HỌC CƠ BẢN

THỐNG KÊ KINH DOANH

THÀNH PHỐ HỒ CHÍ MINH - 2019


MỤC LỤC
CHƯƠNG 1 : BIẾN NGẪU NHIÊN
Mục lục chương 1 ...........................................................................................................................1

1.1 Khái niệm biến ngẫu nhiên................................................................................................1

1.2 Biểu diễn biến ngẫu nhiên.................................................................................................3

1.2.1 Biến ngẫu nhiên rời rạc. ........................................................................................3

1.2.2 Biến ngẫu nhiên liên tục. ......................................................................................5

1.3 Hàm phân phối biến ngẫu nhiên.......................................................................................8

1.3.1. Định nghĩa hàm phân phối xác suất. .................................................................... 8

1.3.2. Tính chất hàm phân phối xác suất. ...................................................................... 10

1.4 Hai biến ngẫu nhiên rời rạc độc lập. .................................................................................11

1.4.1 Hai biến ngẫu nhiên rời rạc độc lập. .................................................................... 11

1.4.2 Kết hợp hai biến ngẫu nhiên rời rạc độc lập. .......................................................11

1.5 Hàm của biến ngẫu nhiên.................................................................................................. 12

1.5.1 Hàm của biến ngẫu nhiên rời rạc. ........................................................................ 12

1.5.2 Hàm của biến ngẫu nhiên liên tục. ....................................................................... 13

1.6 Các đặc trưng của biến ngẫu nhiên. .................................................................................14

1.6.1 Kỳ vọng ...............................................................................................................................14

1.6.2 Phương sai..........................................................................................................................19

1.6.3 Giá trị tin chắc nhất (Mode). .............................................................................................22

1.6.4 Trung vị ...............................................................................................................................24

CHƯƠNG 2 : MỘT SỐ PHÂN PHỐI XÁC SUẤT THÔNG DỤNG


Mục lục chương 2 ...........................................................................................................................27

2.1 Phân phối nhị thức ............................................................................................................27

2.2 Phân phối siêu bội .............................................................................................................31

2.3 Phân phối Poisson..............................................................................................................35

2.4 Phân phối chuẩn ................................................................................................................36


i

2.5 Phân phối Chi bình phương .............................................................................................. 40

2.6 Phân phối Student ............................................................................................................ 42

CHƯƠNG 3 : NGUYÊN LÝ THỐNG KÊ VÀ CÁC KHÁI NIỆM CƠ BẢN


Mục lục chương 3 .......................................................................................................................... 46

3.1. Một số khái niệm dùng trong thống kê. .......................................................................... 46

3.1.1 Tổng thể thống kê và đơn vị tổng thể, và mẫu. .................................................. 46

3.1.2 Tiêu thức. .............................................................................................................. 47

3.1.3 Lượng biến. ........................................................................................................... 47

3.1.4 Tham số................................................................................................................. 48

3.1.5 Thang đo. .............................................................................................................. 48

3.1.6 Thiết kế thang đo. ................................................................................................ 50

3.2. Thu thập và trình bày dữ liệu thống kê............................................................................ 52

3.2.1 Xác định dữ liệu và phương pháp thu thập dữ liệu sơ cấp ................................. 52

3.2.2 Các kỹ thuật lấy mẫu dữ liệu ................................................................................ 53

3.2.3 Xác định quy mô mẫu ........................................................................................... 54

3.2.4 Phân tổ .................................................................................................................. 55

3.2.5 Trình bày dữ liệu thống kê ................................................................................... 57

3.2.6 Đồ thị biểu đồ thống kê ........................................................................................ 59

CHƯƠNG 4 : TÓM TẮT DỮ LIỆU BẰNG ĐẠI LƯỢNG SỐ


Mục lục chương 4 .......................................................................................................................... 60

4.1. Các đại lượng đo lường mức độ tập trung của dữ liệu. .................................................. 60

4.1.1 Số trung bình số học............................................................................................. 60

4.1.2 Số trung bình điều hòa. ........................................................................................ 62

4.1.3 Số trung bình nhân. .............................................................................................. 53

4.1.4 Yếu vị (Mod).......................................................................................................... 64

4.1.5 Số trung vị (Median) ............................................................................................. 65

4.2. Các khuynh hướng đo độ phân tán.................................................................................. 68


ii

4.2.1 Khoảng biến thiên. ................................................................................................68

4.2.2 Độ lệch tuyệt đối trung bình.................................................................................69

4.2.3 Phương sai, độ lệch chuẩn. ...................................................................................69

4.2.4 Hệ số biến thiên. ................................................................................................... 70

4.3. Các khuynh hướng đo vị trí tương đối. .............................................................................72

4.3.1 Phân vị. ..................................................................................................................72

4.3.2 Tứ phân vị ..............................................................................................................73

4.3.3 Giá trị . ..................................................................................................................64

4.4. Hệ số tương quan của các bộ dữ liệu ...............................................................................75

4.4.1 Hiệp phương sai. ................................................................................................... 76

4.4.2 Hệ số tương quan. ................................................................................................. 77

4.5. Hệ số đo hình dạng của quy luật phân phối. .................................................................... 79

4.2.5 Hệ số Kurtoris (độ nhọn).......................................................................................79

4.2.6 Độ lệch – Skewness ...............................................................................................80

CHƯƠNG 5 : ƯỚC LƯỢNG THAM SỐ


Mục lục chương 5 ...........................................................................................................................82

5.1. CÁC TIÊU CHUẨN ƯỚC LƯỢNG. ........................................................................................82

5.1.1 Ước lượng không chệch. .......................................................................................82

5.1.2 Khoảng tin cậy. ...................................................................................................... 83

5.2. Khoảng tin cậy cho giá trị trung bình. ...............................................................................84

5.3. Khoảng tin cậy cho độ lệch hai giá trị trung bình.............................................................86

5.4. Khoảng tin cậy cho giá trị tỷ lệ. .........................................................................................88

5.5. Khoảng tin cậy cho độ lệch hai giá trị tỷ lệ. ...................................................................... 90

5.6. Khoảng tin cậy cho giá trị phương sai. ..............................................................................90

5.7. Khoảng tin cậy cho dự đoán giá trị quan sát .................................................................... 92

CHƯƠNG 6 : KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ


Mục lục chương 7 ...........................................................................................................................94
iii

6.1. KHÁI NIỆM ......................................................................................................................... 94

6.1.1 Giả thiết và đối thuyết . ..................................................................................... 94

6.1.2 Sai lầm loại I và sai lầm loại II. .............................................................................. 95

6.2. KIỂM ĐỊNH GIẢ THIẾT CHO MỘT GIÁ TRỊ TỶ LỆ TỔNG THỂ. ........................................... 96

6.2.1 Phân tích. .............................................................................................................. 96

6.2.2 Mô hình kiểm định. .............................................................................................. 97

6.3. KIỂM ĐỊNH GIẢ THIẾT CHO MỘT TRUNG BÌNH TỔNG THỂ. ............................................ 98

6.3.1 Phân tích. .............................................................................................................. 98

6.3.2 So sánh trung bình tổng thể với một số khi biết phương sai. ............................ 99

6.3.3 So sánh trung bình tổng thể với một số khi không biết phương sai. ................. 99

6.4. KIỂM ĐỊNH GIẢ THIẾT CHO PHƯƠNG SAI TỔNG THỂ. .................................................... 101

6.4.1 Phân tích ............................................................................................................... 101

6.4.2 So sánh phương sai tổng thể với một số khi biết trung bình µ. ......................... 101

6.4.3 So sánh phương sai tổng thể với một số khi chưa biết trung bình µ. ................ 102

6.5. KIỂM ĐỊNH GIẢ THIẾT CHO HAI GIÁ TRỊ TỶ LỆ TỔNG THỂ. .............................................. 103

6.5.1 Kiểm định giả thiết so sánh 2 tỷ lệ tổng thể sử dụng phân phối chuẩn. ........... 103

i. Phân tích. .............................................................................................................. 104

ii. Mô hình kiểm định. .............................................................................................. 104

6.5.2 Kiểm định giả thiết so sánh 2 tỷ lệ tổng thể sử dụng phân phối chi bình phương
............................................................................................................................... 105

i. Phân tích. .............................................................................................................. 105

ii. Mô hình kiểm định ............................................................................................... 106

6.6. KIỂM ĐỊNH GIẢ THIẾT CHO HAI TRUNG BÌNH TỔNG THỂ. .............................................. 107

6.6.1 Phân tích. .............................................................................................................. 107

6.6.2 So sánh hai trung bình tổng thể khi biết phương sai.......................................... 107

6.6.3 So sánh hai trung bình tổng thể khi không biết phương sai và cỡ mẫu lớn. ..... 108

6.6.4 So sánh hai trung bình tổng thể khi không biết phương sai, phương sai bằng nhau
và cỡ mẫu nhỏ. .................................................................................................................. 109
iv

6.7. KIỂM ĐỊNH GIẢ THIẾT CHO HAI PHƯƠNG SAI TỔNG THỂ ...............................................111

6.8. KIỂM TRA GIẢ THIẾT VỀ SỰ ĐỘC LẬP ................................................................................111

6.8.1 Phân tích. ...............................................................................................................111

6.8.2 Kiểm định độc lập của hai bộ dữ liệu định tính. ..................................................112

CHƯƠNG 7 : DỰ BÁO CHUỖI THỜI GIAN


Mục lục chương 7 ...........................................................................................................................114

7.1 CHUỖI THỜI GIAN, CÁC KHÁI NIỆM CƠ BẢN .................................................................... 114

7.1.1 Khái niệm chuỗi thời gian. ....................................................................................114

7.1.2 Các thành phần chuỗi thời gian. ........................................................................... 114

i. Thành phần xu hướng. ..........................................................................................114

ii. Thành phần chu kỳ. ...............................................................................................115

iii. Thành phần mùa. .................................................................................................. 115

iv. Thành phần bất thường. .......................................................................................115

7.1.3 Các đại lượng mô tả chuỗi thời gian.................................................................... 116

i. Mức độ trung bình theo thời gian ........................................................................ 116

ii. Lượng tăng giảm tuyệt đối....................................................................................117

iii. Tốc độ phát triển. .................................................................................................. 117

iv. Tốc độ tăng giảm. .................................................................................................. 118

7.2 CÁC PHƯƠNG PHÁP DỰ BÁO ĐƠN GIẢN ......................................................................... 118

7.3 CÁC PHƯƠNG PHÁP LÀM TRƠN .......................................................................................119

7.3.1 Dự báo bằng phương pháp trung bình trượt .......................................................119

7.3.2 Dự báo bằng san bằng hàm mũ ............................................................................121

7.3.3 Dự báo bằng hàm xu thế tuyến tính ..................................................................... 122

PHỤ LỤC.BẢNG PHÂN PHỐI XÁC SUẤT

B1. BẢNG GIÁ TRỊ HÀM MẬT ĐỘ N 0;1 . .................................................................... 130

B2. BẢNG TÍCH PHÂN LAPLACE ......................................................................................... 131


B3. BẢNG PHÂN PHỐI STUDENT .................................................................................................... 123
v

B4. BẢNG PHÂN PHỐI CHI BÌNH PHƯƠNG ................................................................................... 124


126

PHỤ LỤC BẢNG PHÂN PHỐI XÁC SUẤT


BẢNG B1 – BẢNG GIÁ TRỊ HÀM MẬT ĐỘ N0;1
2
1  t2
Trong bảng cho giá trị : f  t   e
2

Chẳng hạn f 0,84  0,2803


z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.3989 0.3989 0.3989 0.3988 0.3986 0.3984 0.3982 0.3980 0.3977 0.3973
0.1 0.3970 0.3965 0.3961 0.3956 0.3951 0.3945 0.3939 0.3932 0.3925 0.3918
0.2 0.3910 0.3902 0.3894 0.3885 0.3876 0.3867 0.3857 0.3847 0.3836 0.3825
0.3 0.3814 0.3802 0.3790 0.3778 0.3765 0.3752 0.3739 0.3725 0.3712 0.3697
0.4 0.3683 0.3668 0.3653 0.3637 0.3621 0.3605 0.3589 0.3572 0.3555 0.3538
0.5 0.3521 0.3503 0.3485 0.3467 0.3448 0.3429 0.3410 0.3391 0.3372 0.3352
0.6 0.3332 0.3312 0.3292 0.3271 0.3251 0.3230 0.3209 0.3187 0.3166 0.3144
0.7 0.3123 0.3101 0.3079 0.3056 0.3034 0.3011 0.2989 0.2966 0.2943 0.2920
0.8 0.2897 0.2874 0.2850 0.2827 0.2803 0.2780 0.2756 0.2732 0.2709 0.2685
0.9 0.2661 0.2637 0.2613 0.2589 0.2565 0.2541 0.2516 0.2492 0.2468 0.2444
1.0 0.2420 0.2396 0.2371 0.2347 0.2323 0.2299 0.2275 0.2251 0.2227 0.2203
1.1 0.2179 0.2155 0.2131 0.2107 0.2083 0.2059 0.2036 0.2012 0.1989 0.1965
1.2 0.1942 0.1919 0.1895 0.1872 0.1849 0.1826 0.1804 0.1781 0.1758 0.1736
1.3 0.1714 0.1691 0.1669 0.1647 0.1626 0.1604 0.1582 0.1561 0.1539 0.1518
1.4 0.1497 0.1476 0.1456 0.1435 0.1415 0.1394 0.1374 0.1354 0.1334 0.1315
1.5 0.1295 0.1276 0.1257 0.1238 0.1219 0.1200 0.1182 0.1163 0.1145 0.1127
1.6 0.1109 0.1092 0.1074 0.1057 0.1040 0.1023 0.1006 0.0989 0.0973 0.0957
1.7 0.0940 0.0925 0.0909 0.0893 0.0878 0.0863 0.0848 0.0833 0.0818 0.0804
1.8 0.0790 0.0775 0.0761 0.0748 0.0734 0.0721 0.0707 0.0694 0.0681 0.0669
1.9 0.0656 0.0644 0.0632 0.0620 0.0608 0.0596 0.0584 0.0573 0.0562 0.0551
2.0 0.0540 0.0529 0.0519 0.0508 0.0498 0.0488 0.0478 0.0468 0.0459 0.0449
2.1 0.0440 0.0431 0.0422 0.0413 0.0404 0.0396 0.0387 0.0379 0.0371 0.0363
2.2 0.0355 0.0347 0.0339 0.0332 0.0325 0.0317 0.0310 0.0303 0.0297 0.0290
2.3 0.0283 0.0277 0.0270 0.0264 0.0258 0.0252 0.0246 0.0241 0.0235 0.0229
2.4 0.0224 0.0219 0.0213 0.0208 0.0203 0.0198 0.0194 0.0189 0.0184 0.0180
2.5 0.0175 0.0171 0.0167 0.0163 0.0158 0.0154 0.0151 0.0147 0.0143 0.0139
2.6 0.0136 0.0132 0.0129 0.0126 0.0122 0.0119 0.0116 0.0113 0.0110 0.0107
2.7 0.0104 0.0101 0.0099 0.0096 0.0093 0.0091 0.0088 0.0086 0.0084 0.0081
2.8 0.0079 0.0077 0.0075 0.0073 0.0071 0.0069 0.0067 0.0065 0.0063 0.0061
2.9 0.0060 0.0058 0.0056 0.0055 0.0053 0.0051 0.0050 0.0048 0.0047 0.0046
3.0 0.0044 0.0043 0.0042 0.0040 0.0039 0.0038 0.0037 0.0036 0.0035 0.0034
3.1 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026 0.0025 0.0025
3.2 0.0024 0.0023 0.0022 0.0022 0.0021 0.0020 0.0020 0.0019 0.0018 0.0018
3.3 0.0017 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014 0.0013 0.0013
3.4 0.0012 0.0012 0.0012 0.0011 0.0011 0.0010 0.0010 0.0010 0.0009 0.0009
3.5 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007 0.0007 0.0007 0.0006
3.6 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005 0.0005 0.0005 0.0005 0.0004
3.7 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003 0.0003 0.0003 0.0003
3.8 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002 0.0002 0.0002 0.0002 0.0002
3.9 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0001 0.0001
127

BẢNG B2 - BẢNG TÍCH PHÂN LAPLACE


x 2
1  t2
Trog bảng cho giá trị   x    e dt
0
2
.
Chẳng hạn  1,96  0,475

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981
2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986
3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990
3.1 0.4990 0.4991 0.4991 0.4991 0.4992 0.4992 0.4992 0.4992 0.4993 0.4993
3.2 0.4993 0.4993 0.4994 0.4994 0.4994 0.4994 0.4994 0.4995 0.4995 0.4995
3.3 0.4995 0.4995 0.4995 0.4996 0.4996 0.4996 0.4996 0.4996 0.4996 0.4997
3.4 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4998
3.5 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998
3.6 0.4998 0.4998 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.7 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.8 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.9 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000
128

BẢNG B3 – BẢNG PHÂN PHỐI STUDENT

Trong bảng cho giá trị t k sao cho P T  t k    với k là bậc tự do


Chẳng hạn P T  2,2281  0.025 ; được suy ra từ in đậm trong bảng tra.

r 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.05 0.1


1 63.6567 31.8205 21.2049 15.8945 12.7062 10.5789 9.0579 6.3138 3.0777
2 9.9248 6.9646 5.6428 4.8487 4.3027 3.8964 3.5782 2.92 1.8856
3 5.8409 4.5407 3.896 3.4819 3.1824 2.9505 2.7626 2.3534 1.6377
4 4.6041 3.7469 3.2976 2.9985 2.7764 2.6008 2.4559 2.1318 1.5332
5 4.0321 3.3649 3.0029 2.7565 2.5706 2.4216 2.2974 2.015 1.4759
6 3.7074 3.1427 2.8289 2.6122 2.4469 2.3133 2.2011 1.9432 1.4398
7 3.4995 2.998 2.7146 2.5168 2.3646 2.2409 2.1365 1.8946 1.4149
8 3.3554 2.8965 2.6338 2.449 2.306 2.1892 2.0902 1.8595 1.3968
9 3.2498 2.8214 2.5738 2.3984 2.2622 2.1504 2.0554 1.8331 1.383
10 3.1693 2.7638 2.5275 2.3593 2.2281 2.1202 2.0283 1.8125 1.3722
11 3.1058 2.7181 2.4907 2.3281 2.201 2.0961 2.0067 1.7959 1.3634
12 3.0545 2.681 2.4607 2.3027 2.1788 2.0764 1.9889 1.7823 1.3562
13 3.0123 2.6503 2.4358 2.2816 2.1604 2.06 1.9742 1.7709 1.3502
14 2.9768 2.6245 2.4149 2.2638 2.1448 2.0462 1.9617 1.7613 1.345
15 2.9467 2.6025 2.397 2.2485 2.1314 2.0343 1.9509 1.7531 1.3406
16 2.9208 2.5835 2.3815 2.2354 2.1199 2.024 1.9417 1.7459 1.3368
17 2.8982 2.5669 2.3681 2.2238 2.1098 2.015 1.9335 1.7396 1.3334
18 2.8784 2.5524 2.3562 2.2137 2.1009 2.0071 1.9264 1.7341 1.3304
19 2.8609 2.5395 2.3456 2.2047 2.093 2 1.92 1.7291 1.3277
20 2.8453 2.528 2.3362 2.1967 2.086 1.9937 1.9143 1.7247 1.3253
21 2.8314 2.5176 2.3278 2.1894 2.0796 1.988 1.9092 1.7207 1.3232
22 2.8188 2.5083 2.3202 2.1829 2.0739 1.9829 1.9045 1.7171 1.3212
23 2.8073 2.4999 2.3132 2.177 2.0687 1.9782 1.9003 1.7139 1.3195
24 2.7969 2.4922 2.3069 2.1715 2.0639 1.974 1.8965 1.7109 1.3178
25 2.7874 2.4851 2.3011 2.1666 2.0595 1.9701 1.8929 1.7081 1.3163
26 2.7787 2.4786 2.2958 2.162 2.0555 1.9665 1.8897 1.7056 1.315
27 2.7707 2.4727 2.2909 2.1578 2.0518 1.9632 1.8867 1.7033 1.3137
28 2.7633 2.4671 2.2864 2.1539 2.0484 1.9601 1.8839 1.7011 1.3125
29 2.7564 2.462 2.2822 2.1503 2.0452 1.9573 1.8813 1.6991 1.3114
30 2.75 2.4573 2.2783 2.147 2.0423 1.9546 1.8789 1.6973 1.3104
40 2.7045 2.4233 2.2503 2.1229 2.0211 1.9357 1.8617 1.6839 1.3031
60 2.6603 2.3901 2.2229 2.0994 2.0003 1.917 1.8448 1.6706 1.2958
120 2.6174 2.3578 2.1962 2.0763 1.9799 1.8987 1.8282 1.6577 1.2886
129

BẢNG B3 – BẢNG PHÂN PHỐI CHI BÌNH PHƯƠNG


Trong bảng cho giá trị t k sao cho P   2;k    với k là bậc tự do
Chẳng hạn P T  2,2281  0.025 ; được suy ra từ in đậm trong bảng tra.

r 0.005 0.995 0.01 0.99 0.015 0.985 0.02 0.98 0.025


1 7.8794 0 6.6349 0.0002 5.9165 0.0004 5.4119 0.0006 5.0239
2 10.5966 0.01 9.2103 0.0201 8.3994 0.0302 7.824 0.0404 7.3778
3 12.8382 0.0717 11.3449 0.1148 10.465 0.1516 9.8374 0.1848 9.3484
4 14.8603 0.207 13.2767 0.2971 12.3391 0.3682 11.6678 0.4294 11.1433
5 16.7496 0.4117 15.0863 0.5543 14.0978 0.6618 13.3882 0.7519 12.8325
6 18.5476 0.6757 16.8119 0.8721 15.7774 1.016 15.0332 1.1344 14.4494
7 20.2777 0.9893 18.4753 1.239 17.3984 1.4184 16.6224 1.5643 16.0128
8 21.955 1.3444 20.0902 1.6465 18.9739 1.8603 18.1682 2.0325 17.5345
9 23.5894 1.7349 21.666 2.0879 20.5125 2.3349 19.679 2.5324 19.0228
10 25.1882 2.1559 23.2093 2.5582 22.0206 2.8372 21.1608 3.0591 20.4832
11 26.7568 2.6032 24.725 3.0535 23.5028 3.3634 22.6179 3.6087 21.92
12 28.2995 3.0738 26.217 3.5706 24.9628 3.9104 24.054 4.1783 23.3367
13 29.8195 3.565 27.6882 4.1069 26.4034 4.4757 25.4715 4.7654 24.7356
14 31.3193 4.0747 29.1412 4.6604 27.8268 5.0572 26.8728 5.3682 26.1189
15 32.8013 4.6009 30.5779 5.2293 29.2349 5.6534 28.2595 5.9849 27.4884
16 34.2672 5.1422 31.9999 5.8122 30.6292 6.2628 29.6332 6.6142 28.8454
17 35.7185 5.6972 33.4087 6.4078 32.0112 6.8842 30.995 7.255 30.191
18 37.1565 6.2648 34.8053 7.0149 33.3817 7.5165 32.3462 7.9062 31.5264
19 38.5823 6.844 36.1909 7.6327 34.742 8.1588 33.6874 8.567 32.8523
20 39.9968 7.4338 37.5662 8.2604 36.0926 8.8105 35.0196 9.2367 34.1696
21 41.4011 8.0337 38.9322 8.8972 37.4345 9.4708 36.3434 9.9146 35.4789
22 42.7957 8.6427 40.2894 9.5425 38.7681 10.139 37.6595 10.6 36.7807
23 44.1813 9.2604 41.6384 10.1957 40.0941 10.8147 38.9683 11.2926 38.0756
24 45.5585 9.8862 42.9798 10.8564 41.413 11.4974 40.2704 11.9918 39.3641
25 46.9279 10.5197 44.3141 11.524 42.7252 12.1867 41.5661 12.6973 40.6465
26 48.2899 11.1602 45.6417 12.1981 44.0311 12.8821 42.8558 13.4086 41.9232
27 49.6449 11.8076 46.9629 12.8785 45.3311 13.5833 44.14 14.1254 43.1945
28 50.9934 12.4613 48.2782 13.5647 46.6256 14.29 45.4188 14.8475 44.4608
29 52.3356 13.1211 49.5879 14.2565 47.9147 15.0019 46.6927 15.5745 45.7223
30 53.672 13.7867 50.8922 14.9535 49.1989 15.7188 47.9618 16.3062 46.9792
40 66.766 20.7065 63.6907 22.1643 61.8117 23.113 60.4361 23.8376 59.3417
60 91.9517 35.5345 88.3794 37.4849 86.1883 38.7435 84.5799 39.6994 83.2977
120 163.6482 83.8516 158.9502 86.9233 156.0529 88.8859 153.9182 90.3667 152.2114
130

r 0.975 0.03 0.97 0.035 0.965 0.05 0.95 0.1 0.9


1 0.001 4.7093 0.0014 4.4452 0.0019 3.8415 0.0039 2.7055 0.0158
2 0.0506 7.0131 0.0609 6.7048 0.0713 5.9915 0.1026 4.6052 0.2107
3 0.2158 8.9473 0.2451 8.6069 0.2731 7.8147 0.3518 6.2514 0.5844
4 0.4844 10.7119 0.5351 10.345 0.5824 9.4877 0.7107 7.7794 1.0636
5 0.8312 12.3746 0.9031 11.9846 0.9693 11.0705 1.1455 9.2364 1.6103
6 1.2373 13.9676 1.3296 13.5567 1.414 12.5916 1.6354 10.6446 2.2041
7 1.6899 15.5091 1.8016 15.079 1.9033 14.0671 2.1673 12.017 2.8331
8 2.1797 17.0105 2.3101 16.5626 2.4281 15.5073 2.7326 13.3616 3.4895
9 2.7004 18.4796 2.8485 18.015 2.9821 16.919 3.3251 14.6837 4.1682
10 3.247 19.9219 3.4121 19.4415 3.5606 18.307 3.9403 15.9872 4.8652
11 3.8157 21.3416 3.9972 20.8462 4.16 19.6751 4.5748 17.275 5.5778
12 4.4038 22.7418 4.6009 22.232 4.7775 21.0261 5.226 18.5493 6.3038
13 5.0088 24.1249 5.221 23.6015 5.4109 22.362 5.8919 19.8119 7.0415
14 5.6287 25.4931 5.8556 24.9564 6.0583 23.6848 6.5706 21.0641 7.7895
15 6.2621 26.8479 6.5032 26.2985 6.7183 24.9958 7.2609 22.3071 8.5468
16 6.9077 28.1907 7.1625 27.6289 7.3896 26.2962 7.9616 23.5418 9.3122
17 7.5642 29.5227 7.8324 28.9489 8.0712 27.5871 8.6718 24.769 10.0852
18 8.2307 30.8447 8.512 30.2594 8.7622 28.8693 9.3905 25.9894 10.8649
19 8.9065 32.1577 9.2004 31.5611 9.4617 30.1435 10.117 27.2036 11.6509
20 9.5908 33.4624 9.8971 32.8547 10.1692 31.4104 10.8508 28.412 12.4426
21 10.2829 34.7593 10.6013 34.1409 10.8839 32.6706 11.5913 29.6151 13.2396
22 10.9823 36.0492 11.3125 35.4203 11.6055 33.9244 12.338 30.8133 14.0415
23 11.6886 37.3323 12.0303 36.6932 12.3334 35.1725 13.0905 32.0069 14.848
24 12.4012 38.6093 12.7543 37.9601 13.0672 36.415 13.8484 33.1962 15.6587
25 13.1197 39.8804 13.484 39.2214 13.8066 37.6525 14.6114 34.3816 16.4734
26 13.8439 41.146 14.219 40.4775 14.5512 38.8851 15.3792 35.5632 17.2919
27 14.5734 42.4066 14.9592 41.7285 15.3007 40.1133 16.1514 36.7412 18.1139
28 15.3079 43.6622 15.7042 42.9749 16.0549 41.3371 16.9279 37.9159 18.9392
29 16.0471 44.9132 16.4538 44.2169 16.8134 42.557 17.7084 39.0875 19.7677
30 16.7908 46.1599 17.2076 45.4546 17.5761 43.773 18.4927 40.256 20.5992
40 24.433 58.4278 24.9437 57.6402 25.394 55.7585 26.5093 51.8051 29.0505
60 40.4817 82.2251 41.1504 81.2992 41.7383 79.0819 43.188 74.397 46.4589
120 91.5726 150.7802 92.5991 149.5422 93.4986 146.5674 95.7046 140.2326 100.6236
131

TÀI LIỆU THAM KHẢO


[1]. Thống kê trong kinh tế và kinh doanh, Anderson – Sweeney – Williams, Hoàng Trọng (chủ
biên dịch), NXB Hồng Đức 2017.
[2]. Thống kê ứng dụng trong kinh tế và kinh doanh, Hoàng Trọng – Chu Nguyễn Mộng Ngọc,
NXB Kinh tế, 2017.

[3]. Lý thuyết xác suất và thống kê toán, Nguyễn Cao Văn, NXB Kinh tế quốc dân, 2012.
[4]. Thống kê ứng dụng trong quản trị, kinh doanh và nghiên cứu kinh tế, Trần Bá Nhẫn, Đinh
Thái Hoàng. 2006, Nhà xuất bản Thống Kê.
[5]. Essentials of probability & statistics for engineers & scientists, Ronald E Walpole, Pearson,
2013.

You might also like