You are on page 1of 240

ĐẠI HỌC DUY TÂN

KHOA KHOA HỌC TỰ NHIÊN


BỘ MÔN XÁC SUẤT THỐNG KÊ

BÀI GIẢNG

LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN


(Lưu hành nội bộ)

Đà Nẵng, năm 2018


ĐẠI HỌC DUY TÂN
KHOA KHOA HỌC TỰ NHIÊN
BỘ MÔN XÁC SUẤT THỐNG KÊ

TỔ XÁC SUẤT THỐNG KÊ


Chủ biên: NGUYỄN ĐẮC NHÂN

LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ

Khoa: KHOA HỌC TỰ NHIÊN

Đà Nẵng, năm 2018

i
MỤC LỤC

Trang phụ bìa i

Mục lục 1

Chương 1 Bản chất của xác suất thống kê 5


1.1 Thống kê mô tả và thống kê suy diễn . . . . . . . . . . . . . . . . . . . . 6
1.2 Các loại biến và các loại dữ liệu . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Biến định tính và biến định lượng . . . . . . . . . . . . . . . . . 6
1.2.2 Các loại thang đo thường được sử dụng . . . . . . . . . . . . . . 7
1.3 Thu thập dữ liệu và phương pháp lấy mẫu . . . . . . . . . . . . . . . . . 8
1.3.1 Mẫu ngẫu nhiên (Random Sampling) . . . . . . . . . . . . . . . 9
1.3.2 Mẫu hệ thống (Systematic Sampling) . . . . . . . . . . . . . . . 9
1.3.3 Mẫu phân tầng (Stratified Sampling) . . . . . . . . . . . . . . . 9
1.3.4 Mẫu chùm (Cluster Sampling) . . . . . . . . . . . . . . . . . . . 9
1.4 Nghiên cứu quan sát và thực nghiệm . . . . . . . . . . . . . . . . . . . . 10
1.4.1 Nghiên cứu quan sát . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.2 Nghiên cứu thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Lợi ích và lạm dụng của thống kê . . . . . . . . . . . . . . . . . . . . . . 10
1.6 Máy tính và tính toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Chương 2 Phân bố tần số và đồ thị 15


2.1 Tổ chức dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Nhật đồ, đa giác tần số, hình cung . . . . . . . . . . . . . . . . . . . . . 20
2.2.1 Nhật đồ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Đa giác tần số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3 Hình cung (Ogive) . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.4 Biểu đồ tần số tương đối . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.5 Các dạng phân phối . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3 Một số loại biểu đồ khác . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.1 Biểu đồ thanh (Bar graph) . . . . . . . . . . . . . . . . . . . . . 27
2.3.2 Biểu đồ Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.3 Biểu đồ chuỗi thời gian (Time series graph) . . . . . . . . . . . 29
2.3.4 Biểu đồ hình tròn (Pie graph) . . . . . . . . . . . . . . . . . . . . 29
2.3.5 Biểu đồ gây nhầm lẫn . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.6 Biểu đồ thân và lá (Stem and Leaf Plots) . . . . . . . . . . . . . 33

1
Chương 3 Mô tả dữ liệu 45
3.1 Các đo lường khuynh hướng định tâm (measures of central tendency) . 45
3.1.1 Trung bình (mean) . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.1.2 Trung vị (median) . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.3 Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.4 Trung bình khoảng (midrange) . . . . . . . . . . . . . . . . . . . 49
3.2 Các thước đo về độ biến thiên (measures of variation) . . . . . . . . . . 51
3.2.1 Khoảng biến thiên (range) . . . . . . . . . . . . . . . . . . . . . . 52
3.2.2 Phương sai và độ lệch chuẩn (variance and standard deviation) 52
3.2.3 Hệ số biến thiên (coefficient of variation) . . . . . . . . . . . . . 56
3.2.4 Quy tắc tính rợ khoảng (range rule of thumb) . . . . . . . . . . 56
3.2.5 Định lý Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2.6 Quy tắc kinh nghiệm (empirical rule) . . . . . . . . . . . . . . . 58
3.3 Các thước đo về vị trí (measures of position) . . . . . . . . . . . . . . . 59
3.3.1 Điểm chuẩn (standard score) . . . . . . . . . . . . . . . . . . . . 59
3.3.2 Điểm bách phân (percentile) . . . . . . . . . . . . . . . . . . . . . 60
3.3.3 Điểm thập phân và tứ phân (decile and quartile) . . . . . . . . . 62
3.3.4 Giá trị ngoại biên hay cá biệt (outlier ) . . . . . . . . . . . . . . 63
3.4 Phân tích dữ liệu khám phá (exploratory data analysis) . . . . . . . . . 64

Chương 4 Xác suất và các quy tắc đếm 73


4.1 Không gian mẫu và xác suất . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.1.1 Các khái niệm cơ bản . . . . . . . . . . . . . . . . . . . . . . . . 73
4.1.2 Xác suất cổ điển . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.1.3 Biến cố đối . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.1.4 Xác suất thực nghiệm (empirical probability) . . . . . . . . . . . 78
4.1.5 Luật số lớn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.1.6 Xác suất chủ quan . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.2 Quy tắc cộng xác suất . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.3 Quy tắc nhân xác suất và xác suất có điều kiện . . . . . . . . . . . . . . 83
4.3.1 Quy tắc nhân xác suất . . . . . . . . . . . . . . . . . . . . . . . . 83
4.3.2 Xác suất có điều kiện . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.4 Các quy tắc đếm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.4.1 Các quy tắc đếm cơ bản . . . . . . . . . . . . . . . . . . . . . . . 87
4.4.2 Các khái niệm cơ bản về giải tích tổ hợp . . . . . . . . . . . . . 88
4.4.3 Xác suất và quy tắc đếm . . . . . . . . . . . . . . . . . . . . . . . 89

Chương 5 Phân phối xác suất rời rạc 97

2
5.1 Phân phối xác suất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2 Trung bình, phương sai, độ lệch chuẩn, kỳ vọng của một phân phối
xác suất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.2.1 Trung bình của một phân phối xác suất . . . . . . . . . . . . . . 99
5.2.2 Phương sai và độ lệch chuẩn của một phân phối xác suất . . . . 100
5.2.3 Kỳ vọng của một phân phối xác suất . . . . . . . . . . . . . . . 101
5.3 Phân phối nhị thức . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.4 Các loại phân phối khác . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.4.1 Phân phối đa thức . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.4.2 Phân phối Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.4.3 Phân phối siêu bội (hypergeometric distribution) . . . . . . . . . 105

Chương 6 Phân phối chuẩn 110


6.1 Phân phối chuẩn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.2 Các ứng dụng của phân phối chuẩn . . . . . . . . . . . . . . . . . . . . . 113
6.2.1 Tìm giá trị dữ liệu được cho bởi xác suất cụ thể . . . . . . . . . 115
6.2.2 Xác định tính chuẩn . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.3 Định lý giới hạn trung tâm . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6.3.1 Phân phối của trung bình mẫu . . . . . . . . . . . . . . . . . . . 118
6.3.2 Thừa số điều chỉnh hữu hạn . . . . . . . . . . . . . . . . . . . . . 121
6.4 Phép tiệm cận chuẩn cho phân phối nhị thức . . . . . . . . . . . . . . . 122

Chương 7 Khoảng tin cậy và cỡ mẫu 128


7.1 Khoảng tin cậy cho trung bình khi biết σ và cỡ mẫu . . . . . . . . . . . 128
7.2 Khoảng tin cậy cho trung bình khi không biết σ . . . . . . . . . . . . . 131
7.2.1 Độ lệch chuẩn tổng thể σ chưa biết, kích thước mẫu n ≥ 30 . . . 131
7.2.2 Độ lệch chuẩn tổng thể σ chưa biết, kích thước mẫu n < 30, X
tuân theo phân phối chuẩn . . . . . . . . . . . . . . . . . . . . . 131
7.3 Khoảng tin cậy và cỡ mẫu cho tỷ lệ . . . . . . . . . . . . . . . . . . . . . 134
7.4 Khoảng tin cậy cho phương sai và độ lệch chuẩn . . . . . . . . . . . . . 136

Chương 8 Kiểm định giả thuyết thống kê 142


8.1 Thủ tục kiểm định giả thuyết – phương pháp truyền thống . . . . . . . 142
8.2 Kiểm định Z cho giá trị trung bình . . . . . . . . . . . . . . . . . . . . . 148
8.3 Kiểm định T cho giá trị trung bình . . . . . . . . . . . . . . . . . . . . . 152
8.4 kiểm định Z cho tỉ lệ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
8.5 Kiểm định χ2 cho phương sai và độ lệch chuẩn . . . . . . . . . . . . . . 155
8.6 Các chủ đề khác liên quan đến kiểm định giả thuyết . . . . . . . . . . . 157
8.6.1 Khoảng tin cậy và kiểm định giả thuyết . . . . . . . . . . . . . . 157

3
8.6.2 Sai lầm loại II và lực kiểm định . . . . . . . . . . . . . . . . . . . 158

Chương 9 Tương quan và hồi quy 162


9.1 Đồ thị với các điểm chấm (scatter plots) và tương quan (correlation) . 163
9.2 Hồi quy (regression) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
9.2.1 Đường hồi quy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
9.2.2 Xác định phương trình đường hồi quy . . . . . . . . . . . . . . . 169
9.3 Hệ số quyết định và sai số chuẩn tiên đoán . . . . . . . . . . . . . . . . 171
9.3.1 Các loại biến cho mô hình hồi quy . . . . . . . . . . . . . . . . . 171
9.3.2 Hệ số quyết định (coefficient of determination) . . . . . . . . . . 173
9.3.3 Sai số tiêu chuẩn tiên đoán (standard error of the estimate) . . 173
9.3.4 Khoảng tiên đoán (prediction interval ) . . . . . . . . . . . . . . 175
9.4 Hồi quy bội . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
9.4.1 Phương trình hồi quy bội . . . . . . . . . . . . . . . . . . . . . . 176
9.4.2 Kiểm định ý nghĩa của R . . . . . . . . . . . . . . . . . . . . . . 177
9.4.3 Điều chỉnh R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

PHỤ LỤC 220

TÀI LIỆU THAM KHẢO 238

4
Chương 1

BẢN CHẤT CỦA XÁC SUẤT THỐNG KÊ

Thống kê là khoa học nghiên cứu của tập hợp nhiều lĩnh vực khác nhau, bao gồm
thu thập, tổ chức, tổng hợp, phân tích và rút ra kết luận từ dữ liệu. Một vài lý do
mà sinh viên học sinh cần học thống kê là:

• Giống như những người chuyên nghiệp, bạn phải có khả năng đọc và hiểu các
nghiên cứu thống kê được thực hiện trong các lĩnh vực của bạn. Để có được sự
hiểu biết này, bạn phải am hiểu về từ vựng, các kí hiệu, khái niệm, và thủ tục
thống kê được sử dụng trong các nghiên cứu này.
• Bạn có thể được giao để tiến hành các nghiên cứu trong lĩnh vực của bạn, vì thủ
tục thống kê là cơ bản để tiến hành một nghiên cứu. Để thực hiện việc này, bạn
phải có khả năng thiết kế các thí nghiệm, thu thập, tổ chức, phân tích và tóm
tắt dữ liệu và có thể đưa ra dự đoán đáng tin cậy hoặc dự báo để sử dụng trong
tương lai. Bạn cũng phải có khả năng truyền đạt kết quả nghiên cứu bằng khả
năng diễn đạt của bạn.
• Bạn cũng có thể sử dụng các kiến thức thu được từ nghiên cứu thống kê để trở
thành người tiêu dùng và công dân tốt hơn. Ví dụ: bạn có thể đưa ra các quyết
định thông minh về sản phẩm cần mua dựa trên nghiên cứu người tiêu dùng, về
chi tiêu của chính phủ dựa trên nghiên cứu sử dụng,... Những lý do này có thể
được coi là mục tiêu để nghiên cứu số liệu thống kê. Mục đích của chương này
là giới thiệu các mục tiêu nghiên cứu thống kê bằng việc trả lời các câu hỏi như
sau: Thống kê là gì? Dữ liệu là gì? Các mẫu được chọn như thế nào?

Sau khi học xong chương này, người học sẽ được cung cấp về những điều sau:

• Kiểm tra được kiến thức về các thuật ngữ thống kê.
• Phân biệt được giữa hai nhánh của thống kê: Thống kê mô tả và thống kê suy
diễn.
• Xác định được các loại dữ liệu.
• Xác định mức đo lường cho mỗi biến.

• Xác định bốn kỹ thuật lấy mẫu căn bản.


• Giải thích sự khác nhau giữa nghiên cứu quan sát và nghiên cứu thực nghiệm.
• Giải thích cách mà thống kê có thể được sử dụng và sự lạm dụng của thống kê.

• Giải thích tầm quan trọng của máy tính và tính toán trong thống kê.

5
1.1 Thống kê mô tả và thống kê suy diễn

Để có được các kiến thức về những tình huống dường như ngẫu nhiên, thống kê
thu thập thông tin cho các biến, mô tả tình hình. Một biến là một đặc điểm hay
thuộc tính có thể cho giá trị khác nhau.
Dữ liệu là tập các giá trị (số đo hoặc quan sát) mà các biến có thể giả định. Biến
có giá trị được xác định ngẫu nhiên được gọi là biến ngẫu nhiên. Tập các giá trị dữ
liệu tạo thành một tập hợp giá trị dữ liệu. Mỗi giá trị dữ liệu thiết lập được gọi là
một giá trị dữ liệu hoặc một số liệu.
Thống kê thường được chia ra hai loại là thống kê mô tả và thống kê suy diễn:

+ Thống kê mô tả được sử dụng để mô tả một nhóm phần tử được quan sát trong
thực tế. Thống kê mô tả bao gồm thu thập, tổ chức, tổng hợp và trình bày dữ
liệu.
+ Thông thường trong nghiên cứu, ta không chỉ giới hạn các kết luận vào một
nhóm các phần tử mà ta đã quan sát (được gọi là mẫu). Điều mà ta muốn là tìm
hiểu một sự liên hệ nào đó có thể áp dụng cho tất cả các phần tử mà ta chưa hay
không thể quan sát được (được gọi là tổng thể). Quá trình tìm hiểu một mẫu
rồi dựa vào các kết quả của lý thuyết xác suất để rút ra kết luận cho tổng thể
được gọi là thống kê suy diễn. Như vậy mục đích chính của thống kê suy diễn là
tổng hợp kết quả từ các mẫu cho tổng thể, thực hiện ước lượng và kiểm định giả
thuyết, xác định các mối quan hệ giữa các biến và đưa ra dự đoán.

Tổng thể (còn được gọi là tập hợp chính, dân số) là tập hợp tất cả các phần tử
do mục đích và phạm vi vấn đề cần nghiên cứu quy định. Mẫu là một nhóm các đối
tượng được chọn trực tiếp từ tổng thể.

1.2 Các loại biến và các loại dữ liệu

Quan sát và đo lường các hiện tượng là điều căn bản cho tất cả các nghiên cứu
khoa học. Các hiện tượng hoặc dấu hiệu mà ta quan sát có thể thay đổi từ phần tử
này qua phần tử khác được gọi là biến. Ta cần phân biệt các loại biến: biến định tính
(qualitative variables) và biến định lượng (quantitative variables). Các biến được đo
lường và phân loại theo các thang đo, do đó ta cần phân biệt các loại thang đo: thang
đo danh nghĩa (nominal-level), thang đo thứ hạng (ordinal-level), thang đo khoảng
(interval-level) và thang đo tỉ lệ (ratio-level).

1.2.1 Biến định tính và biến định lượng

Biến định tính là những biến mà người ta gán các giá trị để phân biệt hay phân
loại quan sát.
Chẳng hạn: giới tính (nam, nữ); tình trạng hôn nhân (độc thân, có gia đình, ly
dị, góa chồng hay vợ), kết quả học tập (yếu, trung bình, khá, giỏi).

6
Biến định lượng là những biến mà các giá trị của nó được xác định bằng đo
lường. Biến định lượng được chia thành hai loại: biến định lượng rời rạc và biến định
lượng liên tục.
Chẳng hạn:

a) Biến định lượng rời rạc như: số con trong một gia đình, số học sinh trong một
lớp học,. . .
b) Biến định lượng liên tục như: chiều cao; cân nặng; thời gian phản ứng; nhiệt
độ,. . .

1.2.2 Các loại thang đo thường được sử dụng

Các biến được đo lường và phân loại theo 4 loại thang đo:

i. Thang danh nghĩa: là thang đo gán các con số cho các quan sát để phân biệt
và phân loại chúng, không có ý so sánh và các phép tính với chúng đều vô nghĩa.
Ví dụ: giới tính nam được gán bởi số 0, nữ được gán bởi số 1.
ii. Thang thứ hạng: là thang danh nghĩa mà giữa các dấu hiệu quan sát đã có
quan hệ thứ bậc hơn kém.
Ví dụ: thứ hạng học tập của sinh viên từ giỏi nhất đến ké nhất,. . . Trong thang
đo này sự sai khác giữa các dấu hiệu quan sát không bắt buộc phải đều nhau.
iii. Thang đo khoảng: là thang đo thứ hạng có khoảng cách đều nhau gữa các
bậc. Gán các con số cho các quan sát phản ánh một chiều dài cố định giữa các
đơn vị đo lường.
Có thể đánh giá sự khác biệt giữa các dấu hiệu quan sát bằng loại thang đo này
mặc dù điểm gốc ở đây chỉ là tương đối. Đây là thang đó có các khoảng cách
đều nhau, việc cộng trừ các con số có ý nghĩa, có thể tính toán trên các con số
của thang đo này. Để thu được thang đo khoảng có thể bắt đầu từ thang đo thứ
hạng sau đó chuẩn hóa sao cho các khoảng cách đều nhau và việc tính toán các
trị số đo trở nên có ý nghĩa. Chẳng hạn, để đặc trưng lứa tuổi có thể dùng thang
đo khoảng: trẻ (dưới 35 tuổi) [30], trung niên (từ 36 tuổi đến 60 tuổi) [50], già
(từ 60 tuổi trở lên) [70].
Các thang đo danh nghĩa, thứ hạng và thang đo khoảng dùng để đặc trưng các
giá trị của dấu hiệu định tính.
iv. Thang tỉ lệ: là thang đo khoảng cách với một điểm 0 tuyệt đối (điểm gốc) để
có thể so sánh được tỉ lệ giữa các trị số đo.
Với thang đo này ta có thể đo lường các dấu hiệu quan sát và thực hiện được tất
cả phép tính với trị số đo. Thang đo tỉ lệ dùng để đặc trưng các giá trị của dấu
hiệu định lượng.
Theo tuần tự thang đo sau có chất lượng cao hơn thang đo trước, mỗi thang đo
cấp cao hơn có thể chuyển xuống thang đo cấp thấp hơn.

Một số ví dụ về các thang đo:

7
Thang danh nghĩa Thang thứ hạng Thang đo khoảng Thang tỉ lệ
Mã bưu chính Điểm số (A,B,C,D,F) Điểm SAT Chiều cao
Giới tính (nam, nữ) Đánh giá (vị trí nhất, Chỉ số IQ Cân nặng
Màu mắt (nâu, nhì, ...) Nhiệt độ Thời gian
xanh dương, ...) Thang điểm đánh giá Lương
Đảng phái chính trị (yếu, khá, ...) Tuổi
Chuyên ngành (toán, Xếp hạng các cầu thủ
tin học, ...) quần vợt
Quốc tịch
Tôn giáo

1.3 Thu thập dữ liệu và phương pháp lấy mẫu

Dữ liệu có thể được thu thập bằng nhiều cách khác nhau. Một trong những phương
pháp phổ biến nhất là thông qua việc sử dụng các cuộc điều tra. Khảo sát có thể
được thực hiện bằng cách sử dụng nhiều phương pháp. Ba trong số các phương pháp
phổ biến nhất là khảo sát qua điện thoại, bản câu hỏi gửi qua đường bưu điện và
cuộc phỏng vấn cá nhân.
Các cuộc điều tra bằng điện thoại có lợi thế hơn các cuộc điều tra phỏng vấn cá
nhân do họ ít tốn kém hơn. Ngoài ra, người ta có thể thẳng thắn hơn trong quan
điểm của họ vì không có liên hệ đối mặt. Một trở ngại lớn nhất đối với cuộc khảo sát
qua điện thoại là một số người dân sẽ không có điện thoại hoặc sẽ không trả lời khi
có cuộc gọi; do đó, không phải tất cả mọi người đều có cơ hội được điều tra. Ngoài
ra, hiện nay nhiều người dùng số diện thoại không có trong danh sách công bố, vì
vậy họ không thể được khảo sát. Cuối cùng, ngay cả giọng nói của người phỏng vấn
cũng có thể ảnh hưởng đến phản ứng của người được phỏng vấn.
Các cuộc điều tra gửi qua đường bưu điện có thể được sử dụng để bao phủ một
khu vực địa lý rộng lớn hơn so với các cuộc điều tra qua điện thoại hoặc các cuộc
phỏng vấn cá nhân vì các cuộc điều tra bằng phiếu gửi ít tốn kém hơn để tiến hành.
Ngoài ra, người trả lời có thể vẫn vô danh nếu họ muốn. Nhược điểm của các cuộc
điều tra bằng bảng câu hỏi gửi thư bao gồm số lượng phản hồi thấp và câu trả lời
không thích hợp. Một nhược điểm nữa là một số người có thể gặp khó khăn khi đọc
hoặc hiểu các câu hỏi.
Các cuộc điều tra phỏng vấn cá nhân có lợi thế là có được những câu trả lời sâu
về các câu hỏi từ người được phỏng vấn. Một bất lợi là người phỏng vấn phải được
đào tạo trong việc đặt câu hỏi và ghi lại những phản hồi, làm cho cuộc điều tra phỏng
vấn cá nhân tốn kém hơn so với các phương pháp khảo sát khác. Một bất lợi khác là
người phỏng vấn có thể có thành kiến trong việc lựa chọn người trả lời của mình.
Dữ liệu cũng có thể được thu thập theo những cách khác, chẳng hạn như khảo
sát hồ sơ hoặc quan sát trực tiếp các tình huống.
Các nhà nghiên cứu sử dụng các mẫu để thu thập dữ liệu và thông tin về một
biến cụ thể từ một quần thể lớn. Sử dụng mẫu tiết kiệm về mặt thời gian, tiền bạc
và trong một số trường hợp cho phép nhà nghiên cứu có được thông tin chi tiết hơn
về một chủ đề cụ thể. Tuy nhiên các mẫu không thể được lựa chọn theo cách ngẫu

8
nhiên được bởi vì thông tin thu được có thể là chênh lệch. Để có được các mẫu không
chênh lệch - nghĩa là mỗi đối tượng trong quần thể có cơ hội được lựa chọn như nhau
- các nhà thống kê sử dụng bốn phương pháp lấy mẫu căn bản: mẫu ngẫu nhiên, có
hệ thống, phân tầng và lấy mẫu cụm.

1.3.1 Mẫu ngẫu nhiên (Random Sampling )

Các mẫu ngẫu nhiên được lựa chọn bằng cách sử dụng các phương pháp ngẫu
nhiên hoặc các số ngẫu nhiên. Một trong những phương pháp như vậy là gán mỗi số
cho một đối tượng trong tổng thể. Sau đó đặt các thẻ được đánh số vào một cái bát,
trộn chúng cẩn thận và chọn nhiều loại thẻ nếu cần. Các đối tượng có số được chọn
tạo thành mẫu. Vì khó trộn các loại thẻ này kỹ lưỡng nên vẫn có thể tạo ra một mẫu
chệch. Vì lý do này, các nhà thống kê sử dụng phương pháp khác để thu thập số liệu
bằng cách họ tạo ra các số ngẫu nhiên từ máy tính.

1.3.2 Mẫu hệ thống (Systematic Sampling )

Là loại mẫu đã được đơn giản hóa trong cách chọn, trong đó chỉ có phần tử đầu
tiên được chọn ngẫu nhiên, sau đó dựa vào danh sách đã được đánh số của tổng thể
để chọn ra các phần tử tiếp theo vào mẫu theo một thủ tục nào đó. Chẳng hạn, trên
một danh sách N phần tử cần chọn ra một mẫu kích thước n thì ta chia danh sách
đó ra n phần bằng nhau, ở phần thứ nhất gồm N/n phần tử, chọn ngẫu nhiên ra một
phần tử, sau đó theo danh sách cứ cách N/n phần tử ta lấy ra một phần tử vào mẫu
cho đến khi có đủ n phần tử.

1.3.3 Mẫu phân tầng (Stratified Sampling )

Để thu được một mẫu phân tầng ta phân chia tổng thể thành các nhóm (gọi là
tầng) theo một số đặc điểm quan trọng cho nghiên cứu, sau đó chọn ngẫu nhiên các
phần tử đại diện cho từng nhóm.

1.3.4 Mẫu chùm (Cluster Sampling )

Trong một số trường hợp để tiện cho việc nghiên cứu người ta muốn quy diện
nghiên cứu gọn về một khu vực nhất định chứ không để cho các phần tử của mẫu
phân tán quá rộng, lúc đó mẫu được chọn theo chùm.
Để thực hiện theo phương pháp này, trước tiên tổng thể điều tra được phân chia
thành nhiều chùm theo nguyên tắc:

• mỗi phần tử của tổng thể chỉ được phân vào một chùm.
• mỗi chùm cố gắng chứa nhiều phần tử khác nhau về dấu hiệu nghiên cứu sao
cho nó có độ phân tán cao như tổng thể.
• phân chia sao cho các chùm tương đối đồng đều nhau về quy mô.
Tiếp đó các chùm được chọn một cách ngẫu nhiên và tất cả các phần tử của
chùm đó đều được chọn vào mẫu.

9
Tóm tắt phương pháp lấy mẫu:

Mẫu ngẫu nhiên Đối tượng được lựa chọn theo số ngẫu nhiên.
Mẫu hệ thống Các đối tượng được lựa chọn cách nhau k lần sau khi đối tượng
đầu tiên được chọn ngẫu nhiên từ 1 đến k .
Mẫu phân tầng Các đối tượng được lựa chọn bằng cách phân chia tổng thể
thành các nhóm (tầng) và các đối tượng được chọn ngẫu nhiên
trong các nhóm.
Mẫu chùm Các đối tượng được lựa chọn bằng cách sử dụng một nhóm
nguyên vẹn đại diện cho quần thể.

1.4 Nghiên cứu quan sát và thực nghiệm

1.4.1 Nghiên cứu quan sát

Trong một nghiên cứu quan sát, nhà nghiên cứu chỉ quan sát thấy những gì đang
xảy ra hoặc những gì đã xảy ra trong quá khứ và cố gắng rút ra kết luận dựa trên
những quan sát này.

1.4.2 Nghiên cứu thực nghiệm

Thực nghiệm là một phương pháp thu thập thông tin được thực hiện bởi những
quan sát trong điều kiện gây biến đổi đối tượng khảo sát và môi trường xung quanh
đối tượng khảo sát một cách có chủ định. Phương pháp thực nghiệm được áp dụng
phổ biến không chỉ trong nghiên cứu tự nhiên, kỹ thuật, y học mà cả trong xã hội và
các lĩnh vực khác.
Thực nghiệm cho phép tác động lên đối tượng nghiên cứu một cách chủ động, can
thiệp có ý thức vào quá trình diễn biến tự nhiên, để hướng quá trình diễn ra theo
mong muốn của nhà nghiên cứu.
Các nghiên cứu thống kê thường bao gồm một hoặc nhiều biến độc lập và một
biến phụ thuộc. Các biến được sử dụng để mô tả hoặc đo lường vấn đề nghiên cứu
gọi là biến phụ thuộc (dependent variable). Các biến được sử dụng để mô tả hoặc đo
lường các yếu tố (tác nhân) được giả định là gây ra hoặc ít nhất là làm ảnh hưởng
đến vấn đề nghiên cứu được gọi là biến độc lập (independent variable).
Ví dụ: trong một nghiên cứu về mối liên quan giữa hút thuốc lá và ung thư phổi
thì biến “có bị ung thư phổi hay không” (nhận các giá trị có hoặc không) sẽ là biến
phụ thuộc, còn biến “hút thuốc” (biến thiên từ không hút thuốc đến hút trên 3 bao
một ngày) là biến độc lập.

1.5 Lợi ích và lạm dụng của thống kê

Thống kê có thể được sử dụng để mô tả dữ liệu, so sánh hai hoặc nhiều tập dữ
liệu, xác định mối liên hệ giữa các biến, kiểm định giả thuyết và đưa ra các ước tính

10
về đặc điểm của tổng thể. Tuy nhiên, có một khía cạnh khác của số liệu thống kê đó
là việc sử dụng sai kỹ thuật thống kê để bán sản phẩm không hoạt động đúng cách
để thử chứng minh điều gì đó thực sự là không đúng sự thật hoặc để thu hút sự chú
ý của chúng ta bằng cách sử dụng thống kê để gây ra nỗi sợ hãi, sốc và xúc phạm.
Sau đây là một số cách mà thống kê có thể bị trình bày sai:

• Sử dụng mẫu nghi ngờ: Đôi khi các nhà nghiên cứu sử dụng các mẫu rất nhỏ để
có được thông tin. Không chỉ quan trọng là phải có kích thước mẫu đủ lớn mà
còn là cần thiết để xem các đối tượng trong mẫu đã được lựa chọn như thế nào.
Một số nhà nghiên cứu dùng mẫu thuận tiện. Chẳng hạn, các nghiên cứu giáo
dục đôi khi sử dụng toàn bộ học sinh trong một lớp học vì thuận tiện để đánh
giá cho toàn bộ tổng thể.
• Trung bình không được rõ ràng.
• Một biến dạng của thống kê có thể xảy ra khi các giá trị khác nhau được biểu
diễn cho cùng một dữ liệu.
• Thống kê bị tách rời, tức là thống kê không có sự so sánh được thực hiện.
• Nhiều kết nối hàm ý giữa các biến mà có thể không thực sự tồn tại. Ví dụ, hãy
xem xét tuyên bố sau: "Ăn cá có thể giúp giảm cholesterol của bạn". Lưu ý các
từ "có thể giúp". Không có gì đảm bảo rằng ăn cá chắc chắn sẽ giúp bạn giảm
cholesterol.
• Sử dụng biểu đồ sai lệch sẽ gây cho người đọc rút ra những kết luận sai.
• Sử dụng các câu hỏi khảo sát bị lỗi.

1.6 Máy tính và tính toán

Trong phần này, tôi giới thiệu một vài phần mềm được sử dụng trong xác suất
thống kê: SPSS, MINITAB, Microsoft Excel, Máy tính bỏ túi.

11
Phần bài tập chương 1

1. Nêu tên và định nghĩa hai lĩnh vực của thống kê.
2. Giải thích sự khác nhau giữa mẫu và tổng thể.
3. Tại sao mẫu lại được sử dụng trong thống kê?
4. Trong mỗi báo cáo sau, thống kê mô tả hay thống kê suy diễn được sử dụng?
a. Trong năm 2010, 148 triệu người Mỹ sẽ tham gia HMO (Nguồn: USA TO-
DAY).
b. Chín trong số mười người tử vong trong công việc là nam giới (Nguồn: USA
TODAY Weekend).
c. Chi phí cho ngành công nghiệp cáp là 5,66 tỷ đô la vào năm 1996 (Nguồn:
USA TODAY).
d. Thu nhập trung bình của hộ gia đình cho người từ 25-34 tuổi là 35.888 USD
(Nguồn: USA TODAY).
e. Liệu pháp dị ứng làm cho ong bỏ đi (Nguồn: Phòng ngừa).
f. Uống cà phê không có caffein có thể làm tăng mức cholesterol lên 7% (Nguồn:
Hiệp hội Tim Mạch Hoa Kỳ).
g. Chi phí y tế trung bình hàng năm cho mỗi người là 1052 đô la (Nguồn: The
Greensburg Tribune Review).
h. Các chuyên gia nói rằng tỷ lệ thế chấp có thể sớm hạ xuống đến mức thấp
nhất (Nguồn: USA TODAY).
5. Phân loại từng thang đo: thang đo danh nghĩa, thang thứ hạng, thang đo khoảng,
thang tỉ lệ cho các dữ kiện sau:
a. Số trang trong cuốn danh bạ điện thoại của thành phố Cleveland.
b. Xếp hạng của cầu thủ quần vợt.
c. Trọng lượng của các máy điều hòa.
d. Nhiệt độ bên trong 10 tủ lạnh.
e. Tiền lương của năm giám đốc điều hành hàng đầu tại Hoa Kỳ.
f. Xếp hạng của tám vở kịch địa phương (yếu, trung bình, tốt, xuất sắc).
g. Thời gian cần thiết cho thợ cơ khí để điều chỉnh máy.
h. Tuổi của học sinh trong lớp.
i. Tình trạng hôn nhân của bệnh nhân tại văn phòng bác sĩ.
j. Mã lực của động cơ máy kéo.
6. Phân loại các biến sau theo biến định tính hay định lượng.
a. Số lượng xe đạp được bán trong 1 năm bởi một cửa hàng bán đồ thể thao
lớn.
b. Màu sắc của mũ bóng chày trong một cửa hàng.
c. Thời gian cần thiết để cắt một bãi cỏ.
12
d. Dung tích (feet khối) của sáu chiếc xe tải.
e. Phân loại trẻ em ở trung tâm chăm sóc ban ngày (trẻ sơ sinh, trẻ mới biết
đi, mẫu giáo).
f. Trọng lượng cá bắt được ở Hồ George.
g. Tình trạng hôn nhân của các giảng viên trong một trường đại học lớn.
7. Phân loại biến rời rạc và biến liên tục:
a. Số lượng bánh rán được bán hàng ngày bởi Donut Heaven.
b. Nhiệt độ nước của sáu hồ bơi ở Pittsburgh vào một ngày nhất định.
c. Trọng lượng của các con mèo trong nơi trú ẩn vật nuôi.
d. Tuổi thọ (tính bằng giờ) 12 pin của đèn pin.
e. Số lượng bánh mỳ kẹp bơ được bán mỗi ngày bởi một cửa hàng Hamburger
Stand trong khuôn viên một trường đại học.
f. Số lượng DVD được thuê mỗi ngày bởi một cửa hàng video.
g. Dung tích (gallon) của sáu hồ chứa ở Hạt Jefferson.
8. Nêu tên và định nghĩa bốn phương pháp lấy mẫu cơ bản.
9. Phân loại từng mẫu sau theo: mẫu ngẫu nhiên, mẫu hệ thống, mẫu phân tầng,
mẫu chùm.
a. Trong một trường học lớn thuộc quận, tất cả giáo viên từ hai tòa nhà được
phỏng vấn để xác định xem họ tin rằng các sinh viên có ít bài tập ở nhà phải
làm bây giờ hơn những năm trước.
b. Mỗi thứ bảy, các khách hàng vào khu mua sắm được yêu cầu chọn cửa hàng
yêu thích của mình.
c. Giám sát viên điều dưỡng được chọn tùy ý một số để xác định mức lương
hàng năm.
d. Mỗi bánh hamburger thứ 100 được sản xuất đều được kiểm tra để xác định
hàm lượng chất béo của nó.
e. Người vận chuyển thư của một thành phố lớn được chia thành bốn nhóm
theo giới tính (nam hay nữ) và tùy theo họ đi bộ hay đi xe trên các tuyến
đường của họ. Sau đó 10 người được lựa chọn từ mỗi nhóm và phỏng vấn để
xác định xem họ đã bị chó cắn vào năm ngoái hay không.
10. Với mỗi câu dưới đây, hãy xác định tổng thể và nêu rõ cách lấy mẫu.
a. Chi phí trung bình của một bữa ăn hàng không là 4,55 đô la (Nguồn: Every-
thing Has Its Price, Richard E. Donley, Simon and Schuster).
b. Hơn 1 trong 4 trẻ em ở Hoa Kỳ có mức cholesterol ở mức 180 miligam hoặc
cao hơn (Nguồn: Qũy y tế Hoa Kỳ).
c. Mỗi 10 phút, 2 người chết vì tai nạn xe hơi và 17 người bị thương (Nguồn:
ước tính của Hội đồng An toàn Quốc gia).

13
d. Khi người già với cao huyết áp từ nhẹ đến trung bình được truyền muối
khoáng trong vòng 6 tháng, chỉ số huyết áp trung bình giảm 8 điểm tâm thu
và tâm trương 3 điểm (Nguồn: Phòng bệnh).
e. Số tiền trung bình dành cho mỗi món quà cho Mẹ trong Ngày của Mẹ là
25,95 đô la (Nguồn: Tổ chức Gallup).
11. Xác định các nghiên cứu sau là nghiên cứu quan sát hay nghiên cứu thực nghiệm?
a. Các đối tượng được phân ngẫu nhiên vào hai nhóm, và một nhóm được cho
một loại thảo mộc và một nhóm khác là giả dược. Sau 6 tháng, số người mắc
bệnh đường hô hấp trên mỗi nhóm đã được so sánh.
b. Một nhà nghiên cứu đứng ở một ngã tư đông đúc để xem liệu màu của ô tô
có liên quan đến việc người lái vượt đèn đỏ.
c. Một nhà nghiên cứu nhận thấy rằng những người gây hấn hơn sẽ có mức
cholesterol toàn phần cao hơn những người ít gây hấn.
d. Các đối tượng được phân chia ngẫu nhiên thành bốn nhóm. Mỗi nhóm được
xếp vào một trong bốn chế độ ăn đặc biệt: chế độ ăn ít chất béo, chế độ ăn
nhiều cá, sự kết hợp giữa chế độ ăn ít chất béo và chế độ ăn nhiều cá, chế
độ ăn chuẩn. Sau 6 tháng, huyết áp của các nhóm được so sánh để xem chế
độ ăn uống có bất kỳ ảnh hưởng nào đến huyết áp không.
12. Xác định các biến độc lập và biến phụ thuộc trong mỗi nghiên cứu trong ví dụ
11
13. Các vi khuẩn có lợi Theo một nghiên cứu thí điểm của 20 người được tiến
hành tại Đại học Minnesota, hàng ngày cho sử dụng thuốc theo liều lượng của
một hợp chất được gọi là arabinogalactan trong thời gian 6 tháng đã làm tăng
đáng kể các loại vi khuẩn lactobacillus có lợi. Tại sao không thể kết luận rằng
hợp chất này có lợi cho đa số mọi người?

14
Chương 2

PHÂN BỐ TẦN SỐ VÀ ĐỒ THỊ

Khi tiến hành nghiên cứu thống kê, nhà nghiên cứu phải thu thập dữ liệu cho
một biến cụ thể đang được nghiên cứu. Ví dụ, nếu một nhà nghiên cứu muốn nghiên
cứu số người bị rắn cắn ở một khu vực địa lý cụ thể trong vài năm gần đây, họ phải
thu thập dữ liệu từ các bác sĩ, bệnh viện hoặc các sở y tế khác nhau.
Để mô tả tình huống, rút ra kết luận, hoặc suy luận về sự kiện, nhà nghiên cứu
phải tổ chức dữ liệu một cách có ý nghĩa. Cách thức thuận tiện nhất để tổ chức dữ
liệu là xây dựng một phân bố tần số. Sau khi tổ chức dữ liệu, nhà nghiên cứu phải
trình bày cho người đọc có thể rút ra một số thông tin từ thị giác từ những sự kiện
có vẻ như phức tạp, hỗn độn. Phương pháp hữu ích nhất để trình bày dữ liệu là xây
dựng biểu đồ và đồ thị thống kê. Có rất nhiều loại biểu đồ và đồ thị khác nhau và
mỗi loại có một mục đích cụ thể.
Chương này giải thích làm thế nào để tổ chức dữ liệu bằng cách xây dựng phân
phối tần số và làm thế nào để trình bày dữ liệu bằng cách xây dựng biểu đồ và đồ
thị. Các biểu đồ và biểu đồ được minh họa ở đây là nhật đồ, đa giác tần số, biểu đồ
hình cung, biểu đồ hình tròn, biểu đồ Pareto và biểu đồ chuỗi thời gian. Một biểu đồ
kết hợp các đặc điểm của một phân bố tần số và nhật đồ được gọi là biểu đồ thân
và lá.

2.1 Tổ chức dữ liệu

Giả sử một nhà nghiên cứu muốn nghiên cứu về lứa tuổi của 50 người giàu nhất
trên thế giới. Đầu tiên các nhà nghiên cứu sẽ phải lấy dữ liệu về tuổi của các người
dân. Trong trường hợp này, những lứa tuổi này được liệt kê trong tạp chí Forbes. Khi
dữ liệu ở dạng ban đầu, chúng được gọi là dữ liệu thô và được liệt kê dưới đây:

49 57 38 73 81
74 59 76 65 69
54 56 69 68 78
65 85 49 69 61
48 81 68 37 43
78 82 43 64 67
52 57 81 77 79
85 40 85 59 80
60 71 57 61 69
61 83 90 87 74

Vì khi xem dữ liệu thô ta thu được ít thông tin từ nó nên nhà nghiên cứu thiết
lập một phân bố tần số cho dữ liệu. Phân bố tần số là tổ chức dữ liệu thô ở dạng
bảng bao gồm các lớp và tần số tương ứng. Số lần xảy ra cho mỗi lớp được gọi là tần

15
số (frequency) của lớp đó. Nếu thực hiện công việc này bằng tay, ta ghi dấu (tally)
mỗi lần xảy ra cho mỗi loại, bằng cách như vậy ta thiết lập một phân bố tần số cho
mẫu của ta. Tuy nhiên nếu chỉ có tần số mà thôi thì chưa nói lên được điều gì nếu
ta không cải biến nó ra tỉ lệ phần trăm. Tần suất của một lớp là tỉ lệ phần trăm của
lớp đó.

Từ bảng phân bố tần số, ta có thể nói rằng đa số những người giàu có trong
nghiên cứu này trên 55 tuổi.
a. Đối với biến định tính
Phân bố tần số phân loại (categorical frequency distribution) được sử dụng cho
biến định tính.

Quy trình:
• Bước 1: Lập bảng như sau:

Lớp Ghi dấu Tần số Phần trăm


(Class) (Tally) (Frequency) (Percent)

• Bước 2: Ghi dấu dữ liệu.


• Bước 3: Tìm tần số và tỉ lệ phần trăm.

Ví dụ 2.1.1. Hai mươi lăm cảnh sát viên được xét nghiệm máu để xác định nhóm
máu của họ. Tập dữ liệu được cho như sau:

A B B AB O
O O B AB B
B B O A O
A O O O AB
AB A O B A

Hãy xây dựng một phân bố tần số cho dữ liệu trên.

Lời giải:

16
Như vậy, đối với mẫu trên thì nhiều người có loại máu O hơn bất kỳ loại nào
khác.
b. Đối với biến định lượng
Vối biến định lượng có hai loại phân bố tần số sau:
i) Phân bố tần số ghép lớp (grouped frequency distribution):
Phân bố tần số ghép lớp được sử dụng khi phạm vi dữ liệu (range) lớn, mỗi lớp
là một đoạn dữ liệu có độ rộng (width) lớn hơn 1 đơn vị.

Quy trình phân bố tần số ghép lớp:

• Bước 1: Xác định các lớp.


+ Tìm giá trị lớn nhất, kí hiệu H (Highest) và giá trị nhỏ nhất, kí hiệu L
(Lowest).
+ Tìm phạm vi dữ liệu (range): R = H − L.
+ Chọn số lớp theo mong muốn, kí hiệu N C .
R
+ Tìm độ rộng (width): W = . Với lưu ý: Nếu W ∈
/ Z thì ta làm tròn lên
NC
và nếu W ∈ Z thì chọn độ rộng là W + 1.
+ Chọn điểm bắt đầu (giá trị nhỏ hơn hoặc bằng với giá trị nhỏ nhất của dữ
liệu) để làm giới hạn dưới (lower limit), kí hiệu LL, của lớp đầu tiên, cộng
thêm độ rộng để được các giới hạn dưới tiếp theo, tức là: LLi+1 = LLi + W ,
trong đó i là chỉ số lớp thứ i.
+ Tìm các giới hạn trên (upper limit) của các lớp, kí hiệu là U Li = LLi +W −1.
+ Tìm các lớp cận biên (class boundaries). Cận biên dưới (lower class bound-
ary) của lớp thứ i, kí hiệu là LCB , cận biên trên (upper class boundary)
của lớp thứ i, kí hiệu là U CB . Công thức xác định các lớp cận biên:
1
LCBi = LLi − (đơn vị đo lường dữ liệu),
2
1
U CBi = U Li + (đơn vị đo lường dữ liệu).
2

• Bước 2: Ghi dấu dữ liệu.


• Bước 3: Tìm các tần số và phần trăm.
Khi lập bảng phân bố tần số ghép lớp ta cần lưu ý:

17
• Có bao nhiêu lớp cần sử dụng trong phân bố? Số lớp nên có từ 5 đến 20 mặc dù
không có một quy tắc cố định về số lớp trong một phân bố tần số, điều quan
trọng nhất là phải có đủ các lớp để trình bày rõ ràng về các dữ liệu thu thập
được. Vì nếu số lớp quá nhiều thì lợi ích của việc phân bố tần số ghép lớp không
được bao nhiêu so với các dữ liệu thô. Còn nếu số lớp quá ít, nhiều điểm số được
gộp vào một lớp, như vậy sẽ mất nhiều thông tin.
• Trong thống kê cơ bản thì các lớp có độ rộng là như nhau. Nhưng trong thống
kê chuyên ngành thì độ rộng của các lớp có thể không bằng nhau tùy theo mục
đích của nghiên cứu.
Ví dụ 2.1.2. Cho các số liệu thống kê về nhiệt độ cao kỷ lục (tính bằng độ F) của
50 tiểu bang. Hãy lập bảng phân bố tần số ghép lớp với 7 lớp.
112 100 127 120 134 118 105 110 109 112
110 118 117 116 118 122 114 114 105 109
107 112 114 115 118 117 118 122 106 110
116 108 110 121 113 120 119 111 104 111
120 113 120 117 105 110 118 112 114 114

Giải:
• Bước 1: Xác định các lớp:
+ H = 134, L = 100.
+ R = H − L = 34.
+ N C = 7.
34
+W= = 4.9 do đó ta chọn W = 5.
7
+ Xác định các lớp giới hạn:
LL1 = L = 100; LL2 = 105; LL3 = 110; LL4 = 115; LL5 = 120; LL6 = 125; LL7 = 130;
U L1 = 104; U L2 = 109; U L3 = 114; U L4 = 119; U L5 = 124; U L6 = 129; U L7 = 134.
+ Xác định các lớp cận biên:
LCB1 = 99.5; LCB2 = 104.5; ...
U CB1 = 104.5; U CB2 = 109.5; ...
• Bước 2: Ghi dấu dữ liệu.
• Bước 3: Tìm các tần số của mỗi lớp và ta được thống kê như sau:

18
Từ bảng phân bố tần số ghép lớp ta thấy rằng: Nhiệt độ của 50 tiểu bang được
khảo sát thì có đến 18 bang có nhiệt độ trong khoảng 109.5-114.5 (F) và có 13 bang
có nhiệt độ trong khoảng 114.5-119.5 (F). Do đó, hầu hết (có đến 31 bang) có nhiệt
độ trong khoảng 109.5-119.5 (F).
Để thấy được một cách nhanh chóng số lượng giá trị dữ liệu nhỏ hơn hoặc bằng
một giá trị cụ thể nào đó trong mẫu dữ liệu người ta thường lập phân bố tần số tích
lũy (cumulative frequency). Phân bố tần số tích lũy (tăng dần) là những số cộng dồn
của tần số của các lớp có giới hạn lớp nhỏ hơn hoặc bằng lớp đang xác định. Trong
ví dụ trên, tần số tích lũy của lớp đầu tiên là 0 + 2 = 2, lớp thứ hai là 2 + 8 = 10, lớp
thứ ba là 10 + 18 = 28,... Khi đó ta có bảng phân bố tần số tích lũy sau:

Hình 2.1: Bảng phân bố tần số tích lũy về nhiệt độ cao kỷ lục (tính bằng độ F) của 50 tiểu bang.

Từ bảng phân bố tần số tích lũy trên ta có thể đưa ra kết luận rằng, có đến 28
trong tổng số 50 bang có nhiệt độ cao kỷ lục thấp hơn hoặc bằng 114o F .
ii) Phân bố tần số không ghép lớp (ungrouped frequency distribution):
Phân bố tần số không ghép lớp được sử dụng khi phạm vi dữ liệu tương đối nhỏ,
mỗi lớp là một dữ liệu đơn.
Ví dụ 2.1.3. Lập phân bố tần số cho dữ liệu về độ tuổi của 30 sinh viên trong một
lớp học được cho dưới đây:

18 18 19 18 19 19 20 21 20 18
19 20 18 18 19 20 21 21 19 18
18 19 19 19 20 19 19 18 19 20

Lời giải: Lập bảng phân phối tần số:

Lớp Lớp Ghi dấu Tần số Phần trăm


giới hạn cận biên (f ) (%)
18 17.5 − 18.5 /////,//// 9 30
19 18.5 − 19.5 /////,/////,// 12 40
20 19.5 − 20.5 /////,/ 6 20
21 20.5 − 21.5 /// 3 10

19
2.2 Nhật đồ, đa giác tần số, hình cung

Sau khi bạn đã tổ chức dữ liệu vào một phân bố tần số, bạn có thể trình bày
chúng dưới dạng biểu đồ. Mục đích của biểu đồ trong số liệu thống kê là truyền tải
dữ liệu tới người xem theo hình ảnh. Nó dễ dàng hơn cho hầu hết mọi người hiểu
được ý nghĩa của dữ liệu được trình bày bằng đồ thị so với dữ liệu được trình bày về
số lượng trong bảng hoặc phân bố tần số. Điều này đặc biệt đúng nếu người dùng có
ít hoặc không có kiến thức về thống kê.
Biểu đồ thống kê có thể được sử dụng để mô tả tập dữ liệu hoặc để phân tích
dữ liệu. Đồ thị cũng hữu ích trong việc thu hút sự chú ý của khán giả trong một bài
báo cáo hoặc một bài thuyết trình bằng lời nói. Chúng có thể được sử dụng để thảo
luận về một vấn đề, củng cố một điểm quan trọng, hoặc tóm tắt một tập dữ liệu.
Chúng cũng có thể được sử dụng để khám phá ra một xu hướng hoặc mô hình trong
một tình huống trong một khoảng thời gian. Và có ba đồ thị thông dụng nhất trong
nghiên cứu là nhật đồ (histogram), đa giác tần số (frequency polygon), biểu đồ tần số
tích lũy (hay hình cung (ogives)).

2.2.1 Nhật đồ

Nhật đồ là một biểu đồ biểu thị dữ liệu bằng cách sử dụng các thanh dọc chạm
sát vào nhau (trừ khi tần số của một lớp bằng 0), chiều cao của mỗi thanh biểu thị
tần số của mỗi lớp, mỗi thanh dọc trải rộng từ cận biên dưới đến cận biên trên của
mỗi lớp và mỗi trung điểm của mỗi lớp rơi vào chính điểm giữa của thanh dọc.
Ví dụ 2.2.1. Sử dụng phân bố tần số ở ví dụ 2.1.2 hãy vẽ nhật đồ biểu diễn cho
nhiệt độ cao kỷ lục (tính bằng độ F) của 50 tiểu bang.
• Bước 1: Vẽ trục x và y , chia thang đo cho phù hợp trên các trục.
• Bước 2: Biểu diễn tần số trên trục y và lớp cận biên trên trục x.
• Bước 3: Sử dụng các tần số làm chiều cao và vẽ các thanh dọc cho mỗi lớp và
được kết quả như hình 2.2.

Hình 2.2: Nhật đồ biểu diễn cho nhiệt độ cao kỷ lục (tính bằng độ F) của 50 tiểu bang

20
2.2.2 Đa giác tần số

Đa giác tần số là một biểu đồ hiển thị dữ liệu bằng cách sử dụng các đường nối
các điểm được vẽ ra cho các tần số trung điểm của các lớp. Chiều cao của các điểm
biểu thị tần số trung điểm của các lớp.
Ví dụ 2.2.2. Sử dụng phân bố tần số ở ví dụ 2.1.2 hãy vẽ biểu đồ đa giác tần số.

• Bước 1: Đầu tiên ta tìm điểm chính giữa cho mỗi lớp. Điểm chính giữa của mỗi
lớp được tính bằng cách lấy cận biên phía trên cộng với cận biên phía dưới rồi
chia cho 2.
Lớp cận biên Điểm giữa Tần số
99.5-104.5 102 2
104.5-109.5 107 8
109.5-114.5 112 18
114.5-119.5 117 13
119.5-124.5 122 7
124.5-129.5 127 1
129.5-134.5 132 1

• Bước 2: Vẽ trục x và y , chia thang đo cho phù hợp trên các trục.
• Bước 3: Vẽ các điểm với hoành độ x là điểm chính giữa của các lớp, tung độ y là
tần số của mỗi lớp tương ứng.
• Bước 4: Nối các điểm bằng các đoạn thẳng và được kết quả như hình 2.3.

Hình 2.3: Đa giác tần số biểu diễn cho nhiệt độ cao kỷ lục (tính bằng độ F) của 50 tiểu bang

Đa giác tần số và nhật đồ là hai cách khác nhau để biểu thị cùng một tập dữ liệu.
Sự lựa chọn của người sử dụng tùy theo ý của nhà nghiên cứu.

2.2.3 Hình cung (Ogive)

Để biểu thị cho phân bố tần số tích lũy ta thường sử dụng biểu đồ hình cung.
21
Ví dụ 2.2.3. Hãy xây dựng một biểu đồ hình cung cho bảng phân bố tần số được
cho bởi bảng phân bố tần số trong ví dụ 2.2.1.
• Bước 1: Tìm tần số tích lũy cho mỗi lớp.

• Bước 2: Vẽ trục x và y , chia thang đo cho phù hợp trên các trục. Trục x là ranh
giới các lớp còn trục y biểu diễn tần số tích lũy.
• Bước 3: Vẽ tần số tích lũy ở mỗi ranh giới cận trên, như thể hiện trong hình 2.4.

Hình 2.4: Vẽ tần số tích lũy cho ví dụ 2.2.3

• Bước 4: Nối các điểm liền kề bằng các đoạn thẳng và được thể hiện trong hình
2.5.

Biểu đồ tần số tích lũy hình cung được sử dụng để biểu thị trực quan số lượng
giá trị nằm dưới một ranh giới trên của một lớp nhất định. Ví dụ, để tìm số lượng
22
Hình 2.5: Biểu đồ hình cung cho ví dụ 2.2.3

các bang có nhiệt độ cao kỷ lục dưới 114.5o F ta xác định vị trí 114, 5o F trên trục x,
vẽ một đường thẳng đứng cho đến khi nó cắt đồ thị, và sau đó vẽ một đường ngang
tại điểm đó tới trục y . Giá trị trục y là 28, như thể hiện trong hình 2.6.

Hình 2.6: Tìm một tần số tích lũy cụ thể

2.2.4 Biểu đồ tần số tương đối

Nhật đồ, đa giác tần số và hình cung được xây dựng bằng cách sử dụng các tần số
của dữ liệu thô. Những phân phối này có thể được chuyển đổi sang phân phối bằng
cách sử dụng tỷ lệ thay vì tần số của dữ liệu thô. Các biểu đồ của phân phối kiểu
này được gọi là biểu đồ tần số tương đối (relative frequency graphs).
Biểu đồ tần số tương đối thay vì sử dụng tần số thì sử dụng tỷ lệ giá trị dữ liệu
rơi vào một lớp nhất định, điều này quan trọng hơn số lượng thực tế của giá trị dữ
liệu rơi vào lớp đó.
Để chuyển đổi tần số thành một tỷ lệ hoặc tần số tương đối, ta chia tần số của
mỗi lớp cho tổng các tần số. Tổng các tần số tương đối sẽ luôn luôn là 1. Các đồ thị
này tương tự như các đồ thị sử dụng dữ liệu thô là tần số, nhưng các giá trị trên trục
y là tỷ lệ. Ví dụ 2.2.4 cho thấy ba loại đồ thị tần số tương đối.
Ví dụ 2.2.4. Xây dựng nhật đồ, đa giác tần số, và hình cung sử dụng tần số tương
đối cho phân phối về số dặm chạy của 20 vận động viên được lựa chọn một cách ngẫu
nhiên trong một tuần nhất định.

23
Lớp cận biên Tần số
5.5-10.5 1
10.5-15.5 2
15.5-20.5 3
20.5-25.5 5
25.5-30.5 4
30.5-35.5 3
35.5-40.5 2
20

• Bước 1: Chuyển tần số sang tần số tương đối bằng cách lấy tần số mỗi lớp chia
cho tổng tần số, ta được kết quả sau:

• Bước 2: Tìm tần số tích lũy tương đối. Để làm điều này, ta cộng tần số trong
mỗi lớp vào tổng số tần số của các lớp trước đó. Ta được kết quả sau:

• Bước 3: Vẽ các biểu đồ như hình 2.7

2.2.5 Các dạng phân phối

Khi mô tả dữ liệu thì điều quan trọng là nhận ra dạng của các giá trị phân phối.
Trong các chương sau bạn sẽ thấy rằng dạng của một phân phối cũng xác định các
phương pháp thống kê thích hợp được sử dụng để phân tích dữ liệu đó.
Một phân phối có thể có nhiều dạng và một trong những phương pháp phân tích
phân phối là vẽ nhật đồ hoặc đa giác tần số. Một số dạng phổ biến nhất được thể
hiện trong hình 2.8.

24
(a) Nhật đồ

(b) Đa giác tần số

(c) Hình cung

Hình 2.7: Các biểu đồ cho ví dụ 2.2.4

25
Hình 2.8: Các loại thống kê

• Dang phân phối hình chuông (bell-shaped): Có một đỉnh và giảm dần về cả hai
phía và nó gần như đối xứng qua đường thẳng đứng đi qua đỉnh đó.
• Dạng phân phối đều (uniform): Cơ bản là nó gần như phẳng hoặc hình chữ nhật.
• Dạng phân phối hình chữ J : Nó có một vài giá trị dữ liệu ở bên trái và tăng dần
sang bên phải.
• Dạng phân phối hình chữ J ngược.
• Dạng phân phối lệch phải (right-skewed) hay phân phối dương: Đỉnh của dữ liệu

26
nằm ở bên trái và giảm dần sang bên phải.
• Dạng phân phối lệch trái (left-skewed) hay phân phối âm: Đỉnh của dữ liệu nằm
ở bên phải và giảm dần sang bên trái.
• Dạng phân phối hai đỉnh (bimodal): Khi phân phối có hai đỉnh cùng chiều cao.
• Dạng phân phối hình chữ U .

2.3 Một số loại biểu đồ khác

2.3.1 Biểu đồ thanh (Bar graph)

Khi dữ liệu ở dạng định tính hoặc phân loại thì biểu đồ thanh có thể được sử
dụng để biểu diễn cho dữ liệu. Một biểu đồ thanh có thể được vẽ bằng thanh ngang
hoặc dọc có độ cao hoặc độ dài biểu diễn cho tần số của dữ liệu.
Chẳng hạn, ta muốn vẽ một biểu đồ thanh ngang hoặc thanh dọc biểu diễn số
tiền trung bình mà sinh viên năm nhất chi tiêu được cho như sau:

Điện (Electronics) $728


Trang trí phòng ngủ tập thể (Dorm decor) $344
Áo quần (Clothing) $141
Giầy dép (Shoes) $72

Hình 2.9: Biểu đồ thanh biểu diễn số tiền trung bình tiêu dùng mà sinh viên năm nhất chi tiêu.

Các đồ thị cho thấy sinh viên đại học năm nhất chi tiêu nhiều nhất cho điện.

27
2.3.2 Biểu đồ Pareto

Biểu đồ Pareto được sử dụng để biểu diễn cho một phân bố tần số cho một biến
phân loại của thanh nằm ngang và các tần số được hiển thị theo chiều cao của thanh
dọc, được sắp xếp theo thứ tự từ cao xuống thấp.
Ví dụ 2.3.1. Bảng được trình bày dưới đây là chi phí trung bình cho mỗi dặm cho
xe chở khách trên các tuyến đường bộ. Xây dựng và phân tích một biểu đồ Pareto
cho dữ liệu.
Tiểu bang (State) Chi phí (Costs)
Indiana 2.9 cent
Oklahoma 4.3 cent
Florida 6.0 cent
Maine 3.8 cent
Pennsylvania 5.8 cent

• Bước 1: Sắp xếp dữ liệu từ lớn nhất đến nhỏ nhất theo tần số.

Tiểu bang (State) Chi phí (Costs)


Florida 6.0 cent
Pennsylvania 5.8 cent
Oklahoma 4.3 cent
Maine 3.8 cent
Indiana 2.9 cent

• Bước 2: Vẽ các trục x và y và gắn nhãn cho nó.

• Bước 3: Vẽ thanh tương ứng với tần số. Xem hình 2.10.

28
Hình 2.10: Biểu đồ Pareto cho ví dụ 2.3.1.

Biểu đồ Pareto cho thấy rằng Florida có chi phí cao nhất cho mỗi dặm. Chi phí
cao hơn hai lần so với chi phí ở Indiana.

2.3.3 Biểu đồ chuỗi thời gian (Time series graph)

Biểu đồ chuỗi thời gian đại diện cho dữ liệu xảy ra trong một khoảng thời gian
cụ thể.
Ví dụ 2.3.2. Sự phá hoại các nhà thờ trong những năm từ 2001 đến 2005 được trình
bày như sau. Xây dựng và phân tích biểu đồ chuỗi thời gian cho dữ liệu.

Năm Thiệt hại (triệu đô)


2001 2.8
2002 3.3
2003 3.4
2004 5.0
2005 8.5

• Bước 1: Vẽ trục x với nhãn là năm, trục y với nhãn là thiệt hại.
• Bước 2: Vẽ các điểm trên hệ trục.
• Bước 3: Vẽ đoạn thẳng nối các điểm lân cận. Xem hình 2.11.

Hình 2.11: Biểu đồ chuỗi thời gian cho ví dụ 2.3.2.

Biểu đồ cho thấy sự gia tăng đều đặn trong khoảng thời gian 5 năm.

2.3.4 Biểu đồ hình tròn (Pie graph)

Biểu đồ hình tròn là một hình tròn được chia thành các phần hoặc nêm theo tỷ
lệ phần trăm của tần số trong mỗi phân loại của bản phân bố.
29
Ví dụ 2.3.3. Phân bố tần số dưới đây cho thấy số lượng pound mỗi loại thực phẩm
khẩu phần ăn trong Super Bowl. Xây dựng một biểu đồ hình tròn cho dữ liệu.

Khẩu phần (Snack) Pounds (f )


Potato chips 11.2 million
Tortilla chips 8.2 million
Pretzels 4.3 million
Popcorn 3.8 million
Snack nuts 2.5 million
Tổng n = 30.0 million

• Bước 1: Chuyển tần số của mỗi lớp về tỉ lệ của hình tròn bằng công thức:
f
góc = .360o . Ta được kết quả sau:
n

Potato chips 134o


Tortilla chips 98o
Pretzels 52o
Popcorn 46o
Snack nuts 30o
Tổng 360o

• Bước 2: Chuyển tần về phần trăm (tần suất) bằng cách dùng công thức: % =
f
.100%. Ta được kết quả sau:
n

Potato chips 37.3%


Tortilla chips 27.3%
Pretzels 14.3%
Popcorn 12.7%
Snack nuts 8.3%
Tổng 99.9%

• Bước 3: Tiếp theo sử dụng thước đo góc và compa để vẽ biểu đồ hình tròn, như
thể hiện trong hình 2.12.

30
Hình 2.12: Biểu đồ hình tròn cho ví dụ 2.3.3.

Biểu đồ ở trên cho thấy rằng, nhóm máu phổ biến nhất là nhóm máu O. Những
người có máu AB thuộc nhóm máu thiểu số kém hơn hai lần nhóm người có loại máu
O.

2.3.5 Biểu đồ gây nhầm lẫn

Các biểu đồ được trình bày nhằm đưa ra một biểu diễn trực quan cho phép người
đọc dễ dàng phân tích và giải thích dữ liệu hơn bằng cách nhìn vào các con số. Tuy
nhiên các biểu đồ không chính xác có thể làm sai lệch dữ liệu và dẫn đến người đọc
kết luận sai. Một số điểm sai khi vẽ biểu đồ có thể kể đến như sau:

• Chọn đơn vị trên các trục tọa độ không thích hợp. Chẳng hạn, một quảng cáo
của nhà sản xuất xe hơi nói rằng 98% số xe đã bán trong 10 năm qua vẫn còn
lưu thông trên đường. Quảng cáo sau đó cho thấy một biểu đồ tương tự như
hình 2.13. Biểu đồ cho thấy tỷ lệ phần trăm xe ô tô của nhà sản xuất vẫn đang
lưu thông trên đường và tỷ lệ phần trăm xe ô tô của đối thủ cạnh tranh vẫn còn
lưu thông trên đường. Nó không có sự khác biệt lớn. Lưu ý tỷ lệ trên trục thẳng
đứng trong Hình 2.13, nó đã được cắt và bắt đầu ở mức 95%. Khi đồ thị được
vẽ lại bằng cách sử dụng thang đo từ 0 đến 100%, như trong hình 2.14, thì hầu
như không có sự khác biệt đáng chú ý về tỷ lệ phần trăm. Do đó, việc thay đổi
các đơn vị tại điểm xuất phát trên trục y có thể truyền tải đại diện hình ảnh rất
khác nhau của dữ liệu.

31
Hình 2.13: Biểu đồ của nhà sản xuất ô tô sử dụng thang đo từ 95 đến 100%.

Hình 2.14: Biểu đồ của nhà sản xuất ô tô sử dụng thang đo từ 0 đến 100%.

• Một kỹ thuật biểu đồ gây hiểu nhầm đôi khi được sử dụng bao gồm việc phóng
đại sự gia tăng một chiều bằng cách hiển thị nó theo hai chiều. Chẳng hạn, chi
phí trung bình cho 30 giây quảng cáo Super Bowl đã tăng từ 42,000 USD trong
năm 1967 lên 2.5 triệu USD trong năm 2006 (Nguồn: USA TODAY).
Mức tăng được biểu diễn trong Hình 2.15 (a) thể hiện sự thay đổi bằng cách so
sánh độ cao của hai thanh theo một chiều (cao). Các dữ liệu tương tự được hiển
thị bằng tất cả các vòng tròn trong Hình 2.15 (b). Lưu ý rằng sự khác biệt có
vẻ lớn hơn nhiều bởi vì mắt so sánh các khu vực của vòng tròn chứ không phải
là chiều dài của đường kính. Lưu ý rằng không sai khi sử dụng các kỹ thuật lập
biểu đồ để cắt tỉa quy mô hoặc đại diện cho dữ liệu bằng hình ảnh hai chiều.
Nhưng khi những kỹ thuật này được sử dụng, người đọc cần phải thận trọng với
kết luận rút ra dựa trên các đồ thị.

32
Hình 2.15: Biểu đồ so sánh chi phí trung bình cho 30 giây quảng cáo Super Bowl.

• Một cách khác trình bày sai dữ liệu trên biểu đồ là bỏ qua nhãn hoặc đơn vị trên
các trục của biểu đồ. Chẳng hạn, biểu đồ thể hiện trong hình 2.16 so sánh chi
phí sinh hoạt, tăng trưởng kinh tế, tăng dân số,... của bốn khu vực địa lý chính
ở Hoa Kỳ. Tuy nhiên, vì không có các con số trên trục y nên rất ít thông tin có
thể thu được từ biểu đồ này, ngoại trừ một bảng xếp hạng thô của mỗi yếu tố.
Không có cách nào để quyết định mức độ thực tế của sự khác biệt.

Hình 2.16: Biểu đồ không có đơn vị trên trục y.

• Cuối cùng, tất cả các biểu đồ phải chứa một nguồn cho các thông tin được trình
bày. Việc bao gồm một nguồn dữ liệu sẽ cho phép bạn kiểm tra độ tin cậy của tổ
chức trình bày dữ liệu. Bản tóm tắt các loại đồ thị và cách sử dụng chúng được
trình bày trong Hình 2.17.

2.3.6 Biểu đồ thân và lá (Stem and Leaf Plots)

Một khi thu thập được dữ liệu, chúng ta dường như thích tổng hợp chúng lại.
Một trong những bất lợi khi sử dụng biểu đồ tần số để tổng hợp dữ liệu là dữ liệu
gốc không được bảo toàn trong đồ thị. Biểu đồ thân và lá, hiểu theo nghĩa nào đó,
tổng hợp và bảo toàn dữ liệu cùng lúc.
Một biểu đồ thân và lá của một mảng dữ liệu là sử dụng một phần của giá trị dữ
liệu làm phần thân và một phần của giá trị dữ liệu làm phần lá để hình thành các
nhóm hoặc các lớp.
33
(a) Nhật đồ, đa giác tần số, hình cung. Được sử dụng khi dữ liệu được chứa trong phân bố tần số ghép lớp.

(b) Biểu đồ Pareto: Được sử dụng để (c) Biểu đồ chuỗi thời gian: Biểu diễn (d) Biểu đồ hình tròn: Được sử dụng
hiển thị tần số cho các biến danh nghĩa cho dữ liệu xảy ra trong một khoảng để thể hiện mối quan hệ giữa các bộ
hoặc định tính. thời gian cụ thể. phận và toàn bộ. (Hầu hết thường sử
dụng phần trăm.)

Hình 2.17: Tóm tắt các đồ thị và sử dụng của mỗi loại.

Ví dụ 2.3.4. Tại một trung tâm xét nghiệm ngoại trú, số lượng điện tâm đồ thực
hiện mỗi ngày trong 20 ngày được hiển thị dưới đây. Hãy xây dựng một biểu đồ thân
và lá cho dữ liệu.
25 31 20 32 13
14 43 02 57 23
36 32 33 32 44
32 52 44 51 45

• Bước 1: Sắp xếp dữ liệu theo thứ tự:

02, 13, 14, 20, 23, 25, 31, 32, 32, 32, 32, 33, 36, 43, 44, 44, 45, 51, 52, 57.

• Bước 2: Tách dữ liệu theo chữ số đầu tiên:

02 13, 14 20, 23, 25 31, 32, 32, 32, 32, 33, 36


43, 44, 44, 45 51, 52, 57

• Bước 3: Ý tưởng cơ bản của biểu đồ thân và lá là chia mỗi điểm dữ liệu vào một
thân và một lá. Ta có thể chia điểm đầu tiên của dữ liệu, chẳng hạn đối với giá
trị 32, chữ số 3 là thân và chữ số 2 là lá. Cứ làm như vậy ta thu được một biểu
đồ thân và lá như hình 2.18.

34
Hình 2.18: Biểu đồ thân và lá cho ví dụ 2.3.4.

Biểu đồ thân và lá trên chỉ ra rằng, đỉnh phân bố ở giữa và không có khoảng
trống trong dữ liệu. Có 7 ngày trong số 20 ngày, số bệnh nhân được đo điện tim là từ
31 đến 36 lần trên ngày. Biểu đồ cũng chỉ ra rằng trung tâm xét nghiệm được điều
trị tối thiểu là 2 bệnh nhân đến tối đa 57 bệnh nhân trong một ngày.

35
Phần bài tập chương 2

1. Liệt kê 5 lý do phải tổ chức dữ liệu vào một phân bố tần số.


2. Nêu tên ba loại phân bố tần số và giải thích khi nào nên sử dụng của từng loại?
3. Tìm lớp giới hạn, điểm giữa và độ rộng của mỗi lớp sau:
a. 12 – 18
b. 56 – 74
c. 695 – 705
d. 13.6 – 14.7
e. 2.15 – 3.93
4. Số lớp khi phân bố tần số là bao nhiêu? Tại sao độ rộng các lớp phải là số không
nguyên?
5. Hãy tìm lỗi sai trong bốn phân bố tần số sau:

6. Một cuộc khảo sát được thực hiện về mức độ tin tưởng vào các thông tin trên
Internet. Xây dựng phân bố tần số phân loại cho dữ liệu. Kí hiệu A: tin tưởng
mọi thứ đọc được, M: tin tưởng hầu hết những thứ đọc được, H: tin tưởng vào
khoảng một nửa những gì họ đọc được, S: tin tưởng vào một phần nhỏ những gì
học đọc.
36
M M M A H M S M H M
S M M M M A M M A M
M M H M M M H M H M
A M M M H M M M M M

7. Một tổ chức nghiên cứu Brunswick khảo sát 50 người được chọn ngẫu nhiên và
yêu cầu họ chọn cách nhận tin tức hằng ngày. Sự lựa chọn có thể là qua báo (N),
truyền hình (T), radio (R) hoặc Internet (I). Xây dựng phân bố tần số phân loại
cho dữ liệu.

N N T T T I R R I T
I N R R I N N I T N
I R T T T T N R R I
R R I N T R T I I T
T I N T T I R N R T

8. Vẽ biểu đồ hình tròn cho dữ liệu ở bài tập 7 và phân tích kết quả.
9. Một cửa hàng bán đồ thể thao đã giữ kỷ lục doanh thu cho năm mặt hàng trong
một giờ được lựa chọn ngẫu nhiên trong đợt bán hàng gần đây. Xây dựng một
phân bố tần số cho dữ liệu (bóng chày = B, bóng golf = G, bóng quần vợt = T,
bóng đá = S, bóng bầu dục = F.

F B B B G T F
G G F S G T
F T T T S T
F S S G S B

10. Vẽ biểu đồ hình tròn cho bài tập 9 và phân tích kết quả.
11. Lượng urê nitơ trong máu của 20 bệnh nhân được chọn ngẫu nhiên (đơn vị
mg/dl). Xây dựng một phân bố tần số không ghép lớp cho dữ liệu.

17 18 13 14
12 17 11 20
13 18 19 17
14 16 17 12
16 15 19 22

12. Vẽ nhật đồ, đa giác tần số và biểu đồ hình cung cho dữ liệu ở bài tập 11.
13. Thuế gas (cent/gallon) của 25 tiểu bang ở Mỹ được cho dưới đây. Xây dựng một
phân bố tần số ghép lớp và phân bố tần số tích lũy với 5 lớp cho dữ liệu.

7.5 16 23.5 17 22
21.5 19 20 27.1 20
22 20.7 17 28 20
23 18.5 25.3 24 31
14.5 25.9 18 30 31.5

37
14. Cho dữ liệu về cân nặng của 50 cầu thủ hàng đầu của Hiệp hội bóng rổ quốc gia
Mỹ (NBA). Xây dựng phân bố tần số ghép lớp và phân bố tần số tích lũy với 8
lớp.
240 210 220 260 250 195 230 270 325 225
165 295 205 230 250 210 220 210 230 202
250 265 230 210 240 245 225 180 175 215
215 235 245 250 215 210 195 240 240 225
260 210 190 260 230 190 210 230 185 260

15. Số tầng của 30 tòa nhà cao nhất thế giới được liệt kê dưới đây. Xây dựng phân
bố tần số ghép lớp và phân bố tần số tích lũy với 7 lớp.
88 88 110 88 80 69 102 78 70 55
79 85 80 100 60 90 77 55 75 55
54 60 75 64 105 56 71 70 65 72

16. Điểm GRE (Graduate Record Examination) trung bình cho 30 trường Đại học
kỹ thuật hàng đầy được liệt kê như sau. Xây dựng phân bố tần số ghép lớp và
phân bố tần số tích lũy với 5 lớp.
767 770 761 760 771 768 776 771 756 770
763 760 747 766 754 771 771 778 766 762
780 750 746 764 769 759 757 753 758 746

17. Số lượng hành khách (đơn vị nghìn) cho các hãng hàng không hàng đầu Hoa Kỳ
vào năm 2004 được cho dưới đây. Xây dựng phân bố tần số ghép lớp và phân bố
tần số tích lũy với một số lớp thích hợp và đưa ra nhận xét về hình dạng của
phân bố.
91,570 86,755 81,066 70,786 55,373 42,400
40,551 21,119 16,280 14,869 13,659 13,417
13,170 12,632 11,731 10,420 10,024 9,122
7,041 6,954 6,406 6,362 5,930 5,585
5,427

18. Cho dữ liệu về độ tuổi của những người ký tên trong Tuyên ngôn độc lập Hoa
Kỳ (một người không có tuổi rõ ràng nên không được nhắc đến). Xây dựng phân
bố tần số ghép lớp và phân bố tần số tích lũy với 7 lớp.
41 54 47 40 39 35 50 37 49 42 70 32
44 52 39 50 40 30 34 69 39 45 33 42
44 63 60 27 42 34 50 42 52 38 36 45
35 43 48 46 31 27 55 63 46 33 60 62
35 46 45 34 53 50 50

19. Trò chơi máy tính trực tuyến đã trở thành một hoạt động giải trí phổ biến. 56%
trong số 117 triệu người đang chơi trò chơi trực tuyến. Dưới đây là số liệu về số
người đang chơi trò chơi trực tuyến miễn phí tại các thời điểm khác nhau trong
ngày. Xây dựng phân bố tần số ghép lớp và phân bố tần số tích lũy với 6 lớp.
38
3907 3629 3640 3839 3446 2313 2537 2037 3194
3739 3886 3698 3898 2101 1525 2311 3344 3647

20. Số lượng phản đối được thực hiện của 20 Tổng thống Hoa Kỳ được liệt kê dưới
đây. Xây dựng phân bố tần số ghép lớp và phân bố tần số tích lũy cới 5 lớp. Điều
gì đang thách thức tập dữ liệu này?

44 39 37 21 31 170 44 632 30 78
42 6 250 43 44 82 50 181 66 37

21. Diện tích của 39 Công viên Quốc gia Hoa Kỳ dưới 900,000 mẫu Anh (đơn vị
nghìn mẫu Anh) được cho dưới đây. Xây dựng phân bố tần số ghép lớp và phân
bố tần số tích lũy cho dữ liệu với 8 lớp.

41 66 233 775 169


36 338 233 236 64
183 61 13 308 77
520 77 27 217 5
650 462 106 52 52
505 94 75 265 402
196 70 132 28 220
760 143 46 539

22. Cho dữ liệu về độ cao (đơn vị feet, so với mực nước biển) của các núi lửa hoạt
động chính ở Alaska. Xây dựng phân bố tần số ghép lớp và phân bố tần số tích
lũy cho dữ liệu với 10 lớp.

4,265 3,545 4,025 7,050 11,413


3,490 5,370 4,885 5,030 6,830
4,450 5,775 3,945 7,545 8,450
3,995 10,140 6,050 10,265 6,965
150 8,185 7,295 2,015 5,055
5,315 2,945 6,720 3,465 1,980
2,560 4,450 2,759 9,430
7,985 7,540 3,540 11,070
5,710 885 8,960 7,015

23. Trong suốt mùa bóng chày năm 1998, Mark McGwire và Sammy Sosa đã phá vỡ
kỷ lục chạy 61 năm của Roger Maris. Khoách cách (feet) của các vận động viên
chạy theo được cho dưới đây. Xây dựng phân bố tần số ghép lớp và phân bố tần
số tích lũy cho tập dữ liệu của hai cầu thủ, biết số lớp là 8.

39
McGwire Sosa
306 370 370 430 371 350 430 420
420 340 460 410 430 434 370 420
440 410 380 360 440 410 420 460
350 527 380 550 400 430 410 370
478 420 390 420 370 410 380 340
425 370 480 390 350 420 410 415
430 388 423 410 430 380 380 366
360 410 450 350 500 380 390 400
450 430 461 430 364 430 450 440
470 440 400 390 365 420 350 420
510 430 450 452 400 380 380 400
420 380 470 398 370 420 360 368
409 385 369 460 430 433 388 440
390 510 500 450 414 482 364 370
470 430 458 380 400 405 433 390
430 341 385 410 480 480 434 344
420 380 400 440 410 420
377 370

24. Một nhà nghiên cứu tiến hành một cuộc khảo sát về mức độ tin rằng có hơn một
người tham gia vào vụ ám sát John F.Kennedy. Kết quả như sau: 73% nói đồng
ý, 19% nói không đồng ý và 9% không có ý kiến. Có điều gì đáng nghi ngờ về kết
quả đó không?
25. Chọn ngẫu nhiên 108 ứng viên đại học, cho phân bố tần số về điểm thi tuyển
như sau. Xây dựng nhật đồ, đa giác tần số và biểu đồ hình cung cho dữ liệu.

Lớp giới hạn Tần số


90 − 98 6
99 − 107 22
108 − 116 43
117 − 125 28
126 − 134 9

Với các ứng viên có số điểm trên 107 thì không cần phải ghi danh vào chương
trình phát triển mùa hè. Đối với dữ liệu này, có bao nhiêu ứng viên không phải
ghi danh vào chương trình phát triển mùa hè?
26. Số lượng giảng viên chỉ có bằng cử nhân trong các trường cao đẳng tư thục được
liệt kê dưới đây. Sử dụng dữ liệu này để xây dựng một phân bố tần số ghép lớp
với 7 lớp, xây dựng một nhật đồ, đa giác tần số và biểu đồ hình cung. Đưa ra
nhận xét về hình dạng của phân bố này. Tỉ lệ trường có từ 180 giảng viên trở
lên chỉ có bằng cử nhân là bao nhiêu?

165 221 218 206 138 135 224 204 70 210


207 154 155 82 120 116 176 162 225 214
93 389 77 135 221 161 128 310
40
27. Số quận hay hạt cho mỗi tiểu bang trong số 50 tiểu bang ở Hoa Kỳ được cho
dưới đây. Sử dụng dữ liệu để xây dựng một phân bố tần số ghép lớp với 6 lớp,
nhật đồ, đa giác tần số và biểu đồ hình cung.

67 27 15 75 58 64 8 67 159 5
102 44 92 99 105 120 64 16 23 14
83 87 82 114 56 93 16 10 21 33
62 100 53 88 77 36 67 5 46 66
95 254 29 14 95 39 55 72 23 3

28. Tiền lương (đơn vị triệu đô) cho 31 đội NFL (National Football League) cho một
mùa giải được đưa ra trong phân bố tần số sau. Xây dựng nhật đồ, đa giác tần
số và biểu đồ hình cung cho dữ liệu. Đưa ra nhận xét về hình dạng của phân bố?

Lớp giới hạn Tần số


39.9 − 42.8 2
42.9 − 45.8 2
45.9 − 48.8 5
48.9 − 51.8 5
51.9 − 54.8 12
54.9 − 57.8 5

29. Ba mươi xe ôtô được thử nghiệm về tính hiệu quả về nhiên liệu (đơn vị dặm/gallon)
và thu được dữ liệu cho ở bảng phân bố tần số sau. Xây dựng một nhật đồ, đa
giác tần số và biểu đồ hình cung cho dữ liệu.

Lớp cận biên Tần số


7.5 − 12.5 3
12.5 − 17.5 5
17.5 − 22.5 15
22.5 − 27.5 5
27.5 − 32.5 2

30. Dữ liệu thể hiện số ngày được chọn đạt tiêu chuẩn chất lượng không khí của các
khu đô thị Hoa Kỳ trong hai năm 1998 và 2003 như sau. Xây dựng phân bố tần
số ghép lớp, nhật đồ cho mỗi tập dữ liệu và so sánh kết quả của hai phân bố.

1998 2003
43 76 51 14 0 10 10 11 14 20 15 6
20 0 5 17 67 25 17 0 5 19 127 4
38 0 56 8 0 9 31 5 88 1 1 16
14 5 37 14 95 20 14 19 20 9 138 22
23 12 33 0 3 45 13 10 20 20 20 12

31. Lượng calo mỗi khẩu phần ngũ cốc ăn liền được lựa chọn và liệt kê dưới đây.
Xây dựng một phân bố tần số ghép lớp với 7 lớp. Vẽ nhật đồ, đa giác tần số và
biểu đồ hình cung sử dụng tần suất (hay tần số tương đối) của dữ liệu. Mô tả
hình dạng của nhật đồ.
41
130 190 140 80 100 120 220 220 110 100
210 130 100 90 210 120 200 120 180 120
190 210 120 200 130 180 260 270 100 160
190 240 80 120 90 190 200 210 190 180
115 210 110 225 190 130

32. Lượng protein (gram) cho một loại bánh mì kẹp được báo cáo ở dưới đây. Xây
dựng một phân bố tần số ghép lớp với 6 lớp. Vẽ nhật đồ, đa giác tần số và biểu
đồ hình cung sử dụng tần số tương đối của dữ liệu. Mô tả hình dạng của nhật
đồ.
23 30 20 27 44 26 35 20 29 29
25 15 18 27 19 22 12 26 34 15
27 35 26 43 35 14 24 12 23 31
40 35 38 57 22 42 24 21 27 33

33. Cho nhật đồ sau.

a. Xây dựng phân bố tần số; bao gồm lớp giới hạn, tần số, điểm giữa (midpoint)
và tần số tích lũy.
b. Vẽ đa giác tần số và biểu đồ hình cung.
c. Trả lời các câu hỏi sau:
i. Có bao nhiêu giá trị nằm trong lớp 27.5 − 30.5?
ii. Có bao nhiêu giá trị nằm giữa 24.5 và 36.5?
iii. Có bao nhiêu giá trị nằm nhỏ hơn hoặc bằng 33.5?
iv. Có bao nhiêu giá trị nằm lớn hơn hoặc bằng 30.5?
34. Nhà vô địch NBA (National Basketball Association) từ năm 1985 được liệt kê
dưới đây. Sử dụng dữ liệu để vẽ biểu đồ Pareto và biểu đồ thanh dọc.

42
1985 Los Angeles 1996 Chicago
1986 Boston 1997 Chicago
1987 Los Angeles 1998 Chicago
1988 Detroit 1999 San Antonio
1989 Detroit 2000 Los Angeles
1990 Detroit 2001 Los Angeles
1991 Chicago 2002 Los Angeles
1992 Chicago 2003 San Antonio
1993 Chicago 2004 Detroit
1994 Houston 2005 San Antonio
1995 Houston

35. Cho dữ liệu về mức lương (đơn vị đô) tối thiểu theo giờ của các liên bang trong
những năm qua. Vẽ biểu đồ chuỗi thời gian cho dữ liệu và phân tích kết quả.

Năm Mức lương


1960 1.00
1965 1.25
1970 1.60
1975 2.10
1980 3.10
1985 3.35
1990 3.80
1995 4.25
2000 5.15
2005 5.15

36. Xây dựng biểu đồ chuỗi thời gian cho mỗi tập dữ liệu và phân tích kết quả.

Năm Số trang trại Quy mô trang trại trung bình


(triệu) (mẫu Anh)
1940 6.35 174
1950 5.65 213
1960 3.96 297
1970 2.95 374
1980 2.44 426
1990 2.15 460
2000 2.17 436

37. Số lượng du khách đến Bảo tàng Railroad Museum trong 24 giờ được lựa chọn
ngẫu nhiên như sau. Xây dựng một biểu đồ thân và lá cho dữ liệu.
67 62 38 73 34 43 72 35
53 55 58 63 47 42 51 62
32 29 47 62 29 38 36 41

38. Cho dữ liệu về số thư viện công cộng đang hoạt động ở các tiểu bang được lựa
chọn ngẫu nhiên như sau. Xây dựng biểu đồ thân và lá cho dữ liệu.
43
102 176 210 142 189 176 108 113 205
209 184 144 108 192 176

39. Một bài kiểm tra năng khiến đối với người xin việc và thu được dữ liệu về điểm
của 30 người nộp đơn. Xây dựng biểu đồ thân và lá cho dữ liệu.

204 210 227 218 254


256 238 242 253 227
251 243 233 251 241
237 247 211 222 231
218 212 217 227 209
260 230 228 242 200

44
Chương 3

MÔ TẢ DỮ LIỆU

Trong chương 2, cho thấy làm thế nào có thể thu được thông tin hữu ích từ dữ
liệu thô bằng cách tổ chức chúng vào một phân bố tần số và sau đó trình bày dữ
liệu bằng cách sử dụng các đồ thị khác nhau. Chương này, sẽ cho thấy các phương
pháp thống kê có thể được sử dụng để tóm tắt dữ liệu. Phương pháp phổ biến nhất
trong các phương pháp này là tìm ra điểm trung tâm của tập hợp dữ liệu. Thuật ngữ
khuynh hướng định tâm thường được dùng để nói đến một thứ đo lường mô tả nhằm
cho biết điểm trung tâm của tập dữ liệu nằm ở đâu trong phân bố của tập hợp dữ
liệu. Nó bao gồm trung bình (mean), trung vị (median), yếu vị (mode) và trung bình
khoảng (midrange).
Việc biết được điểm trung tâm của tập dữ liệu không đủ để mô tả toàn bộ tập
dữ liệu. Chẳng hạn, một chủ cửa hiệu giày biết rằng kích thước trung bình của cỡ
giày của một người đàn ông là size 10, nhưng chủ cửa tiệm sẽ không thể kinh doanh
được lâu nếu chỉ có các đôi giày size 10. Như ví dụ này cho thấy, ngoài việc biết
trung bình, bạn phải biết được sự phân tán của các dữ liệu, các số đo lường sự phân
tán của các giá trị dữ liệu được gọi là các số đo lường tính biến thiên (measures of
variation) hay các số đo lường độ phân tán (measures of dispersion) . Các số đo này
bao gồm khoảng biến thiên (range), phương sai (variance) và độ lệch chuẩn (standard
deviation).
Đôi khi chúng ta muốn biết vị trí của một giá trị quan sát so với những giá trị
quan sát khác trong một tập dữ liệu. Các vị trí phổ biến nhất là phân vị (percentile),
thập phân vị (decile) và tứ phân vị (quartile). Đôi khi chúng được gọi là các định
mức (norm).
Phần cuối của chương sẽ cho thấy các kỹ thuật phân tích dữ liệu khám phá. Các
kỹ thuật này khác với các kỹ thuật truyền thống ở trên, nó được sử dụng để xác nhận
các phỏng đoán về dữ liệu.

3.1 Các đo lường khuynh hướng định tâm (measures of central


tendency )

3.1.1 Trung bình (mean)

Một trong những thước đo lường khuynh hướng định tâm hữu ích và thông dụng
nhất, đó là trị số trung bình số học của một tập hợp các giá trị đo lường. Trị số này
thường cũng được gọi là trung bình số học (arithmetic mean) hay chỉ đơn giản là
trung bình (mean), của một tập hợp các giá trị đo lường. Trung bình của một mẫu
dữ liệu được ký hiệu là X , nó được dùng làm đại diện cho mẫu dữ liệu đó. Đối với
tổng thể,trung bình được ký hiệu là µ. Trong thực tế, chẳng hạn để tìm trung bình
về độ tuổi của người dân Việt Nam thì đó là một việc làm khó có thể làm được, do

45
đó trung bình của mẫu nó còn có ý nghĩa là dùng để ước lượng cho trung bình của
tổng thể, phần này sẽ được học kỹ trong các chương sau.
Định nghĩa 3.1.1. Trung bình của một tập hợp các giá trị đo lường bằng tổng số
các giá trị đo lường này chia cho số lượng giá trị đo lường. Điều này được biểu thị
bằng công thức:
X + X2 + ... + Xn 1P
Trung bình mẫu: X = 1 = Xi ,
n n
trong đó:
P
: kí hiệu tổng cộng (đọc là sigma), có nghĩa là cộng một dãy các số đo lường.
Xi : là giá trị của mỗi dữ liệu trong mẫu.
n: là số các số đo lường trong mẫu.
X + X2 + ... + XN 1 P
Trung bình tổng thể: µ = 1 = Xi ,
N N
trong đó: N là số các số đo lường trong tổng thể.
Ví dụ 3.1.1. Dữ liệu thể hiện số ngày nghỉ mỗi năm của cá nhân được lựa chọn từ
9 quốc gia khác nhau. Tìm trị trung bình của mẫu dữ liệu.
20, 26, 40, 36, 23, 42, 35, 24, 30

Lời giải:
P
Xi 20 + 26 + 40 + 36 + 23 + 42 + 35 + 24 + 30
X= = = 30.7 ngày.
n 9
Ví dụ 3.1.2. Cho bảng số liệu về số dặm chạy được trong một tuần của 20 vận động
viên. Tìm trung bình của mẫu số liệu.
Lớp Tần số
5.5 – 10.5 1
10.5 – 15.5 2
15.5 – 20.5 3
20.5 – 25.5 5
25.5 – 30.5 4
30.5 – 35.5 3
35.5 – 40.5 2

Lời giải:

• Bước 1: Lập bảng như hình vẽ:

Lớp Tần số (fm ) Điểm giữa (Xm ) fm .Xm


5.5 – 10.5 1
10.5 – 15.5 2
15.5 – 20.5 3
20.5 – 25.5 5
25.5 – 30.5 4
30.5 – 35.5 3
35.5 – 40.5 2
n = 20

46
cận trên + cận dưới
• Bước 2: Tìm điểm giữa của mỗi lớp: Xm = .
2
• Bước 3: Tính fm .Xm của mỗi lớp, sau đó tính tổng tất cả fm .Xm . Ta được bảng
dữ liệu:

Lớp Tần số (fm ) Điểm giữa (Xm ) fm .Xm


5.5 – 10.5 1 8 8
10.5 – 15.5 2 13 26
15.5 – 20.5 3 18 54
20.5 – 25.5 5 23 115
25.5 – 30.5 4 28 112
30.5 – 35.5 3 33 99
35.5 – 40.5 2 38 76
P
n = 20 fm .Xm = 490

• Bước 4: Trung bình của mẫu dữ liệu được tính theo công thức:
P
fm .Xm
X= = 24.5.
n

Trong thực tế, nhiều trường hợp đặt ra phải tìm giá trị trung bình của tập dữ
liệu, trong đó không phải tất cả các giá trị đều có trọng số là như nhau. Khi đó ta
sử dụng giá trị trung bình có trọng số để phản ánh tầm quan trọng của các phần tử
(hay giá trị quan sát) trong tập đó. Mỗi một giá trị quan sát sẽ được gắn một trọng
số. n
P
w i Xi
w1 X1 + w2 X2 + ... + wn Xn i=1
x= = n ,
w1 + w2 + ... + wn P
wi
i=1

trong đó: wi là trọng số tương ứng với giá trị Xi .


Ví dụ 3.1.3. Bảng điểm của một học sinh với 4 môn học được cho ở bảng sau. Tìm
điểm trung bình của học sinh đó.

Môn học Tín chỉ Điểm


Tiếng Anh 3 A (4 điểm)
Tâm lý học 3 C (2 điểm)
Sinh học 4 B (3 điểm)
Thể dục 2 D (1 điểm)

Điểm trung bình của học sinh là:


4
P
w i Xi
i=1 3.4 + 4.2 + 4.3 + 2.1
x= 4
= ≈ 2.7.
P 3+3+4+2
wi
i=1

47
3.1.2 Trung vị (median)

Một đại lượng cũng đặc trưng cho đại lượng hướng tâm là số trung vị. Ngoài tính
chất hướng tâm thì trung vị còn có ý nghĩa trong việc nhận định hình dạng phân
phối của dữ liệu (ý nghĩa này sẽ được trình bày ở cuối mục 3.1 sau khi tìm hiểu về
mode).
Định nghĩa 3.1.2. Trung vị của một tập hợp đo lường là trị số rơi vào chính giữa
khi các số đo lường ấy được sắp xếp theo thứ tự độ lớn của chúng.
Ví dụ 3.1.4. Số phòng trong bảy khách sạn ở trung tâm thành phố Pittsburgh là
713, 300, 618, 595, 311, 401 và 292.
Để tìm trung vị của cho tập dữ liệu, đầu tiên ta sắp xếp dữ liệu theo độ lớn của
chúng, từ thấp nhất đến cao nhất:

292, 300, 311, 401, 595, 618, 713

Điểm trung vị nằm ở giữa phân bố 7 số liệu đã được xếp theo thứ tự, tức là trung
vị sẽ là 401.
Ví dụ 3.1.5. Số ngày có nhiều mây của 10 thành phố có nhiều mây nhất được cho
như sau: 209, 223, 211, 227, 213, 240, 240, 211, 229, 212. Tìm trung vị.
Sắp xếp dữ liệu theo thứ tự: 209, 211, 211, 212, 213, 223, 227, 229, 240, 240.
213 + 223
Trung vị sẽ là số ở vị trí giữa 213 và 223. Do đó trung vị sẽ là: = 218.
2

Một cách tổng quát: Để tìm trung vị của một mẫu dữ liệu ta thực hiện:

• Bước 1: Sắp xếp dữ liệu theo thứ tự không giảm (hoặc không tăng).
1
• Bước 2: Xác định vị trí của số trung vị, vị trí của nó theo thứ hạng là (n + 1).
2
1
+ Trong trường hợp n lẻ thì số trung vị là số hạng thứ (n + 1).
2
+ Trong trường hợp n chẵn thì số trung vị là trung bình cộng của giá trị thứ
n n+2
và giá trị thứ .
2 2

3.1.3 Mode

Định nghĩa 3.1.3. Mode là giá trị của phần tử có số lần xuất hiện lớn nhất trong
mẫu dữ liệu.

• Tập dữ liệu chỉ có một giá trị xảy ra với tần số lớn nhất được gọi là unimodal
(một mode).
• Tập dữ liệu có hai giá trị xảy ra với cùng tần số lớn nhất, cả hai giá trị được coi
là mode và tập dữ liệu được gọi là bimodal (hai mode).
• Tập dữ liệu có nhiều hơn hai giá trị xảy ra với cùng tần số lớn nhất, mỗi giá trị
được coi là mode và tập dữ liệu được gọi là multimodal (đa mode).
48
• Khi không có giá trị dữ liệu xảy ra nhiều hơn 1 lần thì tập dữ liệu được gọi là
không có mode.

Ví dụ, với chế độ tiền thưởng của tám người chơi NFL (National Football League)
trong một năm cụ thể (đơn vị là triệu đô) được cho như sau: 18.0, 14.0, 34.5, 10, 11.3,
10, 12.4, 10.
Sẽ rất hữu ích khi sắp xếp dữ liệu theo thứ tự mặc dù nó không cần thiết.

10, 10, 10, 11.3, 12.4, 34.5

Ta thấy, 10 triệu đô xuất hiện 3 lần, là giá trị có tần số xuất hiện lớn nhất, do đó
mode của tập dữ liệu sẽ là: 10 triệu đô.
Ví dụ 3.1.6. Số liệu sau cho thấy số lò phản ứng hạt nhân được cấp phép ở Hoa Kỳ
trong khoảng thời gian 15 năm gần đây.

104 104 104 104 104


107 109 109 109 110
109 111 112 111 109

Từ bảng dữ liệu ta thấy 104 và 109 xuất hiện 5 lần, do đó tập dữ liệu có hai mode là
104 và 109.
Ví dụ 3.1.7. Tìm lớp mode cho phân bố tần số của 20 vận động viên chạy trong
một tuần, dữ liệu thống kê sử dụng của ví dụ 2.2.4.

Các biên của lớp nhiều khi không được sử dụng mà sử dụng trung điểm của lớp
để đại diện cho lớp, do đó mode ở đây được chọn là 23 (dặm) một tuần.

3.1.4 Trung bình khoảng (midrange)

Trung bình khoảng là tổng của giá trị lớn nhất và giá trị nhỏ nhất của tập dữ
liệu rồi chia cho 2. Kí hiệu của trung bình khoảng là MR.
Xmin + Xmax
MR = .
2

Ví dụ, dữ liệu cho báo cáo số lần ngắt nước mỗi tháng trong hai mùa đông năm
ngoái của thành phố Brownsville và Minnesota như sau: 2, 3, 6, 8, 4, 1.

49
1+8
Khi đó, trung bình khoảng là: MR = = 4.5
2
Các tính chất và cách sử dụng của bốn đo lường khuynh hướng định tâm được
tổng kết như sau:

Trung bình
1. Trung bình được tìm thấy bằng cách sử dụng tất cả các giá trị của dữ liệu
bằng cách cộng tất cả các số liệu rồi chia cho n.
2. Trung bình dao động ít hơn so với trung vị hoặc mode khi dữ liệu được thu
thập từ nhiều mẫu thuộc cùng một tổng thể.
3. Trung bình được sử dụng trong các tính toán thống kê khác, chẳng hạn như
phương sai.
4. Giá trị trung bình của tập dữ liệu là duy nhất và không nhất thiết phải là
một trong các giá trị dữ liệu.
5. Trung bình không thể tính được cho dữ liệu trong một phân bố tần số có lớp
mở rộng (open-ended).
6. Trung bình bị ảnh hưởng bởi các giá trị rất cao hoặc rất thấp, được gọi là
ngoại biên (outlier) và có thể không phải là mức trung tâm thích hợp để sử dụng
trong các tình huống này.
Trung vị
1. Trung vị được sử dụng để tìm trung tâm hoặc giá trị chính giữa của tập dữ
liệu.
2. Trung vị được sử dụng khi cần thiết để tìm hiểu liệu các giá trị dữ liệu rơi
vào nửa trên hoặc dưới của phân bố.
3. Trung vị cũng sử dụng được cho một phân phối mở rộng được.
4. Trung vị bị ảnh hưởng ít hơn so với trung bình bởi các giá trị rất cao hoặc
rất thấp.
Mode
1. Mode được sử dụng khi trường hợp điển hình nhất được mong muốn.
2. Mode là đo lường trung tâm dễ tính nhất.
3. Mode có thể được sử dụng khi dữ liệu ở dạng danh nghĩa, chẳng hạn như sở
thích, tôn giáo, giới tính hoặc đảng phái chính trị.
4. Mode không phải lúc nào cũng là duy nhất. Tập dữ liệu có thể có nhiều mode
hoặc không tồn tại mode.
Trung bình khoảng
1. Trung bình khoảng rất dễ tính.
2. Trung bình khoảng cho biết điểm chính giữa của tập dữ liệu.
3. Trung bình khoảng bị ảnh hưởng bởi các giá trị rất cao hoặc rất thấp trong
tập dữ liệu.

Thể hiện của trung bình, trung vị và mode trên một số dạng phân phối quan
trọng. Được thể hiện ở hình 3.1.

50
Hình 3.1: Các kiểu phân phối.

3.2 Các thước đo về độ biến thiên (measures of variation)

Trong thống kê, để mô tả các tập dữ liệu chính xác, nhà thống kê phải biết nhiều
hơn các số đo lường khuynh hướng định tâm. Ta xét ví dụ sau: Một phòng thí nghiệm
muốn kiểm tra hai thương hiệu sơn ngoài trời để xem mỗi loại sơn sẽ kéo dài bao lâu
trước khi mờ dần. Thử nghiệm được tiến hành trên 6 gallon của mỗi loại sơn. Kết
quả được thống kê như sau:

Thương hiệu A Thương hiệu B


10 35
60 45
50 30
30 35
40 40
20 25

Nếu tính trung bình của hai mẫu này ta thấy rằng chúng có trung bình giống
nhau, tức là 35 tháng. Nhưng chỉ nhìn qua các giá trị trong hai mẫu này ta cũng
nhận ra rằng các số đo lường của mẫu A biến thiên nhiều hơn so với các số đo lường
của mẫu B. Như vậy, mặc dù hai mẫu này có trung bình bằng nhau nhưng hai mẫu
này không thể coi như giống nhau được. Do đó điểm số trung bình chưa đủ để mô
tả một tập hợp dữ liệu. Trong số các đo lường có thể dùng để mô tả tính biến thiên
này có ba loại thông dụng, đó là: khoảng biến thiên (range), phương sai (variance)
và độ lệch chuẩn (standard deviation).
51
3.2.1 Khoảng biến thiên (range)

Khoảng biến thiên là một số đo lường tính biến thiên đơn giản nhất.
Định nghĩa 3.2.1. Khoảng biến thiên của một tập hợp đo lường là hiệu số giữa số
đo lường cao nhất và thấp nhất. Kí hiệu là R.

Với ví dụ hai thương hiệu sơn ở đầu mục này, với thương hiệu sơn A thì khoảng
biến thiên là: R = 60 − 10 = 50. Với thương hiệu sơn B thì khoảng biến thiên là:
R = 45 − 25 = 20.
Để chứng tỏ được lợi ích của khoảng biến thiên ta đưa ra một ví dụ về điểm số
của hai mẫu nhỏ dưới đây:
Mẫu A: 3, 3, 4, 4, 4, 4, 4, 5, 5
Mẫu B: 0, 1, 1, 2, 5, 5, 6, 6, 6.
Cả hai mẫu đều có trung bình là 4 nhưng khoảng biến thiên của mẫu A là 5−3 = 2
và của mẫu B là 6 − 0 = 6. Như vậy, ta thấy mẫu B có các số đo lường biến thiên
nhiều hơn mẫu A.
Thế nhưng trong trường hợp trong mẫu có một giá trị vô cùng lớn hoặc vô cùng
bé thì sẽ ảnh hưởng đến khoảng biến thiên, chẳng hạn ta xét ví dụ sau:
Ví dụ 3.2.1. Tiền lương cho các nhân viên của công ty XYZ Manufacturing Co.
được cho ở bảng sau:

Nhân viên Lương (đô la)


Chủ 100,000
Quản lý 40,000
Đại diện bán hàng 30,000
Công nhân 25,000
15,000
18,000

Khi đó khoảng biến thiên của mẫu là: R = 100, 000 − 15, 000 = 85, 000.
Như vậy, vì lương của người chủ lớn dẫn đến khoảng biến thiên lớn. Do đó, để
thống kê có ý nghĩa hơn trong việc đo độ biến thiên, các nhà thống kê sử dụng các
đo lường khác như phương sai và độ lệch chuẩn.

3.2.2 Phương sai và độ lệch chuẩn (variance and standard deviation)

Như phần trước, khi đề cập đến trung bình nó cho biết rằng trung bình là một
điểm cân bằng và khoảng cách giữa một điểm số với trung bình của phân bố được
gọi là độ lệch (deviation). Như vậy độ lệch cũng chứa đựng thông tin về sự biến thiên
của các điểm số, do đó ta có thể nghĩ rằng nếu tính trung bình của các độ lệch này
ta có thể có một số đo lường khá tốt về sự biến thiên. Thế nhưng có sự bất tiện là
một số các độ lệch ấy là số dương, một số khác là âm nên tổng các độ lệch đó có thể
là bằng 0. Để tránh sự bất tiện này, người ta bình phương các độ lệch ấy rồi cộng
chúng lại để có tổng số các độ lệch bình phương. Từ tổng số các độ lệch bình phương
này ta có thể tính ra được phương sai (variance), một thứ đo lường sự biến thiên rất

52
thông dụng và có ý nghĩa. Ý nghĩa của phương sai nói lên rằng: phương sai càng lớn
thì sự biến thiên hay mức độ phân tán của các điểm số trong tổng thể (hay mẫu)
càng lớn, thế nhưng lớn bao nhiêu mới được xem là lớn? Mặc dù ta có thể so sánh
các phương sai của nhiều tập hợp đo lường với nhau về tính biến thiên, nhưng ta sẽ
khó mà giải thích phương sai khi chỉ có một tập hợp đo lường duy nhất. Vì vậy, ta
cần phải có một loại đo lường biến thiên có ích không những để so sánh mà còn để
mô tả một tập hợp đo lường duy nhất. Loại đo lường biến thiên ấy là độ lệch chuẩn
(standard deviation).
Định nghĩa 3.2.2. Phương sai tổng thể, kí hiệu là σ 2 , là trung bình của các bình
phương khoảng cách từ mỗi giá trị đến trung bình của tổng thể.
Công thức dùng để tính phương sai là:
2
P
(X − µ)
σ2 = ,
N
trong đó: X : là các giá trị đo lường, µ: trung bình tổng thể, N : là kích thước tổng
thể.
Định nghĩa 3.2.3. Độ lệch chuẩn tổng thể, kí hiệu là σ , là căn bậc hai của phương
sai.
Công thức dùng để tính độ lệch chuẩn là:
rP
√ (X − µ)2
σ= σ2 = .
N

Nếu tính toán trên các mẫu cụ thể, vì lý do cỡ mẫu thường nhỏ (ít hơn 30) nên
thay vì chia cho n thì người ta thường chia cho n − 1. Khi đó phương sai sẽ cho ta
một phỏng định phương sai cả tổng thể một cách chính xác hơn.

Phương sai mẫu Độ lệch chuẩn


r P mẫu
2 √ (X − X)2
P
(X − X)
s2 = s = s2 =
n−1 n−1
trong đó: X : là trung bình mẫu, n: là cỡ mẫu.

Áp dụng các công thức trên đây, ta phải tính trung bình X . Để nhanh chóng hơn
ta sử dụng "công thức đường tắt" sau:

Phương sai mẫu Độ s


lệch chuẩn mẫu
P 2 P 2 P 2 P 2
n X − ( X) n X − ( X)
s2 = s=
n(n − 1) n(n − 1)

Ví dụ 3.2.2. Tìm phương sai mẫu và độ lệch chuẩn mẫu cho doanh số bán ôtô của
Châu Âu trong 6 năm được cho sau đây (dữ liệu được tính theo đơn vị triệu đô la).
11.2, 11.9, 12.0, 12.8, 13.4, 14.3

Lời giải:

53
• Bước 1: Tìm trung bình mẫu:
P
X 11.2 + 11.9 + 12.0 + 12.8 + 13.4 + 14.3
X= = = 12.6
n 6

• Bước 2: Lập bảng giá trị theo mẫu sau:

X X −X (X − X)2
11.2
11.9
12.0
12.8
13.4
14.3

• Bước 3: Tính độ lệch mỗi giá trị và lấy bình phương các độ lệch rồi hoàn thành
bảng trên:

X X −X (X − X)2
11.2 -1.4 1.69
11.9 -0.7 0.49
12.0 -0.6 0.36
12.8 0.2 0.04
13.4 0.8 0.64
14.3 1.7 2.89

• Bước 4: Tính tổng tất cả các giá trị ở cột (X − X)2 :


X
(X − X)2 = 1.69 + 0.64 + 0.36 + 0.04 + 0.64 + 2.89 = 6.38

• Bước 5: Áp dụng công thức của phương sai và độ lệch chuẩn mẫu ta được:

P Phương2 sai mẫu Độ lệch chuẩn mẫu


(X − X) 6.38 √ √
s2 = = = 1.276 s = s2 = 1.276 = 1.13
n−1 6−1

Trong trường hợp áp dụng công thức đường tắt thì ta tiến hành theo các bước
sau:

• Bước 1: Tính tổng các giá trị:


X
X = 11.2 + 11.9 + 12.0 + 12.8 + 13.4 + 14.3 = 75.6

• Bước 2: Tính tổng bình phương các giá trị:


X
X 2 = 11.22 + 11.92 + 12.02 + 12.82 + 13.42 + 14.32 = 958.94

• Bước 3: Áp dụng công thức đường tắt cho phương sai mẫu ta được:

54
 2
X 2 − ( X)
P P
n 6(958.94) − (75.6)2
s2 = = = 1.276
n(n − 1) 6(6 − 1)

Lấy căn bậc hai của phương sai ta được độ lệch chuẩn mẫu: s = 1.276 = 1.13
Để tính phương sai và độ lệch chuẩn trong trường hợp dữ liệu cho dạng ghép lớp
ta thực hiện các bước sau:
• Bước 1: Lập một bảng theo mẫu sau và tìm giá trị giữa của mỗi lớp:
A B C D E
Lớp Tần số f Điểm giữa Xm f.Xm f.Xm2

• Bước 2: Lấy tích của tần số với điểm giữa của mỗi lớp và điền vào cột D.
• Bước 3: Lấy tích của tần số với bình phương của điểm giữa mỗi lớp và điền vào
cột E.
• Bước 4: Tính tổng của các cột B, D và E.
• Bước 5: Sử dụng công thức để tính phương sai mẫu:
P 
2 −(
P 2
2
n f · Xm f · Xm )
s =
n(n − 1)

• Bước 6: Lấy căn bậc hai của phương sai ta được độ lệch chuẩn.
Ví dụ 3.2.3. Trở lại ví dụ 2.2.4, cho dữ liệu về số dặm chạy được của 20 vận động
viên trong một tuần. Hãy tính phương sai và độ lệch chuẩn của mẫu dữ liệu.
Lớp Tần số f Điểm giữa Xm
5.5 – 10.5 1 8
10.5 – 15.5 2 13
15.5 – 20.5 3 18
20.5 – 25.5 5 23
25.5 – 30.5 4 28
30.5 – 35.5 3 33
35.5 – 40.5 2 38

Lời giải:
Thực hiện tuần tự các bước từ 1 đến 4 ta có được kết quả trong bảng sau:
A B C D E
Lớp Tần số f Điểm giữa Xm f.Xm 2
f.Xm
5.5 – 10.5 1 8 8 64
10.5 – 15.5 2 13 26 338
15.5 – 20.5 3 18 54 972
20.5 – 25.5 5 23 115 2645
25.5 – 30.5 4 28 112 3136
30.5 – 35.5 3 33 99 3267
35.5 – 40.5 2 38 76 2888
2 = 13310
P P
n = 20 f.Xm = 490 f.Xm

55
Bước 5: Sử dụng công thức s2 ta tính được phương sai:
P 2
 P 2
n f · Xm − ( f · Xm ) 20(13310) − (490)2
s2 = = = 68.7
n(n − 1) 20(20 − 1)

Bước 6: Lấy căn bậc hai của s2 ta được độ lệch chuẩn:



s= 68.7 = 8.3

3.2.3 Hệ số biến thiên (coefficient of variation)

Hệ số biến thiên là một đại lượng thống kê mô tả dùng để đo mức độ biến động
tương đối của những tập hợp dữ liệu chưa phân tổ có giá trị trung bình khác nhau.
Hệ số này được tính bằng cách lấy độ lệch chuẩn chia cho giá trị trung bình. Giữa 2
tập hợp dữ liệu, tập nào có hệ số biến thiên lớn hơn là tập có mức độ biến động lớn
hơn.
Nhược điểm của hệ số biến thiên khi dùng để đo mức độ biến động là nếu giá trị
trung bình gần 0 thì chỉ một biến động nhỏ của giá trị trung bình cũng có thể khiến
cho hệ số này thay đổi lớn. Ưu điểm của nó là có thể dùng để so sánh mức độ biến
động của 2 tập dữ liệu có giá trị trung bình khác nhau.
Định nghĩa 3.2.4. Hệ số biến thiên, kí hiệu là CVar, được tính bằng độ lệch chuẩn
chia cho giá trị trung bình. Kết quả đươc thể hiện dưới dạng phần trăm.
Hệ số biến thiên mẫu Hệ số biến thiên tổng thể
s σ
CVar = · 100% CVar = · 100%
X µ
Ví dụ 3.2.4. Trung bình số trang của một mẫu tạp chí thể dục dành cho phụ nữ là
132, với phương sai là 23 và trung bình số lượng quảng cáo của một mẫu các tạp chí
thể dục dành cho phụ nữ là 182 với phương sai là 62. Hãy so sánh sự biến thiên của
hai mẫu.
Lời giải:
Các hệ số biến thiên:

23
CVar = · 100% = 3.6% trang giấy,
132

62
CVar = · 100% = 4.3% số quảng cáo.
182
Như vậy, hệ số biến thiên của số quảng cáo lớn hơn hệ số biến thiên số trang giấy,
do đó số lượng quảng cáo nó thay đổi nhiều hơn so với số trang giấy của một mẫu
tạp chí thể dục dành cho phụ nữ.

3.2.4 Quy tắc tính rợ khoảng (range rule of thumb)

Trên đây ta đã nói cách để tính được độ lệch chuẩn của một mẫu dữ liệu, nhưng
ta có thể tính xấp xỉ thông qua khoảng biến thiên. Xấp xỉ đó được gọi là quy tắc
tính rợ.
56
Định nghĩa 3.2.5. Một ước lượng của độ lệch chuẩn là:
range
s≈ .
4
Ví dụ 3.2.5. Độ lệch chuẩn của tập dữ liệu: 5, 8, 8, 9, 10, 12, 13 là s = 2.7 và khoảng
biến thiên range = 13 − 5 = 8. Trong trường hợp ta sử dụng quy tắc tính rợ khoảng
8
ta được s ≈ = 2. Như vậy trong trường hợp này quy tắc tính rợ khoảng đưa ra kết
4
quả về độ lệch chuẩn thấp hơn so với thực tế.

Một lưu ý thận trọng nên được đề cập ở đây. Quy tắc tính rợ khoảng là một phép
xấp xỉ và nên được sử dụng khi phân bố các giá trị dữ liệu là unimodal và gần như
đối xứng.
Ngoài ra, quy tắc tính rợ khoảng còn được sử dụng để tính giá trị dữ liệu lớn nhất
và nhỏ nhất của một tập dữ liệu.

Xmin =X − 2s
Xmax =X + 2s

Trở lại ví dụ trên, trung bình của tập dữ liệu là X = 9.3, độ lệch chuẩn s = 2.7,
do đó:

Xmin =9.3 − 2(2.7) = 3.9


Xmax =9.3 + 2(2.7) = 14.7

Như vậy, một lần nữa cần chú ý là kết quả trên chỉ mang tính chất xấp xỉ thô.
Để có thể thu được các phép xấp xỉ tốt hơn ta có thể sử dụng định lý Chebyshev và
quy tắc kinh nghiệm được trình bày ở phần tiếp theo.

3.2.5 Định lý Chebyshev

Định lý Chebyshev được sử dụng để phát biểu về phần trăm của các số hạng sẽ
nằm trong một con số cụ thể của độ lệch chuẩn tính từ giá trung bình.
Định lý 3.2.1. Tỉ lệ (proportion) các giá trị từ tập dữ liệu nằm trong k độ lệch chuẩn
1
tính từ giá trị trung bình sẽ có ít nhất 1 − , trong đó k > 1 (k không nhất thiết phải
k2
là số nguyên).
Hay
1
Prob(X − ks < X < X + ks) ≥ 1 − .
k2
Đối với mọi tập dữ liệu ta đều có:

Prob(X − 2s < X < X + 2s) ≥ 75%


Prob(X − 3s < X < X + 3s) ≥ 88.89%

57
Hình 3.2: Định lý Chebyshev.

Ví dụ 3.2.6. Giá nhà trung bình trong một khu phố nhất định là 50.000 đô la, và
độ lệch chuẩn là 10.000 đô la. Tìm phạm vi giá mà ít nhất 75% số ngôi nhà sẽ bán.
Lời giải:
Định lý Chebyshev cho biết ba phần tư hoặc 75% giá trị dữ liệu sẽ nằm trong
khoảng 2 độ lệch chuẩn từ giá trị trung bình. Do đó
50, 000 + 2(10, 000) = 70, 000;
50, 000 − 2(10, 000) = 30, 000.

Do đó, có ít nhất 75% số căn nhà được bán trong khu vực sẽ có mức giá từ 30.000
đô đến 70.000 đô.
Ví dụ 3.2.7. Sự khảo sát của các công ty địa phương cho thấy rằng số tiền trợ cấp
đi lại cho các giám đốc điều hành trung bình là 0,25 (đô la) một dặm. Độ lệch tiêu
chuẩn là 0,02 (đô la). Sử dụng định lý Chebyshev, tìm phần trăm tối thiểu của các
giá trị dữ liệu sẽ giảm từ 0,20 (đô la) đến 0,30 (đô la).
Lời giải:
• Bước 1: Tìm k bằng cách lấy giá lớn nhất trừ cho trung bình (hoặc lấy trung
bình trừ cho giá trị nhỏ nhất) rồi chia cho độ lệch chuẩn s. Tức là:
0.30 − 0.25
k= = 2.5
0.02
• Bước 2: Sử dụng định lý Chebyshev để tìm phần trăm:
1 1
1− 2 =1− = 0.84
k 2.52
Do đó, có ít nhất 84% giá trị dữ liệu sẽ giảm từ 0,20 (đô la) đến 0,30 (đô la).

3.2.6 Quy tắc kinh nghiệm (empirical rule)

Định lý Chebyshev áp dụng cho bất kỳ phân phối bất kể hình dạng của nó. Tuy
nhiên, đối với mọi tập dữ liệu có dạng phân phối hình chuông thì các phát biểu dưới
đây tạo thành quy tắc kinh nghiệm luôn đúng:
58
• Khoảng 68% giá trị dữ liệu sẽ nằm trong 1 độ lệch chuẩn tính từ giá trị trung
bình. Tức là: Prob(X − 1s < X < X + 1s) ≥ 68%.
• Khoảng 95% giá trị dữ liệu sẽ nằm trong 2 độ lệch chuẩn tính từ giá trị trung
bình. Tức là: Prob(X − 2s < X < X + 2s) ≥ 95%.
• Khoảng 99.7% giá trị dữ liệu sẽ nằm trong 3 độ lệch chuẩn tính từ giá trị trung
bình. Tức là: Prob(X − 3s < X < X + 3s) ≥ 99.7%.

Hình 3.3: Quy tắc kinh nghiệm.

3.3 Các thước đo về vị trí (measures of position)

Ngoài các đo lường khuynh hướng định tâm và các thước đo về độ biến thiên còn
có các thước đo về vị trí hoặc địa điểm. Các thước đo về vị trí bao gồm điểm chuẩn
(standard score), điểm bách phân (percentile), điểm thập phân (decile) và điểm tứ
phân (quartile). Chúng được sử dụng để định vị vị trí tương đối của một giá trị dữ
liệu trong tập dữ liệu. Chẳng hạn, nếu giá trị nằm ở điểm bách phân thứ 80, có nghĩa
là 80% giá trị nằm dưới nó trong phân phối và 20% giá trị nằm trên nó. Trung vị là
giá trị tương ứng với bách phân thứ 50, vì một nửa giá trị nằm dưới nó và một nửa
giá trị nằm trên nó. Phần này sẽ nói về các thước đo về vị trí.

3.3.1 Điểm chuẩn (standard score)

Giả sử một học sinh đạt 65 điểm trong một bài kiểm tra tính toán và 30 điểm
trong bài kiểm tra lịch sử. Liệu ta có thể so sánh hai điểm này không? Với việc sử
dụng trực tiếp điểm thô thì ta không thể so sánh vì bài kiểm tra có thể không tương
thích về số câu hỏi, giá trị của từng câu hỏi,... Tuy nhiên, một so sánh về một tiêu
chuẩn tương đối cho cả hai điểm có thể thực hiện được. So sánh này sử dụng trung
bình và độ lệch chuẩn và được gọi là điểm chuẩn hay z -core.
Điểm chuẩn hay còn gọi là z -core, của mẫu tương ứng với một giá trị quan sát là

59
một thước đo về vị trí tương đối và được định nghĩa bằng công thức:
giá trị − trung bình
z= .
độ lệch chuẩn
Với mẫu Với tổng thể
X −X X −µ
z= z=
s σ
z -core đo lường số lượng độ lệch chuẩn giữa một giá trị quan sát và trung bình
của tập dữ liệu. Giả sử chúng ta biết rằng trung bình và độ lệch chuẩn của một tập
hợp các số điểm kiểm tra, dựa trên một tổng số là 100 điểm, là X = 74 và s = 8.
z -core đối với điểm kiểm tra 92 của anh/chị được tính là:

X −X 92 − 74
z= = = 2.25.
s 8

Vì thế số điểm của anh/chị nằm cao hơn 2.25 độ lệch chuẩn so với trung bình là:
92 = 74 + 2.25(8). Bản thân các z -core chỉ đơn thuần cho thấy số điểm kiểm tra cao
hơn hay thấp hơn trung bình bao nhiêu độ lệch chuẩn.
Ví dụ 3.3.1. Một học sinh đạt được 65 điểm trong bài kiểm tra tính toán, có trung
bình là 50 và độ lệch chuẩn là 10; đồng thời đạt được 30 điểm trong bài kiểm tra môn
lịch sử với điểm trung bình là 25 và độ lệch chuẩn là 5. Hãy so sánh vị trí tương đối
của học sinh đó trong hai bài kiểm tra?
Lời giải:
X −X 65 − 50
z -core cho bài tính toán là: z = = = 1.5
s 10
30 − 25
z -core cho bài kiểm tra môn lịch sử là: z = = 1.0
5
Do z -core của bài tính toán lớn hơn bài lịch sử nên vị trí tương đối của học sinh
này trong lớp toán là cao hơn vị trí tương đối của học sinh này trong lớp lịch sử.

3.3.2 Điểm bách phân (percentile)

Điểm bách phân là một trong những thước đo vị trí được sử dụng trong các lĩnh
vực liên quan đến giáo dục và y tế để chỉ ra vị trí của một cá nhân trong một nhóm.
Bách phân vị chia tập dữ liệu thành 100 phần bằng nhau. Điểm bách phân vị là
một điểm trên thang điểm số mà ở đó có một số phần trăm trường hợp nào đó rơi
vào chính điểm số ấy hay ở dưới nó.
Để tìm các điểm bách phân vị, kí hiệu là P , cho một giá trị X ta sử dụng công
thức sau:
(số các giá trị nhỏ hơn X) + 0.5
P = .100%
n
Ví dụ 3.3.2. Một giáo viên cho 1 bài kiểm tra thang điểm 20 đến 10 học sinh. Điểm
được cho dưới đây. Hãy tìm thứ hạng bách phân (percentile rank ) điểm số 12.

18 15 12 6 8 2 3 5 20 10

60
Lời giải:
Đầu tiên sắp xếp dữ liệu theo thứ tự từ nhỏ đến lớn:

2 3 5 6 8 10 12 15 18 20

Sử dụng công thức tính điểm bách phân vị cho giá trị 12 là:
6 + 0.5
P = .100% = 65%
10

Như vậy ta nói rằng, một học sinh có điểm số 12 đã làm tốt hơn 65% số học sinh
trong lớp.

Một bài toán khác đặt ra là nếu biết thứ hạng bách phân vị thì giá trị tương ứng
với nó được xác định như thế nào? Dưới đây là quy trình để tìm giá trị tương ứng
với một bách phân vị cho trước:

• Bước 1: Sắp xếp dữ liệu theo thứ tự từ nhỏ đến lớn.


n.P
• Bước 2: Thay vào công thức: c = ,
100
trong đó: n số giá trị dữ liệu; P là bách phân vị.
• Bước 3A: Nếu c không phải là một số nguyên thì làm tròn đến một số nguyên
tiếp theo. Bắt đầu từ giá trị thấp nhất đếm đến số tương tứng với giá trị làm
tròn.
• Bước 3B: Nếu c là một số nguyên thì sử dụng giá trị giữa giá trị thứ c và (c + 1)
khi đếm từ giá trị thấp nhất.

Ví dụ 3.3.3. Sử dụng điểm số trong ví dụ 3.3.2, hãy tìm giá trị tương ứng với bách
phân vị thứ 25.
Lời giải:

• Bước 1: Sắp xếp dữ liệu theo thứ tự từ nhỏ đến lớn:

2 3 5 6 8 10 12 15 18 20
n.P 10.25
• Bước 2: Tính: c = = = 2.5
100 100
• Bước 3A: Do c không nguyên nên ta làm tròn đến số nguyên tiếp theo là 3. Cuối
dùng đếm từ giá trị thấp nhất đến đến giá trị thứ 3 là 5. Do đó, giá trị 5 tương
ứng với bách phân vị thứ 25.
Ví dụ 3.3.4. Sử dụng điểm số trong ví dụ 3.3.2, hãy tìm giá trị tương ứng với bách
phân vị thứ 60.
Lời giải:

• Bước 1: Sắp xếp dữ liệu theo thứ tự từ nhỏ đến lớn:

2 3 5 6 8 10 12 15 18 20
61
n.P 10.60
• Bước 2: Tính: c = = =6
100 100
• Bước 3B: Do c nguyên nên ta sử dụng giá trị giữa giá trị thứ 6 và 7. Trong trường
10 + 12
hợp này giá trị thứ 6 và 7 là 10 và 12. Do đó giá trị = 11 là giá trị tương
2
ứng với bách phân vị thứ 60.

3.3.3 Điểm thập phân và tứ phân (decile and quartile)

Các điểm bách phân vị thứ 25, 50 và 75 chia một phân bố thành bốn tứ phân
(quartile) kí hiệu là Q1 , Q2 , Q3 . Trong đó, tứ phân vị thứ nhất Q1 tương ứng với bách
phân vị thứ 25; tứ phân vị Q2 tương ứng với bách phân vị thứ 50 hoặc là trung vị;
tứ phân vị Q3 tương ứng với bách phân vị thứ 75.

Để tìm các điểm tứ phân vị ta thực hiện theo quy trình sau:

• Bước 1: Sắp xếp dữ liệu theo thứ tự từ nhỏ đến lớn.


• Bước 2: Tìm trung vị của dữ liệu. Nó chính là Q2 .
• Bước 3: Tìm trung vị của các giá trị dữ liệu mà nó nhỏ hơn Q2 . Nó chính là Q1 .

• Bước 4: Tìm trung vị của các giá trị dữ liệu mà nó lớn hơn Q2 . Nó chính là Q3 .

Ví dụ 3.3.5. Tìm Q1 , Q2 , Q3 của tập dữ liệu sau: 15, 13, 6, 5, 12, 50, 22, 18.
Lời giải:

• Sắp xếp dữ liệu theo thứ tự từ nhỏ đến lớn: 5, 6, 12, 13, 15, 18, 22, 50
• Tìm trung vị (Q2 ):

5, 6, 12, 13, 15, 18, 22, 50



MD
13 + 15
MD = = 14. Tức là Q2 = 14.
2
• Tìm trung vị của tập các giá trị dữ liệu nhỏ hơn 14:

5, 6, 12, 13

Q1

62
6 + 12
Do đó Q1 = = 9.
2
• Tìm trung vị của tập các giá trị dữ liệu lớn hơn 14:
15, 18, 22, 50

Q3
18 + 22
Do đó Q3 = = 20.
2
Thập phân vị (decile) chia phân bố dữ liệu thành 10 phần bằng nhau, được kí
hiệu D1 , D2 , ..., D9 .

Tóm lại ta có:


• Thập phân vị kí hiệu là D1 , D2 , ..., D9 tương ứng với bách phân vị P10 , P20 , ..., P90 .
• Tứ phân vị kí hiệu là Q1 , Q2 , Q3 tương ứng với bách phân vị P25 , P50 , P75 .
• Trung vị bằng với P50 , Q2 , D5 .

3.3.4 Giá trị ngoại biên hay cá biệt (outlier )

Một tập hợp dữ liệu cần được kiểm tra cho các giá trị rất lớn hoặc rất nhỏ. Những
giá trị này được gọi là ngoại biên. Một điểm ngoại biên có thể ảnh hưởng mạnh đến
trung bình và độ lệch chuẩn của một biến. Chẳng hạn, giả sử một nhà nghiên cứu
nhầm lẫn ghi lại một giá trị dữ liệu rất lớn, giá trị này sau đó sẽ làm sai lệch trung
bình và độ lệch chuẩn của biến lớn hơn nhiều so với thực tế, thậm chí nó còn ảnh
hưởng đến các thống kê khác. Do đó ta cần kiểm tra các giá trị này.
Định nghĩa 3.3.1. Một giá trị ngoại biên là một giá trị dữ liệu rất lớn hoặc cực nhỏ
so với các giá trị dữ liệu còn lại.
Để kiểm tra các điểm ngoại biên này ta sử dụng một cách được cho dưới đây:

• Bước 1: Sắp xếp dữ liệu theo thứ tự và tìm Q1 và Q3 .


• Bước 2: Tìm khoảng tứ phân vị (interquartile range): IQR = Q3 − Q1 .
• Bước 3: Nhân IQR với 1.5, tức là 1.5(IQR).

• Bước 4: Tính Q1 − 1.5(IQR) và Q3 + 1.5(IQR)


• Bước 5: Kiểm tra tập dữ liệu cho bất kỳ giá trị dữ liệu nào nhỏ hơn Q1 −1.5(IQR)
hoặc lớn hơn Q3 + 1.5(IQR), nó chính là các điểm ngoại biên.

63
Ví dụ 3.3.6. Kiểm tra tập dữ liệu sau có các điểm ngoại biên không?
5, 6, 12, 13, 15, 18, 22, 50

Lơi giải:
Giá trị 50 rất nghi ngờ vì nó khá lớn so với các giá trị khác. Ta kiểm tra như sau:
6 + 12 18 + 22
• Ta có: Q1 = = 9 và Q3 = = 20.
2 2
• Khoảng tứ phân vị: IQR = Q3 − Q1 = 11.
• Ta có: 1.5(IQR) = 1.5(11) = 16.5.
• Tính: Q1 − 1.5(IQR) = 9 − 16.5 = −7.5 và Q3 + 1.5(IQR) = 20 + 16.5 = 36.5.
• Kiểm tra tập dữ liệu ta thấy giá trị 50 nằm ngoài khoảng từ −7.5 đến 36.5, do
đó 50 là một điểm ngoại biên.

Một số lý do có thể xảy ra việc suất hiện các điểm ngoại biên là:

• Thứ nhất là giá trị dữ liệu có thể là kết quả sai của một quan sát hay một phép
đo lường.
• Thứ hai, giá trị dữ liệu có thể là kết quả của việc đánh máy hoặc viết không
chính xác.
• Thứ ba, giá trị dữ liệu có thể được lấy từ một chủ thể không được xác định trong
tổng thể. Chẳng hạn như việc nghiên cứu điểm một môn trong một lớp của học
sinh lớp bảy nhưng một học sinh trong lớp đó thực sự ở lớp sáu nên học sinh
này có thể đạt được điểm rất thấp trong kì thi.
• Thứ tư, giá trị dữ liệu có thể là một giá trị chính đáng xảy ra ngẫu nhiên mặc
dù xác suất xảy ra rất nhỏ.

Không có một quy tắc nào về việc phải làm gì với các giá trị ngoại biên, cũng
không có sự thống nhất hoàn toàn giữa các nhà thống kê về cách để xác định chúng.
Rõ ràng, nếu các điểm ngoại biên xuất hiện như là một kết quả bị lỗi thì cần cố gắng
để sửa lỗi hoặc giá trị dữ liệu phải được bỏ qua hoàn toàn. Khi các giá trị ngoại biên
xảy ra một cách ngẫu nhiên thì các nhà thống kê phải đưa ra quyết định về việc đưa
chúng vào tập dữ liệu hay không.

3.4 Phân tích dữ liệu khám phá (exploratory data analysis)

Trong thống kê truyền thống, dữ liệu được tổ chức bằng cách sử dụng phân bố
tần số. Từ bảng phân phối này, các biểu đồ khác nhau như nhật đồ, đa giác tần số
và biểu đồ hình cung có thể được xây dựng để xác định hình dạng hoặc bản chất của
sự phân bố. Ngoài ra, các số liệu thống kê khác như trung bình và độ lệch chuẩn có
thể được tính để tóm tắt dữ liệu.
Mục đích của phân tích truyền thống là để xác nhận các phỏng đoán khác nhau
về tính chất của dữ liệu. Ví dụ, từ một nghiên cứu được thiết kế cẩn thận, một nhà
64
nghiên cứu có thể muốn biết liệu tỷ lệ người Mỹ đang tập thể dục ngày nay đã tăng
lên từ 10 năm trước không. Nghiên cứu này sẽ chứa nhiều giả định khác nhau về dân
số, các định nghĩa khác nhau như tập thể dục, v.v ...
Trong phân tích dữ liệu khám phá, dữ liệu có thể được tổ chức bằng cách sử dụng
biểu đồ thân và lá. Các đo lường khuynh hướng định tâm được sử dụng trong phân
tích dữ liệu khám phá là trung vị. Các đo lường tính biến thiên được sử dụng là
khoảng tứ phân vị Q3 − Q1 . Trong phân tích dữ liệu khám phá dữ liệu còn được biểu
diễn bằng cách sử dụng biểu đồ hộp (boxplot) (đôi khi còn được gọi là biểu đồ hộp và
râu (box-and-whisker plot). Mục đích của phân tích dữ liệu khám phá là để kiểm tra
dữ liệu nhằm tìm ra những thông tin nào có thể được phát hiện về các dữ liệu như
trung tâm và chiều rộng. Phân tích dữ liệu khám phá đã được John Tukey phát triển
và trình bày trong cuốn sách Exploratory Data Analysis (Addison-Wesley, 1977).
Bản tóm tắt 5 số và biểu đồ hộp
Biểu đồ hộp có thể được sử dụng để biểu thị đồ thị cho một tập dữ liệu. Những
biểu đồ kiểu này gồm 5 giá trị cụ thể:

• giá trị nhỏ nhất của tập dữ liệu,


• Q1 ,

• trung vị,
• Q3 ,
• giá trị lớn nhất của tập dữ liệu.

Các giá trị trên được gọi là bản tóm tắt 5 số của tập dữ liệu.

Cách vẽ biểu đồ hộp:


• Vẽ một trục ngang thể hiện giá trị của dữ liệu.

• Trên trục này, vẽ một hình chữ nhật với phía trái hộp là phân vị thứ nhất Q1
và phía phải hộp là phân vị thứ ba Q3 .
• Vẽ một đường thẳng đứng nối cạnh trên và cạnh dưới của hộp tại điểm trung
vị MD.
• Để vẽ râu bên trái, ta vẽ một đường nằm ngang từ giá trị nhỏ nhất đến điểm
giữa cạnh bên trái của hộp. Để vẽ râu bên phải, ta vẽ một đường ngang nối từ
điểm giữa cạnh phải của hộp đến giá trị lớn nhất của hộp.
Sau khi vẽ như vậy, ta có biểu đồ hộp chia dữ liệu một cách hình ảnh thành 4
phần. Chú ý rằng, chiều dài hộp là khoảng tứ phân vị IQR, râu bên trái thể hiện
phần tư thứ nhất, và râu bên phải thể hiện phần tư cuối cùng của dữ liệu.
Ví dụ 3.4.1. Số lượng thiên thạch tìm thấy ở 10 tiểu bang của Hoa Kỳ là 89, 47,
164, 296, 30, 215, 138, 78, 48, 39. Xây dựng một biểu đồ hộp cho dữ liệu.
Lời giải:

• Sắp xếp dữ liệu theo thứ tự: 30, 39, 47, 48, 78, 89, 138, 164, 215, 296

65
• Tìm trung vị, Q1 và Q3 :
78 + 89
Trung vị MD = = 83.5; Q1 = 47 và Q3 = 164.
2
• Vẽ và chia tỉ lệ trên một trục x.
• Xác định vị trí của giá trị nhỏ nhất, Q1 , trung vị MD, Q3 và giá trị lớn nhất theo
tỉ lệ.
• Vẽ biểu đồ hộp được thể hiện như sau:

Nhìn vào biểu đồ hộp ta thấy nó có dạng lệch phải (hay phân phối dương).

Thông tin thu được từ một biểu đồ hộp:


1. Dựa vào vị trí của trung vị.
+ Nếu trung vị nằm gần trung tâm hộp thì phân bố gần như đối xứng.
+ Nếu trung vị nằm ở bên trái trung tâm của hộp thì phân bố này bị lệch
dương.
+ Nếu trung vị nằm ở bên phải của trung tâm của hộp thì phân bố này bị
lệch âm.
2. Dựa vào độ dài các "râu".
+ Nếu các râu có cùng độ dài thì sự phân bố gần như đối xứng.
+ Nếu râu bên phải lớn hơn râu bên trái thì sự phân bố sẽ bị lệch dương.
+ Nếu râu bên trái lớn hơn râu bên phải thì sự phân bố sẽ bị lệch âm.
Nếu các biểu đồ hộp được vẽ cho hai hoặc nhiều tập dữ liệu trên cùng một trục
thì có thể so sánh các phân bố với nhau. Để so sánh trung bình ta sử dụng vị trí của
trung vị. Để so sánh tính biến thiên ta sử dụng khoảng tứ phân vị, tức là chiều dài
của hộp.
Ví dụ 3.4.2. Một chuyên gia dinh dưỡng quan tâm đến việc so sánh hàm lượng natri
của phô mai thực tế với hàm lượng natri của một chất thay thế phô mai. Dữ liệu cho
hai mẫu ngẫu nhiên được thể hiện như sau. So sánh các phân bố bằng cách sử dụng
các biểu đồ hộp.

66
Phô mai thực tế Phôi mai thay thế
310 420 45 40 270 180 250 290
220 240 180 90 130 260 340 310
Source: The Complete Book of Food Counts.

Lời giải:

• Bước 1: Tìm trung vị, Q1 và Q3 cho dữ liệu phô mai thực tế:

40 45 90 180 220 240 310 420


↑ ↑ ↑
Q1 MD Q3

45 + 90 180 + 220 240 + 310


Q1 = = 67.5; MD = = 200; Q3 = = 275
2 2 2
• Bước 2: Tìm trung vị, Q1 và Q3 cho dữ liệu phô mai thay thế: hoàn toàn tương
tự ta có:
Q1 = 215; MD = 265; Q3 = 300

• Bước 3: Vẽ biểu đồ hộp cho mỗi phân bố trên cùng một đồ thị.

• Bước 4: So sánh các biểu đồ. Rõ ràng sự phân bố dữ liệu pho mai thay thế có
trung vị cao hơn trung vị của pho mai thực tế. Sự biến thiên và chiều rộng cho
phân bố dữ liệu phô mai thực tế lớn hơn đối với phân bố cho dữ liệu pho mai
thay thế.

Biểu đồ hộp hiệu chỉnh (modified boxplot) là biểu đồ hộp nhưng các râu chỉ
được mở rộng đến các giá trị lớn nhất và nhỏ nhất trong phạm vi khoảng 1.5 lần
khoảng tứ phân vị, tức là nằm trong khoảng giới hạn sau:

• Giới hạn dưới: Q1 − 1.5(IQR)

67
• Giới hạn trên: Q3 + 1.5(IQR)

Những điểm nằm ngoài khoảng giới hạn trên đều là các điểm ngoại biên (outlier ).
Các giá trị nằm giữa 1.5(IQR) và 3(IQR) được gọi là Mild outliers. Các giá trị vượt
ra ngoài 3(IQR) được gọi là Extreme outliers.

Ví dụ 3.4.3. Kiểm tra dữ liệu ở ví dụ 3.4.1 có các điểm ngoại biên hay không?
Lời giải:
Dễ dàng tính được khoảng giới hạn:

• Giới hạn dưới: Q1 − 1.5(IQR) = 47 − 1.5(164 − 47) = −128.5

• Giới hạn trên: Q3 + 1.5(IQR) = 164 + 1.5(164 − 47) = 339.5

Như vậy, tập dữ liệu không có điểm ngoại biên.

68
Phần bài tập chương 3

1. Cho dữ liệu về số bệnh viện của các tiểu bang ở Hoa Kỳ như sau. Tìm trung
bình, trung vị, mode, trung bình khoảng, khoảng biến thiên, phương sai và độ
lệch chuẩn của dữ liệu.

53 84 28 78 35 111 40 166 108 60 123


87 84 74 80 62

2. Cho dữ liệu về số trường tiểu học và trung học của một số tiểu bang ở Hoa Kỳ.

Tiểu học Trung học


938 977 194 518 403 423 85 156
711 599 1196 497 424 327 401 362
824 885 137 575 240 333 44 205
139 913 417 849 43 274 223 285

Với mỗi tập dữ liệu hay tìm:


a. Trung bình e. Khoảng biến thiên
b. Trung vị f. Phương sai
c. Mode g. Độ lệch chuẩn
d. Trung bình khoảng
Tập dữ liệu nào biến thiên nhiều hơn?
3. Mười hai viên pin được kiểm tra về thời gian hoạt động của nó. Phân bố tần số
được cho dưới đây.

Giờ Tần số
1−3 1
4−6 4
7−9 5
10 − 12 1
13 − 15 1

Hãy tìm trung bình, lớp mode, phương sai và độ lệch chuẩn.
4. Điểm trung bình SAT của các tiểu bang được cho như sau. Tìm lớp trung bình,
lớp mode, phương sai và độ chuẩn và đưa ra nhận xét về hình dạng của dữ liệu.

Điểm Tần số
478 − 504 4
505 − 531 6
532 − 558 2
559 − 585 2
586 − 612 2

5. Cho dữ liệu về độ tăng của thủy triều của 30 địa điểm được chọn tại Hoa Kỳ.

69
Độ tăng thủy triều (inch) Tần số
12.5 − 27.5 6
27.5 − 42.5 3
42.5 − 57.5 5
57.5 − 72.5 8
72.5 − 87.5 6
87.5 − 102.5 2

Tìm trung bình, lớp mode, phương sai và độ lệch chuẩn.


6. Cho dữ liệu về dung tích nhiên liệu (đơn vị gallon) của 50 chiếc xe năm 1995
được chọn ngẫu nhiên.

Lớp Tần số
10–12 6
13–15 4
16–18 14
19–21 15
22–24 8
25–27 2
28–30 1

Tìm trung bình, lớp mode, phương sai và độ lệch chuẩn.


7. Trong một cuộc khảo sát nha khoa của học sinh lớp ba, thu đươc dữ liệu về số
lượng răng bị sâu được tìm thấy như sau. Tìm trung bình số lượng răng sâu của
lớp này. Sử dụng giá trị trung bình có trọng số để tính.

Số học sinh Số răng sâu


12 0
8 1
5 2
5 3

8. Một nhà đầu tư đã tính các tỷ lệ phần trăm của mỗi khoản đầu tư chứng khoán
với khoản vốn được cho như sau. Tìm khoản vốn trung bình cho việc mua cổ
phiếu của dữ liệu. Sử dụng giá trị trung bình có trọng số để tính toán.

Cổ phiếu Tỷ lệ phần trăm Khoản vốn (đô la)


A 30 10,000
B 50 3,000
C 20 1,000

9. Số năm phục vụ của các thành viên ở Tòa án Tối cao Hoa Kỳ được cho dưới
đây. Tìm thứ hạng bách phân. Gía trị nào tương ứng với bách phân thứ 40? Xây
dựng một biểu đồ hộp (boxplot) cho dữ liệu và đưa ra nhận xét về hình dạng
của nó.
19, 15, 16, 24, 17, 4, 3, 31, 23, 5, 33

70
10. Tiền lương (đơn vị triệu đô) của 29 đội NFL (National Football League) trong
mùa giải 1999-2000 được cho trong phân bố tần số sau.

Lớp giới hạn Tần số


39.9 − 42.8 2
42.9 − 45.8 2
45.9 − 48.8 5
48.9 − 51.8 5
51.9 − 54.8 12
54.9 − 57.8 3

a. Xây dựng đồ thị bách phân vị.


b. Tìm giá trị tương ứng với bách phân vị thứ 35, 65 và 85.
c. Tìm bách phân vị của giá trị 44, 48 và 54.
11. Kiểm tra các tập dữ liệu về điểm ngoại biên.
a. 506, 511, 517, 514, 400, 521
b. 3, 7, 9, 6, 8, 10, 14, 16, 20, 12
c. 14, 18, 27, 26, 19, 13, 5, 25
d. 112, 157, 192, 116, 153, 129, 131
12. Khảo sát các cơ quan cho thuê xe thấy rằng, chi phí trung b ình cho thuê xe
là 0.32 đô mõi dặm. Độ lệch chuẩn là 0.03 đô. Sử dụng định lý Chebyshev tìm
phạm vi mà nó có chứa ít nhất 75% giá trị của tập dữ liệu.
13. Thu nhập bình quân của người lao động trong độ tuổi 25 đến 34 tuổi có bằng
cử nhân trở lên là 58,500 đô trong năm 2003. Nếu độ lệch chuẩn là 11,200 đô thì
bạn có kết luận gì về phần trăm những người lao động thu nhập được:
a. Giữa 47,300 và 69,700 đô.
b. Nhiều hơn 80,900 đô.
c. Nhiều hơn 100,000 đô?
14. Thu nhập bình quân của lao động cơ khí ô tô là 54 đô mỗi giờ. Độ lệch chuẩn là
4 đô. Tìm phần trăm tối thiểu của các giá trị dữ liệu nằm trong phạm vi từ 48
đến 60 đô. Sử dụng định lý Chebyshev.
15. Đối với một loại công việc nhất định, chi phí trung bình của một công ty là 231
đô để đào tạo một nhân viên để thực hiện nhiệm vụ. Độ lệch chuẩn là 5 đô. Tìm
phần trăm tối thiểu của các giá trị dữ liệu nằm trong khoảng từ 219 đến 243 đô.
Sử dụng định lý Chebyshev.
16. Phí vận chuyển trung bình cho một cái tủ lạnh là 32 đô. Độ lệch chuẩn là 4 đô.
Tìm phần trăm tối thiểu của các giá trị dữ liệu nằm trong khoảng từ 20 đến 44
đô. Sử dụng định lý Chebyshev.
17. Điểm kiểm tra nào có vị tương đối tốt hơn trong dữ liệu tương ứng?
a. Điểm 82 trong bài kiểm tra với X = 85 và s = 6.
71
b. Điểm 56 trong bài kiểm tra với X = 60 và s = 5.
18. Số lượng các rạp chiếu phim có chiếu chín bộ phim hàng đầu trong một tuần
được cho dưới đây.

3017 3687 2525


2516 2820 2579
3211 3044 2330

Xây dựng một biểu đồ hộp cho dữ liệu.


Bộ phim thứ 10 trong danh sách đã được trình chiếu tại 909 rạp chiếu phim.
Thêm số này vào tập dữ liệu trên khi đó xây dựng biểu đồ hộp. Nhận xét về sự
thay đổi xảy ra.
19. Dữ liệu dưới đây biểu thị cho số giờ mà 12 nhân viên làm việc bán thời gian tại
một cửa hàng đồ chơi trong tuần trước và sau Lễ Giáng Sinh. Xây dựng hai biểu
đồ hộp và so sánh hai phân bố.

Trước 38 16 18 24 12 30 35 32 31 30 24 35
Sau 26 15 12 18 24 32 14 18 16 18 22 12

20. Thời gian trung bình để đi làm ở Baltimore là 29.7 phút. Nếu độ lệch chuẩn là
6 phút thì phạm vi mà ít nhất 68% thời gian đi làm ở Baltimore rơi vào. Giả sử
phân phối xấp xỉ có dạng hình chuông.

72
Chương 4

XÁC SUẤT VÀ CÁC QUY TẮC ĐẾM

Xác suất như một khái niệm chung có thể được định nghĩa là cơ hội của một sự
kiện xảy ra. Nhiều người quen thuộc với xác suất từ việc quan sát hoặc chơi các trò
chơi cơ hội, chẳng hạn như các trò chơi bài, máy đánh bạc hoặc xổ số. Lý thuyết xác
suất được sử dụng trong các lĩnh vực bảo hiểm, đầu tư, dự báo thời tiết và các lĩnh
vực khác. Cuối cùng, như đã nêu trong Chương 1, xác suất là cơ sở của thống kê suy
diễn. Ví dụ, đưa ra được dự đoán dựa trên lý thuyết xác suất và kiểm định được giả
thuyết thống kê bằng cách sử dụng xác suất.
Trong chương này, sẽ trình bày các khái niệm cơ bản của xác suất bao gồm khái
niệm phép thử xác suất, không gian mẫu, quy tắc cộng và quy tắc nhân xác suất và
xác suất có điều kiện. Đồng thời chương này, trình bày về quy tắc đếm, sự khác nhau
giữa hoán vị và tổ hợp. Phần cuối của cương sẽ giải thích cách sử dụng các quy tắc
đếm và các quy tắc xác suất có thể được sử dụng cùng nhau để giải quyết rất nhiều
vấn đề.

4.1 Không gian mẫu và xác suất

Khái niệm xác suất nảy sinh và phát triển với việc giải quyết bài toán chia tiền
cược mà người khởi xướng là Pascal và Fermat: "Năm 1651, Chavalier de Méré đã
hỏi Blaise Pascal (1623-1662) về vấn đề chia tiền cược như sau: có lần Méré cùng
một người bạn gieo đồng tiền sấp ngửa ăn tiền, họ góp mỗi người 32 đồng tiền vàng
làm tiền cược và quy ước nếu Méré gieo được 3 lần toàn mặt sấp thì ông được toàn
bộ tiền cược, còn nếu bạn ông gieo được 3 lần toàn mặt ngửa thì tiền cược thuộc về
người bạn ấy. Khi Méré gieo được 2 lần mặt sấp và bạn ông mới được 1 lần mặt ngửa
thì cuộc chơi phải ngừng vì nhà vua gọi Méré. Vậy nên chia như thế nào?".
Lý thuyết xác suất phát triển từ nghiên cứu của các trò chơi khác nhau về cơ hội
bằng cách sử dụng các đồng tiền xu, con súc sắc và các thẻ. Phần đầu của mục này
sẽ nói về các khái niệm cơ bản của xác suất, sau đó các loại xác suất và các quy tắc
xác suất sẽ được nói đến.

4.1.1 Các khái niệm cơ bản

• Phép thử xác suất: là một quá trình ngẫu nhiên dẫn đến các kết quả được
xác định rõ ràng.
Chẳng hạn, tung một đồng xu một lần thì kết quả có thể xảy ra là đồng xu xuất
hiện mặt sấp hoặc mặt ngửa. Gieo một con súc sắc một lần thì kết quả có thể xảy ra
là con súc sắc xuất hiện mặt chấm 1, 2, 3, 4, 5 hoặc 6.
• Không gian mẫu: là tập hợp tất cả các kết quả có thể xảy ra của một phép
thử xác suất. Không gian mẫu được ký hiệu là Ω.

73
Chẳng hạn, một số không gian mẫu của các phép thử xác suất như sau:

Phép thử Không gian mẫu


Tung một đồng xu sấp, ngửa
Gieo một con súc sắc 1, 2, 3, 4, 5, 6
Trả lời câu hỏi đúng hay sai đúng, sai
Tung hai đồng xu sấp-sấp, sấp-ngửa, ngửa-sấp, ngửa-ngửa

Ví dụ 4.1.1. Tìm không gian mẫu cho phép thử giao hai con súc sắc.
Lời giải: Vì mỗi con súc sắc có 6 khả năng xảy ra nên không gian mẫu được trình
bày ở bảng sau:

Con súc sắc 2


Con súc sắc 1 1 2 3 4 5 6
1 (1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)
2 (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6)
3 (3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6)
4 (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6)
5 (5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6)
6 (6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)

Ví dụ 4.1.2. Tìm không gian mẫu của phép thử lấy một con bài từ một bộ bài tú
lơ khơ bình thường (52 con bài).
Lời giải: Không gian mẫu có 52 kết quả được cho sau đây:

• Biểu đồ cây: là đồ thị bao gồm các đoạn thẳng nối xuất phát từ một điểm
khởi đầu và kết thúc ở các điểm là biến cố sơ cấp. Nó được sử dụng để xác định tất
cả các kết quả có thể có của một phép thử xác suất.
Ví dụ 4.1.3. Sử dụng biểu đồ cây để xác định không gian mẫu cho giới tính của 3
đứa trẻ trong một gia đình.
Lời giải: Vì có hai khả năng cho mỗi đứa trẻ là: con trai (kí hiệu B) và con gái
(kí hiệu G). Do đó ta có biểu đồ cây như sau:

74
Như vậy, không gian mẫu là: Ω = {BBB, BBG, BGB, BGG, GBB, GBG, GGB, GGG}.
• Biến cố (event): là một tập hợp bao gồm các biến cố sơ cấp của một phép thử
xác suất. Do đó, biến cố là một tập con của không gian mẫu. Một biến cố có thể
bao gồm một hoặc một số phần tử của không gian mẫu. Người ta thường dùng các
chữ cái A, B, ... để ký hiệu cho biến cố. Biến cố bao gồm nhiều hơn một phần tử của
không gian mẫu được gọi là biến cố phức hợp (compound event). Chẳng hạn, biến
cố xuất hiện mặt chấm lẻ trong phép thử gieo một con súc sắc là một biến cố phức
hợp.

4.1.2 Xác suất cổ điển

Xác suất cổ điển được sử dụng trong trường hợp phép thử chỉ có một sô hữu hạn
các kết quả có thể có và các kết quả này đồng khả năng, nghĩa là khi tiến hành phép
thử, các biến cố sơ cấp có khả năng xuất hiện như nhau.
Định nghĩa 4.1.1. Cho một phép thử có không gian mẫu Ω có hữu hạn các biến cố
sơ cấp đồng khả năng xảy ra. Khi đó, xác suất của biến cố E , ký hiệu là P (E), được
xác định:
n(E)
P (E) = ,
n(Ω)
trong đó, n(E) là số phần tử của biến cố E , n(Ω) là số phần tử của không gian mẫu
Ω.
Ví dụ 4.1.4. Tìm xác suất để rút được một con át màu đỏ khi tiến hành rút một
thẻ ngẫu nhiên từ một bộ bài tú lơ khơ.
75
Gọi E là biến cố "rút được thẻ bài con át màu đỏ".
Vì có 2 con át màu đỏ (cụ thể là một con át rô và một con át cơ) trong 52 con
bài của một bộ bài tú lơ khơ. Do đó, n(E) = 2, n(Ω) = 52, khi đó:
2 1
P (E) = = .
52 26
Ví dụ 4.1.5. Giả sử một gia đình có ba đứa trẻ. Hãy tìm xác suất mà hai trong ba
đứa trẻ đó là bé gái?
Không gian mẫu là giới tính cho ba đứa trẻ, tức là
Ω = {BBB, BBG, BGB, BGG, GBB, GBG, GGB, GGG}

Gọi E là biến cố "hai trong ba đứa trẻ là bé gái".


Ta có: E = {BGG, GBG, GGB}, dó đó n(E) = 3, n(Ω) = 8. Khi đó, xác suất để hai
3
trong ba đứa trẻ là bé gái là: P (E) = .
8
Ví dụ 4.1.6. Thực hiện phép thử gieo một con súc sắc, nếu ta quan tâm đến kết
quả mặt bao nhiêu chấm xuất hiện thì không gian mẫu là Ω = {1, 2, 3, 4, 5, 6}. Ta gọi
A là biến cố "số chấm xuất hiện là 8", biến cố B là " số chấm xuất hiện nhỏ hơn hoặc
bằng 7". Khi đó dễ thấy rằng, P (A) = 0 và P (B) = 1.
Nhận xét 4.1.1. Bốn quy tắc cơ bản của xác suất:

1. Xác suất của một biến cố E bất kỳ luôn có 0 ≤ P (E) ≤ 1.


2. Biến cố bất khả, kí hiệu ∅, là biến cố không bao giờ xảy ra khi thực hiện phép
thử. Khi đó P (∅) = 0.
3. Biến cố tất yếu, kí hiệu Ω, là biến cố luôn xảy ra khi thực hiện phép thử. Khi
đó P (Ω) = 1.
4. Tổng các xác suất của tất cả các biến cố sơ cấp của một phép thử luôn bằng 1.

4.1.3 Biến cố đối

Định nghĩa 4.1.2. Biến cố đối (hay phần bù) của một biến cố E là tập hợp các kết
quả của không gian mẫu mà không chứa trong E . Biến cố đối của biến cố E được ký
hiệu là E .
Ví dụ 4.1.7. Tìm biến cố đối của các biến cố sau.

a. Gieo một con súc sắc và được mặt 4 chấm xuất hiện.
b. Chọn một chữ cái trong bảng chữ cái và lấy ra được một nguyên âm.
c. Chọn một tháng (tiếng anh) và được một tháng bắt đầu bằng chữ J.
d. Chọn một ngày trong tuần và được một ngày thường của tuần.

Lời giải: Biến cố đối của các biến cố là:

a. Biến cố nhận được mặt chấm 1, 2, 3, 5, 6.


76
b. Biến cố chọn được một phụ âm.
c. Biến cố chọn được các tháng February, March, April, May, August, September,
October, November hoặc December.
d. Biến cố chọn được ngày thứ bảy và chủ nhật.

Với một biến cố E bất kỳ, thì biến cố đối E và biến cố E hợp thành toàn bộ không
gian mẫu nên tổng xác suất của E và E luôn bằng 1. Do đó ta có công thức:

Với E là một biến cố bất kỳ ta luôn có:

P (E) = 1 − P (E); P (E) = 1 − P (E); P (E) + P (E) = 1.

Ví dụ 4.1.8. Nếu xác suất mà một người đang sống ở một nước công nghiệp hóa
trên thế giới là 51 thì hãy tìm xác suất mà một người không sống ở một nước công
nghiệp hóa.
Gọi A là biến cố "một người đang sống ở một nước công nghiệp hóa". Khi đó dễ
thấy A là biến cố "một người không sống ở một nước công nghiệp hóa". Do đó, ta có:
1 4
P (A) = 1 − P (A) = 1 − = .
5 5
Ví dụ 4.1.9. Một trò chơi được chơi bằng cách rút ra 4 con bài từ một bộ bài bình
thường (hoàn lại sau mỗi thẻ được rút). Tính xác suất để được ít nhất một con A lấy
ra.
Lời giải:
Gọi A là biến cố "có ít nhất một con A được lấy ra". Khi đó A là biến cố "không
có con A nào được lấy ra". Ta có:
48 48 48 48
P (A) = . . . ≈ 0.27.
52 52 52 52
Ví dụ 4.1.10. Tung một đồng xu 5 lần. Tính xác suất để có ít nhất một lần mặt
ngửa.

77
4.1.4 Xác suất thực nghiệm (empirical probability )

Sự khác biệt giữa xác suất cổ điển và xác suất thực nghiệm là xác suất cổ điển
được giả thiết các biến cố sơ cấp phải đồng khả năng, trong khi xác suất thực nghiệm
dựa vào kinh nghiệm thực tế để xác định khả năng xảy ra của các biến cố sơ cấp, tức
là các biến cố sơ cấp không đồng khả năng. Chẳng hạn, trong xác suất thực nghiệm
người ta có thể gieo một con súc sắc đến 6000 lần để quan sát các tần số khác nhau
và sử dụng những tần số này để xác định xác suất của một biến cố sơ cấp.
Định nghĩa 4.1.3. Cho một phân bố tần số, xác suất của một biến cố trong một
lớp nhất định được xác định:
f
P (E) = ,
n
trong đó, f là tần số của lớp chứa biến cố, n là tổng tần số trong phân bố.
Ví dụ 4.1.11. Cho một mẫu 50 người, với 21 người thuộc nhóm máu O, 22 người
thuộc nhóm máu A, 5 người thuộc nhóm máu B và 2 người thuộc nhóm máu AB.
Thiết lập phân bố tần số và tính xác suất để:
a. Một người có nhóm máu O.
b. Một người có nhóm máu A hoặc nhóm máu B.
c. Một người không phải là nhóm máu A cũng không là nhóm máu O.
d. Một người không phải là nhóm máu AB.
Lời giải:

Loại máu Tần số


A 22
B 5
AB 2
O 21
Tổng 50
21
a. Gọi A là biến cố "người có nhóm máu O". Khi đó: P (A) =
50
b. Gọi B là biến cố "người có nhóm máu A hoặc B". Khi đó, ta có n(B) = 22+5 = 27,
do đó:
n(B) 22 + 5 27
P (B) = = = .
n(Ω) 50 50
c. Gọi C là biến cố "người không phải là nhóm máu A cũng không là nhóm máu
O". Khi đó, ta có n(C) = 5 + 2 = 7, do đó:
n(C) 7
P (C) = = .
n(Ω) 50

d. Gọi D là biến cố "người không phải nhóm máu AB". Khi đó biến cố D là biến
cố "người có nhóm máu AB".
2 24
Ta có: P (D) = , do đó P (D) = 1 − P (D) = .
50 25
78
Ví dụ 4.1.12. Hồ sơ bệnh viện ghi lại số ngày lưu lại bệnh viện của các bệnh nhân
sinh được thể hiện trong phân phối sau:

Số ngày lưu lại Tần số


3 15
4 32
5 56
6 19
7 5
127

Tìm xác suất biết rằng:

a. Một bệnh nhân lưu lại đúng 5 ngày.


b. Một bệnh nhân lưu lại dưới 6 ngày.
c. Một bệnh nhân lưu lại nhiều nhất là 4 ngày.
d. Một bệnh nhân lưu lại ít nhất 5 ngày.

Lời giải:

a. Gọi A là biến cố "Một bệnh nhân lưu lại đúng 5 ngày".


56
Khi đó: P (A) = .
127
b. Gọi B là biến cố " Một bệnh nhân lưu lại dưới 6 ngày".
103
Khi đó, ta có n(B) = 15 + 32 + 56 = 103, do đó P (B) = .
127
c. Gọi C là biến cố " Một bệnh nhân lưu lại nhiều nhất là 4 ngày".
47
Khi đó, ta có n(C) = 15 + 32 = 47, do đó P (C) = .
127
d. Gọi D là biến cố "Một bệnh nhân lưu lại ít nhất 5 ngày".
80
Khi đó, ta có n(D) = 56 + 19 + 5 = 80, do đó P (D) = .
127

4.1.5 Luật số lớn

Khi tung một đồng xu một lần, thông thường người ta biết rằng xác suất xuất
hiện mặt ngửa là 12 . Nhưng điều gì sẽ xảy ra nếu ta tung đồng xu 50 lần? Liệu rằng
nó sẽ suất hiện 25 lần mặt ngửa hay không? Bạn mong đợi rằng khoảng 25 lần xuất
hiện mặt ngửa nếu các đồng xu là công bằng. Nhưng sự thay đổi cơ hội của các đồng
xu nên không phải hầu hết lúc nào cũng xuất hiện 25 lần mặt ngửa.
Nếu xác suất thực nghiệm nhận đươc bằng cách sử dụng ít giá trị thử nghiệm thì
nó thường không chính xác là 12 . Tuy nhiên khi số lượng thử nghiệm tăng lên thì xác
suất xuất hiện mặt ngửa sẽ xấp xỉ xác suất lý thuyết là 12 , nếu đồng xu là công bằng
(tức là cân đối). Hiện tượng này là một ví dụ cho luật số lớn.

79
4.1.6 Xác suất chủ quan

Xác suất chủ quan của một biến cố là mức độ tin tưởng của một cá nhân vào khả
năng xảy ra của biến cố đó.
Xác suất chủ quan của một biến cố được dùng khi biến cố đó chỉ có một cơ hội
xảy ra và nó có thể xảy ra hoặc không xảy ra ở một thời điểm khác.
Chẳng hạn: Một vận động viên có thể nói rằng xác suất để giành được chiến thắng
trong năm tới của mình là 70%. Một nhà địa chất học có thể đưa ra rằng xác suất để
xảy ra một trận động đất ở một khu vực nhất định sẽ là 80%.

4.2 Quy tắc cộng xác suất

Định nghĩa 4.2.1. Phép cộng biến cố: Tổng của hai biến cố A và B là một biến
cố xảy ra khi và chỉ khi có ít nhất một trong hai biến cố A hoặc B xảy ra, ký hiệu
A + B (hoặc A ∪ B ).

Định nghĩa 4.2.2. Phép nhân biến cố: Tích của hai biến cố A và B là một biến
cố xảy ra khi đồng thời xảy ra cả A và B , kí hiệu A.B (hoặc A ∩ B ).

Định nghĩa 4.2.3. Phép hiệu biến cố: Hiệu của hai biến cố A và B là một biến
cố xảy ra khi biến cố A xảy ra nhưng B không xảy ra, kí hiệu A\B .

80
Định nghĩa 4.2.4. Biến cố xung khắc: Hai biến cố A và B được gọi là xung khắc
với nhau nếu A và B không đồng thời xảy ra khi thực hiện phép thử.

Ví dụ 4.2.1. Xét phép thử gieo một con súc sắc. Xét các biến cố sau:
A là biến cố "con súc sắc xuất hiện mặt chấm lẻ".
B là biến cố "con súc sắc xuất hiện mặt chấm chẵn".
C là biến cố" con súc sắc xuất hiện mặt 3 chấm".
D là biến cố" con súc sắc xuất hiện có số chấm lớn hơn 4".
Khi đó: các cặp biến cố sau xung khắc với nhau: A và B ; B và C ; C và D.
Định lý 4.2.1. Cho hai biến cố A và B xung khắc nhau. Khi đó, xác suất của biến
cố tổng A + B được xác định:

P (A + B) = P (A) + P (B).

Ví dụ 4.2.2. Một hộp chứa 3 viên bi màu xanh, 4 viên bi màu đỏ và 5 viên bi màu
vàng. Chọn ngẫu nhiên một viên bi từ hộp. Tính xác suất của các biến cố sau:

a. Chọn được viên bi màu đỏ.


b. Chọn được viên bi màu xanh.
c. Chọn được viên bi màu đỏ hoặc xanh.

Lời giải:

a. Gọi A là biến cố "chọn được viên bi màu đỏ". Khi đó


n(A) 4 1
P (A) = = = .
n(Ω) 12 3

81
b. Gọi B là biến cố "chọn được viên bi màu xanh". Khi đó
3 1
P (B) = = .
12 4
c. Biến cố "chọn được viên bi màu đỏ hoặc xanh" là biến cố A + B . Mà hai biến cố
A và B xung khắc với nhau, do đó:
1 1 7
P (A + B) = P (A) + P (B) = + = .
3 4 12
Trong trường hợp hai biến cố A và B không xung khắc nhau, ta có:

n(A + B)
P (A + B) =
n(Ω)
n(A) + n(B) − n(A.B)
=
n(Ω)
=P (A) + P (B) − P (A.B).

Như vậy, với hai biến cố A và B không xung khắc


nhau thì
P (A + B) = P (A) + P (B) − P (A.B).
Ví dụ 4.2.3. Rút một con bài từ bộ bài tú lơ khơ.
Tính xác suất của biến cố rút được con bài A hoặc con bài màu đen?
Lời giải:
Gọi A là biến cố "rút được con bài A", B là biến cố "rút được con bài màu đen".
Rõ ràng hai biến cố A và B không xung khắc nhau do đó:
P (A + B) =P (A) + P (B) − P (A.B)
4 26 2
= + −
52 52 52
7
= .
13
Ví dụ 4.2.4. Trong một đơn vị của một bệnh viện có 8 y tá và 5 bác sĩ trong đó có
7 ý tá là nữ, 3 bác sĩ là nữ. Nếu chọn ngẫu nhiên một người từ đơn vị này thì xác
suất để chọn được y tá hoặc nam giới là bao nhiêu?
Lời giải:
Không gian mẫu được thể hiện trong bảng sau:
Nhân viên Nữ Nam Tổng
Y tá 7 1 8
Bác sĩ 3 2 5
Tổng 10 3 13

Gọi A là biến cố "chọn được y tá", B là biến cố "chọn được nam". Khi đó:
P (A + B) =P (A) + P (B) − P (A.B)
8 3 1 10
= + − = .
13 13 13 13
82
Một cách tổng quát, quy tắc cộng xác suất có thể mở rộng cho 3 hay nhiều biến
cố.

Với ba biến cố A, B, C xung khắc nhau từng đôi một thì:

P (A + B + C) = P (A) + P (B) + P (C).

Với ba biến cố A, B, C bất kỳ thì:

P (A + B + C) = P (A) + P (B) + P (C) − P (A.B) − P (A.C) − P (B.C) + P (A.B.C).

4.3 Quy tắc nhân xác suất và xác suất có điều kiện

4.3.1 Quy tắc nhân xác suất

Định nghĩa 4.3.1.


• Hai biến cố A và B được gọi là độc lập nhau nếu sự xảy ra hay không xảy ra của
biến cố này không làm thay đổi xác suất của biến cố kia.
• Các biến cố A1 , A2 , ..., An được gọi là độc lập từng đôi nếu mỗi đôi bất kỳ trong n
biến cố ấy độc lập với nhau.
• Các biến cố A1 , A2 , ..., An được gọi là độc lập trong toàn bộ nếu mỗi biến cố bất kỳ
trong chúng độc lập với giao một số bất kỳ các biến cố còn lại.
Ví dụ 4.3.1.
a. Gieo một con súc sắc hai lần. Gọi A là biến cố "con súc sắc xuất hiện mặt chấm 6
trong lần gieo thứ nhất", B là biến cố "con súc sắc xuất hiện mặt chấm 3 trong lần
gieo thứ hai". Vì việc xuất hiện mặt chấm 6 hay mặt chấm 3 của mỗi lần gieo không
ảnh hưởng đến nhau nên hai biến cố A và B độc lập nhau.
b. Lấy lần lượt hai viên bi (không hoàn lại) từ một hộp chứa 10 viên bi giống nhau
gồm: 4 trắng và 6 đỏ. Gọi A là biến cố "lấy được viên bi trắng trong lần lấy thứ
nhất", B là biến cố "lấy được viên bi đỏ trong lần lấy thứ hai". Khi đó, hai biến cố
A và B không độc lập với nhau.
Định lý 4.3.1. Với hai biến cố A và B độc lập với nhau, khi đó xác suất của biến cố
tích được xác định:
P (AB) = P (A).P (B).
Ví dụ 4.3.2. Tung một đồng xu và gieo một con súc sắc một cách độc lập nhau.
Tính xác suất để đồng tiền xuất hiện mặt ngửa và con súc sắc xuất hiện mặt chấm
4?
Lời giải:
Gọi A là biến cố đồng tiền xuất hiên mặt ngửa, B là biến cố con súc sắc xuất
hiện mặt chấm 4. Ta có: P (A) = 21 và P (B) = 16 . Hai biến cố này độc lập nhau nên
xác suất để đồng tiền xuất hiện mặt ngửa và con súc sắc xuất hiện mặt chấm 4 là:
P (AB) =P (A).P (B)

83
1 1 1
= . = .
2 6 12
Ví dụ 4.3.3. Hai người đi săn bắn đồng thời và không phụ thuộc nhau vào con mồi.
Con mồi bị hạ nếu có ít nhất một người bắn trúng. Xác suất để con mồi bị hạ là bao
nhiêu? Biết rằng xác suất bắn trúng của người thứ nhất là 0,7 và người thứ hai là
0,75.
Lời giải:
Gọi biến cố A: "người thứ nhất bắn trúng",
B : "người thứ hai bắn trúng",
C : "con mồi bị hạ". Khi đó C = A + B .
Vì A và B độc lập nhau nên ta có
P (AB) = P (A).P (B) = 0, 7.0, 75 = 0, 525.

Khi đó:
P (C) =P (A) + P (B) − P (AB)
=0, 7 + 0, 75 − 0, 525 = 0, 925.

Một cách tổng quát quy tắc nhân xác suất cho n biến cố.

Giả sử A1 , A2 , ..., An độc lập trong toàn bộ. Khi đó:

P (A1 A2 ...An ) = P (A1 ).P (A2 )...P (An ).

4.3.2 Xác suất có điều kiện

Phần trên, khi xét sự xuất hiện của biến cố A, ngoài điều kiện của phép thử chúng
ta không có điều kiện nào khác. Tuy nhiên trong nhiều trường hợp người ta nghiên
cứu khả năng xuất hiện của biến cố A khi biết trước một biến cố B nào đó đã xảy
ra. Chẳng hạn, trong một mùa khuyến mãi của một công ty, có 10 người được rút
10 cái thăm để nhận giải thưởng (có 2 giải thưởng). Trước lúc rút thăm, xác suất để
anh A (cũng như anh B) có cơ hội trúng giải đều bằng 15 . Bây giờ nếu giả sử trước
khi anh A rút thăm, anh B đã rút được thăm có giải thì để anh A rút được thăm có
giải là 91 . Như vậy, sự xuất hiện của biến cố B (anh B rút được giải thưởng) đã làm
thay đổi khả năng rút được giải thưởng của anh A.
Định nghĩa 4.3.2. Xác suất của biến cố A được tính với giả thiết biến cố B đã xảy
ra được gọi là xác suất có điều kiện của biến cố A đối với điều kiện B . Kí hiệu P (A|B).
Định lý 4.3.2. Với hai biến cố A và B không độc lập nhau ta có:
P (AB) = P (A).P (B|A).

Ví dụ 4.3.4. Công ty Bảo hiểm Toàn cầu cho thấy 53% cư dân của một thành phố
có bảo hiểm nhà ở với công ty. Trong số những khách hàng này, 27% cũng có bảo
hiểm ô tô với công ty. Nếu một người của thành phố này được lựa chọn một cách
ngẫu nhiên, hãy tìm xác suất mà người đó có cả bảo hiểm nhà ở và bảo hiểm ô tô với
Công ty Bảo hiểm Toàn cầu.
84
Lời giải:
Gọi biến cố A: "người có bảo hiểm nhà ở", B : "người có bảo hiểm ô tô". Khi đó
P (AB) =P (A).P (B|A)
=0, 53.0, 27 = 0, 1431.

Một cách tổng quát ta cũng có thể mở rộng định lý trên cho nhiều biến cố, chẳng
hạn:

Với ba biến cố A, B, C ta có:

P (ABC) = P (A).P (B|A).P (C|AB).

Ví dụ 4.3.5. Rút lần lượt ba con bài từ một bộ bài tú lơ khơ. Tính xác suất của các
biến cố sau:

a. Rút được 3 con J.


b. Rút được A, K và Q theo thứ tự.
c. Rút được 1 con chuồng, 1 con cơ và 1 con bích theo thứ tự.
d. Rút được cả ba con chuồng.

Lời giải:

a. Gọi Ai là biến cố "rút được con J ở lần rút thứ i (i = 1, 2, 3)". Khi đó, A1 A2 A3 là
biến cố "rút được cả ba con J trong ba lần rút". Ta có:
P (A1 A2 A3 ) =P (A1 ).P (A2 |A1 ).P (A3 |A1 A2 )
4 3 2 1
= . . = .
52 51 50 15525

b. Gọi các biến cố B1 : "rút được con A", B2 "rút được con K", B3 : "rút được con
Q". Khi đó:
P (B1 B2 B3 ) =P (B1 ).P (B2 |B1 ).P (B3 |B1 B2 )
4 4 4 8
= . . =
52 51 50 16575

c. Gọi các biến cố C1 : "rút được con chuồng", C2 : "rút được con cơ", C3 : "rút được
con bích". Khi đó:
P (C1 C2 C3 ) =P (C1 ).P (C2 |C1 ).P (C3 |C1 C2 )
13 13 13 169
= . . = .
52 51 50 10200

d. Gọi Di là biến cố "rút được con chuồng ở lần rút thứ i (i = 1, 2, 3)". Khi đó:
P (D1 D2 D3 ) =P (D1 ).P (D2 |D1 ).P (D3 |D1 D2 )
13 12 11 11
= . . = .
52 51 50 850
85
Từ định lý 4.3.2 ta có công thức tính xác xuất có điều kiện của một biến cố như
sau:

Xác suất có điều kiện của biến cố A đối với điều kiện B được xác định như sau:
P (AB)
P (A|B) = .
P (B)

Ví dụ 4.3.6. Trong một cuộc khảo sát 100 người về việc họ nghĩ phụ nữ trong lực
lượng vũ trang có được phép tham gia vào chiến đấu hay không. Kết quả khảo sát
được trình bày ở bảng sau:

Giới tính Được phép Không được phép Tổng


Nam 32 18 50
Nữ 8 42 50
Tổng 40 60 100

a. Biết rằng người được khảo sát là nữ, tính xác suất để người đó đưa ra câu trả
lời là được phép.
b. Biết rằng người được khảo sát đưa ra câu trả lời không được phép, tính xác suất
để người đó là nam giới.

Lời giải:
Gọi các biến cố:
A: "người được khảo sát là nam", B : " người được khảo sát là nữ"
C : "người đưa ra câu trả lời được phép", D: "người đưa ra câu trả lời không được phép".

8
P (CB) 4
a. P (C|B) = = 100 = .
P (B) 50 25
100

86
18
P (AD) 3
b. P (A|D) = = 100 = .
P (D) 60 10
100

4.4 Các quy tắc đếm

Trong nhiều trường hợp ta cần phải biết tất cả các kết quả có thể xảy ra của một
dãy các biến cố. Để xác định số này, ba quy tắc có thể được sử dụng là: Các quy tắc
đếm cơ bản, quy tắc hoán vị và quy tắc tổ hợp. Trong phần này, sẽ đi tìm hiểu các
quy tắc này và nó sẽ được sử dụng trong phần tiếp theo để tính xác suất của các biến
cố.

4.4.1 Các quy tắc đếm cơ bản

Trong một dãy n biến cố A1 , A2 , ..., An , trong đó biến cố Ai có ki khả năng xảy ra.
Khi đó số khả năng để dãy biến cố này xảy ra là:

k1 .k2 .k3 ...kn

Ví dụ 4.4.1. Tung một đồng xu và gieo một con súc sắc. Tìm số các kết quả của
dãy hai biến cố.

Lời giải:
Vì đồng xu có 2 khả năng xảy ra (sấp hoặc ngửa) và con súc sắc có 6 khả năng
xảy ra (mặt chấm 1 đến chấm 6). Do đó số các kết quả của dãy hai biến cố là 2.6 = 12.
Ví dụ 4.4.2. Một nhà sản xuất sơn muốn sản xuất một số loại sơn khác nhau. Các
danh mục bao gồm:
Màu: đỏ, lục, trắng, đen, lam, nâu, vàng.
87
Thể loại: nước, dầu.
Kết cấu bề mặt: mịn, nhẵn, nhám.
Cách sử dụng: ngoài trời, trong nhà.
Có bao nhiêu loại sơn khác nhau được tạo ra nếu bạn có thể kết hợp một màu, một
thể loại, một kết cấu bề mặt và một cách sử dụng?

Công thức giai thừa: Với một số nguyên dương bất kỳ, ta có:

n! = n(n − 1)(n − 2)...2.1

Quy ước: 0! = 1
Chẳng hạn:

5! = 5.4.3.2.1
9! = 9.8.7.6.5.4.3.2.1
9! = 9.8.7.6.5!

Hoán vị là sự sắp xếp n phần tử theo một thứ tự nhất định.


Ví dụ 4.4.3. Có bao nhiêu cách sắp xếp 5 người vào một băng ghế dài có 5 chỗ ngồi?
Lời giải:
Sắp xếp 5 người vào ngồi một băng ghế dài có 5 chỗ ngồi là một hoán vị 5 phần tử.
Do đó, số cách sắp xếp là
5! = 120.

Ví dụ 4.4.4. Giả sử một chủ doanh nghiệp có 5 địa điểm để thành lập doanh nghiệp
của mình. Cô quyết định xếp từng vị trí theo các tiêu chí nhất định, chẳng hạn như
giá của cửa hàng và các phương tiện đỗ xe. Có bao nhiêu cách khác nhau để xếp 5
địa điểm trên?
Lời giải:
Số cách khác nhau để xếp 5 địa điểm trên là

5! = 120.

4.4.2 Các khái niệm cơ bản về giải tích tổ hợp


Chỉnh hợp

Mỗi bộ r phần tử có kể thứ tự được lấy không lặp từ tập n phần tử (1 ≤ r ≤ n)


gọi là một chỉnh hợp chập r của n phần tử đã cho.
Kí hiệu số các chỉnh hợp chập r của n phần tử là Pnr và công thức xác định là:
n!
Pnr = .
(n − r)!

Ví dụ 4.4.5. Một đạo diễn âm nhạc học đường có thể chọn 2 vở kịch âm nhạc để
trình diễn vào năm tới, một sẽ được diễn vào thu và một sẽ được diễn vào mùa xuân.

88
Nếu đạo diễn có đến 9 vở kịch âm nhạc thì có bao nhiêu khả năng chọn vở kịch diễn
vào năm tới?
Lời giải:
Vì một vở kịch được diễn vào mùa thu và một vở kịch khác được diễn vào mùa
xuân nên cách chọn ở đây là có thứ tự nên số khả năng chọn sẽ là:
9!
P92 = = 72.
(9 − 2)!

Tổ hợp

Mỗi bộ r phần tử (1 ≤ r ≤ n) không kể đến thứ tự, được lấy bằng phép lấy không
lặp từ tập n phần tử được gọi là một tổ hợp chập r của n phần tử đã cho.
Kí hiệu số các tổ hợp chập r của n phần tử là Cnr và công thức xác định là:
n!
Cnr = .
k!(n − r)!

Ví dụ 4.4.6. Một câu lạc bộ gồm 7 nữ và 5 nam. Cần thành lập một ban chấp hành
gồm 3 nữ và 2 nam. Có bao nhiêu cách khác nhau để thành lập ban chấp hành đó?
Lời giải:
Có C73 cách chọn 3 nữ trong 7 nữ, có C52 cách chọn 2 nam trong 5 nam. Vậy số
cách chọn 3 nữ và 2 nam để thành lập ban chấp hành là:
7! 5!
C73 .C52 = . = 350.
4!.3! 2!.3!

4.4.3 Xác suất và quy tắc đếm

Các quy tắc đếm có thể được kết hợp với các quy tắc xác suất trong phần này
để giải quyết nhiều bài toán xác suất. Bằng cách sử dụng quy tắc đếm cơ bản, các
quy tắc hoán vị và quy tắc tổ hợp, bạn có thể tính được xác suất của các biến cố liên
quan đến phép thử xác suất.
Ví dụ 4.4.7. Tìm xác suất để chọn ra được 4 quân bài trong đó có 2 quân K từ bộ
52 quân bài?
Lời giải: Số cách lấy 4 quân bài trong 52 quân bài là
4
n(Ω) = C52 .

Gọi A là biến cố "chọn được 2 quân K trong 4 quân bài được chọn". Số trường
hợp thuận lợi cho biến cố A là:

n(A) = C42 .C48


2
.

Vậy xác suất để chọn ra được 4 quân bài trong đó có 2 quân K là:
n(A) 6768
P (A) = = .
n(Ω) 270275

89
Ví dụ 4.4.8. Một cái hộp chứa 24 cái điện trở trong đó có 4 các bị hỏng. Chọn 4 cái
ngẫu nhiên từ hộp, hãy tính xác suất để:

a. chọn được đúng 2 cái hỏng,


b. chọn không có cái nào hỏng,
c. chọn được tất cả đều hỏng,
d. chọn được ít nhất một cái hỏng.

Lời giải: Số cách chọn ngẫu nhiên 4 cái điện trở từ hộp đã cho là:
4
n(Ω) = C24 = 10626.

a. Gọi A là biến cố chọn được đúng hai cái bị hỏng trong 4 cái được chọn. Số trường
hợp thuận lợi cho A là:
2
n(A) = C42 .C20 = 1140.

Xác suất để chọn được đúng 2 cái hỏng trong 4 cái được chọn là:
n(A) 1140 190
P (A) = = = .
n(Ω) 10626 1771

b. Gọi B là biến cố chọn không có cái bị hỏng trong 4 cái được chọn. Số trường hợp
thuận lợi cho B là:
4
n(B) = C20 = 4845.

Xác suất để chọn không có cái nào hỏng trong 4 cái được chọn là:
n(B) 4845 1516
P (B) = = = .
n(Ω) 10626 3542

c. Gọi C là biến cố chọn được tất cả đều hỏng trong 4 cái được chọn. Số trường
hợp thuận lợi cho C là:
n(C) = C44 = 1.

Xác suất để chọn được tất cả đều hỏng trong 4 cái được chọn là:
n(C) 1
P (C) = = .
n(Ω) 10626

d. Gọi D là biến cố chọn được ít nhất một cái bị hỏng trong 4 cái được chọn. Khi
đó, D = B .
Vì vậy, xác suất để chọn được ít nhất một cái hỏng trong 4 cái được chọn là:
1516 1927
P (D) = 1 − P (B) = 1 − = .
3542 3542
Ví dụ 4.4.9. Một bộ khóa để mở một ổ khóa gồm 3 kí tự được lấy từ bộ 26 chữ cái
tiếng anh. Tìm xác suất để mở được khóa. Lưu ý rằng một chữ cái có thể xuất hiện
hơn 1 lần trong một bộ khóa và chỉ có một bộ khóa để mở được ổ khóa.

90
Lời giải: Vì được phép lặp lại các kí tự trong một bộ khóa nên số các bộ khóa
gồm 3 kí tự có thể được thành lập là:

n(Ω) = 26.26.26 = 17576.

Gọi A là biến cố chọn được bộ khóa mở được ổ khóa. Ta có n(A) = 1.


Vậy xác suất để mở được ổ khóa là:
n(A) 1
P (A) = = .
n(Ω) 17576

91
Phần bài tập chương 4

1. Gieo một con súc sắc cân đối đồng chất, tìm xác suất nhận được:
a. mặt chấm 5.
b. mặt có số chấm lớn hơn 2.
c. mặt có số chấm lẻ.
2. Rút ngẫu nhiên một lá bài từ bộ bài 52 con, tìm xác suất để nhận được:
a. một con chuồng.
b. một con hình hoặc một con cơ.
c. một con 6 hoặc một con bích.
d. một con K.
e. một con ba đỏ.
3. Nhóm 10 phần mềm máy tính bán chạy nhất gồm có 3 phần mềm đóng thuế, 5
phần mềm chống vi rút và 2 phần mềm cho chương trình khác. Chọn ngẫu nhiên
một phần mềm máy tính trong 10 phần mềm.
a. Xác suất mà phần mềm được chọn không phải là phần mềm đóng thuế.
b. Xác suất mà phần mềm được chọn là phần mềm đóng thuế hoặc là một phần
mềm cho chương trình khác.
4. Một con súc sắc có sáu mặt được in bằng các số 1, 2, 3, 5, 8 và 13. Gieo con súc
sắc một lần, tìm xác suất nhận được một số lẻ là bao nhiêu? Gieo con súc sắc
hai lần, tìm xác suất để tổng hai số xuất hiện trên con súc sắc trong hai lần gieo
là một số lẻ?
5. Một cuộc khảo sát gần đây chỉ ra rằng ở một thị trấn có 1500 hộ gia đình trong
đó có 850 hộ có điện thoại di động. Chọn ngẫu nhiên một hộ gia đình trong thị
trấn này, hãy tìm xác suất mà hộ được chọn có điện thoại di động.
6. Trong một cửa hàng có 16 chiếc áo len màu trắng, 3 chiếc áo len màu đỏ, 9 chiếc
áo len mà xanh và 7 chiếc áo len màu vàng. Nếu khách hàng được lựa chọn ngẫu
nhiên thì hãy tìm xác suất để:
a. mua được chiếc áo len màu xanh.
b. mua được chiếc áo len mùa vàng hoặc màu trắng.
c. mua được chiếc áo len màu đỏ, xanh hoặc vàng.
d. mua được chiếc áo len không phải màu trắng.
7. Một cửa hàng cho thuê xe tiết kiệm. Biết rằng xác suất mà một xe có điều hòa
là 0.5, xác suất một chiếc xe có máy nghe nhạc là 0.37 và xác suất mà một chiếc
xe vừa có cả điều hòa và máy nghe nhạc là 0.06. Xác suất mà một chiếc xe được
lựa chọn ngẫu nhiên mà nó không có điều hòa và cũng không có máy nghe nhạc
là bao nhiêu?
8. Trong một cái hộp đựng 3 quả cầu đỏ, 2 quả cầu xanh và 5 quả cầu trắng. Lấy
lần lượt 2 quả cầu từ hộp (có hoàn lại). Tính xác suất để:
92
a. Chọn được cả hai quả cầu màu xanh.
b. Chọn được một quả cầu màu xanh và sau đó một quả cầu màu trắng.
c. Chọn được một quả cầu màu đỏ và sau đó một quả cầu màu xanh.
9. Gieo hai con súc sắc, tìm xác sất để:
a. tổng số chấm xuất hiện trong hai lần gieo là 5 hoặc 6.
b. tổng số chấm xuất hiện trong hai lần gieo lớn hơn 9.
c. tổng số chấm trong hai lần gieo nhỏ hơn 4 hoặc lớn hơn 9.
d. tổng số chấm trong hai lần gieo là 14.
e. tổng số chấm trong hai lần gieo nhỏ hơn 13.
10. Xác suất mà một người sở hữu một chiếc xe là 0.8, xác suất một người sở hữu
một chiếc thuyền là 0.3, xác suất để một người sở hữu cả xe và thuyền là 0.12.
Tìm xác suất mà một người sở hữu một chiếc xe hoặc một chiếc thuyền.
11. Xác suất mua xe mới của John là 0.39, của Mary là 0.73 và xác suất mà cả hai
sẽ mua xe mới là 0.36. Tìm xác suất mà cả hai không mua chiếc xe mới.
12. Có 1 trong 6 sinh viên Đại học theo học ít nhất một khóa học trực tuyến vào
mùa thu nắm ngoái. Chọn ngẫu nhiên 5 học sinh theo học. Tìm xác suất mà:
a. cả 5 sinh viên đều theo học khóa trực tuyến.
b. không có ai theo học khóa học trực tuyến.
c. có ít nhất 1 sinh viên đã tham gia khóa học trực tuyến.
13. Trong số người Mỹ sử dụng dịch vụ thư viện, có 67% số người mượn sách. Nếu
lựa chọn ngẫu nhiên 5 khách hàng quen thì xác suất để tất cả đều mượn sách là
bao nhiêu? Không có ai mượn sách là bao nhiêu?
14. Rút lần lượt 3 con bài từ một bộ bài 52 con không hoàn lại. Tìm xác suất để:
a. cả ba con đều màu đen.
b. cả ba con đều là con bích.
c. cả ba con đều là con Q.
15. Năm nước hàng đầu trong việc phát hành phim trong năm 2009 là Hoa Kỳ với
471 bản phát hành, Vương quốc Anh với 386, Nhật Bản với 79, Đức 316 và Pháp
với 132 bản phát hành. Chọn ngẫu nhiên một bản phát hành trong 5 nước trên.
Tính xác suất để chọn được bản phát hành thuộc:

a. Châu Âu.
b. Hoa Kỳ.
c. Đức hoặc Pháp.
d. Đức biết rằng đã chọn được bản phát hành thuộc Châu Âu.
16. Một công ty sản xuất có ba nhà máy X, Y,Z. Sản lượng hằng ngày của mỗi nhà
máy được cho như sau:

93
Sản phẩm Công ty X Công ty Y Công ty Z
Ti vi 18 32 15
Máy nghe nhạc 6 20 13

Chọn ngẫu nhiên một sản phẩm từ công ty. Hãy tìm các xác suất sau:
a. chọn được sản phẩm của nhà máy X hoặc là chọn được một máy nghe nhạc.
b. chọn được sản phẩm của nhà máy Y hoặc nhà máy Z.
c. chọn được sản phẩm là một cái ti vi hoặc sản phẩm được sản xuất tại nhà
máy Z.
17. Một loại vắc xin có 90% khả năng ngăn ngừa một loại bệnh nhất định. Xác suất
bị bệnh của một người không được tiêm chủng ngừa là 50%. Ở một khu vực nhất
định có 25% người dân được tiêm phòng. Nếu chọn một người trong khu vực đó
một cách ngẫu nhiên thì hãy tìm xác suất mà người đó sẽ mắc bệnh.
18. Một nhà sản xuất đưa ra ba mẫu tivi kí hiệu là A, B và C. Một cửa hàng bán
40% mẫu ti vi A, 40% mẫu B và 20% mẫu C. Trong mẫu ti vi A 3% có âm thanh
stereo, mẫu ti vi B 7% có âm thanh stereo, mẫu ti vi C 9% có âm thanh stereo.
Nếu mua ngẫu nhiên một tivi từ nhà sản xuất này thì hãy tìm xác suất để tivi
có âm thanh stereo.
19. Xác suất mà một người A sẽ sống trong khuôn viên trường và mua một chiếc xe
mới là 0.37. Nếu xác suất người A sống trong khuôn viên trường là 0.73 thì xác
suất để người A mua một chiếc xe mới là bao nhiêu biết rằng người A sống trong
khuôn viên trường?
20. Bốn gói hàng bị mất nhãn vận chuyển và bạn phải đăng kí lại nhãn cho chúng.
Xác suất để gán nhãn đúng cho cả bốn gói hàng là bao nhiêu? Cho ba gói hàng
chính xác là bao nhiêu? Cho hai gói hàng chính xác là bao nhiêu?Cho ít nhất
một gói hàng chính xác là bao nhiêu?
21. Xác suất để tuyết rời và xe buýt đến muộn là 0.023. Dự báo thời tiết báo ngày
mai có 40% khả năng tuyết sẽ rơi. Tìm xác suất ngày mai xe buýt sẽ đến trễ,
biết rằng ngày mai tuyết sẽ rơi.
22. Tại một nhà máy, nhân viên được khảo sát và phân loại theo trình độ học vấn
và xem họ có hút thuốc lá không. Dữ liệu được cho trong bảng sau:

Trình độ học vấn


Thói quen Không tốt nghiệp Tốt nghiệp Tốt nghiệp
hút thuốc trung học trung học đại học
Hút thuốc 6 14 19
Không hút thuốc 18 7 25

Chọn ngẫu nhiên một nhân viên trong nhà máy, hãy tìm xác suất để:
a. nhân viên đó hút thuốc biết rằng nhân viên đó đã tốt nghiệp Đại học.
b. biết rằng nhân viên đó không tốt nghiệp trung học, tìm xác suất để nhân
viên đó có hút thuốc.
94
23. Khoảng 11% dân số là cựu chiến binh. Chọn 5 người dân ngẫu nhiên. Xác suất
để không có cực chiến binh được chọn là bao nhiêu? Xác suất có ít nhất 1 người
là cực chiến binh là bao nhiêu?
24. Có 81% hộ gia đình tại Hoa Kỳ có đầu đĩa DVD. Chọn ngẫu nhiên 6 hộ gia đình
tại Hoa Kỳ. Xác suất chọn được ít nhất một hộ gia đình có đầu đĩa DVD là bao
nhiêu?
25. Bộ y tế và dịch vụ Nhân sinh Hoa Kỳ báo cáo rằng có 15% người Mỹ bị viêm
xoang mạn tính. Chọn 5 người Mỹ một cách ngẫu nhiên, hãy tìm xác suất để có
ít nhất một người bị viêm xoang mạn tính.
26. Biển số xe ôtô tại nước Mỹ bao gồm 3 chữ cái và 4 chữ số. Có bao nhiêu biển
số xe được phép đăng kí nếu cho phép các chữ cái và chữ số được lặp lại? Nếu
không được lặp lại thì bao nhiêu? Nếu các chữ cái được lặp lại những chữ số
không được lặp lại thì bao nhiêu?
27. Có bao nhiêu cách chọn 3 cầu thủ ngoại và 4 cầu thủ nội từ nhóm 5 cầu thủ
ngoại và 7 cầu thủ nội?
28. Có bao nhiêu cách khác nhau để sắp xếp 8 máy tính khác nhau trên một hàng?
29. Có bao nhiêu cách khác nhau để một học sinh lựa chọn 2 môn học tự chọn từ 10
môn học tự chọn?
30. Có bao nhiêu cách khác nhau để chọn ra 4 quân bài trong đó có 2 quân K từ bộ
52 quân bài?
31. Có 6 ứng viên Đảng Cộng hòa, 5 ứng viên Đảng Dân chủ và 4 ứng viên Đảng
Độc lập. Có bao nhiêu cách khác nhau để thành lập một ủy ban gồm 3 Đảng
viên Cộng hòa, 2 Đảng viên Dân chủ và 1 Đảng viên Độc lập.
32. Có bao nhiêu cách khác nhau để sắp xếp 100 bài nhạc trong máy nghe nhạc MP3
theo một thứ tự ngẫu nhiên?
33. Một nhân viên mới có 5 kế hoạch chăm sóc sức khỏe, 3 kế hoạch nghỉ hưu và 2
tài khoản chi phí khác nhau. Nếu một nhân viên mới được chọn 1 trong mỗi lựa
chọn thì người đó có bao nhiêu tùy chọn khác nhau?
34. Có 12 sinh viên muốn tham gia vào một khóa học cụ thể nào đó. Trong lớp chỉ
còn lại 4 chỗ. Có bao nhiêu lựa chọn 4 học sinh để tham gia vào lớp học?
35. Có bao nhiêu cách lựa chọn khác nhau để chọn 3 loại kẹo trong cửa hàng, biết
rằng cửa hàng có 13 loại kẹo khác nhau?
36. Có 50 cái kẹo khác nhau chia cho 5 người. Có bao nhiêu cách chia sao cho người
nào cũng có kẹo?
37. Nếu một học sinh có thể chọn 1 trong 3 môn học ngoại ngữ, 1 trong 5 môn học
toán và 1 trong 4 môn học lịch sử thì có thể lập được bao nhiêu phương án khác
nhau cho học sinh đó?

95
38. Một biển số xe được phát hành với 3 chữ cái và 4 chữ số. Có bao nhiêu biển số
xe được cấp phép? Nếu các biển số xe được phát hành một cách ngẫu nhiên thì
xác suất mà biển số xe mà số thành lập từ 4 chữ số chia hết cho 5 là bao nhiêu?
39. Một tờ báo quảng cáo có 5 bộ phim khác nhau, 3 vở kịch và 2 trận bóng chày
vào cuối tuàn. Nếu một cặp vợ chồng chọn 3 hoạt động thì hãy tìm xác suất để
cặp vợ chồng chọn xem ngẫu nhiên 2 vở kịch và 1 bộ phim là bao nhiêu?
40. Một số vùng lãnh thổ và thuộc địa ngày nay vẫn thuộc thẩm quyền của một số
quốc gia khác. Pháp giữ nhiều nhất với 16 lãnh thổ, Vương quốc Anh có 15, Hoa
Kỳ có 14 và một số nước khác cũng có lãnh thổ. Chọn 3 vùng lãnh thổ ngẫu
nhiên từ các nước Pháp, Anh và Hoa Kỳ nắm giữ. Xác suất cả 3 vùng lãnh thổ
đều thuộc cùng một nước là bao nhiêu?
41. Yahtzee là một trò chơi với 5 con súc sắc. Người chơi cố gắng ghi điểm bằng cách
gieo một lần 5 con súc sắc. Khi cả 5 con súc sắc đều cùng một số thì nó được gọi
là Yahtzee và người chơi nhận được 50 điểm. Người chơi sẽ nhận được 150 điểm
cho hai lần Yahtzee liên tiếp. Tính xác suất mà một người ném được Yahtzee
lần đầu tiên? Xác suất mà một người ném được hai lần Yahtzee liên tiếp là bao
nhiêu?
42. Một hộp có 100 tấm thẻ như nhau được ghi các số từ 1 đến 100. Rutus ngẫu
nhiên hai thẻ rồi đặt theo thứ tự từ trái qua phải. Tính xác suất để:
a. Rút được hai thẻ lập nên một số có hai chữ số.
b. Rút được hai thẻ lập nên một số chia hết cho 5.
43. Một hộp có chứa 7 quả cầu trắng và 3 quả cầu đen cùng kích thước. Rút ngẫu
nhiên cùng một lúc 4 quả cầu. Tính xác suất để trong 4 quả cầu rút được có:
a. Hai quả cầu đen.
b. Ít nhất hai quả cầu đen.
c. Toàn quả cầu trắng.
44. Một hộp thuốc có 5 ống thuốc tốt và 3 ống kém chất lượng. Chọn ngẫu nhiên
lần lượt 2 ống thuốc (không hoàn lại). Tính xác suất để:
a. Cả hai ống được chọn đều tốt.
b. Chỉ ống được chọn đầu tiên là tốt.
c. Trong hai ống có ít nhất một ống thuốc tốt.
45. Một cửa hàng có 6 tạp chí TV Graphic và 8 tạp chí Newstime trên quầy. Có hai
khách hàng đến cửa hàng và mỗi người mua một tờ tạp chí. Tìm xác suất mà
một trong mỗi tạp chí được mua.
46. Có 8 cặp vợ chồng trong một câu lạc bộ quần vợt. Nếu lựa chọn 1 người đàn ông
và 1 người phụ nữ từ câu lạc bộ một cách ngẫu nhiên để lên kế hoạch cho giải
đấu mùa hè thì xác suất để các cặp đôi là vợ chồng nhau là bao nhiêu?

96
Chương 5

PHÂN PHỐI XÁC SUẤT RỜI RẠC

5.1 Phân phối xác suất

Trong chương 1 ta đã biết về khái niệm biến là một đặc điểm hoặc một thuộc
tính có thể cho các giá trị khác nhau. Biến được kí hiệu bằng các chữ cái in hoa như
A, B, ..., X, Y, .... Trong chương này ta khảo sát các biến gắn với các giá trị nào đó, khi
các giá trị này thay đổi ta được các biến ngẫu nhiên. Ta xét ví dụ sau:
Gieo một con súc sắc một lần, gọi X là số chấm xuất hiện của con súc sắc. Khi
đó X có thể nhận một trong những giá trị {1, 2, 3, 4, 5, 6}.
Vì khi ta chưa gieo con súc sắc thì chúng ta không thể biết trước được con súc
sắc xuất hiện mặt bao nhiêu chấm, có nghĩa là ta chưa thể biết X nhận giá trị bao
nhiêu, nên nó được goi là biến ngẫu nhiên.
Biến ngẫu nhiên là biến mà giá trị của nó được xác định một cách ngẫu nhiên.
Cũng trong chương 1 chúng ta cũng đã phân loại biến ngẫu nhiên thành biến
ngẫu nhiên rời rạc và biến ngẫu nhiên liên tục. Ta nhắc lại:
Biến ngẫu nhiên rời rạc là biến ngẫu nhiên X mà các giá trị có thể của X là
một tập hữu hạn hoặc vô hạn đếm được. Chẳng hạn, số cuộc gọi điện thoại đến một
công ty trong một ngày hay là số sinh viên trong một trường đại học, ...
Biến ngẫu nhiên liên tục là biến ngẫu nhiên X mà taị các giá trị có thể của
X là một hoặc một số khoảng trên trục số. Chẳng hạn, tốc độ của một xe ôtô hay
nhiệt độ của một khu vực trong một ngày, ...
Trong chương này ta sẽ đi khảo sát các biến ngẫu nhiên rời rạc. Biến ngẫu nhiên
liên tục sẽ được tìm hiểu trong chương 6.
Phân bố xác suất rời rạc bao gồm các giá trị của biến ngẫu nhiên có thể giả
định và xác suất tương ứng của các giá trị đó. Các xác suất được xác định theo lý
thuyết hoặc theo quan sát.
Phân phối xác suất có thể được thể hiện bằng cách sử dụng đồ thị hoặc một bảng
cũng có thể được sử dụng bằng một công thức.
Ví dụ 5.1.1. Lập một phân phối xác suất về số mặt xuất hiện của một con súc sắc
khi được gieo.
Lời giải:
Gọi X là số chấm xuất hiện của con súc sắc.
Vì không gian mẫu của phép thử là Ω = {1, 2, 3, 4, 5, 6} và xác suất của mỗi kết
quả trong không gian mẫu đều bằng 16 nên ta có bảng phân phối xác suất như sau:

X 1 2 3 4 5 6
1 1 1 1 1 1
P (X) 6 6 6 6 6 6

97
Ví dụ 5.1.2. Giải bóng chày World Series được chơi giữa đội vô địch American
League và đội vô địch National League. Đội đầu tiên giành chiếu thắng 4 trận đấu
sẽ là đội chiến thắng trong giải World Series. Nói cách khác có 7 trận đấu, đội giành
được chiến thắng trong giải World Series là đội chiến thắng từ 4 đến 7 trận thắng.
Dữ liệu dưới đây thể hiện số trận thắng trong World Series từ năm 1965 đến năm
2005 (không có giải World Series vào năm 1994). Với X là số lượng các trận thắng.
Tìm xác suất P (X) cho mỗi giá trị X , lập bảng phân bố xác suất và vẽ đồ thị cho dữ
liệu.

Lời giải:
8 9
P (X = 4) = = 0.200 P (X = 6) = = 0.225
40 40
7 16
P (X = 5) = = 0.175 P (X = 4) = = 0.400
40 40

Bảng phân phối xác suất cho biến ngẫu nhiên X là:

X 4 5 6 7
P (X) 0.200 0.225 0.175 0.400

Biểu đồ cho phân bố xác suất:

Tính chất 5.1.1. Trong một phân phối xác suất ta luôn có:

98
i) Tổng củaP các xác suất của tất cả các biến cố trong không gian mẫu phải bằng 1,
tức là: P (X) = 1.
ii) Xác suất của mỗi biến cố trong không gian mẫu phải nằm trong đoạn từ 0 đến
1, tức là: 0 ≤ P (X) ≤ 1.
Ví dụ 5.1.3. Xác định phân phối xác suất trong các câu sau?

5.2 Trung bình, phương sai, độ lệch chuẩn, kỳ vọng của một phân
phối xác suất

5.2.1 Trung bình của một phân phối xác suất

Như trong chương 3 ta đã biết được trung bình của một mẫu hay trung bình của
một tổng thể được tính bằng cách lấy tổng tất cả các giá trị rồi chia cho số các giá
trị, tức là: P P
Xi Xi
X= ; µ= .
n N
Nhưng làm thế nào để tính trung bình số chấm xuất hiện trên con súc sắc khi nó
được gieo? Bạn có thể thử gieo con súc sắc 10 lần và ghi lại số chấm xuất hiện rồi
tính trung bình. Tuy nhiên trung bình này chỉ là giá trị xấp xỉ với giá trị chính xác
của trung bình. Trên thực tế nếu số lần gieo tăng lên thì sự xấp xỉ này càng chính
xác hơn. Và câu hỏi đặt ra là muốn có được chính xác trung bình thì cần phải gieo
con súc sắc bao nhiêu lần? Câu trả lời phải là gieo vô hạn lần. Nhưng việc này là
không thể thực hiện được, do đó các công thức trước đây sẽ không được sử dụng bởi
vì mẫu thức ở các công thức sẽ dần đến vô cùng. Do đó, một phương pháp mới để
tính trung bình là cần thiết. Phương pháp mà nó có thể đưa ra giá trị lý thuyết chính
xác của trung bình như thể con súc sắc có thể gieo vô hạn lần.
Định nghĩa 5.2.1. Trung bình của biến ngẫu nhiên X với phân phối xác suất rời
rạc được xác định bởi:

µ =X1 .P (X1 ) + X2 .P (X2 ) + ... + Xn .P (Xn )


X
= X.P (X)

Ví dụ 5.2.1. Tìm số chấm trung bình xuất hiện trên mặt con súc sắc khi gieo một
con súc sắc.
Lời giải: Gọi X là số chấm xuất hiện trên mặt con súc sắc. Khi đó ta có phân
phối xác suất của X là:

99
X 1 2 3 4 5 6
1 1 1 1 1 1
P (X) 6 6 6 6 6 6

Do đó số chấm trung bình xuất hiện trên mặt con súc sắc là:
X
µ= X.P (X)
1 1 1 1 1 1
=1. + 2. + 3. + 4. + 5. + 6.
6 6 6 6 6 6
21
= = 3.5
6
Ví dụ 5.2.2. Trong một gia đình có hai con, hãy tìm trung bình của số trẻ em sẽ là
con gái.
Lơi giải: Gọi X là số con gái trong một gia đình. Khi đó X có thể nhận các giá
trị là {0, 1, 2}. Ta có bảng phân phối xác suất cho biến ngẫu nhiên X như sau:

X 0 1 2
1 1 1
P (X) 4 2 4

Vậy trung bình số con gái trong một gia đình là:
X 1 1 1
µ= X.P (X) = 0. + 1. + 2. = 1
4 2 4

5.2.2 Phương sai và độ lệch chuẩn của một phân phối xác suất

Trong chương 3 chúng ta đã biết, để đo độ phân tán của dữ liệu ta sử dụng các
số đo phương sai và độ lệch chuẩn. Công thức của nó là:
rP
2 2
P
(X − µ) (X − µ)
σ2 = ; σ=
N N

Các công thức này không thể được sử dụng cho một biến ngẫu nhiên với phân bố
xác suất vì N là vô hạn, vì vậy phương sai và độ lệch chuẩn phải được tính theo một
công thức khác.
Định nghĩa 5.2.2. Phương sai của biến ngẫu nhiên X với phân phối xác suất được
xác định: X
σ2 = [X 2 .P (X)] − µ2 .

Độ lệch chuẩn của biến ngẫu nhiên X với phân phối xác suất được xác định:
√ qX
σ= σ2 = [X 2 .P (X)] − µ2 .

Ví dụ 5.2.3. Tìm phương sai và độ lệch chuẩn cho phân phối xác suất trong ví dụ
5.2.1.
Lời giải: Theo ví dụ 5.2.1 ta đã có µ = 3.5. Khi đó, phương sai của phân phối
xác suất là:
1 1 1 1 1 1
σ 2 = 12 . + 22 . + 32 . + 42 . + 52 . + 62 . − (3, 5)2 = 2.9
6 6 6 6 6 6
100
độ lệch chuẩn là: √ √
σ= σ2 = 2.9 = 1.7
Ví dụ 5.2.4. Một hộp chứa 5 quả bóng. Hai quả được đánh số 3, một quả được đánh
số 4 và hai quả được đánh số 5. Các quả bóng được trộn lẫn vào nhau và chọn ngẫu
nhiên ra một quả. Sau khi một quả được chọn, số của nó được ghi lại. Sau đó nó được
hoàn lại trong hộp. Nếu phép thử được lặp lại nhiều lần, hãy tìm phương sai và độ
lệch chuẩn của các con số trên quả bóng.
Lời giải: Goi X là số của các quả bóng. Khi đó phân phối xác suất của X là:
X 3 4 5
2 1 2
P (X) 5 5 5

Trung bình là:


X 2 1 2
µ= X.P (X) = 3. + 4. + 5. = 4.
5 5 5
Phương sai là:
X
σ2 = [X 2 .P (X)] − µ2
2 1 2 4
=32 . + 42 . + 52 . − 42 = .
5 5 5 5
r
√ 4
Độ lệch chuẩn là: σ = σ2 = = 0.894.
5

5.2.3 Kỳ vọng của một phân phối xác suất

Một khái niệm liên quan đến trung bình cho phân phối xác suất là giá trị kỳ vọng
hoặc kỳ vọng. Giá trị kỳ vọng được sử dụng trong nhiều loại trò chơi may rủi, bảo
hiểm, và trong các lĩnh vực khác.
Định nghĩa 5.2.3. Giá trị mong đợi của một biến ngẫu nhiên rời rạc của một phân
bố xác suất là trung bình theo lý thuyết của biến ngẫu nhiên rời rạc đó. Kí hiệu là
E(X), được xác định bởi: X
E(X) = µ = X.P (X).

Ví dụ 5.2.5. Một nghìn vé được bán với giá 1 (đô la) mỗi vé, để nhận một chiếc tivi
có giá 350 (đô la). Tìm giá trị kỳ vọng của lợi ích nếu bạn mua một vé?
Lời giải: Gọi X là lợi ích của việc mua một vé. Ta có:
Chiến thắng Thua
X 349 −1
1 999
P (X) 1000 1000

Khi đó giá trị kỳ vọng là:


1 999
E(X) = 349. + (−1). = −0.65.
1000 1000

Dấu trừ ở đây chứng tỏ là khi ta mua một vé ta sẽ bị lỗ 0.65 (đô la).
101
5.3 Phân phối nhị thức

Trong thực tế có nhiều loại vấn đề xác suất mà chỉ có hai kết quả hoặc có thể
được giảm xuống còn hai kết quả. Chẳng hạn, khi tung một đồng xu thì nó có hai
kết quả là sấp hoặc ngửa hay khi khi nghiên cứ cứu về giới tính của một em bé chào
đời thì nó sẽ nhận hai giá trị là nam hoặc nữ, ... Các tình huống như vậy được gọi là
các phép thử nhị thức (binomial experiments).
Định nghĩa 5.3.1. Phép thử nhị thức là một dãy n phép thử xác suất thỏa mãn
bốn yêu cầu sau:

+ Số các phép thử phải cố định, tức n không đổi.


+ Trong mỗi phép thử ta chỉ quan tâm đến sự xuất hiện của một biến cố A nào đó
với xác suất P (A) = p (hoặc A không xuất hiện với xác suất q = 1 − p).
+ Các kết quả của mỗi phép thử phải độc lập nhau.
+ Xác suất của biến cố A xảy ra trong mỗi phép thử là không đổi.
Định nghĩa 5.3.2. Các kết quả của phép thử nhị thức và xác suất tương ứng của
các kết quả này được gọi là phân phối nhị thức (binomial distribution). Kí hiệu:
B(n, p).
Gọi X là biến ngẫu nhiên chỉ số lần xuất hiện biến cố A, X sẽ nhận các giá trị
0, 1, 2, ..., n và có công thức xác suất là:

P (X = x) = Cnx .px .q n−x .

Mệnh đề 5.3.1. Trung bình, phương sai và độ lệch chuẩn của một biến ngẫu nhiên
X tuân theo phân bố nhị thức được xác định bằng các công thức sau:

µ = n.p σ 2 = n.p.q σ= n.p.q.

Ví dụ 5.3.1. Trong các câu dưới đây, câu nào là phép thử nhị thức?

a. Khảo sát 100 người để xác định liệu họ có thích xà phòng Sudsy.
b. Tung một đồng xu 100 lần để xem có bao nhiêu lần xuất hiện mặt ngửa.
c. Rút một con bài từ bộ bài 52 con và xem có nhận được hay không con bài cơ.
d. Hỏi 1000 người về nhãn hiêu thuốc là mà họ hút.
e. Thử nghiệm bốn nhãn hiệu khác nhau của loại thuốc "aspirin" để xem thương
hiệu nào có hiệu quả.
f. Thử nghiệm một nhãn hiệu thuốc "aspirin" bằng cách sử dụng 10 người để xác
định liệu có hiệu quả hay không.

Lời giải:
Phép thử nhị thức gồm các câu: a, b, c, f.
Ví dụ 5.3.2. Một tổ chức báo cáo rằng có 5% người Mỹ sợ ở một mình trong nhà
vào ban đêm. Chọn ngẫu nhiên một mẫu 20 người Mỹ, hãy tìm xác suất để:
102
a. Có chính xác 5 người trong mẫu chọn sợ ở một mình vào ban đêm.
b. Có tối đa 3 người trong mẫu chọn sợ ở một mình vào ban đêm.
c. Có ít nhất 3 người trong mẫu chọn sợ ở một mình vào ban đêm.

Lời giải: Gọi X là biến ngẫu nhiên số người trong mẫu chọn sợ ở một mình vào
ban đêm. Khi đó X có phân phối nhị thức.

a. Theo phép thử nhị thức, xác suất để có chính xác 5 người trong mẫu chọn sợ ở
một mình vào ban đêm là:
5
P (X = 5) = C20 .(0.05)5 .(1 − 0.05)15 ≈ 0.002.

b. Theo phép thử nhị thức, xác suất để có tối đa 3 người trong mẫu chọn sợ ở một
mình vào ban đêm là:
P (X ≤ 3) =P (0) + P (1) + P (2) + P (3)
0
=C20 .(0.05)0 .(0.95)20 + C20
1
.(0.05)1 .(0.95)19 + C20
2
.(0.05)2 .(0.95)18
3
+C20 .(0.05)3 .(0.95)17
=0.358 + 0.377 + 0.189 + 0.060
=0.984.

c. Theo phép thử nhị thức, xác suất để có ít nhất 3 người trong mẫu chọn sợ ở một
mình vào ban đêm là:
P (X ≥ 3) =1 − P (X ≤ 2)
=1 − P (0) − P (1) − P (2)
0
=1 − C20 .(0.05)0 .(0.95)20 − C20
1
.(0.05)1 .(0.95)19 − C20
2
.(0.05)2 .(0.95)18
=0.076.

Ví dụ 5.3.3. Tung một đồng tiền 4 lần. Tìm trung bình, phương sai và độ lệch chuẩn
của số lần xuất hiện mặt ngửa.
Lời giải: Gọi X là biến ngẫu nhiên chỉ số lần xuất hiện mặt ngửa của đồng tiền
trong 4 lần tung. Khi đó, X có phân phối nhị thức.
Theo công thức của phân phối nhị thức với n = 4, p = 21 , q = 12 , ta có:
1
µ = n.p = 4. = 2;
2
1 1
σ 2 = n.p.q = 4. . = 1;
√ 2 2
σ = 1 = 1.

5.4 Các loại phân phối khác

5.4.1 Phân phối đa thức

Như ta đã biết phân phối nhị thức sử dụng cho phép thử nhị thức, tức là mỗi lần
thử chỉ quan tâm đến hai kết quả là sự xuất hiện hay không xuất hiện của một biến
103
cố. Trong trường hợp có nhiều hơn 2 kết quả trong mỗi phép thử thì ta không thể
dùng phân phối nhị thức được nữa mà ta sẽ tổng quát nó lên và được gọi là phân
phối đa thức (multinomial distribution).
Định nghĩa 5.4.1. Giả sử X bao gồm các biến cố E1 , E2 , ..., Ek có xác suất xảy ra
tương ứng là p1 , p2 , ..., pk và X1 là số lần xuất hiện E1 , X2 là số lần xuất hiện E2 , ...,
Xk là số lần xuất hiện Ek . Khi đó xác suất để X xảy ra là:
n! Xk
P (X) = · pX1 · pX
2 · · · pk .
2

X1 ! · X2 ! · · · Xk ! 1

Ví dụ 5.4.1. Trong một thành phố lớn, có 50% người chọn xem phim, 30% chọn chơi
thể thao và 20% chọn mua sắm như một hoạt động giải trí.Chọn ngẫu nhiên một mẫu
5 người từ thành phố đó. Hãy tìm xác suất mà 3 người lên kế hoạch đi xem phim, 1
người chơi thể thao và 1 người đến trung tâm mua sắm.
Lời giải: Gọi các biến cố E1 , E2 , E3 lần lượt là biến cố người chọn xem phim,
người chọn chơi thể thao và người chọn mua sắm. Ta có n = 5, X1 = 3, X2 = 1, X3 =
0.5, p2 = 0.3, p3 = 0.2.
Áp dụng công thức của phân phối đa thức ta được:
5!
P (X) = · 0.53 · 0.31 · 0.21 = 0.15.
3! · 1! · 1!

5.4.2 Phân phối Poisson

Với phân phối nhị thức khi mà số lần thử n đủ lớn, p đủ nhỏ và các biến cố xuất
hiện độc lập trong một khoảng thời gian nhất định thì một phân phối xác suất hữu
ích được sử dụng đó là phân phối Poisson. Sự khác biệt của phân phối Poisson với
phân phối nhị thức là ở chỗ, phân phối nhị thức thông tin cho biết số lần mà một
sự kiện nào đó xảy ra trong n lần thử, còn với phân phối Poisson thông tin được cho
là trung bình số lần xảy ra thành công của một sự kiện trong một khoảng thời gian
nhất định.
Định nghĩa 5.4.2. Gọi X là biến ngẫu nhiên chỉ số lần một biến cố A xuất hiện
trên một miền hay một vùng nào đó trong một khoảng thời gian định trước, biết số
lần A xuất hiện trung bình trong khoảng thời gian đó là λ. Khi đó ta có công thức
tính xác xuất:
e−λ λX
P (X; λ) = .
X!
Ví dụ 5.4.2. Giả sử có 200 lỗi đánh máy được phân phối ngẫu nhiên trong một bản
thảo 500 trang. Tìm xác suất mà một trang nhất định chứa chính xác 3 lỗi đánh máy.
Lời giải: Gọi X là biến ngẫu nhiên chỉ số lỗi đánh máy trong một trang giấy. Ta
200
có số lỗi đánh máy trung bình trên một trang giấy là λ = = 0.4.
500
Áp dụng công thức của phân phối Poisson với X = 3 ta được:
e−λ λX e−0.4 (0.4)3
P (X; λ) = = ≈ 0.0072.
X! 3!

104
Ví dụ 5.4.3. Một công ty bán hàng nhận được trung bình 3 cuộc gọi mỗi giờ trên
số điện thoại miễn phí.

a. Tìm xác suất để trong một giờ có tối đa 3 cuộc gọi.


b. Tìm xác suất để trong một giờ có ít nhất 3 cuộc gọi.
b. Tìm xác suất để trong một giờ có từ 5 cuộc gọi trở lên.
Ví dụ 5.4.4. Trong một căn phòng có 200 người. Giả sử có trung bình 2% số người
thuận tay trái. Tìm xác suất để có chính xác 5 người thuận tay trái.

5.4.3 Phân phối siêu bội (hypergeometric distribution)

Trong thực tế nhiều trường hợp khi lấy mẫu nó được thực hiện mà không được
hoàn lại khi đó phân phối nhị thức sẽ không được sử dụng vì các phép thử không
độc lập nhau. Lúc đó ta khái quát hóa bằng cách sử dụng một phân bố xác suất đặc
biệt gọi là phân phối siêu bội (hypergeometric distribution). Phân phối siêu bội là
sự phân bố của một biến có hai kết quả khi lấy mẫu được thực hiện mà không có sự
hoàn lại.
Định nghĩa 5.4.3. Từ một tập hợp gồm N phần tử (trong đó có a phần tử có tính
chất A) lấy ngẫu nhiên không hoàn lại một mẫu n phần tử. Gọi X là biến ngẫu nhiên
chỉ số phần tử có tính chất A có trong n phần tử của mẫu lấy ra. Khi đó xác suất
của X được tính theo công thức:
n−X
CaX · CN −a
P (X) = n .
CN

Ví dụ 5.4.5. Mười người xin việc làm trợ lý quản lý của một nhà hàng. Năm người
đã tốt nghiệp đại học và năm người thì không. Giả sử người quản lý chọn ngẫu nhiên
3 người. Hãy tìm xác suất để cả 3 người đều đã tốt nghiệp đại học.
Lời giải: Gọi X là biến ngẫu nhiên chỉ số người đã tốt nghiệp đại học. Khi đó X
tuân theo luật phân phối siêu bội. Áp dụng công thức xác suất của phân phối siêu
bội, với N = 10, a = 5, n = 3, X = 3, ta có:
C53 · C50 1
P (X = 3) = 3
= .
C10 12

Ví dụ 5.4.6. Một nghiên cứu gần đây cho thấy 2 trong số 10 căn nhà trong khu phố
không có bảo hiểm. Nếu 5 ngôi nhà được chọn ngẫu nhiên từ 10 căn nhà trong khu
phố đó thì hãy tìm xác suất có chính xác 1 căn nhà sẽ không có bảo hiểm.
Ví dụ 5.4.7. Một lô hàng có 12 sản phẩm, trong đó có 3 phế phẩm. Lấy ngẫu nhiên
3 sản phẩm để kiểm tra. Biết rằng lô hàng sẽ bị từ chối nếu có phế phẩm. Tính xác
suất để lô hàng bị từ chối.

105
Phần bài tập chương 5

1. Hãy xác định phân phối nào biểu diễn một phân phối xác suất? Nếu không thì
tại sao lại không phải?
a.
X 1 2 3 4 5
1 3 1 2 3
P (X) 10 10 10 10 10
b.
X 10 20 30
P (X) 0.1 0.4 0.3
c.
X 8 12 16 20
5 1 1 1
P (X) 6 12 12 12

2. Số cuôc gọi khẩn cấp vào một sở cảnh sát đại phương trong vòng 24 giờ được
phân phối như sau. Xây dựng một đồ thị cho dữ liệu.

Số cuộc gọi 10 11 12 13 14
Xác suất P (X) 0.02 0.12 0.40 0.31 0.15

3. Dưới đây là phân phối số lượng đơn xin thẻ tín dụng nhận được cho mỗi nhân
viên trong 8 giờ đồng hồ.

X 0 1 2 3 4 5
P (X) 0.27 0.28 0.20 0.15 0.08 0.02

a. Tính xác suất mà nhân viên sẽ nhận được từ 2 đến 3 đơn xin thẻ tín dụng?
b. Tìm trung bình, phương sai và độ lệch chuẩn cho phân phối xác suất này.

4. Một ngân hàng có dịch vụ "drive-through" (là một hình thức dịch vụ mua hàng
mà khách hàng có thể mua hàng trực tiếp ngay trên xe của mình). Số lượng
khách hàng đến mua trong khoảng thời gian 15 phút được cho trong phân phối
sau. Tìm trung bình, phương sai và độ lệch chuẩn cho phân phối.

Số khách hàng X 0 1 2 3 4
Xác suất P (X) 0.12 0.20 0.31 0.25 0.12

5. Tại một bảo tàng cộng đồng nhỏ, số lượng thăm quan trong ngày có phân phối
được cho như sau. Tìm trung bình, phương sai và độ lệch chuẩn của phân phối.

Số khách thăm quan X 13 14 15 16 17


Xác suất P (X) 0.12 0.15 0.29 0.25 0.19

6. Trong đợt bán sơn gần đây nhất tại một cửa hàng sơn, số lượng lon sơn được
bán ra được phân phối như sau. Tìm trung bình, phương sai và độ lệch chuẩn
của phân phối.

Số lon sơn bán ra X 1 2 3 4 5


Xác suất 0.42 0.27 0.15 0.10 0.06

106
7. Một nhà sản xuất dự định tổ chức một cuộc đua thuyền ngoài trời vào ngày 3
tháng 5. Chi phí cho cuộc đua thuyền là 8,000 đô (bao gồm chi phí cho quảng
cáo, an ninh, vé,...). Nhà sản suất có kế hoạch kiếm được 15,000 đô lợi nhuận
nếu mọi việc suôn sẻ. Tuy nhiên, nếu trời mưa thì cuộc đua thuyền sẽ phải hủy.
Theo dự báo thời tiết xác suất trời mưa là 0.3. Tìm lợi nhuận mong muốn của
nhà sản xuất.
8. Mộ trò chơi được thiết kế như sau: tất cả các con bài cơ được lấy ra khỏi một
bộ bài và 13 con bài này được đặt vào một cái túi. Các thẻ này được trộn lẫn và
sau đó một thẻ được chọn ngẫu nhiên (và sau đó được hoàn lại vào túi). Người
chơi thắng theo các quy tắc sau:
Nếu con bài A được rút ra thì người chơi mất 20 đô.
Nếu một con bài hình được rút ra thì người chơi sẽ thắng 10 đô.
Nếu bạn rút được một thẻ khác (từ con 2 đến con 10) thì người chơi sẽ thắng 2
đô.
Bạn phải trả bao nhiêu tiền để chơi trò chơi này để hòa tiền?
9. Cho X là biến ngẫu nhiên có phân phối nhị thức với n = 12 và p = 0.3. Tìm:
a. P (X = 8).
b. P (X < 5).
c. P (X ≥ 10).
d. P (4 < X ≤ 9).
10. Gieo một con súc sắc 360 lần. Tìm trung bình, phương sai và độ lệch chuẩn xuất
hiện mặt chấm 4 trên con súc sắc.
11. Một báo cáo từ Bộ y tế và dịch vụ nhân sinh cho biết 70% số người tử vong do
tai nạn giao thông vào ban đêm của những ngày cuối tuần có liên quan đến việc
say rượu. Chọn ngẫu nhiên một mẫu 15 người tử vong do tai nạn giao thông xảy
ra vào ban đêm của những ngày cuối tuần. Hãy tìm xác suất để:
a. Có chính xác 12 người tử vong liên quan đến việc say rượu.
b. Có ít tối đa 14 người tử vong liên quan đến việc say rượu.
c. Có từ 2 đến 4 người tử vong liên quan đến việc say rượu.
12. Một thống kê cho biết rằng, có 14% người sử dụng điện thoại để truy cập internet.
Trong một mẫu ngẫu nhiên gồm 10 người sử dụng điện thoại, xác suất để có 2
người sử dụng điện thoại để truy cập internet là bao nhiêu? Hơn 2 người sử dụng
điện thoại để truy cập internet là bao nhiêu?
13. Giả sử có 75% sinh viên điều dưỡng có thể vượt qua bài kiểm tra về tính lượng
thuốc. Tìm trung bình, phương sai và độ lệch chuẩn của số sinh viên vượt qua
bài kiểm tra trong một mẫu gồm 180 sinh viên điều dưỡng.
14. Đã có một nghiên cứu đưa ra rằng, có 63% người từ 65 tuổi trở lên bị cảm cúm
vào năm ngoái. Trong một mẫu ngẫu nhiên 300 người từ 65 tuổi trở lên, hãy tìm
trung bình, phương sai và độ lệch chuẩn cho số người bị cảm cúm.

107
15. Cơ hội mà một cảnh sát trưởng Hoa Kỳ tin rằng án tử hình "làm giảm đáng kể
số vụ giết người" là 1/4. Nếu chọn một mẫu ngẫu nhiên 8 cảnh sát trưởng Hoa
Kỳ thì hãy tìm xác suất mà có tối đa 3 người tin rằng án tử hình làm giảm đáng
kể án số vụ giết người.
16. Tạp chí Năng Lượng Hoa Kỳ báo cáo rằng, có 27% số hộ gia đình Mỹ đốt gỗ.
Nếu một mẫu ngẫu nhiên 500 hộ gia đình Mỹ được lựa chọn thì hãy tìm trung
bình, phương sai và độ lệch chuẩn của số gia đình đốt gỗ.
17. Một ngàn vé được bán với giá 1 (đô la) cho bốn giải thưởng là 100 (đô la), 50
(đô la), 25 (đô la) và 10 (đô la). Sau mỗi lần mở thưởng, vé thắng sau đó được
bỏ lại vào thùng vé. Tìm giá trị kỳ vọng nếu bạn mua hai vé?
18. Một cố vấn tài chính cho thấy khách hàng của mình chọn một trong hai loại trái
phiếu để đầu tư 5000 (đô la). Trái phiếu X có tỉ lệ hoàn vốn là 4% và có tỷ lệ
vỡ nợ là 2%. Trái phiếu Y có tỷ lệ hoàn vốn là 2, 5% và tỷ lệ vỡ nợ là 1%. Tìm
kỳ vọng của tỷ suất lợi nhuận và quyết định xem trái phiếu nào sẽ là một khoản
đầu tư tốt hơn. Biết rằng khi trái phiếu bị phá sản thì chủ đầu tư mất toàn bộ
khoản đầu tư.
19. Có 3 trong 4 người Mỹ dưới 35 tuổi đã ăn pizza cho bữa ăn sáng. Nếu một mẫu
ngẫu nhiên 20 người dưới 35 tuổi được lựa chọn thì hãy tìm xác suất để có 16
người đã ăn bánh pizza cho bữa ăn sáng.
20. Theo các tài liệu điều tra, có 75.4% phụ nữ trong độ tuổi 20 − 24 chưa bao giờ
lập gia đình. Một mẫu ngẫu nhiên 250 phụ nữ trong độ tuổi 20 − 24 thì hãy tìm
trung bình, phương sai và độ lệch chuẩn cho số người trong độ tuổi 20 − 24 đã
kết hôn.
21. Sau một cuộc bầu cử quốc gia gần đây, các cử tri được hỏi về mức độ tin tưởng
như thế nào về việc đếm chính xác các phiếu bầu trong các tiểu bang. Kết quả
thu được như sau:
46% rất tin tưởng
41% khá tin tưởng
9% không tin tưởng
3% hoàn toàn không tin tưởng.
Nếu 10 cử tri được lựa chọn một cách ngẫu nhiên thì hãy tìm xác suất để có 5
người rất tin tưởng, 3 người khá tin tưởng, 1 người không tin tưởng và 1 người
hoàn toàn không tin tưởng.
22. Trong một cửa hàng âm nhạc, người quản lý thấy rằng xác suất mà một người
không mua đĩa CD là 0.3, mua 1 đĩa CD là 0.6, mua từ 2 đĩa CD trở lên là 0.1.
Giả sử có 6 người vào cửa hàng, tìm xác suất mà có 1 người không mua đĩa CD,
3 người mua 1 đĩa CD và 2 người mua từ 2 đĩa CD trở lên.
23. Một hộp chứa 4 quả bóng trắng, 3 quả bóng đỏ và 3 quả bóng màu xanh. Một
quả bóng được chọn ngẫu nhiên và màu của nó được ghi lại. Tìm xác suất nếu
5 quả bóng được chọn (chọn có hoàn lại) trong đó có 2 quả bóng màu trắng, 2
màu đỏ và 1 màu xanh.

108
24. Trước khi máy ghi âm rời khỏi nhà máy sản xuất nó sẽ được kiểm tra chất lượng.
Xác suất mà một máy ghi âm có 0, 1 hoặc 2 lỗi kỹ thuật tương ứng là 0.90, 0.06
và 0.04. Trong một mẫu ngẫu nhiên gồm 12 máy ghi âm, tìm xác suất để có 8
máy 0 có lỗi, 3 máy có 1 lỗi và 1 máy có 2 lỗi.
25. Cơ quan vận tải hàng không thống kê rằng có 8.25 trong số 1000 hành khách
hàng không bị mất hành lý trong tất cả các chuyến bay năm ngoái. Nếu chọn
ngẫu nhiện một mẫu 400 hành khách hàng không thì xác suất có 5 hành khách
bị mất hành lý là bao nhiêu?
26. Cho biến ngẫu nhiên X xác định bởi phân phối xác suất như sau. Hãy tìm trung
bình cho biến ngẫu nhiên X ?

X 0 1 2 3 4
P (X) 0.06 0.70 0.20 0.03 0.01

27. Một xạ thủ có 3 viên đạn. Anh ta bắn từng phát cho tới khi trúng mục tiêu hoặc
hết cả 3 viên đạn thì thôi. Hãy lập phân phối xác suất cho số viên đạn đã bắn
và tính trung bình số viên đạn đã bắn. Biết rằng xác suất trúng đích của mỗi
phát là 0.8.
28. Đường dây nóng của một công ty tư vấn về vấn đề máy tính nhận trung bình 6
cuộc gọi yêu cầu mỗi giờ. Dữ liệu có phân phối Poisson. Chọn ngẫu nhiên một
giờ bất kỳ, hãy tìm sác suất mà công ty sẽ nhận được:
a. ít nhất 6 cuộc gọi.
b. từ 4 cuộc gọi trở lên.
c. tối đa 5 cuộc gọi.
29. Số vụ tai nạn chèo thuyền trên hồ Emilie có phân phối Poisson. Xác suất xảy ra
một vụ tai nạn là 0.003. Nếu có 1000 chiếc thuyền trên hồ trong một tháng hè,
thì hãy tìm xác suất xảy ra 6 vụ tai nạn.
30. Nếu 5 thẻ được rút ra từ một bộ bài gồm 52 cây, thì hãy tìm xác suất mà có 2
thẻ chất cơ được rút ra.
31. Trong số 50 chiếc xe ôtô có 10 chiếc màu trắng. Chọn ngẫu nhiên 5 chiếc để bán
đấu giá tại một cuộc bán đấu giá. Hãy tìm xác suất chọn ra được chính xác 2
chiếc xe màu trắng.
32. Tại một cửa hàng thực phẩm, các mặt hàng được tặng bao gồm 10 lon canh, 10
lon rau và 8 lon trái cây. Nếu 3 lon được chọn một cách ngẫu nhiên, thì hãy tìm
xác suất để nhận được một lon rau và 2 lon trái cây.

109
Chương 6

PHÂN PHỐI CHUẨN

Các nhà nghiên cứu y khoa đã xác định được cái gọi là khoảng bình thường
(normal interval ) cho huyết áp, cholesterol, triglyceride và những thứ tương tự. Ví
dụ huyết áp tâm thu bình thường là từ 110 đến 140. Khoảng bình thường đối với
triglycerides của một người là từ 30 đến 200 miligam mỗi dichilitry (mg/dl). Bằng
cách đo các biến số này, bác sĩ có thể xác định liệu số liệu thống kê quan trọng của
bệnh nhân nằm trong khoảng bình thường hay liệu cần điều trị để điều chỉnh tình
trạng và tránh bệnh tật trong tương lai. Vì vậy một câu hỏi đăt ra là làm thế nào để
xác định cái gọi là khoảng bình thường?
Trong chương này, sẽ trình bày cách mà các nhà nghiên cứu xác định khoảng
bình thường cho các xét nghiệm y khoa cụ thể bằng cách sử dụng một phân bố chuẩn
(normal distribution). Đồng thời cũng trình bày các phương pháp tương tự để xác
định tuổi thọ của pin, sức mạnh của dây thừng và nhiều tính năng khác được nhắc
đến.

6.1 Phân phối chuẩn

Định nghĩa 6.1.1. Biến ngẫu nhiên X được gọi là tuân theo luật phân phối chuẩn,
kí hiệu N (µ, σ), nếu hàm mật độ xác suất của X có dạng:
(x − µ)2
1 −
f (x) = √ e 2σ 2 ,
σ 2π

trong đó:
x là các giá trị của X
e ≈ 2.718
π ≈ 3.14
µ trung bình của tổng thể
σ độ lệch chuẩn của tổng thể.

Các dạng đồ thị của phương trình đường phân phối chuẩn:

110
Tính chất 6.1.1. Một phân phối chuẩn có các tính chất sau:

1. Đồ thị của phân phối chuẩn có dạng hình chuông.


2. Trung bình, trung vị và mode đều bằng nhau và nằm ở trung tâm của phân bố.
3. Phân phối chuẩn là một đường cong chỉ có một mode duy nhất.
4. Đồ thị là một đường cong đối xứng qua đường thẳng đứng đi qua trung bình.
5. Là một đường cong liên tục.
6. Là đường cong nhận trục Ox làm tiệm cận ngang.
7. Tổng diện tích phần phía dưới đường cong phân phối chuẩn luôn bằng 1.
8. Diện tích nằm dưới đường cong phân phối chuẩn nằm trong khoảng 1 độ lệch
chuẩn là xấp xỉ 0.68; trong khoảng 2 độ lệch chuẩn khoảng 0.95 và trong khoảng
3 độ lệch chuẩn khoảng 0.997. Xem hình 6.1.

Hình 6.1: Diện tích dưới đường phân phối chuẩn.

111
Phân phối chuẩn tắc (standard normal distribution)

Định nghĩa 6.1.2. Phân phối chuẩn tắc là phân phối chuẩn với trung bình bằng 0
và độ lệch chuẩn bằng 1.

Khi đó hàm số cho phân phối chuẩn tắc là:


z2
1 −
f (z) = √ e 2 .

Tất cả các biến phân phối chuẩn có thể được biến đổi thành biến phân phối chuẩn
tắc bằng cách sử dụng công thức cho điểm chuẩn (z -core):
X −µ
z= .
σ

Tìm diện tích dưới đường phân phối chuẩn tắc

Để giải quyết một số vấn đề khi sử dụng phân phối chuẩn tắc ta cần biết cách
tra bảng phân phối chuẩn tắc theo quy trình sau:

• Bước 1: Vẽ đường cong phân phối chuẩn tắc và bôi đậm phần diện tích cần tìm.
• Bước 2: Tìm số thích hợp trong bảng và làm theo hướng dẫn sau:
Có ba vấn đề cơ bản khi tra bảng:
(a) Diện tích ở bên trái của một giá trị z bất kì: Khi đó tra giá trị z trong bảng
và sử dụng vùng đã cho trong bảng.

(b) Diện tích ở bên phải của một giá trị z bất kì: Khi đó tra giá trị z và lấy 1
trừ cho diện tích vừa tìm được.
112
(c) Diện tích nằm giữa hai giá trị z bất kì: Khi đó tra cả hai giá trị z và lấy hiệu
tương ứng hai phần đó.

Phụ lục cho diện tích phần nằm dưới đường phân phối chuẩn ở bên trái của bất
kỳ giá trị z với hai chữ số thập phân.
Ví dụ 6.1.1. Tìm diện tích phần bên trái với z = 1.99.
Ví dụ 6.1.2. Tìm diện tích phần giữa giá trị z = 1.68 và z = −1.37.

Đường phân phối chuẩn như một đường cong phân phối xác suất

Một đường phân phối chuẩn có thể được sử dụng như một đường phân phối xác
suất cho các biến phân phối chuẩn. Diện tích phần dưới đường phân phối chuẩn tắc
cũng có thể được xem là xác suất. Ta dùng kí hiệu P (a < z < b) để chỉ xác suất của
giá trị z bất kì từ a đến b.
Chú ý 1. Với biến liên tục thì xác suất tại một giá trị z luôn bằng 0. Do đó P (a ≤
z ≤ b) = P (a < z < b).
Ví dụ 6.1.3. Tìm xác suất trong các trường hợp sau:

a. P (0 < z < 2.32).


b. P (z < 1.65).
c. P (z > 1.91).
Ví dụ 6.1.4. Tìm giá trị z sao cho diện tích phần nằm dưới đường phân phối chuẩn
tắc giữa giá trị 0 và z bằng 0.2123.

6.2 Các ứng dụng của phân phối chuẩn

Đường cong phân phối chuẩn tắc có thể được sử dụng để giải quyết một loạt các
vấn đề thực tế. Yêu cầu duy nhất là biến phải tuân theo phân phối chuẩn hoặc tiệm
113
cận phân phối chuẩn. Một số bài toán kiểm định toán học đặt ra là xác định liệu
một biến có được phân phối chuẩn hay không. Đối với tất cả các vấn đề được trình
bày trong chương này, các biến được giả định là phân phối chuẩn hoặc tiệm cận phân
phối chuẩn.
Để giải quyết các vấn đề bằng cách sử dụng phân phối chuẩn tắc thì ta biến đổi
biến ban đầu thành một biến phân bố chuẩn hóa bằng cách sử dụng công thức:
X −µ
z= .
σ

Đây là công thức để chuyển đổi một biến bất kì thành biến có phân phối chuẩn.
Chẳng hạn, giả sử điểm số của một bài kiểm tra chuẩn.
Ví dụ 6.2.1. Một cuộc điều tra của Liên đoàn bán lẻ Quốc gia cho thấy phụ nữ chi
trung bình 146.21 đô la cho những ngày lễ Giáng sinh. Giả sử độ lệch chuẩn là 29.44
đô la. Tìm số phần trăm phụ nữ chi tiêu dưới 160 đô la. Giả sử biến có phân phối
chuẩn.
Lời giải:

• Bước 1: Vẽ hình và mô tả diện tích của bài toán như hình vẽ.

• Bước 2: Tìm giá trị z tương ứng với 160 đô la.


X −µ 160 − 146.21
z= = = 0.47
σ 29.44

Do đó, ta có phân phối tương ứng với z là:

114
• Bước 3: Tìm diện tích bằng cách sử dụng bảng phụ lục ta có diện tích phần bên trái
dưới đường phân phối z ứng với z = 0.47 là 0.6808.
Vậy, có 0.6808 hay 68.08% số phụ nữ chi tiêu ít hơn 160 đô la vào mùa Giáng sinh.
Ví dụ 6.2.2. Mỗi tháng một gia đình người Mỹ thải ra trung bình 28 (pound) giấy
loại. Giả sử độ lệch chuẩn là 2 (pound). Nếu một hộ gia đình được lựa chọn một cách
ngẫu nhiên, hãy tìm xác suất để:

a. gia đình đó thải ra từ 27 đến 31 (pound) giấy loại mỗi tháng,


b. gia đình đó thải ra hơn 30.2 (pound) mỗi tháng.

Ví dụ 6.2.3. Hiệp hội Ôtô Hoa Kỳ báo cáo rằng thời gian trung bình để thực hiện
cuộc gọi khẩn cấp là 25 phút. Giả sử rằng biến là tiệm cận phân phối chuẩn và độ
lệch chuẩn là 4.5 phút. Nếu 80 cuộc gọi được chọn ngẫu nhiêu thì có khoảng bao
nhiêu sẽ trả lời điện thoại ít hơn 15 phút?

6.2.1 Tìm giá trị dữ liệu được cho bởi xác suất cụ thể

Một phân phối chuẩn cũng có thể được sử dụng để tìm các giá trị dữ liệu cụ thể
cho các tỷ lệ phần trăm nhất định. Ứng dụng này được hiển thị trong ví dụ 6.2.4.
Ví dụ 6.2.4. Để đủ tiêu chuẩn cho một học viện cảnh sát, thí sinh phải ghi được
10% trên tổng số kiểm tra về khả năng. Kiểm tra này có trung bình là 200 và độ lệch
chuẩn là 20. Tìm điểm số thấp nhất có thể để đủ điều kiện. Giả sử các điểm kiểm tra
có phân phối chuẩn.
Lời giải: Theo giả thuyết thì phần diện tích cần tìm được thể hiện ở hình sau:

Để giải quyết bài toán này ta thực hiện các bước sau:

• Bước 1: Tìm diện tích phần bên trái theo phân phối chuẩn ứng với X là: 1.0000 −
0.1000 = 0.9000.
• Bước 2: Tra bảng phụ lục để tìm giá trị của z tương ứng với diện tích 0.9000. Nếu
không tìm được giá trị cụ thể thì hãy tìm giá trị gần nhất, trong trường hợp này
là 0.8997 như trong hình. Như vậy giá trị z tương ứng là 1.28.

115
• Bước 3: Sử dụng công thức:
X −µ
z=
σ
X − 200
⇔ 1.28 =
20
⇔ X = 226.

Như vậy, bất kì ai có điểm từ 226 trở lên đều đủ điều kiện.
Ví dụ 6.2.5. Đối với một nghiên cứu y tế, một nhà nghiên cứu muốn chọn 60% dân
số có mức huyết áp quanh giá trị trung bình của nó. Biết rằng huyết áp trung bình
là 120 và độ lệch chuẩn là 8. Hãy tìm số người trên và dưới đủ điều kiện tham gia
nghiên cứu.

6.2.2 Xác định tính chuẩn

Biểu đồ phân phối chuẩn hay hình chuông chỉ là một trong nhiều hình dạng mà
một phân phối có thể giả định; tuy nhiên, nó là rất quan trọng vì nhiều phương pháp
thống kê đòi hỏi sự phân bố các giá trị (thể hiện trong các chương tiếp theo) là biểu
đồ chuẩn hoặc tiệm cận chuẩn.
Có một số cách để thống kê kiểm tra tính chuẩn. Một trong những cách đơn giản
nhất là vẽ một biểu đồ cho dữ liệu và kiểm tra hình dạng của nó.
Độ lệch có thể được kiểm tra bằng cách sử dụng chỉ số Pearson P I . Công thức
được xác định:
3(X − M D)
PI = .
s
Nếu chỉ số này nằm ngoài khoảng (−1, 1) thì có thể kết luận rằng dữ liệu bị lệch
đáng kể. Ngoài ra, dữ liệu cần được kiểm tra cho các giá trị ngoại biên bằng cách sử
dụng phương pháp được trình bày trong chương 3. Vì các giá trị ngoại biên nó ảnh
hưởng lớn đến tính chuẩn của dữ liệu.

116
Quy trình kiểm tra tính chuẩn:
3(X − M D)
• Bước 1: Tính chỉ số P I = P I = . Kiểm tra P I ∈ [−1, 1]?
s
• Bước 2: Kiểm tra dữ liệu có điểm ngoại biên không?

• Bước 3: Kết luận dữ liện tiệm cận phân phối chuẩn nếu P I ∈ [−1, 1] và không
có điểm ngoại biên.

Ví dụ 6.2.6. Một cuộc điều tra của 18 công ty công nghệ cao đã cho thấy số lượng
hàng tồn kho trong ngày như sau. Xác định tính chuẩn của dữ liệu.

5 29 34 44 45 63 68 74 74
81 88 91 97 98 113 118 151 158

Lời giải:

• Bước 1: Kiểm tra độ lệch. Từ dữ liệu trên ta có X = 79.5, trung vị M D = 77.5


và s = 40.5. Sử dụng hệ số Pearson ta được:
3(79.5 − 77.5)
PI = = 0.148.
40.5

Suy ra dữ liệu đã cho lệch không đáng kể.


• Bước 2: Kiểm tra điểm ngoại biên. Từ dữ liệu ta có: Q1 = 45, Q3 = 98, do đó
IQR = Q3 − Q1 = 53. Khi đó:

Q1 − 1.5(IQR) = −34.5,
Q3 + 1.5(IQR) = 177.5.

Suy ra dữ liệu không có điểm ngoại biên.


• Bước 3: Vì dữ liệu lệch không đáng kể và không có điểm ngoại biên nên có thể
kết luận rằng phân phối của dữ liệu tiệm cận phân phối chuẩn.

Ví dụ 6.2.7. Cho dữ liệu sau. Hãy xác định tính chuẩn của dữ liệu.

81 148 152 135 151 152


159 142 34 162 130 162
163 143 67 112 70

6.3 Định lý giới hạn trung tâm

Ngoài việc biết được các giá trị cụ thể của dữ liệu khác nhau như thế nào so với
trung bình của tổng thể thì các nhà thống kê còn quan tâm đến việc biết trung bình
của các mẫu có cùng kích thước lấy từ một quần thể so với trung bình của tổng thể.

117
6.3.1 Phân phối của trung bình mẫu

Định nghĩa 6.3.1. Một mẫu phân phối của trung bình mẫu là một phân phối sử
dụng các trung bình tính từ tất cả các mẫu ngẫu nhiên có cùng kích thước lấy từ
một quần thể.

Lấy mẫu lỗi là sự khác nhau giữa các số đo của mẫu và số đo của tổng thể tương
ứng. Do thực tế rằng mẫu không phải là một đại diện hoàn hảo cho tổng thể.
Tính chất 6.3.1. Tính chất phân phối của trung bình mẫu:

1. Trung bình của các trung bình mẫu giống như trung bình của tổng thể.
2. Độ lệch chuẩn của các trung bình mẫu sẽ nhỏ hơn độ lệch chuẩn của tổng thể và
nó sẽ bằng với độ lệch chuẩn của tổng thể chia cho căn bậc hai của cỡ mẫu.
Ví dụ 6.3.1. Giả sử một giáo sư đưa ra một bài kiểm tra với thang điểm là 8 cho
một lớp nhỏ gồm bốn sinh viên. Kết quả của bài kiểm tra là 2, 6, 4 và 8. Giả sử rằng
bốn sinh viên này tạo thành một tổng thể nghiên cứu. Khi đó trung bình của tổng
thể là:
2+4+6+8
µ= = 5.
4
Độ lệch chuẩn của tổng thể là:
r
(2 − 5)2 + (6 − 5)2 + (4 − 5)2 + (8 − 5)2
σ= = 2.236.
4

Biểu đồ của phân phối ban đầu được thể hiện như sau và nó là một phân phối
đều.

Bây giờ nếu tất cả các mẫu có cỡ mẫu là 2 được lấy (có hoàn lại) từ tổng thể bốn
sinh viên. Khi đó trung bình của mỗi mẫu đươc xác định như sau:

118
Ta có phân phối các trung bình mẫu như sau:
X f
2 1
3 2
4 3
5 4
6 3
7 2
8 1
Biểu đồ của phân phối các trung bình mẫu được thể hiện như sau và nó có vẻ
tiệm cận chuẩn.

Trung bình của các trung bình mẫu, kí hiệu là µX , được xác định:
2 + 3 + ··· + 8 80
µX = = = 5.
16 16
Vậy ta có tính chất thứ nhất, tức là µ = µX .
Độ lệch chuẩn của phân phối các trung bình mẫu, kí hiệu là σX , được xác định:
r
(2 − 5)2 + (3 − 5)2 + · · · + (8 − 5)2
σX = = 1.581.
16
119
Vậy độ lệch chuẩn của các trung bình mẫu nhỏ hơn độ lệch chuẩn của tổng thể
2.236
và hơn thế nữa là σX = √ = 1.581.
2

Nói tóm lại, nếu tất cả các mẫu có cùng kích thước n được lấy có hoàn lại từ một
tổng thể thì trung bình của các trung bình mẫu bằng trung bình của tổng thể, tức là

µX = µ, và độ lệch chuẩn của các trung bình mẫu σX = σ/ n. Độ lệch chuẩn của các
trung bình mẫu được gọi là độ sai tiêu chuẩn của trung bình (standard error of
the mean).
Một tính chất quan trọng đối với phân phối mẫu các trung bình mẫu là nói về
hình dạng của các phân phối và được thể hiện trong định lý giới hạn trung tâm
sau:
Định lý 6.3.1. Khi cỡ mẫu n dần đến vô cùng thì hình dáng của phân phối các trung
bình mẫu lấy có hoàn lại từ một tổng thể với trung bình µ và độ lệch chuẩn σ sẽ tiệm

cận phân phối chuẩn có trung bình cũng là µ và độ lệch chuẩn là σ/ n.

Nếu cỡ mẫu đủ lớn thì định lý giới hạn trung tâm có thể được sử dụng để trả lời
các câu hỏi về các trung bình mẫu như việc sử dụng một phân phối chuẩn để trả lời
các câu hỏi về một giá trị cụ thể. Sự khác biệt duy nhất là phải sử dụng một công
thức cho giá trị z như sau:
X −µ
z= √ .
σ/ n
Chú ý 2. Khi sử dụng định lý giới hạn trung tâm cần lưu ý hai tính chất:

1. Khi biến ban đầu sử dụng tuân theo phân phối chuẩn thì phân phối các trung
bình mẫu cũng tuân theo phân phối chuẩn với bất kì cỡ mẫu n nào.
2. Khi phân phối của biến ban đầu không phải là phân phối chuẩn thì cần phải có
cỡ mẫu đủ lớn (từ 30 trở lên) để sử dụng phân phối chuẩn tương đương với sự
phân phối của các trung bình mẫu. Cỡ mẫu càng lớn thì phép tiệm cận phân phối
chuẩn càng tốt.
Ví dụ 6.3.2. Một báo cáo của A. C. Neilsen cho rằng trẻ em trong độ tuổi từ 2 đến
5 tuổi xem truyền hình trung bình 25 giờ mỗi tuần. Giả sử biến tuân theo phân phối
chuẩn và độ lệch chuẩn bằng 3 giờ. Nếu chọn ngẫu nhiên 20 trẻ em trong độ tuổi từ
2 đến 5, hãy tìm xác suất số giờ trung bình xem truyền hình của nhóm trẻ em đó lớn
hơn 26.33 giờ.
Lời giải: Vì biến ban đầu tuân theo phân phối chuẩn nên phân phối các trung
bình mẫu cũng tuân theo phân phối chuẩn với trung bình là 25. Độ lệch chuẩn của
các trung bình mẫu là:
σ 3
σX = √ = √ = 0.671
n 20

120
Ta có:
X −µ 26.3 − 25
z= √ = √ = 1.94
σ/ n 3/ 20
Diện tích phía bên phải của giá trị z = 1.94 là 1.000 − 0.9738 = 0.0262 hoặc 2.62%.
Như vậy, có thể kết luận rằng xác suất lấy mẫu có thời gian xem truyền hình
trung bình lớn hơn 26.3 giờ là 2.62%, hay nói cách khác
P (X > 26.3) = 2.62%.
Ví dụ 6.3.3. Thời gian đăng kiểm trung bình của một chiếc xe tại Hoa Kỳ là 8 năm.
Giả sử độ lệch chuẩn là 16 tháng. Nếu chọn ngẫu nhiên 36 xe, hãy tìm xác suất rằng
thời gian đăng kiểm trung bình từ 90 đến 100 tháng.
Ví dụ 6.3.4. Số lượng thịt trung bình tiêu thụ mỗi người là 218.4 (pound) mỗi năm.
Giả sử rằng độ lệch chuẩn là 25 (pound) và phân phối là tiệm cận phân phối chuẩn.
a. Tìm xác suất mà một người được chọn ngẫu nhiên tiêu thụ ít hơn 224 (pound)
thịt mỗi năm.
b. Nếu chọn một mẫu 40 người, hay tìm xác suất mà trung bình lượng thịt tiêu thụ
của mẫu nhỏ hơn 224 (pound) mỗi năm.

6.3.2 Thừa số điều chỉnh hữu hạn

Khi tổng thể vô hạn hay không biết kích thước của tổng thể thì như ta đã biết
độ lệch chuẩn của các trung bình mẫu lấy ra từ tổng thể (có hoàn lại) được xác định

là σ/ n. Nhưng trong trường hợp tổng thể hữu hạn hay biết kích thước tổng thể thì
ta sử dụng một nhân tố điều chỉnh tổng thể hữu hạn
r
N −n
,
N −1
trong đó N là kích thước tổng thể, n là kích thước mẫu.
Khi đó độ lệch chuẩn của các trung bình mẫu được xác định là:
r
σ N −n
σX = √ .
n N −1
121
Và công thức cho giá trị z trở thành:
X −µ
z= r .
σ N −n

n N −1

6.4 Phép tiệm cận chuẩn cho phân phối nhị thức

Phân phối chuẩn thường được sử dụng để giải quyết các vấn đề liên quan đến
phân phối nhị thức vì n lớn (từ 100) thì việc tính toán bằng cách sử dụng phân phối
nhị thức khá khó khăn. Nhắc lại các đặc điểm của phân phối nhị thức:

+ Số các phép thử phải cố định, tức n không đổi.


+ Trong mỗi phép thử ta chỉ quan tâm đến sự xuất hiện của một biến cố A nào đó
với xác suất P (A) = p (hoặc A không xuất hiện với xác suất q = 1 − p).
+ Các kết quả của mỗi phép thử phải độc lập nhau.
+ Xác suất của biến cố A xảy ra trong mỗi phép thử là không đổi.

Đồng thời nhớ lại rằng phân bố nhị thức được xác định bởi n (số lần thử nghiệm)
và p (xác suất thành công). Khi p xấp xỉ 0, 5 và khi n đủ lớn thì hình dạng của sự
phân bố nhị thức sẽ trở nên tương tự như hình dạng của một phân bố chuẩn.
Nhưng khi p gần 0 hoặc 1 và n là tương đối nhỏ thì một tiệm cận chuẩn là không
chính xác. Theo nguyên tắc chung, các nhà thống kê thường đồng ý rằng chỉ nên sử
dụng một phép tiệm cận chuẩn khi n.p và n.q lớn hơn hoặc bằng 5. Ngoài điều kiện
này thì sự điều chỉnh tính liên tục có thể được sử dụng trong tiệm cận phân phối
chuẩn.
Định nghĩa 6.4.1. Điều chỉnh tính liên tục là một sự điều chỉnh được áp dụng khi
phân phối liên tục được sử dụng để xấp xỉ một phân bố rời rạc.

Sự điều chỉnh tính liên tục có nghĩa là với bất kì giá trị cụ thể nào của X (chẳng
hạn X = 8) thì các cận biên của X trong phân phối nhị thức phải được sử dụng (trong
trường hợp này là từ 7.5 đến 8.5). Do đó, khi sử dụng một phân phối chuẩn để ước
lượng cho phân phối nhị thức thì các cận biên của bất kì giá trị cụ thể nào của X phải
được sử dụng. Chẳng hạn, đối với P (X = 8) thì ta hiệu chỉnh thành P (7.5 < X < 8.5),
hay đối với P (X ≤ 7) thì ta hiệu chỉnh thành P (X < 7.5).
Nói tóm lại qui trình của sự điều chỉnh tính liên tục là việc cộng thêm hay trừ
bớt 0,5 trong việc điều chỉnh các giá trị của X cho phân phối nhị thức đối với các giá
trị cho việc ước lượng tiệm cận phân phối chuẩn. Một số trường hợp cụ thể được thể
hiện trong bảng sau:

122
Phân phối nhị thức Phân phối chuẩn
1. P (X = a) P (a − 0.5 < X < a + 0.5)
2. P (X ≥ a) P (X > a − 0.5)
3. P (X > a) P (X > a + 0.5)
4. P (X ≤ a) P (X < a + 0.5)
5. P (X < a) P (X < a − 0.5)

Đối với tất cả các trường hợp ta có: µ = n · p, σ = n · p · q, n · p ≥ 5, n · q ≥ 5

Quy trình sử dụng phân bố chuẩn để ước lượng phân phối nhị thức
• Bước 1: Kiểm tra xem liệu có thể sử dụng tiệm cận chuẩn hay không.

• Bước 2: Tìm trung bình µ và độ lệch chuẩn σ .


• Bước 3: Viết yêu cầu của đề dưới dạng ký hiệu xác suất, sử dụng biến X .
• Bước 4: Viết lại yêu cầu bằng cách sử dụng yếu tố hiệu chỉnh liên tục và biểu
diễn diện tích tương ứng dưới sự phân phối chuẩn.
• Bước 5: Tìm các giá trị z tương ứng.
• Bước 6: Giải quyết bài toán và kết luận.

Ví dụ 6.4.1. Một tạp chí đưa ra báo cáo rằng có 6% tài xế Mỹ đọc báo trong khi
lái xe. Nếu 300 người lái xe được lựa chọn một cách ngẫu nhiên, hãy tìm xác suất có
25 người nói rằng họ đọc báo khi lái xe.
Lời giải: Gọi X là biến ngẫu nhiên chỉ số tài xế Mỹ đọc báo trong lúc lái xe. Ta
có: p = 0.06, q = 0.94 và n = 300.

• Bước 1: np = 300(0.06) = 18 và nq = 300(0.94) = 282. Vì np ≥ 5 và nq ≥ 5 nên


phân phối chuẩn có thể được sử dụng.
• Bước 2: Trung bình và độ lệch chuẩn là:
µ = np = 18; p

σ = npq = 300(0.06)(0.94) = 4.11.
• Bước 3: Yêu cầu đề ra là: P (X = 25).
• Bước 4: Sử dụng hiệu chỉnh liên tục ta được: P (24.5 < X < 25.5). Diện tích tương
ứng dưới phân phối chuẩn được thể hiện như sau:

123
• Bước 5: Tìm giá trị z tương ứng. Vì 25 đại diện cho bất kì giá trị nào giữa 24.5
và 25.5 nên tìm cả hai giá trị z là:

25.5 − 18 24.5 − 18
z1 = = 1.82 z2 = = 1.58
4.11 4.11
• Bước 6: Phần diện tích bên trái của giá trị z2 = 1.82 là 0.9656 và diện tích bên
trái của giá trị z2 = 1.58 là 0.9429. Khi đó diện tích giữa hai giá trị z1 và z2 là
0.9656 − 0.9429 = 0.0227 hay 2.27%. Vậy P (X = 25) = 2.27%.
Ví dụ 6.4.2. Trong số các thành viên của một giải đấu bowling có 10% góa chồng.
Nếu 200 thành viên giải đấu bowling được lựa chọn một cách ngẫu nhiên, hãy tìm
xác suất để có 10 hoặc nhiều hơn sẽ góa chồng.
Ví dụ 6.4.3. Giả sử một cầu thủ bóng chày có xác suất để đánh trúng banh là 0.320.
Tìm xác suất để người chơi bóng chày này có nhiều nhất 26 lần đánh trúng banh
trong 100 lần đánh.
Ví dụ 6.4.4. Khi n = 10 và p = 0.5 hãy sử dụng bảng phân phối nhị thức (ở phụ
lục) để tìm xác suất khi X = 6. Khi đó sử dụng tiệm cận chuẩn để tìm xác suất khi
X = 6.
Lời giải: Từ bảng phân phối nhị thức ta có P (X = 6) = 0.205.
Với tiệm cận phân phối chuẩn, ta có:
p = 5,
µ = np = 10(0.5)

σ = npq = 10(0.5)(0.5) = 1.58.
Bây giờ, với X = 6 là biểu diễn bởi các cận biên 5.5 và 6.5. Vì vậy các giá trị z
tương ứng là:
6.5 − 5 5.5 − 5
z1 = = 0.95 z2 = = 0.32
1.58 1.58
Diện tích bên trái tương ứng với giá trị z1 là 0.8289 và của z2 là 0.6255. Do đó diện
tích giữa hai giá trị z1 và z2 là 0.8289 − 0.6255 = 0.2034. Giá trị này rất gần với giá trị
trong bảng phân phối nhị thức.

Chú ý 3. Ngoài ra phân phối chuẩn cũng được sử dụng để ước lượng các bảng phân
phối khác như phân phối Poisson (xem bảng phụ lục).

124
Phần bài tập chương 6

1. Tìm diện tích dưới đường phân phối chuẩn tắc cho mỗi trường hợp sau:
(a) Giữa z = 0 và z = 1.95
(b) Giữa z = 0 và z = 0.37
(c) Giữa z = 1.32 và z = 1.82
d. Giữa z = −1.05 và z = 2.05
(d) Giữa z = −0.03 và z = 0.53.
(e) Giữa z = +1.10 và z = −1.80
(f) Phía phải của z = 1.99
(g) Phía phải của z = −1.36
(h) Phía trái của z = −2.09
(i) Phía trái của z = 1.68
2. Sử dụng phân phối chuẩn tắc để tìm các xác suất sau:
(a) P (0 < z < 2.07)
(b) P (−1.83 < z < 0)
(c) P (−1.59 < z < +2.01)
(d) P (1.33 < z < 1.88)
(e) P (−2.56 < z < 0.37)
(f) P (z > 1.66)
(g) P (z < −2.03)
(h) P (z > −1.19)
(i) P (z < 1.93)
(j) P (z > −1.77)
3. Chi tiêu bình quân đầu người cho việc chăm sóc sức khỏe ở Hoa Kỳ là 5,274
USD. Nếu độ lệch chuẩn là 600 USD và biến chi tiêu cho việc chăm sóc sức khỏe
tiệm cận phân phối chuẩn, thì hãy tìm xác suất để chọn được người có mức chi
tiêu trên 6,000 USD. Tìm giới hạn biến động chính giữa (xung quanh giá trị
trung bình) của 50% chi phí chăm sóc sức khỏe cá nhân.
4. Mức lương trung bình cho sinh viên tốt nghiệp vào lĩnh vực định phí bảo hiểm
là 40,000 USD. Nếu biến lương tuân theo phân phối chuẩn với độ lệch chuẩn là
5,000 USD, thì hãy tìm xác suất để:
(a) một cá nhân tốt nghiệp sẽ có mức lương trên 45,000 USD.
(b) một nhóm 9 sinh viên tốt nghiệp sẽ có mức lương trung bình của nhóm trên
45,000.

5. Tốc độ giới hạn trên xa lộ liên tiểu bang 75 (Ở Hoa Kỳ) nối Findlay và Ohio là
65 dặm/giờ. Vào một ngày người ta đo được tốc độ trung bình trên xa lộ là 63
dặm/giờ và độ lệch chuẩn là 8 dặm/giờ. Nếu tốc đô có phân phối chuẩn, thì tỷ
125
lệ phần trăm xe ôtô vượt quá giới hạn tốc tộc là bao nhiêu? Nếu tuần tra đường
xa lộ chỉ bắt đối với những lái xe vượt quá 72 dặm/giờ thì có bao nhiêu phần
trăm người lái xe có thể bị bắt?
6. Chi tiêu trung bình hàng tháng của một cá nhân tại Hoa Kỳ cho dịch vụ nhắn
tin là 10.15 USD. Nếu độ lệch chuẩn là 2.45 USD và số tiền có phân phối chuẩn
tắc, thì xác suất để chọn được ngẫu nhiên những người sử dụng dịch vụ nhắn
tin hơn 15.00 USD mỗi tháng là bao nhiêu? Giữa 12.00 USD và 14.00 USD một
tháng là bao nhiêu?
7. Trong 7 tháng đầu năm, lượng mưa trung bình ở Toledo, Ohio là 19.32 inch. Nếu
lượng mưa có phân phối chuẩn tắc với độ lệch chuẩn là 2.44 inch, thì hãy tìm
xác suất để:
(a) lượng mưa lớn hơn 18 inch trong 7 tháng đầu năm trong một năm được chọn
ngẫu nhiên.
(b) 5 năm được chọn ngẫu nhiên sẽ có lượng mưa trung bình lớn hơn 18 inch
trong 7 tháng đầu năm của 5 năm đó.
8. Trọng lượng trung bình của vali hành khách hãng hàng không là 45 pound. Độ
lệch chuẩn là 2 pound. Nếu có 15% vali vượt quá cân nặng cho phép, thì hãy tìm
trọng lượng tối đa mà hãng hàng không cho phép. Giả sử rằng biến cân nặng có
phân phối chuẩn.
9. Người Mỹ ăn trung bình 25.7 pound các sản phẩm bánh kẹo mỗi năm và chi tiêu
trung bình 61.50 USD. Giả sử độ lệch chuẩn cho tiêu dùng thức ăn là 3.75 pund
và độ lệch chuẩn choh số tiền chi tiêu là 5.89 USD.
(a) Chọn một mẫu ngẫu nhiên 40 người Mỹ. Tìm xác suất để lượng tiêu thụ
bánh kẹo trung bình của mẫu lớn hơn 27 pound.
(b) Chọn ngẫu nhiên một mẫu 50 người Mỹ. Tìm xác suất để trung bình chi tiêu
cho bánh kẹo của mẫu vượt quá 60.00 USD.
10. Trong tổng số các hộ gia đình ở Mỹ có 17.3% hộ gia đình được hưởng thu nhập
hưu trí. Một mẫu ngẫu nhiên gồm 120 hộ gia đình. Tìm xác suất để có từ 20 đến
35 hộ gia đình có thu nhập hưu trí.
11. Một nghiên cứu gần đây về tuổi thọ của các máy nghe nhạc CD là 3.7 năm với
độ lệch chuẩn là 0.6 năm. Nếu một mẫu ngẫu nhiên của 32 người sở hữu máy
nghe nhạc CD được chọn, thì hãy tìm xác suất mà tuổi thọ trung bình của mẫu
sẽ nhỏ hơn 3.4 năm.
12. Xác suất chiến thắng ở một máy đánh cược là 5%. Nếu một người chơi 500 lần,
thì hãy tìm xác suất người đó thắng 30 lần? Sử dụng tiệm cận phân phối chuẩn
để ước lượng phân phối nhị thức.
13. Theo chính phủ, 5.3% số người làm việc có nhiều chức vụ. Một mẫu ngẫu nhiên
gồm 150 người đang làm việc, thì xác suất có ít nhất 10 người có nhiều chức vụ
là bao nhiêu? Xác suất mà có hơn 50 người không có nhiều chức vụ là bao nhiêu?

126
14. Trong một trường đại học lớn ở Hoa Kỳ, có 30% sinh viên năm nhất nhập học
để tham gia một khóa học tài chính. Chọn ngẫu nhiên 800 sinh viên năm nhất,
hãy tìm xác suất có ít nhất 260 sinh viên ghi danh vào khóa học tài chính.
15. Trong tổng dân số Hoa Kỳ, 20% dân số sống ở phía Đông Bắc. Nếu 200 người
ở Hoa Kỳ được chọn một cách ngẫu nhiên, thì xác suất để có ít nhất 50 người
sống ở phía Đông Bắc là bao nhiêu?
16. Chiều cao (feet so với mực nước biển) của một mẫu ngẫu nhiên các ngọn núi lửa
đang hoạt động trên thế giới được cho sau đây. Kiểm tra tính chuẩn của mẫu.

13,435 5,135 11,339 12,224 7,470


9,482 12,381 7,674 5,223 5,631
3,566 7,113 5,850 5,679 15,584
5,587 8,077 9,550 8,064 2,686
5,250 6,351 4,594 2,621 9,348
6,013 2,398 5,658 2,145 3,038

17. Một mẫu ngẫu nhiên về số lượng tuyển sinh tại các trường đại học tư thục hệ 4
năm ở Pennsylvania được liệt kê dưới đây. Kiểm tra tính chuẩn của dữ liệu.

1350 1886 1743 1290 1767


2067 1118 3980 1773 4605
1445 3883 1486 980 1217
3587

18. Xây dựng một tập hợp gồm ít nhất 15 giá trị dữ liệu dường như có phân phối
chuẩn. Xác minh tính chuẩn bằng cách sử dụng một trong những phương pháp
được giới thiệu trong chương này.

127
Chương 7

KHOẢNG TIN CẬY VÀ CỠ MẪU

Một khía cạnh của thống kê suy diễn là ước lượng, ước lượng nghĩa là tính toán
một cách gần đúng nhất giá trị của một đại lượng chưa biết dựa trên những thông tin
đã có. Ta sẽ ước lượng cho những đại lượng đo lường về độ lớn như trung bình; đại
lượng đo lường về độ dao động như phương sai, độ lệch chuẩn; đại lượng đo lường về
khả năng như tỷ lệ tổng thể. Đại lượng cần đo lường là các tham số tổng thể (trung
bình, phương sai, tỷ lệ) là chưa biết. Chính vì thông tin mà ta có đều lấy từ mẫu do
đó thông tin từ tổng thể là chưa biết nhưng lại cần biết để phân tích các quyết định
nên cần phải ước lượng.
Chương này sẽ trình bày về các thủ tục cần thiết để ước lượng trung bình tổng
thể, ước lượng tỷ lệ, ước lượng phương sai và độ lệch chuẩn. Đồng thời cũng sẽ trả
lời câu hỏi cỡ mẫu lớn bao nhiêu để được một ước lượng chính xác.

7.1 Khoảng tin cậy cho trung bình khi biết σ và cỡ mẫu

Định nghĩa 7.1.1. Ước lượng điểm của một tham số tổng thể là cách thức tính
toán một giá trị đơn lẽ của tham số tổng thể dựa trên dữ liệu mẫu. Ước lượng điểm
tốt nhất cho trung bình tổng thể µ là trung bình mẫu X .

Chẳng hạn, hiệu trưởng của một trường đại học muốn ước lượng độ tuổi trung
bình của học sinh trong trường trong một học kỳ. Hiệu trưởng có thể chọn ngẫu nhiên
100 sinh viên và tìm tuổi trung bình của mẫu 100 sinh viên và giả sử có trung bình
là 22, 3 tuổi. Từ trung bình mẫu này hiệu trưởng có thể suy ra rằng tuổi trung bình
của tất cả sinh viên trong trường là 22, 3 tuổi.
Một câu hỏi có thể được đặt ra là vì sao các số đo về khuynh hướng định tâm
khác như trung vị, mode lại không được sử dụng để ước lượng cho trung bình của
tổng thể? Lý do là số đo trung bình mẫu ít bị thay đổi hơn so với trung vị, mode khi
nhiều mẫu chọn ra từ cùng một tổng thể. Do đó trung bình mẫu là một ước lượng
tốt nhất cho trung bình tổng thể.
Một ước lượng tốt cần phải đảm bảo ba tính chất chất sau:

1. Ước lượng phải là một ước lượng không chệch (unbiased estimator ). Tức là
giá trị kỳ vọng hay trung bình của các ước lượng thu được từ các mẫu có kích
thước nhất định bằng với tham số được ước lượng.
2. Ước lượng phải là ước lượng vững (consistent estimator ). Tức là khi kích thước
mẫu tăng lên thì giá trị của ước lượng xấp xỉ giá trị của tham số được ước lượng.
3. Ước lượng phải là ước lượng tương đối hiệu quả (relatively efficient estima-
tor ). Tức là ước lượng có phương sai nhỏ nhất trong tất cả các ước lượng của
một tham số được ước lượng.
128
Như đã trình bày ở chương 6, trung bình mẫu phần lớn sẽ khác so với trung bình
của tổng thể do lỗi lấy mẫu. Đồng thời các phương pháp ước lượng điểm có nhược
điểm là khi kích thước mẫu nhỏ thì ước lượng điểm có thể sai lệch rất nhiều so với
giá trị tham số cần ước lượng. Do đó, các nhà thống kê đưa ra một loại ước ượng
khác, được gọi là ước lượng khoảng.
Định nghĩa 7.1.2. Ước lượng khoảng đối với tham số thống kê là một quy tắc
dựa trên thông tin của mẫu để xác định miền hay khoảng mà tham số được ước lượng
hầu như nằm trong đó.

Chẳng hạn, ước lượng khoảng cho độ tuổi trung bình của tất cả sinh viên có thể
là 26.9 < µ < 27.7 hoặc ta có thể viết 27.3 ± 0.4.
Định nghĩa 7.1.3. Độ tin cậy (level of confidence) của ước lượng khoảng một tham
số là xác suất mà ước lượng khoảng sẽ chứa tham số đó, với giả sử rằng có một số
lượng lớn các mẫu được lựa chọn và quá trình ước lượng trên cùng một tham số được
lặp lại.
Định nghĩa 7.1.4. Khoảng tin cậy (confidence interval ) là một khoảng cụ thể của
ước lượng một tham số, được xác định bằng cách sử dụng dữ liệu thu được từ một
mẫu và độ tin cậy cụ thể của ước lượng.

Như vậy, có thể hình dung ước lượng khoảng tin cậy cho một tham số thống kê θ
(ví dụ như µ) với một độ tin cậy, kí hiệu là β , là tìm một khoảng (a, b) sao cho

P (a < θ < b) = β.

Khi đó:

+ (a, b) được gọi là khoảng ước lượng (hay khoảng tin cậy) của tham số θ.
+ α = 1 − β được gọi là mức ý nghĩa, nó đánh giá mức độ sai lầm khi ước lượng.

Bây giờ ta sẽ đi vào bài toán ước lượng khoảng tin cậy cho trung bình khi biết độ
lệch chuẩn tổng thể σ và cỡ mẫu n. Trong trường hợp này ta cần để ý đến kích thước
mẫu, nếu n ≥ 30 thì biến ngẫu nhiên gốc tuân theo luật phân phối nào cũng được,
nhưng nếu n < 30 thì biến ngẫu nhiên gốc phải tuân theo luật phân phối chuẩn. Khi
đó khoảng tin cậy cho trung bình của tổng thể với mức ý nghĩa α cho trước được xác
định bằng công thức sau:
   
σ σ
X − Zα/2 √ < µ < X + Zα/2 √ .
n n

Trong đó:

+ Giá trị zα/2 được tra từ bảng phân phối chuẩn tắc ở phụ lục, với α là tổng diện
tích ở cả hai đuôi của đường phân phối chuẩn tắc.
 
σ
+ Hệ số zα/2 √ được gọi là độ chính xác của ước lượng (hay còn gọi là biên
n
của sai số).

129
Ví dụ 7.1.1. Một nhà nghiên cứu muốn ước lượng số ngày cần để bán một chiếc xe
ô tô của một đại lý Chevrolet Aveo. Một mẫu 50 xe ô tô có thời gian trung bình được
bán của đại lý là 54 ngày. Giả sử độ lệch chuẩn tổng thể là 6, 0 ngày. Tìm ước lượng
điểm tốt nhất cho trung bình của tổng thể và khoảng tin cậy 95% cho trung bình của
tổng thể.
Lời giải: Ước lượng điểm tốt nhất cho trung bình của tổng thể là: µ = X = 54.
Với độ tin cậy β = 95% suy ra α = 1 − 0.95 = 0.05, do đó diện tích phần bên trái
dưới đường phân phối chuẩn tắc là 1 − 0.05/2 = 0.975. Tra bảng phân phối chuẩn tắc
ta được giá trị z = 1.96. Khi đó, khoảng ước lượng cho trung bình tổng thể là:
   
6.0 6.0
54 − 1.96 √ <µ < 54 + 1.96 √
50 50
52.3 <µ < 55.7.

Vậy, ta có thể nói rằng với độ tin cậy 95% số ngày trung bình để bán một chiếc
xe ô tô của đại lý này từ 52.3 đến 55.7 ngày.
Ví dụ 7.1.2. Một cuộc khảo sát 30 người trưởng thành cho thấy độ tuổi trung bình
để có phương tiện giao thông của chính họ là 5.6 tuổi. Giả sử độ lệch chuẩn của tổng
thể là 0.8 tuổi, hãy tìm ước lượng điểm tốt nhất cho trung bình của tổng thể và
khoảng tin cậy 99% cho trung bình tổng thể.

Kích thước mẫu


Xác định kích thước mẫu liên quan chặt chẽ đến các ước lượng trong thống kê.
Một câu hỏi thường gặp là kích thước mẫu lớn bao nhiêu là cần thiết để thực hiện
một ước lượng chính xác? Câu trả lời không đơn giản, vì nó phụ thuộc vào ba yếu
tố: độ chính xác của ước lượng, độ lệch chuẩn của tổng thể và độ tin cậy. Trong phần
này, luôn giả thiết rằng độ lệch chuẩn tổng thể của biến ngẫu nhiên đã biết hoặc đã
được ước tính từ một nghiên cứu trước đó.
Từ công thức độ chính xác, kí hiệu E , ta rút ra công thức cho kích thước mẫu
như sau:
 
σ √
E = zα/2 √ ⇔ E n = zα/2 .σ
n
√ zα/2 .σ
⇔ n=
E

130
z
α/2 .σ
2
⇔n= .
E

Công thức cho kích thước mẫu tối thiểu cần cho một ước lượng khoảng cho trung
bình tổng thể là:
 z .σ 2
α/2
n= ,
E
trong đó E là độ chính xác của ước lượng. Và nếu cần thiết thì chọn số tự nhiên
nhỏ nhất lớn hơn kết quả từ công thức trên.

Ví dụ 7.1.3. Một nhà khoa học ước tính chiều sâu trung bình của một con sông.
Từ một nghiên cứu trước đó cho biết độ lệch chuẩn cho các độ sâu là 4.38 (feet). Cần
phải lấy mẫu kích thước n tối thiểu bao nhiêu để với độ tin cậy 99% thì ước lượng
khoảng cho trung bình của tổng thể không vượt quá 2 (feet).
Lời giải: Theo bài ra ta có α = 0.01, tra bảng phân phối chuẩn tắc ta được
zα/2 = 2.58; độ chính xác E = 2. Khi đó sử dụng công thức ta có:
2  2
 zα/2 .σ (2.58)(4.38)
n= = = 31.92.
E 2

Vậy cần chọn tối thiểu một mẫu có n = 32 số đo.

7.2 Khoảng tin cậy cho trung bình khi không biết σ

Khi biết được σ và kích thước mẫu n ≥ 30 (hoặc n < 30 và biến ngẫu nhiên gốc
tuân theo phân phối chuẩn) thì khoảng tin cậy cho trung bình tổng thể có thể được
xác định bằng cách sử dụng phân phối z như được trình bày trong mục 7.1. Tuy
nhiên, trong hầu hết các trường hợp ta không biết được σ , do đó nó phải được ước
lượng bằng cách sử dụng độ lệch chuẩn mẫu s.

7.2.1 Độ lệch chuẩn tổng thể σ chưa biết, kích thước mẫu n ≥ 30

Trường hợp này, vì kích thước mẫu lớn (n ≥ 30) nên ta có thể dùng ước lượng của
s để thay cho σ chưa biết. Khi đó khoảng tin cậy P % cho trung bình của tổng thể
được xác định:    
s s
X − zα/2 √ < µ < X + zα/2 √ .
n n

7.2.2 Độ lệch chuẩn tổng thể σ chưa biết, kích thước mẫu n < 30, X tuân theo
phân phối chuẩn

X −µ
Trong trường hợp này, vì X có phân phối chuẩn nên Z = √ tuân theo phân
s/ n
phối Student (hay phân phối t) với n − 1 bậc tự do. Bậc tự do, kí hiệu d.f., là số lượng
các giá trị được tự do thay đổi sau khi thống kê mẫu đã được tính toán. Chẳng hạn,
nếu trung bình của 5 giá trị là 10 thì 4 trong 5 giá trị có thể thay đổi nhưng một khi

131
4 giá trị được chọn thì giá trị thứ 5 phải là một số thỏa mãn tổng cả 5 số phải là 50,
vì 50 : 5 = 10. Do đó, hệ số tự do là d. f. = 5 − 1 = 4.
Một số tính chất của phân phối t:

1. Các tính chất tương tự phân phối chuẩn như:


a) Phân phối t có dạng hình chuông.
b) Đường phân phối t đối xứng qua đường thẳng đứng đi qua trung bình.
c) Trung bình, trung vị và mode đều bằng 0 và nằm ở trung tâm của sự phân
bố.
d) Đường cong phân phối t tiệm cận đến trục Ox.
2. Những điểm khác với phân phối chuẩn:
a) Phương sai lớn hơn 1.
b) Phân phối t thật ra là một nhóm các đường cong dựa trên khái niệm bậc tự
do và có liên quan đến kích thước mẫu.
c) Khi kích thước mẫu tăng lên thì phân phối t sẽ tiệm cận phân phối chuẩn.

Hình 7.1: Họ đường cong phân phối t.

Công thức để tìm khoảng tin cậy cho trung bình của tổng thể khi σ chưa biết, kích
thước mẫu n < 30 và X tuân theo phân phối chuẩn là:
   
s s
X − tα/2 √ < µ < X + tα/2 √ ,
n n

với bậc tự do là n − 1.

Ví dụ 7.2.1. Tìm giá trị tα/2 với độ tin cậy 95% và cỡ mẫu là 22.
Lời giải: Theo bài ra ta có bậc tự do d. f. = 22 − 1 = 21. Tra bảng Student ở phụ
lục với d. f. = 21 và độ tin cậy 95% ta được tα/2 = 2.080.

132
Chú ý 4. Khi d. f. > 30 thì có thể rơi vào giữa hai giá trị. Ví dụ, nếu d. f. = 68 nó
nằm giữa 65 và 70. Nhiều sách người ta sử dụng giá trị gần nhất, ở đây sẽ là lấy
70, tuy nhiên trong giáo trình này luôn làm tròn xuống đến giá trị có trong bảng gần
nhất, trong trường hợp d. f. = 68 sẽ lấy giá trị 65.
Ở cuối bảng phân phối Student có hàng trong đó d. f. rất lớn hoặc ∞ thì các giá
trị tα/2 có thể được tìm thấy cho các độ tin cậy cụ thể. Lý do là khi bậc tự do tăng
lên thì phân phối t sẽ tiệm cận phân phối chuẩn tắc.
Ví dụ 7.2.2. Một nhóm 10 người được chọn ngẫu nhiên để khảo sát về thời gian ngủ
của một ngày. Thu được thời gian ngủ trung bình một ngày là 7.1 giờ, độ lệch chuẩn
là 0.78 giờ. Tìm khoảng tin cậy 95% của thời gian ngủ trung bình mỗi ngày. Giả thiết
rằng thời gian ngủ mỗi ngày là biến ngẫu nhiên có phân phối chuẩn.
Lời giải: Vì σ chưa biết và cỡ mẫu n = 10 nhỏ nên phân phối t được sử dụng cho
ước lượng khoảng tin cậy. Ta có d. f. = 10 − 1 = 9 và độ tin cậy 95% tra bảng phân
phối t ta được tα/2 = 2.262.
Khi đó khoảng tin cậy là:
   
s s
X − tα/2 √ < µ < X + tα/2 √
n n
   
0.78 0.78
7.1 − 2.262 √ < µ < 7.1 + 2.262 √
10 10
6.54 < µ < 7.66.

Vậy thời gian ngủ trung bình mỗi ngày khoảng từ 6.54 đến 7.66 giờ.
Ví dụ 7.2.3. Cho mẫu dữ liệu về tài sản của 30 hiệp hội tín dụng ở tây nam
Pennsylvania (đơn vị triệu đô). Tìm khoảng tin cậy 90% số tài sản trung bình của
các hiệp hội ở tây nam Pennsylvania.

133
12.23 16.56 4.39
2.89 1.24 2.17
13.19 9.16 1.42
73.25 1.91 14.64
11.59 6.69 1.06
8.74 3.17 18.13
7.92 4.78 16.85
40.22 2.42 21.58
5.01 1.47 12.24
2.27 12.77 2.76

Lời giải: Vì σ chưa biết, cỡ mẫu n = 30 nên phân phối chuẩn tắc được sử dụng trong
ước lượng khoảng tin cậy.

• Bước 1: Tìm trung bình và độ lệch chuẩn của mẫu dữ liệu. Sử dụng công thức
trong chương 3 ta có: trung bình X = 11.091 và độ lệch chuẩn s = 14.405.
• Bước 2: Tìm α/2. Vì độ tin cậy β = 90% nên α = 1 − 0.90 = 0.10 và
α
= 0.05.
2

• Bước 3: Tìm zα/2 . Tra bảng phân phối chuẩn tắc ta được zα/2 = 1.65.

• Bước 4: Áp dụng công thức:


   
s s
X − zα/2 √ < µ < X + zα/2 √
n n
   
14.405 14.405
11.091 − 1.65 √ < µ < 11.091 + 1.65 √
30 30
6.752 < µ < 15.430.

Vậy có thể nói rằng trung bình tài sản của tất cả các hiệp hội ở tây nam Penn-
sylvania khoảng từ 6.752 triệu đô đến 15.430 triệu đô.

7.3 Khoảng tin cậy và cỡ mẫu cho tỷ lệ

Các kí hiệu được sử dụng trong phần này:

• p là tỉ lệ tổng thể.
• pb là tỉ lệ mẫu.
Đối với một tỉ lệ mẫu:
X n−X
pb = và qb = hoặc qb = 1 − pb
n n
trong đó X là số mẫu đơn vị có đặc điểm quan tâm và n là kích thước mẫu.
Ví dụ 7.3.1. Một cuộc khảo sát 150 hộ gia đình thì có 54 hộ có máy điều hòa. Tìm
pb và qb, trong đó pb là tỉ lệ hộ gia đình có máy điều hòa.

134
a. Bài toán tìm khoảng tin cậy
Để xây dựng khoảng tin cậy cho tỉ lệ ta sử dụng độ chính xác của ước lượng là
r
pbqb
E = zα/2 .
n

Với điều kiện npb ≥ 5 và nqb ≥ 5 ta có khoảng tin cậy cho tỉ lệ tổng thể được xác
định: r r
pbqb pbqb
pb − zα/2 < p < pb + zα/2 .
n n
Ví dụ 7.3.2. Một mẫu gồm 500 đơn xin việc vào khoa điều dưỡng bao gồm 60 người
giới tính nam. Tìm khoảng tin cậy cho tỉ lệ thực tế nam giới nộp đơn xin việc vào
điều dưỡng.
Lời giải: Theo bài ra ta có β = 0.90 suy ra α = 1 − 0.90 = 0.10 và tra bảng phân
phối chuẩn tắc phân phối chuẩn tắc ta được zα/2 = 1.65.
Từ mẫu dữ liệu ta có pb = 60/500 = 0.12 và qb = 1 − 0.12 = 0.88.
Khi đó khoảng tin cậy cần tìm là:
r r
pbqb pbqb
pb − zα/2 < p < pb + zα/2
n n
r r
(0.12)(0.88) (0.12)(0.88)
0.12 − 1.65 < p < 0.12 + 1.65
500 500
0.096 < p < 0.144

Vậy với độ tin cậy 90%, khoảng tin cậy cho tỉ lệ thực nam giới nộp đơn xin việc
vào khoa điều dưỡng khoảng từ 0.096 đến 0.144.
Ví dụ 7.3.3. Một cuộc điều tra 1721 người cho thấy 15.9% cá nhân mua sách tôn
giáo tại một hiệu sách của Christian. Tìm khoảng tin cậy 95% của tỷ lệ thực tế của
những người mua sách tôn giáo tại một hiệu sách Christian.

b. Bài toán tìm kích thước mẫu


Bài toán: Với một mẫu thực nghiệm nào đó đã biết tỉ lệ mẫu là pb, cho biết độ
tin cậy β . Hãy xác định kích thước mẫu r n tối thiểu để độ chính xác khi ước lượng
pbqb
khoảng tin cậy cho tỉ lệ tổng thể E = zα/2 không vượt quá một số E0 cho trước?
n
Lời giải: Theo bài ra ta cần xác định n sao cho:
r
pbqb
zα/2 ≤ E0 .
n

Từ đó ta có công thức kích thước mẫu tối thiểu cần cho khoảng ước lượng tỉ lệ
tổng thể:
zα/2 2
 
n ≥ pbqb .
E0

Chọn n là số tự nhiên nhỏ nhất thỏa mãn công thức trên.


135
Chú ý 5. Trong trường hợp pb chưa biết thì ta sử dụng pb = 0.5. Với giá trị này nó sẽ
cho một mẫu có kích thước đủ lớn để đảm bảo một ước lượng chính xác cho khoảng
tin cậy. Bởi vì với giá trị này thì pbqb là lớn nhất.
Ví dụ 7.3.4. Với độ tin cậy 95%, một nhà nghiên cứu muốn ước lượng tỉ lệ người
sử hữu một máy tính bàn ở nhà. Biết rằng một nghiên cứu trước đó cho thấy rằng
có 40% những người được phỏng vấn đã có một máy tính bàn ở nhà. Các nhà nghiên
cứu muốn độ chính xác của ước lượng không vượt quá 2% thì cần phải sử dụng mẫu
có kích thước tối thiểu bao nhiêu?
40
Lời giải: Ta có pb = = 0.40, qb = 0.60, zα/2 = 1.96, E0 = 0.02. Do đó kích thước
100
mẫu n cần xác định:
 2  1.96 2
zα/2
n ≥ pbqb = (0.40)(0.60) = 2304.96.
E0 0.02

Vậy kích thước mẫu tối thiểu cần chọn là 2305.


Ví dụ 7.3.5. Một nhà nghiên cứu muốn ước lượng tỉ lệ giám đốc điều hành sở hữu
một chiếc xe ô tô với độ tin cậy 90% và độ chính xác của ước lượng không vượt quá
5%. Tìm kích thước mẫu tối thiểu cần thiết cho ước lượng.

7.4 Khoảng tin cậy cho phương sai và độ lệch chuẩn

Trong mục này sẽ trình bày về khoảng tin cậy cho phương sai và độ lệch chuẩn.
Trước hết ta sẽ tìm hiểu một phân phối được sử dụng trong phần này.
a. Phân phối khi bình phương χ2
Biến phân phối χ2 tương tự như biến phân phối t, phân phối χ2 là một họ các
đường cong phụ thuộc vào số bậc tự do. Phân phối χ2 thu được từ các giá trị của
(n − 1)s2 /σ 2 khi các mẫu ngẫu nhiên được chọn từ một tổng thể có phân phối chuẩn
với phương sai σ 2 .
Biến χ2 có tính chất không âm và dạng phân phối là lệch phải. Bậc tự do d. f.
càng lớn (khoảng 100) thì phân phối χ2 trở nên đối xứng, tức là nó tiệm cận phân
phối chuẩn. Diện tích phần dưới mỗi đường phân phối χ2 luôn bằng 1 hoặc 100%.

136
Hình 7.2: Họ các đường cong phân phối χ2 .

Trong thực hành tính toán, chúng ta tìm giá trị của χ2 bằng cách tra bảng giá trị
phân phối χ2 ở phụ lục cuối giáo trình. Khi tra bảng cần chú ý đến tính chất không
đối xứng của phân phối χ2 nên có hai giá trị khác nhau được sử dụng trong các tính
toán.
Chẳng hạn, để tìm giá trị trong bảng χ2 tương ứng với độ tin cậy β , trước tiên
ta suy ra α = 1 − β và tìm α/2. Khi đó lấy cột có xác suất α/2 này làm giá trị cho
χ2right . Giá trị tương ứng với cột có xác suất 1 − α/2 làm giá trị cho χ2lef t . Cuối cừng
tìm hàng tương ứng với bậc tự do n − 1.

Hình 7.3: Phân phối χ2 với d. f. = n − 1.

Ví dụ 7.4.1. Tìm giá trị χ2right và χ2lef t tương ứng với độ tin cậy 90% và n = 25.
Lời giải: Ta có α = 1 − 0.90 = 0.10 và α/2 = 0.05.
Do đó, giá trị χ2right tương ứng với α/2 = 0.05 và giá trị χ2lef t tương ứng với
1 − α/2 = 0.95. Tra bảng phân phối χ2 ứng với hàng có bậc tự do n − 1 = 24 ta được:

χ2right =36.415,
χ2lef t =13.848.

137
b. Ước lượng phương sai và độ lệch chuẩn
◦ Ước lượng không chệch cho phương sai σ 2 và độ lệch chuẩn σ tương ứng là s2
và s.
◦ Để tìm ước lượng khoảng tin cậy cho phương sai và độ lệch chuẩn trước hết
phải giả sử biến ngẫu nhiên gốc phải có phân phối chuẩn. Khi đó công thức ước lượng
khoảng tin cậy được xác định:

+ Đối với phương sai σ 2 :


(n − 1)s2 2 (n − 1)s2
< σ < ,
χ2right χ2lef t

cho bậc tự do d. f. = n − 1.
+ Đối với độ lệch chuẩn σ :
s s
(n − 1)s2 (n − 1)s2
<σ< ,
χ2right χ2lef t

cho bậc tự do d. f. = n − 1.
Ví dụ 7.4.2. Với độ lệch chuẩn 95% hãy tìm ước lượng khoảng tin cậy cho phương
sai và độ lệch chuẩn của hàm lượng nicotin có trong thuốc lá được sản xuất nếu
một mẫu 20 điếu thuốc lá có độ lệch chuẩn là 1, 6 (miligam). Giả sử biến hàm lượng
nicotin có trong thuốc lá có phân phối chuẩn.
Lời giải: Với độ tin cậy 95% ta có α = 0.05 suy ra α/2 = 0.025 và bậc tự do
n − 1 = 19. Ta có:
χ2right = 32.852; χ2lef t = 8.907.

Khi đó khoảng tin cậy cho phương sai của tổng thể:
(n − 1)s2 2 (n − 1)s2
<σ <
χ2right χ2lef t
(20 − 1)(1.6)2 (20 − 1)(1.6)2
< σ2 <
32.852 8.907
2
1.5 < σ < 5.5.

138
Khoảng tin cậy cho độ lệch chuẩn của tổng thể:
√ √
1.5 <σ < 5.5
1.2 <σ < 2.3.

Ví dụ 7.4.3. Với độ tin cậy 90% hãy tìm khoảng tin cậy cho phương sai và độ lệch
chuẩn của giá vé trượt tuyết (tính bằng đô la) một ngày dành cho người lớn. Cho
một mẫu dữ liệu về giá vé trượt tuyết tại một khu trượt tuyết trên toàn quốc như
sau và giả sử biến giá vé có phân phối chuẩn.

59 54 53 52 51
39 49 46 49 48

139
Phần bài tập chương 7

1. Có tám nguyên tố hóa học không có đồng vị (tức là các dạng khác nhau của
cùng một nguyên tố có cùng số phần tử nhưng khác nhau về trọng lượng nguyên
tử). Một mẫu ngẫu nhiên 30 trong số các nguyên tố có đồng vị cho thấy số đồng
vị trung bình trên mỗi nguyên tố là 19.63 và độ lệch chuẩn tổng thể là 18.73.
Ước lượng số đồng vị trung bình thật sự cho tất cả các nguyên tố có đồng vị với
độ tin cậy 90%.
2. Trong một cuộc khảo sát 1004 cá nhân, có 442 cá nhân cảm thấy rằng Tổng thống
George W. Bush đã giành nhiều thời gian đi khỏi Washington. Tìm khoảng tin
cậy 95% cho tỉ lệ của tổng thể.
3. Một cuộc khảo sát của trung tâm dữ liệu du lịch Hoa Kỳ đã báo cáo rằng trung
bình số người Mỹ qua đêm khi đi nghỉ là 7.5. Với kích thước mẫu là 1500, tìm
một ước lượng điểm cho trung bình của tổng thể. Tìm khoảng tin cậy 95% trung
bình thật tế. Giả sử độ lệch chuẩn tổng thể là 0.8.
4. Độ dài dài của mỗi bộ phim hoạt hình được lựa chọn ngẫu nhiên được liệt kê
dưới đây (đơn vị là phút). Ước tính chiều dài trung bình thật sự của tất cả các
bộ phim hoạt hình với độ tin cậy 95%.

93 83 76 92 77 81 78 100 78 76 75

5. Đối với một khu vực đô thị nhất định, với một mẫu 5 tháng có trung bình 28
người đưa thư đã bị chó cắn mỗi tháng. Giả sử độ lệch chuẩn của mẫu là 3 và
biến có phân phối chuẩn. Tìm khoảng tin cậy 90% số người đưa thư trung bình
bị chó cắn mỗi tháng.
6. Một nhà nghiên cứu quan tâm đến việc tính lương trung bình của giáo viên trong
một khu học chánh lớn ở Hoa Kỳ. Nhà nghiên cứu muốn 95% tin rằng ước tính
của mình là chính xác. Nếu độ lệch chuẩn là 1050 USD, thì cần một mẫu tối
thiểu bao nhiêu để độ chính xác của ước tính trong phạm vi 200 USD?
7. Một nhà nghiên cứu muốn ước tính số tiền trung bình thực sự dành cho bưu
chính của một trường cao đẳng trong vòng 25%. Với độ tin cậy 90%, thì cần một
mẫu có kích thước bao nhiêu? Độ lệch chuẩn được biết là 80 USD.
8. Một cuộc khảo sát của trung tâm dữ liệu du lịch Hoa Kỳ về 1500 người trưởng
thành cho thấy rằng 42% người được hỏi cho biết họ thích viếng thăm các di
tích lịch sử cho các kỳ nghỉ. Tìm khoảng tin cậy 95% về tỷ lệ thực sự của tất cả
những người thích viếng thăm các di tích lịch sử cho các kỳ nghỉ.
9. Trong một nghiên cứu gần đây của 74 người, có 41 người cho biết họ không
hài lòng với dịch vụ dọn tuyết của cộng đồng. Tìm khoảng tin cậy 95% về tỷ lệ
thực tế của những cá nhân không hài lòng với dịch vụ dọn tuyết của cộng đồng.
Dựa trên kết quả, nhân viên giám sát có nên xem xét cải tiến dịch vụ dọn tuyết
không?
10. Tại một quận địa phương có một địa điểm giáo dục dành cho người lớn rất năng
động. Một mẫu ngẫu nhiên người dân ở quận này cho thấy 189 trong số 400
140
người từ 16 tuổi trở lên đã tham gia vào một số hoạt động giáo dục của người
lớn, chẳng hạn như đào tạo kỹ năng cơ bản, học nghề, các khóa học về sở thích
cá nhân và các chương trình đại học bán thời gian hoặc cao đẳng. Ước tính tỷ lệ
thực sự của người lớn tham gia vào một số chương trình giáo dục với độ tin cậy
98%.
11. Một báo cáo liên bang cho biết 88% tre em dưới 18 tuổi có bảo hiểm trong năm
2000. Cần một mẫu có kích thước bao nhiêu để ước lượng tỷ lệ thực sự của trẻ
em dưới 18 tuổi có bảo hiểm không vượt quá 0.05, với độ tin cậy 90%.
12. Một nghiên cứu cho thấy, có 73% mẹ của những đứa trẻ từ 3 đến 5 tuổi theo học
các chương trình giáo dục và chăm sóc sức khỏe trẻ thơ ở trung tâm. Cần một
mẫu có kích thước bao nhiêu để ước tính tỷ lệ thực không vượt quá 3%, với độ
tin cậy 95%.
13. Độ lệch tiêu chuẩn của đường kính của 18 quả bóng chày là 0.29 cm. Tìm khoảng
tin cậy 95% độ lệch chuẩn thực của đường kính quả bóng chày. Bạn có nghĩ rằng
quá trình sản xuất nên được kiểm tra cho sự không thống nhất không?
14. Một mẫu ngẫu nhiên gồm 22 máy cắt cỏ đã được lựa chọn và các động cơ đã
được thử nghiệm để xem có bao nhiêu dặm cho mỗi gallon xăng mỗi máy thu
được. Độ lệch của phép đo là 2.6. Tìm khoảng tin cậy 95% của phương sai thực
tế.
15. Một mẫu ngẫu nhiên của 15 chiếc môtô đã được lựa chọn và đo được tuổi thọ
(tính bằng tháng). Phương sai của mẫu là 8.6. Tìm khoảng tin cậy 90% của
phương sai thực tế.
16. Sử dụng dữ liệu từ Bài tập 4 để ước lượng phương sai tổng thể (độ lệch chuẩn)
về độ dài phim hoạt hình dành cho trẻ em với độ tin cậy 99%.

141
Chương 8

KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ

Giả sử một giám đốc sở giáo dục đọc một báo cáo về điểm trung bình của bài thi
SAT là 910 điểm. Hơn nữa, giả sử rằng một mẫu về học sinh trong khu học chánh
của giám đốc sở có điểm trung bình của bài thi SAT là 960 điểm. Giám đốc sở có
thể kết luận rằng các học sinh trong khu học chánh của giám đốc sở đạt điểm trung
bình cao hơn. Thoạt nhìn thì bạn có khuynh hướng đồng ý với kết luận đó vì 960 lớn
hơn 910. Nhưng hãy nhớ rằng các trung bình của các mẫu khác với trung bình của
tổng thể khi các mẫu được lấy ra từ một tổng thể. Vì vậy, câu hỏi đặt ra là có sự
khác nhau trong các trung bình không hay sự khác biệt chỉ đơn giản là do sự ngẫu
nhiên (chẳng hạn do lỗi lấy mẫu)? Trong chương này, ta sẽ trả lời cho câu hỏi này
bằng cách sử dụng số liệu thống kê để kiểm định giả thuyết (hypothesis testing).
Các nhà nghiên cứu quan tâm đến việc trả lời nhiều loại câu hỏi. Ví dụ, một nhà
khoa học có thể muốn biết liệu trái đất có đang nóng lên không. Một bác sĩ có thể
muốn biết liệu một loại thuốc mới có làm giảm huyết áp của một người hay không.
Một nhà giáo dục có thể muốn xem liệu một kỹ thuật giảng dạy mới có tốt hơn là
một kỹ thuật truyền thống hay không. Một thương gia bán lẻ có thể muốn biết liệu
công chúng có thích một màu nào đó trong thời trang mới không. Các nhà sản xuất
ô tô quan tâm đến việc xác định xem dây an toàn sẽ làm giảm mức độ nghiêm trọng
của thương tích do tai nạn hay không. Những loại câu hỏi này có thể được giải quyết
thông qua kiểm định giả thuyết thống kê, là một quá trình ra quyết định để đánh
giá các tuyên bố về tổng thể. Trong kiểm định giả thuyết, nhà nghiên cứu phải xác
định tổng thể đang nghiên cứu, đưa ra các giả thuyết cụ thể sẽ được nghiên cứu, đưa
ra mức ý nghĩa, lựa chọn mẫu từ tổng thể, thu thập dữ liệu, thực hiện các phép tính
cần thiết cho kiểm định thống kê và đưa ra được phần kết luận.
Các giả thuyết liên quan đến các tham số như trung bình và tỉ lệ có thể được
nghiên cứu. Có hai bài kiểm định thống kê được sử dụng cho các giả thuyết liên quan
đến trung bình là: kiểm định Z và kiểm định T . Chương này sẽ trình bày cụ thể các
bước cho hai bài toán này. Đồng thời một thủ tục kiểm định giả thuyết cho phương
sai và độ lệch chuẩn sử dụng phân phối χ2 cũng được trình bày trong chương này.
Ba phương pháp được sử dụng trong kiểm định giả thuyết thống kê:

1. Phương pháp truyền thống.


2. Phương pháp P -value.
3. Phương pháp khoảng tin cậy.

8.1 Thủ tục kiểm định giả thuyết – phương pháp truyền thống

a. Khái niệm giả thuyết thống kê

142
Định nghĩa 8.1.1. Giả thuyết thống kê là những giả thuyết nói về các tham số,
dạng quy luật phân phối hoặc tính độc lập của các đại lượng ngẫu nhiên. Giả thuyết
này có thể đúng hoặc không đúng.

Có hai loại giả thuyết thống kê trong mỗi tình huống: giả thuyết không và đối
thuyết.
Định nghĩa 8.1.2.

Giả thuyết không, kí hiệu là H0 , là một giả thuyết thống kê cho biết rằng không
có sự khác biệt giữa một tham số và một giá trị cụ thể hoặc không có sự khác biệt
giữa hai tham số.
Đối thuyết, kí hiệu là H1 , là một giả thuyết thống kê cho biết sự tồn tại của một
sự khác biệt giữa một tham số và một giá trị cụ thể hoặc nói rằng có một sự khác
biệt giữa hai tham số.
Chú ý 6. Hai khái niệm về giả thuyết không và đối thuyết ở đây chỉ sử dụng cho các
tham số, nó có thể định nghĩa cho dạng quy luật phân phối hoặc tính độc lập của các
đại lượng ngẫu nhiên.

Giả sử cần nghiên cứu tham số θ của một đại lượng ngẫu nhiên X và có cơ sở nào
đó để đưa ra giả thuyết θ = θ0 .
Giả thuyết không và đối thuyết thường được nêu lên thành từng cặp. Chẳng hạn:
H0 : θ = θ0 ; H1 : θ 6= θ0
H0 : θ = θ0 ; H1 : θ > θ0
H0 : θ = θ0 ; H1 : θ < θ0
Ví dụ 8.1.1. Nêu giả thuyết không và đối thuyết cho mỗi phỏng đoán sau:

a. Một nhà nghiên cứu cho rằng nếu những bà mẹ trong tương lai sử dụng thuốc
bổ vitamin thì trọng lượng của trẻ sơ sinh sẽ tăng lên. Trọng lượng trung bình
trẻ sơ sinh của dân số là 8.6 (pound).
b. Một kỹ sư đưa ra giả thuyết rằng trung bình số lượng đĩa bị lỗi có thể được giảm
trong quá trình sản xuất đĩa bằng cách sử dụng robot thay vì con người cho một
số nhiệm vụ nhất định. Số lượng đĩa bị lỗi trong 1000 đĩa là 18 đĩa.
c. Một nhà tâm lý học cảm thấy rằng nghe nhạc nhẹ trong một bài kiểm tra tâm
lý sẽ thay đổi kết quả của bài kiểm tra. Nhà tâm lý học không chắc chắn liệu
mức điểm sẽ cao hơn hay thấp hơn. Biết rằng trong quá khứ điểm số trung bình
bài kiểm tra là 73.

Lời giải:

a. H0 : µ = 8, 6 và H1 : µ > 8.6.
b. H0 : µ = 18 và H1 : µ < 18.
c. H0 : µ = 73 và H1 : µ 6= 73.

143
Nhiệm vụ của lý thuyết kiểm định giả thuyết thống kê là bằng thực nghiệm (thông
qua mẫu cụ thể) để kiểm tra tính đúng sai của giả thuyết H0 . Quy tắc kiểm định dựa
vào hai nguyên lý sau:

• Nguyên lý xác suất nhỏ: "Nếu một biến cố có xác suất nhỏ thì trong một hay
vài phép thử thì biến cố đó coi như không xảy ra".
• Phương pháp phản chứng: "Để bác bỏ giả thuyết H0 ta giả sử rằng H0 đúng thì
dẫn đến một điều vô lý".

Dựa vào hai nguyên lý này ta đưa ra phương pháp chung để kiểm định một giả
thuyết thống kê như sau: Để kiểm định H0 trước hết giả sử H0 đúng từ đó ta xây
dựng được biến cố A nào đó, sao cho xác suất xảy ra biến cố A là rất bé để có thể sử
dụng nguyên lý xác suất nhỏ, tức là có thể coi A không xảy ra trong một phép thử
về biến cố này. Khi thực hiện phép thử đối với biến cố A:

+ Nếu A xảy ra thì ta bác bỏ giả thuyết H0 .


+ Nếu A không xảy ra thì ta chưa có cơ sở để bác bỏ H0 .

b. Các loại sai lầm trong việc kiểm định giả thuyết thống kê
Việc kiểm định giả thuyết thống kê có thể phạm phải 2 loại sai lầm sau:

i. Sai lầm loại I (type I error ):


Là loại sai lầm mà chúng ta phạm phải trong việc bác bỏ giả thuyết H0 khi H0
đúng.
Xác suất của việc bác bỏ H0 khi H0 đúng là xác suất của sai lầm loại I và được
kí hiệu là α:
α = P (bác bỏ H0 |H0 đúng) = P (type I error).
α còn được gọi là mức ý nghĩa (level of significance).
Người ta thường ấn định trước α = 0.05; 0.01; 0.001; ...
ii. Sai lầm loại II (type II error )
Là loại sai lầm mà chúng ta phạm phải khi không bác bỏ giả thuyết H0 khi H0
sai.
Xác suất của việc không bác bỏ H0 khi H0 sai là xác suất của sai lầm loại II và
được kí hiệu là β :
β = P (không bác bỏ H0 |H0 sai) = P (type II error).

1−β được gọi là lực kiểm định (Power of a Test) H0 . Nó chính là xác suất "không
mắc sai lầm loại II". Nếu 1 − β càng lớn thì xác suất mắc sai lầm loại II càng
nhỏ.

Các trường hợp xảy ra khi tiến hành kiểm định có thể tóm tắt dưới dạng bảng
sau:
H0 đúng H0 sai
Bác bỏ Sai lầm loại I Kết luận đúng
Thừa nhận Kết luận đúng Sai lầm loại II
144
c. Miền bác bỏ và miền chấp nhận (rejection region and nonrejection
region)
Tất cả các giá trị có thể có của các đại lượng thống kê trong kiểm định có thể
chia làm 2 miền: miền bác bỏ và miền chấp nhận.

• Miền bác bỏ, kí hiệu R, là miền chứa các giá trị làm cho giả thuyết H0 bị bác
bỏ.
• Miền chấp nhận là miền chứa các giá trị giúp cho giả thuyết H0 không bị bác
bỏ.
Trong thực tế khi H0 không bị bác bỏ cùng nghĩa là nó được chấp nhận.
• Giá trị phân chia miền bác bỏ và miền chấp nhận được gọi là giá trị tới hạn
(critical value), giá trị tới hạn ứng với mức ý nghĩa α kí hiệu zα .

d. Kiểm định một đầu và kiểm định hai đầu (one-tailed test and two-
tailed test)

i. Kiểm định một đầu:


Khi đối thuyết H1 có tính chất 1 phía (one-sided ) thì kiểm định được gọi là kiểm
định một đầu.

ii. Kiểm định hai đầu:


Khi đối thuyết H1 có tính chất hai phía (two-sided ) thì việc kiểm định được gọi
là kiểm định hai đầu.

145
Ví dụ 8.1.2. Sử dụng bảng phân phối chuẩn tắc ở phụ lục hãy tìm các giá trị tới
hạn cho từng tình huống sau:

a. Kiểm định phía trái với α = 0.10.


b. Kiểm định hai phía với α = 0.02.
c. Kiểm định phía phải với α = 0.005.

Lời giải:

a. Kiểm định phía trái với α = 0.10.


• Bước 1: Vẽ hình và chỉ ra diện tích thích hợp. Vì đây là kiểm định phía trái
nên diện tích 0.10 nằm ở phía trái như đồ thị dưới đây:
• Bước 2: Tìm diện tích gần nhất với giá trị α = 0.10 trong bảng phụ lục. Trong
trường hợp này nó là 0.1003. Tìm giá trị z tương ứng với diện tích 0.1003 và
có kết quả là −1.28. Vậy giá trị tới hạn zα = −1.28.

b. Kiểm định hai phía với α = 0.02.


• Bước 1: Vẽ hình và chỉ ra diện tích thích hợp. Trong trường hợp này có hai
diện tích bằng với α/2 = 0.02/2 = 0.01.
• Bước 2: Giá trị tới hạn z bên trái tương ứng với diện tích gần với α/2 = 0.01.
Trong trường hợp này nó chính là 0.0099. Giá trị z tương ứng bên trái là
z = −2.33.
Giá trị tới hạn bên phải tương ứng với diện tích gần với 1 − α/2 = 0.9900.
Trong trường hợp này nó chính là 0.9901. Giá trị z tương ứng bên phải là
z = +2.33.

146
c. Kiểm định phía phải với α = 0.005.
• Bước 1: Vẽ hình và chỉ ra diện tích thích hợp. Vì đây là kiểm định phía phải
nên diện tích α = 0.005 nằm ở phía phải như đồ thị dưới đây.
• Bước 2: Tìm diện tích gần nhất với 1 − α = 0.9950. Trong trường hợp này là
0.9949 hoặc 0.9951.
Hai giá trị z tương ứng với hai phần diện tích 0.9949 và 0.9951 là +2.57 và
+2.58. Vì 1 − α = 0.9950 nằm giữa hai giá trị trên nên giá trị z cần tìm là:
2.57 + 2, 58
z= = +2.575.
2

Tuy nhiên giá trị z = 2.58 thường được sử dụng.

e. Thủ tục kiểm định giả thuyết thống kê

• Bước 1: Thiết lập giả thuyết H0 và đối thuyết H1 .


• Bước 2: Với mức ý nghĩa α cho trước, tính giá trị tới hạn và xác định miền bác
bỏ R.
• Bước 3: Tính giá trị kiểm định z .
• Bước 4: Đưa ra quyết định bác bỏ hay chấp nhận giả thuyết H0 . Nếu z ∈ R thì
ta bác bỏ H0 và chấp nhận H1 . Nếu z ∈
/ R thì ta chấp nhận H0 .
• Bước 5: Kết luận cuối cùng về nội dung bài toán.

Trong chương này, có hai bài toán kiểm định cho giá trị trung bình: Khi độ lệch
chuẩn σ đã biết thì ta dùng kiểm định Z (được trình bày ở mục 8.2) và khi chưa biết
147
σ thì ta sử dụng kiểm định T (được trình bày ở mục 8.3). Nhiều bài toán kiểm định
giả thuyết được kiểm định bằng cách sử dụng giá trị kiểm định bằng công thức tổng
quát:
giá trị quan sát − giá trị mong đợi
z= ,
độ sai tiêu chuẩn
trong đó: giá trị quan sát là giá trị thống kê được tính từ mẫu (ví dụ như trung bình
mẫu,tỉ lệ mẫu,...); giá trị mong đợi là giá trị mong muốn khi giả thuyết H0 đúng hay
nói cách khác nó là giá trị giả định trong giả thuyết H0 .

8.2 Kiểm định Z cho giá trị trung bình

Bài toán kiểm định Z cho trung bình của tổng thể được sử dụng trong hai trường
hợp:

• khi kích thước mẫu n ≥ 30. Trong trường hợp này, giá trị kiểm định là:
X − µ0
z= √ ,
s/ n

• khi kích thước mẫu n < 30 và độ lệch chuẩn σ đã biết. Trong trường hợp này, giá
trị kiểm định là:
X − µ0
z= √ ,
σ/ n

trong đó:
X : trung bình mẫu,
µ0 : là trung bình tổng thể của giả thuyết,
s: là độ lệch chuẩn mẫu.
σ : độ lệch chuẩn tổng thể,
n: là cỡ mẫu.
a. Kiểm định hai phía

Thủ tục kiểm định

• Bước 1: H0 : µ = µ0 và H1 : µ 6= µ0 .
• Bước 2: Với mức ý nghĩa α, xác định giá trị tới hạn zα/2 và −zα/2 (tra bảng E)
và xác định miền bác bỏ R = (−∞, −zα/2 ) ∪ (zα/2 , +∞).
• Bước 3: Tính giá trị kiểm định z .
• Bước 4: Đưa ra quyết định bác bỏ hay chấp nhận H0 .

• Bước 5: Kết luận cuối cùng về nội dung bài toán.

Ví dụ 8.2.1. Bộ y tế Mỹ báo cáo rằng, chi phí trung bình cho phục hồi các bệnh
nhân đột qụy là 24672 USD, với độ lệch chuẩn là 3251 USD. Một nhà nghiên cứu
chọn một mẫu ngẫu nhiên 35 bệnh nhân đột qụy tại một bệnh viện và thấy rằng chi
phí trung bình cho việc phục hồi của họ là 25226 USD. Với mức ý nghĩa α = 0.01, có
148
thể kết luận chi phí trung bình cho việc phục hồi bệnh nhân đột qụy tại một bệnh
viện cụ thể có khác 24672 USD không?
Lời giải:
• Bước 1: H0 : µ = 24672 và H1 : µ 6= 24672.
• Bước 2: Với mức ý nghĩa α = 0.01 và lưu ý đây là bài toán kiểm định hai phía,
do đó từ bảng phụ lục E ta có hai giá trị tới hạn là −2.58 và +2.58. Miền bác bỏ
R = (−∞, −2.58) ∪ (+2.58, +∞).
• Bước 3: Tính giá trị kiểm định:
X − µ0 25226 − 24672
z= √ = √ = 1.01.
σ/ n 3251/ 35

• Bước 4: Vì Z = 1.01 ∈/ R nên không có cơ sở để bác bỏ giả thuyết H0 , tức là ta


có thể chấp nhận H0 .
• Bước 5: Vậy chưa thể kết luận chi phí trung bình cho việc phục hồi bệnh nhân
đột quỵ tại một bệnh viện cụ thể khác 24672 USD.

b. Kiểm định phía phải

Thủ tục kiểm định


• Bước 1: H0 : µ = µ0 và H1 : µ > µ0 .

• Bước 2: Với mức ý nghĩa α, xác định giá trị tới hạn +zα (tra bảng E) và xác
định miền bác bỏ R = (+zα , +∞).
• Bước 3: Tính giá trị kiểm định z .

• Bước 4: Đưa ra quyết định bác bỏ hay chấp nhận H0 .


• Bước 5: Kết luận cuối cùng về nội dung bài toán.

Ví dụ 8.2.2. Một nhà nghiên cứu báo cáo rằng mức lương trung bình của các trợ
lý giáo sư là hơn 42000 USD, với độ lệch chuẩn là 5230 USD. Một mẫu gồm 30 trợ lý
giáo sư có mức lương trung bình là 43260 USD. Với mức ý nghĩa α = 0.05, có thể kết
luận mức lương của các trợ lý giáo sư có nhiều hơn 42000 USD không?
Lời giải:
149
• Bước 1: H0 : µ = 42000 và H1 : µ > 42000.
• Bước 2: Với mức ý nghĩa α = 0.05 và lưu ý đây là bài toán kiểm định phía
phải, do đó từ bảng phụ lục E ta có giá trị tới hạn là zα = +1.65. Miền bác bỏ
R = (+1.65, +∞).
• Bước 3: Tính giá trị kiểm định:
X − µ0 43260 − 42000
z= √ = √ = 1.32.
σ/ n 5230/ 30

• Bước 4: Vì z = 1.32 ∈
/ R nên không có cơ sở để bác bỏ giả thuyết H0 , tức là ta có
thể chấp nhận H0 .
• Bước 5: Kết luận: Không có đủ bằng chứng để khẳng định rằng mức lương trung
bình của các trợ lý giáo sư hơn 42000 USD mỗi năm.

c. Kiểm định phía trái

Thủ tục kiểm định

• Bước 1: H0 : µ = µ0 và H1 : µ < µ0 .
• Bước 2: Với mức ý nghĩa α, xác định giá trị tới hạn −zα (tra bảng E) và xác
định miền bác bỏ R = (−∞, −zα ).
• Bước 3: Tính giá trị kiểm định z .
• Bước 4: Đưa ra quyết định bác bỏ hay chấp nhận H0 .

• Bước 5: Kết luận cuối cùng về nội dung bài toán.

Ví dụ 8.2.3. Một nhà nghiên cứu đưa ra khẳng định rằng chi phí trung bình cho
việc mua giày thể thao nam là dưới 80 USD và giả sử rằng độ lệch chuẩn là 19, 2.
Kiểm tra một mẫu ngẫu nhiên 36 đôi giày nam tại một cửa hàng và thu được một
bảng dữ liệu về chi phí (USD) cho mỗi đôi giày dưới đây. Hãy kiểm định khẳng định
trên với mức ý nghĩa α = 0.10.
Lời giải:

• Bước 1: H0 : µ = 80 và H1 : µ < 80.

150
• Bước 2: Với mức ý nghĩa α = 0.10 và lưu ý đây là bài toán kiểm định phía trái,
do đó từ bảng phụ lục E ta có giá trị tới hạn là −zα = −1.28. Miền bác bỏ
R = (−∞, −1.28).
• Bước 3: Tính giá trị kiểm định:
X − µ0 75 − 80
z= √ = √ = −1.56.
σ/ n 19.2/ 36

• Bước 4: Vì z = −1.56 ∈ R nên có cơ sở để bác bỏ giả thuyết H0 .


• Bước 5: Kết luận: Có đủ bằng chứng để khẳng định rằng chi phí trung bình của
đôi giày thể thao nam là dưới 80 USD.

* Phương pháp P -value cho kiểm định thống kê


Định nghĩa 8.2.1. P -value (probability value) là một con số xác suất lấy từ thống
kê mẫu, nó cho biết giá trị kiểm định của chúng ta có đủ bằng chứng để kết luận
chấp nhận hay bác bỏ giá thuyết H0 ban đầu hay không.
Hay nói cách khác, P -value là xác suất mắc sai lầm loại I tối đa khi bác bỏ giả
thuyết H0 với tập dữ liệu mẫu đang quan sát.

Quy trình kiểm định giả thuyết bằng P -value

• Bước 1: Nêu giả thuyết H0 và đối thuyết H1 .


• Bước 2: Tính giá trị kiểm định z .

• Bước 3: Tìm P -value.


• Bước 4: Đưa ra quyết định bác bỏ hay chấp nhận H0 . Nếu P -value ≤ α thì ta
bác bỏ H0 và nếu P -value > α thì không có đủ bằng chứng để bác bỏ H0 .
• Bước 5: Kết luận cuối cùng về nội dung bài toán.

Ví dụ 8.2.4. Một nhà nghiên cứu muốn kiểm định xem chi phí học trung bình tại
một trường cao đẳng công lập có lớn hơn 5700 USD không, với mức ý nghĩa α = 0.05.
Nhà nghiên cứu chọn một mẫu ngẫu nhiên 36 trường cao đẳng công lập và thấy chi
phí trung bình là 5950 USD, với độ lệch chuẩn là 659 USD. Sử dụng P -value.
Lời giải:
151
• Bước 1: H0 : µ = 5700 và H1 : µ > 5700.
• Bước 2: Giá trị kiểm định:
X −µ 5950 − 5700
z= √ = √ = 2.28.
σ/ n 659/ 36

• Bước 3: Tìm P -value: Tra bảng phụ lục E, ta có tương ứng với z = 2.28 có diện
tích là 0.9887. Với kiểm định phía phải nên P -value = 1 − 0.9887 = 0.0113.
• Bước 4: Vì P -value < α do đó ta bác bỏ H0 .

• Bước 5: Có đủ bằng chứng để khẳng định rằng học phí tại các trường cao đẳng
lớn hơn 5700 USD.
Ví dụ 8.2.5. Một nhà nghiên cứu đưa ra nhận định rằng tốc độ gió trung bình ở
một thành phố nào đó là 8 dặm/giờ. Một mẫu 32 ngày ở thành phố này có tốc độ
gió trung bình là 8.2 dặm/giờ. Biết độ lệch chuẩn của tổng thể là 0.6 dặm/giờ. Với
mức ý nghĩa α = 0.05 hãy kiểm định nhận định của nhà nghiên cứu. Sử dụng phương
pháp P -value.

8.3 Kiểm định T cho giá trị trung bình

Kiểm định T là kiểm định giả thuyết cho giá trị trung bình của tổng thể và được
sử dụng khi tổng thể có phân phối chuẩn hoặc tiệm cận phân phối chuẩn, σ chưa biết
và kích thước mẫu n < 30.
Công thức cho kiểm định T là:
X −µ
t= √ .
s/ n

Với bậc tự do là d. f. = n − 1.
Quy trình kiểm định T được thực hiện tương tự các bước như kiểm định Z . Có
thể sử dụng phương pháp truyền thống hoặc sử dụng phương pháp P -value như trong
kiểm định Z .
Ví dụ 8.3.1. Một cuộc điều tra cho biết số ca nhiễm trùng trung bình một tuần tại
một bệnh viện ở Tây Nam Pennsylvania là 16.3. Một mẫu ngẫu nhiên 10 tuần có số
152
ca nhiễm trùng là 17.7 và có độ lệch chuẩn là 1.8. Với mức ý nghĩa α = 0.05 liệu có
đủ bằng chứng để bác bỏ khẳng định của điều tra trên hay không?
Lời giải:

• Bước 1: H0 : µ = 16.3 và H1 : µ 6= 16.3.


• Bước 2: Với α = 0.05, d. f. = 9 và lưu ý đây là bài toán kiểm định hai phía, do
đó từ bảng phụ lục F ta có giá trị tới hạn là +2.262 và −2.262. Miền bác bỏ
R = (−∞, −2.262) ∪ (+2.262, +∞).
• Bước 3: Tính giá trị kiểm định

X −µ 17.7 − 16.3
z= √ = √ = 2.64.
s/ n 1.8/ 10

• Bước 4: Vì z ∈ R nên có đủ cơ sở để bác bỏ H0 .


• Bước 5: Vậy có đủ bằng chứng để bác bỏ khẳng định của điều tra.
Ví dụ 8.3.2. Một nhà giáo dục học đưa ra nhận định rằng mức lương trung bình
của các giáo viên thỉnh giảng tại một khu học chánh ở quận Allegheny, Pennsylvania,
thấp hơn 60 USD/ngày. Một mẫu ngẫu nhiên của tám khu học chánh được chọn và
mức lương hằng ngày được cho dưới đây. Với mức ý nghĩa α = 0.10, liệu có đủ bằng
chứng để chấp nhận khẳng định của nhà giáo dục không?

60 56 60 55 70 55 60 55
Ví dụ 8.3.3. Một bác sĩ tuyên bố rằng việc hít khí oxy tối đa của người chạy bộ lớn
hơn mức trung bình của tất cả những người trưởng thành. Một mẫu ngẫu nhiên 15
người chạy bộ có trung bình hít khí oxy là 40.6 (ml/kg) và độ lệch chuẩn 6 (ml/kg).
Biết rằng trung bình tất cả những người trưởng thành hít khí oxy là 36.7 (ml/kg),
liệu có đủ bằng chứng để chấp nhận tuyên bố của bác sĩ này không với mức ý nghĩa
α = 0.05. Sử dụng phương pháp P -value.

8.4 kiểm định Z cho tỉ lệ

Một kiểm định giả thuyết liên quan đến tỷ lệ tổng thể có thể được xem như là
một phép thử nhị thức khi chỉ có hai kết quả xảy ra và xác suất thành công là không
thay đổi ở từng phép thử. Nhắc lại rằng, trong phép thử nhị thức ta có trung bình

là µ = np và độ lệch chuẩn σ = npq .
Vì phân phối chuẩn có thể được sử dụng để ước lượng phân phối nhị thức khi
np ≥ 5 và nq ≥ 5, do đó phân phối chuẩn tắc có thể được sử dụng để kiểm định giả
thuyết về tỉ lệ tổng thể.

153
Giá trị kiểm định z cho tỉ lệ được xác định:
p̂ − p
z=p ,
pq/n

trong đó:
X
p̂ = là tỉ lệ mẫu,
n
p là tỉ lệ tổng thể, q = 1 − p,
n là cỡ mẫu.
Để thực hiện kiểm định giả thuyết về tỉ lệ tổng thể ta có thể sử dụng phương
pháp truyền thống hoặc phương pháp P -value tương tự trong kiểm định về trung
bình tổng thể đã được trình bày.
Ví dụ 8.4.1. Một chuyên gia dinh dưỡng tuyên bố rằng có 60% người đang cố gắng
để giảm chất béo trong chế độ ăn uống của họ. Một mẫu ngẫu nhiên 200 người được
chuyên gia chọn và phát hiện có 128 người cho biết họ đang cố gắng giảm chất béo
trong chế độ ăn uống của họ. Với mức ý nghĩa α = 0.05 liệu có đủ bằng chứng để bác
bỏ tuyên bố của chuyên gia dinh dưỡng không?
Lời giải:
• Bước 1: Nêu giả thuyết và đối thuyết:
H0 : p = 0.6 và H1 : p 6= 0.6.

• Bước 2: Tìm điểm tới hạn và miền bác bỏ. Với α = 0.05 và lưu ý giá trị kiểm
định là hai phía, tra bảng phụ lục E ta có giá trị tới hạn là ±1.69. Miền bác bỏ
R = (−∞, −1.69) ∪ (+1.69, +∞).
• Bước 3: Tình giá trị kiểm định. Đầu tiên xác định p̂:
X 128
p̂ = = = 64 p = 0.6 q = 1 − p = 0.4.
n 200
Giá trị kiểm định:
p̂ − p 0.64 − 0.6
z=p =p = 1.15.
pq/n (0.6)(0.4)/200

• Bước 4: Vì z ∈
/ R do đó không đủ cơ sở để bác bỏ giả thuyết H0 .
• Bước 5: Không đủ bằng chứng để bác bỏ tuyên bố rằng có 60% người đang cố
gắng giảm chất béo trong chế độ ăn uống của họ.
Ví dụ 8.4.2. Một đại diện của công ty điện thoại ước tính rằng có 40% khách hàng
của họ có dịch vụ cuộc gọi chờ. Để kiểm tra giả thuyết này, người ta chọn một mẫu
của 100 khách hàng và thấy rằng có 37% đã có dịch vụ cuộc gọi chờ. Với α = 0.01 liệu
có đủ bằng chứng để bác bỏ giả thuyết trên không?
Ví dụ 8.4.3. Một luật sư đưa ra nhận định rằng có hơn 25% của tất cả các luật sư
đã sử dụng một số hình thức quảng cáo. Một mẫu 200 luật sư tại thành phố nhất
định cho thấy rằng có 63 luật sư đã sử dụng một số hình thức quảng cáo. Với α = 0.05
liệu có đủ bằng chứng để chấp nhận nhận định của luật sư không?
154
8.5 Kiểm định χ2 cho phương sai và độ lệch chuẩn

Để kiểm định giả thuyết về phương sai tổng thể thì ta sử dụng kiểm định chi bình
phương. Với điều kiện biến ngẫu nhiên gốc có phân phối chuẩn mà phương sai σ 2
chưa biết. Có ba tình huống có thể xảy ra: kiểm định phía phải, kiểm định phía trái
và kiểm định hai phía.

Công thức kiểm định chi bình phương cho phương sai được xác định:
(n − 1)s2
χ2 = ,
σ2
với n − 1 bậc tự do và trong đó:
n là kích thước mẫu,
s2 là phương sai mẫu,
σ 2 là phương sai tổng thể.

Quy trình kiểm định

• Bước 1: Nêu giả thuyết H0 và đối thuyết H1 .


• Bước 2: Với mức ý nghĩa α xác định điểm tới hạn (sử dụng bảng phụ lục G) và
miền bác bỏ R. Có 3 trường hợp:
+ Kiểm định phía phải: R = (χ2α (n − 1), +∞).
+ Kiểm định phía trái: R = (0, χ21−α (n − 1)).
+ Kiểm định hai phía: R = (0, χ21− α (n − 1)) ∪ (χ2α (n − 1), +∞).
2 2

(n − 1)s2
• Bước 3: Tính giá trị kiểm định χ2 = .
σ2
• Bước 4: Đưa ra quyết định bác bỏ hay chấp nhận giả thuyết H0 .

• Bước 5: Kết luận cuối cùng về nội dung của bài toán.

Ví dụ 8.5.1. Một giảng viên muốn xem liệu phương sai về điểm số của 23 sinh viên
trong lớp học của mình có ít hơn so với phương sai của tổng thể không? Biết phương
sai của lớp là 198. Với α = 0.05 liệu có đủ bằng chứng để chấp nhận tuyên bố rằng
phương sai về điểm của các sinh viên trong lớp nhỏ hơn so với phương sai tổng thể
(σ 2 = 225)? Biết rằng biến ngẫu nhiên điểm số có phân phối chuẩn.
Lời giải:

• Bước 1: H0 : σ 2 = 225 và H1 : σ 2 < 225.

• Với α = 0.05 và lưu ý đây là kiểm định phía trái nên điểm tới hạn là χ21−α (n − 1) =
χ20.95 (22) = 12.338. Khi đó miền bác bỏ R = (0, 12.338).

155
(23 − 1)198
• Bước 3: Giá trị kiểm định: χ2 = = 19, 36.
225
• Bước 4: Vì χ2 ∈
/ R nên không đủ cơ sở để bác bỏ H0 .
• Bước 5: Vậy không đủ bằng chứng để chấp nhận tuyên bố phương sai về điểm
của các sinh viên trong lớp nhỏ hơn so với phương sai tổng thể.
Ví dụ 8.5.2. Một quản trị viên bệnh viện cho rằng độ lệch chuẩn của số người sử
dụng phẫu thuật ngoại trú mỗi ngày lớn hơn 8. Chọn một mẫu ngẫu nhiên 15 ngày
tại bệnh viện và thu được dữ liệu về số người sử dụng phẫu thuật ngoại trú như sau.
Với α = 0.10 liệu có đủ bằng chứng để chấp nhận nhận định của quản trị viên hay
không? Giả sử biến ngẫu nhiên số người sử dụng phẫu thuật ngoại trú có phân phối
chuẩn.
25 30 5 15 18
42 16 9 10 12
12 38 8 14 27
Ví dụ 8.5.3. Một nhà sản xuất thuốc lá muốn kiểm tra tuyên bố rằng phương sai
của hàm lượng nicotin trong thuốc lá là 0.644. Hàm lượng nicotin được tính bằng đơn
vị miligam và giả sử rằng nó có phân phối chuẩn. Một mẫu ngẫu nhiên 20 thuốc lá
có độ lệch chuẩn là 1.00 miligam. Với α = 0.05 liệu có đủ bằng chứng để bác bỏ tuyên
bố của nhà sản xuất không?

Phương pháp P -value để kiểm định cho phương sai hoặc độ lệch chuẩn
được thực hiện như sau:
• Bước 1: Nêu giả thuyết H0 và đối thuyết H1 .
(n − 1)s2
• Bước 2: Tính giá trị kiểm định χ2 = .
σ2
• Bước 3: Tìm P -value.
• Bước 4: Đưa ra quyết định bác bỏ hay chấp nhận giả thuyết H0 . Nếu P -value ≤ α
thì ta bác bỏ H0 và nếu P -value > α thì ta chấp nhận H0 .
• Bước 5: Kết luận cuối cùng về nội dung bài toán.

Ví dụ 8.5.4. Một nhà nghiên cứu biết từ những nghiên cứu trước đây rằng độ lệch
chuẩn của thời gian cần thiết để kiểm tra một xe ô tô là 16.8 phút. Một mẫu gồm
156
24 xe ô tô được lựa chọn ngẫu nhiên để kiểm tra và thu được độ lệch chuẩn là 12.5
phút. Với α = 0.05 liệu có thể kết luận rằng độ lệch chuẩn có thay đổi so với nghiên
cứu trước đó không? Sử dụng phương pháp P -value.

8.6 Các chủ đề khác liên quan đến kiểm định giả thuyết

Trong kiểm định giả thuyết, một số khái niệm khác có thể có ích cho sinh viên
trong thống kê cơ bản. Các chủ đề này bao gồm mối quan hệ giữa kiểm định giả
thuyết và khoảng tin cậy, một số thông tin bổ sung về sai lầm loại II.

8.6.1 Khoảng tin cậy và kiểm định giả thuyết

Có một mối quan hệ giữa khoảng tin cậy và kiểm định giả thuyết. Khi bác bỏ giả
thuyết H0 trong một bài toán kiểm định giả thuyết với mức ý nghĩa α thì khoảng tin
cậy được tính tại 1 − α sẽ không chứa giá trị trung bình được nêu trong giả thuyết H0 .
Mặc khác, khi giả thyết H0 không bị bác bỏ thì khoảng tin cậy được tính với mức ý
nghĩa α sẽ chứa giá trị trung bình được nêu trong giả thuyết H0 . Lưu ý, mối quan hệ
giữa khoảng tin cậy và kiểm định giả thuyết được trình bày ở đây có ý nghĩa trong
bài toán kiểm định hai phía.
Ví dụ 8.6.1. Trọng lượng các bao đường được đóng gói là 5 (kg). Một thanh tra
nghi ngờ các bao đường không chứa 5 (kg). Một mẫu 50 bao đường sản xuất có trọng
lượng trung bình là 4.6 (kg) và độ lệch chuẩn là 0.7 (kg). Với α = 0.05 liệu có đủ bằng
chứng để kết luận rằng các bao đường không chứa 5 (kg) như đã nêu không? Tìm
khoảng tin cậy 95% cho giá trị trung bình thực tế.
Lời giải:

• H0 : µ = 5 và H1 : µ 6= 5.
• Với α = 0.05 ta có các điểm tới hạn +1.96 và −1.96. Miền bác bỏ R = (−∞, −1.96)∪
(+1.96, +∞).
X −µ 4.6 − 5
• Giá trị kiểm định z = √ = √ = −4.04.
s/ n 0.7/ 50
• Do z ∈ R nên bác bỏ giả thuyết H0 . Vậy có đủ bằng chứng để khẳng định rằng
các bao đường không nặng 5 (kg).
• Khoảng tin cậy 95% được xác định bởi:
s s
X − zα/2 √ < µ < X + zα/2 √
n n
0.7 0.7
4.6 − 1.96 √ < µ < 4.6 + 1.96 √
50 50
4.4 < µ < 4.8

Như vậy, khoảng tin cậy 95% không chứa giá trị giả định µ = 5. Do đó có mối
liên hệ giữa kiểm định giả thuyết và khoảng tin cậy.

157
Ví dụ 8.6.2. Một nhà nghiên cứu tuyên bố rằng con heo trưởng thành với một chế
độ ăn đặc biệt sẽ có trọng lượng trung bình là 200 (pound). Một mẫu 10 con heo có
trọng lượng trung bình là 198.2 (pound) và độ lệch chuẩn là 3.3 (pound). Với mức ý
nghĩa α = 0.05 liệu có đủ bằng chứng để bác bỏ giả thuyết H0 không? Tìm khoảng
tin cậy 95% cho giá trị trung bình thực tế.

8.6.2 Sai lầm loại II và lực kiểm định

H0 đúng H0 sai
Bác bỏ H0 Sai lầm loại I Kết luận đúng
α 1−β
Thừa nhận H0 Kết luận đúng Sai lầm loại II
1−α β

Nhớ lại rằng, sai lầm loại II là loại sai lầm mà chúng ta phạm phải khi không bác
bỏ giả thuyết H0 khi H0 sai. Xác suất của việc không bác bỏ H0 khi H0 sai là xác
suất của sai lầm loại II và được ký hiệu là β . Điều mà các nhà nghiên cứu thường
làm là cố gắng giảm β nhỏ nhất hoặc tăng 1 − β lớn nhất. Giá trị 1 − β được gọi là
lực kiểm định.
Lực kiểm định của một bài kiểm định thống kê đo độ nhạy của kiểm định để phát
hiện ra sự khác biệt thực sự trong các thông số nếu thực sự có tồn tại. Lực kiểm định
là xác suất không mắc sai lầm loại II. Lực kiểm định càng cao thì kiểm định càng có
độ nhạy hơn để phát hiện sự khác biệt thật sự giữa các tham số nếu nó có sự khác
biệt. Nói cách khác, lực kiểm định của bài toán kiểm định càng lớn (gần đến 1) thì
kiểm định càng tốt để bác bỏ giả thuyết nếu giả thuyết thật sự là sai.
Lưu ý rằng, α càng tăng thì β càng giảm, khi đó 1 − β càng tăng do đó lực kiểm
định càng lớn. Một cách khác để tăng lực kiểm định của một bài kiểm định bằng cách
tăng kích thước mẫu. Vì kích thước mẫu càng lớn thì sẽ làm cho độ sai tiêu chuẩn sẽ
giảm và do đó làm giảm β .

158
Phần bài tập chương 8

1. Một nhà khí tượng học tuyên bố rằng trung bình các nhiệt độ cao nhất ở Hoa
Kỳ là 980 F . Một mẫu ngẫu nhiên gồm 50 thành phố được chọn và nhiệt độ cao
nhất được ghi lại như sau. Với mức ý nghĩa α = 0.05, liệu có đủ bằng chứng để
bác bỏ giả thuyết không? Biết rằng σ = 7.71.

97 94 96 105 99
96 80 95 101 97
101 87 88 97 94
98 95 88 94 94
99 99 98 96 96
97 98 99 92 97
99 108 97 98 114
91 96 102 99 102
100 93 88 102 99
98 80 95 101 61

2. Sinh viên tốt nghiệp toàn quốc (ở Hoa Kỳ) tham gia trong lĩnh vực định phí bảo
hiểm có mức thu nhập 40, 000 USD mỗi năm. Một công chức trường đại học cảm
thấy rằng con số này quá thấp. Một cuộc khảo sát 36 sinh viên tốt nghiệp tham
gia lĩnh vực bảo hiểm và thấy mức lương trung bình là 41,000 USD mỗi năm.
Độ lệch chuẩn tổng thể là 3,000 USD. Nhận định của công chức liệu có thể chấp
nhận được không với α = 0.05.
3. Tiền thuê trung bình hàng tháng cho một ngôi nhà một phòng ngủ ở San Fran-
cisco là 1,229 USD. Một mẫu ngẫu nhiên gồm 15 ngôi nhà một phòng ngủ cách
thành phố San Francisco trong vòng 15 dặm có giá thuê trung bình là 1,350 USD.
Độ lệch tiêu chuẩn tổng thể là 250 USD. Với α = 0.05, chúng ta có thể kết luận
rằng tiền thuê hàng tháng các ngôi nhà ngoài thành phố San Francisco khác với
giá thuê trong thành phố không?
4. Trên toàn quốc, mức lương trung bình của các chuyên gia trong bảng xếp hạng
ở lĩnh vực định phí bảo hiểm là 150,000 USD mỗi năm. Một giám đốc điều hành
bảm hiểm muốn so sánh mức lương trên với mức lương của các nghiên cứu sinh
trong công ty của mình. Giám đốc kiểm tra mức lương của 8 nghiên cứu sinh
và thấy mức lương trung bình là 155,500 USD với độ lệch chuẩn là 15,000 USD.
Giám đốc đưa ra kết luận rằng lương trung bình các nghiên cứu sinh trong công
ty của mình nhiều hơn mức trung bình quốc gia, liệu kết luận này có được chấp
nhận không, với α = 0.05.
5. Một mẫu ngẫu nhiên về khoản nợ trung bình (đơn vị USD) khi tốt nghiệp của
30 trong số 100 trường cao đẳng công lập hàng đầu được liệt kê dưới đây. Liệu
có đủ bằng chứng để kết luận rằng trung bình khoản nợ của tổng thể khi tốt
nghiệp ít hơn 18,000 USD không? Với mức ý nghĩa α = 0.05.

159
16,012 15,784 16,597 18,105 12,665 14,734
17,225 16,953 15,309 15,297 14,437 14,835
13,607 13,374 19,410 18,385 22,312 16,656
20,142 17,821 12,701 22,400 15,730 17,673
18,978 13,661 12,580 14,392 16,000 15,176

6. Hiệp hội quần vợt TIA (Tennis Industry Association) nói rằng độ tuổi trung bình
của một fan hâm mộ quần vợt là 32 tuổi. Để kiểm tra nhận định trên, một nhà
nghiên cứu chọn ngẫu nhiên 18 người hâm mộ quần vợt và thấy rằng trung bình
độ tuổi của họ là 31.3 tuổi và độ lệch chuẩn là 2.8 năm. Với mức α = 0.05 có thể
kết luận rằng độ tuổi trung bình của mẫu thấp hơn độ tuổi được tuyên bố của
hiệp hội không? Sử dụng phương pháp P −value, biết rằng biến độ tuổi tiệm cận
phân phối chuẩn.
7. Đàn sếu hoang dã lớn nhất trên thế giới có số lượng kỷ lục là 237 con ở khu
trú đông Texas Coastal Bend và mỗi năm số lượng đàn sếu giảm đi 15 con. Một
nghiên cứu cho biết rằng cân nặng trung bình các quả trứng sếu là 208 gram.
Một đợt trứng gần đây đã được cân và trọng lượng của chúng được liệt kê dưới
đây. Với α = 0.01, liệu có đủ bằng chứng để kết luận rằng trọng lượng trung bình
lớn hơn 208 gram không?
210 208.5 211.6 212 210.3
210.2 209 206.4 209.7

8. Toàn quốc có 13.7% lao động làm công ăn lương là thành viên của một hiệp hội
(giảm từ 20.1% năm 1983). Một mẫu ngẫu nhiên gồm 300 công nhân thì có 50
người thuộc hiệp hội trên. Với α = 0.05, liệu có đủ bằng chứng để kết luận rằng
tỷ lệ thành viên của hiệp hội khác với 13.7% không?
9. Trên toàn quốc có 60.2% tù nhân liên bang về tội phạm ma túy. Một người cảm
thấy rằng trong nhà tù tỷ lệ phần trăm thậm chí còn cao hơn con số đưa ra. Một
cuộc điều tra 400 hồ sơ của các tù nhân và phát hiện ra rằng 260 tù nhân là tội
phạm ma túy. Với α = 0.05, thì cảm nhận của người trên có đúng không?
10. Đã có báo cáo rằng 59.3% bữa ăn trưa ở trường tại Hoa Kỳ được cung cấp miễn
phí hoặc giảm giá. Một mẫu ngẫu nhiên của 300 trẻ em trong một khu vực đô
thị lớn chỉ ra rằng 156 người trong số họ được ăn trưa miễn phí hoặc giảm giá.
Ở mức ý nghĩa 0.01, liệu có đủ bằng chứng để kết luận rằng tỷ lệ này thấp hơn
59.3% không?
11. Một nhà sản xuất radio cho biết 65% thanh thiếu niên từ 13 đến 16 tuổi có radio.
Nhà nghiên cứu mong muốn kiểm định tuyên bố trên và chọn một mẫu ngẫu
nhiên của 80 thanh thiếu niên. Kết quả nhận thấy có 57 radio. Với α = 0.05, liệu
tuyên bố có bị bác bỏ không? Sử dụng phương pháp P −value.
12. Một huấn luyện viên bóng đá tuyên bố rằng cân nặng trung bình của tất cả các
thành viên trong đội đối phương là 225 pound. Để kiểm định tuyên bố trên, một
mẫu của 50 thành viên được lấy từ tất cả các đội đối phương. Trung bình được
tìm thấy là 230 pound. Độ lệch chuẩn tổng thể là 15 pound. Với α = 0.01, kiểm
định tuyên bố của huấn luyện viên. Tìm P −value và đưa ra quyết định.
160
13. Một quảng cáo cho rằng Fasto Stomach Calm sẽ giúp giảm bớt khó tiêu trong
vòng chưa đến 10 phút. Để tra nhận định trên, một mẫu 35 cá nhân đã sử dụng
sản phẩm; thời gian trung bình cho đến khi giảm bớt khó tiêu là 9.25 phút. Từ
các nghiên cứu trước đây, độ lệch chuẩn của tổng thể được biết là 2 phút. Bạn
có thể kết luận rằng báo cáo trên là hợp lý không? Tìm P −value và đưa ra quyết
định, với α = 0.05.
14. Một biên tập viên cho thấy độ lệch chuẩn cho số phút trong một video là 3.4
phút. Một mẫu gồm 24 video có độ lệch chuẩn 4.2 phút. Với α = 0.05, liệu có thể
kết luận rằng độ lệch chuẩn của mẫu khác với độ lệch chuẩn ở giả thuyết của
biên tập viên không?
15. Độ lệch chuẩn của mức tiêu thụ nhiên liệu của một chiếc ô tô nào đó được đưa
ra là lớn hơn hoặc bằng 4.3 dặm cho mỗi gallon. Một mẫu 20 xe ôtô có độ lệch
chuẩn là 2.6 dặm cho mỗi gallon. Độ lệch chuẩn thực sự có thấp hơn nhận định
trên đây không? Với α = 0.05. Sử dụng phương pháp P −value để giải bài toán.
16. Một đại lý bất động sản tuyên bố rằng độ lệch chuẩn của mức giá thuê căn hộ
tại một quận nhất định là 95 USD. Một mẫu ngẫu nhiên về giá thuê căn hộ được
cho như sau. Với α = 0.02, liệu ta có thể bác bỏ tuyên bố trên không?

400 345 325 395 400 300


375 435 495 525 290 460
425 250 200 525 375 390

17. Một mẫu ngẫu nhiên của số lượng các trò chơi do các nhà lãnh đạo cá nhân NBA
ghi điểm được cho dưới đây. Có đủ bằng chứng để kết luận rằng số lượng các trò
trơi thực tế khác 40 không? Sử dụng α = 0.05.

72 79 80 74 82
79 82 78 60 75

18. Để kiểm tra xem người ta có bơm căng lốp xe của mình ở mức chính xác là 35
pound/inch2 (viết tắt psi) hay không, một giám đốc công ty lốp xe chọn một mẫu
36 lốp xe và kiểm tra áp suất. Trung bình của mẫu thu được là 33.5 (psi), và
độ lệch chuẩn tổng thể là 3 (psi). Lốp xe có được bơm căng đúng cách không?
Sử dụng α = 0.10. Tìm khoảng tin cậy 90% cho trung bình. Kết quả có phù hợp
không? Giải thích.
19. Một nhà sinh vật học biết rằng chiều dài trung bình của một chiếc lá ở một cây
trồng trưởng thành là 4 inch. Độ lệch chuẩn của tổng thể là 0.6 inch. Một mẫu
20 lá của loại cây này có chiều dài trung bình 4.2 inch. Có đủ cơ sở để tin rằng
sự tăng trưởng của lá đã thay đổi không? Sử dụng α = 0.01. Tìm khoảng tin cậy
99% cho trung bình. Kết quả có phù hợp không? Giải thích. Giả sử rằng biến đó
tiệm cận phân phối chuẩn.

161
Chương 9

TƯƠNG QUAN VÀ HỒI QUY

Trong chương 7 và 8 ta đã tìm hiểu hai phần lý thuyết của thống kê suy diễn là
khoảng tin cậy và kiểm định giả thuyết. Một mảng khác của thống kê suy diễn là việc
xác định liệu có mối quan hệ nào tồn tại giữa hai hay nhiều biến với nhau không.
Chẳng hạn, người nghiên cứu muốn tìm hiểu trí thông minh (đo lường bằng thương
số trí tuệ IQ) của cha mẹ và con cái có liên hệ như thế nào? Các nhà y khoa quan
tâm đến việc nghiện thuốc lá có liên quan đến bệnh ung thư phổi hay không? Hoặc
liệu có mối liên quan gì giữa độ tuổi với huyết áp của con người hay không? Một
doanh nghiệp muốn biết liệu doanh số bán hàng trong một tháng nhất định có liên
quan đến số tiền quảng cáo mà công ty đó thực hiện trong tháng đó không? Các nhà
giáo dục quan tâm đến việc xác định xem số giờ học sinh học có liên quan đến điểm
số của học sinh trong một kỳ thi cụ thể không? Một nhà động vật học muốn biết
liệu cân nặng khi sinh của một con vật có liên quan đến tuổi thọ của nó hay không?
Đây chỉ là một vài câu hỏi trong thực tế, muốn trả lời các câu hỏi đó đòi hỏi phải
sử dụng các kỹ thuật phân tích tương quan và hồi quy. Tương quan (Correlation) là
một phương pháp thống kê được sử dụng để xác định liệu có mối liên hệ giữa các
biến với nhau hay không. Hồi quy (Regression) là một phương pháp thống kê được sử
dụng để mô tả bản chất của mối quan hệ giữa các biến, tức là dương hay âm, tuyến
tính hay phi tuyến tính.
Mục đích của chương này là để trả lời những câu hỏi sau về mặt thống kê:

1. Khi cho hai hay nhiều biến thì liệu có tồn tại mối tương quan giữa chúng không?
2. Nếu có tương quan giữa các biến thì độ mạnh (strength) của mối tương quan là
gì?
3. Có bao nhiêu loại tương quan?
4. Những loại dự đoán nào có thể được tạo ra từ các tương quan giữa các biến?

Để trả lời hai câu hỏi đầu tiên, các nhà thống kê sử dụng các đo lường về mức
độ liên hệ giữa hai hay nhiều biến, được gọi là "hệ số tương quan" (correlation
coefficient).
Đối với câu hỏi thứ ba, có hai loại tương quan: hồi quy đơn (simple regression)
và hồi quy bội (multiple regression). Trong hồi quy đơn, bao gồm hai biến: một biến
độc lập (hay còn gọi là biến giải thích; biến dự báo) và một biến phụ thuộc (hay còn
gọi là biến phản ứng). Hồi quy đơn là một phân tích mối quan hệ đơn biến và có
một biến độc lập được sử dụng để dự đoán biến phụ thuộc. Chẳng hạn, một người
quản lý có thể muốn biết liệu số năm nhân viên bán hàng làm việc cho công ty có
liên quan đến số lượng hàng mà họ bán không. Ở ví dụ này thì nó là một nghiên cứu
về hồi quy đơn vì chỉ có hai biến là số năm kinh nghiệm và số lượng hàng bán.
Trong hồi quy bội, thì có nhiều biến độc lập được sử dụng để dự đoán một biến
162
phụ thuộc. Chẳng hạn, nhà giáo dục có thể muốn điều tra mối quan hệ giữa sự thành
công của học sinh trong trường đại học với các yếu tố như số giờ lên lớp, điểm trung
bình của học sinh và kiến thức nền của học sinh.
Cuối cùng, câu hỏi thứ tư hỏi về các loại dự đoán nào có thể được thực hiện. Dự
đoán được thực hiện trong tất cả các lĩnh vực và xuất hiện hàng ngày. Chẳng hạn
như dự báo thời tiết, phân tích thị trường chứng khoán, dự đoán doanh thu, dự đoán
mùa màng, dự đoán giá xăng và dự đoán thể thao. Giữa các dự đoán, nó có tính so
sánh cái nào chính xác hơn, để thực hiện điều này người ta dựa vào độ mạnh của mối
tương quan.

9.1 Đồ thị với các điểm chấm (scatter plots) và tương quan (cor-
relation)

a. Đồ thị với các điểm chấm


Trong các nghiên cứu về hồi quy và tương quan đơn, nhà nghiên cứu thu thập dữ
liệu về hai biến số để xem mối quan hệ giữa các biến đó có tồn tại hay không. Hai
biến số này có một biến độc lập và một biến phụ thuộc. Biến độc lập là biến trong
hồi quy có thể được kiểm soát hoặc thao tác. Biến phụ thuộc là biến trong hồi quy
không thể kiểm soát được. Chẳng hạn, nếu một nhà nghiên cứu muốn xem liệu có
mối quan hệ giữa số giờ học và điểm kiểm tra trong một kỳ thi hay không, thì nhà
nghiên cứu phải chọn một mẫu ngẫu nhiên, xác định từng giờ học và lấy điểm của
bài kiểm tra. Ta thu được một bảng được cho như sau:

Học sinh Số giờ học x Điểm y


A 6 82
B 2 63
C 1 57
D 5 88
E 2 68
F 3 75

Đối với ví dụ này thì biến độc lập là biến số giờ học của học sinh. Biến phụ thuộc
là biến điểm kiểm tra.
Việc xác định các biến x, y không phải lúc nào cũng rõ ràng. Chẳng hạn, nếu
một nhà nghiên cứu muốn tìm hiểu về ảnh hưởng của tuổi tác đến huyết áp của một
người, nhà nghiên cứu có thể giả định tuổi tác ảnh hưởng đến huyết áp. Do đó, biến
tuổi là biến độc lập, biến huyết áp là biến phụ thuộc. Nhưng một nghiên cứu về thái
độ của chồng về một vấn đề nhất định và thái độ của vợ về cùng vấn đề đó, thì rất
khó để nói biến nào là biến độc lập và biến nào là biến phụ thuộc. Khi đó, nhà nghiên
cứu có thể chỉ định các biến độc lập và biến phụ thuộc.
Biểu diễn sự tương quan giữa biến độc lập và biến phụ thuộc bằng đồ thị với các
chấm (scatter plot). Biến độc lập x được vẽ bằng trục ngang, biến phụ thuộc y được
vẽ bằng trục thẳng đứng. Đồ thị với các chấm là một cách trực quan để mô tả bản
chất của mối liên hệ giữa các biến độc lập và phụ thuộc.

163
Ví dụ 9.1.1. Xây dựng một đồ thị với các chấm cho dữ liệu được cho dưới đây về
các công ty cho thuê xe tại Hoa Kỳ trong một năm gần đây.

Công ty Số xe (đơn vị chục nghìn) Doanh thu (đơn vị tỷ đô)


A 63.0 7.0
B 29.0 3.9
C 20.8 2.1
D 19.1 2.8
E 13.4 1.4
F 8.5 1.5

Lời giải:

• Bước 1: Vẽ hệ trục Oxy .


• Bước 2: Vẽ mỗi điểm (x, y) trên hệ trục. Với x là số xe của từng công ty, y là
doanh thu tương ứng.

Ví dụ 9.1.2. Xây dựng một đồ thị với các chấm cho dữ liệu thu được trong một
nghiên cứu về số lần vắng mặt và điểm cuối kỳ của bảy sinh viên được chọn ngẫu
nhiên từ một lớp học. Dữ liệu thu được như sau:

Sinh viên Số lần vắng x Điểm cuối kỳ y (%)


A 6 82
B 2 86
C 15 43
D 9 74
E 12 58
F 5 90
G 8 78

Đáp án:

164
Ví dụ 9.1.3. Xây dựng một đồ thị với các chấm cho dữ liệu thu được trong một
nghiên cứu về số giờ tập thể dục và lượng sữa mỗi người tiêu thụ mỗi tuần của 9
người được chọn. Dữ liệu được cho như sau:

Đối tượng Số giờ x Lượng sữa


A 3 48
B 0 8
C 2 32
D 5 64
E 8 10
F 5 32
G 10 56
H 2 72
I 1 48

Đáp án:

Sau khi vẽ đồ thị với các chấm, cần phân tích để xác định loại tương quan nếu
tồn tại. Ví dụ đồ thị thể hiện trong ví dụ 9.1.1 cho thấy một mối tương quan dương,
vì khi số lượng xe tăng thì doanh thu cũng có xu hướng tăng lên. Đối với dữ liệu

165
được thể hiện trong đồ thị ở ví dụ 9.1.2 cho thấy một tương quan âm, vì khi số lần
vắng mặt tăng lên thì điểm cuối kỳ giảm. Nhưng đối với dữ liệu được thể hiện trong
đồ thị ở ví dụ 9.1.3 cho thấy không tồn tại một tương quan cụ thể nào.
Lưu ý rằng dữ liệu thể hiện trong các hình ở ví dụ 9.1.1 và 9.1.2 cũng cho ta thấy
một mối quan hệ tuyến tính, vì các điểm chấm gần như nằm trên một đường thẳng
mặc dù không thật sự chính xác. Một trường hợp khác về mối quan hệ phi tuyến
tính được thể hiện trong hình sau. Trong chương này sẽ trình bày về mối tương quan
tuyến tính.

Hình 9.1: Đồ thị về mối quan hệ phi tuyến tính.

b. Tương quan
Định nghĩa 9.1.1. Hệ số tương quan được tính từ một mẫu dữ liệu đo độ mạnh và
chiều hướng âm hay dương của mối tương quan giữa hai biến. Hệ số tương quan mẫu
(sample correlation coefficient) được kí hiệu r và hệ số tương quan tổng thể được kí
hiệu ρ.

Hệ số tương quan thuộc trong đoạn từ −1 đến 1. Nếu có một tương quan tuyến
tính dương thì hệ số tương quan gần với 1. Nếu có một tương quan tuyến tính âm
thì hệ số tương quan gần −1. Khi không có tương quan tuyến tính giữa các biến hoặc
chỉ có tương quan yếu thì hệ số tương quan sẽ gần bằng 0. Một ví dụ về các hệ số
tương quan như sau:

166
Công thức để tính hệ số tương quan:
P P P
n ( xy) − ( x) ( y)
r = rh i,
P 2 P 2i h P 2 P 2
n( x )−( x) n( y )−( y)

trong đó: n là số cặp điểm số (x, y).

Chú ý 7. Quy tắc làm tròn cho hệ số tương quan là làm tròn đến 3 chữ số thập phân.
Ví dụ 9.1.4. Tìm hệ số tương quan cho dữ liệu ở ví dụ 9.1.1.
Lời giải:

• Bước 1: Lập bảng như sau:

Công ty Số xe x (đơn vị chục nghìn) Doanh thu y (đơn vị tỷ đô) xy x2 y2


A 63.0 7.0
B 29.0 3.9
C 20.8 2.1
D 19.1 2.8
E 13.4 1.4
F 8.5 1.5

• Bước 2: Tìm các giá trị xy, x2 , y 2 . Và tính tổng các cột. Ta có kết quả ở bảng sau:

167
Công Số xe x Doanh thu y xy x2 y2
ty (đơn vị 10.000) (đơn vị tỷ đô)
A 63.0 7.0 441.00 3969.00 49.00
B 29.0 3.9 113.10 841.00 15.21
C 20.8 2.1 43.68 432.64 4.41
D 19.1 2.8 53.48 364.81 7.84
E 13.4 1.4 18.76 179.56 1.96
F 8.5 1.5 2.75 72.25 2.25
P P P P 2 P 2
Tổng x = 153.8 y = 18.7 xy = 682.77 x = 5859.26 y = 80.67

• Bước 3: Áp dụng công thức hệ số tương quan, ta có:


P P P
n( xy) − ( x) ( y)
r = rh ih i
P P 2 P P 2
n( x2 ) − ( x) n( y2) − ( y)

6(682.77) − (153.8)(18.7)
=p = 0.982.
[6(5859.26) − (153.8)2 ][6(80.67) − (18.7)2 ]

Ví dụ 9.1.5. Tìm hệ số tương quan cho dữ liệu trong ví dụ 9.1.2.


Ví dụ 9.1.6. Tìm hệ số tương quan cho dữ liệu trong ví dụ 9.1.3.

9.2 Hồi quy (regression)

Trong nghiên cứu mối quan hệ giữa hai biến, ta tiến hành thu thập dữ liệu và
sau đó vẽ đồ thị với các điểm chấm. Mục đích của vẽ đồ thị với các điểm chấm là
xác định bản chất của mối quan hệ giữa hai biến. Các khả năng có thể bao gồm mối
quan hệ tuyến tính dương, mối quan hệ tuyến tính âm, mối quan hệ phi tuyến tính
hoặc là không có mối quan hệ nào. Sau khi vẽ đồ thị với các điểm chấm, các bước
tiếp theo là tính giá trị của hệ số tương quan và kiểm định ý nghĩa của mối quan hệ.
Nếu giá trị của hệ số tương quan là đáng kể thì bước tiếp theo là xác định phương
trình của đường hồi quy. Với lưu ý, khi hệ số tương quan không đáng kể thì việc đưa
ra dự đoán sử dụng đường hồi quy là vô nghĩa. Mục đích của đường hồi quy là cho
phép nhà nghiên cứu có thể thấy được xu hướng và đưa ra tiên đoán dựa trên số liệu
tìm được.

9.2.1 Đường hồi quy

Trong hình 9.2 cho thấy một đồ thị với các điểm chấm cho một dữ liệu hai biến.
Nó chỉ ra rằng một vài đường có thể được vẽ trên đồ thị gần với các điểm. Với đồ thị
với các điểm chấm, bạn có thể vẽ đường hòa hợp nhất. Đường hòa hợp nhất (line of
best fit) là một đường được đặt làm sao để tổng bình phương của các khoảng cách
dọc từ mỗi điểm đến đường thẳng đó ở mức tối thiểu. Xem hình 9.3

168
Hình 9.2: Đồ thị với ba đường hòa hợp của dữ liệu.

Hình 9.3: Đường hòa hợp tốt nhất cho một tập điểm dữ liệu.

9.2.2 Xác định phương trình đường hồi quy

Các đường tiên đoán trong hình vẽ trên có thể được mô tả bằng một phương trình
gọi là phương trình hồi quy (regression equation). Ta hẳn đã biết rằng phương trình
của một đường thẳng là: y = mx + b, trong đó m là hệ số góc của đường thẳng, b là
tung độ gốc (giao điểm của đường thẳng với trục tung Oy ). Trong thống kê, phương
trình đường hồi quy được viết y 0 = a + bx, trong đó a là tung độ gốc và b là hệ số góc
của đường thẳng.
Để xác định phương trình đường hồi quy trên, vấn đề là xác định các trị số tốt
nhất cho m và tung độ gốc b để làm sao cho đường hồi quy thỏa mãn được tiêu chí
bình phương các khoảng cách nói trên là cực tiểu. Và người ta đã chứng minh được
hệ số góc và tung độ gốc của phương trình đường hồi quy được xác định như sau:
P P 2 P P
( y) x −( x) ( xy)
a= P P 2
n( x2 ) − ( x)
169
P P P
n( xy) − ( x) ( y)
b= P P 2
n( x2 ) − ( x)

Chú ý 8. Quy tắc làm tròn cho giá trị a và b là làm tròn đến 3 chữ số thập phân.

Quy trình xác định hệ số tương quan và phương trình đường hồi quy
• Bước 1: Lập một bảng như thể hiện ở bước 2.
• Bước 2:Tìm các giá trị xy, x2 , y 2 và tính tổng từng cột.

x y xy x2 y2
. . . . .
. . . . .
. . . . .
x2 = y2 =
P P P P P
x= y= xy =

• Bước 3: Áp dụng công thức để tìm hệ số tương quan r:


P P P
n( xy) − ( x) ( y)
r=q
P P 2 P P 2
[n ( x2 ) − ( x) ][n ( y2) − ( y) ]

• Bước 4: Khi r đáng kể thì ta áp dụng công thức để tìm giá trị của a và b cho
phương trình đường hồi quy y 0 = a + bx.

x2 − (
P P P P P P P
( y) x) ( xy) n( xy) − ( x) ( y)
a= P P 2
b= P P 2
n( x2 ) − ( x) n( x2 ) − ( x)

Ví dụ 9.2.1. Tìm phương trình đường hồi quy cho dữ liệu trong ví dụ 9.1.1 và vẽ
đường hồi quy trong đồ thị với các điểm chấm của dữ liệu.
P P
Lời giải: Các giá trị cần thiết cho phương trình là: n = 6, x = 153.8, y =
P P 2
18.7, xy = 682.77 và x = 5859.26. Áp dụng công thức ta có:
P P 2 P P
( y) x −( x) ( xy) (18.7)(5859.26) − (153.8)(682.77)
a= P 2 = = 0.396
(6)(5859.26) − (153.8)2
P
n ( x2 ) − ( x)
P P P
n ( xy) − ( x) ( y) 6(682.77) − (153.8)(18.7)
b= P 2 = 2
= 0.106
(6)(5859.26) − (153.8)
P 2
n( x )−( x)

Do đó phương trình đường hồi quy là y 0 = 0.396 + 0.106x.


Để vẽ đường hồi quy ta chọn bất kỳ hai điểm trên đường thẳng. Chẳng hạn, ta
chọn hai điểm (15, 1.986), (40, 4.636).

170
Hình 9.4: Đường hồi quy của ví dụ 9.2.1.

Ví dụ 9.2.2. Tìm phương trình đường hồi quy cho dữ liệu trong ví dụ 9.1.2 và vẽ
đường hồi quy trong đồ thị với các điểm chấm của dữ liệu.

Sử dụng phương trình hồi quy để tiên đoán


Chẳng hạn ở ví dụ 9.2.1 hãy sử dụng phương trình đường hồi quy để tiên đoán
thu nhập của một cơ quan cho thuê xe có 200,000 xe là bao nhiêu?
Để trả lời ta chỉ việc thay x = 20 (vì đơn vị chục nghìn) vào phương trình y 0 =
0.396 + 0.106x = 0.396 + 0.106(20) = 2.516. Vậy khi một cơ quan cho thuê xe có 200,000
xe thì doanh thu của công ty xấp xỉ 2.516 tỷ đô.

9.3 Hệ số quyết định và sai số chuẩn tiên đoán

9.3.1 Các loại biến cho mô hình hồi quy

Tổng biến (total variation) (y − y)2 , nó được chia làm hai phần: một là biến thu
P
được từ mối tương quan (tức là giá trị dự đoán y 0 ) (y 0 − y)2 : nó được gọi là biến
P
giải thíchP
(explained variation), mặt khác, biến do trường hợp ngẫu nhiên được tìm
thấy bởi (y − y 0 )2 được gọi là biến không giải thích (unexplained variation). Do đó
ta có: X X X
(y − y)2 = (y 0 − y)2 + (y − y 0 )2 .

171
Hình 9.5: Sai số cho phương trình hồi quy

Quy trình để tìm ra ba loại biến được minh họa qua ví dụ sau:
Xét giả thuyết mô hình hồi quy sau đây.
x 1 2 3 4 5
y 10 8 12 16 20

Phương trình đường hồi quy là y 0 = 4.8 + 2.8x và r = 0.919.


• Bước 1: Tìm giá trị tiên đoán y 0 . Thay giá trị x vào phương trình đường hồi quy
để tìm y 0 .

x y y0
1 10 7.6
2 8 10.4
3 12 13.2
4 16 16.0
5 20 18.8

• Bước 2: Tìm trung bình các giá trị y .


10 + 8 + 12 + 16 + 20
y= = 13.2
5
(y − y)2 .
P
• Bước 3: Tìm tổng biến
X
(y − y)2 = 92.8

(y 0 − y)2 .
P
• Bước 4: Tìm biến giải thích
X
(y 0 − y)2 = 78.4

(y − y 0 )2 .
P
• Bước 5: Tìm biến không giải thích
X
(y − y 0 )2 = 14.4

172
Chú ý rằng: X X X
(y − y)2 = (y 0 − y)2 + (y − y 0 )2 .

9.3.2 Hệ số quyết định (coefficient of determination)

Hệ số quyết định, kí hiệu r2 là số đo mức độ phù hợp của hàm hồi quy. Nó được
xác định: P 0
(y − y)2
r2 = P 2
(y − y)
.
78.4
Với ví dụ trên ta có r2 = = 0.845. Tức là, có 84.5% của tổng biến là được
92.8
"giải thích" bằng đường hồi quy sử dụng biến độc lập.

9.3.3 Sai số tiêu chuẩn tiên đoán (standard error of the estimate)

Định nghĩa 9.3.1. Sai số tiêu chuẩn tiên đoán hay sai số tiêu chuẩn phỏng định, kí
hiệu sest , là độ lệch chuẩn của các giá trị quan sát y so với các giá trị tiên đoán y 0 .
Công thức cho sai số tiêu chuẩn tiên đoán là:
rP
0 2
(y − y )
sest = .
n−2
Ví dụ 9.3.1. Một nhà nghiên cứu thu thập dữ liệu như sau và xác định rằng có mối
tương quan đáng kể giữa thời gian sử dụng của một máy photocopy và chi phí bảo
trì hàng của nó. Phương trình hồi quy là y 0 = 55.57 + 8.13x. Tìm sai số tiêu chuẩn tiên
đoán.
Máy Số năm sử dụng x Chi phí hàng tháng y
A 1 62
B 2 78
C 3 70
D 4 90
E 4 93
F 6 103

Lời giải:

• Bước 1: Lập bảng như sau:

x y y0 y − y0 (y − y 0 )2
1 62
2 78
3 70
4 90
4 93
6 103

• Bước 2: Tìm y 0 từ phương trình đường hồi quy.

173
• Bước 3: Tính y − y 0 .
• Bước 4: Tính (y − y 0 )2 .
• Bước 5: Tính tổng cột (y − y 0 )2 . Hoàn thành bảng như sau:
x y y0 y − y0 (y − y 0 )2
1 62 63.70 -1.70 2.8900
2 78 71.83 6.17 38.0689
3 70 79.96 -9.96 99.2016
4 90 88.09 1.91 3.6481
4 93 88.09 4.91 24.1081
6 103 104.35 -1.35 1.8225
(y − y 0 )2 = 169.7392
P

• Bước 6: Áp dụng công thức sest , ta có:


rP r
(y − y 0 )2 169.7392
sest = = = 6.51
n−2 6−2
Nhận xét 9.3.1. Hệ số tiêu chuẩn tiên đoán cũng có thể được xác định bằng công
thức: rP
2
P P
y −a y−b xy
sest = .
n−2
Ví dụ 9.3.2. Tìm hệ số tiêu chuẩn tiên đoán cho ví dụ 9.3.1 bằng cách sử dụng công
thức trong nhận xét.
Lời giải:
• Bước 1: Lập bảng như sau:
x y xy y2
1 62
2 78
3 70
4 90
4 93
6 103
• Bước 2: Tính xy và điền kết quả vào bảng.
• Bước 3: Tính y 2 và điền vào bảng.
• Bước 4: Tính tổng cột của y, xy, y 2 . Và hoàn thành bảng ta có:
x y xy y2
1 62 62 3,844
2 78 156 6,084
3 70 210 4,900
4 90 360 8,100
4 93 372 8,649
6 103 618 10,609
y 2 = 42, 186
P P P
y = 496 xy = 1778

174
• Bước 5: Từ phương trình hồi quy y 0 = 55.57 + 8.13x ta có a = 55.57, b = 8.13.

• Bước 6: Áp dụng công thức để tính sest :


rP
y2 − a y − b
P P
xy
sest =
n−2
r
42, 186 − (55.57)(496) − (8.13)(1778)
= = 6.48
6−2

9.3.4 Khoảng tiên đoán (prediction interval )

Tương tự khoảng tin cậy trong chương trước, hệ số tiêu chuẩn tiên đoán có thể
được sử dụng cho việc xây dựng một khoảng tiên đoán cho giá trị y 0 . Và khi một giá
trị cụ thể x được thay vào phương trình hồi quy thì giá trị y 0 tương ứng đó là một
ước lượng điểm cho y .

Công thức cho khoảng tiên đoán:


v v
u 2 u 2
0
u 1 n x−X 0
u 1 n x−X
y − tα/2 sest 1 + + P
t
2
< y < y + tα/2 sest 1 + + P
t
2
,
n n
2
P 2
P
n x −( x) n x −( x)

với d. f. = n − 2.
Ví dụ 9.3.3. Với dữ liệu ở ví dụ 9.3.1, tìm khoảng tiên đoán 95% cho chi phí bảo trì
hàng tháng của một máy có thời gian sử dụng 3 năm.
Lời giải:
P P 2
• Bước 1: Tìm x, x và X .
X X 20
x = 20 x2 = 82 X= 3.3
6

• Bước 2: Tìm y 0 với x = 3.

y 0 = 55.57 + 8.13(3) = 79.96

• Bước 3: Tìm sest .


sest = 6.48

• Bước 4: Tìm tα/2 = 2.776, d. f. = 6 − 2 = 4 cho α = 95%. Khi đó khoảng tiên đoán
là:
v v
u 2 u 2
0
u 1 n x−X 0
u 1 n x−X
y − tα/2 sest 1 + + P
t
2
<y < y + tα/2 sest 1 + + P
t
2
n n
2
P 2
P
n x −( x) n x −( x)
60.53 <y < 99.39

Do đó, bạn có thể tin rằng 95% khoảng 60.53 < y < 99.39 chứa giá trị thực tế y .

175
9.4 Hồi quy bội

Trong hồi quy bội (multiple regression) sẽ có một số biến độc lập và một biến phụ
thuộc, phương trình tuyến tính của hồi quy bội là:
y 0 = a + b 1 x 1 + b2 x 2 + · · · + bk x k

trong đó: x1 , x2 , ..., xk là các biến độc lập, y 0 là biến phụ thuộc.
Hệ số tương quan của hồi quy bội, kí hiệu R, cũng được tính để xác định có tương
quan đáng kể nào tồn tại giữa các biến độc lập và biến phụ thuộc. Phân tích hồi quy
bội được sử dụng khi một nhà thống kê nghĩ rằng có một số biến độc lập ảnh hưởng
đến biến phụ thuộc. Phân tích này sau đó được sử dụng để tăng độ chính xác của
tiên đoán của biến phụ thuộc trên duy nhất một biến độc lập.

9.4.1 Phương trình hồi quy bội

Phương trình hồi quy bội với k biến độc lập có dạng:

y 0 = a + b1 x 1 + b2 x 2 + · · · + bk x k

trong đó: x1 , x2 , ..., xk là các biến độc lập, y 0 là biến phụ thuộc.
Công thức cho hệ số tương quan bội với 2 biến độc lập là:
s
2 + r 2 − 2r
ryx1 yx2 yx1 ryx2 rx1 x2
R= 2
1 − rx1 x2

trong đó: ryx1 là giá trị của hệ số tương quan cho biến y và x1 ; ryx2 là giá trị của hệ
số tương quan cho biến y và x2 ; rx1 x2 là giá trị của hệ số tương quan cho biến x1 và x2
Ví dụ 9.4.1. Người hướng dẫn muốn xem liệu điểm trung bình học tập (GPA) và
độ tuổi của sinh viên có liên quan đến điểm số của sinh viên trong cuộc kiểm tra điều
dưỡng của hội đồng nhà nước. Người hướng dẫn chọn 5 sinh viên và lấy được dữ liệu
như sau. Tìm hệ số tương quan R.

Sinh viên GPA x1 Tuổi x2 Điểm cả hội đồng


A 3.2 22 550
B 2.7 27 570
C 2.5 24 525
D 3.4 28 670
E 2.2 23 490

Lời giải:
Tính các hệ số tương quan của từng cặp biến:

ryx1 =0.845
ryx2 =0.791
rx1 x2 =0.371

176
Áp dụng công thức R, chúng ta có:
s
2 + r 2 − 2r
ryx1 yx2 yx1 ryx2 rx1 x2
R=
1 − rx21 x2
r
(0.845)2 + (0.791)2 − 2(0.845)(0.791)(0.371)
=
1 − 0.3712
=0.989

Do đó, sự tương quan giữa điểm trung bình của một sinh viên và tuổi với điểm số
của sinh viên trong kỳ thi của hội đồng điều dưỡng là 0.989. Trong trường hợp này,
có một tương quan cao giữa các biến vì R rất gần với 1.00.
Nhận xét 9.4.1. Tương tự như trong hồi quy đơn, R2 gọi là hệ số quyết định bội
và nó là số lượng biến được giải thích bởi mô hình hồi quy.

9.4.2 Kiểm định ý nghĩa của R

Một kiểm định F được sử dụng để kiểm định ý nghĩa cho R. Giả thuyết là:
H0 : ρ = 0 H1 : ρ 6= 0
trong đó ρ là hệ số tương quan tổng thể cho tương quan bội.
Công thức cho kiểm định F được cho bởi:
R2 /k
F =
(1 − R2 )/(n − k − 1)
trong đó n là số nhóm dữ liệu (x1 , x2 , ..., y) và k là số biến độc lập.
Bậc tự do là d. f. N. = n − k và d. f. D. = n − k − 1.
Ví dụ 9.4.2. Kiểm định ý nghĩa của R thu được từ ví dụ 9.4.1 tại α = 0.05.
Lời giải:
R2 /k
F =
(1 − R2 )/(n − k − 1)
0.978/2
= = 44.45
(1 − 0.978)/(5 − 2 − 1)

Giá trị tới hạn thu được từ bảng H ở phụ lục với α = 0.05, d. f. N. = 3 và d. f. D. =
5 − 2 − 1 = 2 là 19.16. Do đó, có thể đưa ra quyết định bác bỏ giả thuyết và kết luận
rằng có tương quan đáng kể giữa điểm trung bình của sinh viên, độ tuổi và số điểm
trong cuộc điều tra của hội đồng điều dưỡng.

9.4.3 Điều chỉnh R2

Giá trị của R2 phụ thuộc vào n và k , do đó các nhà thống kê cũng tính toán một
giá trị được gọi là điều chỉnh R2 (adjusted R2 ), kí hiệu Radj
2 . Công thức được xác định:

(1 − R2 )(n − 1)
Radj = 1 −
n−k−1
2 cho dữ liệu ở ví dụ 9.4.2. Giá trị của R = 0.989.
Ví dụ 9.4.3. Tính hệ số Radj

177
Phần bài tập chương 9

1. Cục Giao thông Vận tải Hoa Kỳ cung cấp số lượng trung bình hành khách mỗi
chuyến bay hàng tuần (kí hiệu biến x) và giá vé một chiều trung bình (đơn vị
USD) cho các tuyến đường thương mại thông thường (kí hiệu biến y ). Các chuyến
bay được lựa chọn ngẫu nhiên được liệt kê dưới đây với dữ liệu báo cáo kèm theo.
Có bằng chứng về mối quan giữa hai biến này không?

Chuyến bay x y
Pittsburgh–Washington, DC 310 236
Chicago–Pittsburgh 1388 105
Cincinnati–New York City 750 339
Denver–Phoenix 3019 96
Denver–Los Angeles 2151 176
Houston–Philadelphia 1104 180

2. Một nhà nghiên cứu muốn xác định xem có mối tương quan giữa số trung tâm
giữ trẻ ban ngày và số nhà giữ trẻ ban ngày của các quận ở Pennsylvania hay
không. Nếu có một mối tương quan đáng kể, thì hãy dự đoán số nhà giữ trẻ của
một quận nếu quận có 20 trung tâm giữ trẻ ban ngày.

Trung tâm giữ trẻ ban ngày x 5 28 37 16 16 48


Nhà giữ trẻ ban ngày y 2 7 4 10 6 9

3. Một nghiên cứu đã được thực hiện để so sánh các loại thuế thông dụng khác
nhau của mỗi tiểu bang. Hai loại thuế cụ thể: thuế xăng dầu và thuế thuốc lá
được lựa chọn ngẫu nhiên từ các tiểu bang. Có thể kết luận rằng có một mối
tương quan đáng kể giữa hai loại thuế trên không? Dự đoán thuế thuốc lá nếu
thuế xăng là 18.4 cent.

Gas (cent/gallon) x 14 20 24 31 27.8 30.8 23.5


Xăng (USD/thùng) y 0.60 1.41 1.53 2.46 1.70 2.00 1.51

4. Một nghiên cứu được tiến hành để xác định mối tương quan giữa tuổi người lái
xe và số vụ tai nạn mà họ đã trải qua trong một năm. Dữ liệu được hiển thị ở
đây. Nếu có một mối tương quan mạnh, thì hãy dự đoán số vụ tai nạn của lái xe
ở độ tuổi 28.

Tuổi người lái xe x 16 24 18 17 23 27 32


Số vụ tai nạn y 3 2 5 2 0 1 1

5. Một nhà nghiên cứu muốn biết liệu tốc độ đánh máy của một thư ký (số chữ
trên phút) liên quan đến thời gian (giờ) mà thư ký phải học cách sử dụng một
chương trình xử lý văn bản mới. Dữ liệu được hiển thị như sau:

Tốc độ x 48 74 52 79 83 56 85 63 88 74 90 92
Thời gian y 7 4 8 3.5 2 6 2.3 5 2.1 4.5 1.9 1.5

178
Nếu có tương quan mạnh thì hãy dự đoán thời gian trung bình mà thư ký bỏ ra
để học chương trình soạn thảo văn bản biết rằng người đó có tốc độ đánh máy
là 72 từ mỗi phút.
6. Một nghiên cứu đã được tiến hành với người ăn chay để xem liệu số lượng (gram)
protein mỗi lần ăn mỗi ngày liên quan đến huyết áp tâm trương. Dữ liệu được
đưa ra ở đây. Nếu có một mối tương quan mạnh, thì hãy dự đoán áp suất tâm
trương của một người ăn chay ăn 8 gram protein mỗi ngày.

Lượng protein x 4 6.5 5 5.5 8 10 9 8.2 10.5


Huyết áp tâm trương y 73 79 83 82 84 92 88 86 95

7. Mặc dù ngày càng có nhiều phụ nữ trở thành bác sĩ mỗi năm, người ta cũng biết
rằng đàn ông chiếm nhiều hơn phụ nữ trong nhiều chuyên khoa. Lựa chọn ngẫu
nhiên các chuyên khoa và được liệt kê dưới đây về số bác sĩ nam và nữ trong mỗi
chuyên khoa. Có thể kết luận rằng có một mối tương quan đáng kể giữa hai biến
trên không? Dự đoán số bác sĩ nam khi có 2000 bác sĩ nữ.

Chuyên khoa Nữ x Nam y


Da liễu 3,482 6,506
Cấp cứu 5,098 20,429
Thần kinh 2,895 10,088
Tim mạch nhi 459 1,241
Chụp X-quang 1,218 7,574
Khoa học pháp y 181 399
Xạ trị ung thư 968 3,215

8. Tìm sai số tiêu chuẩn tiên đoán trong bài tập 4.


9. Tìm sai số tiêu chuẩn tiên đoán trong bài tập 5.
10. Tìm sai số tiêu chuẩn tiên đoán trong bài tập 6.
11. Với bài tập 5, tìm khoảng tiên đoán 90% cho thời gian khi tốc độ là 72 từ/phút.
12. Với bài tập 6, tìm khoảng tiên đoán 95% cho huyết áp tâm trương khi lượng
protein là 8 gram.
13. Một nghiên cứu đã tìm ra mối tương quan đáng kể về số năm kinh nghiệm của
một người đối với một công việc cụ thể x1 , số ngày nghỉ việc mỗi tháng x2 và
tuổi của người đó y . Phương trình hồi quy là y 0 = 12.8 + 2.09x1 + 0.423x2 . Dự đoán
tuổi của một người nếu người đó đã được tuyển dụng trong 4 năm và có số ngày
nghỉ là 2 ngày trong mỗi tháng.
14. Tìm R khi ryx1 = 0.681, ryx2 = 0.872 và rx1 x2 = 0.746.
2 khi R = 0.873, n = 10 và k = 3.
15. Tìm Radj

179
BÀI TẬP TỔNG HỢP
BÀI TẬP CHƯƠNG 4

1. a. Có mấy cách phân phối ngẫu nhiên 6 tặng phẩm cho 3 người.
b. Có mấy cách phân phối ngẫu nhiên 6 tặng phẩm cho 3 người sao cho người
thứ hai có đúng 1 tặng phẩm.
c. Có mấy cách phân phối ngẫu nhiên 6 tặng phẩm cho 3 người sao cho mỗi người
có 2 tặng phẩm.
2. Một sinh viên thi cuối kỳ phải thi 3 môn trong một tuần (7 ngày), biết mỗi ngày
thi một môn. Hỏi phòng đào tạo có mấy cách lập lịch thi.
ĐS: Có 210 cách lập lịch thi.
3. Một lô hàng có 10 sản phẩm, trong đó có 7 chính phẩm và 3 phế phẩm.
a. Có mấy cách lấy nhẫu nhiên ra 4 sản phẩm để kiểm tra từ lô hàng đó.
b. Có mấy cách lấy nhẫu nhiên ra 4 sản phẩm để kiểm tra từ lô hàng đó, trong
đó số chính phẩm và phế phẩm bằng nhau.
c. Có mấy cách lấy nhẫu nhiên ra 4 sản phẩm để kiểm tra từ lô hàng đó, trong
đó số chính phẩm nhiều hơn số phế phẩm.
ĐS: a. 210; b. 63; c. 140.
4. "Theo thống kê của Sở Văn hóa, Thể thao và Du lịch thành phố, tổng lượt khách
đến thăm quan, du lịch tại Đà Nẵng trong dịp diễn ra Cuộc thi trình diễn pháo
hoa quốc tế 2015 (DIFC 2015), dịp lễ 30/4 và 1/5 đạt 450.000 lượt, tăng 13, 9%
so với dịp DIFC 2013. Công suất buồng phòng của các khách sạn trong 2 đêm
pháo hoa 28 và 29/4 đạt khoảng 90 − 95%. Những khách sạn ở trung tâm và khu
vực ven biển, đường phạm Văn Đồng, Bạch Đằng, Trần Hưng Đạo đạt 100%".
Tại ĐN, Khách sạn A có 20 tầng. Có 10 khách xuất phát từ tầng 1, mỗi người
chọn ngẫu nhiên 1 tầng từ 2 đến 20. Tính xác suất để:
a. Tất cả cùng ra một tầng.
b. Chỉ có 1 người ra tầng 5.
c. Mỗi người ra một tầng khác nhau.
d. Có 3 người ra tầng 8.
e. Giả sử 4 người này là 2 cặp vợ chồng, vợ chồng cùng đi với nhau. Có mấy cách
để 2 cặp vợ chồng này ra 2 tầng khác nhau.
f. Giả sử từ tầng 2 đến tầng 6 đang sửa chữa, không ra được. Hỏi có mấy cách
để mỗi mỗi người ra một tầng khác nhau.
5. Một khách sạn có 6 phòng đơn. Có 10 khách đến thuê phòng, trong đó có 6 nam
và 4 nữ. Người quản lí chọn ngẫu nhiên 6 người. Tính xác suất để:
a. Cả 6 người đều là nam.
b. Có 4 nam và 2 nữ.

180
c. Có ít nhất hai nữ.
ĐS: a. p=1/210; b. p=3/7; c. p=37/42.
6. Một nam sinh viên gọi điện thoại cho một cô gái mới quen nhưng lại quên mất
3 chữ số cuối và chỉ nhớ rằng chúng khác nhau và có chữ số 0. Hỏi anh này có
mấy cách để bấm máy.
ĐS: 216 cách bấm máy.
7. Kiểm tra ba sản phẩm (mỗi sản phẩm chỉ có một trong hai khả năng tốt hoặc
xấu). Gọi A1 , A2 , A3 lần lượt là các biến cố sản phẩm thứ 1, 2, 3 là sản phẩm tốt.
Hãy biểu diễn các biến cố sau theo các biến cố A1 , A2 , A3 :
a. Tất cả đều xấu.
b. Có ít nhất một sản phẩm xấu.
c. Có ít nhất một sản phẩm tốt.
d. Không phải tất cả các sản phẩm đều tốt.
e. Có đúng một sản phẩm xấu.
f. Có ít nhất hai sản phẩm tốt.
g. Ω.
8. Quan sát 4 sinh viên làm bài thi. Kí hiệu Bj là biến cố sinh viên j làm bài thi
đạt yêu cầu (j = 1, 4). Hãy biểu diễn các biến cố sau đây theo các biến cố Bj :
a. Ω.
b. Có đúng một sinh viên đạt yêu cầu.
c. Có đúng 3 sinh viên đạt yêu cầu.
d. Có ít nhất 1 sinh viên đạt yêu cầu.
e. Không có sinh viên đạt yêu cầu.
9. Chọn ngẫu nhiên 1 nhân viên trong một công ty để lấy thông tin. Gọi A là biến
cố nhân viên được chọn là nam, B là biến cố nhân viên được chọn đã tốt nghiệp
đại học, C là biến cố nhân viên đó đã lập gia đình.
a. Hãy mô tả biến cố ABC .
b. Với điều kiện nào thì ta có ABC = A.
c. Khi nào thì ta có C = A.
10. Một trong hai nhà phân tích thị trường cổ phiếu được yêu cầu dự báo xem đến
cuối 12 tháng tới, liệu số trung bình cổ phiếu Dow-Jones sẽ tăng 100 điểm hay
nhiều hơn, sẽ giảm 100 điểm hay nhiều hơn, hoặc sẽ thay đổi ít hơn 100 điểm.
Phép thử này gồm có việc quan sát cặp dự báo do hai nhà phân tích thị trường
đưa ra. Giả sử mỗi nhà phân tích có khả năng chọn bất kỳ một phương án nào
trong ba phương án trên, việc lựa chọn các phương án là đồng khả năng.
a. Hãy liệt kê các biến cố sơ cấp trong không gian mẫu. Hãy sử dụng lược đồ
hình cây.
b. Cho A là biến cố ít nhất là một trong hai nhà phân tích dự báo số trung bình
Dow-Jones sẽ tăng 100 điểm hay nhiều hơn. Hãy tìm các biến cố sơ cấp trong A.
181
c. Cho B là biến cố cả hai nhà phân tích đều dự báo giống nhau. Hãy tìm các
biến cố sơ cấp trong B.
d Hãy ấn định xác suất cho các biến cố đơn trong S, và tìm P(A).
e Hãy tìm P(B).
11. Tung hai con xúc xắc. Gọi A là biến cố "Số nốt xuất hiện trên con xúc xắc một
chia hết cho số nốt trên con xúc xắc hai". B là biến cố "Tổng số nốt xuất hiện
trên hai con là số chẵn". Hỏi A và B có độc lập, có xung khắc hay không?
12. Trò chơi ru-lét sử dụng một vòng ru-lét có 38 ngăn. Ba mươi sáu ngăn được đánh
số 1, 2, . . . , 36, và hai ngăn còn lại được đánh số 0 và 00. Vòng ru-lét được quay
tròn và một trong những ngăn này được xác định là “người thắng cuộc.” (Quả
cầu nhỏ dừng lại ở ngăn nào thì người dự đoán đúng ngăn đó sẽ thắng). Giả định
rằng việc quan sát bất kỳ ngăn nào cũng có khả năng xảy ra như bất kỳ ngăn
nào khác.
a. Hãy xác định các biến cố sơ cấp trong một lần quay vòng ru-lét.
b. Hãy xác định xác suất cho các biến cố sơ cấp này.
c. Cho A là biến cố "anh/chị quan sát được 0 hoặc 00". Hãy liệt kê các biến cố
sơ cấp trong biến cố A , và hãy tìm P(A).
d. Giả định anh/chị đánh cược vào các số 1 đến 18. Xác suất để một trong các
con số của anh/chị sẽ thành người thắng cuộc là bao nhiêu?
13. Biển đăng ký xe máy ở TP. ĐN gồm 2 hàng: Hàng 1 là chỉ số vùng ĐN số 43 -
tiếp theo là 1 chữ cái và một chữ số. Hàng 2 là một dãy gồm 5 chữ số. Chữ cái
được chọn trong bảng gồm 26 chữ cái từ A đến Z; chữ số được chọn từ 0 đến 9.
Một người quay số ngẫu nhiên. Tính xác sất để được biển số xe:
a. Hàng 2 có 2 chữ số cuối là 68.
b. Hàng 2 có các chữ số phải khác nhau.
c. Hàng 2 có các chữ số khác nhau và tổng các chữ số bằng 9 (thường gọi 9 điểm).
d. Hàng 2 có các chữ số khác nhau và tổng các chữ số bằng 10.
14. Trong một hộp có 12 bóng đèn, trong đó có 3 bóng hỏng. Lấy ngẫu nhiên lần
lượt không hoàn lại 3 bóng để dùng. Tính xác suất để :
a. Có 1 bóng bị hỏng.
b. Cả 3 bóng đều hỏng.
c. Có ít nhất một bóng không hỏng.
d. Chỉ có bóng thứ hai hỏng.
ĐS: a. p=0,491 b. p=0,004545 c. p=0,995455 d. p=0,164.
15. Một hệ thống vòi cứu hỏa sử dụng trên các cao ốc thương mại được thiết kế để
cho mỗi vòi cứu hỏa có thể được kích hoạt thông qua hai thiết bị độc lập. Vòi
cứu hỏa sẽ hoạt động khi một trong hai thiết bị này (hoặc cả hai) được kích
hoạt. Độ tin cậy của thiết bị thứ nhất (xác suất để nó được kích hoạt khi đạt
đến nhiệt độ nhất định) là 0,91, trong khi độ tin cậy của thiết bị thứ hai là 0,95.

182
Xác suất để vòi cứu hỏa này sẽ hoạt động đúng khi đạt đến một nhiệt độ nhất
định là bao nhiêu?
16. "Ít ai biết rằng, người phát minh ra máy ATM trong hệ thống ngân hàng là người
Việt Nam: ông Đỗ Đức Cường. Ông là tác giả của trên 50 phát minh sáng chế, 20
năm làm việc tại ngân hàng Citibank - Mỹ, chuyên viên cao cấp cho ngành ngân
hàng Hoa Kỳ. Đỗ Đức Cường sinh ra và lớn lên ở vùng quê Đức Phổ, Quảng
Ngãi. Những năm tuổi thơ nghèo khó. Các anh chị em lần lượt chết vì đói, 6 tuổi
ông cũng đã chết hụt một lần và sống lại ngay kề miệng huyệt".
Có 30 tấm thẻ ATM đánh số từ 1 tới 30. Chọn ngẫu nhiên ra 10 tấm thẻ. Tính
xác suất để:
a. Tất cả 10 tấm thẻ đều mang số chẵn.
b. Có đúng 5 số chia hết cho 3.
c. Có 5 tấm thẻ mang số lẻ, 5 tấm thẻ mang số chẵn trong đó chỉ có một số chia
hết cho 10.
ĐS: a. p=0,0001; b. p= 0,13; c. p= 0,1484.
17. Một quốc gia có 50 tỉnh, mỗi tỉnh có hai đại biểu Quốc hội. Người ta chọn ngẫu
nhiên 50 đại biểu trong số 100 đại biểu để thành lập một ủy ban. Tính xác suất
để:
a. Trong ủy ban có ít nhất một đại biểu của thủ đô.
b. Mỗi tỉnh đều có đúng 1 đại biểu trong ủy ban.
ĐS: a. p=0,7525; b. p=1, 116.10−14 .
18. Tính xác suất để 12 người được chọn ngẫu nhiên có ngày sinh rơi vào 12 tháng
khác nhau.
ĐS: p=5.37232.10−5 .
19. Một đoàn tàu gồm 3 toa đỗ ở sân ga. Có 5 hành khách bước lên tàu. Mỗi hành
khách độc lập với nhau chọn ngẫu nhiên một toa. Tính xác suất để mỗi toa đều
có hành khách mới bước lên.
ĐS: p=50/81.
20. Trong điều trị bệnh lao có hiện tượng kháng thuốc. Xác suất kháng INH của vi
khuẩn lao là 0,2; Xác suất kháng PAS của vi khuẩn lao là 0,4; Xác suất kháng
Streptomycin của vi khuẩn lao là 0,3. Biết việc kháng các loại thuốc khác nhau
là độc lập với nhau. Nếu kết hợp cả 3 loại thuốc thì khả năng khỏi bệnh là bao
nhiêu, biết bệnh nhân sẽ khỏi bệnh khi không bị kháng cả 3 loại thuốc nói trên?
21. Trong một trận không chiến giữa máy bay ta và máy bay địch, máy bay ta bắn
trước với xác suất trúng là 0,6. Nếu trượt, máy bay địch bắn trả lại với xác suất
trúng là 0,45. Nếu không bị trúng đạn máy bay là lại bắn trả với xác suất trúng
là 0,3. Tính xác suất để:
a) Máy bay địch bị rơi trong cuộc không chiến này.
b) Máy bay ta bị rơi trong cuộc không chiến này.

183
22. Theo báo Dân Trí “Hiện nay tại VN, tỷ số giới tính khi sinh tiếp tục gia tăng
mạnh mẽ với 114,3 trẻ trai/100 trẻ gái. Nếu không ngăn được sự gia tăng của
tình trạng chênh lệch giới tính khi sinh thì hậu quả sẽ rất nặng nề về sau”
Từ số liệu trên suy ra tỷ lệ sinh bé trai: p = (114, 3)/(214, 3) = 0.53.
Xác suất sinh bé trai của một người là 0.53.
a. Tính xác suất để sinh bằng được con trai ở lần thứ 3.
b. Tính xác suất sinh 2 bé gái.
c. Tính xác suất sinh 1 trai, 1 gái.
23. Ta biết rằng các trẻ sinh đôi có thể là sinh đôi thật (do 1 trứng sinh ra), trong
trường hợp này chúng cùng giới, hoặc giả sinh đôi (do 2 trứng sinh ra), trong
trường hợp này xác suất để chúng cùng giới là 0,5. Ta giả thiết rằng xác suất
sao cho hai trẻ sinh đôi là sinh đôi thật là một số p đã biết.
a) Tính xác suất để cho 2 trẻ là sinh đôi thật, biết chúng cùng giới.
b) Tính xác suất để cho 2 trẻ là giả sinh đôi , biết chúng khác giới.
24. Một cuộc điều tra gần đây về các doanh nghiệp Hoa Kỳ đã chỉ ra rằng, 40% các
doanh nghiệp đều duy trì một chương trình nghỉ phép sinh đẻ cho các bậc cha
mẹ của những đứa con mới sinh (vợ sinh thì chồng cũng được nghỉ). Trong số
những doanh nghiệp này, một phần ba cung cấp kiểu tiếp tục trả tiền lương
trong suốt thời gian nghỉ phép, và ba phần tư tiếp tục trợ cấp chăm sóc y tế.
a. Xác suất để một doanh nghiệp được chọn ngẫu nhiên cho nghỉ phép sinh đẻ,
với một hình thức tiếp tục trả lương là bao nhiêu?
b. Xác suất để một doanh nghiệp được chọn ngẫu nhiên cho nghỉ phép sinh đẻ,
mà không tiếp tục trợ cấp chi phí chăm sóc y tế, là bao nhiêu?
25. Để được tuyển vào làm trong một ngân hàng, một người phải qua ba vòng phỏng
vấn, với điều kiện qua vòng đầu mới được dự tuyển ở vòng tiếp theo. Xác suất
để người đó được tuyển ở vòng 1, vòng 2, vòng 3 lần lượt là: 0,8 ; 0,9 và 0,85.
Tính xác suất để:
a. Người đó bị loại ở vòng thứ 2.
b. Người đó được nhận vào làm trong ngân hàng đó.
c. Người đó bị loại.
ĐS: a. p=0,08; b. p=0,612; c. p=0,388.
26. Một lớp học có 100 sinh viên, trong đó có 50 sinh viên giỏi Anh văn, 45 sinh viên
giỏi Pháp văn, 10 sinh viên giỏi cả hai ngoại ngữ nói trên. Chọn ngẫu nhiên 1
sinh viên trong lớp. Tính xác suất để:
a. Sinh viên này giỏi ít nhất một ngoại ngữ.
b. Sinh viên này không giỏi ngoại ngữ nào hết.
c. Sinh viên này chỉ giỏi đúng mỗi Anh văn.
d. Sinh viên này chỉ giỏi đúng 1 ngoại ngữ.
ĐS: a. 0,85; b. 0,15; c. 0,4; d. 0,75.

184
27. Theo thống kê, tại một địa phương tỷ lệ người dân mắc bệnh huyết áp là 30%,
mắc bệnh tim mạch là 20%. Trong số những người không bị bệnh huyết áp, có
5% mắc bệnh tim mạch. Tìm tỷ lệ người dân của địa phương:
a. Chỉ mắc bệnh tim mạch.
b. Mắc cả 2 loại bệnh nói trên.
c. Mắc 1 loại bệnh.
d. Có mắc bệnh
e. Không mắc bệnh
28. "Hoàng Xuân Vinh (sinh 6 tháng 10 năm 1974 tại Sơn Tây, Hà Nội) là một
vận động viên bắn súng của Việt Nam. Nhờ thành tích huy chương vàng ở nội
dung 10m súng ngắn hơi nam tại Thế vận hội Mùa hè 2016, anh trở thành vận
động viên thể thao Việt Nam đầu tiên và duy nhất tính đến nay giành được huy
chương vàng tại đấu trường Thế vận hội."
Ba xạ thủ A, B, C độc lập với nhau bắn mỗi người 1 viên đạn bia. Xác suất bắn
trúng của mỗi người tương ứng là: 0,7, 0,6 và 0,9.
a. Tính xác suất để duy nhất 1 xạ thủ bắn trúng.
b. Biết bia bị trúng 1 viên đạn. Tính xác suất để viên trúng đó là của xạ thủ thứ
nhất.
c. Tính xác suất để bia bị trúng đạn. ĐS: a. 0,154; b. 0,1818; c. 0,988.
29. "Hiện nay, may mặc không chỉ đóng vai trò quan trọng trong đời sống của con
người mà còn đóng vai trò quan trọng đối với sự phát triển kinh tế đất nước.
Dệt May là ngành có năng lực cạnh tranh cao trong quá trình hội nhập thương
mại quốc tế, là ngành xuất khẩu chủ lực của ngành công nghiệp Việt Nam trong
những năm qua."
Trong một xưởng may công nghiệp có 3 máy làm việc một cách độc lập. Trong
một ngày, máy thứ nhất cần sửa chữa với xác suất 0,15, máy thứ hai với xác
suất 0,1 và máy thứ ba với xác suất 0,12. Tìm xác suất sao cho trong một ngày:
a. Có 1 máy cần sửa chữa.
b. Có 2 máy cần sửa chữa.
c. Không có máy cần sửa chữa.
d. Có ít nhất 1 máy cần sửa chữa.
30. Một nhân viên tiếp thị mỗi ngày đi giới thiệu SP ở 15 đại lý một cách độc lập
với nhau, với xác suất bán được hàng ở mỗi nơi đều bằng 0,4. Tìm xác suất để:
a. Người đó bán được hàng ở 2 nơi.
b. Người đó bán được hàng từ 2 đến 3 nơi.
c. Người đó bán được hàng.
d. Người đó bán được hàng nhiều nhất ở 10 nơi.
e. Người đó không bán được hàng ở 3 nơi.

185
31. Một nhân viên một ngày đi giới thiệu sản phẩm ở nhiều đại lý, biết xác suất để
bán được hàng ở mỗi nơi đều bằng 0,4. Nếu bán được hàng thì nhân viên đó sẽ
về nhà (xem như hoàn thành nhiệm vụ). Nhân viên đó phải đi đến mấy đại lý
để xác bán được hàng là 0,01536.
ĐS: 5 đại lý.
32. Chọn ngẫu nhiên một vé xổ số có 5 chữ số.
a. Tính xác suất để vé không có số 1 hoặc không có số 5. ĐS: p=0,8533.
b. Tính xác suất để vé có chữ số 5 và chữ số chẵn. ĐS: p=0,3885.
33. Một công ty cần tuyển hai nhân viên. Có 6 người nạp đơn trong đó có 4 nữ và
2 nam. Khả năng được tuyển của mỗi người là như nhau.
a. Tính xác suất để cả hai nữ được chọn nếu biết rằng ít nhất một nữ đã được
chọn.
b. Giả sử A là một trong 4 nữ, tính xác suất để A được chọn nếu biết rằng ít
nhất một nữ đã được chọn.
ĐS: a. p=3/7; b. 5/14.
34. Một cuộc điều tra đã được tiến hành để đánh giá tác động của siêu xa lộ thông
tin đối với các doanh nghiệp ở Hoa Kỳ. Dựa trên cuộc điều tra các nhà điều hành
tiếp thị cao cấp này, 40% nói họ sẽ sử dụng siêu xa lộ thông tin để tương tác trực
tiếp với khách hàng, 36% nói họ sẽ không, và 24% trả lời không biết.
a Nếu một nhà điều hành tiếp thị cao cấp được chọn ngẫu nhiên, thì xác suất
để nhà điều hành này sẽ sử dụng siêu xa lộ thông tin để tương tác trực tiếp với
khách hàng là bao nhiêu?
b Nếu hai nhà điều hành tiếp thị cao cấp được chọn ngẫu nhiêu, thì xác suất để
chỉ một nhà điều hành sẽ sử dụng siêu xa lộ thông tin để tương tác trực tiếp với
khách hàng là bao nhiêu?
35. Có 100 thí sinh tham gia một cuộc thi có 3 vòng. Vòng một lấy 90% thí sinh.
Vòng 2 lấy 80% thí sinh của vòng 1 và vòng 3 lấy 90% thí sinh của vòng 2.
a. Tính xác suất để một thí sinh lọt qua 3 vòng thi.
b. Tính xác suất để một thí sinh bị loại ở vòng 2 nếu biết rằng thí sinh đó bị
loại.
ĐS: a. p=0,648; b. p=0,511.
36. Trong một thành phố nào đó, tỷ lệ người thích xem bóng đá là 65%. Chọn ngẫu
nhiên 12 người. Tính xác suất để trong đó có đúng 5 người thích xem đá bóng.
(Biết sở thích xem bóng đá của mỗi người độc lập với nhau)
ĐS: p=0,0591
37. Trò chơi chiếc nón kỳ diệu được tổ chức vào các ngày CN trên truyền hình. Mỗi
lần chơi chọn ra 1 quán quân. Quán quân này có cơ hội nhận giải đặc biệt 100
triệu bằng cách quay ngẫu nhiên 1 trong 5 ô (trong đó chỉ có 1 ô ĐB). Tính xác
suất để trong 10 tuần, có:
a/ Hai người chơi nhận giải ĐB.
186
b/ Không có người chơi nhận giải ĐB.
c/ Có ít nhất 1 người chơi nhận giải ĐB.
d/ Có nhiều nhất 5 người chơi nhận giải ĐB.
e/ Từ 1 đến 6 người chơi nhận giải ĐB.
38. Một lô hàng rất lớn được phân loại theo cách sau. Chọn ngẫu nhiên 20 sản phẩm
làm mẫu đại diện. Nếu mẫu không có phế phẩm thì lô hàng được xếp loại I. Nếu
mẫu có một hoặc hai phế phẩm thì lô hàng được xếp loại II. Trong trường hợp
còn lại (có từ 3 phế phẩm trở lên) thì lô hàng được xếp loại III.
Giả sử tỷ lệ phế phẩm của lô hàng là 3%. Hãy tính xác suất để:
a. Lô hàng được xếp loại I.
b. Lô hàng được xếp loại II.
c. Lô hàng được xếp loại III.
ĐS: a. p=0,5438; b. p=0,4352; c. p=0,021
39. Một bài thi trắc nghiệm gồm 12 câu hỏi, mỗi câu hỏi có 5 phương án trả lời,
trong đó chỉ có một phương án đúng. Giả sử mỗi câu trả lời đúng được 4 điểm,
mỗi câu trả lời sai bị trừ 1 điểm. Một học sinh kém làm bài bằng cách chọn ngẫu
nhiên một phương án. Tính xác suất để:
a. Anh ta được 13 điểm.
b. Anh ta bị điểm âm. ĐS: a. p=0,0532; b. p=0,5583.
40. Một cửa hàng máy vi tính chuyên kinh doanh ba nhãn hiệu: Dell, IBM và Sony.
Trong cơ cấu bán hàng máy Dell chiếm 50%, máy IBM là 30% và còn lại là Sony.
Tất cả máy bán ra có thời gian bảo hành là 1 năm. Kinh nghiệm kinh doanh của
chủ hàng ghi nhận: 10% máy Dell phải sữa chữa trong thời gian bảo hành, IBM
là 20% và Sony là 25%.
a. Có một khách hàng mua một máy, khả năng để máy này cần phải sữa chữa
trong thời gian bảo hành là bao nhiêu.
b. Có một khách hàng mua máy tính mới 9 tháng đã phải mang đi bảo hành.
Cho biết máy hỏng đó có khả năng thuộc loại nào nhiều nhất.
ĐS: a. 0,16 b. Khả năng máy hỏng mang nhãn IBM là nhiều nhất.
41. Trong một thùng hàng đựng sản phẩm A có 42% sản phẩm của Trung Quốc,
24% sản phẩm của Thái Lan, 26% sản phẩm của Nhật và 8% sản phẩm của Việt
Nam. Trong đó tỷ lệ phế phẩm tương ứng là: 10% của Trung Quốc, 7% của Thái
Lan, 5% của Nhật và 2% của Việt Nam. Một người mua ngẫu nhiên 1 sản phẩm.
a. Tính xác suất để người này mua phải 1 phế phẩm.
b. Tính xác suất để người này mua phải phế phẩm của Trung Quốc.
c. Biết người này đã mua phải 1 phế phẩm. Tính xác suất để phế phẩm đó là
của Nhật.
d. Biết người này đã mua phải một phế phẩm. Tính xác suất để phế phẩm đó
không phải là của Việt Nam.
ĐS: a. p=0,0734; b. p=0,042; c. p=0,177; d. p=0,978.
187
42. Trong số bệnh nhân ở một bệnh viện có 50% điều trị bệnh A, 30% điều trị bệnh
B và 20% điều trị bệnh C. Xác suất để chữa khỏi các bệnh A, B, C trong bệnh
viện này tương ứng là: 70%; 80%; 90%. Hãy tính tỷ lệ bệnh nhân được chữa khỏi
bệnh A trong tổng số bệnh nhân đã được chữa khỏi bệnh.
ĐS: p=0,4545.
43. Có hai hộp, hộp I đựng 6 sản phẩm Tốt và 4 sản phẩm Xấu, hộp II đựng 7 sản
phẩm Tốt và 8 sản phẩm Xấu.
a. Chọn ngẫu nhiên 1 hộp, rồi từ đó chọn ngẫu nhiên ra hai sản phẩm. Tính xác
suất để được 1 Tốt và 1 Xấu.
b. Lấy ngẫu nhiên 1 sản phẩm từ hộp I bỏ sang hộp II rồi trộn đều, sau đó lấy
ngẫu nhiên 2 sản phẩm ở hộp II. Tìm xác suất để lấy được được 1 Tốt và 1 Xấu.
c. Lấy ngẫu nhiên 2 sản phẩm từ hộp I bỏ sang hộp II rồi trộn đều, sau đó lấy
ngẫu nhiên 2 sản phẩm ở hộp II. Tìm xác suất để lấy được được 1 Tốt và 1 Xấu.
d. Từ mỗi hộp bị mất ngẫu nhiên 1 sản phẩm, sau đó cho tất cả sản phẩm từ I
và II vào hộp III. Rồi từ hộp III chọn ngẫu nhiên 2 sản phẩm. Tính xác suất để
được 2 sản phẩm A.
44. Một nhà máy sản xuất bóng đèn có tỷ lệ bóng đèn đạt tiêu chuẩn là 80%. Trước
khi xuất xưởng ra thị trường mỗi bóng đèn đều được qua kiểm tra chất lượng.
Vì sự kiểm tra không thể tuyệt đối hoàn hảo nên một bóng đèn tốt có xác suất
0,9 được công nhận là tốt, và một bóng đèn hỏng có xác suất 0,95 bị loại bỏ.
Hãy tính tỷ lệ bóng đạt tiêu chuẩn có trong thị trường.
ĐS: p=0,986.
45. Một chiếc máy bay có thể xuất hiện ở vị trí A với xác suất 2/3 và ở vị trí B với
xác suất 1/3. Có ba phương án bố trí 4 khẩu pháo bắn máy bay như sau:
Phương án 1: 3 khẩu đặt tại A, 1 khẩu đặt tại B.
Phương án 2: 2 khẩu đặt tại A, 2 khẩu đặt tại B.
Phương án 3: 1 khẩu đặt tại A, 3 khẩu đặt tại B.
Biết rằng xác suất bắn trúng máy bay của mỗi khẩu pháo là 0,7 và các khẩu
pháo hoạt động độc lập với nhau, hãy chọn một phương án tốt nhất.
ĐS: Phương án hai là tốt nhất.
46. Một chiếc máy bay có 2 động cơ hoạt động độc lập. Giả sử xác suất các động cơ
bị hỏng khi bay lần lượt là: 0.01 và 0.005. Biết rằng xác suất máy bay bị rơi khi
hai động cơ hoạt động tốt là 0.0001, xác suất để máy bay rơi khi có một động
cơ bị hỏng là 0.5; hai động cơ bị hỏng là 0.995. Tính xác suất để máy bay bị rơi.
47. Trong một kho rượu số lượng rượu loại A và loại B bằng nhau. Chọn ngẫu nhiên
một chai rượu trong kho và đưa cho 5 người sành rượu nếm thử để xác định xem
đây là loại rượu nào. Giả sử mỗi người có xác suất đoán đúng là 75%. Tính xác
suất để chai rượu được chọn thuộc loại A biết có 4 người kết luận chai rượu loại
A và 1 người kết luận chai rượu loại B.
ĐS: p=0,9642.

188
48. Một chiếc đồng hồ có 3 chi tiết hoạt động độc lập cùng một lúc là: hệ thống kim,
hệ thống báo thức và hệ thống năng lượng với xác suất hoạt động lần lượt là:
75%, 58%, 85%. Biết rằng xác suất để chiếc đồng hồ vẫn còn chạy tốt khi đã biết
0, 1, 2, và 3 chi tiết vẫn hoạt động lần lượt là 0%, 5%, 40%, 100%. Tính xác suất
để chiếc đồng hồ vẫn còn chạy tốt.
ĐS: p=0,56016.
49. Một máy bay gồm có 3 bộ phận có tầm quan trọng khác nhau. Muốn bắn rơi
máy bay thì chỉ cần có 1 viên đạn trúng bộ phận thứ nhất, hoặc 2 viên đạn trúng
bộ phận thứ hai, hoặc 3 viên đạn trúng bộ phận thứ ba. Theo thống kê cho biết,
xác suất để 1 viên đạn trúng bộ phận thứ nhất, thứ hai, thứ ba (với điều kiện
viên đạn đó phải trúng máy bay) tương ứng là 0,2 ; 0,3 ; 0,5. Tính xác suất để
máy bay bị rơi khi:
a. Có 1 viên đạn trúng máy bay.
b. Có 2 viên đạn trúng máy bay.
c. Có 3 viên đạn trúng máy bay.
d. Có 4 viên đạn trúng máy bay.
50. Để gây đột biến cho một tính trạng, người ta tác động lên 2 gen A, B bằng phóng
xạ. Xác suất xảy ra đột biến khi phóng xạ tác động lên chỉ gen A là 0,3 ; tác
động lên chỉ gen B là 0,4 và tác động lên cả hai gen là 0,8. Nếu phóng xạ không
tác động lên A và B thì không xảy ra đột biến. Tính xác suất để có đột biến ở
tính trạng đó. Biết phóng xạ tác động lên 2 gen A, B một cách độc lập với xác
suất tương ứng là: 0,6 và 0,7.
ĐS: P=0.18*0.3*0.28*0.4+0.42*0.8=0.342.
51. Một người có xác suất mắc bệnh gan là 10%. Dùng một phản ứng để chẩn đoán
bệnh cho người này, nếu bị bệnh thì phản ứng có XS dương tính 95%, không bị
bệnh phản ứng có XS âm tính 90%.
a) Tính xác suất để phản ứng cho kết quả dương tính.
b) Biết phản ứng cho kết quả âm tính. Tính xác suất để người này bị bệnh.
ĐS: a) p=0.185; b) p=0.0061.
52. Một nhóm bệnh nhân gồm 6 người trong đó có 4 người mắc bệnh A và 5 người
mắc bệnh B.
a) Tìm số bệnh nhân mắc cả hai loại bệnh trên.
b) Chọn ngẫu nhiên 2 trong số 6 bệnh nhân nói trên. Tính xác suất để 2 người
đó mắc cả hai loại bệnh.
c) Người ta định sử dụng một loại biệt dược X để điều trị cho nhóm bệnh nhân
trên. Xác suất để một bệnh nhân chỉ mắc một loại bệnh khi sử dụng biệt dược X
khỏi bệnh là 0,7. Xác suất để một bệnh nhân mắc cả hai loại bệnh khi sử dụng
biệt dược X khỏi bệnh là 0,5. Chọn ngẫu nhiên 2 bệnh nhân trong 6 bệnh nhân
nói trên rồi cho dùng biệt dược X. Tính xác suất để cả hai bệnh nhân đó khỏi
bệnh.
ĐS: a) 3; b) p=0,2; c) P = 0.2 ∗ 0.52 + 0.6 ∗ 0.7 ∗ 0.5 + 0.2 ∗ 0.72 = 0.358.
189
53. Một khu vực dân cư có tỷ lệ nam và nữ theo thứ tự là 40%; 60%. Tỷ lệ nhiễm
virus viêm gan B (HBV= Hepatitis B virus) ở nam và nữ theo thứ tự là 10% và
15%.
a) Chọn ngẫu nhiên một người trong khu vực. Tính xác suất người này bị nhiễm
virus viêm gan B.
b) Nếu chọn được người bị nhiễm virus viêm gan B. Tính xác suất người đó là
nữ ?
c) Chọn ngẫu nhiên 5 người nam trong khu vực. Tính xác suất có 2 người bị
nhiễm HBV. Biết việc mỗi người bị nhiễm HBV là độc lập với nhau.
ĐS: a) P (B) = P (A1 )P (B/A1 ) + P (A2 )P (B/A2 ) = 0.4 ∗ 0.1 + 0.6 ∗ 0.15 = 0.13.
P (A2 )P (B/A2 0.6∗0.15
b) p = P (B) 0.13 = 0, 6923.
c) p = 0, 0729.
54. Có 2 kiện hàng, mỗi kiện có 15 sản phẩm. Số sản phẩm loại I có trong mỗi kiện
tương ứng là: 12; 13.
a) Từ mỗi kiện lấy ngẫu nhiên ra 2 sản phẩm để kiểm tra. Nếu cả 2 sản phẩm
lấy ra kiểm tra đều là loại I thì mua kiện hàng đó. Tính xác suất để có ít nhất
một kiện được mua.
b) Chọn ngẫu nhiên một kiện, rồi từ kiện được chọn lấy ngẫu nhiên ra 2 sản
phẩm. Tính xác suất để 2 sản phẩm lấy ra đều loại I.
ĐS: a) P = 1 − 0.371429 ∗ 0.257143 = 0.90449.
2 2
C12 C13
b) p = 0.5 C 2 + 0.5 2 = 0.5 ∗ (0.628571 + 0.742857) = 0.685714.
15 C 15

55. Tại một bệnh viện, tỷ lệ người mắc bệnh A là 60%, trong số những người mắc
bệnh A có 50% mắc cả bệnh B, còn trong số những người không mắc bệnh A có
70% mắc bệnh B.
a) Khám ngẫu nhiên cho một người thấy người đó mắc bệnh B. Tính xác suất
để người được khám cũng bị mắc bệnh A.
b) Nếu người được khám không mắc bệnh B. Tìm xác suất để người đó không
mắc bệnh A.
ĐS: a) p = 0.6 ∗ 0.5/0.58 = 0.5172; b) p = 0, 286.
56. Những người bị nhiễm MERS-CoV phát triển thành căn bệnh về hô hấp cấp tính
có các triệu chứng như sốt, ho và thở dốc. Các trường hợp này có thể nghiêm
trọng, với khoảng 30% trong tất cả các trường hợp bị MERS được xác nhận đã
dẫn đến tử vong. Một số trường hợp đã được báo cáo là nhẹ. Một trong những
phương pháp phát hiện bệnh này là đo thân nhiệt.
Tại một sân bay, qua máy đo thân nhiệt, người ta phát hiện một khách DL nước
ngoài có thân nhiệt cao. Tiến hành làm xét nghiệm và thấy người này dương tính
với MERS-CoV. Vì máy móc làm xét nghiệm không hoàn hảo nên một người
mắc bệnh thật sự, máy cho kết quả dương tính với xác suất 0.95. Một người
không có bệnh máy cho kết quả âm tính với XS 0.9. Biết trong số những khách
DL nước ngoài có thân nhiệt cao, tỷ lệ mắc căn bệnh này là 60%. Tính xác suất
để người khách nói trên không bị mắc bệnh.
190
57. Với những đe dọa gần đây của chủ nghĩa khủng bố, các sân bay ngày càng lo
lắng về việc phát hiện vũ khí tại cổng đón hành khách lên máy bay. Ở một thành
phố, sân bay A xử lý 0,45 trong toàn bộ vận tải đường không, trong khi các sân
bay B và C xử lý lần lượt là 0,35 và 0,2. Các tỷ lệ phát hiện hành khách có mang
theo vũ khí tại sân bay A là 0,01; sân bay B là 0,005 và sân bay C là 0,008. Tìm
tỷ lệ khách bị phát hiện đang mang theo vũ khí qua cổng lên máy bay tại TP
này.
58. Một công ty phát hiện rằng 85% số người được chọn cho chương trình thực tập
của công ty đã hoàn tất khóa học. Trong số những người này, 60% đã trở thành
những người bán hàng có hiệu quả, so với chỉ 10% trong số những người thực tập
mà đã không hoàn tất chương trình thực tập.
a. Xác suất để một người tham dự chương trình thực tập trở thành người bán
hàng có hiệu quả là bao nhiêu?
b. Nếu một người bán hàng, đã tham dự chương trình thực tập, được cho là có
hiệu quả, thì xác suất để người này hoàn tất chương trình thực tập là bao nhiêu.
59. Một cửa hàng bách hóa đang xem xét việc thực hiện một chính sách quản lý tín
dụng mới, trong nỗ lực nhằm cắt giảm số lượng khách hàng không trả các khoản
nợ của họ. Giám đốc tín dụng đề nghị trong thời gian tới, phải đình chỉ tín dụng
đối với bất kỳ khách hàng nào đã có ít nhất hai lần trễ hạn một tuần. Giả sử
từ việc điều tra riêng của mình, Ban giám đốc tìm ra có 5% trong tất cả khách
hàng đã thật sự không trả các khoản thanh toán nợ. Hồ sơ tín dụng trong quá
khứ cho thấy 90% trong tất cả những người không trả các khoản nợ của họ đều
đã trễ hạn ít nhất hai lần/tuần và 45% trong số người không nợ tín dụng thì đã
có ít nhất hai lần trễ hạn. Hãy tìm xác suất để một khách hàng có ít nhất hai
lần thanh toán trễ hạn sẽ thật sự không trả những khoản thanh toán của mình,
với kết quả này, hãy nhận xét kế hoạch tín dụng của ban giám đốc tín dụng.
60. Giả sử 50% trong tất cả những người điền vào mẫu khai thuế thu nhập dài đều
cố tìm được những khoản khấu trừ mà họ biết là bất hợp pháp và 2% nữa sẽ liệt
kê không đúng các khoản khấu trừ, do thiếu hiểu biết về các quy định về thuế
thu nhập. Trong số 5% phạm tội gian lận, có 80% sẽ không chịu nhận là mình
biết rõ về sai lầm này khi bị đối chất bởi nhà điều tra. Nếu một người điền mẫu
khai thuế dài đó bị đối chất với một khoản khấu trừ không chính đáng và người
ấy không chịu nhận là mình biết rõ về sai lầm này, thì xác suất người ấy phạm
tội là bao nhiêu?

191
BÀI TẬP CHƯƠNG 5

1. Giả sử bạn là giám đốc nhân sự của một công ty và bạn muốn đánh giá điểm số
trong một bài thi trắc nghiệm để kiểm tra khả năng của những người dự tuyển
xin việc. Giả định rằng một bài kiểm tra trắc nghiệm bao gồm 20 câu hỏi, mỗi
câu có 5 chọn lựa trả lời. Xác suất mà một người làm bài thi bằng cách chọn
ngẫu nhiên đáp án trả lời chính xác được:
a. 8 câu hỏi là bao nhiêu?
b. 8 câu hỏi trở lên là bao nhiêu?
2. Trong một cuộc điều tra được tiến hành tại Nhật Bản, 71% số người Nhật cảm
giác rằng sản phẩm của họ tốt hơn sản phẩm của người Mỹ, và 42% cảm nhận
rằng Hoa Kỳ sẽ là cường quốc kinh tế số một thế giới trong thế kỷ tới. Giả sử
50 công dân Nhật được chọn lựa một cách ngẫu nhiên.
a. Phân phối xác suất của X - số người Nhật cho rằng sản phẩm của họ tốt hơn
sản phẩm của người Mỹ là như thế nào?
b. Phân phối xác suất của X - số người Nhật cho rằng Hoa Kỳ sẽ là cường quốc
kinh tế số một thế giới trong thế kỷ tới là như thế nào?
c. Tìm trung bình và độ lệch chuẩn của biến ngẫu nhiên được mô tả trong câu
(b).
d. Nếu nói khả năng để "5 trong số 50 công dân Nhật cho rằng Hoa Kỳ sẽ là
cường quốc kinh tế số một thế giới trong thế kỷ tới" là con số 42%, thì chính xác
hay không? Hãy giải thích.
3. Một trang trại nuôi 15000 con gà. Tỷ lệ gà đẻ 1 quả trứng trong một ngày là 0,6.
a. Tìm số trứng trung bình mà trang trại thu được trong một ngày.
b. Tìm số trứng có khả năng xảy ra lớn nhất mà trang trại thu được trong một
ngày. Tính xác suất đó.
c. Giá một quả trứng là 3000 đồng, một con gà một ngày chi phí hết 1000 đồng,
tìm số tiền trung bình mà trang trại thu được trong một ngày.
4. Trong một cuộc điều tra của một tổ chức phi chính phủ. Những người được phỏng
vấn được hỏi vấn đề nào trong số bốn vấn đề sau đây nên nhận được sự ưu tiên
cao nhất trong năm tới: tội phạm, chăm sóc sức khỏe, thâm hụt ngân sách hay
cải cách phúc lợi xã hội. Giải thích tại sao việc chọn mẫu này (là/không phải là)
một thí nghiệm về phân phối nhị thức.
5. Một nghiên cứu mới đây của Mỹ đã cho thấy rằng khi dân chúng phụ thuộc
vào các tổ chức chăm sóc sức khỏe (HMO) thì hài lòng với vấn đề chăm sóc sức
khỏe hơn so với những người thuộc các chương trình bảo hiểm y tế truyền thống.
Nghiên cứu 1.000 hộ gia đình đã đăng ký làm thành viên của HMO. Cuộc điều
tra này ghi nhận 85% số thành viên của HMO hài lòng với các chính sách bảo
hiểm của họ. Giải thích tại sao cuộc điều tra về các thành viên của HMO (là /
không phải là) một thí nghiệm về phân phối nhị thức.

192
6. Theo báo điện tử Vnexpress.net ngày 14/3/2014 "...Theo Đề án số hóa truyền
hình, đến năm 2015, sẽ có khoảng 80% hộ gia đình có máy thu hình trên cả nước
xem được truyền hình số...". Năm 2015, giả sử rằng 50 hộ gia đình có máy thu
hình được điều tra về việc liệu họ có hay không có truyền hình số . Giả định rằng
con số 80% là chính xác trong việc trả lời các câu hỏi sau:
a. Xác suất để có 40 hộ gia đình có máy thu hình trên cả nước xem được truyền
hình số?
b. Xác suất để có trên 40 hộ gia đình có máy thu hình trên cả nước xem được
truyền hình số?
7. Trong một nghiên cứu được tiến hành bởi Business Marketing, Advertising Age,
và USA Chicago, Inc. Khi một số giám đốc điều hành được hỏi liệu họ có quan
tâm đến siêu xa lộ thông tin quốc gia hay không, thì 50% trong số này trả lời là
có. Giả định rằng con số này mang tính đại diện cho toàn bộ các giám đốc điều
hành trên cả nước. Một mẫu gồm 25 giám đốc điều hành được chọn ngẫu nhiên
và được hỏi rằng họ có quan tâm đến siêu xa lộ thông tin hay không.
a. Xác suất mà cả 25 người sẽ cho biết rằng họ có quan tâm đến siêu xa lộ thông
tin là bao nhiêu?
b. Xác suất mà ít nhất 10 trong số 25 giám đốc điều hành sẽ cho biết rằng họ
có quan tâm đến siêu xa lộ thông tin là bao nhiêu?
c. Xác suất mà đúng 10 giám đốc điều hành sẽ cho biết rằng họ có quan tâm đến
siêu xa lộ thông tin là bao nhiêu?
8. Nhiều chủ doanh nghiệp nhận ra rằng một số công nhân đã giả mạo thông tin
khi xin việc. Việc rà soát những người xin việc giả mạo thông tin đã làm phát
sinh một số lĩnh vực kinh doanh mới: Dịch vụ kiểm tra phẩm chất của người xin
việc. Giả định rằng bạn tuyển dụng 5 nhân viên mới trong tuần vừa qua và giả
sử xác xuất một nhân viên làm giả mạo thông tin trong hồ sơ xin việc của họ là
0,35. Xác suất mà ít nhất có một trong năm hồ sơ xin việc đã bị giả mạo thông
tin là bao nhiêu? hai hồ sơ hay nhiều hơn sẽ là bao nhiêu?
9. Nhiều công ty công ích đã bắt đầu thúc đẩy việc bảo toàn năng lượng bằng cách
chiết khấu cho những khách hàng có mức sử dụng năng lượng thấp hơn quy định.
Giả sử rằng 70% cư dân của một thị trấn nào đó đã giảm việc sử dụng điện năng
của mình một cách hữu hiệu để đủ tiêu chuẩn được hưởng các tỷ lệ chiết khấu.
Giả sử có 10 cư dân từ thị trấn này được chọn ngẫu nhiên.
a. Xác suất mà có 6 đủ tiêu chuẩn được hưởng các tỷ lệ ưu đãi là bao nhiêu?
b. Xác suất mà có ít nhất 4 cư dân được hưởng các tỷ lệ ưu đãi là bao nhiêu?
10. Một máy móc được thiết kế để bơm đầy các lon một lượng soda là 12 oz. Sai số
của các lần bơm làm cho mỗi lon có thể được bơm nhiều hơn hay ít hơn 12 oz
soda. Giả sử xác suất để máy bơm dư soda vào một lon là 0,5 và xác suất của
việc bơm thiếu cũng là 0,5. Giả định rằng n lon được chọn từ dây chuyền sản
xuất và số lon bơm thiếu được ghi nhận.
a. Xác suất mà tất cả các lon bị bơm thiếu khi n = 3 là bao nhiêu? khi n = 5 là
bao nhiêu? khi n = 10 là bao nhiêu?
193
b. Nếu bạn là một người giám sát có trách nhiệm kiểm soát việc bơm soda vào
các lon từ cái máy này, thì kết luận của bạn sẽ như thế nào nếu trên thực tế bạn
quan sát thấy 3, rồi 5, và rồi 10 lon soda được chọn mẫu bị bơm thiếu?
11. Theo một bào báo trên tờ Los Angeles Times (Horovitz, 1994) thì xúc xích nằm
trong số các vật phẩm ít phổ biến nhất được bán tại các cửa tiệm bán thức ăn
nhanh ở vùng Nam California. Một cuộc điều tra gồm n = 600 cư dân vùng Nam
California được hỏi liệt kê vật phẩm thức ăn nhanh cuối cùng mà họ mua để
dùng bữa. Trong số những cư dân được điều tra, 34% đã mua hamburger, 19%
mua pizza và 11% mua thức ăn Mêhicô. Nếu như chỉ có 3, 3% những người được
điều tra mua xúc xích, thì chúng ta sẽ kỳ vọng con số người tiêu dùng thức ăn
nhanh sẽ mua xúc xích rơi vào trong những giới hạn nào với xác suất xấp xỉ bằng
0,95 nếu như con số 3, 3% này trên thực tế là chính xác?
12. Trong một cuộc sổ số người ta phát hành 10 vạn vé số trong đó có 1 vạn vé trúng
giải. Cần phải mua ít nhất bao nhiêu vé để với xác suất không nhỏ hơn 0,95 ta
sẽ trúng ít nhất một vé.
ĐS: n = 29.
13. Một khu chung cư có 160 hộ gia đình. Xác suất để mỗi hộ có sự cố về điện vào
mỗi buổi tối là 0,02. Tính xác suất để trong một buổi tối:
a. Có đúng 4 gia đình gặp sự cố về điện.
b. Số gia đình có sự cố về điện là từ 2 đến 5.
ĐS: a. 0,18; b. 0,73.
14. Một cơ quan có 80 nhân viên. Xác suất để một nhân viên đăng ký nghỉ mát
trong dịp hè là 0, 2. Biết việc đăng ký nghĩ mát của mỗi nhân viên là độc lập với
nhau. Tìm số k nhỏ nhất để biến cố "số người đăng ký nghỉ mát không vượt quá
k" có xác suất ít nhất là 0,99.
ĐS: 25 người.
15. Trong một đợt tổ chức thi lấy bằng lái xe ô tô, mỗi thí sinh chỉ được dự thi nhiều
nhất 2 lần. Có 300 thí sinh dự thi có trình độ như nhau, xác suất mỗi thí sinh
thi đạt lần 1 là 0,6. Nếu thí sinh thi đạt lần 1 thì kết thúc thi, nếu thi không đạt
lần 1 thì đăng ký thi lại lần 2 và xác suất mỗi thí sinh thi đạt lần 2 là 0,8. Biết
rằng không có thí sinh nào bỏ thi.
a. Trần Văn A là thí sinh dự thi. Tính xác suất để A thi đạt lần 2.
b. Tìm trung bình số các thí sinh thi đạt lần 2 đạt yêu cầu.
c. Lệ phí mỗi thí sinh phải nộp ở lần thứ nhất là 400 ngàn đồng và lần hai là 500
ngàn đồng. Tìm trung bình tổng số tiền thu được của ban tổ chức cho một đợt
tổ chức thi lấy bằng lái ô tô.
ĐS: a. 0,32; b. 96 người. c. 180 000 000 (VNĐ).
16. Điều trị kháng sinh cho trẻ bị viêm nhiễm đường hô hấp trên do vi khuẩn có tỷ
lệ khỏi bệnh là 0,7.
a. Tính xác suất sao cho điều trị cho 100 trẻ có từ 75 đến 76 trẻ khỏi bệnh.

194
b. Biết điều trị cho 100 trẻ có 75 đến 76 trẻ khỏi bệnh. Tính xác suất để có 75
trẻ khỏi bệnh.
ĐS: a. p = 0.0876; b. p = 0.5658.
17. Một khu vực dân cư có tỷ lệ người dân bị sốt rét là 5%; bị lách to là 10%. Trong
những người bị sốt rét có 60% người bị lách to.
a) Khám ngẫu nhiên 100 người trong khu vực. Gọi X là biến ngẫu nhiên chỉ số
người bị sốt rét :
+) Tính EX, V arX .
+) Tìm số có khả năng lớn nhất của X và tính xác suất đó.
b) Khám ngẫu nhiên cho 1 người, thấy người này có lách to. Tính khả năng để
người này không bị sốt rét.
ĐS: a) EX = 5; V arX = 4.75; M od(X) = 5; p = 0.18
b) p=0.7.
18. Một sản phẩm công nghiệp cụ thể được đóng gói theo từng lô 20 gồm sản phẩm.
Việc kiểm tra để quyết định liệu một lô hàng có lỗi hay không là hết sức tốn
kém; vì thế mà nhà sản xuất chọn mẫu sản phẩm hơn là sử dụng phương án
kiểm tra toàn bộ sản phẩm sản xuất ra. Một phương án chọn mẫu được thiết kế
nhằm giảm thiểu số sản phẩm bị lỗi được giao cho khách hàng như sau: chọn 5
sản phẩm từ mỗi lô hàng và từ chối lô hàng nào có nhiều hơn một sản phẩm bị
lỗi trong 5 sp được quan sát. (Nếu bị từ chối, thì từng sản phẩm trong lô hàng
đó sẽ bị kiểm tra). Nếu một lô hàng có 2 sản phẩm bị lỗi, thì xác suất mà lô
hàng đó bị từ chối là bao nhiêu?
19. Texaco trở thành công ty dầu mỏ lớn gần đây nhất phải cắt giảm lực lượng lao
động và chấm dứt việc khai thác một số mỏ dầu ở Mỹ của mình (Craig, 1994).
Exxon và Mobil gần đây đã tuyên bố việc tái cấu trúc nhằm gia tăng lợi nhuận.
Giả định rằng 3 trong số 10 công ty lọc dầu hàng đầu của Mỹ trên thực tế đang
tiến hành việc tái cấu trúc công ty. Nếu một phóng viên của tờ USA Today
phỏng vấn giám đốc điều hành của 4 công ty lọc dầu được chọn lựa ngẫu nhiên,
hãy tính toán các xác suất sau.
a. Có 3 giám đốc điều hành mà công ty của họ được tái cấu trúc gần đây.
b. Không có giám đốc điều hành nào mà công ty của họ được tái cấu trúc gần
đây.
c. Có ít nhất một trong số các giám đốc điều hành mà công ty của họ được tái
cấu trúc gần đây.
20. Một xấp bài gồm có 3 lá bài đỏ và 7 lá bài đen. Chọn ngẫu nhiên 3 lá bài. Nếu
rút được lá bài đỏ được thưởng 20 ngàn và rút phải lá bài đen bị mất 9 ngàn.
Gọi X là biến ngẫu nhiên chỉ "số tiền lời có thể thu được" trong một lần chơi.
Tính EX . Hỏi có nên tham dự trò chơi này nhiều lần hay không?
ĐS: ĐS: EX = −900, không nên tham gia trò chơi nhiều lần.
21. Trung bình tại một bến cảng có khoảng 5 tàu cập bến trong một ngày bất kỳ.
Tính xác suất để trong một ngày mà ta xét có:
195
a. Không tàu nào cập bến.
b. Đúng 5 tàu cập bến.
c. Từ 5 đến 7 tàu cập bến.
d. Có ít nhất hai tàu cập bến.
ĐS: a) 0,0067; b) 0,175; c) 0,426; d) 0,96.
22. Tại một tổng đài điện thoại, các cú điện thoại gọi đến xuất hiện ngẫu nhiên, độc
lập với nhau với tốc độ trung bình 2 cuộc gọi trong vòng một phút. Tìm xác suất
để:
a. Có đúng 5 cú điện thoại trong vòng 2 phút.
b. Không có cú nào trong khoảng thời gian 30 giây.
c. Có ít nhất một cú trong khoảng thời gian 10 giây.
ĐS: a) 0,156293452; b) 0,367879441; c) 0,283468689.
23. Tại nạn tại một nhà máy công nghiệp cụ thể bình quân là 3,5 vụ mỗi tuần.
a Xác suất mà không có tai nạn nào xảy ra trong một tuần đã biết là bao nhiêu?
b Có khả năng rằng số lượng tai nạn mỗi tuần sẽ vượt quá 7 không? Hãy giải
thích.
c Nếu số lượng tai nạn trong một tuần cụ thể là bằng với 9, liệu bạn còn tin rằng
EX=3,5 không? Hãy giải thích.
24. Số lượng X, mỗi tuần, về doanh số thiết bị lớn đo chấn động trái đất bán cho
một công ty thiết bị xây dựng sở hữu một phân phối xác suất Poisson với trung
bình bằng 4.
a Xác suất mà con số thiết bị đo chấn động trái đất bán được mỗi tuần là bằng
với 1 là bao nhiêu? ít hơn hay bằng 1?
b Liệu có khả năng rằng x sẽ vượt quá 9 không? Giải thích.
25. Chủ sở hữu duy nhất của một văn phòng bất động sản dân cư lưu ý rằng, tính
trung bình thì yêu cầu tìm hiểu thông tin qua điện thoại đến một cách ngẫu
nhiên và độc lập ở mức bốn lần mỗi ngày làm việc 8 tiếng. Bởi vì chủ sở hữu bất
động sản thường đi ra ngoài với các thân chủ của mình, người chủ không thể trả
lời ngay lập tức cho một số yêu cầu tìm hiểu qua điện thoại tại văn phòng của
mình.
a. Xác suất mà không có yêu cầu tìm hiểu thông tin qua điện thoại nào đến trong
2 giờ vắng mặt tại văn phòng trong suốt một ngày làm việc điển hình 8 tiếng là
bao nhiêu?
b. Xác suất mà sẽ có ít nhất 5 yêu cầu tìm hiểu thông tin qua điện thoại trong
suốt một ngày làm việc điển hình 8 tiếng là bao nhiêu?
26. Số lượng x người đi vào một đơn vị chăm sóc sức khỏe chuyên sâu tại một bệnh
viện cụ thể vào bất cứ một ngày nào sở hữu một phân phối xác suất Poisson với
trung bình bằng với 5 người mỗi ngày.
a. Xác suất mà số người đi vào một đơn vị chăm sóc sức khỏe chuyên sâu vào
một ngày cụ thể là bằng với 2 là bao nhiêu? ít hơn hay bằng 2 là bao nhiêu?
196
b. Liệu có khả năng rằng x sẽ vượt quá 10? Giải thích.
27. Một cửa hàng có 4 chiếc ôtô cho thuê, người ta thống kê cho thấy trung bình
một ngày có 2 nhu cầu thuê xe.
a. Giả sử giá thuê một xe là 500 ngàn đồng. Tính số tiền trung bình cửa hàng
thu được trong một ngày.
b. Cửa hàng cần có ít nhất bao nhiêu xe để với xác suất không nhỏ hơn 0,98 cửa
hàng đáp ứng được nhu cầu của khách hàng trong ngày.
ĐS: a) 962.5 ngàn đồng; b) Cần có 5 xe (poisson(5,2,1)).
28. Cho X, Y, Z là các biến ngẫu nhiên độc lập.
a. Cho X ∈ B(10; 0, 3), tính P (X 6 8)?
b. Cho Y ∈ P(2), tính P (Y > 2)?
c. Cho Z ∈ N (5; 0, 25), tính P (Z 6 6)?
d. Tính E(T ) và V ar(T ) biết T = 2X + 3Y − 4Z ?
ĐS: a. p = 0, 999856314; b. p = 0, 59399415;
c. p = 0, 977249868; d. ET = −8, V arT = 30, 4.

197
BÀI TẬP CHƯƠNG 6

1. Mức lương của những người tốt nghiệp Thạc sĩ Quản trị Kinh doanh (MBA) mà
tham gia vào lĩnh vực dịch vụ tiếp thị bình quân xấp xỉ 45.000 USD, với độ lệch
chuẩn là 2.250 USD. Nếu các mức lương này được phân phối chuẩn, thì tỷ lệ
phần trăm của những người tốt nghiệp MBA mà tham gia vào lĩnh vực dịch vụ
tiếp thị có mức lương vượt quá 47.500 USD là bao nhiêu?
2. Trọng lượng sản phẩm X do một máy tự động sản xuất là biến ngẫu nhiên tuân
theo quy luật chuẩn với EX = 100(g) và độ lệch chuẩn σ = 1(g). Sản phẩm được
coi là đạt tiêu chuẩn kỹ thuật nếu trọng lượng của nó đạt từ 98 đến 102 (g).
a. Tìm tỷ lệ sản phẩm đạt tiêu chuẩn của nhà máy.
b. Tìm tỷ lệ phế phẩm của nhà máy.
c. Giải thích bằng đồ thị kết quả tìm được ở câu a).
ĐS: a. 0, 9545, b. 4, 55%.
3. Trọng lượng một loại trái cây có quy luật phân phối chuẩn với trọng lượng trung
bình là 250 g, độ lệch chuẩn về trọng lượng là 5 g.
a. Một người lấy ngẫu nhiên 1 trái từ trong sọt trái cây ra. Tính xác suất để
người này lấy được trái loại I. Biết trái loại I có trọng lượng > 260 g.
b. Nếu lấy được trái loại I thì người này sẽ mua sọt đó. Người này kiểm tra 100
sọt. Tính xác suất mua được 6 sọt.
ĐS: a. 0,023; b. 0,019803929.
4. Một cơ sở sản xuất giày bằng phương pháp thủ công, giá bán mỗi đôi giày là
150.000 đồng. Số giày bán được trong một tháng là biến ngẫu nhiên tuân theo
luật phân phối chuẩn với độ lệch tiêu chuẩn σ = 30 đôi. Để sản xuất, hàng tháng
cơ sở này phải trả một chi phí cố định là 4 triệu đồng, các chi phí khác là 80.000
đồng/ 1 đôi giày.
a. Tìm số giày trung bình mà cơ sở bán được trong tháng nếu biết mỗi tháng cơ
sở đó lãi trung bình là 10 triệu đồng.
b. Tính xác suất để cơ sở đó có số lãi ít nhất 8 triệu đồng/tháng.
ĐS: a.µ = 200; b.p = 0.8247.
5. Lãi suất (đơn vị %) đầu tư vào một dự án năm 2010 được coi như biến ngẫu
nhiên tuân theo quy luật chuẩn. Theo đánh giá của uỷ ban đầu tư thì lãi suất
cao hơn 20% có xác suất 0,1587 và lãi suất cao hơn 25% có xác suất là 0,0228.
Vậy khả năng đầu tư mà không bị thua lỗ là bao nhiêu.
ĐS: µ = 15, σ = 5, p = 0, 9987.
6. Chiều dài của một loại cây là một biến ngẫu nhiên có phân bố chuẩn. Trong một
mẫu gồm 640 cây có 25 cây thấp hơn 18 m và 110 cây cao hơn 24 m.
a. Tính ciều cao trung bình của cây và độ lệch chuẩn của mẫu trên.
b. Ước lượng số cây có chiều cao trong khoảng từ 16 m đến 20 m trong 640 cây
nói trên.
ĐS: a. µ = 21, 9(m); σ = 2, 21(m) b.122 (cây).

198
7. Một người cân nhắc giữa việc mua cổ phiếu của công ty A và công ty B hoạt
động trong hai lĩnh vực độc lập nhau. Biết lãi suất cổ phiếu (tính theo %) của
hai công ty là các biến ngẫu nhiên tuân theo quy luật chuẩn với các tham số đặc
trưng như sau:

Tham số Kỳ vọng toán Độ lệch chuẩn


Công ty A 12 3,5
Công ty B 11 2,8

a. Nếu mục tiêu là đạt được lãi suất kỳ vọng lớn nhất thì nên đầu tư vào cổ
phiếu của hai công ty trên theo tỷ lệ như thế nào?
b. Nếu người đó muốn hạn chế rủi ro bằng cách mua cổ phiếu của cả hai công
ty thì nên mua theo tỷ lệ bao nhiêu để mức độ rủi ro về lãi suất thấp nhất?
ĐS: a. Nên đầu tư toàn bộ cổ phiếu vào công ty A.
b. Nên mua 39% cổ phiếu công ty A, 61% cổ phiếu công ty B.
8. Một công ty kinh doanh mặt hàng A dự định sẽ áp dụng một trong hai phương án
kinh doanh. Gọi X1 , X2 lần lượt là các biến ngẫu nhiên chỉ lợi nhuận thu được nếu
áp dụng phương pháp thứ nhất và thứ hai (tính theo đơn vị triệu đồng/tháng).
Biết X1 , X2 có phân phối chuẩn: X1 ∈ N (140, 2500); X2 ∈ N (180, 3600). Biết rằng
để công ty tồn tại và phát triển thì lợi nhuận thu được từ mặt hàng A phải đạt
ít nhất 80 triệu đồng/tháng. Hãy cho biết công ty nên áp dụng phương án nào
để kinh doanh mặt hàng A? Vì sao?
ĐS: Công ty nên áp dụng phương án thứ hai để kinh doanh mặt hàng A.
9. Tuổi thọ X (đơn vị: năm) của một loại đồng hồ nhãn hiệu @ là biến ngẫu nhiên
có phân phối chuẩn X ∈ N (µ, σ 2 ). Biết rằng tỷ lệ đồng hồ có tuổi thọ trên 7,5
năm chiếm 15% và tỷ lệ đồng hồ có tuổi thọ dưới 4,5 năm cũng chiếm 15%.
a. Tìm tuổi thọ trung bình µ và độ lệch chuẩn σ .
b. Nhà sản xuất quy định thời gian bảo hành là 4 năm. Tính xác suất để 1 đồng
hồ mang nhãn hiệu @ phải bảo hành.
c. Với quy định thời gian bảo hành là 4 năm, tiền lãi khi bán một đồng hồ là 50
000 đồng. Nhưng nếu phải bảo hành một đồng hồ thì lỗ 100 000 đồng. Tính số
tiền lãi trung bình khi bán được 200 đồng hồ @.
d. Nhà sản xuất cần phải quy định thời gian bảo hành là bao nhiêu để tỷ lệ đồng
hồ @ phải sửa chửa trong thời gian bảo hành chiếm 5%.
ĐS: a) µ = 6; σ = 1, 442; b) p=0,08; c) 7 600 000; d) 3,62.
10. Thời gian X (đvt: tháng) từ lúc vay đến lúc trả tiền của một khách hàng tại
Ngân hàng SHB Đà Nẵng là biến ngẫu nhiên có phân phối chuẩn N (24; 16). Tính
tỉ lệ (xác suất) để khách hàng trả tiền cho ngân hàng:
a) Trong khoảng 12 đến 16 tháng.
b) Không lâu hơn 8 tháng.
c) Tối thiểu là bao lâu để tỷ lệ khách hàng trả tiền cho ngân hàng không dưới
90%.

199
11. Một cơ sở kinh doanh tân dược với lợi nhuận hàng tháng là BNN có phân phối
chuẩn với độ lệch chuẩn là 10 triệu đồng.
a/ Khả năng để cơ sở có mức lợi nhuận trong tháng trên 150 triệu là bao nhiêu?
Biết rằng khả năng đạt lợi nhuận trên 155 triệu đồng là 0,1586.
b/ Gọi X là ĐLNN chỉ số tháng trong 1 năm mà cơ sở có mức lợi nhuận trên
150 triệu đồng, X tuân theo quy luật phân phối xác suất nào? Tính xác suất để
có 4 tháng trong năm cơ sở đạt mức lợi nhuận trên 150 triệu đồng.
ĐS: a. Tính được giá trị trung bình của phân phối chuẩn µ = 145. Khả năng để
cơ sở có mức lợi nhuận trong tháng trên 150 triệu là P = 0, 5 − 0, 191 = 0, 309.
b. X ∈ B(12; 0, 309); p = 0, 2345.
12. Một phương pháp để đi đến các dự báo kinh tế là sử dụng một cách tiếp cận
chuyên gia. Một dự báo có được từ một số lượng lớn các nhà phân tích. Giả định
rằng các dự báo về lãi suất cơ bản tháng Giêng của mỗi cá nhân của tất cả các
nhà phân tích kinh tế được phân phối xấp xỉ chuẩn với trung bình bằng với 7%
và một độ lệch chuẩn bằng với 1, 5%. Một nhà phân tích duy nhất được lựa chọn
ngẫu nhiên từ trong nhóm này.
a. Xác suất để cho dự báo của nhà phân tích này về lãi suất cơ bản sẽ vượt quá
9% là bao nhiêu?
b. Xác suất để cho dự báo của nhà phân tích này về lãi suất cơ bản sẽ thấp hơn
6% là bao nhiêu?

13. Người tiêu dùng Hoa Kỳ đang ngày càng quan tâm hơn đến phí tổn của nhiên
liệu cho việc sưởi ấm. Khi những chi phí này gia tăng, người tiêu dùng nói chung
sẽ cân nhắc các nhiên liệu thay thế, hoặc cải tiến việc cách nhiệt của ngôi nhà,
hoặc những hệ thống sưởi ấm mới. Giả định rằng phí tổn của khí tự nhiên mỗi
bộ khối (MCF) có phân phối chuẩn với giá trị trung bình là 6 USD và một độ
lệch chuẩn tương đương 1.20 USD.
a. Xác suất để cho phí tổn của khí thiên nhiên mỗi MCF cho một người tiêu
dùng cụ thể nằm trong khoảng 7.60 đến 8.00 USD là bao nhiêu?
b. Phí tổn trung vị mỗi MCF cho khí thiên nhiên là bao nhiêu?
c. Các phân vị một phần tư trên và dưới cho phí tổn mỗi MCF khí thiên nhiên
là bao nhiêu?
14. Cho biến ngẫu nhiênlt X có hàm mật độ
(
kx2 (1 − x) 06x61
f (x) =
0 trái lại

a. Tìm hằng số k .
b. Tìm mod(X).
c. Tính P (0, 4 < X < 0, 6).
ĐS: a) k = 12 b) modX = 2/3 c) P = 0, 296

200
15. Cho biến ngẫu nhiên liên tục X có hàm mật độ
(
k(1 − x) 06x61
f (x) =
0 trái lại

a. Tìm hằng số k .
b. Tìm median(X).
c. Tính V ar(X).

2− 2 3
ĐS: k = 2, med(X) = 2 , V ar(X) = 54 .

16. Cho biến ngẫu nhiên liên tục X nhận giá trị trong khoảng [0, ∞) và có hàm phân
phối ( 2 x
1 − e− 2 , x > 0
F (x) =
0, x60

Tìm hàm mật độ, kỳ vọng, median và mod của biến ngẫu nhiên X .

ĐS: median = 2log2, modX = 1.

17. Cho biến ngẫu nhiên X có hàm mật độ như sau:



0, x<0
f (x) = −3
k(1 + x) , x > 0

a. Tìm hằng số k .
b. Tìm EX .
ĐS: a) k = 2; b) EX = 1.

201
BÀI TẬP CHƯƠNG 7

1. Kiểm tra ngẫu nhiên 50 đĩa mềm từ một lô đĩa mềm mới sản xuất thấy có 3 cái
hỏng. Vậy có thể cho rằng tỷ lệ đĩa mềm bị hỏng của lô sản phẩm đó bằng bao
nhiêu nếu dùng phương pháp ước lượng điểm.
3
ĐS: p = 50 .

2. Quan sát thu nhập (triệu đồng/tháng) của một số người làm việc trong một công
ty, ta có kết quả cho ở bảng dưới đây:

Thu nhập Số người Thu nhập Số người


3-5 5 13-15 47
5-7 9 15-17 24
7-9 12 17-19 18
9-11 35 19-21 6
11-13 66 21-23 3

a. Tìm trung bình mẫu và độ lệch chuẩn của mẫu.


b. Những người có thu nhập từ 15 triệu đồng/tháng trở lên là những người có
thu nhập cao. Tìm tỷ lệ mẫu của những người có thu nhập cao ở công ty này.
c. Ước lượng thu nhập trung bình của một người ở công ty này với độ tin cậy
95%.
d. Với mẫu đã cho, khi ước lượng thu nhập bình quân của một người ở công ty
này, nếu muốn độ tin cậy 99% thì độ chính xác đạt được là bao nhiêu.
51
Đáp số: a) x = 12.729, s = 3.51; b)f = 225 ; c)ε = 0.459; d)ε = 0.604

3. Trong một kho hàng của một nhà máy dược phẩm có nhiều lọ thuốc, kiểm tra
một mẫu gồm 100 lọ thuốc thấy có 15 lọ không đạt tiêu chuẩn.
a) Hãy ước lượng khoảng tin cậy cho tỷ lệ thuốc không đạt chuẩn của kho, với
độ tin cậy 0,98. (ĐS: ε = 0.083)
b) Để độ chính xác khi ước lượng khoảng tin cậy không vượt quá 0.07 thì cần
điều tra mẫu có kích thước nhỏ nhất bằng bao nhiêu. Biết độ tin cậy 0,98. (ĐS:
n = 142)
c) Để độ chính xác khi ước lượng khoảng tin cậy không vượt quá 0.04 thì cần
điều tra thêm bao nhiêu lọ thuốc. Biết độ tin cậy 0,95. (ĐS: thêm 207)
d) Để độ chính xác khi ước lượng khoảng cho tỷ lệ thuốc không đạt chuẩn là
0.05 thì độ tin cậy đạt được bằng bao nhiêu %. (ĐS: 83, 8%)
e) Hãy ước lượng tỷ lệ tối đa lọ thuốc không đạt chuẩn, với độ tin cậy 0,93.
f) Giả sử trong kho có 10000 lọ thuốc. Hãy ước lượng khoảng tin cậy cho số lọ
thuốc không đạt chuẩn với độ tin cậy 0,98.
4. Phòng cảnh sát giao thông TP.ĐN cân ngẫu nhiên 120 xe tải chạy qua địa bàn
TP trong một ngày thấy có 30 xe chở quá tải.
a/ Với độ tin cậy 0,97 hãy ước lượng tỷ lệ xe chở quá tải (trong toàn bộ xe tải)
chạy qua địa bàn TP. (ĐS: ε = 0.086)

202
b/ Muốn độ chính xác khi ước lượng tỷ lệ xe chở quá tải bằng khoảng đối xứng
không vượt quá 0,05 và độ tin cậy 0,97 thì cần phải kiểm tra một mẫu mới ít
nhất là bao nhiêu xe? (ĐS: n = 354)
c/ Muốn độ chính xác khi ước lượng tỷ lệ xe chở quá tải bằng khoảng đối xứng
là 0,06 thì độ tin cậy là bao? (ĐS:87%)
d/ Với độ tin cậy 0,94 hãy ước lượng tỷ lệ xe chở quá tải tối đa (trong toàn bộ
xe tải) chạy qua địa bàn TP.
5. Khảo sát năng suất lúa của một địa phương (đơn vị tính là tấn/ha) người ta thu
được bảng số liệu sau:

Năng suất [2;3) [3;4) [4;5) [5;6) [6;7]


Số ha 15 18 16 14 12

a. Tính năng suất trung bình và độ lệch chuẩn hiệu chỉnh của một ha trong mẫu
nói trên. (x = 4.367, s = 1.369)
b. Ước lượng năng suất trung bình/ha của địa phương, với độ tin cậy 0,92.
(ε = 0.277)
c. Ước lượng năng suất trung bình tối đa/ha,với độ tin cậy 0,91.
d. Ước lượng sản lượng lúa tối đa mà địa phương thu được, với độ tin cậy 0,91.
Biết địa phương có 50000 ha trồng lúa.
6. Đo hàm lượng cholesterolemie (đvt: mg%) trên một số người bình thường được
kết quả:

Hàm lượng 124-148 148-172 172-196 196-220 220-244 244-268 268-292


Số người 10 15 20 25 18 12 10

a/ Ước lượng khoảng tin cậy cho hàm lượng cholesterolemie trung bình của một
người bình thường với độ tin cậy 0,93. (Kết quả: x = 206.255; s = 41.469; ε = 7.157)
b/ Khi ƯL hàm lượng cholesterolemie trung bình của một người bình thường, để
sai số không quá 6 (mg%) thì cần điều tra mẫu mới có cỡ mẫu bé nhất là bao
nhiêu? Biết độ tin cậy 0,93. (Kết quả: n = 157)
c/ Khi ƯL hàm lượng cholesterolemie trung bình của một người bình thường, để
sai số là 8 (mg%) thì là độ tin cậy bao nhiêu? (Kết quả: 0.957)
d/ Ước lượng hàm lượng cholesterolemie trung bình tối đa của một người bình
thường với độ tin cậy 0,91.
7. Đo huyết áp (đvt: mmHg) ngẫu nhiên một số người dân của địa phương A, có
bảng số liệu:

Huyết áp 75-95 95-115 115-135 135-155 155-175


Số người 12 18 25 15 10

a) Ước lượng huyết áp trung bình của một người dân địa phương A, biết độ tin
cậy 0,9.
203
b) Ước lượng huyết áp trung bình tối thiểu của một người dân địa phương A,
biết độ tin cậy 0,91.
c) Những người dân có huyết áp từ 135 (mmHg) trở lên là những người huyết
áp cao, ước lượng tỷ lệ người dân có huyết áp cao của địa phương A, biết độ tin
cậy 0,92.
d) Giả sử địa phương A có 10 ngàn dân, ước lượng số người cao huyết áp với độ
tin cậy 0,92.
e) Để sai số khi ước lượng huyết áp trung bình của một người dân địa phương A
là 5 thì độ tin cậy là bao nhiêu.
Đáp số: a. (118.723; 127.777); c. (0.222; 0.404); d. (2220; 4040) ; e. 93%
8. Kết quả quan sát về hàm lượng Vitamin C của một loại trái cây cho ở bảng sau:

Hàm lượng Vitamin C(%) Số trái


5-7 5
7-9 10
9-11 20
11-13 35
13-15 25
15-17 5

a. Hãy ước lượng hàm lượng Vitamin C trung bình trong một trái với độ tin cậy
95%.
b. Quy ước những trái có hàm lượng Vitamin C 11% trở lên là trái loại 1. Ước
lượng tỷ lệ trái loại 1 với độ tin cậy 98%.
c. Muốn độ chính xác khi ước lượng hàm lượng Vitamin C trung bình là ε1 6
0, 3(%) thì cần quan sát mẫu tối thiểu là bao nhiêu trái. Muốn độ chính xác khi
ước lượng tỷ lệ trái loại 1 là ε2 6 5% với cùng độ tin cậy 95% thì cần quan sát
mẫu tối thiểu là bao nhiêu trái?
ĐS: a. (11,124; 12,076) b. (53, 9%; 76, 1%), c. 252 (trái) và 350 (trái).
9. Tuổi thọ của một loại bóng đèn được biết tuân theo quy luật chuẩn với độ lệch
chuẩn 100 giờ.
a. Chọn ngẫu nhiên 100 bóng để thử nghiệm. Thấy mỗi bóng có tuổi thọ trung
bình là 1000 giờ. Hãy ước lượng tuổi thọ trung bình của bóng đèn xí nghiệp A
sản xuất với độ tin cậy 95%.
b. Với độ chính xác là 15 giờ. Hãy xác định độ tin cậy.
c. Với độ chính xác là 25 giờ, độ tin cậy là 95% thì cần thử nghiệm bao nhiêu
bóng.
ĐS: a. (980,4; 1019,6)(giờ); b. 86, 62%; c. 62 bóng.
10. Khảo sát về thu nhập (triệu đồng/tháng) của 100 người làm việc trong một công
ty, ta có kết quả cho ở bảng sau:

204
Thu nhập Số người Thu nhập Số người
1-2 2 5-6 17
2-3 5 6-7 16
3-4 8 7-8 24
4-5 12 8-10 16

a. Ước lượng thu nhập trung bình của một người làm việc ở công ty này với độ
tin cậy 95%.
b. Ước lượng phương sai của thu nhập với độ tin cậy 95%.
c. Với mẫu đã cho, nếu muốn độ tin cậy khi ước lượng thu nhập bình quân đạt
99% thì độ chính xác là bao nhiêu?
ĐS: a. (5,805; 6,575); b. s2 = 3, 852424, (2, 9679; 5, 1955) c. 0,5056.
11. Với độ tin cậy 95%, hãy ước lượng lượng xăng hao phí trung bình cho một loại
Taxi chạy từ A đến B nếu chạy thử một số lần trên đoạn này người ta ghi nhận
được lượng xăng hao phí như sau:

Lượng xăng hao phí(lít) Số lần


9,6-9,8 13
9,8-10 15
10-10,2 20
10,2-10,4 18
10,4-10,6 14

12. Có số liệu về trọng lượng của loại trứng gà như ở bảng dưới đây. Hãy ước lượng
trọng lượng trung bình của loại trứng gà này với độ tin cậy 95%. Giả thiết trọng
lượng trứng gà là biến ngẫu nhiên tuân theo luật phân phối chuẩn.

Trọng lượng trứng (gr) Số quả trứng


25-30 12
30-35 13
35-40 20
40-45 18
45-50 12

13. Để ước lượng tỷ lệ sản phẩm xấu của một kho đồ hộp. Người ta mở thử 200 hộp
của một kho đồ hộp thấy có 8 hộp bị biến chất.
a. Với độ tin cậy 95%, hãy ước lượng tỷ lệ đồ hộp bị biến chất của kho đó?
b. Với sai số cho phép ε = 2%. Hãy xác định độ tin cậy.
ĐS: a. 0, 01285 < p < 0, 06715 b. 85%.
14. Gieo thử 400 hạt giống thì thấy có 20 hạt không nẩy mầm. Tỷ lệ hạt giống không
nẩy mầm là bao nhiêu. Yêu cầu kết luận với độ tin cậy 91%.
15. Quan sát năng suất của 100 công nhân trong một xí nghiệp người ta tính được
năng suất trung bình của một công nhân ở mẫu này là: x = 12 (sản phẩm/ngày)
và phương sai mẫu hiệu chỉnh s2 = 25.

205
a. Ước lượng năng suất trung bình của một công nhân trong xí nghiệp này với
độ tin cậy 99%.
b. Muốn ước lượng năng suất trung bình của một công nhân trong xí nghiệp với
độ tin cậy 95% thì độ chính xác là bao nhiêu?
c. Muốn ước lượng năng suất trung bình của một công nhân trong xí nghiệp với
độ tin cậy 99% và độ chính xác ε = 0, 8 thì cần quan sát năng suất của bao nhiêu
công nhân nữa?
ĐS: a. (10,7 ; 13,3), b. ε = 0, 98, c. 160.
16. Số liệu thống kê về doanh số bán hàng của một siêu thị cho ở bảng sau:

Doanh số Số ngày Doanh số Số ngày


20-40 5 80-90 15
40-50 10 90-100 10
50-60 20 100-110 8
60-70 25 110-130 3
70-80 25

a. Những ngày có doanh số bán trên 90 triệu đồng là những ngày bán đắt hàng.
Hãy ước lượng tỷ lệ những ngày bán đắt hàng ở siêu thị này với độ tin cậy 96%.
b. Ước lượng doanh số bán trung bình của một ngày "bán đắt hàng" ở siêu thị
này với độ tin cậy 95% (giả thiết doanh số bán của những ngày bán đắt hàng là
biến ngẫu nhiên có phân phối chuẩn).
ĐS: a. (10, 26%; 24, 46%); b. (98,399; 106,363).
17. Một công ty tiến hành việc khảo sát thăm dò thị trường người tiêu dùng tại một
thành phố về một loại sản phẩm A. Khảo sát ngẫu nhiên 400 hộ trong thành
phố thì thu được số liệu về các hộ có sử dụng sản phẩm loại A này như sau:

Số lượng (kg/tháng) 0-1 1-1,5 1,5-2 2-2,5 2,5-3 3-4


Số hộ 50 80 100 80 60 30

a. Nếu biết thành phố này có 400000 hộ gia đình, hãy ước lượng tổng sản phẩm
A được tiêu thụ trong một tháng tại thành phố này với độ tin cậy 96%.
b. Một hộ sử dụng trong một tháng trên 2,5 kg sản phẩm A được xếp vào loại hộ
ưa chuộng sản phẩm A. Nếu muốn phép ước lượng tỷ lệ của các hộ gia đình ưa
chuộng sản phẩm A có độ chính xác 4% và có độ tin cậy 98% thì cần phải khảo
sát thêm bao nhiêu hộ gia đình nữa?
ĐS: a. (716800; 783200); b. 192 hộ.
18. Lô trái cây của một chủ hàng được đựng trong sọt, mỗi sọt 100 trái. Người ta
tiến hành kiểm tra 50 sọt thấy có 450 trái không đạt tiêu chuẩn.
a. Hãy ước lượng tỷ lệ trái không đạt tiêu chuẩn của lô hàng với độ tin cậy 95%?
b. Muốn ước lượng tỷ lệ trái không đạt tiêu chuẩn với độ chính xác 0, 5% thì độ
tin cậy đạt được là bao nhiêu %?

206
c. Muốn ước lượng tỷ lệ trái không đạt tiêu chuẩn với độ tin cậy 99% và độ chính
xác 1% thì cần kiểm tra bao nhiêu sọt?
ĐS: a. (8, 2%; 9, 8%), b. 78%, c. 55 sọt.
19. Điều tra doanh số hàng tháng (triệu đồng) của 100 hộ kinh doanh một loại hàng,
ta có bảng số liệu sau:

Doanh số 11,5 11,6 11,7 11,8 11,9 12


Số hộ 10 15 20 30 15 10

Hãy ước lượng doanh số trung bình hàng tháng của các hộ kinh doanh mặt hàng
này với độ tin cậy 95%.
ĐS: x = 11, 755, s = 0, 145, (11, 727; 11, 783).
20. Kiểm tra ngẫu nhiên 400 sản phẩm do một nhà máy sản xuất thấy có 160 sản
phẩm loại 1. Hãy ước lượng tỷ lệ sản phẩm loại 1 của nhà máy với độ tin cậy
95%.

21. Trọng lượng các bao bột mì tại một cửa hàng lương thực tuân theo quy luật
chuẩn. Kiểm tra 20 bao, thấy trọng lượng trung bình của mỗi bao bột mì là
x = 48(kg) và phương sai mẫu hiệu chỉnh là s2 = 0, 5(kg 2 ).
a. Với độ tin cậy 95% hãy ước lượng trọng lượng trung bình của một bao bột mì
thuộc cửa hàng.
b. Với độ tin cậy 98%, hãy ước lượng trọng lượng trung bình tối thiểu của một
bao bột mì thuộc cửa hàng.
ĐS: a. (47, 67; 48, 33); b. 47.6514 (kg).
22. Trong kho để rất nhiều sản phẩm của xí nghiệp A, lấy ngẫu nhiên 100 sản phẩm.
Gọi X là biến ngẫu nhiên chỉ trọng lượng của sản phẩm, cân lên có kết quả:

X(gr) 800-850 850-900 900-950 950-1000 1000-1050 1050-1100 1100-1150


n 5 10 20 30 15 10 10

a. Các sản phẩm có trọng lượng từ 1050(gr) trở lên là loại I. Hãy ước lượng trọng
lượng trung bình của các sản phẩm loại I với độ tin cậy 98%. (giả thiết X có
phân phối chuẩn).
b. Nếu muốn ước lượng tỷ lệ sản phẩm loại I với độ tin cậy 80% và độ chính xác
3% thì cần điều tra thêm bao nhiêu sản phẩm nữa.
c. Giả sử trong kho để lẫn 1000 sản phẩm của xí nghiệp B và trong 100 sản phẩm
lấy ra từ kho có 9 sản phẩm của xí nghiệp B. Hãy ước lượng số sản phẩm của xí
nghiệp A trong kho với độ tin cậy 82%.
ĐS: a. (1085,44; 1114,56); b. 193 sản phẩm; c. (6813; 18231) sản phẩm.
23. Một nhà máy tiến hành một nghiên cứu xem trung bình một công nhân hoàn
thành bao nhiêu sản phẩm trong một tháng. Một mẫu thực nghiệm gồm 60 công
nhân được chọn ngẫu nhiên và có kết quả như sau: 14, 18, 22, 30, 36, 28, 42, 79,

207
36, 52, 15, 47, 95, 16, 27, 111, 37, 63, 127, 23, 31, 70, 27, 111, 30, 147, 72, 37,
25, 7, 33, 29, 35, 41, 48, 15, 29, 73, 26, 15, 26, 31, 57, 40, 18, 85, 28, 32, 22, 37,
60, 41, 35, 26, 20, 58, 33, 23, 35, 33. Hãy ước lượng khoảng tin cậy đối xứng cho
trung bình số sản phẩm mà một công nhân của nhà máy hoàn thành trong một
tháng với độ tin cậy 80%.
24. Tại một nhà máy dược phẩm, một loại thuốc được chế tạo với trọng lượng quy
định là 40(g/hộp). Khi chế tạo xong lấy ra một số hộp để kiểm tra, thu được kết
quả sau:
Trọng lượng (g/hộp) 39.8 39.9 40.0 40.2 40.3 40.6
Số hộp 5 7 10 15 8 5
a) Tính trung bình mẫu và độ lệch chuẩn mẫu hiệu chỉnh.
b) Hãy ước lượng khoảng tin cậy đối xứng cho trọng lượng trung bình của một
hộp thuốc với độ tin cậy 95%.
c) Quy định sản phẩm loại I có trọng lượng 40(g/hộp). Hãy ước lượng khoảng
tin cậy đối xứng cho tỉ lệ sản phẩm loại I, với độ tin cậy 95%.
ĐS: a. 40,134; 0,226; b. (40,071; 40,197); c. (0.089; 0,311).
25. Một loại thuốc mới được đem điều trị thử cho 100 người bị bệnh lao, kết quả có
40 người khỏi bệnh.
a) Nếu áp dụng loại thuốc này trên diện rộng; hãy ước lượng tỷ lệ bệnh nhân
khỏi bệnh với độ tin cậy 95%.
b) Nếu muốn độ chính xác khi ước lượng tỷ lệ bệnh nhân khỏi bệnh lao không
quá 7% với độ tin cậy 95% thì cỡ mẫu tối thiểu bằng bao nhiêu?
ĐS: a. (0,304; 0,496); b. 189.
26. Khảo sát mức tiêu thụ điện của 400 hộ gia đình ở một thành phố (đơn vị là
KW/tháng) ta có bảng số liệu sau:
Lượng điện tiêu thụ 80-120 120-140 140-160 160-180 180-220
Số hộ 50 90 140 80 40
a. Tính trung bình mẫu và độ lệch chuẩn mẫu hiệu chỉnh.
b. Ước lượng mức tiêu thụ điện trung bình của một hộ gia đình ở thành phố với
độ tin cậy 95%.
c. Những hộ có mức tiêu thụ điện từ 160 (KW/tháng) trở lên là những hộ có
mức tiêu dùng điện cao. Hãy ước lượng số hộ gia đình có mức tiêu dùng điện cao
của thành phố với độ tin cậy 99%. Biết thành phố có 900000 hộ gia đình.
d. Nếu muốn ước lượng tỷ lệ gia đình có mức tiêu dùng điện cao của thành phố
đạt được độ chính xác 3% và độ tin cậy 99% thì cần khảo sát thêm bao nhiêu hộ
gia đình nữa.
ĐS: a. x = 148, 25; s = 27.
b. (145, 604; 150, 896).
c. (216810; 323190).
d. 1154.
208
27. Trong kho có 1000 sản phẩm của nhà máy A sản xuất bỏ lẫn với nhiều sản phẩm
do nhà máy B sản xuất. Lấy ngẫu nhiên từ kho ra 200 sản phẩm thấy có 25 sản
phẩm do nhà máy A sản xuất. Với độ tin cậy 90%, hãy ước lượng trong kho này
có khoảng bao nhiêu sản phẩm do nhà máy B sản xuất.
28. Để ước lượng số cá trong một hồ nuôi, người ta bắt lên 1000 con, đánh dấu rồi
thả lại xuống hồ. Sau một thời gian bắt lên 400 con thấy có 80 con có đánh dấu.
Với độ tin cậy 97%, hãy ước lượng số cá có trong hồ.
29. Để ước lượng doanh thu của công ty A gồm 500 cửa hàng trên toàn quốc trong
1 tháng, người ta chọn ngẫu nhiên 10% số cửa hàng và có bảng doanh thu trong
1 tháng:

Doanh thu (triệu đồng /tháng) 50 100 150 200 250


Số cửa hàng 8 12 15 10 5

a. Với độ tin cậy 95%, ước lượng doanh thu trung bình của mỗi cửa hàng và tổng
doanh thu trung bình của công ty trong 1 tháng.
b. Nếu muốn có độ chính xác của ước lượng doanh thu trung bình của mỗi cửa
hàng trong một tháng là 10 triệu đồng thì độ tin cậy là bao nhiêu?
c. Những cửa hàng có doanh thu từ 200 triệu đồng trở lên là những cửa hàng
"kinh doanh tốt". Hãy ước lượng số cửa hàng kinh doanh tốt trên toàn quốc với
độ tin cậy 90%.
Đáp số: a. (125.116 ; 158.884) ; b. 75%; c. (97; 203)
30. Để đánh giá tỷ lệ dân số dưới 30 tuổi trong một thành phố nào. Chọn ngẫu nhiên
một mẫu gồm 100 người dân, thấy có 35 người có độ tuổi dưới 30. Tìm khoảng
tin cậy 96% cho tỷ lệ nói trên.
31. Mặc dù thị trường xe máy đang bão hòa nhưng với gần 3 triệu xe được tiệu thụ
mỗi năm thì các hãng xe máy vẫn sẽ kiếm bộn tiền từ thị trường Việt Nam.
Chọn ngẫu nhiên một mẫu 250 chiếc xe máy, ta thấy có 185 xe Honda. Hãy ước
lượng tỷ lệ xe Honda trong tổng số xe máy với độ tin cậy 95%.
32. Một trường đại học có chỉ tiêu tuyển sinh là 5000. Năm nay có 6000 thí sinh
xét tuyển nguyện vọng 1 vào trường. Trong quá trình xét tuyển nguyện vọng 1,
người ta điều tra một mẫu gồm 200 hồ sơ thấy có 15 hồ sơ không có ý định học
tại trường. Hãy dự báo số sinh viên có ý định vào trường bằng khoảng tin cậy
92%.
Kết quả: 5352 đến 5748.
33. Ai cũng biết hút thuốc lá có hại cho sức khoẻ. Tuy nhiên, tỷ lệ người hút thuốc
lá đang có xu hướng tăng lên, đặc biệt ở các nước đang phát triển, trong đó có
Việt Nam. Có nhiều nguyên nhân khác nhau dẫn đến tình trạng này, nhưng đa
số là do sự hiểu biết một cách cụ thể về tác hại của khói thuốc lá còn hạn chế,
kiến thức chưa đầy đủ. Điều đó xuất phát từ việc thiếu các biện pháp tuyên
truyền giáo dục về thuốc lá và tác hại của thuốc lá đối với sức khoẻ con người.
Trong một nghiên cứu, người ta chọn ngẫu nhiên 200 người, ta thấy có 42 người

209
hút thuốc lá. Hãy ước lượng số người hút thuốc trong toàn bộ dân số với độ tin
cậy 91%.
34. Trọng lượng trung bình của một giống bò là µ(kg), còn độ lệch chuẩn là 38,2kg.
Chọn ngẫu nhiên 250 con bò, ta tìm được trọng lượng trung bình của chúng là
315 kg. Từ số liệu này hãy cho một ước lượng về µ với độ tin cậy 93%.
35. Tại một trang trại chăn nuôi, xử lý một mẫu gồm 400 con gà thấy trung bình
mẫu là 2,08kg và độ lệch chuẩn là 0,22kg. Với độ tin cậy bao nhiêu để có thể tin
cậy rằng trọng lượng trung bình của giống gà đó nằm trong khoảng từ 2,06kg
đến 2,10kg.
Bài tập ước lượng phương sai
36. Kiểm tra ngẫu nhiên 16 lô thuốc mới nhập về tìm được độ phân tán của thành
phần chính trong mỗi viên thuốc là s2 = 0, 0775(g 2 ). Với độ tin cậy 95% hãy ước
lượng độ phân tán của thành phần chính trong mỗi viên thuốc của cả lô thuốc
đó. Biết trọng lượng thành phần chính trong mỗi viên thuốc có phân phối chuẩn.
ĐS: 4, 23% < σ 2 < 18, 56%.
37. Để nghiên cứu sự biến động của lượng sữa của mỗi con bò trong chu kỳ vắt sữa
người ta lấy ngẫu nhiên 15 con bò và thu được các số liệu sau (đơn vị: lít)

12,928 13,812 11,036 12,12 14,358


9,243 14,972 8,998 9,98 14,004
10,62 11,99 14,788 14,744 14,786

Với độ tin cậy 95% hãy ước lượng mức độ biến động của lượng sữa mỗi con trong
chu kỳ vắt sữa. Biến lượng sữa của bò là biến ngẫu nhiên có phân phối chuẩn.
ĐS: 2, 472 < σ 2 < 11, 471.
38. Lãi suất cổ phiếu của một công ty trong vòng 5 năm qua là 15%, 10%, 20%,
7%, 14%. Với độ tin cậy 90% hãy ước lượng độ phân tán của lãi suất cổ phiếu của
công ty đó. Biết lãi suất cổ phiếu là biến ngẫu nhiên có phân phối chuẩn.
ĐS: s2 = 0, 00247. Khoảng ước lượng (0,001041345; 0,013901337).

210
BÀI TẬP CHƯƠNG 8

1. Lô hàng đủ tiêu chuẩn xuất khẩu nếu tỷ lệ phế phẩm không vượt quá 3%. Kiểm
tra ngẫu nhiên 400 sản phẩm của lô hàng này thấy có 14 phế phẩm. Với mức ý
nghĩa α = 0, 05 có cho phép lô hàng xuất khẩu được không?
ĐS: Giá trị kiểm định: z = 0, 568 ∈
/ (1, 645; +∞). Cho phép xuất khẩu.

2. Tỷ lệ bệnh nhân khỏi bệnh T khi điều trị bằng thuốc A là 85%. Thí nghiệm dùng
loại thuốc B để chữa bệnh thì trong số 900 người mắc bệnh T có 810 người được
chữa khỏi bệnh. Như vậy có thể kết luận thuốc B hiệu quả hơn thuốc A hay
không? Yêu cầu kết luận với mức ý nghĩa α = 0, 05.
ĐS: z = 4, 2017 ∈ R = (1, 645; +∞). Có thể kết luận thuốc B hiệu quả hơn thuốc
A.
3. Tỷ lệ phế phẩm của một nhà máy trước đây là 5%. Năm nay nhà máy áp dụng
một biện pháp kỹ thuật mới. Để nghiên cứu tác dụng của biện pháp kỹ thuật
mới có làm giảm tỷ lệ phế phẩm hay không người ta lấy một mẫu gồm 800 sản
phẩm để kiểm tra và thấy có 24 phế phẩm trong mẫu này.
a. Với mức ý nghĩa α = 5%, hãy kết luận xem biện pháp kỹ thuật mới này có
thực sự làm giảm tỷ lệ phế phẩm của toàn nhà máy hay không?
b. Nếu nhà máy báo cáo tỷ lệ phế phẩm sau khi áp dụng biện pháp kỹ thuật mới
đã giảm xuống chỉ còn 2% thì có chấp nhận được hay không? (với mức ý nghĩa
α = 0, 05)
ĐS: a. Giá trị kiểm định z = −2, 596 ∈ R = (−∞; −1, 645). Có thể nói biện pháp
kỹ thuật mới có tác dụng làm giảm tỷ lệ phế phẩm của nhà máy.
b. Giá trị kiểm định z = 2, 02 ∈ R = (1, 645; +∞). Có cơ sở để bác bỏ báo cáo đưa
ra.
4. Một công ty quảng cáo có 75% khách hàng ưa thích sản phẩm của mình. Điều tra
ngẫu nhiên 400 khách hàng thì thấy có 260 người ưa thích sản phẩm của công
ty. Với mức ý nghĩa 3%, hãy cho ý kiến về lời tuyên bố trên?
ĐS: z = −4, 619. Bác bỏ H0 . Quảng cáo sai sự thật.
5. Trước bầu cử người ta thăm dò 1000 cử tri thì thấy có 400 người nói rằng sẽ bỏ
phiếu cho ứng viên A. Có ý kiến cho rằng tỷ lệ cử tri sẽ bỏ phiếu cho ứng viên
A là 45%. Với mức ý nghĩa 5%, hãy kiểm định ý kiến trên?
ĐS: z = −3, 178. Bác bỏ H0 , ý kiến sai.
6. Thống kê 1000 trẻ sơ sinh ở một địa phương thấy có 520 bé trai. Hỏi tỷ lệ sinh
con trai và tỷ lệ sinh con gái như nhau không? Cho kết luận với mức ý nghĩa
0.05.
7. Tháng 9 là tháng ATGT. VN có hơn 6.500 người chết vì tai nạn giao thông trong
9 tháng đầu năm 2015. Còn theo hãng tin AP, số lính Mỹ chết trong cuộc chiến
tại Iraq tới nay là 4.352. Theo số liệu của tờ báo A, tỷ lệ thanh thiếu niên dưới
19 tuổi trên toàn quốc bị TNGT là 24%. Người ta điều tra một mẫu gồm 500 vụ
TNGT trên toàn quốc thấy có 150 trường hợp thanh thiếu niên dưới 19 tuổi bị

211
TNGT. Với mức ý nghĩa 6% hãy kiểm định xem tờ báo trên có phóng đại hay
không.
8. Tỉ lệ thất nghiệp của thành phố A vào năm ngoái là 15%. Năm nay người ta
điều tra ngẫu nhiên 300 người trong độ tuổi lao động thì thấy có 30 người thất
nghiệp. Với mức ý nghĩa 5% cho biết tỉ lệ thất nghiệp năm nay có giảm so với
năm ngoái không?
9. Tỉ lệ khách hàng tiêu dùng thường xuyên mặt hàng A tại một địa phương là
60%. Sau một chiến dịch tiếp thị, Ban quản trị công ty quyết định điều tra xem
quả thực tỉ lệ này đã tăng lên hay chưa, nếu không sẽ tiếp tục tiến hành quảng
cáo trên các phương tiện thông tin đại chúng. Phỏng vấn ngẫu nhiên 500 người
thấy có 350 người sử dụng thường xuyên mặt hàng đó. Với mức ý nghĩa 5%, cho
biết công ty có nên tiếp tục quảng cáo hay không?
10. Trong điều kiện chăn nuôi bình thường, lượng sữa trung bình của một con bò
là 14 kg/ngày. Nghi ngờ điều kiện chăn nuôi bò kém đi làm cho lượng sữa giảm
xuống. Người ta điều tra ngẫu nhiên 35 con bò và tính được lượng sữa trung
bình của mỗi con trong một ngày là 12,5 kg và độ lệch chuẩn mẫu s = 2, 5kg . Với
mức ý nghĩa α = 0, 05 hãy kết luận về điều nghi ngờ nói trên.
ĐS: z = −3, 55 ∈ R = (−∞; −1, 65). Bác bỏ giả thiết H0 , tức là lượng sữa bò có
xu hướng giảm.
11. Năng suất trung bình của một giống lúa là 47 tạ/ha. Sau thời gian dài canh tác,
người ta nghi ngờ giống lúa đó bị thoái hóa, năng suất giảm. Dựa vào mẫu gồm
100 (ha) trồng lúa, thấy năng suất trung bình của mẫu là 45,5 tạ/ha và độ lệch
chuẩn mẫu 4 tạ/ha. Hãy kết luận về điều nghi ngờ nói trên với mức ý nghĩa
α = 0, 01.
ĐS: z = −3, 75 ∈ R = (−∞; −2, 33). Bác bỏ giả thiết H0 , tức là giống lúa đó bị
thoái hóa.
12. Thời gian trước số tiền gữi tiết kiệm bằng ngoại tệ trung bình của mỗi khách
hàng là 1000 USD. Để đánh giá xem hiện nay xu hướng này còn giữ nguyên hay
không người ta kiểm tra ngẫu nhiên 64 sổ tiết kiệm và tìm được số tiền gữi trung
bình là 990 USD, độ lệch chuẩn là 100 USD.
a. Với mức ý nghĩa α = 0, 01 hãy kiểm định xem số tiền gữi trung bình có giảm
so với trước đây hay không?
b. Tìm xác suất mắc sai lầm loại 2 nếu số tiền tiết kiệm trung bình của mỗi
khách hàng thực sự bằng 1050 USD.
ĐS: a. Giá trị kiểm định: z = −0, 8 ∈
/ R = (−ß; −2, 33). b. p = 0, 0207.

13. Bột mỳ được đóng bao bằng máy tự động có trọng lượng đóng bao theo quy định
là 16 kg và độ lệch chuẩn 1,2kg. Lấy ngẫu nhiên 25 bao bột để kiểm tra tìm được
trọng lượng trung bình của chúng là 16,5 kg.
a. Với mức ý nghĩa 0,05 có cần dừng hoạt động của máy để điều chỉnh hay không?
b. Tìm xác suất mắc sai lầm loại 2 nếu giá trị thực của trọng lượng đóng gói
trung bình 15,5 và 16,6.

212
ĐS: a. Có thể dừng máy để kiểm tra. b. 0, 45; 0, 284.
14. Một dây chuyền sản xuất bóng đèn được gọi là hoạt động bình thường nếu tuổi
thọ trung bình của bóng đèn sản xuất ra là 375 giờ. Kiểm tra ngẫu nhiên 50
bóng đèn loại này thì thấy tuổi thọ trung bình là 350 giờ và s = 100 giờ. Với
mức ý nghĩa 5%, hãy cho biết dây chuyền sản xuất bóng đèn này có hoạt động
bình thường không?
ĐS: z = −1, 77. Chấp nhận H0 . Bình thường.
15. Mức hao phí xăng (X) cho một loại xe ôtô chạy trên đoạn đường AB là biến
ngẫu nhiên phân phối chuẩn có kỳ vọng toán là 50 (lít). Do đường được tu sữa
lại , người ta cho rằng mức hao phí xăng trung bình đã giảm xuống. Quan sát
30 chuyến xe chạy trên đường AB ta thu được bảng số liệu sau:
Mức xăng hao phí(lít) Số chuyến xe
48,5 - 49,0 5
49,0 - 49,5 10
49,5 - 50,0 10
50,0 - 50,5 3
50,5 - 51,0 2

a. Với mức ý nghĩa 0,05, hãy kết luận về ý kiến nếu trên.
b. Tìm xác suất mắc sai lầm loại 2 nếu mức xăng hao phí trung bình thực sự là
48 lít.
ĐS: a. z = −4.63 ∈ R = (−∞; −1.7). Có cơ sở để kết luận mức hao phí xăng trung
bình đã giảm xuống.
16. Một công ty dự định mở một siêu thị ở khu dân cư. Để đánh giá khả năng mua
hàng của dân cư trong khu vực, người ta tiến hành điều tra về thu nhập của 100
hộ chọn ngẫu nhiên trong khu vực và thu được bảng số liệu:
Thu nhập TB(Triệu/tháng) 3 5 10 15 20
Số hộ 8 15 38 22 17

Theo bộ phận tiếp thị thì siêu thị chỉ hoạt động có hiệu quả tại khu vực này nếu
thu nhập bình quân hàng tháng của các hộ phải trên 10 triệu/tháng. Vậy qua
kết quả điều tra trên công ty có nên quyết định mở siêu thị tại khu dân cư này
hay không? (Yêu cầu kết luận với mức ý nghĩa 5%).
ĐS: z = 2, 8 ∈ R = (1, 645; +∞). Giả thiết H0 bị bác bỏ. Vậy công ty nên mở siêu
thị tại khu dân cư này.
17. Trọng lượng trung bình khi thu hoạch một loại dưa hấu của một trang trại trước
đây là 3.3 kg/quả. Năm nay người ta sử dụng một loại phân bón mới, cân thử
15 quả khi thu hoạch ta được các số liệu sau: 3.25; 2.50; 4.00; 3.75; 3.80, 3.90;
4.02; 3.60; 3.80; 3.20; 3.82; 3.40; 3.75; 4.00; 3.50.
Giả thiết trọng lượng của dưa hấu là biến ngẫu nhiên tuân theo quy luật chuẩn.
a. Với mức ý nghĩa α = 0, 01. Hãy cho kết luận về tác dụng của loại phân bón
này. (có thực sự làm tăng trọng lượng trung bình của dưa hấu lên hay không)
213
b. Nếu trang trại báo cáo trọng lượng khi thu hoạch là 3,5 kg/quả thì có chấp
nhận được không. Kết luận với mức ý nghĩa α = 0, 01.
ĐS: x = 3, 6193; s = 0, 405; a. Giá trị kiểm định z = 3, 053; b. Giá trị kiểm định
z = 1, 141.
18. Một phương pháp ăn kiêng được quảng cáo trên truyền hình rằng sẽ làm giảm
trọng lượng trung bình là 45 pound (1 pound=0,45 kg) trong vòng 6 tháng. Theo
dõi 28 người theo chế độ ăn kiêng nói trên trong 6 tháng, ta thấy trung bình
mỗi người giảm trọng lượng 35 pound với độ lệch chuẩn là 20 pound. Với mức ý
nghĩa 0,01, hãy nhận định xem phương pháp ăn kiêng nói trên có quảng cáo quá
sự thực hay không?
ĐS: Giá trị kiểm định là z = 2, 646. Lời quảng cáo trên là "phóng đại".
19. Một công ty điện thoại nói rằng sẽ lắp đặt điện thoại cho khách hàng trong thành
phố trung bình là 30 ngày kể từ khi có yêu cầu. Kiểm tra ngẫu nhiên 49 khách
hàng thấy thời gian trung bình chờ lắp điện thoại là 34,5 ngày với độ lệch mẫu
hiệu chỉnh là 3,3 ngày. Với mức ý nghĩa 1%, có thể chấp nhận lời tuyên bố của
công ty được không?
20. Một công ty nhập một hệ thống máy tính mới để xử lý các hóa đơn. Công ty
chạy kiểm tra trong 100 giờ có số liệu:

Số hoá đơn được xử lý 150 170 180 200 210


Số giờ 10 25 40 20 5

Trước đây, công ty có 1 hệ thống máy tính trung bình 1 giờ xử lý được 175 hóa
đơn, với mức ý nghĩa 1%, có thể kết luận hệ thống mới hiệu quả hơn cũ hay
không?
ĐS: z = 3, 211. Bác bỏ H0 . Hệ thống mới hiệu quả hơn cũ.
21. Theo dõi doanh số bán ra của cửa hàng A trong 100 ngày sau khi chuyển địa
điểm có số liệu sau:

Doanh số (triệu/ngày) 180 190 200 210 220


Số ngày 15 25 40 15 5

Trước khi chuyển địa điểm doanh số trung bình bán ra của cửa hàng A trong 1
ngày là 191 triệu đồng. Với mức ý nghĩa 1%, hãy kiểm định xem sau khi chuyển
địa điểm doanh số bán ra của cửa hàng A có bị thay đổi hay không?
ĐS: x = 197; s = 10, 6; z = 5, 67. Bác bỏ H0 . Doanh số thay đổi.
22. Đo lượng cholesterol (đvt: mg%) một số người của địa phương A, có bảng số liệu:

X (mg%) [150; 160) [160 ; 170) [170;180) [180;190) [190;200]


Số hộ 32 25 13 20 10

a. Tìm trung bình mẫu. Cho biết ý nghĩa kết quả vừa tìm được.
b. Tìm phương sai mẫu hiệu chỉnh. Cho biết ý nghĩa kết quả vừa tìm được.

214
c. Một chuyên gia cho rằng lượng cholesterol trung bình của một người tại địa
phương A là 165(mg%). Kiểm định ý kiến trên với mức ý nghĩa 0,05.
ĐS: a. x = 170, 1; b. s = 13, 82; c. z = 3.691, bác bỏ H0 .
Bài tập tổng hợp:
23. (Đề thi TS Cao học ĐH Duy Tân 2011) Số tiền thu phí X trong một ngày tại
một trạm thu phí giao thông A, có phân phối chuẩn. Người ta theo dõi ngẫu
nhiên số tiền thu phí giao thông tại trạm A trong 100 ngày và có được số liệu
sau:
Số tiền thu phí (triệu đồng) 194 197 200 203 206
Số ngày 4 28 40 20 8

a. Hãy ước lượng số tiền trung bình thu phí trong một ngày tại trạm thu phí A,
với độ tin cậy 95%, bằng khoảng tin cậy đối xứng.
b. Trưởng trạm thu phí A báo cáo rằng số tiền thu phí trung bình trong một
ngày tại trạm thu phí đó là 198 triệu đồng. Với mức ý nghĩa α = 0, 01 có thể nói
rằng số tiền thu phí trung bình trong ngày tại trạm A lớn hơn 198 triệu đồng
không?
c. Gọi µ là số tiền thu phí trung bình trong một ngày tại trạm A. Xét bài toán
kiểm định giả thiết H0 : µ = 200, 761; H1 :< 200, 761 với mức ý nghĩa α. Hãy tìm
các giá trị α, với 0 < α < 0, 05, để giả thiết H0 bị bác bỏ.
ĐS: a. (199, 42; 200, 58); b. Giá trị kiểm định z = 6, 77; c. 0, 01 < α < 0, 05.
24. Khảo sát thu nhập bình quân (triệu đồng/năm) của một số người làm việc trong
công ty A người ta thu được bảng số liệu sau đây:
Thu nhập TB Số người Thu nhập TB Số người
20-30 5 60-70 16
30-40 8 70-80 10
40-50 18 80-90 9
50-60 30 90-100 4

a. Ước lượng thu nhập trung bình một năm của một người trong công ty với độ
tin cậy 95% và nói rõ ý nghĩa của kết quả thu được.
b. Những người có mức thu nhập trên từ 80 triệu đồng/năm trở lên là những
người có thu nhập cao. Hãy ước lượng tỷ lệ người có thu nhập cao của công ty
với độ tin cậy 92%.
c. Ước lượng thu nhập trung bình của những người có thu nhập cao trong công
ty với độ tin cậy 91% (Giả sử nhập trung bình của những người có thu nhập cao
trong công ty có phân phối chuẩn).
d. Nếu nói rằng thu nhập trung bình của một người trong công ty là 50 triệu
đồng/năm thì có đáng tin cậy không với mức ý nghĩa α = 5%
ĐS: x = 58; s = 17, 026; a)[54.663; 61.337]; b)[0.13; 0.27]; c)[79.62; 85.17]; d)z = 4.699.
25. Số liệu về doanh số bán hàng (triệu đồng/ngày) của một siêu thị trong một số
ngày cho ở bảng sau:
215
Doanh số 24 30 36 42 48 54 60 65 70
Số ngày 5 12 25 35 24 15 12 10 6

a. Ước lượng doanh số bán trung bình trong một ngày của siêu thị này với độ
tin cậy 95%.
b. Những ngày có doanh số bán từ 60 triệu đồng trở lên là những ngày "bán đắt
hàng". Hãy ước lượng tỷ lệ những ngày bán đắt hàng với độ tin cậy 98%.
c. Ước lượng doanh số bán trung bình của một ngày bán đắt hàng ở siêu thị này
với độ tin cậy 95%(giả thiết doanh số bán trung bình của một ngày bán đắt hàng
ở siêu thị này có phân phối chuẩn).
d. Trước đây doanh số bán trung bình của siêu thị là 35 triệu/ngày. Số liệu ở
bảng trên được thu thập sau khi siêu thị áp dụng một phương thức bán hàng
mới. Hãy cho nhận xét về phương thức bán hàng mới với mức ý nghĩa α = 5%.
ĐS: a. 43, 963 < µ < 47, 73; b. 11, 74% < p < 27, 14%; c. 62, 403 < µ1 < 65, 454; d.
z = 11, 268.
26. Điều tra năng suất lúa của 100 ha lúa trong vùng ta có bảng số liệu sau:

Năng suất(tấn/ha) Diện tích(ha) Năng suất(tấn/ha) Diện tích(ha)


3,0-3,5 7 5,0-5,5 20
3,5-4,0 12 5,5-6,0 8
4,0-4,5 18 6,0-6,5 5
4,5-5,0 27 6,5-7,0 3

a. Ước lượng năng suất lúa trung bình ở vùng này với độ tin cậy 95%.
b. Những thữa ruộng có năng suất trên 5, 5tấn/ha là những thữa có năng suất
cao. Hãy ước lượng diện lúa có năng suất cao với độ tin cậy 98%. (cho biết diện
tích gieo trồng lúa ở vùng này là 8000 ha)
c. Năng suất lúa trung bình trong những vụ trước là 4,5 tấn/ha. Vụ lúa năm nay
người ta áp dụng một biện pháp kỹ thuật mới cho toàn bộ diện tích trồng lúa
trong vùng. Với mức ý nghĩa 5% hãy kết luận xem biện pháp kỹ thuật mới có
tác dụng làm tăng năng suất lúa trung bình của vùng này hay không?
ĐS: a. 4, 587 < µ < 4, 913; b. (600; 1960)(ha) ; c. z = 3, 006.
27. Đo huyết áp (đvt: mmHg) một số người của địa phương A, có bảng số liệu:

xi (mmHg) [70; 90) [90 ; 110) [110;130) [130;150) [150;170]


ni (Số người) 15 25 30 20 10

a) Tìm trung bình mẫu và độ lệch chuẩn mẫu hiệu chỉnh.


b) Ước lượng chỉ số huyết áp trung bình tối đa của một người dân địa phương
A, với độ tin cậy 95
c) Để sai số khi ước lượng chỉ số huyết áp TB của 1 người dân bằng khoảng tin
cậy đối xứng là 5(mmHg) và độ tin cậy 95% thì cần điều tra một mẫu có cỡ mẫu
khoảng bao nhiêu người?

216
d) Để sai số khi ước lượng chỉ số huyết áp TB của 1 người dân bằng khoảng tin
cậy đối xứng là 4,5(mmHg) thì độ tin cậy là bao nhiêu %?
e. Một chuyên gia cho rằng chỉ số huyết áp trung bình của một người dân địa
phương A không dưới 130 (mmHg). Kiểm định ý kiến trên với mức ý nghĩa 0,05.
ĐS: a. x = 117, s = 24, 016; b. µ ≤ 120.939; c. n = 89; d. γ = 0, 94; e. z = −5, 413,
bác bỏ H0 .
28. Sử dụng thuốc Atropin mới điều trị thử cho 1000 bệnh nhân bị dạ dày, kết quả
có 650 người khỏi bệnh.
a) Nếu áp dụng loại thuốc này trên diện rộng; hãy ước lượng tỷ lệ bệnh nhân
khỏi bệnh với độ tin cậy 95%.
Một chuyên gia cho rằng tỷ lệ bệnh nhân khỏi bệnh không dưới 70%? Với mức ý
nghĩa 5% hãy kiểm định ý kiến trên.
ĐS: a. (0.62; 0.68); b. z = −3.45, bác bỏ H0 .
29. Một tỉnh A thông báo rằng tỷ lệ thi đỗ tốt nghiệp của học sinh trung học của
tỉnh là 80%. Một thanh tra của Bộ giáo dục vốn tin rằng phải tỷ lệ này phải nhỏ
hơn 80% đã làm một cuộc điều tra. Anh ta chọn ngẫu nhiên 72 học sinh thì có
50 em tốt nghiệp. Hãy kiểm định báo cáo trên với mức ý nghĩa 5%.
30. Thời gian sống trung bình của một loại chuột sống trong phòng thí nghiệm là
285 ngày với độ lệch chuẩn là 45 ngày. Chọn ngẫu nhiên 36 con chuột và cho
uống thử một loại thuốc A hằng ngày. Kết quả cho thấy thời gian sống trung
bình của loại chuột này là 274 ngày và độ lệch chuẩn vẫn như trên. Nếu giả thiết
rằng thuốc A không có ảnh hưởng tới thời gian sống của chuột có đúng không?
hãy kết luận với mức ý nghĩa 9%.

31. Theo báo cáo của UNDP (năm 2016), Châu Á – Thái Bình Dương đang có số
người trong độ tuổi lao động lớn và số người phụ thuộc ít. Cụ thể, số người đang
trong độ tuổi lao động chiếm 68% trong khi số người phụ thuộc chiếm 32%. Đây
được coi là giai đoạn dân số vàng mà mỗi quốc gia chỉ có cơ hội trải qua duy
nhất một lần, bao gồm cả Việt Nam. Để đánh giá tỷ lệ dân số vàng của Việt
Nam có đúng như nhận định trên. Người ta chọn ngẫu nhiên một mẫu gồm 1000
người dân, thấy có 670 người trong độ tuổi lao động. Kiểm định báo cáo trên với
mức ý nghĩa 3%.
Kiểm định hai tổng thể:
32. Tại hai công ty A và B có số liệu sau về nhân viên: Công ty A có 200 nhân viên
thì năm 2007 có 30 người xin chuyển đi nơi khác. Công ty B có 350 nhân viên
thì năm 2007 có 65 người thôi việc. Vậy với mức ý nghĩa 0,05 có thể cho rằng tỷ
lệ nhân viên thôi việc của Công ty A thấp hơn Công ty B hay không?
ĐS: Giá trị kiểm định: z = −1, 071.
33. Vào lúc 9 giờ lấy ngẫu niên 50 sản phẩm do một máy sản xuất thì có 5 phế phẩm.
Vào lúc 12 giờ lấy ngẫu nhiên 40 sản phẩm cũng do máy đó sản xuất thì có 7
phế phẩm. Vậy với mức ý nghĩa 0,01 có thể cho rằng tỷ lệ phế phẩm đã thực sự
tăng lên theo thời gian sản xuất hay không?

217
ĐS: Giá trị kiểm định: z = −1, 04.
34. Hiện tượng học sinh bỏ học là vấn đề đang được đặc biệt quan tâm, nhất là
ở vùng sâu, vùng xa. Tại hai trường trung học ở miền núi A và B năm học
2006-2007 có các số liệu thống kê sau:
Trường Số học sinh Số học sinh bỏ học
A 1900 175
B 2600 325

Với mức ý nghĩa 0,05 có thể cho rằng tình trạng bỏ học ở trường B là nghiêm
trọng hơn ở trường A hay không?
ĐS: R = z = −3, 5455 ∈ (−∞, −1, 645). Có cơ sở để kết luận tỷ lệ học sinh bỏ học
ở trường B nghiêm trọng hơn trường A.
35. Một tổ chức chăm sóc sức khỏe bà mẹ và trẻ em muốn so sánh trọng lượng trung
bình của trẻ sơ sinh ở thành thị và nông thôn người ta cân thử trọng lượng của
10000 cháu và thu được kết quả sau;
Vùng Số cháu Trọng lượng TB(Kg) Độ lệch chuẩn
Nông thôn 8000 3,0 0,9
Thành thị 2000 3,2 0,4

Với mức ý nghĩa 0,05 có thể coi trọng lượng trung bình của trẻ sơ sinh ở thành
phố cao hơn ở nông thôn hay không?
ĐS: z = 1, 86 ∈ R = (1, 645; +∞). Có cơ sở để kết luận trọng lượng trung bình của
trẻ em ở thành phố cao hơn ở nông thôn.
36. Hai lớp học cùng học môn thống kê toán và kết quả thi hết môn như sau:
Lớp A Lớp B
n1 = 64 n2 = 68
x1 = 73, 2 x2 = 76, 6
s1 = 10, 9 s2 = 11, 4

Với mức ý nghĩa 0,05 có thể cho rằng kết quả thi trung bình của lớp B cao hơn
lớp A được không.
ĐS: Giá trị kiểm định: z = −1, 75.
37. Để đánh giá hiệu quả của một chiến dịch quảng cáo, người ta so sánh doanh số
của công ty tại 6 khu vực thị trường trước và sau chiến dịch quảng cáo và thu
được số liệu sau: (Đơn vị: triệu đồng/tháng)
Trước khi QC Sau khi QC
620 660
600 620
640 670
630 620
570 580
600 630
218
Biết doanh số của công ty có phân phối chuẩn. Với mức ý nghĩa 0,01 hãy kiểm
định xem chiến dịch quảng cáo có thực sự làm tăng doanh số bán của công ty
hay không?
ĐS: z = −1, 1952 ∈
/ R = (−∞; −3, 365). Chiến dịch quảng cáo có khả năng làm
tăng doanh số bán của công ty.
38. Trồng cùng một giống lúa trên hai thửa ruộng như nhau và bón hai loại phân
khác nhau. Đến ngày thu hoạch ta có kết quả như sau:
Thửa thứ nhất lấy mẫu 1000 bông lúa thấy số hạt trung bình trên một bông là
x = 70 hạt và độ lệch chuẩn mẫu 10 hạt. Thửa thứ hai lấy mẫu 500 bông lúa
thấy số hạt trung bình trên một bông là y = 72 hạt và độ lệch chuẩn mẫu 20 hạt.
Hỏi sự khác nhau giữa x, y là ngẫu nhiên hay bản chất.
ĐS: Giá trị kiểm định z = −2, 108. Giá trị tới hạn 1, 96. Có thể nói sự khác nhau
giữa x, y không ngẫu nhiên.
Kiểm định phương sai
39. Từ một mẫu kích thước n = 15 rút ra từ tổng thể phân phối chuẩn người ta
tìm được s2 = 144. Với mức ý nghĩa 0,01 hãy kiểm định cặp giả thiết: H0 : σ 2 =
138; H1 : σ 2 > 138.
ĐS: Giá trị kiểm định: χ2 = 14, 61.
40. Trọng lượng của con gà lúc mới nở là biến ngẫu nhiên phân phối chuẩn. Nghi
ngờ độ đồng đều trọng lượng gà con bị giảm sút người ta cân thử 12 con và tìm
được s2 = 11, 41(gr). Với mức ý nghĩa 0,05 hãy kết luận về điều nghi ngờ trên,
biết rằng bình thường độ phân tán của trọng lượng gà con là σ 2 = 10(gr2 ).
ĐS: Chưa có cơ sở để nghi ngờ rằng độ đồng đều về trọng lượng gà con giảm sút.

219
PHỤ LỤC
Các giai thừa
n n!
0 1
1 1
2 2
3 6
4 24
5 120
6 720
7 5,040
8 40,320
9 362,880
10 3,628,800
11 39,916,800
12 479,001,600
13 6,227,020,800
14 87,178,291,200
15 1,307,674,368,000
16 20,922,789,888,000
17 355,687,428,096,000
18 6,402,373,705,728,000
19 121,645,100,408,832,000
20 2,432,902,008,176,640,000

220
Bảng B: Phân phối nhị thức
p
n x 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95
2 0 0.902 0.810 0.640 0.490 0.360 0.250 0.160 0.090 0.040 0.010 0.002
1 0.095 0.180 0.320 0.420 0.480 0.500 0.480 0.420 0.320 0.180 0.095
2 0.002 0.010 0.040 0.090 0.160 0.250 0.360 0.490 0.640 0.810 0.902
3 0 0.857 0.729 0.512 0.343 0.216 0.125 0.064 0.027 0.008 0.001
1 0.135 0.243 0.384 0.441 0.432 0.375 0.288 0.189 0.096 0.027 0.007
2 0.007 0.027 0.096 0.189 0.288 0.375 0.432 0.441 0.384 0.243 0.135
3 0.001 0.008 0.027 0.064 0.125 0.216 0.343 0.512 0.729 0.857
4 0 0.815 0.656 0.410 0.240 0.130 0.062 0.026 0.008 0.002
1 0.171 0.292 0.410 0.412 0.346 0.250 0.154 0.076 0.026 0.004
2 0.014 0.049 0.154 0.265 0.346 0.375 0.346 0.265 0.154 0.049 0.014
3 0.004 0.026 0.076 0.154 0.250 0.346 0.412 0.410 0.292 0.171
4 0.002 0.008 0.026 0.062 0.130 0.240 0.410 0.656 0.815
5 0 0.774 0.590 0.328 0.168 0.078 0.031 0.010 0.002
1 0.204 0.328 0.410 0.360 0.259 0.156 0.077 0.028 0.006
2 0.021 0.073 0.205 0.309 0.346 0.312 0.230 0.132 0.051 0.008 0.001
3 0.001 0.008 0.051 0.132 0.230 0.312 0.346 0.309 0.205 0.073 0.021
4 0.006 0.028 0.077 0.156 0.259 0.360 0.410 0.328 0.204
5 0.002 0.010 0.031 0.078 0.168 0.328 0.590 0.774
6 0 0.735 0.531 0.262 0.118 0.047 0.016 0.004 0.001
1 0.232 0.354 0.393 0.303 0.187 0.094 0.037 0.010 0.002
2 0.031 0.098 0.246 0.324 0.311 0.234 0.138 0.060 0.015 0.001
3 0.002 0.015 0.082 0.185 0.276 0.312 0.276 0.185 0.082 0.015 0.002
4 0.001 0.015 0.060 0.138 0.234 0.311 0.324 0.246 0.098 0.031
5 0.002 0.010 0.037 0.094 0.187 0.303 0.393 0.354 0.232
6 0.001 0.004 0.016 0.047 0.118 0.262 0.531 0.735
7 0 0.698 0.478 0.210 0.082 0.028 0.008 0.002
1 0.257 0.372 0.367 0.247 0.131 0.055 0.017 0.004
2 0.041 0.124 0.275 0.318 0.261 0.164 0.077 0.025 0.004
3 0.004 0.023 0.115 0.227 0.290 0.273 0.194 0.097 0.029 0.003
4 0.003 0.029 0.097 0.194 0.273 0.290 0.227 0.115 0.023 0.004
5 0.004 0.025 0.077 0.164 0.261 0.318 0.275 0.124 0.041
6 0.004 0.017 0.055 0.131 0.247 0.367 0.372 0.257
7 0.002 0.008 0.028 0.082 0.210 0.478 0.698
8 0 0.663 0.430 0.168 0.058 0.017 0.004 0.001
1 0.279 0.383 0.336 0.198 0.090 0.031 0.008 0.001
2 0.051 0.149 0.294 0.296 0.209 0.109 0.041 0.010 0.001
3 0.005 0.033 0.147 0.254 0.279 0.219 0.124 0.047 0.009
4 0.005 0.046 0.136 0.232 0.273 0.232 0.136 0.046 0.005
5 0.009 0.047 0.124 0.219 0.279 0.254 0.147 0.033 0.005
6 0.001 0.010 0.041 0.109 0.209 0.296 0.294 0.149 0.051
7 0.001 0.008 0.031 0.090 0.198 0.336 0.383 0.279
8 0.001 0.004 0.017 0.058 0.168 0.430 0.663

221
Bảng B (tiếp theo)
p
n x 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95
9 0 0.630 0.387 0.134 0.040 0.010 0.002
1 0.299 0.387 0.302 0.156 0.060 0.018 0.004
2 0.063 0.172 0.302 0.267 0.161 0.070 0.021 0.004
3 0.008 0.045 0.176 0.267 0.251 0.164 0.074 0.021 0.003
4 0.001 0.007 0.066 0.172 0.251 0.246 0.167 0.074 0.017 0.001
5 0.001 0.017 0.074 0.167 0.246 0.251 0.172 0.066 0.007 0.001
6 0.003 0.021 0.074 0.164 0.251 0.267 0.176 0.045 0.008
7 0.004 0.021 0.070 0.161 0.267 0.302 0.172 0.063
8 0.004 0.018 0.060 0.156 0.302 0.387 0.299
9 0.002 0.010 0.040 0.134 0.387 0.630
10 0 0.599 0.349 0.107 0.028 0.006 0.001
1 0.315 0.387 0.268 0.121 0.040 0.010 0.002
2 0.075 0.194 0.302 0.233 0.121 0.044 0.011 0.001
3 0.010 0.057 0.201 0.267 0.215 0.117 0.042 0.009 0.001
4 0.001 0.011 0.088 0.200 0.251 0.205 0.111 0.037 0.006
5 0.001 0.026 0.103 0.201 0.246 0.201 0.103 0.026 0.001
6 0.006 0.037 0.111 0.205 0.251 0.200 0.088 0.011 0.001
7 0.001 0.009 0.042 0.117 0.215 0.267 0.201 0.057 0.010
8 0.001 0.011 0.044 0.121 0.233 0.302 0.194 0.075
9 0.002 0.010 0.040 0.121 0.268 0.387 0.315
10 0.001 0.006 0.028 0.107 0.349 0.599
11 0 0.569 0.314 0.086 0.020 0.004
1 0.329 0.384 0.236 0.093 0.027 0.005 0.001
2 0.087 0.213 0.295 0.200 0.089 0.027 0.005 0.001
3 0.014 0.071 0.221 0.257 0.177 0.081 0.023 0.004
4 0.001 0.016 0.111 0.220 0.236 0.161 0.070 0.017 0.002
5 0.002 0.039 0.132 0.221 0.226 0.147 0.057 0.010
6 0.010 0.057 0.147 0.226 0.221 0.132 0.039 0.002
7 0.002 0.017 0.070 0.161 0.236 0.220 0.111 0.016 0.001
8 0.004 0.023 0.081 0.177 0.257 0.221 0.071 0.014
9 0.001 0.005 0.027 0.089 0.200 0.295 0.213 0.087
10 0.001 0.005 0.027 0.093 0.236 0.384 0.329
11 0.004 0.020 0.086 0.314 0.569
12 0 0.540 0.282 0.069 0.014 0.002
1 0.341 0.377 0.206 0.071 0.017 0.003
2 0.099 0.230 0.283 0.168 0.064 0.016 0.002
3 0.017 0.085 0.236 0.240 0.142 0.054 0.012 0.001
4 0.002 0.021 0.133 0.231 0.213 0.121 0.042 0.008 0.001
5 0.004 0.053 0.158 0.227 0.193 0.101 0.029 0.003
6 0.016 0.079 0.177 0.226 0.177 0.079 0.016
7 0.003 0.029 0.101 0.193 0.227 0.158 0.053 0.004
8 0.001 0.008 0.042 0.121 0.213 0.231 0.133 0.021 0.002
9 0.001 0.012 0.054 0.142 0.240 0.236 0.085 0.017
10 0.002 0.016 0.064 0.168 0.283 0.230 0.099
11 0.003 0.017 0.071 0.206 0.377 0.341
12 0.002 0.014 0.069 0.282 0.540

222
Bảng B (tiếp theo)
p
n x 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95
13 0 0.513 0.254 0.055 0.010 0.001
1 0.351 0.367 0.179 0.054 0.011 0.002
2 0.111 0.245 0.268 0.139 0.045 0.010 0.001
3 0.021 0.100 0.246 0.218 0.111 0.035 0.006 0.001
4 0.003 0.028 0.154 0.234 0.184 0.087 0.024 0.003
5 0.006 0.069 0.180 0.221 0.157 0.066 0.014 0.001
6 0.001 0.023 0.103 0.197 0.209 0.131 0.044 0.006
7 0.006 0.044 0.131 0.209 0.197 0.103 0.023 0.001
8 0.001 0.014 0.066 0.157 0.221 0.180 0.069 0.006
9 0.003 0.024 0.087 0.184 0.234 0.154 0.028 0.003
10 0.001 0.006 0.035 0.111 0.218 0.246 0.100 0.021
11 0.001 0.010 0.045 0.139 0.268 0.245 0.111
12 0.002 0.011 0.054 0.179 0.367 0.351
13 0.001 0.010 0.055 0.254 0.513
14 0 0.488 0.229 0.044 0.007 0.001
1 0.359 0.356 0.154 0.041 0.007 0.001
2 0.123 0.257 0.250 0.113 0.032 0.006 0.001
3 0.026 0.114 0.250 0.194 0.085 0.022 0.003
4 0.004 0.035 0.172 0.229 0.155 0.061 0.014 0.001
5 0.008 0.086 0.196 0.207 0.122 0.041 0.007
6 0.001 0.032 0.126 0.207 0.183 0.092 0.023 0.002
7 0.009 0.062 0.157 0.209 0.157 0.062 0.009
8 0.002 0.023 0.092 0.183 0.207 0.126 0.032 0.001
9 0.007 0.041 0.122 0.207 0.196 0.086 0.008
10 0.001 0.014 0.061 0.155 0.229 0.172 0.035 0.004
11 0.003 0.022 0.085 0.194 0.250 0.114 0.026
12 0.001 0.006 0.032 0.113 0.250 0.257 0.123
13 0.001 0.007 0.041 0.154 0.356 0.359
14 0.001 0.007 0.044 0.229 0.488
15 0 0.463 0.206 0.035 0.005
1 0.366 0.343 0.132 0.031 0.005
2 0.135 0.267 0.231 0.092 0.022 0.003
3 0.031 0.129 0.250 0.170 0.063 0.014 0.002
4 0.005 0.043 0.188 0.219 0.127 0.042 0.007 0.001
5 0.001 0.010 0.103 0.206 0.186 0.092 0.024 0.003
6 0.002 0.043 0.147 0.207 0.153 0.061 0.012 0.001
7 0.014 0.081 0.177 0.196 0.118 0.035 0.003
8 0.003 0.035 0.118 0.196 0.177 0.081 0.014
9 0.001 0.012 0.061 0.153 0.207 0.147 0.043 0.002
10 0.003 0.024 0.092 0.186 0.206 0.103 0.010 0.001
11 0.001 0.007 0.042 0.127 0.219 0.188 0.043 0.005
12 0.002 0.014 0.063 0.170 0.250 0.129 0.031
13 0.003 0.022 0.092 0.231 0.267 0.135
14 0.005 0.031 0.132 0.343 0.366
15 0.005 0.035 0.206 0.463

223
Bảng B (tiếp theo)
p
n x 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95
16 0 0.440 0.185 0.028 0.003
1 0.371 0.329 0.113 0.023 0.003
2 0.146 0.275 0.211 0.073 0.015 0.002
3 0.036 0.142 0.246 0.146 0.047 0.009 0.001
4 0.006 0.051 0.200 0.204 0.101 0.028 0.004
5 0.001 0.014 0.120 0.210 0.162 0.067 0.014 0.001
6 0.003 0.055 0.165 0.198 0.122 0.039 0.006
7 0.020 0.101 0.189 0.175 0.084 0.019 0.001
8 0.006 0.049 0.142 0.196 0.142 0.049 0.006
9 0.001 0.019 0.084 0.175 0.189 0.101 0.020
10 0.006 0.039 0.122 0.198 0.165 0.055 0.003
11 0.001 0.014 0.067 0.162 0.210 0.120 0.014 0.001
12 0.004 0.028 0.101 0.204 0.200 0.051 0.006
13 0.001 0.009 0.047 0.146 0.246 0.142 0.036
14 0.002 0.015 0.073 0.211 0.275 0.146
15 0.003 0.023 0.113 0.329 0.371
16 0.003 0.028 0.185 0.440
17 0 0.418 0.167 0.023 0.002
1 0.374 0.315 0.096 0.017 0.002
2 0.158 0.280 0.191 0.058 0.010 0.001
3 0.041 0.156 0.239 0.125 0.034 0.005
4 0.008 0.060 0.209 0.187 0.080 0.018 0.002
5 0.001 0.017 0.136 0.208 0.138 0.047 0.008 0.001
6 0.004 0.068 0.178 0.184 0.094 0.024 0.003
7 0.001 0.027 0.120 0.193 0.148 0.057 0.009
8 0.008 0.064 0.161 0.185 0.107 0.028 0.002
9 0.002 0.028 0.107 0.185 0.161 0.064 0.008
10 0.009 0.057 0.148 0.193 0.120 0.027 0.001
11 0.003 0.024 0.094 0.184 0.178 0.068 0.004
12 0.001 0.008 0.047 0.138 0.208 0.136 0.017 0.001
13 0.002 0.018 0.080 0.187 0.209 0.060 0.008
14 0.005 0.034 0.125 0.239 0.156 0.041
15 0.001 0.010 0.058 0.191 0.280 0.158
16 0.002 0.017 0.096 0.315 0.374
17 0.002 0.023 0.167 0.418

224
Bảng B (tiếp theo)
p
n x 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95
18 0 0.397 0.150 0.018 0.002
1 0.376 0.300 0.081 0.013 0.001
2 0.168 0.284 0.172 0.046 0.007 0.001
3 0.047 0.168 0.230 0.105 0.025 0.003
4 0.009 0.070 0.215 0.168 0.061 0.012 0.001
5 0.001 0.022 0.151 0.202 0.115 0.033 0.004
6 0.005 0.082 0.187 0.166 0.071 0.015 0.001
7 0.001 0.035 0.138 0.189 0.121 0.037 0.005
8 0.012 0.081 0.173 0.167 0.077 0.015 0.001
9 0.003 0.039 0.128 0.185 0.128 0.039 0.003
10 0.001 0.015 0.077 0.167 0.173 0.081 0.012
11 0.005 0.037 0.121 0.189 0.138 0.035 0.001
12 0.001 0.015 0.071 0.166 0.187 0.082 0.005
13 0.004 0.033 0.115 0.202 0.151 0.022 0.001
14 0.001 0.012 0.061 0.168 0.215 0.070 0.009
15 0.003 0.025 0.105 0.230 0.168 0.047
16 0.001 0.007 0.046 0.172 0.284 0.168
17 0.001 0.013 0.081 0.300 0.376
18 0.002 0.018 0.150 0.397
19 0 0.377 0.135 0.014 0.001
1 0.377 0.285 0.068 0.009 0.001
2 0.179 0.285 0.154 0.036 0.005
3 0.053 0.180 0.218 0.087 0.017 0.002
4 0.011 0.080 0.218 0.149 0.047 0.007 0.001
5 0.002 0.027 0.164 0.192 0.093 0.022 0.002
6 0.007 0.095 0.192 0.145 0.052 0.008 0.001
7 0.001 0.044 0.153 0.180 0.096 0.024 0.002
8 0.017 0.098 0.180 0.144 0.053 0.008
9 0.005 0.051 0.146 0.176 0.098 0.022 0.001
10 0.001 0.022 0.098 0.176 0.146 0.051 0.005
11 0.008 0.053 0.144 0.180 0.098 0.071
12 0.002 0.024 0.096 0.180 0.153 0.044 0.001
13 0.001 0.008 0.052 0.145 0.192 0.095 0.007
14 0.002 0.022 0.093 0.192 0.164 0.027 0.002
15 0.001 0.007 0.047 0.149 0.218 0.080 0.011
16 0.002 0.017 0.087 0.218 0.180 0.053
17 0.005 0.036 0.154 0.285 0.179
18 0.001 0.009 0.068 0.285 0.377
19 0.001 0.014 0.135 0.377

225
Bảng B (tiếp theo)
p
n x 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95
20 0 0.358 0.122 0.012 0.001
1 0.377 0.270 0.058 0.007
2 0.189 0.285 0.137 0.028 0.003
3 0.060 0.190 0.205 0.072 0.012 0.001
4 0.013 0.090 0.218 0.130 0.035 0.005
5 0.002 0.032 0.175 0.179 0.075 0.015 0.001
6 0.009 0.109 0.192 0.124 0.037 0.005
7 0.002 0.055 0.164 0.166 0.074 0.015 0.001
8 0.022 0.114 0.180 0.120 0.035 0.004
9 0.007 0.065 0.160 0.160 0.071 0.012
10 0.002 0.031 0.117 0.176 0.117 0.031 0.002
11 0.012 0.071 0.160 0.160 0.065 0.007
12 0.004 0.035 0.120 0.180 0.114 0.022
13 0.001 0.015 0.074 0.166 0.164 0.055 0.002
14 0.005 0.037 0.124 0.192 0.109 0.009
15 0.001 0.015 0.075 0.179 0.175 0.032 0.002
16 0.005 0.035 0.130 0.218 0.090 0.013
17 0.001 0.012 0.072 0.205 0.190 0.060
18 0.003 0.028 0.137 0.285 0.189
19 0.007 0.058 0.270 0.377
20 0.001 0.012 0.122 0.358

226
Bảng C: Phân phối Poisson
λ
x 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0 .9048 .8187 .7408 .6703 .6065 .5488 .4966 .4493 .4066 .3679
1 .0905 .1637 .2222 .2681 .3033 .3293 .3476 .3595 .3659 .3679
2 .0045 .0164 .0333 .0536 .0758 .0988 .1217 .1438 .1647 .1839
3 .0002 .0011 .0033 .0072 .0126 .0198 .0284 .0383 .0494 .0613
4 .0000 .0001 .0003 .0007 .0016 .0030 .0050 .0077 .0111 .0153
5 .0000 .0000 .0000 .0001 .0002 .0004 .0007 .0012 .0020 .0031
6 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0002 .0003 .0005
7 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001
λ
x 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
0 .3329 .3012 .2725 .2466 .2231 .2019 .1827 .1653 .1496 .1353
1 .3662 .3614 .3543 .3452 .3347 .3230 .3106 .2975 .2842 .2707
2 .2014 .2169 .2303 .2417 .2510 .2584 .2640 .2678 .2700 .2707
3 .0738 .0867 .0998 .1128 .1255 .1378 .1496 .1607 .1710 .1804
4 .0203 .0260 .0324 .0395 .0471 .0551 .0636 .0723 .0812 .0902
5 .0045 .0062 .0084 .0111 .0141 .0176 .0216 .0260 .0309 .0361
6 .0008 .0012 .0018 .0026 .0035 .0047 .0061 .0078 .0098 .0120
7 .0001 .0002 .0003 .0005 .0008 .0011 .0015 .0020 .0027 .0034
8 .0000 .0000 .0001 .0001 .0001 .0002 .0003 .0005 .0006 .0009
9 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0002
λ
x 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0
0 .1225 .1108 .1003 .0907 .0821 .0743 .0672 .0608 .0550 .0498
1 .2572 .2438 .2306 .2177 .2052 .1931 .1815 .1703 .1596 .1494
2 .2700 .2681 .2652 .2613 .2565 .2510 .2450 .2384 .2314 .2240
3 .1890 .1966 .2033 .2090 .2138 .2176 .2205 .2225 .2237 .2240
4 .0992 .1082 .1169 .1254 .1336 .1414 .1488 .1557 .1622 .1680
5 .0417 .0476 .0538 .0602 .0668 .0735 .0804 .0872 .0940 .1008
6 .0146 .0174 .0206 .0241 .0278 .0319 .0362 .0407 .0455 .0504
7 .0044 .0055 .0068 .0083 .0099 .0118 .0139 .0163 .0188 .0216
8 .0011 .0015 .0019 .0025 .0031 .0038 .0047 .0057 .0068 .0081
9 .0003 .0004 .0005 .0007 .0009 .0011 .0014 .0018 .0022 .0027
10 .0001 .0001 .0001 .0002 .0002 .0003 .0004 .0005 .0006 .0008
11 .0000 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0002 .0002
12 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001
λ
x 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0
0 .0450 .0408 .0369 .0334 .0302 .0273 .0247 .0224 .0202 .0183
1 .1397 .1304 .1217 .1135 .1057 .0984 .0915 .0850 .0789 .0733
2 .2165 .2087 .2008 .1929 .1850 .1771 .1692 .1615 .1539 .1465
3 .2237 .2226 .2209 .2186 .2158 .2125 .2087 .2046 .2001 .1954
4 .1734 .1781 .1823 .1858 .1888 .1912 .1931 .1944 .1951 .1954

227
Bảng C (tiếp theo)
λ
x 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0
5 .1075 .1140 .1203 .1264 .1322 .1377 .1429 .1477 .1522 .1563
6 .0555 .0608 .0662 .0716 .0771 .0826 .0881 .0936 .0989 .1042
7 .0246 .0278 .0312 .0348 .0385 .0425 .0466 .0508 .0551 .0595
8 .0095 .0111 .0129 .0148 .0169 .0191 .0215 .0241 .0269 .0298
9 .0033 .0040 .0047 .0056 .0066 .0076 .0089 .0102 .0116 .0132
10 .0010 .0013 .0016 .0019 .0023 .0028 .0033 .0039 .0045 .0053
11 .0003 .0004 .0005 .0006 .0007 .0009 .0011 .0013 .0016 .0019
12 .0001 .0001 .0001 .0002 .0002 .0003 .0003 .0004 .0005 .0006
13 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0001 .0002 .0002
14 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001
λ
x 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 5.0
0 .0166 .0150 .0136 .0123 .0111 .0101 .0091 .0082 .0074 .0067
1 .0679 .0630 .0583 .0540 .0500 .0462 .0427 .0395 .0365 .0337
2 .1393 .1323 .1254 .1188 .1125 .1063 .1005 .0948 .0894 .0842
3 .1904 .1852 .1798 .1743 .1687 .1631 .1574 .1517 .1460 .1404
4 .1951 .1944 .1933 .1917 .1898 .1875 .1849 .1820 .1789 .1755
5 .1600 .1633 .1662 .1687 .1708 .1725 .1738 .1747 .1753 .1755
6 .1093 .1143 .1191 .1237 .1281 .1323 .1362 .1398 .1432 .1462
7 .0640 .0686 .0732 .0778 .0824 .0869 .0914 .0959 .1002 .1044
8 .0328 .0360 .0393 .0428 .0463 .0500 .0537 .0575 .0614 .0653
9 .0150 .0168 .0188 .0209 .0232 .0255 .0280 .0307 .0334 .0363
10 .0061 .0071 .0081 .0092 .0104 .0118 .0132 .0147 .0164 .0181
11 .0023 .0027 .0032 .0037 .0043 .0049 .0056 .0064 .0073 .0082
12 .0008 .0009 .0011 .0014 .0016 .0019 .0022 .0026 .0030 .0034
13 .0002 .0003 .0004 .0005 .0006 .0007 .0008 .0009 .0011 .0013
14 .0001 .0001 .0001 .0001 .0002 .0002 .0003 .0003 .0004 .0005
15 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0001 .0001 .0002
λ
x 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0
0 .0061 .0055 .0050 .0045 .0041 .0037 .0033 .0030 .0027 .0025
1 .0311 .0287 .0265 .0244 .0225 .0207 .0191 .0176 .0162 .0149
2 .0793 .0746 .0701 .0659 .0618 .0580 .0544 .0509 .0477 .0446
3 .1348 .1293 .1239 .1185 .1133 .1082 .1033 .0985 .0938 .0892
4 .1719 .1681 .1641 .1600 .1558 .1515 .1472 .1428 .1383 .1339

228
Bảng C (tiếp theo)
λ
x 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0
5 .1753 .1748 .1740 .1728 .1714 .1697 .1678 .1656 .1632 .1606
6 .1490 .1515 .1537 .1555 .1571 .1584 .1594 .1601 .1605 .1606
7 .1086 .1125 .1163 .1200 .1234 .1267 .1298 .1326 .1353 .1377
8 .0692 .0731 .0771 .0810 .0849 .0887 .0925 .0962 .0998 .1033
9 .0392 .0423 .0454 .0486 .0519 .0552 .0586 .0620 .0654 .0688
10 .0200 .0220 .0241 .0262 .0285 .0309 .0334 .0359 .0386 .0413
11 .0093 .0104 .0116 .0129 .0143 .0157 .0173 .0190 .0207 .0225
12 .0039 .0045 .0051 .0058 .0065 .0073 .0082 .0092 .0102 .0113
13 .0015 .0018 .0021 .0024 .0028 .0032 .0036 .0041 .0046 .0052
14 .0006 .0007 .0008 .0009 .0011 .0013 .0015 .0017 .0019 .0022
15 .0002 .0002 .0003 .0003 .0004 .0005 .0006 .0007 .0008 .0009
16 .0001 .0001 .0001 .0001 .0001 .0002 .0002 .0002 .0003 .0003
17 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0001
λ
x 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.0
0 .0022 .0020 .0018 .0017 .0015 .0014 .0012 .0011 .0010 .0009
1 .0137 .0126 .0116 .0106 .0098 .0090 .0082 .0076 .0070 .0064
2 .0417 .0390 .0364 .0340 .0318 .0296 .0276 .0258 .0240 .0223
3 .0848 .0806 .0765 .0726 .0688 .0652 .0617 .0584 .0552 .0521
4 .1294 .1249 .1205 .1162 .1118 .1076 .1034 .0992 .0952 .0912
5 .1579 .1549 .1519 .1487 .1454 .1420 .1385 .1349 .1314 .1277
6 .1605 .1601 .1595 .1586 .1575 .1562 .1546 .1529 .1511 .1490
7 .1399 .1418 .1435 .1450 .1462 .1472 .1480 .1486 .1489 .1490
8 .1066 .1099 .1130 .1160 .1188 .1215 .1240 .1263 .1284 .1304
9 .0723 .0757 .0791 .0825 .0858 .0891 .0923 .0954 .0985 .1014
10 .0441 .0469 .0498 .0528 .0558 .0588 .0618 .0649 .0679 .0710
11 .0245 .0265 .0285 .0307 .0330 .0353 .0377 .0401 .0426 .0452
12 .0124 .0137 .0150 .0164 .0179 .0194 .0210 .0227 .0245 .0264
13 .0058 .0065 .0073 .0081 .0089 .0098 .0108 .0119 .0130 .0142
14 .0025 .0029 .0033 .0037 .0041 .0046 .0052 .0058 .0064 .0071
15 .0010 .0012 .0014 .0016 .0018 .0020 .0023 .0026 .0029 .0033
16 .0004 .0005 .0005 .0006 .0007 .0008 .0010 .0011 .0013 .0014
17 .0001 .0002 .0002 .0002 .0003 .0003 .0004 .0004 .0005 .0006
18 .0000 .0001 .0001 .0001 .0001 .0001 .0001 .0002 .0002 .0002
19 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0001 .0001

229
Bảng C (tiếp theo)
λ
x 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.0
0 .0008 .0007 .0007 .0006 .0006 .0005 .0005 .0004 .0004 .0003
1 .0059 .0054 .0049 .0045 .0041 .0038 .0035 .0032 .0029 .0027
2 .0208 .0194 .0180 .0167 .0156 .0145 .0134 .0125 .0116 .0107
3 .0492 .0464 .0438 .0413 .0389 .0366 .0345 .0324 .0305 .0286
4 .0874 .0836 .0799 .0764 .0729 .0696 .0663 .0632 .0602 .0573
5 .1241 .1204 .1167 .1130 .1094 .1057 .1021 .0986 .0951 .0916
6 .1468 .1445 .1420 .1394 .1367 .1339 .1311 .1282 .1252 .1221
7 .1489 .1486 .1481 .1474 .1465 .1454 .1442 .1428 .1413 .1396
8 .1321 .1337 .1351 .1363 .1373 .1382 .1388 .1392 .1395 .1396
9 .1042 .1070 .1096 .1121 .1144 .1167 .1187 .1207 .1224 .1241
10 .0740 .0770 .0800 .0829 .0858 .0887 .0914 .0941 .0967 .0993
11 .0478 .0504 .0531 .0558 .0585 .0613 .0640 .0667 .0695 .0722
12 .0283 .0303 .0323 .0344 .0366 .0388 .0411 .0434 .0457 .0481
13 .0154 .0168 .0181 .0196 .0211 .0227 .0243 .0260 .0278 .0296
14 .0078 .0086 .0095 .0104 .0113 .0123 .0134 .0145 .0157 .0169
15 .0037 .0041 .0046 .0051 .0057 .0062 .0069 .0075 .0083 .0090
16 .0016 .0019 .0021 .0024 .0026 .0030 .0033 .0037 .0041 .0045
17 .0007 .0008 .0009 .0010 .0012 .0013 .0015 .0017 .0019 .0021
18 .0003 .0003 .0004 .0004 .0005 .0006 .0006 .0007 .0008 .0009
19 .0001 .0001 .0001 .0002 .0002 .0002 .0003 .0003 .0003 .0004
20 .0000 .0000 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0002
21 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0001
λ
x 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9.0
0 .0003 .0003 .0002 .0002 .0002 .0002 .0002 .0002 .0001 .0001
1 .0025 .0023 .0021 .0019 .0017 .0016 .0014 .0013 .0012 .0011
2 .0100 .0092 .0086 .0079 .0074 .0068 .0063 .0058 .0054 .0050
3 .0269 .0252 .0237 .0222 .0208 .0195 .0183 .0171 .0160 .0150
4 .0544 .0517 .0491 .0466 .0443 .0420 .0398 .0377 .0357 .0337
5 .0882 .0849 .0816 .0784 .0752 .0722 .0692 .0663 .0635 .0607
6 .1191 .1160 .1128 .1097 .1066 .1034 .1003 .0972 .0941 .0911
7 .1378 .1358 .1338 .1317 .1294 .1271 .1247 .1222 .1197 .1171
8 .1395 .1392 .1388 .1382 .1375 .1366 .1356 .1344 .1332 .1318
9 .1256 .1269 .1280 .1290 .1299 .1306 .1311 .1315 .1317 .1318

230
Bảng C (tiếp theo)
λ
x 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9.0
10 .1017 .1040 .1063 .1084 .1104 .1123 .1140 .1157 .1172 .1186
11 .0749 .0776 .0802 .0828 .0853 .0878 .0902 .0925 .0948 .0970
12 .0505 .0530 .0555 .0579 .0604 .0629 .0654 .0679 .0703 .0728
13 .0315 .0334 .0354 .0374 .0395 .0416 .0438 .0459 .0481 .0504
14 .0182 .0196 .0210 .0225 .0240 .0256 .0272 .0289 .0306 .0324
15 .0098 .0107 .0116 .0126 .0136 .0147 .0158 .0169 .0182 .0194
16 .0050 .0055 .0060 .0066 .0072 .0079 .0086 .0093 .0101 .0109
17 .0024 .0026 .0029 .0033 .0036 .0040 .0044 .0048 .0053 .0058
18 .0011 .0012 .0014 .0015 .0017 .0019 .0021 .0024 .0026 .0029
19 .0005 .0005 .0006 .0007 .0008 .0009 .0010 .0011 .0012 .0014
20 .0002 .0002 .0002 .0003 .0003 .0004 .0004 .0005 .0005 .0006
21 .0001 .0001 .0001 .0001 .0001 .0002 .0002 .0002 .0002 .0003
22 .0000 .0000 .0000 .0000 .0001 .0001 .0001 .0001 .0001 .0001
λ
x 9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9 10.0
0 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0000
1 .0010 .0009 .0009 .0008 .0007 .0007 .0006 .0005 .0005 .0005
2 .0046 .0043 .0040 .0037 .0034 .0031 .0029 .0027 .0025 .0023
3 .0140 .0131 .0123 .0115 .0107 .0100 .0093 .0087 .0081 .0076
4 .0319 .0302 .0285 .0269 .0254 .0240 .0226 .0213 .0201 .0189
5 .0581 .0555 .0530 .0506 .0483 .0460 .0439 .0418 .0398 .0378
6 .0881 .0851 .0822 .0793 .0764 .0736 .0709 .0682 .0656 .0631
7 .1145 .1118 .1091 .1064 .1037 .1010 .0982 .0955 .0928 .0901
8 .1302 .1286 .1269 .1251 .1232 .1212 .1191 .1170 .1148 .1126
9 .1317 .1315 .1311 .1306 .1300 .1293 .1284 .1274 .1263 .1251
10 .1198 .1210 .1219 .1228 .1235 .1241 .1245 .1249 .1250 .1251
11 .0991 .1012 .1031 .1049 .1067 .1083 .1098 .1112 .1125 .1137
12 .0752 .0776 .0799 .0822 .0844 .0866 .0888 .0908 .0928 .0948
13 .0526 .0549 .0572 .0594 .0617 .0640 .0662 .0685 .0707 .0729
14 .0342 .0361 .0380 .0399 .0419 .0439 .0459 .0479 .0500 .0521
15 .0208 .0221 .0235 .0250 .0265 .0281 .0297 .0313 .0330 .0347
16 .0118 .0127 .0137 .0147 .0157 .0168 .0180 .0192 .0204 .0217
17 .0063 .0069 .0075 .0081 .0088 .0095 .0103 .0111 .0119 .0128
18 .0032 .0035 .0039 .0042 .0046 .0051 .0055 .0060 .0065 .0071
19 .0015 .0017 .0019 .0021 .0023 .0026 .0028 .0031 .0034 .0037

231
Bảng C (tiếp theo)
λ
x 9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9 10.0
20 .0007 .0008 .0009 .0010 .0011 .0012 .0014 .0015 .0017 .0019
21 .0003 .0003 .0004 .0004 .0005 .0006 .0006 .0007 .0008 .0009
22 .0001 .0001 .0002 .0002 .0002 .0002 .0003 .0003 .0004 .0004
23 .0000 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0002 .0002
24 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0001 .0001
λ
x 11 12 13 14 15 16 17 18 19 20
0 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000
1 .0002 .0001 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000
2 .0010 .0004 .0002 .0001 .0000 .0000 .0000 .0000 .0000 .0000
3 .0037 .0018 .0008 .0004 .0002 .0001 .0000 .0000 .0000 .0000
4 .0102 .0053 .0027 .0013 .0006 .0003 .0001 .0001 .0000 .0000
5 .0224 .0127 .0070 .0037 .0019 .0010 .0005 .0002 .0001 .0001
6 .0411 .0255 .0152 .0087 .0048 .0026 .0014 .0007 .0004 .0002
7 .0646 .0437 .0281 .0174 .0104 .0060 .0034 .0018 .0010 .0005
8 .0888 .0655 .0457 .0304 .0194 .0120 .0072 .0042 .0024 .0013
9 .1085 .0874 .0661 .0473 .0324 .0213 .0135 .0083 .0050 .0029
10 .1194 .1048 .0859 .0663 .0486 .0341 .0230 .0150 .0095 .0058
11 .1194 .1144 .1015 .0844 .0663 .0496 .0355 .0245 .0164 .0106
12 .1094 .1144 .1099 .0984 .0829 .0661 .0504 .0368 .0259 .0176
13 .0926 .1056 .1099 .1060 .0956 .0814 .0658 .0509 .0378 .0271
14 .0728 .0905 .1021 .1060 .1024 .0930 .0800 .0655 .0514 .0387
15 .0534 .0724 .0885 .0989 .1024 .0992 .0906 .0786 .0650 .0516
16 .0367 .0543 .0719 .0866 .0960 .0992 .0963 .0884 .0772 .0646
17 .0237 .0383 .0550 .0713 .0847 .0934 .0963 .0936 .0863 .0760
18 .0145 .0256 .0397 .0554 .0706 .0830 .0909 .0936 .0911 .0844
19 .0084 .0161 .0272 .0409 .0557 .0699 .0814 .0887 .0911 .0888
20 .0046 .0097 .0177 .0286 .0418 .0559 .0692 .0798 .0866 .0888
21 .0024 .0055 .0109 .0191 .0299 .0426 .0560 .0684 .0783 .0846
22 .0012 .0030 .0065 .0121 .0204 .0310 .0433 .0560 .0676 .0769
23 .0006 .0016 .0037 .0074 .0133 .0216 .0320 .0438 .0559 .0669
24 .0003 .0008 .0020 .0043 .0083 .0144 .0226 .0328 .0442 .0557
25 .0001 .0004 .0010 .0024 .0050 .0092 .0154 .0237 .0336 .0446
26 .0000 .0002 .0005 .0013 .0029 .0057 .0101 .0164 .0246 .0343
27 .0000 .0001 .0002 .0007 .0016 .0034 .0063 .0109 .0173 .0254
28 .0000 .0000 .0001 .0003 .0009 .0019 .0038 .0070 .0117 .0181
29 .0000 .0000 .0001 .0002 .0004 .0011 .0023 .0044 .0077 .0125

232
Bảng C (tiếp theo)
λ
x 11 12 13 14 15 16 17 18 19 20
30 .0000 .0000 .0000 .0001 .0002 .0006 .0013 .0026 .0049 .0083
31 .0000 .0000 .0000 .0000 .0001 .0003 .0007 .0015 .0030 .0054
32 .0000 .0000 .0000 .0000 .0001 .0001 .0004 .0009 .0018 .0034
33 .0000 .0000 .0000 .0000 .0000 .0001 .0002 .0005 .0010 .0020
34 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0002 .0006 .0012
35 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0003 .0007
36 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0002 .0004
37 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0002
38 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001
39 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001

233
Bảng E: Phân phối chuẩn tắc
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
-3.4 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0002
-3.3 .0005 .0005 .0005 .0004 .0004 .0004 .0004 .0004 .0004 .0003
-3.2 .0007 .0007 .0006 .0006 .0006 .0006 .0006 .0005 .0005 .0005
-3.1 .0010 .0009 .0009 .0009 .0008 .0008 .0008 .0008 .0007 .0007
-3.0 .0013 .0013 .0013 .0012 .0012 .0011 .0011 .0011 .0010 .0010
-2.9 .0019 .0018 .0018 .0017 .0016 .0016 .0015 .0015 .0014 .0014
-2.8 .0026 .0025 .0024 .0023 .0023 .0022 .0021 .0021 .0020 .0019
-2.7 .0035 .0034 .0033 .0032 .0031 .0030 .0029 .0028 .0027 .0026
-2.6 .0047 .0045 .0044 .0043 .0041 .0040 .0039 .0038 .0037 .0036
-2.5 .0062 .0060 .0059 .0057 .0055 .0054 .0052 .0051 .0049 .0048
-2.4 .0082 .0080 .0078 .0075 .0073 .0071 .0069 .0068 .0066 .0064
-2.3 .0107 .0104 .0102 .0099 .0096 .0094 .0091 .0089 .0087 .0084
-2.2 .0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116 .0113 .0110
-2.1 .0179 .0174 .0170 .0166 .0162 .0158 .0154 .0150 .0146 .0143
-2.0 .0228 .0222 .0217 .0212 .0207 .0202 .0197 .0192 .0188 .0183
-1.9 .0287 .0281 .0274 .0268 .0262 .0256 .0250 .0244 .0239 .0233
-1.8 .0359 .0351 .0344 .0336 .0329 .0322 .0314 .0307 .0301 .0294
-1.7 .0446 .0436 .0427 .0418 .0409 .0401 .0392 .0384 .0375 .0367
-1.6 .0548 .0537 .0526 .0516 .0505 .0495 .0485 .0475 .0465 .0455
-1.5 .0668 .0655 .0643 .0630 .0618 .0606 .0594 .0582 .0571 .0559
-1.4 .0808 .0793 .0778 .0764 .0749 .0735 .0721 .0708 .0694 .0681
-1.3 .0968 .0951 .0934 .0918 .0901 .0885 .0869 .0853 .0838 .0823
-1.2 .1151 .1131 .1112 .1093 .1075 .1056 .1038 .1020 .1003 .0985
-1.1 .1357 .1335 .1314 .1292 .1271 .1251 .1230 .1210 .1190 .1170
-1.0 .1587 .1562 .1539 .1515 .1492 .1469 .1446 .1423 .1401 .1379
-0.9 .1841 .1814 .1788 .1762 .1736 .1711 .1685 .1660 .1635 .1611
-0.8 .2119 .2090 .2061 .2033 .2005 .1977 .1949 .1922 .1894 .1867
-0.7 .2420 .2389 .2358 .2327 .2296 .2266 .2236 .2206 .2177 .2148
-0.6 .2743 .2709 .2676 .2643 .2611 .2578 .2546 .2514 .2483 .2451
-0.5 .3085 .3050 .3015 .2981 .2946 .2912 .2877 .2843 .2810 .2776
-0.4 .3446 .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156 .3121
-0.3 .3821 .3783 .3745 .3707 .3669 .3632 .3594 .3557 .3520 .3483
-0.2 .4207 .4168 .4129 .4090 .4052 .4013 .3974 .3936 .3897 .3859
-0.1 .4602 .4562 .4522 .4483 .4443 .4404 .4364 .4325 .4286 .4247
-0.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641

234
Bảng E (tiếp theo)
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998

235
BảngF: Phân phối t
Khoảng tin cậy 80% 90% 95% 98% 99%
Một đầu α 0.10 0.05 0.025 0.01 0.005
d. f. Hai đầu α 0.20 0.10 0.05 0.02 0.01
1 3.078 6.314 12.706 31.821 63.657
2 1.886 2.920 4.303 6.965 9.925
3 1.638 2.353 3.182 4.541 5.841
4 1.533 2.132 2.776 3.747 4.604
5 1.476 2.015 2.571 3.365 4.032
6 1.440 1.943 2.447 3.143 3.707
7 1.415 1.895 2.365 2.998 3.499
8 1.397 1.860 2.306 2.896 3.355
9 1.383 1.833 2.262 2.821 3.250
10 1.372 1.812 2.228 2.764 3.169
11 1.363 1.796 2.201 2.718 3.106
12 1.356 1.782 2.179 2.681 3.055
13 1.350 1.771 2.160 2.650 3.012
14 1.345 1.761 2.145 2.624 2.977
15 1.341 1.753 2.131 2.602 2.947
16 1.337 1.746 2.120 2.583 2.921
17 1.333 1.740 2.110 2.567 2.898
18 1.330 1.734 2.101 2.552 2.878
19 1.328 1.729 2.093 2.539 2.861
20 1.325 1.725 2.086 2.528 2.845
21 1.323 1.721 2.080 2.518 2.831
22 1.321 1.717 2.074 2.508 2.819
23 1.319 1.714 2.069 2.500 2.807
24 1.318 1.711 2.064 2.492 2.797
25 1.316 1.708 2.060 2.485 2.787
26 1.315 1.706 2.056 2.479 2.779
27 1.314 1.703 2.052 2.473 2.771
28 1.313 1.701 2.048 2.467 2.763
29 1.311 1.699 2.045 2.462 2.756
30 1.310 1.697 2.042 2.457 2.750
32 1.309 1.694 2.037 2.449 2.738
34 1.307 1.691 2.032 2.441 2.728
36 1.306 1.688 2.028 2.434 2.719
38 1.304 1.686 2.024 2.429 2.712
40 1.303 1.684 2.021 2.423 2.704
45 1.301 1.679 2.014 2.412 2.690
50 1.299 1.676 2.009 2.403 2.678
55 1.297 1.673 2.004 2.396 2.668
60 1.296 1.671 2.000 2.390 2.660
65 1.295 1.669 1.997 2.385 2.654
70 1.294 1.667 1.994 2.381 2.648
75 1.293 1.665 1.992 2.377 2.643
80 1.292 1.664 1.990 2.374 2.639
90 1.291 1.662 1.987 2.368 2.632
100 1.290 1.660 1.984 2.364 2.626
500 1.283 1.648 1.965 2.334 2.586
1000 1.282 1.646 1.962 2.330 2.581
(z)∞ 1.282a 1.645b 1.960 2.326c 2.576d

236
Bảng G: Phân phối χ2
α
d.f 0.995 0.99 0.975 0.95 0.90 0.10 0.05 0.025 0.01 0.005
1 — — 0.001 0.004 0.016 2.706 3.841 5.024 6.635 7.879
2 0.010 0.020 0.051 0.103 0.211 4.605 5.991 7.378 9.210 10.597
3 0.072 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345 12.838
4 0.207 0.297 0.484 0.711 1.064 7.779 9.488 11.143 13.277 14.860
5 0.412 0.554 0.831 1.145 1.610 9.236 11.071 12.833 15.086 16.750
6 0.676 0.872 1.237 1.635 2.204 10.645 12.592 14.449 16.812 18.548
7 0.989 1.239 1.690 2.167 2.833 12.017 14.067 16.013 18.475 20.278
8 1.344 1.646 2.180 2.733 3.490 13.362 15.507 17.535 20.090 21.955
9 1.735 2.088 2.700 3.325 4.168 14.684 16.919 19.023 21.666 23.589
10 2.156 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209 25.188
11 2.603 3.053 3.816 4.575 5.578 17.275 19.675 21.920 24.725 26.757
12 3.074 3.571 4.404 5.226 6.304 18.549 21.026 23.337 26.217 28.299
13 3.565 4.107 5.009 5.892 7.042 19.812 22.362 24.736 27.688 29.819
14 4.075 4.660 5.629 6.571 7.790 21.064 23.685 26.119 29.141 31.319
15 4.601 5.229 6.262 7.261 8.547 22.307 24.996 27.488 30.578 32.801
16 5.142 5.812 6.908 7.962 9.312 23.542 26.296 28.845 32.000 34.267
17 5.697 6.408 7.564 8.672 10.085 24.769 27.587 30.191 33.409 35.718
18 6.265 7.015 8.231 9.390 10.865 25.989 28.869 31.526 34.805 37.156
19 6.844 7.633 8.907 10.117 11.651 27.204 30.144 32.852 36.191 38.582
20 7.434 8.260 9.591 10.851 12.443 28.412 31.410 34.170 37.566 39.997
21 8.034 8.897 10.283 11.591 13.240 29.615 32.671 35.479 38.932 41.401
22 8.643 9.542 10.982 12.338 14.042 30.813 33.924 36.781 40.289 42.796
23 9.262 10.196 11.689 13.091 14.848 32.007 35.172 38.076 41.638 44.181
24 9.886 10.856 12.401 13.848 15.659 33.196 36.415 39.364 42.980 45.559
25 10.520 11.524 13.120 14.611 16.473 34.382 37.652 40.646 44.314 46.928
26 11.160 12.198 13.844 15.379 17.292 35.563 38.885 41.923 45.642 48.290
27 11.808 12.879 14.573 16.151 18.114 36.741 40.113 43.194 46.963 49.645
28 12.461 13.565 15.308 16.928 18.939 37.916 41.337 44.461 48.278 50.993
29 13.121 14.257 16.047 17.708 19.768 39.087 42.557 45.722 49.588 52.336
30 13.787 14.954 16.791 18.493 20.599 40.256 43.773 46.979 50.892 53.672
40 20.707 22.164 24.433 26.509 29.051 51.805 55.758 59.342 63.691 66.766
50 27.991 29.707 32.357 34.764 37.689 63.167 67.505 71.420 76.154 79.490
60 35.534 37.485 40.482 43.188 46.459 74.397 79.082 83.298 88.379 91.952
70 43.275 45.442 48.758 51.739 55.329 85.527 90.531 95.023 100.425 104.215
80 51.172 53.540 57.153 60.391 64.278 96.578 101.879 106.629 112.329 116.321
90 59.196 61.754 65.647 69.126 73.291 107.565 113.145 118.136 124.116 128.299
100 67.328 70.065 74.222 77.929 82.358 118.498 124.342 129.561 135.807 140.169

237
Tài liệu tham khảo

Bluman, Allan G. (2001), Elementary statistics : a step by step approach, seventh edition, The McGraw-
Hill Companies, New York.

238

You might also like