You are on page 1of 220

Tóm tắt lý thuyết và bài tâp

Xác suất và thống kê

Nguyễn Đăng Minh


Copyright © Thursday 31st August, 2023 Nguyễn Đăng Minh

Trường Đại học Khoa học Tự nhiên

Detta verk är skyddat av lagen om upphovsrätt. Ingen del av detta verk får reproduceras
eller kopieras utan rättighetsinnehavarens skriftliga medgivande.

Art. No xxxxx
ISBN xxx–xx–xxxx–xx–x
Utgåva 0.0

Thiết kế bìa Cover Designer

Xuất bản bởi Publisher


In tại Minh
Contents 3

1 PHÉP ĐẾM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1 Phép nhân 9
1.2 Hoán vị 10

1.3 Chỉnh hợp – Tổ hợp 10

2 XÁC SUẤT CƠ BẢN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13


2.1 Khái niệm chung 13
2.2 Xác suất có điều kiện 19
2.3 Xác suất toàn phần - Công thức Bayes 22

3 BIẾN NGẪU NHIÊN RỜI RẠC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26


3.1 Khái niệm chung 26
3.2 Phân phối nhị thức 31
3.3 Phân phối siêu bội 35
3.4 Phân phối Poisson 37

4 BIẾN NGẪU NHIÊN LIÊN TỤC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41


4.1 Khái niệm chung 41

4.2 Phân phối chuẩn 48

4.3 Phân phối chuẩn xấp xỉ phân phối nhị thức và phân phối Poisson 51
5 PHÂN PHỐI XÁC SUẤT ĐỒNG THỜI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.1 Lý thuyết 56
5.2 Bài tập 58

6 THỐNG KÊ MÔ TẢ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.1 Mộ số khái niệm trong thống kê 60
6.2 Mô tả dữ liệu bằng đặc trưng số 60
6.3 Mô tả dữ liệu bằng đồ thị 62
6.3.1 Lược đồ Stem-Leaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.3.2 Đồ thị histogram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.3.3 Đồ thị hộp (box plot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.3.4 Đồ thị xác suất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.4 Bài tập 65

7 ƯỚC LƯỢNG ĐIỂM - PHÂN PHỐI MẪU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71


7.1 Khái niệm tổng quát về ước lượng điểm 71
7.1.1 Phương pháp moment . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.1.2 Phương pháp hợp lí cực đại . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.1.3 Phương pháp Bayesian . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.2 Phân phối mẫu và định lí giới hạn trung tâm 74

8 ƯỚC LƯỢNG KHOẢNG MỘT MẪU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85


8.1 Phương pháp chung 85

8.2 Khoảng tin cậy cho trung bình của phân phối chuẩn 85
8.2.1 Khoảng tin cậy cho trung bình khi biết phương sai . . . . . . . . . . . . 85
8.2.2 Khoảng tin cậy cho trung bình khi chưa biết phương sai . . . . . . . . . 88
8.3 Khoảng tin cậy cho phương sai 92
8.4 Khoảng tin cậy cho tỉ lệ của phân phối nhị thức 93

9 KIỂM ĐỊNH GIẢ THUYẾT MỘT MẪU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95


9.1 Khái niệm chung 95

9.2 Kiểm định giá trị trung bình của phân phối chuẩn 97
9.2.1 Kiểm định trung bình khi biết phương sai . . . . . . . . . . . . . . . . . 97
9.2.2 Kiểm định trung bình khi chưa biết phương sai . . . . . . . . . . . . . . 102
9.3 Kiểm định phương sai 107

9.4 Kiểm định tỉ lệ 108


10 KIỂM ĐỊNH GIẢ THUYẾT HAI MẪU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
10.1 Kiểm định so sánh hai trung bình của hai tổng thể phân phối chuẩn 113
10.1.1 Kiểm định so sánh hai trung bình khi biết phương sai . . . . . . . . . . 113
10.1.2 Kiểm định so sánh hai trung bình khi phương sai bằng nhau chưa biết . 116
10.1.3 Kiểm định so sánh hai trung bình khi phương sai khác nhau chưa biết . 118
10.2 Kiểm định so sánh hai phương sai của hai tổng thể phân phối chuẩn 121
10.3 Kiểm định so sánh hai tỉ lệ của hai tổng thể phân phối nhị thức 122

11 HỒI QUY ĐƠN BIẾN – TƯƠNG QUAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126


11.1 Mô hình và ước lượng bình phương cực tiểu 126
11.2 Tính chất thống kê của ước lượng 127
11.3 Kiểm định giả thuyết trong hồi quy tuyến tính 128
11.4 Khoảng tin cậy 128
11.5 Tiên đoán giá trị quan trắc mới 129
11.6 Hệ số xác định 129
11.7 Hệ số tương quan 129
11.8 Bài tập 130

12 HỒI QUY TUYẾN TÍNH ĐA BIẾN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137


12.1 Mô hình và ước lượng bình phương cực tiểu 137
12.2 Dạng biểu diễn ma trận của mô hình 138
12.3 Tính chất thống kê của ước lượng 144
12.4 Kiểm định giả thiết trong hồi quy tuyến tính bội 144
12.4.1 Kiểm định ý nghĩa của mô hình hồi quy . . . . . . . . . . . . . . . . . . 144
12.4.2 Kiểm định từng hệ số của mô hình . . . . . . . . . . . . . . . . . . . . . 145
12.5 Khoảng tin cậy 147
12.5.1 Khoảng tin cậy cho từng hệ số ước lượng . . . . . . . . . . . . . . . . . 147
12.5.2 Khoảng tin cậy riêng cho trung bình đáp ứng . . . . . . . . . . . . . . . 147
12.6 Dự báo giá trị quan trắc mới 148

13 PHÂN TÍCH PHƯƠNG SAI MỘT NHÂN TỐ . . . . . . . . . . . . . . . . . . . . . . . . 151


13.1 Bài toán đặt vấn đề: độ bền của giấy 151
13.2 Phân tích phương sai (ANOVA) 151
13.3 Kiểm định Turkey 154
13.4 Bài tập 156
14 KIỂM ĐỊNH PHI THAM SỐ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
14.1 Kiểm định dấu trường hợp mẫu cặp 162

14.2 Kiểm định dấu - hạng Wilcoxon trường hợp mẫu cặp 165

14.3 Kiểm định Mann-Whitney trường hợp mẫu độc lập 169

14.4 Kiểm định phân phối 172

14.5 Kiểm định giả thuyết về tính độc lập 174

15 CHUỖI THỜI GIAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176


15.1 Khái niệm 176
15.2 Kĩ thuật trơn hóa chuỗi thời gian 179
15.2.1 Dự báo Naive (Naive Forecasting Models) . . . . . . . . . . . . . . . . . 179
15.2.2 Trung bình di động (moving averages method) . . . . . . . . . . . . . . 180
15.2.3 Trung bình di động có trọng số (weighted moving average method) . . . 181
15.2.4 Làm trơn lũy thừa (exponential smoothing) . . . . . . . . . . . . . . . . 181
15.3 Phân tích thành phần xu thế 184
15.3.1 Hồi qui tuyến tính xu thế . . . . . . . . . . . . . . . . . . . . . . . . . . 184
15.3.2 Hồi qui cầu phương xu thế . . . . . . . . . . . . . . . . . . . . . . . . . 185
15.4 Phân tích thành phần theo mùa 187

16 CHỈ SỐ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
16.1 Chỉ số đơn 188

16.2 Chỉ số giá tổng hợp không trọng số 189

16.3 Chỉ số giá tổng hợp có trọng số 190


16.4 Chỉ số giá Laspeyres 190
16.5 Chỉ số giá Paasche 191

17 ĐỀ THI GIỮA KÌ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195


17.1 Đề giữa kì 2 năm 2018-2019 195
17.2 Đề giữa kì 1 năm 2018-2019 196
17.3 Đề giữa kì 2 năm 2018-2019 196
17.4 Đề giữa kì 1 năm 2017-2018 197
17.5 Đề giữa kì 2 năm 2017-2018 197
17.6 Đề giữa kì năm 2016-2017 198
17.7 Đề giữa kì năm 2015-2016 200
18 ĐỀ THI CUỐI KÌ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
18.1 Đề cuối kì I năm 2018-2019 204
18.2 Đề cuối kì I năm 2018-2019 205
18.3 Đề 1 cuối kì 1 năm 2017-2018 206
18.4 Đề 2 cuối kì 1 năm 2017-2018 207
18.5 Đề cuối kì 2017-2018 207
18.6 Đề cuối kì hè năm 2017-2018 208

19 MỞ ĐẦU VỀ CHƯƠNG TRÌNH R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210


19.1 Cài đặt và làm việc với các cửa sổ của R 210
19.2 Sử dụng lệnh help 210
19.3 Gói hàm - packages 211
19.4 Những lệnh cơ bản 211
19.5 Nhập xuất dữ liệu 215
19.6 Cấu trúc lập trình cơ bản 215

Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219


Sách 219
1. PHÉP ĐẾM 9

1.1 Phép nhân 9

1.2 Hoán vị 10

1.3 Chỉnh hợp – Tổ hợp 10

1.1 Phép nhân

Định nghĩa 1.1 (Phép nhân)


Giả sử một thao tác có thể được mô tả như một chuỗi gồm k bước và

i. số cách hoàn thành bước 1 là n1 và

ii. số cách hoàn thành bước 2 là n2 cho mỗi cách hoàn thành ở bước 1 và

iii. số cách hoàn thành bước 3 là n3 cho mỗi cách hoàn thành ở bước 1 và ...

Tổng số cách hoàn thành thao tác là n1 × · · · × nk .

Bài tập 1.1 Có bao nhiêu cách thiết kế cho một trang web là bao gồm bốn màu, ba
phông chữ và ba vị trí cho một hình ảnh.

Bài tập 1.2 Quảng cáo trên web có thể được thiết kế từ bốn màu khác nhau, ba loại
phông chữ, năm kích thước phông chữ, ba hình ảnh và năm cụm từ văn bản. Có thể
thiết kế bao nhiêu mẫu khác nhau?
(Đs: 900)

Bài tập 1.3 Một ổ khóa có ba vòng khóa, mỗi vòng có 10 chữ số: 0, 1, 2, 3, 4, 5, 6, 7,
8, 9. Hỏi có tất cả bao nhiêu mã khóa?

Bài tập 1.4 Một thiết kế cho một máy tính có thể chỉ định bất kỳ một trong năm kích
thước bộ nhớ, một trong ba loại màn hình, một trong bốn kích cỡ của một đĩa cứng và
có thể bao gồm hoặc không bao gồm một cây bút điện tử. Có bao nhiêu hệ thống máy
tính khác nhau có thể được thiết kế?
(Đs: 120)
10 1.2. Hoán vị

Bài tập 1.5 Thiết kế mới cho một bể xử lý nước thải đã được đề xuất với ba hình dạng
có thể, bốn kích thước có thể, ba vị trí cho van đầu vào và bốn vị trí cho van đầu ra.
Có thể thiết kế bao nhiêu sản phẩm khác nhau?
(Đs: 144)

1.2 Hoán vị

Định nghĩa 1.2 Số hoán vị của n phần tử khác nhau là n! = n × (n − 1) . . . 2 × 1.

Định nghĩa 1.3 Số hoán vị của n = n1 + n2 + · · · + nr phần tử gồm n1 phần tử loại 1


giống nhau, n2 phần tử loại 2 giống nhau ... và nr phần tử loại r giống nhau được tính
n!
.
n1 !n2 !n3 ! . . . nr !

1.3 Chỉnh hợp – Tổ hợp

Định nghĩa 1.4 (Chỉnh hợp)


Số hoán vị của các tập con gồm r phần tử được chọn từ một tập hợp n phần tử khác
nhau là
n!
Arn = n × (n − 1) × (n − 2) × · · · × (n − r + 1) = .
(n − r)!

Định nghĩa 1.5 Số tổ hợp, tập hợp con gồm r phần tử được chọn từ một tập hợp n
phần tử, được tính
n!
Cnr = .
r!(n − r)!

Bài tập 1.6 Trong một lớp gồm 30 sinh viên, cần chọn ra 3 sinh viên để làm lớp trưởng,
lớp phó và thủ quỹ. Hỏi có bao nhiêu cách bầu chọn?

Bài tập 1.7 Một hộp đựng 6 bi trắng và 4 bi đen.

a. Có tất cả bao nhiêu cách lấy ra 5 bi?

b. Có bao nhiêu cách lấy ra 5 bi trong đó có 2 bi trắng?

Bài tập 1.8 Một lô 140 chip bán dẫn được kiểm tra bằng cách chọn một mẫu 5 chip.
Giả sử 10 trong số các chip này không phù hợp với yêu cầu của khách hàng.
a. Có bao nhiêu cách chọn mẫu khác nhau?

b. Có bao nhiêu mẫu trong số năm mẫu chứa chính xác một chip không phù hợp?
11

c. Có bao nhiêu mẫu trong số năm mẫu chứa ít nhất một chip không phù hợp?

(Đs: 416.965.528; 113.588.800; 130.721.752)

Bài tập 1.9 Xem xét việc thiết kế của một hệ thống truyền thông.

a. Có bao nhiêu số điện thoại mà ba chữ số đầu tiên được sử dụng để đại diện cho
một khu vực địa lý cụ thể (chẳng hạn như mã vùng) có thể được tạo từ các chữ
số từ 0 đến 9?

b. Như một phần (a), có bao nhiêu số điện thoại mà ba chữ số đầu có thể không bắt
đầu bằng 0 hoặc 1, nhưng chứa 0 hoặc 1 làm chữ số giữa?

c. Có thể có bao nhiêu số điện thoại mà có ba chữ số đầu trong đó không có chữ số
nào xuất hiện nhiều hơn một lần trong đó?

(Đs: 1000; 160; 720)

Bài tập 1.10 Một thùng chứa 50 phần trong đó 5 phần bị lỗi. Một mẫu 10 phần được
chọn ngẫu nhiên, không hoàn lại. Có bao nhiêu mẫu chứa ít nhất bốn bộ phận bị lỗi?
(Đs: 41,947,059)

Bài tập 1.11 Trong một nhóm ứng viên gồm 7 nam và 3 nữ.

a. Có bao nhiêu cách thành lập một ủy ban bao gồm 3 người?

b. Có bao nhiêu cách thành lập một ủy ban bao gồm 3 người trong đó có đúng 1 nữ?

c. Có bao nhiêu cách thành lập một ủy ban bao gồm 3 người trong đó có ít nhất 1
nữ?

Bài tập 1.12 Một hộp có 8 bi đỏ, 6 bi trắng, 4 bi vàng. Người ta chọn ra 6 bi từ hộp
đó. Hỏi có bao nhiêu cách chọn nếu:

a. Không yêu cầu gì thêm.

b. Phải có 2 bi đỏ, 2 bi trắng, 2 bi vàng.

c. Có đúng 2 bi vàng.

Bài tập 1.13

a. Có bao nhiêu cách xếp 3 nam và 3 nữ ngồi thành một hàng?

b. Có bao nhiêu cách xếp 3 nam và 3 nữ ngồi thành một hàng nếu mỗi nam và mỗi
nữ ngồi cạnh nhau?

c. Có bao nhiêu cách xếp nếu 3 nam phải ngồi cạnh nhau?

d. Có bao nhiêu cách xếp nếu không có hai nam hoặc hai nữ nào được ngồi cạnh
12 1.3. Chỉnh hợp – Tổ hợp

nhau?

Bài tập 1.14 Một đồn cảnh sát khu vực có 9 người. Trong ngày cần cử 3 người làm
nhiệm vụ ở địa điểm A, 2 người ở địa điểm B còn 4 người trực tại đồn. Hỏi có bao
nhiêu cách phân công?

Bài tập 1.15 Có 6 học sinh được sắp xếp ngồi vào 6 chỗ đã ghi số thứ tự trên một bàn
dài. Tìm số cách xếp

a. 6 học sinh vào bàn.

b. 6 học sinh này vào bàn sao cho 2 học sinh A, B ngồi cạnh nhau.

c. 6 học sinh này ngồi vào bàn sao cho 2 học sinh A, B không ngồi cạnh nhau.
2. XÁC SUẤT CƠ BẢN 13

2.1 Khái niệm chung 13

2.2 Xác suất có điều kiện 19

2.3 Xác suất toàn phần - Công thức Bayes 22

2.1 Khái niệm chung

Định nghĩa 2.1 Một thí nghiệm có thể dẫn đến các kết quả khác nhau, mặc dù nó được
lặp lại theo cùng một cách thức trong mỗi lần thực hiện, được gọi là một thí nghiệm
ngẫu nhiên. Mỗi kết quả cụ thể của thì nghiệm mẫu nhiên gọi là khả năng.

Định nghĩa 2.2 Không gian mẫu Ω của một hiện tượng ngẫu nhiên là tập hợp tất cả
các khả năng có thể xảy ra.

i. Nếu |Ω| là hữu hạn hay đếm được thì ta gọi không gian mẫu hữu hạn.

ii. Nếu |Ω| là không đếm được (ví dụ Ω là khoảng con của R) thì ta gọi không gian
mẫu liên tục.

Định nghĩa 2.3 Biến cố là một khả năng hay một tập hợp các khả năng của một thí
nghiệm ngẫu nhiên. Nói cách khác, biến cố là một tập con A của không gian mẫu Ω và
kí hiệu là: A ⊂ Ω.

Định nghĩa 2.4 Các tiên đề xác suất:

i. Xác suất P(A) của biến cố A thỏa 0 ≤ P(A) ≤ 1.

ii. Nếu Ω là không gian mẫu của mô hình xác suất thì P(Ω) = 1.

iii. Hai biến cố rời nhau khi chúng không có khả năng chung và không bao giờ xảy ra
cùng nhau. Khi hai biến cố A, B rời nhau thì

P(A ∪ B) = P(A) + P(B).

Đây là quy tắc cộng cho hai biến cố rời nhau.


14 2.1. Khái niệm chung

iv. Biến cố đối Ac của biến cố A là những khả năng biến cố A không xảy ra. Quy
tắc đối là:
P(Ac ) = 1 − P(A).

Định lý 2.1 Xác suất trong không gian mẫu hữu hạn
Khi ta thực hiện phép gán xác suất cho mỗi khả năng riêng rẽ với một số nằm giữa 0
và 1, đồng thời có tổng là 1. Xác suất của một biến cố bất kì là tổng các xác suất của
mỗi khả năng xảy ra trong biến cố đó. Khi đó, ta có được một mô hình xác suất trong
không gian mẫu hữu hạn.

Chú ý, khi ta gán xác suất cho mỗi khả năng bằng nhau thì ta gọi đó là mô hình xác suất
đồng khả năng.

Định nghĩa 2.5 Hai biến cố độc lập nhau khi biết rằng xác suất xảy ra biến cố này
không làm thay đổi xác suất xảy ra của biến cố kia, khi đó

P(A và B) = P(A)P(B).

Đây là quy tắc nhân của hai biến cố độc lập.

Bài tập 2.1 Hãy chỉ rõ không gian mẫu trong mỗi thí nghiệm ngẫu nhiên sau:

a. Thả một đồng xu.

b. Để một cây bút chì rơi tự do vào một tờ giấy có ghi những chữ số một cách ngẫu
nhiên, sau đó ghi lại số có dấu chấm của đầu bút chì.

c. Thảy một đồng xu 4 lần rồi ghi lại chuỗi kết quả. Hãy liệt kê không gian mẫu.
Hơn nữa, nếu ta chỉ quan tâm tới số lượng mặt ngửa trong chuỗi kết quả. Cho
biết không gian mẫu lúc này.

d. Bạn là nhà thiết kế trang web và bạn thiết lập một trang với 5 liên kết khác nhau.
Người dùng có thể nhấp vào một trong các liên kết hoặc họ có thể rời khỏi trang
đó. Mô tả không gian cho kết quả của khách truy cập vào trang Web của bạn.

Bài tập 2.2 Sử dụng dữ liệu từ Bài 2.1 câu 3, hãy mô tả biến cố A là chuỗi kết quả có
chính xác 2 mặt ngửa xuất hiện.

Bài tập 2.3 Nếu ta tung 1 đồng súc sắc cân bằng thì xác suất để được mặt chẵn hoặc
lớn hơn 4 chấm là bao nhiêu?

Bài tập 2.4 Chọn ngẫu nhiên một số tự nhiên nhỏ hơn 10.

a. Hãy mô tả không gian mẫu của phép thử ngẫu nhiên trên.

b. Tính xác suất số được chọn là số không bé hơn 5.


15

c. Tính xác suất số được chọn là số 3.

Bài tập 2.5 Sử dụng biểu đồ Veen, mô tả các khái niệm: hai biến cố rời nhau và hai
biến cố đối nhau.

Bài tập 2.6 Cho ba biến cố được biểu diễn bởi biểu đồ Veen như sau:

Vẽ lại hình trên rồi tô đậm những vùng tương ứng với biến cố sau:

a. Ac c. (A ∪ B) ∩ C e. (A ∪ B)c ∩ C
b. A ∪ B d. (B ∩ C)c

Bài tập 2.7 Cho ba biến cố được biểu diễn bởi biểu đồ Veen như sau:

Vẽ lại hình trên rồi tô đậm những vùng tương ứng với biến cố sau:

a. Ac c. (A ∪ B) ∩ C e. (A ∪ B)c ∩ C
b. (A ∪ B) ∩ (A ∪ B c ) d. (B ∩ C)c

Bài tập 2.8 Xác suất xảy ra của 5 khả năng trong một thí nghiệm ngẫu nhiên là như
nhau. Không gian mẫu Ω = {a, b, c, d, e}. Đặt các biến cố A = {a, b} và B = {c, d, e}.
Tính:

a. P(A) c. P(Ac ) e. P(A ∪ B)


b. P(B) d. P(A ∩ B)

Bài tập 2.9 Không gian mẫu của một phép thử ngẫu nhiên là Ω = {ω1 , ω2 , ω3 , ω4 , ω5 }.

ωi ω1 ω2 ω3 ω4 ω5
p 0.1 0.1 0.2 0.4 0.2

Đặt biến cố A = {ω1 , ω2 , ω3 , } và biến cố B = {ω3 , ω4 , ω5 }. Tính các xác suất sau:
16 2.1. Khái niệm chung

a. P(A), P(B) b. P(Ac ) c. P(A ∩ B), P(A ∪ B)

Bài tập 2.10 Cho P(A) = 1/3; P(B) = 1/2 và P(A hoặc B) = 3/4. Tính:

a. P(A và B) c. P(Ac hoặc B c ) e. P(A và B c )


b. P(Ac và B c ) d. P(Ac và B)

Bài tập 2.11 Cho P(A) = 0.3, P(B) = 0.2 và P(A ∩ B) = 0.1. Tính các xác suất sau:

a. P(Ac ) c. P(Ac ∩ B) e. P(A ∪ B c )

b. P(A ∪ B) d. P(A ∩ B c ) f. P(Ac ∪ B)

Bài tập 2.12 Cho A, B, C là những biến cố đôi một rời nhau lần lượt có xác suất là:
0.2, 0.3 và 0.4. Tính những xác suất sau:

a. P(A ∪ B ∪ C) c. P(A ∩ B) e. P(Ac ∩ B c ∩ C c )


b. P(A ∩ B ∩ C) d. P ((A ∪ B) ∩ C)

(Đs: 0.9; 0; 0; 0; 0.1)

Bài tập 2.13 Ta xem như một hộ gia đình giàu có nếu thu nhập của họ vượt quá
100,000$ và xem hộ gia đình trí thức nếu chủ nhà hoàn thành bậc đại học. Chọn ngẫu
nhiên một hộ gia đình người Mỹ, và xét A là biến cố mà hộ gia đình được chọn là giàu
có và B là biến cố gia đình trí thức. Theo khảo sát dân số hiện tại, người ta thấy xác
suất P(A) = 0.138, P(B) = 0.261 và xác suất một gia đình vừa giàu có vừa trí thức là
P(A và B) = 0.082.

a. Hãy tính xác suất chọn một gia đình hoặc là giàu có hoặc là trí thức.

b. Vẽ biểu đồ Veen biểu diễn mối quan hệ giữa hai biến cố A và B.

c. Biễu diễn và tính những xác suất sau:

i. {Ac và B} ii. {A và B c } iii. {Ac và B c }

Bài tập 2.14 Tỷ lệ người mắc bệnh tim trong một vùng dân cư là 9%, mắc bệnh huyết
áp là 12% và mắc cả hai bệnh là 7%. Chọn ngẫu nhiên một người trong vùng. Tính
xác suất để người đó

a. Bị bệnh tim hay bị bệnh huyết áp.

b. Không bị bệnh tim cũng không bị bệnh huyết áp.

c. Không bị bệnh tim hay không bị bệnh huyết áp.

d. Bị bệnh tim nhưng không bị bệnh huyết áp.


17

e. Không bị bệnh tim nhưng bị bệnh huyết áp.

(Đs: 0.14; 0.86; 0.93; 0.02; 0.05)

Bài tập 2.15 Theo Consumer Digest (Tháng 7/8 1996), vị trí của các máy tính để bàn
(PC) trong nhà là như sau:

Phòng ngủ người lớn: 0.03


Phòng ngủ trẻ em: 0.15
Phòng ngủ khác: 0.14
Phòng làm việc: 0.40
Các phòng khác: 0.28

a. Hỏi xác suất để PC trong phòng ngủ là bao nhiêu?

b. Hỏi xác suất để PC không ở trong phòng ngủ là bao nhiêu?

c. Giả sử một căn hộ được chọn ngẫu nhiên từ các căn hộ có PC; hỏi bạn kỳ vọng
sẽ thấy PC trong phòng nào?

Bài tập 2.16 Một số tiểu bang đang xem xét luật sẽ cấm sử dụng điện thoại di động
trong khi lái xe vì họ tin rằng lệnh cấm sẽ giảm tai nạn xe hơi liên quan đến điện thoại.
Một nghiên cứu phân loại các loại tai nạn này vào các ngày trong tuần khi chúng xảy
ra. Trong ví dụ này, ta sử dụng các giá trị từ nghiên cứu này làm mô hình xác suất.
Dưới đây là xác suất:

Thứ Chủ nhật Hai Ba Tư Năm Sáu Bảy


Xác suất 0.03 0.19 0.18 0.23 0.19 0.16 0.02

Hãy kiểm tra các quy tắc xác suất của mô hình trên. Sau đó, áp dụng các quy tắc xác
suất, tính các trường hợp sau

a. Xác suất xảy ra tai nạn vào ngày nghỉ cuối tuần.

b. Xác suất xảy ra tai nạn vào ngày trong tuần.

Bài tập 2.17 Phân bố các loại máu


Máu người có thể là một trong các nhóm: O, A, B hoặc AB nhưng phân bố các loại
khác nhau giữa các nhóm ở người. Bảng sau là sự phân bố các loại máu cho một người
được chọn ngẫu nhiên tại Hoa Kỳ:

Loại máu A B AB O
Xác suất 0.40 0.11 0.04 ?

a. Tính xác suất của nhóm máu O ở Hoa Kỳ.


18 2.1. Khái niệm chung

b. Maria có máu loại B. Cô ấy có thể được truyền máu một cách an toàn từ những
người có nhóm máu O và B. Xác suất khi chọn ngẫu nhiên một người Mỹ có thể
hiến máu cho Maria?

Bài tập 2.18 Phân phối Benford


Số giả mạo trong bản khai thuế, hồ sơ thanh toán, hóa đơn, xác nhận quyền sở hữu tài
khoản và nhiều loại giấy tờ khác thường có ở những mẫu không có trong hồ sơ hợp lệ.
Một số mẫu qua mặt quản lí dễ dàng bởi một kẻ lừa đảo thông minh. Tuy nhiên, có
một nghiên cứu chuyên sâu đã chỉ ra rằng các chữ số đầu tiên của các con số trong hồ
sơ hợp pháp thường theo một phân phối được gọi là quy luật Benford.

Số đầu tiên 1 2 3 4 5 6 7 8 9
Xác suất 0.301 0.176 0.125 0.097 0.079 0.067 0.058 0.051 0.046

Chú ý số 0 không thể đứng đầu tiên.

a. Xét những biến cố: A={chữ số 1 đứng đầu} và B={chữ số đầu là 6 hoặc lớn hơn}.
Hãy tính xác suất của mỗi biến cố.

b. Tính xác suất khi chữ số đầu tiên lớn hơn 1.

c. Sử dụng xác suất biến cố A và B, tính xác suất khi số đầu tiên là 1 hoặc là 6 hoặc
lớn hơn.

d. Tính xác suất biến cố C chữ số đầu tiên là số lẻ. Sau đó suy ra xác suất
P(B hoặc C) và chứng minh nhỏ hơn tổng xác suất 2 biến cố B, C. Giải thích.

Bài tập 2.19 Những kẻ lừa đảo có thể nghĩ rằng chữ số đầu tiên phải được phân phối
”ngẫu nhiên” trong số các chữ số từ 1 đến 9 trong hồ sơ kinh doanh (tức là có xác suất
xuất hiện như nhau). Hãy mô tả không gian mẫu và tính xác suất của biến cố B (phát
biểu ở bài trên). So sánh kết quả với Bài tập 2.18 và rút ra cách nhận biết kẻ lừa đảo
làm giả giấy tờ.

Bài tập 2.20 Giả sử rằng xác suất để một thiết bị điện tử hoạt động trên 6000 giờ là
0.42. Giả sử rằng xác suất thiết bị hoạt động không quá 4000 giờ là 0.04.

a. Hỏi xác suất để tuổi thọ của thiết bị nhỏ hơn hoặc bằng 6000 giờ là bao nhiêu?

b. Hỏi xác suất để tuổi thọ lớn hơn 4000 giờ?

Bài tập 2.21 (Biến cố độc lập)


Tính xác suất trong các trường hợp sau:

a. Xác suất có hai mặt ngửa khi tung hai đồng xu đồng chất.

b. Gregor Mendel đã sử dụng đậu Hà Lan trong một số thí nghiệm cho thấy rằng sự
di truyền màu hạt hoạt động một cách ngẫu nhiên. Màu hạt của đậu Hà Lan có
19

thể là màu xanh lá cây hoặc màu vàng. Hai cây bố mẹ được cho lai tạo (một kiểu
thụ phấn) để tạo ra hạt giống. Mỗi cây bố mẹ mang hai gen cho màu hạt giống,
và mỗi gen này có xác xuất 1/2 được truyền cho một hạt giống. Hai gen mà hạt
giống nhận được một từ bố một mẹ xác định màu của nó. Cha mẹ đóng góp gen
độc lập với nhau.
Giả sử cả cha lẫn mẹ đều mang gen G và Y . Hạt mầm sẽ có màu xanh nếu cả hai
bố mẹ đóng góp một gen G; bằng không nó sẽ có màu vàng. Nếu M là biến cố
cây bố đóng góp một gen G và F là biến cố cây mẹ đóng góp một gen G thì xác
suất của một hạt màu xanh lá cây là bao nhiêu?

c. Phân phối nhóm máu của người Hoa khác với phân phối của người Hoa Kỳ (xem
Bài tập 2.17)và được cho bởi bảng sau

Loại máu A B AB O
Xác suất 0.27 0.26 0.12 0.35

Chọn một người Mỹ và một người Hoa ngẫu nhiên độc lập với nhau. Xác suất
mà cả hai đều có loại máu O là bao nhiêu? Xác suất mà cả hai đều có cùng một
loại máu?

2.2 Xác suất có điều kiện

Định nghĩa 2.6 Xác suất của biến cố B mà ta đã biết trước thông tin của biến cố A,
ta sẽ sử dụng khái niệm xác suất có điều kiện P(B|A) theo công thức

P(A ∩ B)
P(B|A) = ,
P(A)

với P(A) > 0.

Bài tập 2.22 Đĩa nhựa polycarbonate từ một nhà cung cấp được phân tích về khả
năng chống trầy xước và sốc. Kết quả từ 100 đĩa được tóm tắt như sau:

chống sốc
cao thấp
chống cao 70 9
xước thấp 16 5

Đặt A là biến cố một đĩa có khả năng chống sốc cao, và để B là biến cố đĩa có khả năng
chống xước cao. Xác định xác suất sau:

a. P(A) b. P(B) c. P(A|B) d. P(B|A)


20 2.2. Xác suất có điều kiện

Bài tập 2.23 Bảng sau đây tóm tắt phân tích các mẫu thép mạ kẽm cho trọng lượng
lớp phủ và độ nhám bề mặt:

trọng lượng lớp phủ


cao thấp
độ nhám cao 12 16
bề mặt thấp 88 34

a. Nếu trọng lượng lớp phủ của mẫu cao, xác suất độ nhám bề mặt cao là bao nhiêu?

b. Nếu độ nhám bề mặt của mẫu cao, xác suất trọng lượng lớp phủ cao là bao nhiêu?

c. Nếu độ nhám bề mặt của mẫu thấp, xác suất trọng lượng lớp phủ thấp là bao
nhiêu?

Bài tập 2.24 Trong kì thi cuối kì của ĐH New Harmony có 10000 kết quả thi của 3
khoa chính: khoa nghệ thuật, khoa kĩ thuật và vật lí, khoa sức khỏe được thống kê
trong bảng sau:

Khoa Điểm A Điểm B Điểm dưới B Tổng


Nghệ thuật 2142 1890 2268 6300
Kĩ thuật & vật lí 368 432 800 1600
Sức khỏe 882 630 588 2100

Tính xác suất:

a. Lấy ngẫu nhiên được 1 điểm loại dưới B.

b. Lấy ngẫu nhiên được 1 điểm loại dưới B với thông tin điểm đó lấy từ khoa kĩ
thuật.

c. Xác suất là bao nhiêu để điểm lấy ra từ khoa sức khỏe.

d. Lấy ngẫu nhiên được 1 điểm A.

e. Lấy ngẫu nhiên được 1 điểm A với thông tin điểm đó lấy từ khoa sức khỏe

f. Hãy tính xác suất lấy được một điểm loại A từ trường ĐH New Harmony khoa
nghệ thuật bằng 2 cách: số lượng trong bảng và công thức xác suất điều kiện. So
sánh kết quả.

Hãy giải thích sự khác nhau ở đáp số câu 1 với câu 2; câu 4 với câu 5.

Bài tập 2.25 Trong một nhóm sinh viên đại học, người ta phân loại theo giới tính và
mức độ thường xuyên uống rượu bia hay không. Dưới đây là xác suất
21

Nam Nữ
Thường xuyên 0.11 0.12
Không thường xuyên 0.32 0.45

Kiểm tra xem bảng xác suất trên có tổng là 1 không? Hãy tính xác suất chọn ngẫu
nhiên:

a. Một người không thường uống rượu bia.

b. Một người nam sinh viên không thường uống rượu bia. So sánh với kết quả trên.

c. Một người nam sinh viên thường uống rượu bia; một người nữ sinh viên thường
uống rượu bia.

d. Xác suất một sinh viên thường uống rươu bia với điều kiện phải là sinh viên nam.
Xác suất chọn một sinh viên thường uống rươu bia với điều kiện phải là sinh viên
nữ.

e. Giải thích tại sao lại có kết quả xác suất câu 3 lớn hơn câu 4 ở nữ và nhỏ hơn ở
nam. Rút ra nhận xét.

Bài tập 2.26 Sử dụng số liệu của mô hình xác suất trong Bài tập 2.13, hãy tính xác
suất chọn ngẫu nhiên một gia đình giáu có biết trước thông tin là gia đình trí thức?

Bài tập 2.27 Theo dõi dự báo thời tiết trên đài truyền hình (nắng, sương mù, mưa)
và so sánh với thời tiết thực tế xảy ra, ta có bảng thống kê sau:

Thực tế Dự báo
nắng sương mù mưa
nắng 30 5 5
sương mù 4 20 2
mưa 10 4 20

nghĩa là có 30 lần dự báo nắng, trời nắng, 4 lần dự báo nắng, trời sương mù; 10 lần dự
báo nắng, trời mưa,...

a. Tính xác suất dự báo trời nắng của đài truyền hình.

b. Tính xác suất dự báo của đài truyền hình là đúng thực tế.

c. Được tin dự báo là trời nắng. Tính xác suất để thực tế thì trời mưa ? trời sương
mù ? trời nắng ?

Bài tập 2.28 Xác suất của giai đoạn đầu tiên của sản xuất gia công được kiểm soát
bằng số vòng của các piston đáp ứng các thông số kỹ thuật là 0.90. Thất bại xảy ra
do các biến thể kim loại, liên kết cố định, cắt điều kiện lưỡi dao, độ rung và điều kiện
22 2.3. Xác suất toàn phần - Công thức Bayes

môi trường xung quanh. Do giai đoạn đầu đáp ứng các thông số kỹ thuật, xác suất mà
giai đoạn gia công thứ hai đáp ứng các thông số kỹ thuật là 0,95. Xác suất mà cả hai
giai đoạn đáp ứng thông số kỹ thuật là gì? Sử dụng công thức xác suất có điều kiện
P(A và B).

2.3 Xác suất toàn phần - Công thức Bayes

Định nghĩa 2.7 (Công thức xác suất toàn phần)


Giả sử E1 , E2 , . . . , Ek là k tập đôi một rời nhau, khi đó

P(B) = P(B ∩ E1 ) + P(B ∩ E2 ) + · · · + P(B ∩ Ek )


= P(B|E1 )P(E1 ) + P(B|E2 )P(E2 ) + · · · + P(B|Ek )P(Ek )

Từ Định nghĩa 2.6 và 2.7, ta suy ra được công thức:

Định lý 2.2 (Công thức Bayes) Giả sử P(A) > 0 và hệ những biến cố đầy đủ
{B1 , B2 , . . . , Bn } có P(Bk ) > 0 với mọi k = 1, n. Khi đó, ta có:

P(Bk )P(A|Bk )
P(Bk |A) = , k = 1, n.
P(B1 )P(A|B1 ) + P(B2 )P(A|B2 ) + · · · + P(Bn )P(A|Bn )

Biểu đồ cây rất hữu ích để xử lí những bài toán liên quan tới xác suất có điều kiện và công
thức xác suất toàn phần!

Bài tập 2.29 Một nhà máy có ba phân xưởng A, B, C tương ứng làm ra 25%, 35% và
40% tổng sản phẩm của nhà máy. Giả sử xác suất làm ra một sản phẩm hỏng của các
phân xưởng A, B và C lần lượt là 0.01, 0.02 và 0.025. Hãy tính xác suất nhận được
một sản phẩm hỏng.
(Đs: 0.0195)

Ta vẽ sơ đồ cây như sau


23

P(S|A) = 0.01 S

A
P(A) = 0.25
P(S|A) = 0.99 S

P(S|B) = 0.02 S
P(B) = 0.35
B

P(S|B) = 0.98 S

P(S|C) = 0.025 S
P(C) = 0.4

P(S|C) = 0.975 S

Bài tập 2.30 Một dây chuyền lắp ráp nhận các chi tiết từ hai nhà máy khác nhau.
Tỷ lệ chi tiết do nhà máy thứ nhất cung cấp là 60%, của nhà máy thứ hai là 40%. Tỷ
lệ chính phẩm của nhà máy thứ nhất là 90%, của nhà máy thứ hai là 85%. Lấy ngẫu
nhiên một chi tiết trên dây chuyền và thấy rằng nó tốt. Tìm xác suất để chi tiết đó do
nhà máy thứ nhất sản xuất.
(Đs: 0.614)

Bài tập 2.31 Trong một vùng dân cư, cứ 100 người thì có 30 người hút thuốc lá. Biết
tỷ lệ người bị viêm họng trong số người hút thuốc lá là 60%, trong số người không hút
thuốc lá là 30%. Khám ngẫu nhiên một người và thấy người đó bị viêm họng. Tìm xác
suất để người đó hút thuốc lá. Nếu người đó không bị viêm họng thì xác suất để người
đó hút thuốc lá là bao nhiêu?
(Đs: 0.4615; 0.1967)

Bài tập 2.32 Trong một lượng lớn sinh viên đại học quốc gia, 61% tham dự các ĐH 4
năm và các học viên còn lại theo học các ĐH 2 năm. Nam giới chiếm 44% số học sinh
trong các ĐH 4 năm và 41% học sinh trong các ĐH 2 năm.

a. Hãy lập bảng xác suất cho mô hình trên.

b. Giả sử ta lấy ngẫu nhiên 1 sinh viên nữ từ trường đại học quốc gia, xác suất sinh
viên đó học ĐH 4 năm là bao nhiêu?
(Đs: 0.5975)

Bài tập 2.33 Xe cơ giới được bán cho các cá nhân được phân loại là ô tô hoặc xe tải
nhẹ (bao gồm cả xe SUV) và là xe nội địa hoặc nhập khẩu. Trong một năm gần đây,
69% số xe được bán là xe tải nhẹ, 78% là trong nước và 55% là xe tải nhẹ nội địa. Hãy
24 2.3. Xác suất toàn phần - Công thức Bayes

để A là biến cố một chiếc xe là ô tô và B biến cố nó được nhập khẩu. Hãy tính xác
suất:

a. Phương tiện cơ giới là một chiếc bán tải.

b. Phương tiện cơ giới là một chiếc ô tô nhập khẩu.

c. Giả sử có thông tin một chiếc xe là nhập khẩu, hãy tính xác suất nó là xe bán tải.

d. Có thể khẳng định hai biến cố: chiếc xe là bán tải và chiếc xe nhập khẩu là độc
lập hay không? Giải thích.

Bài tập 2.34 Phòng chat trực tuyến bị chi phối bởi giới trẻ. Thanh thiếu niên là những
người dùng lớn nhất. Nếu chúng ta chỉ thống kê người trưởng thành (từ 18 tuổi trở lên)
dùng Internet, 47% trong nhóm tuổi từ 18 đến 29, cũng như 21% trong nhóm tuổi 30
đến 49 và chỉ 7% trong số 50 người đó trở lên. Để tìm hiểu phần trăm của người dùng
Internet tham gia trò chuyện, ta cũng cần phân tích theo độ tuổi người dùng. Ở đây
là: 29% người dùng Internet trưởng thành từ 18 đến 29 tuổi (biến cố A1 ), 47% khác là
30 đến 49 (biến cố A2 ) và 24% còn lại là từ 50 trở lên (biến cố A3 ).

a. Hãy tính xác suất nếu chọn ngẫu nhiên một người sử dụng Internet tham gia trò
chuyện.

b∗ . Bao nhiêu phần trăm người trưởng thành sử dụng Internet để trò chuyện nằm
trong độ tuổi 18 tới 29 tuổi? Tính P(A1 |C).

Bài tập 2.35 Julie vừa tốt nghiệp đại học. Cô đã học sinh học, hóa học, tính toán và
hy vọng sẽ làm việc như một nhà khoa học pháp y áp dụng kiến thức của mình để điều
tra tội phạm. Một đêm khuya, cô nghĩ về một số công việc mà cô đã nộp đơn xin. Gọi
A, B và C là các biến cố mà Julie xin được một công việc bằng cách:
A: văn phòng Giám đốc Y khoa ở Connecticut

B: sở tư pháp hình sự tại New Jersey

C: nhóm hoạt động về thiên tai ở của liên bang


với xác suất được nhận lần lượt là:

P(A) = 0.7 P(A và B) = 0.3 P(A và B và C) = 0


P(B) = 0.5 P(A và C) = 0.1
P(C) = 0.3 P(B và C) = 0.1

a. Sử dụng biểu đồ Veen mô tả mô hình xác suất trên.

b. Xác suất để Julie có được ít nhất một việc làm trong ba việc trên.

c. Nếu Julie đã được nhận làm việc liên bang thì xác suất có điều kiện để cô ta có
việc ở New Jersey là bao nhiêu?
(Đs: 1/3.)
25

d. Nếu Julie đã được nhận làm việc New Jersey thì xác suất có điều kiện để cô ta có
việc ở liên bang là bao nhiêu?
(Đs: 0.2)

Bài tập 2.36 Một thiết bị gồm 3 cụm chi tiết, mỗi cụm bị hỏng không ảnh hưởng gì
đến các cụm khác và chỉ cần một cụm bị hỏng thì thiết bị ngừng hoạt động. Xác suất
để cụm thứ nhất bị hỏng trong ngày là 0.1, cụm thứ hai là 0.05 và cụm thứ ba là 0.15.
Tìm xác suất để thiết bị không ngừng hoạt động trong ngày.
(Đs: 0.7267)
3. BIẾN26NGẪU NHIÊN RỜI RẠC

3.1 Khái niệm chung 26

3.2 Phân phối nhị thức 31

3.3 Phân phối siêu bội 35

3.4 Phân phối Poisson 37

3.1 Khái niệm chung

Định nghĩa 3.1

i. Biến ngẫu nhiên (random variable) là một biến mà mỗi giá trị của nó được gán
tương ứng với mỗi khả năng có thể xảy ra của hiện tượng ngẫu nhiên.

ii. Biến ngẫu nhiên rời rạc (discrete random variable) X là biến ngẫu nhiên chỉ nhận
đếm được những giá trị. Phân phối xác suất của X là một bảng gồm các giá trị
và xác suất tương ứng của chúng. Người ta cũng có thể mô tả X bằng đồ thị
histogram (xem Chương 6) và hàm phân phối tích lũy.

Định nghĩa 3.2

i. Cho biến ngẫu nhiên rời rạc X nhận hữu hạn giá trị x1 , . . . , xn , hàm trọng lượng
xác suất (probability mass function) thỏa mãn:
Pn
a. f (xi ) ≥ 0 b. i=1 f (xi ) =1 c. f (xi ) = P(X = xi ).

ii. Hàm phân phối tích lũy (cumulative distribution function) F của biến ngẫu nhiên
rời rạc X là hàm thỏa
X
F (x) = P(X ≤ x) = f (xi ).
xi ≤x

Định nghĩa 3.3 Các tham số đặc trưng thống kê

i. Trung bình hay kì vọng (mean, expected value) của biến ngẫu nhiên rời rạc X
nhận giá trị {x1 , x2 , · · · , xk } tương ứng với xác suất {p1 , p2 , · · · , pk } là đại lượng
27

được tính:
X
k
EX = µX = x i pi .
i=1

Tính chất:

a. Nếu X là biến ngẫu nhiên và a, b là số thực cố định thì µa+bX = a + bµX .


b. Nếu X và Y là hai biến ngẫu nhiên thì µX+Y = µX + µY .

ii. Kì vọng của một hàm phụ thuộc vào một biến ngẫu nhiên rời rạc X được tính
X
Eh(X) = h(xi )pi .
i

Đặc biệt, nếu h(x) = xr ta gọi Eh(X) là moment bậc r. Nếu h(x) = etx thì ta gọi
Eh(X) là hàm gây (sinh) moment. Nếu h(x) = e−itx thì ta gọi Eh(X) là hàm đặc
trưng của biến ngẫu nhiên X.

iii. Phương sai (variance) của biến ngẫu nhiên rời rạc X nhận giá trị {x1 , x2 , · · · , xk }
tương ứng với xác suất {p1 , p2 , · · · , pk } là đại lượng được tính:

X
k X
k
VarX = 2
σX = (xi − µX ) pi =
2
x2k pk − µ2X .
i=1 i=1

iv. Độ lệch chuẩn ( standard deviation) σX của biến ngẫu nhiên rời rạc X là căn bậc
2 của phương sai.
Tính chất:
2
a. Nếu X là biến ngẫu nhiên và a, b là số thực cố định thì σa+bX = b2 σ X
2 .

2
b. Nếu X và Y là hai biến ngẫu nhiên độc lập thì σX±Y 2 + σ2 .
= σX Y
c. Nếu X và Y là hai biến ngẫu nhiên có hệ số tương quan ρ thì
2
σX±Y 2
= σX + σY2 ± ρσX σY .

v. Trung vị (median) là số x thỏa điều kiện P(X ≤ x) = P(X ≥ x) = 0.5.

vi. Yếu vị (mod) là số x ∈ X(Ω) sao cho P(X = x) lớn nhất.

Code R 3.1 Sử dụng code R để tính trung bình, phương sai, độ lệch chuẩn của biến
ngẫu nhiên rời rạc:

R > x <- c(0,1,2,3)


R > f <- c(1/8, 3/8, 3/8, 1/8)
R > mu <- sum(x * f)
R > mu
R > sigma2 <- sum((x-mu)^2 * f)
R > sigma2
R > sigma <- sqrt(sigma2)
28 3.1. Khái niệm chung

R > sigma
R > F = cumsum(f)
R > F

hoặc sử dụng thư viên distrEx [74] như sau:

R > library(distrEx)
R > X <- DiscreteDistribution(supp = 0:3, prob = c(1,3,3,1)/8)
R > E(X); var(X); sd(X)

Bài tập 3.1 Trong mỗi tình huống dưới đây, biến ngẫu nhiên là liên tục hay rời rạc?
Giải tích.

a. Trang web của bạn có năm liên kết khác nhau và người dùng có thể nhấp vào
một trong các liên kết hoặc có thể rời khỏi trang. Bạn ghi lại khoảng thời gian
người dùng bỏ ra trên trang web trước khi nhấp vào một trong các liên kết hoặc
rời khỏi trang.

b. Số lần truy cập trên trang web của bạn.

c. Lượng khách truy cập hằng năm của trang web.

Bài tập 3.2 Trò chơi đánh bài Texas bắt đầu với việc mỗi người chơi nhận được 2 là
bài trên tay. Sau đây là bảng phân phối số lượng con bài át trong hai lá bài đó

Số lượng át 0 1 2
Xác suất 0.559 0.382 0.059

a. Hãy kiểm tra xem mô hình trên có phải là một biến ngẫu nhiên rời rạc?

b. Vẽ biểu đồ histogram cho phân phối trên.

c. Xác suất mà trong hai lá chứa ít nhất một át? Tính toán bằng hai cách khác
nhau.

Bài tập 3.3 Phần mềm kiểm tra chính tả bắt lỗi “lỗi không phải từ”, là lỗi tạo thành
bởi một chuỗi các chữ cái sắp xếp không tạo thành một từ, ví dụ chữ “the” được nhập
là “teh”. Khi sinh viên đại học được yêu cầu viết một bài luận 250 từ (không được kiểm
tra lại lỗi chính tả), và X số lượng từ bị lỗi có phân phối sau:

Giá trị của X 0 1 2 3 4


Xác suất 0.1 0.3 0.3 0.2 0.1

a. Vẽ phân phối xác suất của biến ngẫu nhiên X.

b. Viết biến cố “có ít nhất 1 lỗi” theo biến ngẫu nhiên X. Xác suất của biến cố này
là bao nhiêu?
29

c. Phát biểu thành lời biến cố X ≤ 2. Tính xác suất biến cố đó và xác suất của biến
cố X < 2.

x
Bài tập 3.4 Cho hàm số f (x) = 87 12 , x = 1, 2, 3.

a. Hàm số trên có phải là hàm xác suất không?

b. Tính các xác suất sau

i. P(X > 1) ii. P(2 < X < 6) iii. P(X ≤ 1 hoặc X = 3)

Bài tập 3.5 Cho hàm số f (x) = 2x+1


25 , x = 0, 1, 2, 3, 4.

a. Hàm số trên có phải là hàm xác suất không?

b. Tính các xác suất sau

i. P(X > 1) iii. P(X ≤ 1 hoặc X = 3)


ii. P(2 < X < 6) iv. P(2 ≤ X ≤ 4.5)

Bài tập 3.6 Thả hai con súc sắc cân bằng với xác suất của mỗi mặt chấm xuất hiện là
như nhau. Gọi biến ngẫu nhiên X là tổng số chấm xuất hiện khi thả hai con súc sắc.

a. Hãy viết không gian mẫu những khả năng khi tung 2 súc sắc.

b. Tính xác suất của mỗi khả năng.

c. Sử dụng kết quả câu b để lập bảng phân phối xác suất và vẽ histogram cho phân
phối này.

d. Người chơi sẽ thắng cược khi tổng súc sắc là 7 hoặc 11. Tính xác suất để người
chơi thắng khi thả súc sắc.

Bài tập 3.7 Hãy lập bảng phân phối xác suất, vẽ biểu đồ histogram của thí nghiệm
đếm số mặt ngửa trong mỗi chuỗi 2 lần tung đồng xu với giả thiết đồng xu cân bằng
và những lần tung là độc lập với nhau. Suy ra các xác suất: có ít nhất 2 lần mặt ngửa
xuất hiện. Làm lại bài trên với chuỗi 4 đồng xu.

Bài tập 3.8 Đại học bang North Carolina đăng bản phân phối cấp lớp cho các khóa
học trực tuyến. Học sinh trong học phần tiếng Anh 210 của học kỳ mùa xuân 2006 đã
nhận được 31%A, 40%B, 20%C, 4%D và 5%F . Chọn ngẫu nhiên một học sinh Anh
ngữ 210. ”Chọn ngẫu nhiên” có nghĩa là mọi học sinh cùng một cơ hội được chọn. Điểm
của học sinh theo thang điểm bốn điểm (với A = 4) là một biến ngẫu nhiên X.

a. Hãy lập bảng phân phối xác suất, vẽ biểu đồ histogram và tính xác suất học sinh
được chọn B hoặc tốt hơn.

b. Giả sử khi đạt điểm D và F trong học phần tiếng Anh 210, học sinh đó bị coi
30 3.1. Khái niệm chung

như chưa hoàn thành chuyên ngành ngôn ngữ học. Hãy tính xác suất để học sinh
chọn không thỏa yêu cầu của chuyên ngành.

Bài tập 3.9 Sử dụng số liệu từ Bài tập 2.18, ta xét biến ngẫu nhiên V chính là giá trị
của chữ số đầu tiên. Hãy tính trung bình và phương sai của V .

Bài tập 3.10

a. Cho biến ngẫu nhiên X có kì vọng µX = 10 thì biến ngẫu nhiên Y = 15 + 8X có


kì vọng là bao nhiêu?

b. Cho biến ngẫu nhiên U có trung bình µU = 20 và biến ngẫu nhiên V có trung
bình µV = 20 thì biến ngẫu nhiên Z = 0.5U + 0.5V có trung bình là bao nhiêu?

Bài tập 3.11 Linda là một nhân viên bán hàng tại một đại lý ô tô lớn. Với mức hoa
hồng 25% lợi nhuận tính trên mỗi chiếc xe cô bán, Linda dự kiến sẽ kiếm được 350$
cho mỗi chiếc xe hơi bán được và 400$ cho mỗi chiếc xe tải hoặc SUV bán được. Linda
thúc đẩy bản thân bằng cách sử dụng ước lượng xác suất cho doanh thu của mình. Vào
một ngày Thứ Bảy của tháng Tư, cô ước tính doanh số bán xe hơi của mình như sau:

Số xe bán 0 1 2 3
Xác suất 0.3 0.4 0.2 0.1

và xe tải hoặc SUV như sau

Số xe bán 0 1 2
Xác suất 0.4 0.5 0.1

Đặt X là số xe hơi Linda bán và Y số xe tải hoặc SUV.

a. Hãy tính trung bình lượng xe mỗi loại cô ta bán từ đó suy ra doanh thu trung
bình cô ta thu được.

b. Tính phương sai và độ lệch chuẩn cho biến X.

(Đs: 1.1, 0.7, 665; 0.89, 0.943)

Bài tập 3.12 Miền giá trị của biến ngẫu nhiên Y là {0, 1, 2, 3, y} trong đó y chưa biết
và có xác suất xảy ra như nhau. Tìm y để giá trị trung bình của biến ngẫu nhiên Y là
6.

Bài tập 3.13 ∗ Giả sử biến ngẫu nhiên X có phân phối nhị thức

f (x) = Cnx px (1 − p)n−x .


Xác định hàm gây moment và sử dụng nó kiểm chứng lại trung bình và phương sai của
31

biến ngẫu nhiên nhị thức.

Bài tập 3.14 ∗ Giả sử biến ngẫu nhiên X có phân phối đều rời rạc

1
f (x) = , x = 1, m.
m
et (1−etm )
a. Chứng minh hàm gây moment là MX (t) = m(1−et ) .

b. Sử dụng hàm MX (t) tính trung bình và phương sai của biến ngẫu nhiên phân
phối đều rời rạc.

Bài tập 3.15 ∗ Giả sử biến ngẫu nhiên X có phân phối Poisson

e−λ λx
f (x) = , x ∈ N.
x!
t −1)
a. Chứng minh hàm gây moment là MX (t) = eλ(e .

b. Sử dụng hàm MX (t) tính trung bình và phương sai của biến ngẫu nhiên phân
phối Poisson.

Bài tập 3.16 ∗ Giả sử biến ngẫu nhiên X có phân phối hình học

f (x) = (1 − p)x−1 p, x ∈ N∗ .
pet
a. Chứng minh hàm gây moment là MX (t) = 1−(1−p)et .

b. Sử dụng hàm MX (t) tính trung bình và phương sai của biến ngẫu nhiên X.

3.2 Phân phối nhị thức

Định nghĩa 3.4 Phân phối nhị thức X ∼ B(n, p)

i. Phép thử Bernoulli là thí nghiệm (hay phép thử) chỉ có hai kết quả và thường
được sử dụng để xây dựng một chuỗi các phép thử ngẫu nhiên.

ii. Phép thử n Bernoulli là một chuỗi các phép thử Bernoulli thỏa 3 điều kiện: các
phép thử trong mỗi chuỗi là độc lập; mỗi phép thử Bernoulli; xác suất thành công
của mỗi phép thử là p không đổi.

iii. Biến ngẫu nhiên nhị thức chính là số lần thành công của phép thử n Bernoulli
tham số 0 < p < 1 với xác suất tương ứng

P(X = x) = Cnx px (1 − p)n−x , x = 0, n.

2 = np(1 − p).
iv. Các đặc trưng thống kê: trung bình µX = np và phương sai σX
32 3.2. Phân phối nhị thức

Code R 3.2

R > dbinom (x = 0:4, size = 4, prob = 1/2) # tính xác suất P(X=x)
R > pbinom (x = 3, size = 4, prob = 1/2) # tính phân phối tích lũy
R > pbinom(9, size=12, prob=1/6) - pbinom(6, size=12, prob=1/ên
R > diff(pbinom(c(6,9), size = 12, prob = 1/6)) # tương đương lệnh trên
R > qbinom (p = 0.75, size = 4, prob = 1/2) # tính phân vị 75%
R > rbinom (x = 3, size = 4, prob = 1/2) # tạo 3 số ngẫu nhiên

Bài tập 3.17 Trong mỗi tình huống dưới đây, có hợp lý khi sử dụng phân phối nhị thức
cho biến ngẫu nhiên X không? Đưa ra lý do cho câu trả lời của bạn trong mỗi trường
hợp. Nếu là phân phối nhị thức, hãy cho các giá trị của n và p.

a. Một cuộc thăm dò ý kiến của 200 sinh viên đại học hỏi bạn có thường hay cáu
kỉnh vào buổi sáng hay không. X là số người trả lời rằng chúng thường dễ cáu
kỉnh buổi sáng.

b. Bạn ném một đồng xu cân bằng cho đến khi mặt ngửa xuất hiện. X là số lần
tung mà bạn thực hiện.

c. Hầu hết các cuộc gọi điện thoại khảo sát được thực hiện ngẫu nhiên và mẫu được
coi là không thành công khi không nói chuyện với trực tiếp một người. Trong số
các cuộc gọi đến thành phố New York, chỉ 1/12 thành công. Cuộc khảo sát cuộc
gọi 500 số được chọn ngẫu nhiên ở thành phố New York. X là số tiếp cận một
người trực tiếp.

d. Một quy trình sản xuất ra hàng nghìn đầu dò nhiệt độ. Cho X biểu thị số đầu
dò không phù hợp trong một mẫu có kích thước 30 được chọn ngẫu nhiên từ quá
trình sản xuất trên.

e. Xét X biểu thị số vụ tai nạn xảy ra trên đường cao tốc liên bang ở Arizona trong
thời gian một tháng.

Bài tập 3.18 Biến ngẫu nhiên X có phân phối nhị thức với n = 10 và p = 0.5. Xác
định xác suất:

a. P(X = 5) b. P(X ≤ 2) c. P(X ≥ 9) d. P(3 ≤ X < 5)


33

Bài tập 3.19 Biến ngẫu nhiên X có phân phối nhị thức với n = 10 và p = 0.01. Xác
định xác suất:

a. P(X = 5) b. P(X ≤ 2) c. P(X ≥ 9) d. P(3 ≤ X < 5)

e. Hãy vẽ hàm phân phối tích lũy của mô hình trên.

Bài tập 3.20 Một phân xưởng có 5 máy. Xác suất để trong một ca, mỗi máy bị hỏng
là 0.1. Tìm xác suất để trong một ca, có đúng 2 máy bị hỏng.
(Đs: 0.0729)

Bài tập 3.21 Tính xác suất để gieo con xúc xắc 10 lần, mặt một nút xuất hiện không
quá 3 lần.
(Đs: 0.93)

Bài tập 3.22 Giả sử tỷ lệ sinh con trai và con gái là bằng nhau và bằng 1/2. Một gia
đình có 4 người con. Tính xác suất để 4 đứa con đó gồm

a. 2 trai và 2 gái b. 1 trai và 3 gái c. 4 trai

(Đs: 3/8; 1/4; 1/16)

Bài tập 3.23 Tỷ lệ một loại bệnh bẩm sinh trong dân số là p = 0.01. Bệnh này cần
sự chăm sóc đặc biệt lúc mới sinh. Một nhà bảo sinh thường có 20 ca sinh trong một
tuần. Tính xác suất để

a. không có trường hợp nào cần chăm sóc đặc biệt;

b. có đúng một trường hợp cần chăm sóc đặc biệt;

c. có nhiều hơn một trường hợp cần chăm sóc đặc biệt.

(Đs: 0.8179; 0.1652; 0.0168)

Bài tập 3.24 Một đèn giao thông trên tuyến đường một người đi làm vào buổi sáng
có màu xanh chiếm 20% số lần người ta tới ngã tư đó. Giả sử mỗi buổi sáng đi làm để
thu thập số liệu là độc lập

a. Với 5 buổi sáng đi làm, hãy tính xác suất gặp đèn xanh đúng 1 ngày.

b. Với 20 buổi sáng đi làm, hãy tính xác suất gặp đèn xanh đúng 4 ngày.

c. Với 20 buổi sáng đi làm, hãy tính xác suất gặp đèn xanh nhiều hơn 4 ngày.

(Đs: 0.410; 0.218; 0.37)


34 3.2. Phân phối nhị thức

Bài tập 3.25 Các đường dây (lines) điện thoại đến hệ thống đặt vé máy bay bận chiếm
40% số lần gọi. Giả sử rằng việc các đường dây bận khi cuộc gọi đến là độc lập. Giả
sử rằng 10 cuộc gọi được đặt cho hãng hàng không.

a. Xác suất để có đúng 3 cuộc gọi tới bị bận đường dây.

b. Xác suất để có ít nhất 1 cuộc gọi tới không bị bận.

c. Tính trung bình số cuộc gọi tới bị bận bằng hai cách.

(Đs: 0.215; 0.994; 4)

Bài tập 3.26 Bài kiểm tra trắc nghiệm chứa 25 câu hỏi, mỗi câu hỏi có bốn câu trả
lời. Giả sử một học sinh chỉ đoán ngẫu nhiên để câu hỏi

a. Xác suất để học sinh đó có nhiều hơn 20 câu trả lời đúng.

b. Xác suất để học sinh đó có ít hơn 5 câu trả lời đúng.

Bài tập 3.27 Một bài thi trắc nghiệm gồm 12 câu hỏi, mỗi câu có 5 câu trả lời, trong
đó chỉ có một câu đúng. Giả sử mỗi câu trả lời đúng, thí sinh được 4 điểm, mỗi câu trả
lời sai, thí sinh bị trừ 1 điểm. Một thí sinh làm bài bằng cách chọn ngẫu nhiên các câu
trả lời. Tìm xác suất để

a. thí sinh được 13 điểm b. thí sinh bị điểm âm

(Đs: 0.0532; 0.558)

Bài tập 3.28 Một người bắn bia với xác suất bắn trúng là p = 0.7

a. Bắn liên tiếp 3 phát. Tính xác suất có ít nhất 1 lần trúng bia.

b. Hỏi phải bắn ít nhất mấy lần để có xác suất ít nhất một lần trúng bia ≥ 0.9.

(Đs: 0.973; ít nhất 2)

Bài tập 3.29 Một nhà máy sản xuất với tỷ lệ phế phẩm là 7%

a. Quan sát ngẫu nhiên 10 sản phẩm. Tính xác suất để có:

i. đúng một phế phẩm iii. nhiều nhất một phế phẩm
ii. ít nhất một phế phẩm

(Đs: 0.3643; 0.516; 0.8483)

b. Hỏi phải quan sát ít nhất bao nhiêu sản phẩm để xác suất nhận được ít nhất một
phế phẩm ≥ 0.9.
(Đs: ít nhất 32)
35

3.3 Phân phối siêu bội

Định nghĩa 3.5 Phân phối siêu bội X ∼ H(N, K, n)

i. Biến ngẫu nhiên siêu bội:


Ta xét tập hợp N đối tượng bao gồm: K đối tượng được phân loại là “thành
công” và N − K đối tượng là “thất bại”, lấy một mẫu ngẫu nhiên gồm n đối tượng
(không hoàn lại) từ N đối tượng này (K < N và n < N ). Khi đó, biến ngẫu
nhiên siêu bội là số đối tượng thành công trong mẫu với xác suất tương ứng
x C n−x
CK N −K
P(X = x) = n , max{0, n + K − N } ≤ x ≤ min{K, n}.
CN

2 = np(1 − p) N −n
ii. Các đặc trưng thống kê: trung bình µX = np và phương sai σX
N −1
với p = K/N .
−n
iii. Chú ý: đại lượng N N −1 được gọi là hệ số hiệu chỉnh. Khi n nhỏ hơn N , thì hệ số
hiệu chỉnh nhỏ và phân phối siêu bội X ∼ H(N, K, n) có thể được xấp xỉ bới phân
phối nhị thức X ∼ B(n, K/N ).

Code R 3.3 Thay các lệnh dbinom, pbinom, qbinom, rbinom bằng lệnh dhyper,
phyper, qhyper, rhyper.

Bài tập 3.30 Giả sử X có phân phối siêu bội với N = 100, n = 4, và K = 20. Xác
định

a. P(X = 1) b. P(X = 6) c. P(X = 4) d. P(X ≤ 2)

2 bằng 2 cách: công thức và bảng phân phối xác suất.


e. µX và σX

Bài tập 3.31 Giả sử biến ngẫu nhiên X có phân phối siêu bội với N = 10, n = 3 và
K = 4. Vẽ hàm phân phối xác suất và phân phối tích lũy của X.
36 3.3. Phân phối siêu bội

Bài tập 3.32 Một đĩa CD có 10 bài hát gồm: 6 bài nhạc cổ điển và 4 bài Rock & Roll.
Một mẫu gồm 3 bài hát được chọn. Tính xác suất trong mẫu đó có đúng 2 bài hát cổ
điển biết rằng mẫu chọn không hoàn lại.

Bài tập 3.33 Chi nhánh Riverton của Ngân hàng Quốc gia Wyoming có 10 khoản vay
bất động sản trên 1.000.000 đô la. Trong số 10 khoản vay này, 3 khoản là “dưới nước”.
Một khoản cho vay là dưới nước nếu số tiền cho vay lớn hơn giá trị của tài sản thế
chấp. Giám đốc cho vay quyết định chọn ngẫu nhiên hai khoản vay này để xác định
xem chúng có đáp ứng tất cả các tiêu chuẩn ngân hàng hay không. Xác suất để cả hai
khoản vay đã chọn không bị dưới nước là bao nhiêu?

Bài tập 3.34 Khoa Hệ thống Máy tính có tám giảng viên, sáu trong số đó đã có bằng
tiến sĩ. Tiến sĩ Vonder, trưởng khoa, muốn thành lập một ủy ban gồm ba giảng viên
của bộ môn để xem xét chương trình giảng dạy. Nếu cô ấy chọn ủy ban một cách ngẫu
nhiên

a. Xác suất để cả 3 người được chọn đều có bằng tiến sĩ.

b. Xác suất để có ít nhất 1 người không có bằng tiến sĩ.

Bài tập 3.35 Keith’s Floists có 15 xe tải giao hàng, được sử dụng chủ yếu để giao hoa
và chủng loại hoa ở khu vực Greenville, Nam Carolina. Trong số 15 xe tải này, có 6
chiếc gặp sự cố về phanh. Một mẫu gồm năm xe tải được chọn ngẫu nhiên. Xác suất
mà hai trong số những người được kiểm tra có phanh bị lỗi là bao nhiêu?

Bài tập 3.36 Trò chơi có tên Lotto do Ủy ban Xổ số Louisiana tài trợ sẽ trả giải thưởng
lớn nhất khi một người dự thi trùng khớp với tất cả 6 trong số 40 con số có thể. Giả
sử có 40 quả bóng bàn, mỗi quả có một số duy nhất từ 1 đến 40. Số bất kì nào cũng
chỉ xuất hiện một lần và các quả bóng chiến thắng được chọn mà không cần thay thế.

a. Ủy ban báo cáo rằng xác suất khớp tất cả các số là 1 trong 3.838.380 trường hợp.
Điều này có ý nghĩa gì về mặt xác suất?

b. Kiểm chứng lại bằng phân phối siêu bội.

c. Giải an ủi sẽ đuợc trao cho người trùng 4 hoặc 5 số trong 6 số trúng thưởng. Hãy
tính xác suất có 4 số trùng với 6 số trúng thưởng; có 4 số trùng với 6 số trúng
thưởng?

Bài tập 3.37 Một lô chứa 36 tế bào vi khuẩn và 12 tế bào trong đó không có khả năng
sao chép (sinh sản) tế bào. Giả sử bạn kiểm tra 3 tế bào vi khuẩn được chọn ngẫu
nhiên, không cần hoàn lại.
a. Hãy mô tả hàm phân phối ứng với biến ngẫu nhiên X là số tế bào có thể sao chép
trong mẫu lấy ra.
b. Tính trung bình và phương sai của X.
37

c. Tính xác suất để có ít nhất 1 tế bào trong mẫu không thể sao chép.

Bài tập 3.38 (Sử dụng phân phối nhị thức xấp xỉ phân phối siêu bội)
Một công ty sử dụng 800 người đàn ông dưới 55 tuổi. Giả sử 30% mang dấu hiệu trên
nhiễm sắc thể nam biểu thị nguy cơ cao huyết áp.

a. Nếu 10 người đàn ông trong công ty được xét nghiệm dấu hiệu của nhiễm sắc thể
này, xác suất có chính xác một người đàn ông mang dấu hiệu đó với nhận xét số
người được xét nghiệm n = 10 nhỏ hơn rất nhiều so với N = 800?

b. Nếu 10 người đàn ông trong công ty được xét nghiệm dấu hiệu của nhiễm sắc thể
này, xác suất có nhiều hơn một người đàn ông mang dấu hiệu đó?

(Đs: 0.1201; 0.8523)

3.4 Phân phối Poisson

Định nghĩa 3.6 Phân phối Poisson X ∼ P (λ)

i. Biến ngẫu nhiên Poisson: một biến ngẫu nhiên rời rạc được mô hình bằng phân
phối Poisson nếu thỏa các điều kiện

a. Các biến cố xảy ra một cách ngẫu nhiên và độc lập giữa những khoảng thời
gian hoặc không gian nhất định.
b. Số lượng trung bình λ các biến cố xảy ra trong những khoảng là đồng nhất
và hữu hạn.

Khi đó, số lượng biến cố xảy ra trong những khoảng thời gian hoặc không gian
tương ứng với xác suất

e−λ λx
P(X = x) = , x ∈ N.
x!
2 = λ.
ii. Các đặc trưng thống kê: trung bình µX = λ và phương sai σX

iii. Chú ý: Khi X ∼ B(n, p) với p nhỏ và n lớn thì ta có thế xấp xỉ bởi phân phối
Poisson X ∼ P (np).
38 3.4. Phân phối Poisson

Code R 3.4 Thay các lệnh dbinom, pbinom, qbinom, rbinom bằng lệnh dpois,
ppois, qpois, rpois.

Bài tập 3.39 Giả sử X có phân phối Poisson với trung bình là 4. Tính xác suất

a. P(X = 0) b. P(X ≤ 2) c. P(X = 4) d. P(X = 8)

Bài tập 3.40 Số lượng các cuộc gọi điện thoại đến trao đổi với một trạm giao dịch
thường được mô hình hóa bằng biến ngẫu nhiên Poisson. Giả sử trung bình có 10 cuộc
gọi mỗi giờ. Xác suất có chính xác

a. 5 cuộc gọi trong một giờ. c. 15 cuộc gọi trong hai giờ.

b. 3 cuộc gọi hoặc ít hơn trong một giờ. d. 5 cuộc gọi trong 30 phút.

Bài tập 3.41 Số lỗ hỏng trên tấm vải của nhà máy dệt được giả định là phân phối
Poisson với trung bình 0.1 lỗ trên một mét vuông vải. Xác suất để có

a. 2 lỗ hỏng trên 1m2 vải. c. 0 lỗ hỏng trên 20m2 vải.

b. 1 lỗ hỏng trên 10m2 vải. d. ít nhất 2 lỗ hỏng trên 10m2 vải.

Bài tập 3.42 Giả sử rằng số lượng khách hàng bước vào ngân hàng trong một giờ là
một biến ngẫu nhiên Poisson và giả sử rằng P(X = 0) = 0.05. Xác định trung bình và
phương sai của X.
39

Bài tập 3.43 Số lượng danh mục của một trang Web thay đổi tuân theo phân phối
Poisson với trung bình là 0.25 trên 1 ngày. Xác suất có

a. nhiều hơn hay bằng 2 thay đổi trong một ngày.

b. không có thay đổi trong năm ngày.

c. ít hơn hay bằng 2 thay đổi trong năm ngày.

(Đs: 0.026; 0.287; 0.868)

Bài tập 3.44 Một trung tâm bưu điện nhận được trung bình 3 cuộc điện thoại trong
mỗi phút. Tính xác suất để trung tâm này nhận được 1 cuộc, 2 cuộc, 3 cuộc gọi trong
1 phút, biết rằng số cuộc gọi trong một phút có phân phối Poisson.
(Đs: 0.1494; 0.224; 0.224)

Bài tập 3.45 Khi nhà sản xuất đĩa máy tính kiểm tra đĩa, họ ghi vào đĩa và sau đó
kiểm tra nó bằng cách sử dụng một chương trình xác nhận. Trình xác nhận đến số
xung hoặc lỗi bị thiếu. Số lỗi trên vùng thử của đĩa có phân phối Poisson với λ = 0.2

a. Xác định số lỗi trung bình trên phần diện tích được kiểm tra.

b. Tỉ lệ phần trăm diện tích kiểm tra để có hai lỗi hay ít hơn.
(Đs: 99.89%)

Bài tập 3.46 Các nhà thiên văn học đếm số lượng các ngôi sao trong một thể tích
không gian cho trước được xem như là biến ngẫu nhiên Poisson. Mật độ trong thiên
hà Milky Way trong vùng lân cận với hệ mặt trời của chúng ta là một ngôi sao trên 16
năm ánh sáng.

a. Xác suất để có từ 2 ngôi sao trở lên trong 16 năm ánh sáng.

b. Cần bao nhiêu năm ánh sáng để xác suất có 1 hoặc nhiều hơn ngôi sao lớn hơn
0.95.

(Đs: 0.264; 48)

Bài tập 3.47 Số lượng các lỗ hổng bề mặt trong các tấm nhựa được sử dụng làm nội
thất của xe ô tô có phân bố Poisson với giá trị trung bình 0,05 lỗ trên một foot vuông
của bảng nhựa. Giả sử một bộ phận nội thất ô tô chứa 10 feet vuông của bảng nhựa.
a. Xác suất để không có lỗi nào trên bộ phận nội thất đó.
b. Nếu 10 chiếc xe được bán cho một công ty cho thuê, xác suất để không có bất kì
chiếc trong số 10 chiếc xe có bất kỳ sai sót bề mặt nào?
c. Nếu 10 chiếc xe được bán cho một công ty cho thuê, xác suất để nhiều nhất một
chiếc trong số 10 chiếc xe có bất kỳ sai sót bề mặt nào?
(Đs: 0.6065; 0.0067; 0.0504)
40 3.4. Phân phối Poisson

Bài tập 3.48 Tỷ lệ một loại bệnh bẩm sinh trong dân số là p = 0.01. Bệnh này cần
sự chăm sóc đặc biệt lúc mới sinh. Một nhà bảo sinh thường có 20 ca sinh trong một
tuần. Tính xác suất để

a. Không có trường hợp nào cần chăm sóc đặc biệt.

b. Có đúng một trường hợp cần chăm sóc đặc biệt.

c. Có nhiều hơn một trường hợp cần chăm sóc đặc biệt.

Tính bằng quy luật nhị thức rồi dùng quy luật Poisson để so sánh kết quả khi ta xấp
xỉ phân phối nhị thức bằng phân phối Poisson .
4. BIẾN NGẪU NHIÊN LIÊN TỤC 41

4.1 Khái niệm chung 41

4.2 Phân phối chuẩn 48

4.3 Phân phối chuẩn xấp xỉ phân phối nhị thức và phân
phối Poisson 51

4.1 Khái niệm chung

Định nghĩa 4.1

a. Biến ngẫu nhiên liên tục (continuous random variable) là biến ngẫu nhiên nhận
giá trị trong một khoảng con (hữu hạn hoặc vô hạn) của tập số thực.

b. Hàm mật độ xác suất (probability density function) của một biến ngẫu nhiên liên
tục là hàm số thỏa
Z b
i. f (x) ≥ 0, ∀x;
Z +∞ iii. P(a ≤ X ≤ b) = f (x)dx.
a
ii. f (x)dx = 1;
−∞

c. Hàm phân phối tích lũy (cumulative distribution function) của một biến ngẫu
nhiên liên tục được định nghĩa
Z x
F (x) = P(X ≤ x) = f (s)ds, x ∈ R.
−∞

Thực tế, người ta có thể sử dụng histogram để xấp xỉ hàm mật độ xác suất như hình sau:
42 4.1. Khái niệm chung

Ví dụ 4.1 Nếu X là biến ngẫu nhiên có phân phối đều (continuous uniform random
variable) thì có hàm mật độ xác suất là f (x) = 1
b−a , a ≤ x ≤ b. Kí hiệu là: X ∼ U (a, b).

Định nghĩa 4.2

i. Trung bình của một biến ngẫu nhiên liên tục có hàm mật độ f (x) được định nghĩa
Z +∞
E(X) = µX = xf (x)dx.
−∞

ii. Phương sai của một biến ngẫu nhiên liên tục có hàm mật độ f (x) được định nghĩa
Z +∞ Z +∞
V(X) = σX =
2
(x − µX ) f (x)dx =
2
x2 f (x)dx − µ2X .
−∞ −∞

iii. Kì vọng của một hàm phụ thuộc liên tục vào một biến ngẫu nhiên liên tục X có
hàm mật độ xác suất f (x) được tính
Z +∞
Eh(X) = h(x)f (x)dx.
−∞

Đặc biệt, nếu h(x) = xr ta gọi Eh(X) là moment bậc r. Nếu h(x) = etx thì ta gọi
Eh(X) là hàm gây (sinh) moment. Nếu h(x) = e−itx thì ta gọi Eh(X) là hàm đặc
trưng của biến ngẫu nhiên X.

Code R 4.1 Sử dụng hàm tính tích phân để tính xác suất

R > f <- function(x) 3 * x^2


R > integrate(f, lower = 0.14, upper = 0.71)

hoặc sử dụng thư viện

R > library(distr)
R > f <- function(x) 3 * x^2
R > X <- AbscontDistribution(d = f, low1 = 0, up1 = 1)
R > p(X)(0.71) - p(X)(0.14)
R > library(distrEx)
R > E(X)
R > var(X)

Bài tập 4.1 Dòng điện trong một mạch nhất định được đo bằng một ampe kế là biến
ngẫu nhiên liên tục X với hàm mật độ sau:

0.075x + 0.2 khi 3 ≤ x ≤ 5,
f (x) =
0 chỗ khác.

a. Hãy vẽ hàm mật độ của phân phối và kiểm tra phần diện tích phía dưới đường
cong của hàm mật độ là 1.
43

b. Tính P(X ≤ 4) và so sánh với xác suất P(X > 4).

c. Tính xác suất P(3.5 ≤ X ≤ 4.5) và P(X > 4.5).

Bài tập 4.2 Lỗi liên quan đến việc thực hiện một phép đo nhất định là một biến ngẫu
nhiên X liên tục với hàm mật độ:

0.09375(4 − x2 ) khi − 2 ≤ x ≤ 2,
f (x) =
0 chỗ khác.
a. Hãy vẽ hàm mật độ của phân phối. c. Tính P(−1 < X < 1).

b. Tính P(X > 0). d. Tính P(X < −0.5 hoặc X > 0.5).

Bài tập 4.3 Giả sử nhiệt độ phản ứng X (tính theo o C) trong một quá trình phản ứng
hóa học nhất định có phân phối đều với A = −5 và B = 5.

a. Tính P(X < 0). b. Tính P(−2.5 < X < 2.5).c. Tính P(−2 ≤ X ≤ 3).

d. Với k thỏa −5 < k < k + 4 < 5, hãy tính P(k < X < k + 4).

Bài tập 4.4 Dựa trên cơ sở phân tích dữ liệu, một bài báo trên: “Pedestrians’ Crossing
Behaviors and Safety at Unmarked Roadways in China (Accident Analysis and Preven-
tion, 2011: 1927–1936)” đã đề xuất hàm mật độ f (x) = 0.15e−0.15(x−1) với x ≥ 1 làm
mô hình cho phân phối của X = thời gian (giây) được sử dụng ở dòng trung bình.

a. Xác suất mà thời gian chờ tối đa là 5 giây là bao nhiêu? Hơn 5 giây?

b. Xác suất mà thời gian chờ đợi là từ 2 đến 5 giây là bao nhiêu?

Bài tập 4.5 Một bài báo: “Second Moment Reliability Evaluation vs. Monte Carlo
Simulations for Weld Fatigue Strength (Quality and Reliability Engr. Intl., 2012: 887-
896)” xem xét việc sử dụng phân phối đều với A = 0.20 và B = 4.25 cho đường kính X
của những mối hàn (mm).

a. Tìm và vẽ hàm mật độ của X.

b. Xác suất đường kính vượt quá 3mm là bao nhiêu?

c. Xác suất đường kính trong vòng 1 mm của đường kính trung bình là bao nhiêu?

d. Với a thỏa điều kiện 0.2 < a < a + 1 < 4.5 thì xác suất P(a < X < a + 1) bao
nhiêu?

Bài tập 4.6 Khi đi làm, một giáo sư trước tiên phải lên xe buýt gần nhà cô và sau
đó chuyển sang tuyến xe buýt thứ hai. Nếu thời gian chờ đợi (tính bằng phút) tại mỗi
điểm dừng có phân bố đều với A = 0 và B = 5, khi đó có thể thấy rằng tổng thời gian
44 4.1. Khái niệm chung

chờ đợi Y có hàm mật độ:


 1

 y khi 0 ≤ y < 5,
 25
f (y) = 2 1
 − y khi 5 ≤ y ≤ 10,

 5 25
0 chỗ khác.
R∞
a. Vẽ hàm mật độ của Y . b. Kiểm tra tính chất −∞ f (y)dy = 1.

c. Xác suất tổng thời gian chờ tối đa 3 phút là bao nhiêu?

d. Xác suất tổng thời gian chờ tối đa 8 phút là bao nhiêu?

e. Xác suất tổng thời gian chờ từ 3 đến 8 phút là bao nhiêu?

f. Xác suất mà tổng thời gian chờ đợi là ít hơn 2 phút hoặc lớn hơn 6 phút?

Bài tập 4.7 Gọi X là tuổi thọ của con người. Một công trình nghiên cứu cho biết hàm
mật độ của X là
 2
cx (100 − x)2 khi 0 ≤ x ≤ 100,
f (x) =
0 khi x < 0 hay x > 100.

a. Xác định hằng số c.

b. Tính trung bình và phương sai của X.

c. Tính xác suất của một người có tuổi thọ ≥ 60.

d. Tính xác suất của một người có tuổi thọ ≥ 60, biết rằng người đó hiện nay đã 50
tuổi.

(Đs: 3.10−9 ; 50, 2500/7; 0.31744; 0.63548)

Bài tập 4.8 Một giáo sư đại học không bao giờ kết thúc bài giảng của mình trước khi
hết giờ và luôn hoàn thành bài giảng của mình trong vòng 2 phút sau giờ học. Cho X
là thời gian trôi qua giữa thời điểm hết tiết học và kết thúc bài giảng của giáo sư. Giả
sử hàm mật độ của X là:

kx2 khi 0 ≤ x ≤ 2,
f (x) =
0 chỗ khác.

a. Tìm k và vẽ hàm mật độ tương ứng.

b. Hãy tính xác suất bài giảng kết thúc trong vòng 1 phút sau khi giờ học kết thúc.

c. Hãy tính xác suất bài giảng tiếp tục diễn ra sau khi giờ học kết thúc từ 60s tới
90s.

d. Xác suất mà bài giảng tiếp tục trong ít nhất 90s ngoài giờ kết thúc là bao nhiêu?
45

Bài tập 4.9 Cho X là biến ngẫu nhiên liên tục với hàm phân phối tích lũy


 0 khi x ≤ 0,
 x 4

F (x) = 1 + ln khi 0 < x < 4,

 4 x

1 khi x ≥ 4.

(Hàm phân phối tích lũy này được đề xuất trong bài báo “Variability in Measured
BedloadTransport Rates (Water Resources Bull., 1985: 39–48)” được xem như mô hình
cho biến ngẫu nhiên về thủy văn. Hãy tính

a. P(X ≤ 1)? b. P(1 ≤ X ≤ 3)? c. Hàm mật độ của X?

Bài tập 4.10 Cho hàm phân phối tích lũy của biến ngẫu nhiên X trong Bài tập 4.2 là:


 0 khi x< −2, 

1 3 x3
F (x) = + 4x − khi − 2 ≤ x < 2,
 2 32
 3

1 khi x ≥ 2,
a. Tính P(X < 0). b. Tính P(−1 < X < 1). c. Tính P(X > 0.5).

d. Kiểm tra lại hàm mật độ f (x) là đạo hàm của F ′ (x).

e. Chứng minh rằng: µ = 0.

Bài tập 4.11 Cho X là một biến ngẫu nhiên có hàm phân phối tích lũy như sau:


 0 khi x < 0,
 2
x
F (x) =
 khi 0 ≤ x < 2,

 14 khi x ≥ 2,

a. Tính P(X ≤ 1). e. Tìm hàm mật độ f (x).


b. Tính P(0.5 ≤ X ≤ 1).
f. Tính E(X).
c. Tính P(X ≥ 1.5).
d. Tìm giá trị trung vị µ? g. Tính V(X) và σX .

h. Tính giá trị kì vọng của biến ngẫu nhiên h(X) = X 2 .

Bài tập 4.12 Trong bài báo: “Modeling Sediment and Water Column Interactions for
Hydrophobic Pollutant (Water Research, 1984: 1169–1174)” đề xuất phân bố đồng đều
trên khoảng (7.5, 20) làm mô hình cho độ sâu (cm) của lớp sinh học trong trầm tích ở
một khu vực nhất định.

a. Tính trung bình và phương sai của độ sâu.


46 4.1. Khái niệm chung

b. Tính hàm phân phối tích lũy của độ sâu.

c. Xác suất quan sát độ sâu tối đa là 10? Từ 10 đến 15?

d. Xác suất mà độ sâu quan sát được trong phạm vi 1 lần độ lệch chuẩn của giá trị
trung bình là bao nhiêu? Trong vòng 2 lần độ lệch chuẩn?

Bài tập 4.13 Gọi X là lượng không gian bị chiếm bởi một văn kiện được đặt trong
một thùng container loại 1 f t3 . Hàm mật độ xác suất của X là:

90x8 (1 − x) khi 0 < x < 1,
f (x) =
0 chỗ khác.

a. Vẽ hàm mật độ của X. Tìm hàm phân phối tích lũy của X và vẽ hàm này.

b. Tìm P(X ≤ 0.5)? So sánh với F (0.5).

c. Sử dụng kết quả từ câu a tính xác suất P(0.25 < X ≤ 0.5). Kết quả có khác với
P(0.25 ≤ X ≤ 0.5).

d. Hãy tìm vị trí của x khi xác suất đạt 75%.

e. Tính E(X) và σX .

f. Hãy tính xác suất khi X lớn hơn một lần độ lệch chuẩn so với giá trị trung bình.

Bài tập 4.14 Bài viết “A Model of Pedestrians’ Waiting Times for Street Crossings at
Signalized Intersections (Transportation Research, 2013: 17–28)” gợi ý rằng trong một
số trường hợp, phân phối của thời gian chờ X có thể được mô hình hóa bằng hàm mật
độ sau: (
θ
(1 − x/τ )θ−1 khi 0 ≤ x < τ,
f (x; θ, τ ) = τ
0 chỗ khác.

a. Vẽ hàm mật độ của X khi τ = 80 và θ = 4, 1 và 0.5 và nhận xét đồ thị của chúng.

b. Tìm hàm phân phối tích lũy của X.

c. Tìm giá trị trung vị của thời gian chờ.

d. Với θ = 4 và τ = 80 hãy tính P(50 ≤ X ≤ 70)

Bài tập 4.15 Gọi X biểu thị ứng suất rung (với đơn vị psi) trên lưỡi tuabin gió ở
tốc độ gió cụ thể trong đường hầm gió. Bài báo “Blade Fatigue Life Assessment with
Application to VAWTS” (J. of Solar Energy Engr., 1982: 107–111)” đề xuất phân phối
Rayleigh, với hàm mật độ:
( x
e−x /(2θ ) khi x > 0,
2 2

f (x; θ) = θ 2
0 chỗ khác.
là mô hình cho phân phối của X.
47

a. Kiểm tra tính hợp lí của hàm f (x; θ).

b. Giả sử θ = 100 (một giá trị được đề xuất bằng một đồ thị có trong bài báo). Tính
xác suất X nhiều nhất là 200? Ít hơn 200? Nhiều hơn 200?

c. Tính xác suất X nằm giữa 100 và 200 (vẫn với giả thiết về θ như trên).

d. Tính hàm P(X ≤ x).

Bài tập 4.16 ∗ Một biến ngẫu nhiên liên tục X có hàm phân phối

f (x) = 4xe−2x , x > 0.

a. Tìm hàm gây moment MX (t). b. Tính trung bình và phương sai của X.

Bài tập 4.17 ∗ Cho biến ngẫu nhiên đều liên tục X có hàm mật độ

1
f (x) = , α ≤ x ≤ β.
β−α
etβ −etα
a. Chứng minh hàm gây moment của X là MX (t) = t(β−α) .

b. Sử dụng MX (t) tính trung bình và phương sai của X.

Bài tập 4.18 ∗ Cho biến ngẫu nhiên có phân phối mũ X có hàm mật độ

f (x) = λe−λx , x > 0.



t −1
a. Chứng minh hàm gây moment của X là MX (t) = 1 − λ .

b. Sử dụng MX (t) tính trung bình và phương sai của X.

Bài tập 4.19 ∗ Cho biến ngẫu nhiên có phân phối gamma X có hàm mật độ

λ
f (x) = (λx)r−1 e−λx , x > 0,
Γ(r)
R +∞
trong đó hàm Gamma được tính Γ(r) = 0 xr−1 e−x dx.

t −r
a. Chứng minh hàm gây moment của X là MX (t) = 1 − λ .

b. Sử dụng MX (t) tính trung bình và phương sai của X.

Bài tập 4.20 ∗ Cho biến số ngẫu nhiên X có hàm mật độ


 1 −λ
x
λe khi x > 0,
f (x) =
0 khi x ≤ 0.

với λ > 0.
48 4.2. Phân phối chuẩn

a. Tính trung bình và phương sai.

b. Tìm hàm đặc trưng M (t). Dùng hàm đặc trưng, tính lại trung bình và phương
sai σ 2 .

Bài tập 4.21 Cho biến ngẫu nhiên có phân phối chi bình phương với k bậc tự do có
hàm gây moment M (t) = (1 − 2t) − k/2. Giả sử X và Y là hai biến ngẫu nhiên có phân
phối chi bình phương với k1 và k2 là bậc tự do. Tìm phân phối của Z = X + Y ?

4.2 Phân phối chuẩn

Định nghĩa 4.3 Phân phối chuẩn X ∼ N (µ, σ 2 )


Biến ngẫu nhiên X được gọi là có phân phối chuẩn nếu hàm mật độ xác suất có dạng

1 (x−µ)2
f (x) = √ e− 2σ2 ,
σ 2π

trong đó µ = E(X) và σ 2 = V(X). Đặc biệt, nếu µ = 0 và σ 2 = 1 thì ta gọi Z là biến


ngẫu nhiên có phân phối chuẩn tắc và đặt Φ là hàm phân phối tích lũy có dạng

Φ(z) = P(Z ≤ z).

Hàm mật độ của một số phân phối chuẩn:

Nhận xét đồ thị hàm mật độ của phân phối chuẩn

1. Đồ thị có dạng hình chuông, hai đuôi tiệm cận với trục hoành.

2. Đồ thị đối xứng qua đường thẳng x = µ và đạt giá trị cực đại tại x = µ.

3. Khi giá trị σ càng nhỏ thì bề rộng càng hẹp và giá trị lớn nhất càng lớn.

Hình mô tả qui tắc 3σ


49

Định lý 4.1 (Chuẩn tắc hóa một phân phối chuẩn)


Cho trước X ∼ N (µ, σ 2 ), ta đặt Z = X−µ
σ thì Z ∼ N (0, 1). Khi đó, ta có thể tính xác
suất  
X −µ x−µ
P(X ≤ x) = P ≤ = P(Z ≤ z) = Φ(z),
σ σ
với z = (x − µ)/σ được gọi là “z-value” (giá trị tới hạn).

Code R 4.2 Sử dụng các lệnh dnorm, pnorm, qnorm, rnorm để tính các bài tập.

Bài tập 4.22 Sử dụng bảng phân phối chuẩn tắc hoặc máy tính, vẽ và tính các xác
suất sau

a. P(Z < 1.32) c. P(Z > 1.45) e. P(−2.34 < Z < 1.76)
b. P(Z < 3) d. P(Z > −2.15)

Bài tập 4.23 Sử dụng bảng phân phối chuẩn tắc hoặc máy tính, vẽ và tính các xác
suất sau

a. P(−1 < Z < 1) c. P(−3 < Z < 3) e. P(0 < Z < 1)


b. P(−2 < Z < 2) d. P(Z > 3)

Bài tập 4.24 Sử dụng bảng phân phối chuẩn tắc hoặc máy tính, vẽ và tính các z-value
nếu biết

a. P(Z < z) = 0.9 c. P(Z > z) = 0.1 e. P(−1.24 < Z < z) = 0.8
b. P(Z < z) = 0.5 d. P(Z > z) = 0.9

Bài tập 4.25 Sử dụng bảng phân phối chuẩn tắc hoặc máy tính, tính các z-value nếu
biết
50 4.2. Phân phối chuẩn

a. P(−z < Z < z) = 0.95 c. P(−z < Z < z) = 0.68

b. P(−z < Z < z) = 0.99 d. P(−z < Z < z) = 0.9973

Bài tập 4.26 Cho X là biến ngẫu nhiên phân phối chuẩn với trung bình 10 và phương
sai 2. Xác định

a. P(X < 13) c. P(6 < X < 14) e. P(−2 < X < 8)
b. P(X > 9) d. P(2 < X < 4)

Bài tập 4.27 Cho X là biến ngẫu nhiên phân phối chuẩn với trung bình 10 và phương
sai 2. Xác định giá trị của x thỏa

a. P(X > x) = 0.5 d. P(−x < X − 10 < x) = 0.95


b. P(X > x) = 0.95
c. P(x < X < 10) = 0.2 e. P(−x < X − 10 < x) = 0.99

Bài tập 4.28 Trọng lượng X (tính bằng gam) một loại trái cây có phân phối chuẩn với
trung bình 500 gam và phương sai 16 gam2 . Trái cây thu hoạch được phân loại theo
trọng lượng như sau:

. Loại 1: trên 505 gam . Loại 2: từ 495 − 505 gam . Loại 3: dưới 495 gam

Tính tỷ lệ mỗi loại. (Đs: 0.10565; 0.7887; 0.10565)

Bài tập 4.29 Cường độ nén của các mẫu xi măng có thể được mô hình hóa bởi một
phân bố chuẩn với giá trị trung bình 6000 kg/cm2 và độ lệch chuẩn là 100 kg/cm2 .

a. Xác suất để cường độ nén của mẫu nhỏ hơn 6250 kg/cm2 .

b. Xác suất để cường độ nén của mẫu trong khoảng 5800 − 5900 kg/cm2 .

c. Độ nén là bao nhiêu để có thể chiếm ít nhất 95% mẫu.

(Đs: 0.99379; 0.13591; 5835)

Bài tập 4.30 Thời gian cho đến khi cần sạc lại pin cho một máy tính xách tay trong
điều kiện bình thường là phân phối chuẩn với trung bình 260 phút và độ lệch chuẩn là
50 phút.

a. Xác suất pin sử dụng kéo dài hơn bốn giờ là bao nhiêu?

b. Xác định thời gian sử dụng pin tại những giá trị phân vị, là giá trị của z sao cho
xác suất P(Z < z) đạt 25% và 75%?

c. Xác định thời gian sử dụng pin tương ứng với xác suất ít nhất 0.95.
51

Bài tập 4.31 Cholesterol (chất béo) là một phần quan trọng của lớp màng ngoài tế
bào trong cơ thể của động vật. Giới hạn bình thường của nó đối với người lớn là 120 −
240mg/dl. Viện Thực phẩm và Dinh dưỡng của Philippines nhận thấy rằng tổng mức
cholesterol ở người trưởng thành Philippines có trung bình là 159.2mg/dl và 84.1% người
trưởng thành có mức cholesterol dưới 200mg/dl (theo http://www.fnri.dost.gov.ph/).
Giả sử tổng mức cholesterol có phân phối chuẩn.

a. Xác định độ lệch chuẩn của phân phối trên (sử dụng dạng chuẩn hóa).

b. Tìm các phân vị của phân phối.

c. Mức cholesterol là bao nhiêu thì chiếm ít nhất 90% dân số.

d. Một người trưởng thành được coi như có nguy cơ mắc bệnh nếu lượng cholesterol
cao hơn hơn mức trung bình một lượng bằng với độ lệch chuẩn hoặc thấp hơn
mức trung bình hai lần độ lệch chuẩn. Xác định tỉ lệ phần trăm dân số mắc nguy
cơ này.

e. Một người trưởng thành được coi như có nguy cơ cao mắc bệnh nếu lượng choles-
terol cao hơn mức trung bình hai lần độ lệch chuẩn. Xác định tỉ lệ phần trăm
dân số mắc nguy cơ này.

Bài tập 4.32 Đường kính của một chi tiết máy do một máy tiện tự động sản xuất có
phân phối chuẩn với trung bình 0.001mm và độ lệch chuẩn 0.05mm. Chi tiết máy được
xem là đạt yêu cầu nếu đường kính không sai quá 0.1mm.

a. Tính tỷ lệ sản phẩm đạt yêu cầu.

b. Lấy ngẫu nhiên 3 sản phẩm. Tính xác suất có ít nhất một sản phẩm đạt yêu cầu.
(hd: sử dụng kết quả câu 1 và phân phối nhị thức)

4.3 Phân phối chuẩn xấp xỉ phân phối nhị thức và phân phối Poisson
52 4.3. Phân phối chuẩn xấp xỉ phân phối nhị thức và phân phối Poisson

Định lý 4.2
i. Cho X ∼ B(n, p) thì biến ngẫu nhiên Z = √X−np được xấp xỉ bởi phân phối
np(1−p)
chuẩn tắc đủ tốt khi np > 5 và n(1 − p) > 5. Khi đó, ta sử dụng hiệu chỉnh liên
tục (continuity correction) để tính xác suất
!
x + 0.5 − np
P(X ≤ x) = P(X ≤ x + 0.5) ∼ =P Z≤ p ,
np(1 − p)
!
x − 0.5 − np
P(X ≥ x) = P(X ≥ x − 0.5) ∼ =P Z≥ p .
np(1 − p)

ii. Cho X ∼ P (λ) thì biến ngẫu nhiên Z = X−λ



λ
được xấp xỉ bởi phân phối chuẩn
tắc đủ tốt khi λ > 5. Khi đó, ta sử dụng công thức hiệu chỉnh liên tục tương tự
như trên để tính xác suất.

Bài tập 4.33 Giả sử X có phân phối nhị thức với n = 200 và p = 0.4. Hãy xấp xỉ xác
suất

a. P(X ≤ 70) b. P(70 ≤ X ≤ 90) c. P(X = 80)

Hướng dẫn: sử dụng công thức hiệu chỉnh liên tục P(X = 80) = P(80 ≤ X ≤ 80) =
P(79.5 ≤ X ≤ 80.5).
(Đs: 0.0853; 0.8293; 0.0575)

Bài tập 4.34 Giả sử rằng X có phân bố Poisson với trung bình là 64. Ước tính gần
đúng các xác suất sau:

a. P(X > 72) b. P(X < 64) c. P(60 < X ≤ 68)

(Đs: 0.1446; 0.4761; 0.3823)

Bài tập 4.35 Giả sử X có phân phối Poisson với λ = 6.

a. Tính chính xác xác suất X nhỏ hơn 4.


53

b. Sử dụng cách xấp xỉ để tính xác suất trên và so sánh kết quả.

c. Xấp xỉ xác suất để 8 < X < 12. Tính bằng hai cách.

Bài tập 4.36 Trong một kênh truyền thông kỹ thuật số, giả sử rằng số lượng bit nhận
được có lỗi được mô hình hóa bởi một biến ngẫu nhiên nhị thức và giả định rằng xác
suất mà một bit được nhận theo lỗi là 10−5 . Nếu 16 triệu bit được truyền đi, xác suất
xảy ra là ít hơn hoặc bằng 150 là bao nhiêu? Nêu khó khăn trong việc tính xác suất
bằng cong thức phân phối nhị thức và sử dụng phân phối chuẩn để tính.
(Đs: 0.227)

Bài tập 4.37 Giả sử rằng số lượng các hạt amiăng trong một mét vuông trên bề mặt
tuân theo phân bố Poisson với giá trị trung bình là 1000. Nếu phân tích một mét bụi
bình phương, xác suất nào có thể tìm thấy ít hơn hoặc bằng 950 hạt bằng công thức
phân phối Poisson và phân phối chuẩn? Nêu thuận lợi và khó khăn.
(Đs: 0.058)

Bài tập 4.38 Có 49,7 triệu người bị một số bệnh khuyết tật sống ở Hoa Kỳ vào năm
2000. Trong đó chiếm 19.3% từ năm tuổi trở lên (http: // factfinder. Census.gov). Một
mẫu 1000 người được chọn ngẫu nhiên.

1. Ước tính xác suất gần đúng để có hơn 200 người trong mẫu có bệnh khuyết tật.

2. Ước tính xác suất gần đúng để có khoảng từ 180 đến 300 người trong mẫu có
bệnh khuyết tật.

(Đs: 0.2743; 0.8413. Chú ý: n = 1000, p = 19.3%.)

Bài tập 4.39 Một sản phẩm điện tử văn phòng chứa 5000 linh kiện điện tử. Giả sử
rằng xác suất mà mỗi thành phần hoạt động mà không có hư hỏng trong thời gian sử
dụng hữu ích của sản phẩm là 0.999 và giả định rằng các thành phần hoạt động một
cách độc lập. Xấp xỉ xác suất có nhiều hơn hoặc bằng 10 trong số 5000 thành phần
ban đầu bị hư hỏng thời gian sử dụng hữu ích của sản phẩm.
(Đs: 0.022)

Bài tập 4.40 Giả sử rằng số lượng các hạt amiăng trong một centimet vuông trên bề
mặt tuân theo phân bố Poisson với giá trị trung bình là 1000. Xác suất để trong 10
centimet vuông có nhiều hơn 10000 hạt.
(Đs: 0.5)

Bài tập 4.41 Số lần truy cập vào một trang web được giả định tuân theo phân phối
Poisson với giá trị trung bình là 10.000 mỗi ngày. Xấp xỉ từng điều sau đây:
a. Xác suất để có nhiều hơn 20000 lượt truy cập trong một ngày.

b. Xác suất để có nhỏ hơn 9900 lượt truy cập trong một ngày.
54 4.3. Phân phối chuẩn xấp xỉ phân phối nhị thức và phân phối Poisson

c. Số lượt truy cập để xác suất có ít nhất 0.01.

d. Xấp xỉ số ngày trong năm (365 ngày) có nhiều hơn 10200 lượt truy cập.

(Đs: 0; 0.156; 13300; 8.3 ngày/năm)


55
5. PHÂN
56 PHỐI XÁC SUẤT ĐỒNG THỜI

5.1 Lý thuyết 56

5.2 Bài tập 58

5.1 Lý thuyết

Định nghĩa 5.1 Hàm trọng lượng xác suất đồng thời (joint probability mass function)
của hai biến ngẫu nhiên rời rạc X và Y , kí hiệu là fXY (x, y), thỏa

i.
fXY (x, y) ≥ 0,

ii. XX
fXY (x, y) = 1,
X Y

iii.
fXY (x, y) = P (X = x; Y = y) .

Hàm phân phối xác suất đồng thời ( joint probability density function) của hai biến
ngẫu nhiên liên tục X và Y , kí hiệu là fXY (x, y), thỏa

i.
fXY (x, y) ≥ 0,

ii. Z +∞ Z +∞
fXY (x, y) = 1,
−∞ −∞

iii. Với R ⊂ R2 ta có x
P ((X, Y ) ∈ R) = fXY (x, y)dxdy.
R

Định nghĩa 5.2 Nếu hàm phân phối xác suất đồng thời của hai biến ngẫu nhiên liên tục
X và Y là fXY (x, y) thì hàm phân phối xác suất thành phần hay phân phối lề (marginal
57

probability distribution) của X và Y được định nghĩa


Z +∞ Z +∞
fX (x) = fXY (x, y)dy và fY (y) = fXY (x, y)dx.
−∞ −∞

Định nghĩa 5.3 Cho hai biến ngẫu nhiên liên tục X và Y có hàm phân phối xác suất
đồng thời là fXY (x, y), hàm phân phối xác suất có điều kiện (conditional probability
density) của Y với thông tin X = x là

fXY (x, y)
fY |x (y) = với fX (x) > 0.
fX (x)

Tính chất: vì hàm phân phối xác suất có điều kiện fY |x (y) cũng là một hàm phân
phối xác suất nên nó cũng thỏa

i. fY |x (y) ≥ 0,
R
ii. fY |x (y)dy = 1,
R
iii. P (Y ∈ B|X = x) = B fY |x (y)dy với B là tập con bất kì trong tập giá trị của Y .

Định nghĩa 5.4 Trung bình có điều kiện (conditional mean) và phương sai có điều kiện
(conditional variance) của Y với thông tin X = x lần lượt được kí hiệu µY |x , σY2 |x và
định nghĩa
Z Z
µY |x = yfY |x (y)dy, σY |x = y 2 fY |x (y)dy − µ2Y |x .
2

Định lý 5.1 Cho X và Y là hai biến ngẫu nhiên, những phát biểu sau là tương đương:

i. fXY (x, y) = fX (x)fY (y) với mọi x, y.

ii. fY |x (y) = fY (y) với x, y và fX (x) > 0.

iii. fX|y (x) = fX (x) với x, y và fY (y) > 0.

iv. X và Y là hai biến ngẫu nhiên độc lập.

v. P (X ∈ A, Y ∈ B) = P (X ∈ A) P (Y ∈ B) với A, B lần lượt là các tập con bất kì


trong tập giá trị của X, Y .

Định nghĩa 5.5


i. Kì vọng của một hàm phụ thuộc hai biến ngẫu nhiên được định nghĩa
 XX
 h(x, y)fXY (x, y), X, Y rời rạc,
Z Z
Eh(X, Y ) =
 h(x, y)fXY (x, y)dxdy, X, Y liên tục

ii. Hiệp phương sai (covariance) giữa hai biến ngẫu nhiên X và Y , kí hiệu là cov(X, Y )
58 5.2. Bài tập

hay σXY , được định nghĩa

σXY = E(X − µX )(Y − µY ) = E(XY ) − µX µY .

iii. Tương quan (correlation) giữa hai biến ngẫu nhiên X và Y , kí hiệu là ρXY , được
định nghĩa
cov(X, Y ) σXY
ρXY = √ = .
VarX.VarY σX σY
Ta dễ thấy −1 ≤ ρXY ≤ 1. Hơn nữa, nếu hai biến ngẫu nhiên X và Y độc lập thì
σXY = ρXY = 0.

5.2 Bài tập

Bài tập 5.1 Cho vectơ ngẫu nhiên có hàm mật độ



c(x + y)2 khi (x, y) ∈ [0, 1] × [0, 1] ,
f (x, y) =
0 khi (x.y) ∈/ [0, 1] × [0, 1] .

a. Tìm các hàm mật độ thành phần fX (x), fY (y).


2 , σ 2 và hệ số tương quan ρ
b. Tìm các trung bình µX , µY , các phương sai σX Y X,Y .

(Đs: c = 6/7; 9/14, 9/14, 199/2940, 199/2940, -0.127)

Bài tập 5.2 Tính hiệp phương sai và tương quan nếu biết hàm mật độ xác suất đồng
thời như sau

x 1 1 2 4
y 3 4 5 6
fXY (x, y) 1/8 1/4 1/2 1/8
59

Bài tập 5.3 Tính hiệp phương sai và tương quan nếu biết hàm mật độ xác suất đồng
thời như sau

x -1 -0.5 0.5 1
y -2 -1 1 2
fXY (x, y) 1/8 1/4 1/2 1/8

Bài tập 5.4 Xác định hằng số c, hiệp phương sai và tương quan với trọng lượng xác
suất đồng thời fXY (x, y) = c(x + y) với x = 1, 2, 3 và y = 1, 2, 3.

Bài tập 5.5 Xác định hằng số c, hiệp phương sai và tương quan với trọng lượng xác
suất đồng thời fXY (x, y) = cxy với 0 < x < 3 và 0 < y < x.

Bài tập 5.6 Xác định hằng số c, hiệp phương sai và tương quan với trọng lượng xác
suất đồng thời fXY (x, y) = c với 0 < x < 5, y > 0 và x − 1 < y < x + 1.

Bài tập 5.7 Xác định hằng số c, hiệp phương sai và tương quan với trọng lượng xác
suất đồng thời fXY (x, y) = e−x−y với x > 0, y > 0.

Bài tập 5.8 Xác định hằng số c, hiệp phương sai và tương quan với trọng lượng xác
suất đồng thời fXY (x, y) = 6 × 10−6 e−0.001x−0.002y với x > 0, y > x.

Bài tập 5.9 Cho hàm phân phối xác suất đồng thời như sau

x -1 0 0 1
y 0 -1 1 0
fXY (x, y) 1/4 1/4 1/4 1/4

Chứng minh rằng tương quan giữa X và Y bằng 0 nhưng X và Y không độc lập.

Bài tập 5.10 Giả sử X và Y là hai biến ngẫu nhiên liên tục và độc lập. Chứng minh
σXY = 0.

Bài tập 5.11 Cho X và Y có hệ số tương quan là ρ. Với những hằng số a, b, c và d,


hãy tính U = aX + b và V = cY + d.
6. THỐNG
60 KÊ MÔ TẢ

6.1 Mộ số khái niệm trong thống kê 60

6.2 Mô tả dữ liệu bằng đặc trưng số 60

6.3 Mô tả dữ liệu bằng đồ thị 62


6.3.1 Lược đồ Stem-Leaf
6.3.2 Đồ thị histogram
6.3.3 Đồ thị hộp (box plot)
6.3.4 Đồ thị xác suất

6.4 Bài tập 65

6.1 Mộ số khái niệm trong thống kê

Định nghĩa 6.1

i. Tổng thể là tập hợp tất cả các phép đo mà người thu thập mẫu quan tâm.

ii. Mẫu là tập hợp con bất kỳ của các phép đo được chọn từ tổng thể.

iii. Thống kê mô tả là phương pháp tóm tắt các thông tin có được từ mẫu thông qua
các bảng biểu, đồ thị và các con số đặc trưng.

iv. Thống kê suy diễn là một quá trình tính toán thông qua dữ liệu từ mẫu để ước
tính và kiểm tra một giả thuyết nào đó của tổng thể.

6.2 Mô tả dữ liệu bằng đặc trưng số

Định nghĩa 6.2 Tham số đặc trưng thống kê mẫu:

i. Trung bình mẫu (sample mean): cho n giá trị quan trắc x1 , · · · , xn ta có

1X
n
x= xi .
n
i=1

ii. Phương sai mẫu (sample variance): cho n giá trị quan trắc x1 , · · · , xn ta có

1 X
n
2
s = (xi − x)2 .
n−1
i=1

iii. Độ lệch chuẩn mẫu (sample standard deviation): là căn bậc hai của phương sai.
61

iv. Trung vị của bộ dữ liệu quan trắc là giá trị chính giữa khi sắp xếp dữ liệu lại theo
thứ tự từ giá trị nhỏ nhất tới giá trị lớn nhất.

v. Khoảng mẫu (sample range): là độ rộng của dữ liệu và được tính

r = max{xi } − min{xi }.

vi. Phân vị p% của bộ n quan trắc được sắp xếp giá trị thứ tự tăng dần là giá trị mà
tại đó có p% giá trị trong bộ quan trắc nhỏ hơn và có (100 − p)% giá trị trong bộ
quan trắc lớn hơn. Một số phân vị đặc biệt: phân vị dưới (25%), trung vị (50%)
và phân vị trên (75%).

vii. Khoảng tứ phân vị là khoảng giữa phân vị trên và phân vị dưới

IQR = giá trị phân vị 75% − giá trị phân vị 25% (6.1)

viii. Mod của một bộ dữ liệu quan trắc là giá trị quan trắc có tần suất cao nhất.

ix. Hệ số biên thiên đo đạc sự phân tán của dữ liệu so với độ lớn của trung bình tổng
thể. Nếu tổng thể có trung bình là µ và độ lệch chuẩn là σ thì hệ số biến thiên
được tính
σ
CV = (6.2)
|µ|
và sử dụng trung bình mẫu y và độ lệch chuẩn mẫu s để ước lượng CV là s/|y|.

Code R 6.1 Tính những tham số đặc trưng thống kê của số liệu:

R > x <- runif(100)


R > mean(x); var(x); sd(x);
R > min(x); max(x); range(x)
R > quantile(x); median(x)
R > quantile(x, 0.9)
R > summary(x) # tìm hiểu về lệnh này
R > install.packages("psych")# tính moment cấp 3 và 4
R > library("psych")
R > skew(x); kurtosi(x)

Hãy tìm hiểu để giải thích

R > dataset <- c( -15,2,3,4,5,6,7,8,9,12 )


R > mean( x = dataset )
R > mean( x = dataset, trim = .1)
R > mean( x = afl.margins, trim = .05)

Đặc biệt, muốn tính mod ta sử dụng đoạn code sau:

R > install.packages("lsr")
R > library("lsr")
R > print(afl.margins)
R > table( afl.finalists )
62 6.3. Mô tả dữ liệu bằng đồ thị

R > modeOf( x = afl.finalists )


R > maxFreq( x = afl.finalists )
R > modeOf( x = afl.margins )
R > maxFreq( x = afl.margins )

6.3 Mô tả dữ liệu bằng đồ thị

6.3.1 Lược đồ Stem-Leaf

Định nghĩa 6.3 Giả sử cho trước một bộ dữ liệu x1 , · · · , xn trong đó mỗi số xi gồm ít
nhất hai chữ số. Lược đồ được xây dựng theo các bước sau:

i. Chia mỗi giá trị của số xi chia thành hai phần: phần stem bao gồm một hay vài
chữ số đầu, phần leaf bao gồm những chữ số còn lại.

ii. Liệt kê tất cả những giá trị stem thành một cột.

iii. Ghi nhận lại các giá trị leaf trong các giá trị xi bên cạnh giá trị stem của nó.

iv. Viết ghi chú giải thích cho stem và leaf.

Code R 6.2 Vẽ biểu đồ Stem-Leaf ta sử dụng đoạn code sau:

R > install.packages("aplpack")
R > library("aplpack")
R > stem.leaf(rivers)
R > stem.leaf(precip)

6.3.2 Đồ thị histogram

Định nghĩa 6.4 Đồ thị histogram hay phân phối tần suất (frequency distribution) được
xây dựng theo các bước sau:

i. Ghi nhãn và chia độ lớn bin theo trục hoành theo một tỉ lệ nhất định chọn trước.

ii. Lập bảng tuần suất dạng khoảng tương ứng với các bin đã tính trong bước trên.

iii. Ghi nhãn và chia độ lớn trục tung theo giá trị tần suất của quan trắc.

iv. Trên mỗi bin, ta vẽ hình chữ nhật với qui luật: chiều cao của hình chữ nhật =
tần suất quan trắc của bin : bề rộng của mỗi bin (diện tích của hình chữ nhật
chính là xác suất của bin).

Ví dụ 6.1 Một số dạng của đồ thị histogram:


63

Code R 6.3 Vẽ histogram

R > x <- rnorm(50000)


R > hist(x)
R > hist(rivers)

6.3.3 Đồ thị hộp (box plot)

Định nghĩa 6.5 Đồ thị hộp (box plot) được xây dựng theo các bước sau:

i. Xác định phân vị dưới là giá trị nhỏ nhất của dữ liệu.

ii. Xác định phân vị thứ hai là giá trị trung vị (median) của dữ liệu.

iii. Xác định phân vị trên là giá trị lớn nhất của dữ liệu.

iv. Vẽ hình chữ nhật và đoạn thẳng như hình vẽ sau biết hai đoạn thẳng có độ dài
gấp 1.5 lần chiều dài mỗi hình chữ nhật nhỏ.

Code R 6.4 Vẽ box-plot: chạy 2 lệnh sau rồi giải thích kết quả

R > boxplot.stats(rivers)
R > boxplot(rivers)
R > boxplot.stats(rivers)$out

6.3.4 Đồ thị xác suất

Định nghĩa 6.6 Đồ thị xác suất giả sử cho trước một bộ dữ liệu x1 , · · · , xn , ta thực
hiện các bước sau:

i. Sắp xếp lại dữ liệu theo thứ tự tăng dần x(1) , · · · , x(n) .

ii. Tại mỗi giá trị x(i) ta tính tần suất tích lũy (i − 0.5)/10.
64 6.3. Mô tả dữ liệu bằng đồ thị

iii. Nếu phân phối giả định được mô tả đúng bởi dữ liệu thì những điểm xi ta vẽ sẽ
giảm xấp xỉ như đường thẳng. Ngược lại thì ta kết luận phân phối giả định không
được mô tả đúng thông qua quan trắc.

Code R 6.5 Vẽ đồ thị xác suất theo đoạn code sau

R > # Q-Q plots


R > par(mfrow=c(1,2))
R > # create sample data - có thể thay bằng dữ liệu người dùng
R > x <- rt(100, df=3)
R > # normal fit
R > qqnorm(x); qqline(x)
R > # t(3Df) fit
R > qqplot(rt(1000,df=3), x, main="t(3) Q-Q Plot",
+ > ylab="Sample Quantiles")
R > abline(0,1)

Code R 6.6 Vẽ đồ thị xác suất theo đoạn code sau

R > y <- rchisq(500, df = 3)


## Q-Q plot for Chi^2 data against true theoretical distribution:
R > qqplot(qchisq(ppoints(500), df = 3), y,
main = expression("Q-Q plot for" ~~ {chi^2}[nu == 3]))
R > qqline(y, distribution = function(p) qchisq(p, df = 3),
probs = c(0.1, 0.6), col = 2)
R > mtext("qqline(*, dist = qchisq(., df=3), prob = c(0.1, 0.6))")

Ví dụ 6.2 Dưới đây là đồ thị xác suất của phân phối chuẩn.

Ngoài ra người ta còn sử dụng đồ thị phân tán (scatter diagram) để giải quyết bài toán
hồi qui.

Code R 6.7

x <- mtcars$wt
y <- mtcars$mpg
# Plot with main and axis titles
65

# Change point shape (pch = 19) and remove frame.


plot(x, y, main = "Main title",
xlab = "X axis title", ylab = "Y axis title",
pch = 19, frame = FALSE)

Code R 6.8 Để xuất ra hình ảnh các đồ thị ta sử dụng:

R > dev.print( device = jpeg,


+ > filename = "thisfile.jpg",
+ > width = 480,
+ > height = 300
+ > )

6.4 Bài tập

Bài tập 6.1 Tám phép đo được thực hiện trên đường kính bên trong của vòng piston
rèn được sử dụng trong một động cơ ô tô. Dữ liệu (tính bằng milimt) là 74.001, 74.003,
74.015, 74.000, 74.005, 74.002, 74.005 và 74.004. Tính trung bình mẫu và độ lệch chuẩn
của mẫu, xây dựng một biểu đồ dấu chấm và nhận xét về dữ liệu

Bài tập 6.2 Bài báo trong tháng 1 năm 1990 của Arizona Trend có bổ sung mô tả
12 khóa học golf “tốt nhất” trong tiểu bang. Các yardages (độ dài) của các khóa học
66 6.4. Bài tập

này như sau: 6981, 7099, 6930, 6992, 7518, 7100, 6935, 7518, 7013, 6800, 7041 và 6890.
Tính giá trị trung bình mẫu và độ lệch chuẩn của mẫu.

Bài tập 6.3 Đo lượng cholesterol (đơn vị mg%) cho một số người, ta được

X (mg%) 150–160 160–170 170–180 180–190 190–200 200–210


Số người 2 4 5 6 4 3

a. Tính trung bình mẫu và độ lệch chuẩn mẫu.

b. Một mẫu thứ nhì Y có 30 người cho trung bình 180mg% và độ lệch chuẩn 16mg%.
Nhập hai mẫu lại, tính trung bình và độ lệch chuẩn của mẫu nhập.

(Đs: 181.25, 14.98; 180.55, 15.49)

Bài tập 6.4 Một bài báo trong Technometrics (1977, Vol. 19, p. 425) trình bày các dữ
liệu sau đây về xếp hạng octane nhiên liệu động cơ của một số hỗn hợp xăng:

88.5 98.8 89.6 92.2 92.7 88.4 87.5 90.9


94.7 88.3 90.4 83.4 87.9 92.6 87.8 89.9
84.3 90.4 91.6 91.0 93.0 93.7 88.3 91.8
90.1 91.2 90.7 88.2 94.4 96.5 89.2 89.7
89.0 90.6 88.6 88.5 90.4 84.3 92.3 92.2
89.8 92.2 88.3 93.3 91.2 93.2 88.9
91.6 87.7 94.2 87.4 86.7 88.6 89.8
90.3 91.1 85.3 91.1 94.2 88.7 92.7
90.0 86.7 90.1 90.5 90.8 92.7 93.3
91.5 93.4 89.3 100.3 90.1 89.3 86.7
89.9 96.1 91.1 87.6 91.8 91.0 91.0

Xây dựng biểu đồ stem-leaf cho dữ liệu trên. Suy ra median (trung vị) và các phân vị.

Bài tập 6.5 Các dữ liệu sau thống kê cho sản lượng trên 90 lô các chất nền gốm mà lớp
phủ kim loại đã được áp dụng bởi quá trình lắng đọng hơi. Xây dựng biểu đồ stem-leaf
67

cho những dữ liệu này. Tính trung bình và phần tư của các dữ liệu này:

94.1 86.1 95.3 84.9 88.8 84.6 94.4 84.1


93.2 90.4 94.1 78.3 86.4 83.6 96.1 83.7
90.6 89.1 97.8 89.6 85.1 85.4 98.0 82.9
91.4 87.3 93.1 90.3 84.0 89.7 85.4 87.3
88.2 84.1 86.4 93.1 93.7 87.6 86.6 86.4
86.1 90.1 87.6 94.6 87.7 85.1 91.7 84.5
95.1 95.2 94.1 96.3 90.6 89.6 87.5
90.0 86.1 92.1 94.7 89.4 90.0 84.2
92.4 94.3 96.4 91.1 88.6 90.1 85.1
87.3 93.2 88.2 92.4 84.1 94.3 90.5
86.6 86.7 86.4 90.6 82.6 97.3 95.6
91.2 83.0 85.0 89.1 83.1 96.8 88.3

Bài tập 6.6 Xây dựng đồ thị histogram cho Bài tập 6.4-6.5.

Bài tập 6.7 “Thời gian bắt lửa lạnh” của một động cơ ô tô đang được nhà sản xuất
xăng điều tra. Các quan trắc sau (tính bằng giây) thu được cho một phương tiện thử
nghiệm: 1.75, 1.92, 2.62, 2.35, 3.09, 3.15, 2.53, 1.91.

a. Tính trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu.

b. Xây dựng biểu đồ box-plot.

Bài tập 6.8 Xây dựng một đồ thị xác suất phân phối chuẩn của dữ liệu đường kính
vòng piston trong Bài tập 6.1. Nó có hợp lý để giả định rằng đường kính vòng piston
có phân phối chuẩn?

Bài tập 6.9 Bên dưới là tuổi thọ, theo giờ, của năm mươi bóng đèn dây tóc 40−watt,
110−watt, được lấy từ các thử nghiệm tuổi thọ bắt buộc:

919 1196 785 1126 936 918


1156 920 948 1067 1092 1162
1170 929 950 905 972 1035
1045 855 1195 1195 1340 1122
938 970 1237 956 1102 1157
978 832 1009 1157 1151 1009
765 958 902 1022 1333 811
1217 1085 896 958 1311 1037
702 923

Xây dựng đồ thị box-plot cho các dữ liệu này.


68 6.4. Bài tập

Bài tập 6.10 Một nhà sản xuất các thành phần điện tử quan tâm đến việc xác định
tuổi thọ của một loại pin. Một mẫu, tính theo giờ, như sau:

123, 116, 122, 110, 175, 126, 125, 111, 118, 117.

a. Tìm trung bình và trung vị mẫu.

b. Đặc điểm nào trong tập dữ liệu này là nguyên nhân của sự khác biệt giữa hai
nhóm?

Bài tập 6.11 Một nhà sản xuất lốp xe muốn xác định đường kính trong của một loại
lốp nào đó. Lý tưởng thì đường kính là 570 mm. Dữ liệu là như sau:

572, 572, 573, 568, 569, 575, 565, 570.

a. Tìm trung bình và trung vị mẫu.

b. Tìm phương sai, độ lệch chuẩn, và miền giá trị mẫu.

c. Sử dụng thống kê được tính ở phần (a) và (b), bạn có thể nhận xét về chất lượng
của lốp xe hay không?

Bài tập 6.12 Một nghiên cứu về tác động của hút thuốc lên giấc ngủ được thực hiện.
Phép đo được quan trắc là thời gian, theo phút, cần để rơi vào giấc ngủ. Các dữ liệu
này là:
Smokers: 69.3 56.0 22.1 47.6
53.2 48.1 52.7 34.4
60.2 43.8 23.2 13.8
Nonsmokers: 28.6 25.1 26.4 34.9
29.8 28.4 38.5 30.2
30.6 31.8 41.6 21.1
36.0 37.9 13.9

a. Tìm trung bình mẫu cho mỗi nhóm. b. Tìm độ lệch chuẩn mẫu cho mỗi nhóm.

c. Vẽ đồ thị phân tán của các tập dữ liệu A và B trên cùng đường thẳng.

d. Nhận xét về loại tác động của việc hút thuốc đến thời gian cần để rơi vào giấc
ngủ.

Bài tập 6.13 Các điểm sau đây thể hiện các điểm thi cuối kỳ của môn thống kê cơ
69

bản:
23 60 79 32 57 74 52 70 82
36 80 77 81 95 41 65 92 85
55 76 52 10 64 75 78 25 80
98 81 67 41 71 83 54 64 72
88 62 74 43 60 78 89 76 84
48 84 90 15 79 34 67 17 82
69 74 63 80 85 61

a. Xây dựng đồ thị stem-leaf cho các điểm kiểm tra với các thân là 1, 2, 3, …, 9.

b. Xây dựng đồ thị tổ chức tần số tương đối, vẽ một ước lượng cho đồ thị của phân
phối, và nhận xét tính lệch của phân phối.

c. Tính trung bình mẫu, trung vị mẫu, và độ lệch chuẩn mẫu.

Bài tập 6.14 Dữ liệu sau trình bày tuổi thọ theo năm, được đo đến phần mười gần
nhất của 30 máy bơm nhiên liệu:

2.0 3.0 0.3 3.3 1.3 0.4


0.2 6.0 5.5 6.5 0.2 2.3
1.5 4.0 5.9 1.8 4.7 0.7
4.5 0.3 1.5 0.5 2.5 5.0
1.0 6.0 5.6 6.0 1.2 0.2

a. Xây dựng đồ thị stem-leaf cho tuổi thọ theo năm của các máy bơm nhiên liệu,
bằng cách dùng số bên trái dấu thập phân là thân cho mỗi quan trắc.

b. Lập phân phối tần số tương đối.

c. Tính trung bình mẫu, miền giá trị mẫu, và độ lệch chuẩn mẫu.

Bài tập 6.15 Dữ liệu sau trình bày tuổi thọ, theo giây, của 50 con ruồi giấm bị phun
một loại thuốc mới trong một thí nghiệm được kiểm soát:

17 20 10 9 23 13 12 19 18 24
12 14 6 9 13 6 7 10 13 7
16 18 8 13 3 32 9 7 10 11
13 7 18 7 10 4 27 19 16 8
7 10 5 14 15 10 9 6 7 15

a. Xây dựng đồ thị thân-và-lá-đôi cho tuổi thọ của ruồi giấm bằng cách dùng các
thân 0⋆, 0·, 1⋆, 1·, 2⋆, 2·, và 3⋆ sao cho các thân được mã hóa bởi các ký hiệu ⋆ và
· được liên hệ, tương ứng, với các lá từ 0 đến 4 và từ 5 đến 9.

b. Lập phân phối tần số tương đối.

c. Xây dựng đồ thị tổ chức tần số tương đối.

d. Tìm trung vị.


70 6.4. Bài tập

Bài tập 6.16 Thời gian mất điện, theo phút, được ghi lại trong bảng sau.

22 18 135 15 90 78 69 98 102
83 55 28 121 120 13 22 124 112
70 66 74 89 103 24 21 112 21
40 98 87 132 115 21 28 43 37
50 96 118 158 74 78 83 93 95

a. Tìm trung bình mẫu và trung vị mẫu của thời gian mất điện.

b. Tìm độ lệch chuẩn mẫu của thời gian mất điện.

Bài tập 6.17 Dữ liệu sau là các số đo về đường kính của đầu đinh tán tính theo 1/00
của một inch.
6.72 6.77 6.82 6.70 6.78 6.70 6.62 6.75
6.66 6.66 6.64 6.76 6.73 6.80 6.72 6.76
6.76 6.68 6.66 6.62 6.72 6.76 6.70 6.78
6.76 6.67 6.70 6.72 6.74 6.81 6.79 6.78
6.66 6.76 6.76 6.72

a. Tính trung bình mẫu và độ lệch chuẩn mẫu.

b. Xây dựng đồ thị tổ chức tần số tương đối của dữ liệu.

c. Nhận xét về việc có hay không một dấu hiệu rõ ràng về việc mẫu đến từ một tổng
thể có phân phối dạng-chuông hay không.
7. ƯỚC LƯỢNG ĐIỂM - PHÂN PHỐI MẪU 71

7.1 Khái niệm tổng quát về ước lượng điểm 71


7.1.1 Phương pháp moment
7.1.2 Phương pháp hợp lí cực đại
7.1.3 Phương pháp Bayesian

7.2 Phân phối mẫu và định lí giới hạn trung tâm 74

7.1 Khái niệm tổng quát về ước lượng điểm

Định nghĩa 7.1

a. Mẫu ngẫu nhiên:


Các biến ngẫu nhiên X1 , · · · , Xn được gọi là mẫu ngẫu nhiên nếu thỏa 2 điều
kiện:

i) các biến ngẫu nhiên là độc lập nhau,


ii) các biến ngẫu nhiên có cùng phân phối xác suất.

b. Thống kê (statistic) là một hàm số của những quan trắc phụ thuộc vào mẫu ngẫu
nhiên.

Nếu X là một biến ngẫu nhiên có hàm mật độ f (x) có một tham số đặc trưng θ chưa biết
và X1 , . . . , Xn là một mẫu ngẫu nhiên với cỡ mẫu n thì X, thống kê Θ̂ = h(X1 , . . . , Xn ) được
gọi là ước lượng điểm của θ. Ta có định nghĩa sau:

Định nghĩa 7.2 Giá trị ước lượng điểm (point estimate) của tham số θ một tổng thể
là một giá trị số θ̂ của thống kê Θ̂. Thống kê Θ̂ được gọi là ước lượng điểm (point
estimator).

Một số ước lượng điểm thường gặp trong khoa học kĩ thuật

Định lý 7.1

a. Ước lượng trung bình của một tổng thể µ̂ = x bằng trung bình mẫu.

b. Ước lượng phương sai của một tổng thể σ̂ 2 = s2 bằng phương sai mẫu.

c. Ước lượng tỉ lệ của một tổng thể trong một nhóm quan tâm p̂ = x/n bằng tỉ lệ
mẫu với x thành công (thất bại) trong n mẫu ngẫu nhiên.
72 7.1. Khái niệm tổng quát về ước lượng điểm

d. Ước lượng sự khác nhau của trung bình hai tổng thể µ̂1 − µ̂2 = x1 − x2 bằng sự
khác nhau của hai trung bình mẫu khi hai mẫu ngẫu nhiên độc lập.

e. Ước lượng sự khác nhau của tỉ lệ hai tổng thể p̂1 − p̂2 = f1 − f2 bằng sự khác
nhau của hai tỉ lệ mẫu khi hai mẫu ngẫu nhiên độc lập.

Để đánh giá độ chính xác của ước lượng, người ta sử dụng các đại lượng sau:

Định nghĩa 7.3 Ước lượng không chệch (unbiased estimator) Θ̂ của tham số θ thỏa

EΘ̂ = θ.

Ngược lại ta gọi là ước lượng chệch (biased estimator).

Định nghĩa 7.4

a. Đại lượng EΘ̂ − θ là độ chệch (bias) của ước lượng Θ̂.

b. Sai số chuẩn (standard error) của một ước lượng Θ̂ là độ lệch chuẩn σΘ̂ =
q
Var(Θ̂). Nếu sai số chuẩn của tham số cần tìm có thể ước lượng thì ta gọi
đó là sai số chuẩn mẫu (estimated standard error) và kí hiệu là σ̂Θ̂ .

c. Sai số trung bình bình phương (mean squared error) của ước lượng Θ̂ cho tham
số θ là đại lượng

MSE(Θ̂) = E(Θ̂ − θ)2 = Var(Θ̂) + (bias)2 .

Định nghĩa 7.5 Ước lượng Θ̂ có sai số trung bình bình phương nhỏ hơn hoặc bằng sai
số trung bình bình phương của tất cả các ước lượng bất kì cho tham số θ tùy ý được
gọi là ước lượng tối ưu (optimal estimator) cho tham số θ.

Sau đây là ba phương pháp chính thường được sử dụng trong ước lượng điểm

7.1.1 Phương pháp moment

Định nghĩa 7.6 Cho X1 , . . . , Xn là một mẫu ngẫu nhiên của tổng thể có hàm mật độ
f . Moment thứPk của tổng thể (population moment) là E(X k ), k ∈ N và moment mẫu
tương ứng 1/n nk=1 Xik , k ∈ N.

Định lý 7.2 Cho X1 , . . . , Xn là một mẫu ngẫu nhiên của tổng thể có hàm mật độ f
với m tham số θ1 , . . . , θm không biết. Ước lượng moment Θ̂1 , . . . , Θ̂m được xây dựng
từ m moment của tổng thể và là nghiệm của m hệ phương trình này.

Bài tập 7.1 Sử dụng phương pháp moment xây dựng ước lượng trong các trường hợp
sau:
73

a. Cho X1 , . . . , Xn là một mẫu ngẫu nhiên của tổng thể có phân phối chuẩn với trung
bình µ, phương sai σ 2 . Biết phân phối chuẩn có EX = µ và EX 2 = µ2 + σ 2 .

b. Cho X1 , . . . , Xn là một mẫu ngẫu nhiên của tổng thể có phân phối Gamma với
hai tham số r và λ. Biết phân phối Gamma có EX = r/λ và EX 2 = r(r + 1)/λ2 .

7.1.2 Phương pháp hợp lí cực đại

Định nghĩa 7.7 Giả sử X là biến ngẫu nhiên ứng với hàm mật độ f (x; θ) với θ là một
tham số chưa biết. Cho x1 , . . . , xn là những giá trị quan trắc với cỡ mẫu n của biến
ngẫu nhiên X. Hàm hợp lí (likelihood function) của mẫu được định nghĩa

L(θ) = f (x1 ; θ) · f (x2 ; θ) · · · f (xn ; θ).

Chú ý hàm hợp lí chỉ là hàm một biến phụ thuộc tham số θ. Khi đó, ước lượng hợp lí
cực đại (maximum likelihood estimator) của θ là giá trị Θ̂MLE làm hàm hợp lí đạt cực
đại.

Bài tập 7.2 Sử dụng phương pháp hợp lí cực đại xây dựng ước lượng trong các trường
hợp sau:
a. Cho X là biến ngẫu nhiên Bernoulli có hàm mật độ
 x
p (1 − p)1−x , x = 1, 2
f (x; p) =
0, chỗ khác

với n mẫu quan trắc x1 , . . . , xn . Hãy ước lượng p.


b. Cho X là biến ngẫu nhiên chuẩn với trung bình µ chưa biết và phương sai σ 2 đã
biết với n mẫu quan trắc x1 , . . . , xn . Hãy ước lượng µ và σ 2 .
c. Cho X là biến ngẫu nhiên chuẩn với trung bình µ và phương sai σ 2 chưa biết với
n mẫu quan trắc x1 , . . . , xn . Hãy ước lượng µ và σ 2 .
d. Cho X là biến ngẫu nhiên mũ với tham số λ với n mẫu quan trắc x1 , . . . , xn . Hãy
ước lượng λ.
e. Cho X là biến ngẫu nhiên Poisson với tham số λ với n mẫu quan trắc x1 , . . . , xn .
Hãy ước lượng λ.
f. Cho X là biến ngẫu nhiên có hàm mật độ

(θ − 1)xθ , 0 ≤ x ≤ 1
f (x; θ) =
0, chỗ khác

với n mẫu quan trắc x1 , . . . , xn . Hãy ước lượng θ.


g. Cho X là biến ngẫu nhiên có hàm mật độ f (x; λ) = λe−λ(x−θ) , x ≥ θ với n mẫu
quan trắc x1 , . . . , xn . Hãy ước lượng λ, θ.
h. Cho X là biến ngẫu nhiên có hàm mật độ f (x; λ) = 1
θ2
xe−x/θ , x ≥ 0, θ > 0 với n
mẫu quan trắc x1 , . . . , xn . Hãy ước lượng θ.
74 7.2. Phân phối mẫu và định lí giới hạn trung tâm

Bài tập 7.3 Cho hàm mật độ f (x) = c(1 + θx), −1 ≤ x ≤ 1.

a. Tìm giá trị của c.

b. Ước lượng moment của tham số θ.

c. Chứng minh rằng θ̂ = 3X là ước lượng không chệch của θ.

d. Tìm ước lượng MLE cho θ.

7.1.3 Phương pháp Bayesian


Phương pháp này sẽ được đề cập ở môn học khác!

7.2 Phân phối mẫu và định lí giới hạn trung tâm

Định nghĩa 7.8 Phân phối mẫu là phân phối xác suất của thống kê.

Một số phân phối mẫu thường gặp:

Định nghĩa 7.9 Phân phối Student


Cho X1 , · · · , Xn là một mẫu ngẫu nhiên lấy từ phân phối chuẩn với hai tham số µ, σ 2
chưa biết. Khi đó, biến ngẫu nhiên

X −µ
T = √
S/ n

có phân phối Student t(n − 1) với n − 1 bậc tự do.

Chú ý, phân phối Student có hàm mật độ là



Γ k+1
2
f (x) = √  2 (k+1)/2 ,
πkΓ k2 xk + 1

với k là bậc tự do. Khi đó, T có trung bình 0 và phương sai k/(k − 2) với k > 2.
75

Định nghĩa 7.10 Phân phối χ2


Cho X1 , · · · , Xn là một mẫu ngẫu nhiên lấy từ phân phối chuẩn với hai tham số µ, σ 2 .
Nếu S 2 là phương sai mẫu thì biến ngẫu nhiên

(n − 1)S 2
X2 =
σ2
có phân phối χ2 (n − 1) với n − 1 bậc tự do.

Phân phối χ2 có hàm mật độ là

xk/2−1 e−x/2
f (x) =  , x > 0,
2k/2 Γ k2

với k là bậc tự do. Khi đó, X có trung bình k và phương sai 2k.

Định nghĩa 7.11 Phân phối Fisher


Cho W và Y là hai biến ngẫu nhiên có phân phối χ2 với bậc tự do lần lượt là u và v.
Khi đó biến ngẫu nhiên
W /u
F =
Y /v
có phân phối Fisher Fu,v với u bậc tự do trên tử và v bậc tự do dưới mẫu.

Phân phối Fisher có hàm mật độ là

u+v
 u u/2 u/2−1
Γ 2 v x
f (x) =
u
 v
 u
(u+v)/2 , x>0
Γ 2 Γ 2 v x + 1

2v 2 (u+v−2)
với u, v là bậc tự do. Khi đó, F có trung bình v/(v−2), v > 2 và phương sai u(v−2)2 (v−4)
,v > 4.
76 7.2. Phân phối mẫu và định lí giới hạn trung tâm

Định lý 7.3 Phân phối Fisher có tính chất

1
f1−α,u,v = .
fα,v,u

Bài tập 7.4 Hãy tìm những giá trị của t0.025,15 , t0.05,10 , t0.10,20 , t0.005,25 và t0.001,20 .

Bài tập 7.5 Xác định giá trị χ2α,n trong các trường hợp sau:

χ20.05,10 , χ20.025,15 , χ20.01,12 , χ20.99,16 , χ20.005,25 .

Bài tập 7.6 Cho phân phối F , hãy tính:

a. f0.25,5,10 c. f0.05,8,15 e. f0.90,24,9

b. f0.10,24,9 d. f0.75,5,10 f. f0.99,8,15

(Đs: 1.59, 2.28, 2.64, 0.529, 0.525, 0.311)

Bài tập 7.7 Cho phân phối F , hãy tính:

a. f0.25,7,15 c. f0.01,20,10 e. f0.90,10,12

b. f0.10,10,12 d. f0.75,7,15 f. f0.99,20,10

Định lý 7.4 (Định lí giới hạn trung tâm) Cho X1 , · · · , Xn là một mẫu ngẫu nhiên
của tổng thể (có thể hữu hạn hoặc vô hạn) với trung bình µ và phương sai σ 2 . Nếu X
là trung bình mẫu thì ta có giới hạn của thống kê

X −µ
Zn = √
σ/ n

là phân phối chuẩn tắc khi n → ∞.


77

Chạy code sau sử dụng hai thư viên TeachingDemos, distrTeach và quan sát sự hội tụ
của phân phối mẫu.

Code R 7.1

> library(TeachingDemos)
> example(clt.examp)
> library(distrTeach)
> example(illustrateCLT)
78 7.2. Phân phối mẫu và định lí giới hạn trung tâm
79
80 7.2. Phân phối mẫu và định lí giới hạn trung tâm
81
82 7.2. Phân phối mẫu và định lí giới hạn trung tâm
83
84 7.2. Phân phối mẫu và định lí giới hạn trung tâm
8. ƯỚC LƯỢNG KHOẢNG MỘT MẪU 85

8.1 Phương pháp chung 85

8.2 Khoảng tin cậy cho trung bình của phân phối chuẩn85
8.2.1 Khoảng tin cậy cho trung bình khi biết
phương sai
8.2.2 Khoảng tin cậy cho trung bình khi chưa
biết phương sai

8.3 Khoảng tin cậy cho phương sai 92

8.4 Khoảng tin cậy cho tỉ lệ của phân phối nhị thức 93

8.1 Phương pháp chung


Từ công thức xác suất sau

P |X| ≤ x1−α/2 = 1 − α,
với 100(1 − α)% được gọi là độ tin cậy và X có phân phối mẫu như mục 7.2 ta có thể xây
dựng khoảng tin cậy trong các mục sau

8.2 Khoảng tin cậy cho trung bình của phân phối chuẩn
8.2.1 Khoảng tin cậy cho trung bình khi biết phương sai

Định lý 8.1 Nếu x là trung bình mẫu được tính từ mẫu ngẫu nhiên với cỡ mẫu n được
lấy từ một tổng thể có phân phối chuẩn với phương sai σ 2 đã biết, thì khoảng tin cậy
100(1 − α)% của µ được tính
√ √
x − zα/2 σ/ n ≤ µ ≤ x + zα/2 σ/ n,

với zα/2 thỏa P(Z < zα/2 ) = 1 − α/2 với Z ∼ N (0, 1).
Chú ý: nếu x là một ước lượng của µ, ta có thể xây dựng khoảng tin cậy 100(1 − α)%
với sai số |x − µ| < E với cỡ mẫu n = (zα/2 σ/E)2 .

Code R 8.1
1. Chạy code và đếm kết quả. Giải thích kết quả vừa chạy

R > library(TeachingDemos)
R > example(ci.examp)

2. Xem xét đoạn code sau rồi rút ra cấu trúc xây dựng khoảng tin cậy cho trung
bình.
86 8.2. Khoảng tin cậy cho trung bình của phân phối chuẩn

R > library(TeachingDemos)
R > temp <- with(PlantGrowth, z.test(weight, stdev = 0.7))
R > temp

Bài tập 8.1 Cho tổng thể có phân phối chuẩn với tham số σ 2 đã biết. Xác định
√ √
a. Độ tin cậy của ước lượng khoảng x − 2.14σ/ n ≤ µ ≤ x + 2.14σ/ n.
√ √
b. Độ tin cậy của ước lượng khoảng x − 2.49σ/ n ≤ µ ≤ x + 2.49σ/ n.
√ √
c. Độ tin cậy của ước lượng khoảng x − 1.85σ/ n ≤ µ ≤ x + 1.85σ/ n.

(Đs: 96.76%; 98.72%; 93.56%)

Bài tập 8.2 Cho tổng thể có phân phối chuẩn với tham số σ 2 đã biết. Xác định

a. Giá trị của zα/2 ứng với độ tin cậy 98% trong công thức xây dựng khoảng tin cậy.

b. Giá trị của zα/2 ứng với độ tin cậy 80% trong công thức xây dựng khoảng tin cậy.

c. Giá trị của zα/2 ứng với độ tin cậy 75% trong công thức xây dựng khoảng tin cậy.

(Đs: 2.33; 1.285; 1.151)

Bài tập 8.3 Ước lượng khoảng tin cậy cho độ hoàn thiện mạch của một thiết bị bán
dẫn. Giả sử mức độ hoàn thiện tuân theo phân phối chuẩn với độ lệch chuẩn σ = 20.
Tính

a. Khoảng tin cậy 95% cho µ khi n = 10 và x = 1000.

b. Khoảng tin cậy 95% cho µ khi n = 25 và x = 1000.

c. Khoảng tin cậy 99% cho µ khi n = 10 và x = 1000.

d. Khoảng tin cậy 99% cho µ khi n = 25 và x = 1000.

e. Nhận xét độ rộng của khoảng tin cậy khi thay đổi cỡ mẫu và độ tin cậy.

(Đs: [987.6;1012.4]; [992.16;1007.84]; [983.71;1016.28]; [989.7;1010.3])

Bài tập 8.4 Một mẫu ngẫu nhiên đã được lấy từ một tổng thể có phân phối chuẩn và các
khoảng tin cậy sau được xây dựng bằng cách sử dụng cùng một dữ liệu: (38.02, 61.98)
và (39.95, 60.05)

a. Xác định trung bình mẫu?


(Đs: 50; 50)

b. Giả sử hai khoảng tin cậy tương ứng với độ tin cậy 95% và 90%. Khoảng nào ứng
với độ tin cậy 95%? Tại sao?
87

Bài tập 8.5 Một mẫu ngẫu nhiên đã được lấy từ một tổng thể có phân phối chuẩn và các
khoảng tin cậy sau được xây dựng bằng cách sử dụng cùng một dữ liệu: (37.53, 49.87)
và (35.59, 51.81)

a. Xác định trung bình mẫu?


(Đs: 43.7; 43.7)

b. Giả sử hai khoảng tin cậy tương ứng với độ tin cậy 95% và 99%. Khoảng nào ứng
với độ tin cậy 95%? Tại sao?

Bài tập 8.6 Sử dụng lại số liệu của Bài tập 8.3. Tìm cỡ mẫu n để:

a. Độ rộng khoảng tin cậy 95% là 40. b. Độ rộng khoảng tin cậy 99% là 40.

(Đs: 4; 7)

Bài tập 8.7 Giả sử người ta lấy mẫu ngẫu nhiên cỡ n = 100 từ một hồ nước ngọt để
đo nồng độ Canxi (mg/l). Khoảng tin cậy 95% cho nồng độ trung bình của Canxi là
0.49 ≤ µ ≤ 0.82.

a. Khoảng tin cậy 99% được xây dựng từ cùng mẫu ngẫu nhiên trên có độ rộng lớn
hơn hay nhỏ hơn trên?
(Đs: lớn hơn)

b. Xét phát biểu: “có 95% khả năng tìm thấy µ trong khoảng từ 0.49 tới 0.82”.
(Đs: sai)

c. Xét phát biểu: “nếu lấy mẫu ngẫu nhiên với cỡ mẫu n = 100 rồi tính khoảng tin
cậy 95% và cứ lặp lại quá trình này 1000 lần thì có 950 lần khoảng tin cậy này sẽ
chứa giá trị µ chính xác”.
(Đs: đúng)

Bài tập 8.8 Đường kính của những cái lỗ trên dây nịt có phân phối chuẩn với độ
lệch chuẩn 0.01 inch. Một mẫu ngẫu nhiên có cỡ là 10 với đường kính trung bình là
1.5054 inch. Tìm khoảng tin cậy 99% cho ước lượng trung bình đường kính lỗ.
(Đs: [1.49725;1.51355])

Bài tập 8.9 Một kỹ sư xây dựng phân tích cường độ nén của bê tông. Cường độ nén
thường có phân phối chuẩn 1000 (psi)2 . Một mẫu ngẫu nhiên gồm 12 mẫu có cường độ
nén trung bình x = 3250 psi.
a. Xây dựng khoảng tin cậy 95% cho trung bình cường độ nén của bê tông. (Đs:
[3232.11;3267.89])
b. Xây dựng khoảng tin cậy 99% cho trung bình cường độ nén của bê tông và so
sánh độ rộng với câu trên. (Đs: [3226.4;3273.6])
c. Để có được ước lượng cho trung bình độ nén với sai số không vượt quá 15 psi ở
88 8.2. Khoảng tin cậy cho trung bình của phân phối chuẩn

dộ tin cậy 99% thì cỡ mẫu phải là bao nhiêu? (Đs: 30)

8.2.2 Khoảng tin cậy cho trung bình khi chưa biết phương sai

Định lý 8.2 Nếu x, s lần lượt là trung bình và độ lệch chuẩn mẫu của một mẫu
ngẫu nhiên lấy từ phân phối chuẩn với hai tham số µ, σ 2 chưa biết thì khoảng tin cậy
100(1 − α)% của µ được tính
√ √
x − tα/2,n−1 s/ n ≤ µ ≤ x + tα/2,n−1 s/ n

với tα/2,n−1 thỏa P(|T | > tα/2,n−1 ) = α với T ∼ t(n − 1).

Code R 8.2 Sử dụng lệnh t.test để xây dựng khoảng tin cậy. Chú ý thay đổi
conf.level để được độ tin cậy mong muốn.

Bài tập 8.10 Xác định giá trị t trong xây dựng khoảng tin cậy tương ứng với:

a. Độ tin cậy 95% với bậc tự do 12. c. Độ tin cậy 99% với bậc tự do 13.

b. Độ tin cậy 95% với bậc tự do 24. d. Độ tin cậy 99.9% với bậc tự do 15.

(Đs: 2.179; 2.064; 3.012; 4.073)

Bài tập 8.11 Một mẫu ngẫu nhiên đã được lấy từ một phân phối chuẩn. Đầu ra từ
một gói phần mềm xuất ra dưới đây:

Biến N Trung bình SE mean Độ lệch chuẩn Phương sai Tổng


x 10 ? 0.507 1.605 ? 251.848


với SE mean là độ lệch chuẩn của trung bình σx = σ/ n.

a. Điền cho đầy đủ bảng số liệu trên.


(Đs: (a) Mean 25.1848, Variance 2.5760)

b. Tìm khoảng tin cậy 95% cho ước lượng trung bình.
(Đs: 24.037 ≤ µ ≤ 26.333)

Bài tập 8.12 Một mẫu ngẫu nhiên đã được lấy từ một phân phối chuẩn. Đầu ra từ
một gói phần mềm xuất ra dưới đây:

Biến N Trung bình SE mean Độ lệch chuẩn Phương sai Tổng


x ? ? 1.58 6.11 ? 751.40
89

a. Điền cho đầy đủ bảng số liệu trên.

b. Tìm khoảng tin cậy 95% cho ước lượng trung bình.

Bài tập 8.13 Kỹ sư nghiên cứu cho một nhà sản xuất lốp xe đang nghiên cứu tuổi
thọ lốp làm từ một hợp chất cao su mới và đã chế tạo 16 lốp xe, thử nghiệm tuổi thọ
khi chúng chạy trên đường. Giá trị trung bình mẫu và độ lệch chuẩn là 60139.7 và
3645.94 km. Tìm khoảng tin cậy 95% cho tuổi thọ trung bình của lốp.
(Đs: [58197.33, 62082.07])

Bài tập 8.14 Cục Khí tượng của Chính phủ Úc đã cung cấp
lượng mưa trung bình hàng năm (milimet) ở Úc 1983-2002 như sau
(http://www.bom.gov.au/climate/change/rain03.txt):

499.2, 555.2, 398.8, 391.9, 453.4, 459.8, 483.7, 417.6, 469.2, 452.4, 499.3, 340.6, 522.8,
469.9, 527.2, 565.5, 584.1, 727.3, 558.6, 338.6

Xây dựng khoảng tin cậy 95% cho lượng mưa trung bình hàng năm.
Chú ý: ta có thể phải kiểm tra giả thiết tổng thể có phân phối chuẩn bằng cách vẽ đồ
thị box-plot (xem Định nghĩa 6.5) và đồ thị xác suất của phân phối chuẩn: trục hoành
là x, trục tung là xác suất (xem Định nghĩa 6.6).

Bài tập 8.15 Một bài báo trên Tạp chí Vật liệu tổng hợp (tháng 12 năm 1989, tập 23,
trang 1200) mô tả ảnh hưởng của sự phân tách trên tần số tự nhiên của các chùm được
làm từ các loại vật liệu composite. Năm chùm bị ô nhiễm như vậy đã chịu tải trọng, và
kết quả tần số như sau (đơn vị Hertz):

230.66, 233.05, 232.58, 229.48, 232.58

Kiểm tra giả định về phân phối chuẩn của tổng thể. Tính khoảng tin cậy 90% cho trung
bình tần số tự nhiên.

Bài tập 8.16 Độ sáng của ống hình ảnh của tivi có thể được đánh giá bằng cách đo
lượng dòng điện cần thiết để đạt được một mức độ sáng cụ thể. Một mẫu của 10 ống
cho kết quả độ lệch chuẩn là 15.7 và trung bình là 317.2. Tìm (trong microamps)
khoảng tin cậy 99% cho trung bình thực tế yêu cầu. Nêu những giả định cần thiết về
phân phối của dữ liệu.
(Đs: [301.06, 333.34])

Bài tập 8.17 Một bài báo về Kỹ thuật hạt nhân quốc tế (tháng 2 năm 1988, trang 33)
mô tả một số đặc tính của các thanh nhiên liệu được sử dụng trong lò phản ứng thuộc
sở hữu của một công ty điện ở Na Uy. Các phép đo về tỷ lệ làm giàu của 12 thanh đã
được báo cáo như sau:
2.94; 3.00; 2.90; 2.75; 3.00; 2.95; 2.90; 2.75; 2.95; 2.82; 2.81; 3.05

a. Sử dụng đồ thị của xác suất phân phối chuẩn để kiểm tra giả định phân phối
90 8.2. Khoảng tin cậy cho trung bình của phân phối chuẩn

chuẩn của số liệu.

b. Tìm khoảng tin cậy 99% cho tỷ lệ phần trăm trung bình của làm giàu. Bạn có
đồng ý với tuyên bố rằng tỷ lệ phần trăm trung bình của làm giàu là 2.95%? Tại
sao?
(Đs: [2.813, 2.991])

Bài tập 8.18 Đo đường kính của một chi tiết máy do một máy tiện tự động sản xuất,
ta ghi nhận được số liệu như sau:

X 12.00 12.05 12.10 12.15 12.20 12.25 12.30 12.35 12.40


N 2 3 7 9 10 8 6 5 3

với N chỉ số trường hợp tính theo từng giá trị của X (mm).

a. Tính trung bình mẫu và độ lệch chuẩn của mẫu.


(Đs: 12.21, 0.103)

b. Ước lượng đường kính trung bình µ ở độ tin cậy 0.95.


(Đs: [12.18; 12.24])

c. Nếu muốn sai số ước lượng không quá E = 0.02 mm ở độ tin cậy 0.95 thì phải
quan sát ít nhất mấy trường hợp.
(Đs: 102)

Bài tập 8.19 Quan sát chiều cao X (cm) của một số người, ta ghi nhận

X 140-145 145-150 150-155 155-160 160-165 165-170


Số người 1 3 7 9 5 2

a. Tính trung bình mẫu và phương sai mẫu.


(Đs: 156.2;37.68)

b. Ước lượng trung bình và phương sai của tổng thể ở độ tin cậy 0.95.
(Đs: [153.77;158.63])

Bài tập 8.20 Đem cân một số trái cây vừa thu hoạch, ta được kết quả sau

X (g) 200–210 210–220 220–230 230–240 240–250


Số trái 12 17 20 18 15

a. Tìm khoảng ước lượng của trọng lượng trung bình của trái cây với độ tin cậy 0.95
và 0.99.
(Đs: [222.98;228.72], [222.08;229.63])
91

b. Nếu muốn sai số ước lượng không quá E = 2g ở độ tin cậy 99% thì phải quan sát
ít nhất bao nhiêu trái?
(Đs: 293)

Bài tập 8.21 Người ta đo ion Na+ trên một số người và ghi nhận lại được kết quả như
sau

129, 132, 140, 141, 138, 143, 133, 137, 140, 143, 138, 140

a. Tính trung bình mẫu và phương sai mẫu.


(Đs: 137.83; 19.42)

b. Ước lượng trung bình và phương sai của tổng thể ở độ tin cậy 0.95.
(Đs: [135.01;140.63]; [9.76;56.1])

c. Nếu muốn sai số ước lượng trung bình không quá E = 1 với độ tin cậy 0.95 thì
phải quan sát mẫu gồm ít nhất mấy người?
(Đs: 75)

Bài tập 8.22 Quan sát tuổi thọ X (giờ) của một số bóng đèn do xí nghiệp A sản xuất,
ta ghi nhận

X 1000 1100 1200 1300 1400 1500 1600 1700 1800


N 10 14 16 17 18 16 16 12 9

a. Tính trung bình mẫu và độ lệch chuẩn mẫu.


(Đs: 1391.41; 234.45)

b. Ước lượng tuổi thọ trung bình của bóng đèn ở độ tin cậy 0.95.
(Đs: [1350.79;1432.03])

c. Nếu muốn sai số ước lượng trung bình không quá E = 30 với độ tin cậy 0.95 thì
phải quan sát mẫu gồm ít nhất mấy bóng đèn?
(Đs: 235)

Bài tập 8.23 Có 3 mẫu quan sát sức nặng con người, kết quả ghi nhận

Lần quan sát Trung bình Độ lệch chuẩn


Mẫu 1 70 55 kg 8.30 kg
Mẫu 2 75 57 kg 8.60 kg
Mẫu 3 90 54 kg 8.50 kg

Nhập chung 3 mẫu lại, tính trung bình và độ lệch mẫu nhập. Dựa vào mẫu nhập để
ước lượng trung bình của tổng thể ở độ tin cậy 95% và 99%.
(Đs: 55.25, 8.56; [54.156; 56.344], [53.81; 56.69])
92 8.3. Khoảng tin cậy cho phương sai

8.3 Khoảng tin cậy cho phương sai

Định lý 8.3 Nếu s2 là phương sai mẫu của mẫu ngẫu nhiên cỡ n được lấy từ tổng thể
của một phân phối chuẩn với hai tham số µ và σ 2 thì khoảng tin cậy 100(1 − α)% của
σ 2 được tính

(n − 1)s2 2 ≤ (n − 1)s ,
2
≤ σ
χ2α/2,n−1 χ21−α/2,n−1

trong đó χ2α/2,n−1 , χ21−α/2,n−1 lần lượt thỏa:


   
P χ > χ2α/2,n−1 = α/2, P χ > χ21−α/2,n−1 = 1 − α/2.

Code R 8.3 Sử dụng lệnh sigma.test trong package TeachingDemos để xây dựng
khoảng tin cậy.

Bài tập 8.24 Xác định giá trị χ2α/2,n trong trường hợp sau: độ tin cậy 90% với bậc tự
do 19.

Bài tập 8.25 Tỷ lệ titan trong một hợp kim được sử dụng trong đúc các bộ phận
hàng không vũ trụ được đo bằng 51 mẫu được chọn ngẫu nhiên. Độ lệch chuẩn mẫu là
s = 0.37. Xây dựng một khoảng tin cậy có độ tin cậy 95% cho σ.
(Đs: [0.31, 0.46])

Bài tập 8.26 Hàm lượng đường của xi-rô trong hộp thường có phân phối chuẩn. Một
mẫu ngẫu nhiên với n = 10 lon mang lại độ lệch chuẩn của mẫu là 4.8 miligam. Tính
toán khoảng tin cậy 95% cho σ.

Bài tập 8.27 Một bài báo trong tạp chí hệ sinh thái đô thị: “Đô thị hóa và sự ấm
lên của Phoenix (Arizona, Mỹ): Tác động, phản hồi và giảm nhẹ” (2002, Vol. 6, pp.
183–203), đề cập rằng Phoenix là lý tưởng để nghiên cứu ảnh hưởng của nhiệt độ của
một đô thị hòn đảo vì nó đã phát triển từ dân số 300.000 đến gần 3 triệu trong 50 năm
qua và đây là một khoảng thời gian thay đổi khí hậu liên tục. Trung bình 50 năm của
nhiệt độ trung bình hàng năm tại tám địa điểm ở Phoenix được mô tả bởi một bảng
dưới đây. Kiểm tra giả định về phân phối chuẩn. Xây dựng khoảng tin cậy 95% cho độ
lệch chuẩn dựa trên dữ liệu tại vị trí có nhiệt độ trung bình hàng năm.
(Đs: [0.626, 1.926])
93

Vị trí Trung bình nhiệt độ


Sky Harbor Airport 23.3
Phoenix Greenway 21.7
Phoenix Encanto 21.6
Waddell 21.7
Litchfield 21.3
Laveen 20.7
Maricopa 20.9
Harlquahala 20.1

8.4 Khoảng tin cậy cho tỉ lệ của phân phối nhị thức

Định lý 8.4 Ta cần đi xây dựng khoảng tin cậy cho ước lượng tỉ số p là xác suất tương
ứng với tỉ lệ “thành công (hoặc thất bại)”. Chú ý trung bình của biến ngẫu nhiên
B(1, p) là p nên ta có trung bình mẫu

số lần thành công số lần thất bại


f =x= hoặc f = x = .
n n
Độ lệch chuẩn mẫu p
s= nf (1 − f ).
Khi đó, khoảng tin cậy 100(1 − α)% của σ 2 được tính

f − zα/2 s/n ≤ p ≤ f + zα/2 s/n,

với zα/2 thỏa P(Z < zα/2 ) = 1 − α/2 với Z ∼ N (0, 1).
Chú ý: nếu f là một ước lượng của p, ta cópthể xây dựng khoảng tin cậy 100(1 − α)%
với sai số |f − p| < E với cỡ mẫu n = (zα/2 f (1 − f /E)2 .

Code R 8.4 Sử dụng lệnh binom.test để xây dựng khoảng tin cậy.

Bài tập 8.28 Phần nhỏ của các mạch tích hợp khiếm khuyết được tạo ra trong quá
trình quang khắc được nghiên cứu. Một mẫu ngẫu nhiên của 300 mạch được kiểm tra
đã phát hiện được 13 khiếm khuyết. Tính khoảng tin cậy 95% trên phần mạch bị lỗi
do quá trình trên tạo ra.
(Đs: [0.02029, 0.06637])

Bài tập 8.29 Trong số liệu từ cuộc bầu cử tổng thống năm 2004, một bang quan trọng
là bang Ohio đã cho kết quả sau đây: đã có 2020 người trả lời trong các cuộc thăm dò
xuất cảnh và 768 là sinh viên tốt nghiệp đại học. Trong số các sinh viên tốt nghiệp đại
học có 412 bầu cho George Bush. Xây dựng khoảng tin cậy 95% cho tỉ lệ sinh viên tốt
nghiệp đại học bầu cho George Bush.
(Đs: [0.501;0.571])
94 8.4. Khoảng tin cậy cho tỉ lệ của phân phối nhị thức

Bài tập 8.30 Trong số 1000 trường hợp ung thư phổi được chọn ngẫu nhiên, 823 kết
quả tử vong trong vòng 10 năm

a. Tính toán khoảng tin cậy 95% về tỷ lệ tử vong do ung thư phổi.

b. Sử dụng ước tính điểm của p tính được từ mẫu sơ bộ, tính kích thước mẫu cần
thiết để 95% tin rằng lỗi trong ước tính giá trị thực của p ít hơn hơn 0.03?
(Đs: 622)

Bài tập 8.31 Một loại thuốc mới đem điều trị cho 50 người bị bệnh B, kết quả có 40
người khỏi bệnh.

a. Ước lượng tỷ lệ khỏi bệnh p nếu dùng thuốc đó điều trị với độ tin cậy 0.95 và
0.99.
(Đs: [0.65;0.946])

b. Nếu muốn sai số ước lượng không quá 0.02 ở độ tin cậy 0.95 thì phải quan sát ít
nhất mấy trường hợp?
(Đs: 1537)

Bài tập 8.32 Một loại bệnh có tỷ lệ tử vong là 0.01. Muốn chứng tỏ một loại thuốc có
hiệu nghiệm (nghĩa là hạ thấp được tỷ lệ tử vong nhỏ hơn 0.005) ở độ tin cậy 0.95 thì
phải thử thuốc đó trên ít nhất bao nhiêu người?
(Đs: 1522)

Bài tập 8.33 Ta muốn ước lượng tỷ lệ viên thuốc bị sức mẻ p trong một lô thuốc lớn.

a. Nếu muốn sai số ước lượng không quá 0.01 với độ tin cậy 0.95 thì phải quan sát
ít nhất mấy viên?
(Hướng dẫn: tìm giá trị lớn nhất của f (1 − f ). Đs: 9604)

b. Quan sát ngẫu nhiên 200 viên, thấy có 18 viên bị sứt mẻ. Hãy ước lượng p ở độ
tin cậy 0.95. Khi đó, nếu muốn sai số ước lượng không quá 0.01 với độ tin cậy
0.95 thì phải quan sát ít nhất mấy viên?
(Đs:3147)
9. KIỂM ĐỊNH GIẢ THUYẾT MỘT MẪU 95

9.1 Khái niệm chung 95

9.2 Kiểm định giá trị trung bình của phân phối chuẩn 97
9.2.1 Kiểm định trung bình khi biết phương sai
9.2.2 Kiểm định trung bình khi chưa biết
phương sai

9.3 Kiểm định phương sai 107

9.4 Kiểm định tỉ lệ 108

9.1 Khái niệm chung

Định nghĩa 9.1

i. Giả thuyết thống kê là một phát biểu về những tham số của một hay nhiều tổng
thể.

ii. Giả thuyết H0 là một phát biểu sẽ được kiểm tra thông qua một phép kiểm định
có ý nghĩa, nghĩa là thông qua đó ta có bằng chứng đủ mạnh để bác bỏ H0 . Thông
thường, giả thuyết H0 là một phát biểu với cụm từ “không hiệu quả” hoặc “không
khác”.

Định nghĩa 9.2

i. Sai lầm kiểm định:

a. Sai lầm loại I: là sai lầm nếu bác bỏ giả thuyết H0 khi nó đúng.
b. Sai lầm loại II: là sai lầm nếu chấp nhận giả thuyết H0 khi nó sai.

ii. Xác suất của sai lầm loại I

α = P(sai lầm loại I) = P(bác bỏ H0 khi H0 đúng).

Khi đó α được gọi là mức ý nghĩa hay sai số−α.

iii. Xác suất của sai lầm loại II

β = P(sai lầm loại II) = P(chấp nhận H0 khi H0 sai).

iv. Độ mạnh (power) của kiểm định thống kê là xác suất mà ta bác bỏ giả thuyết H0
khi đối thuyết H1 đúng. Độ mạnh được tính là 1 − β. Ngược lại, ta có đối thuyết
H1 .
96 9.1. Khái niệm chung

Định nghĩa 9.3 Giá trị p−value là mức ý nghĩa nhỏ nhất dẫn tới quyết định bác bỏ
giả thuyết H0 ứng với dữ liệu đã cho.

Định lý 9.1 Nếu p − value < α thì bác bỏ giả thuyết H0 .

Qui tắc chung tính p-value: dựa vào bất đẳng thức ở đối thuyết H1 ta sẽ tính
i. Dấu khác: p − value = 2(1 − P(X ≤ |thống kê kiểm định|))
ii. Dấu lớn hơn: p − value = 1 − P(X ≤ thống kê kiểm định)
iii. Dấu nhỏ hơn: p − value = P(X ≤ thống kê kiểm định)

Định lý 9.2 Miền bác bỏ giả thuyết H0 khi dựa vào bất đẳng thức ở đối thuyết H1 :

i. Dấu khác: thống kê kiểm định > phân vị của (1 − α/2) hoặc
thống kê kiểm định < phân vị của (1 − α/2)

ii. Dấu lớn hơn: thống kê kiểm định > phân vị của (1 − α)

iii. Dấu nhỏ hơn: thống kê kiểm định < − phân vị của (1 − α)

Miền bác bỏ của thống kê kiểm định có phân phối chuẩn tắc

Miền bác bỏ của thống kê kiểm định có phân phối Student

Miền bác bỏ của thống kê kiểm định có phân phối Chi bình phương hoặc Fisher
97

Code R 9.1 Sử dụng lại các lệnh z.test, t.test, sigma.test và binom.test ở chương
trước rồi giải thích kết quả.

9.2 Kiểm định giá trị trung bình của phân phối chuẩn

9.2.1 Kiểm định trung bình khi biết phương sai

Định lý 9.3 Xét bài toán kiểm định giá trị trung bình µ của một tổng thể có phân
phối chuẩn với phương sai đã biết từ một bộ dữ liệu (mẫu ngẫu nhiên) X1 , · · · , Xn
được quan trắc từ tổng thể. Khi đó, ta phát biểu giả thuyết

H0 : µ = µ 0 ,
H1 : µ ̸= µ0 ,

với µ0 là giá trị tham số đặc biệt mà ta quan tâm.


Đối tượng ở đây là giá trị trung bình, do đó ta sử dụng ước lượng X cho tham số µ.
Chú ý, ước lượng không chệch X có phân phân phối chuẩn với trung bình µ và phương
sai σ 2 /n. Ta định nghĩa thống kê cho kiểm định

X − µ0
Z= √ ∼ N (0, 1).
σ/ n

Chú ý: giả sử giả thuyết H0 là sai và giá trị trung bình đúng là µ = µ0 + δ với δ > 0
(δ < 0 tương tự), khi đó xác suất sai lầm loại II được tính theo công thức
 √   √ 
δ n δ n
β = Φ zα/2 − − Φ −zα/2 − .
σ σ

Vì  √ 
δ n
Φ −zα/2 − ≃0
σ
nên người ta có thể suy ra công thức xác định cỡ mẫu để có giá trị β khi biết trước α
và δ

(zβ + zα/2 )2 σ 2
n≃ .
δ2

Bài tập 9.1 Hãy phát biểu giả thuyết H0 và đối thuyết H1 trong các trường hợp sau:

a. Kiểm định cung cấp bằng chứng cho thấy trung bình của tổng thể lớn hơn 10.

b. Kiểm định cung cấp bằng chứng cho thấy trung bình của tổng thể không bằng 7.

c. Kiểm định cung cấp bằng chứng cho thấy trung bình của tổng thể nhỏ hơn 10.
98 9.2. Kiểm định giá trị trung bình của phân phối chuẩn

Bài tập 9.2 Một giả thuyết sẽ được kiểm định rằng trung bình tổng thể bằng 7 có đối
thuyết là trung bình khác 7 với phương sai đã biết. Hãy tìm giá trị để đưa ra quyết
định ứng với mức ý nghĩa:

a. 0.01 b. 0.05 c. 0.10

Bài tập 9.3 Một giả thuyết sẽ được kiểm định rằng trung bình tổng thể bằng 10 có
đối thuyết là trung bình lớn hơn 10 với phương sai đã biết. Hãy tìm giá trị để đưa ra
quyết định ứng với mức ý nghĩa:

a. 0.01 b. 0.05 c. 0.10

Bài tập 9.4 Một giả thuyết sẽ được kiểm định rằng trung bình tổng thể bằng 5 có đối
thuyết là trung bình nhỏ hơn 5 với phương sai đã biết. Hãy tìm giá trị để đưa ra quyết
định ứng với mức ý nghĩa:

a. 0.01 b. 0.05 c. 0.10

Bài tập 9.5 Cho giả thuyết kiểm định H0 : µ = 7 với đối thuyết H1 : µ ̸= 7 và phương
sai đã biết, tính p−value trong các trường hợp sau:

a. z0 = 2.05 b. z0 = −1.84 c. z0 = 0.4

Bài tập 9.6 Cho giả thuyết kiểm định H0 : µ = 5 với đối thuyết H1 : µ < 5 và phương
sai đã biết, tính p−value trong các trường hợp sau:

a. z0 = 2.05 b. z0 = −1.84 c. z0 = 0.4

Bài tập 9.7 Một phần mềm thống kê cho ra bảng kết quả:
One-Sample Z:
Test of mu=35 vs not 35
The assumed standard deviation 1.8

Variable N Mean StDev SE Mean Z P-Value


x 25 35.710 1.475 ? ? ?

a. Điền vào các mục còn thiếu. Bạn sẽ rút ra kết luận gì?

b. Kiểm định trên là một bên hay hai bên.

c. Sử dụng bảng phân phối chuẩn và sử dụng số liệu trên xây dựng khoảng tin cậy
95% cho tham số trung bình.

d. Tính p−value nếu đối thuyết H1 : µ > 35.


99

Bài tập 9.8 Một phần mềm thống kê cho ra bảng kết quả:
One-Sample Z:
Test of mu=20 vs > 20
The assumed standard deviation 0.75

Variable N Mean StDev SE Mean Z P-Value


x 10 19.889 ? 0.237 ? ?

a. Điền vào các mục còn thiếu. Bạn sẽ rút ra kết luận gì?

b. Kiểm định trên là một bên hay hai bên.

c. Sử dụng bảng phân phối chuẩn và sử dụng số liệu trên xây dựng khoảng tin cậy
95% cho tham số trung bình.

d. Tính p−value nếu đối thuyết H1 : µ ̸= 20.

Bài tập 9.9 Một phần mềm thống kê cho ra bảng kết quả:
One-Sample Z:
Test of mu=14.5 vs > 14.5
The assumed standard deviation 1.1

Variable N Mean StDev SE Mean Z P-Value


x 16 15.016 1.015 ? ? ?

a. Điền vào các mục còn thiếu. Bạn sẽ rút ra kết luận gì?

b. Kiểm định trên là một bên hay hai bên.

c. Sử dụng bảng phân phối chuẩn và sử dụng số liệu trên xây dựng khoảng tin cậy
95% cho tham số trung bình.

d. Tính p−value nếu đối thuyết H1 : µ ̸= 14.5.

Bài tập 9.10 Một phần mềm thống kê cho ra bảng kết quả:
One-Sample Z:
Test of mu=99 vs > 99
The assumed standard deviation 2.5

Variable N Mean StDev SE Mean Z P-Value


x 12 100.039 2.365 ? 1.44 0.075

a. Điền vào các mục còn thiếu. Bạn sẽ rút ra kết luận gì?
100 9.2. Kiểm định giá trị trung bình của phân phối chuẩn

b. Kiểm định trên là một bên hay hai bên.

c. Nếu giả thuyết H0 : µ = 98 với đối thuyết H1 : µ > 98 bạn có bác bỏ giả thuyết
H0 với mức ý nghĩa 0.05.

d. Sử dụng bảng phân phối chuẩn và sử dụng số liệu trên xây dựng khoảng tin cậy
95% cho tham số trung bình.

e. Tính p−value nếu đối thuyết H1 : µ ̸= 99.

Bài tập 9.11 Một hệ thống tên lửa phản lực sử dụng động cơ đẩy nhiên liệu rắn. Tốc
độ cháy của nhiên liệu rắn là một đặc trưng quan trọng của động cơ. Thông số kĩ thuật
yêu cầu tốc độ cháy trung bình của thanh nhiên liệu là 50 cm/s. Các kĩ sư biết rằng
độ lệch chuẩn của tốc độ cháy là 2 cm/s. Những kĩ sư kiểm nghiệm xác định xác suất
của sai lầm loại I hoặc mức ý nghĩa α = 0.05 và chọn cỡ mẫu là n = 25 với trung bình
mẫu tốc độ cháy là x = 51.3 cm/s. Kết luận rút ra như thế nào?
(Đs: bác bỏ)

Bài tập 9.12 Nhiệt độ nước trung bình hạ lưu từ ống tháp xả giải nhiệt của nhà máy
điện không được lớn hơn 100o F . Kinh nghiệm quá khứ đã chỉ ra rằng độ lệch chuẩn
của nhiệt độ là 2o F . Nhiệt độ nước được đo trên chín ngày được lựa chọn ngẫu nhiên,
và nhiệt độ trung bình được tìm thấy là 98o F .

a. Có bằng chứng gì cho ta thấy nhiệt độ nước có thể chấp nhận được hay không
với mức ý nghĩa 0.05?

b. Tính p−value của kiểm định.

c. Tính xác suất chấp nhận giả thuyết H0 với α = 0.5 nếu nhiệt độ trung bình thật
sự của nước là 104o F .

Bài tập 9.13 Một nhà sản xuất làm trục khuỷu (crankshafts) cho động cơ ô tô. Mức
độ mòn của trục khuỷu sau 100.000 dặm (0,0001 inch) là quan tâm vì nó có thể có ảnh
hưởng đến thời hạn bảo hành. Một mẫu ngẫu nhiên của n = 15 trục được kiểm tra và
x = 2.78. Biết rằng σ = 0.9 và thường được giả định có phân phối chuẩn.

a. Kiểm định H0 : µ = 3 với đối thuyết H1 : µ ̸= 3 với mức ý nghĩa α = 0.05.

b. Độ mạnh của kiểm định nếu µ = 3.25?

c. Cỡ mẫu phải là bao nhiêu để nhận thấy giá trị trung bình đúng là 3.75 nếu ta
muốn độ mạnh của kiểm định ít nhất 0.9.

(Đs: -0.95>-1.96; 0.80939)

Bài tập 9.14 Một thử nghiệm điểm nóng chảy của n = 10 mẫu của một chất kết
dính được sử dụng trong sản xuất một chất đẩy nhiên liệu tên lửa dẫn với trung bình
x = 154.2o F . Giả sử điểm nóng chảy có phân phối chuẩn với σ = 1.5o F .
101

a. Kiểm định H0 : µ = 155 với đối thuyết H1 : µ ̸= 155 với α = 0.01.

b. Tính p−value.

c. Tính sai số β nếu giá trị đúng µ = 150.

d. Tính cỡ mẫu cần để ta có β < 0.1 khi µ = 150 với α = 0.01.

Bài tập 9.15

a. Sử dụng số liệu của Bài tập 9.11. Giả sử tốc độ cháy trung bình đúng là 49 cm/s.
Hãy tính β ứng với α = 0.05, σ = 2 và n = 25.
(Đs: 0.295)

b. Giả sử người thiết kế thí nghiệm cần kiểm định rằng nếu tốc độ cháy trung bình
sai khác với 50 cm/s nhiều nhất khoảng 1 cm/s. Phép kiểm định sẽ phát hiện ra
điều này (nghĩa là bác bỏ H0 ) với xác suất 0.9 tức là sai số β = 0.1. Với số liệu
α = 0.05, σ = 2 và n = 25, hãy tính cỡ mẫu cần thiết để phục vụ mục đích này.
(Đs: 42)

Bài tập 9.16 Tuổi thọ của pin được xem như có phân phối xấp xỉ phân phối chuẩn với
độ lệch chuẩn σ = 1.25 h. Một mẫu ngẫu nhiên gồm 10 viên pin có tuổi thọ trung bình
là x = 40.5 h, α = 0.05.

a. Có thêm bằng chứng gì để hỗ trợ cho tuyên bố rằng tuổi thọ của pin không vượt
quá 40h?

b. Tính p−value cho phép kiểm định ở câu trên.

c. Tính xác suất của sai lầm loại II hay sai số β nếu tuổi thọ trung bình đúng của
pin là 42 h.

d. Cỡ mẫu phải bao nhiêu để sai số β không vượt quá 0.01 nếu tuổi thọ trung bình
đúng của pin là 44 h.

(Đs: 1.26<1.65; 0.1038; 0.000325; 1)

Bài tập 9.17 Các kĩ sư nghiên cứu độ bền sức kéo của một hợp kim được sử dụng làm
trục của gậy đánh golt biết rằng độ bền xấp xỉ phân phối chuẩn với σ = 60 psi. Một
mẫu ngẫu nhiên gồm 12 mẫu vật có trung bình độ bền là 3450 psi.
a. Kiểm định giả thuyết rằng trung bình độ bền là 3500 psi với α = 0.01.
b. Tính mức ý nghĩa nhỏ nhất khi bạn đưa ra kết luận bác bỏ giả thuyết H0 .
c. Tính xác suất của sai lầm loại II hay sai số β nếu giá trị trung bình thật là 3470.
d. Giả sử ta muốn bác bỏ giả thuyết H0 với xác suất ít nhất 0.8 khi trung bình thật
là µ = 3500 thì cỡ mẫu phải là bao nhiêu?
e. Giải thích thêm cho kết luận ở phần trên bằng cách sử dụng khoảng tin cậy của
µ.
102 9.2. Kiểm định giá trị trung bình của phân phối chuẩn

Bài tập 9.18 “Supercavitation” là một công nghệ đẩy áp dụng cho các phương tiện
dưới biển làm tăng tốc độ của chúng. Nó xảy ra trên khoảng 50 m/s, khi áp suất giảm
đủ để cho phép nước phân ly thành hơi nước, tạo thành bọt khí phía sau phương tiện.
Khi bong bóng khí hoàn toàn bao quanh phương tiện, hiện tượng supercavitation được
cho là xảy ra. Tám thử nghiệm đã được tiến hành trên một mô hình phương tiện dưới
biển cho tốc độ trung bình quan sát được là x = 102.2 m/s. Giả sử rằng tốc độ thường
được phân phối với độ lệch chuẩn đã biết 4 m/s.

a. Kiểm định giả thuyết H0 : µ = 100 với đối thuyết H1 : µ < 100 với α = 0.05.

b. Tính p−value trong phần trên.

c. Tính độ mạnh của kiểm định nếu giá trị trung bình đúng là 95 m/s.

d. Tính cỡ mẫu cần thiết để có thể phát hiện ra vận tốc đúng là 95 m/s nếu ta cần
độ mạnh của kiểm định ít nhất 0.85.

(Đs: 1.56>-1.65; 0.14; 0.97062; 5)

Bài tập 9.19 Một ổ đỡ được sử dụng trong một công nghiệp ô tô có đường kính bên
trong đạt tiêu chuẩn là 1.5 inches. Một mẫu ngẫu nhiên gồm 25 ổ đỡ được chọn có
trung bình đường kính trong là 1.4975 inches. Đường kính ổ đỡ được biết là có phân
phối chuẩn với độ lệch chuẩn σ = 0.01 inch.

a. Kiểm định giả thuyết H0 : µ = 1.5 với đối thuyết H1 : µ ̸= 1.5 với α = 0.01.

b. Tính p−value cho phép kiểm định ở câu trên.

c. Tính độ mạnh của phép kiểm định nếu trung bình đúng của đường kính ổ đỡ là
1.495 inches.

d. Giải thích thêm cho kết luận ở phần trên bằng cách sử dụng khoảng tin cậy của
µ.

9.2.2 Kiểm định trung bình khi chưa biết phương sai
103

Định lý 9.4 Xét bài toán kiểm định giá trị trung bình µ của một tổng thể có phân phối
chuẩn với phương sai chưa biết từ một bộ dữ liệu (mẫu ngẫu nhiên) X1 , · · · , Xn
được quan trắc từ tổng thể. Khi đó, ta phát biểu giả thuyết

H0 : µ = µ 0 ,
H1 : µ ̸= µ0 ,
với µ0 là giá trị tham số đặc biệt mà ta quan tâm.
Đối tượng ở đây là giá trị trung bình, do đó ta sử dụng ước lượng X cho tham số µ.
Chú ý, ước lượng không chệch X có phân phân phối chuẩn với trung bình µ và phương
sai σ 2 /n. Ta định nghĩa thống kê cho kiểm định có phân phối Student (xem mục 8.2)
X − µ0
T = √ ∼ t(n − 1).
S/ n

Bài tập 9.20 Một giả thuyết được kiểm định rằng trung bình của tổng thể bằng hay
khác 7 với phương sai chưa biết. Hãy tìm giá trị quyết định của thống kê T0 ứng với
mức ý nghĩa và cỡ mẫu:

a. α = 0.01 và n = 20. b. α = 0.05 và n = 12. c. α = 0.10 và n = 15.

Bài tập 9.21 Một giả thuyết được kiểm định rằng trung bình của tổng thể bằng hay
lớn hơn 10 với phương sai chưa biết. Hãy tìm giá trị quyết định của thống kê Z0 ứng
với mức ý nghĩa và cỡ mẫu:

a. α = 0.01 và n = 20. b. α = 0.05 và n = 12. c. α = 0.10 và n = 15.

(Đs: >2.539; >1.796; >1.345)

Bài tập 9.22 Một giả thuyết được kiểm định rằng trung bình của tổng thể bằng hay
nhỏ hơn 5 với phương sai chưa biết. Hãy tìm giá trị quyết định của thống kê Z0 ứng
với mức ý nghĩa và cỡ mẫu:

a. α = 0.01 và n = 20. b. α = 0.05 và n = 12. c. α = 0.10 và n = 15.

Bài tập 9.23 Kiểm định giả thuyết H0 : µ = 7 với đối thuyết H1 ̸= 7 với phương sai
không biết và n = 20, xấp xỉ p−value cho mỗi thống kê kiểm định sau:

a. t0 = 2.05 b. t0 = −1.84 c. t0 = 0.4

Bài tập 9.24 Kiểm định giả thuyết H0 : µ = 10 với đối thuyết H1 > 10 với phương sai
không biết và n = 15, xấp xỉ p−value cho mỗi thống kê kiểm định sau:

a. t0 = 2.05 b. t0 = −1.84 c. t0 = 0.4


104 9.2. Kiểm định giá trị trung bình của phân phối chuẩn

Bài tập 9.25 Kiểm định giả thuyết H0 : µ = 5 với đối thuyết H1 < 5 với phương sai
không biết và n = 15, xấp xỉ p−value cho mỗi thống kê kiểm định sau:

a. t0 = 2.05 b. t0 = −1.84 c. t0 = 0.4

Bài tập 9.26 Một kết quả kiểm định bằng phần mềm cho ra bảng kết quả:
One-Sample T:
Test of mu = 91 vs >91

Variable N Mean StDev SE Mean 95% Lower bounded T P


x 20 92.379 0.717 ? ? ? ?

a. Tìm những thông số chưa có. Tính giá trị p−value và rút ra kết luận.

b. Kiểm định này là một bên hay hai bên?

c. Nếu kiểm định với H0 : µ = 90 với đối thuyết H1 : µ > 90 thì kết luận có thay
đổi gì không?

Bài tập 9.27 Một kết quả kiểm định bằng phần mềm cho ra bảng kết quả:
One-Sample T:
Test of mu = 12 vs not = 12

Variable N Mean StDev SE Mean T P


x 10 12.564 ? 0.296 ? ?

a. Thống kê kiểm định t có bậc tự do là bao nhiêu?

b. Tìm những thông số chưa có.

c. Kiểm định này là một bên hay hai bên?

d. Xây dựng khoảng tin cậy 95% cho trung bình.

e. Nếu kiểm định với H0 : µ = 12 với đối thuyết H1 : µ > 12 thì kết luận có thay
đổi gì không?

f. Nếu kiểm định với H0 : µ = 11.5 với đối thuyết H1 : µ ̸= 11.5 thì bạn có bác bỏ
H0 hay không khi mức ý nghĩa α = 0.05. Sử dụng kết quả ở những câu trên giải
thích.

Bài tập 9.28 Một kết quả kiểm định bằng phần mềm cho ra bảng kết quả:
One-Sample T:
Test of mu = 34 vs not = 34
105

Variable N Mean StDev SE Mean 95% CI T P


x 16 35.274 1.783 ? (34.324, 36.224) ? 0.012

a. Thống kê kiểm định t có bậc tự do là bao nhiêu?

b. Tìm những thông số chưa có.

c. Nếu kiểm định H0 : µ = 34 với đối thuyết H1 : µ > 34 thì p−value lớn hơn hay
nhỏ hơn?

d. Nếu kiểm định với H0 : µ = 34.5 với đối thuyết H1 : µ ̸= 34.5 thì bạn có bác bỏ
H0 hay không khi mức ý nghĩa α = 0.05. Tính giá trị p−value.

Bài tập 9.29 Đối với người Việt Nam, lượng huyết sắc tố trung bình là 138.3g/l.
Khám cho 80 công nhân ở nhà máy có tiếp xúc hoá chất, thấy huyết sắc tố trung bình
là 120g/l; s = 15g/l. Từ kết quả trên, có thể kết luận lượng huyết sắc tố trung bình của
công nhân nhà máy hoá chất này thấp hơn mức chung hay không? Kết luận với mức ý
nghĩa α = 0.05.

Bài tập 9.30 Một bài viết về Tăng trưởng: tạp chí dành cho các vấn đề về tăng trưởng
bình thường và bất thường: “So sánh tỷ lệ béo và chất béo ước tính được đo lường,
chất béo, kali và nitơ của lợn trồng” (Vol. 46, No. 4, 1982, pp. 306–321)] báo cáo kết
quả của một nghiên cứu đo trọng lượng cơ thể (tính bằng gam) đối với lợn guinea khi
sinh.

421.0 452.6 456.1 494.6 373.8


90.5 110.7 96.4 81.7 102.4
241.0 296.0 317.0 290.9 256.5
447.8 687.6 705.7 879.0 88.8
296.0 273.0 268.0 227.5 279.3
258.5 296.0

a. Kiểm tra giả thuyết trọng lượng trung bình là 300 gram với α = 0.05. Tính giá
trị p−value.

b. Giải thích thêm cho kết luận ở phần trên bằng cách sử dụng khoảng tin cậy của
µ.

Bài tập 9.31 Một bài báo năm 1992 trên Tạp chí Hiệp hội Y khoa Hoa Kỳ (“Thẩm
định quan trọng 98.6o F , giới hạn trên của nhiệt độ cơ thể bình thường và các di sản
khác của Carl Reinhold August Wunderlich”) đã báo cáo nhiệt độ cơ thể, giới tính và
nhịp tim cho một số đối tượng. Nhiệt độ cơ thể cho 25 đối tượng nữ theo sau: 97.8,
97.2, 97.4, 97.6, 97.8, 97.9, 98.0, 98.0, 98.0, 98.1, 98.2, 98.3, 98.3, 98.4, 98.4, 98.4, 98.5,
98.6, 98.6, 98.7, 98.8 , 98.8, 98.9, 98.9 và 99.0
a. Kiểm tra giả thuyết H0 : µ = 98.6 có đối thuyết H1 : µ ̸= 98.6 với α = 0.05. Tính
106 9.2. Kiểm định giá trị trung bình của phân phối chuẩn

giá trị p−value.

b. Giải thích thêm cho kết luận ở phần trên bằng cách sử dụng khoảng tin cậy của
µ.

Bài tập 9.32 Hàm lượng natri của hai mươi hộp bắp hữu cơ 300 gram được xác định.
Dữ liệu (tính bằng miligam) như sau: 131.15, 130.69, 130.91, 129.54, 129.64, 128.77,
130.72, 128.33, 128.24, 129.65, 130.14, 129.29, 128.71, 129.00, 129.39, 130.42, 129.53,
130.12, 129.78, 130.92.

a. Bạn hãy kiểm định giá trị trung bình có khác 130 milligram với α = 0.05. Tính
giá trị p−value.

b. Giải thích thêm cho kết luận ở phần trên bằng cách sử dụng khoảng tin cậy của
µ.

Bài tập 9.33 Đo cholesterol ( đơn vị mg%) cho một nhóm người, ta ghi nhận lại được

Chol. 150 - 160 160 - 170 170 - 180 180 - 190 190 - 200 200 - 210
Số người 3 9 11 3 2 1

a. Tính trung bình và phương sai mẫu.

b. Tìm khoảng ước lượng cho trung bình cholesterol trong dân số với độ tin cậy 0.95.

c. Có tài liệu cho biết lượng cholesterol trung bình là 175 mg%. Giá trị này có phù
hợp với mẫu quan sát không ?
( kết luận với α = 0.05).

Bài tập 9.34 Một máy đóng gói các sản phẩm có khối lượng 1kg. Nghi ngờ máy hoạt
động không bình thường, người ta chọn ra một mẫu ngẫu nhiên gồm 100 sản phẩm thì
thấy như sau:

Khối lượng 0.95 0.97 0.99 1.01 1.03 1.05


Số gói 9 31 40 15 3 2

Với mức ý nghĩa 0.05, hãy kết luận về nghi ngờ trên.

Bài tập 9.35 Quan sát số hoa hồng bán ra trong một ngày của một cửa hàng bán hoa
sau một thời gian, người ta ghi được số liệu sau:

Số hoa hồng ( đoá ) 12 13 15 16 17 18 19


Số ngày 3 2 7 7 3 2 1
107

a. Tìm ướcc lượng điểm của số hoa hồng trung bình bán được trong một ngày.

b. Sau khi tính toán, ông chủ cửa hàng nói rằng nếu trung bình một ngày không bán
được 15 đoá hoa thì chẳng thà đóng cửa còn hơn. Dựa vào số liệu trên, anh (chị)
hãy kết luận giúp ông chủ cửa hàng xem có nên tiếp tục bán hay không ở mức ý
nghĩa 0.05.

c. Giả sử những ngày bán được từ 13 đến 17 đoá hồng là những ngày “bình thường”.
Hãy ước lượng tỉ lệ của những ngày bình thường của cửa hàng ở độ tin cậy 90%.
(Giả thiết rằng số hoa bán ra trong ngày có phân phối chuẩn).

Bài tập 9.36 Một xí nghiệp đúc một số rất lớn các sản phẩm bằng thép với số khuyết
tật trung bình ở mỗi sản phẩm là 3. Người ta cải tiến cách sản xuất và kiểm tra 36 sản
phẩm. Kết quả như sau:

Số khuyết tật trên sản phẩm 0 1 2 3 4 5 6


Số sản phẩm tương ứng 7 4 5 7 6 6 1

Giả sử số khuyết tật của các sản phẩm có phân phối chuẩn.

a. Hãy ướcc lượng số khuyết tật trung bình ở mỗi sản phẩm sau khi cải tiến, với độ
tin cậy 90%.

b. Hãy cho kết luận về hiệu quả của việc cải tiến sản xuất với mức ý nghĩa 0.05.

9.3 Kiểm định phương sai

Định lý 9.5 Xét bài toán kiểm định phương sai của một tổng thể của phân phối chuẩn
σ 2 có bằng với một giá trị đặc biệt σ02 (hay tương đương độ lệch chuẩn σ có bằng giá
trị đặc biệt σ0 ) từ một bộ dữ liệu (mẫu ngẫu nhiên) X1 , · · · , Xn được quan trắc từ
tổng thể. Khi đó, ta phát biểu giả thuyết

H0 : σ 2 = σ02 ,
H1 : σ 2 ̸= σ02 ,

với σ0 là giá trị tham số đặc biệt mà ta quan tâm. Ta định nghĩa thống kê cho kiểm
định có phân phối χ2

(n − 1)S 2
X2 = ∼ χ2n−1 .
σ02

Bài tập 9.37 Xét kiểm định H0 : σ 2 = 5 với H1 : σ 2 < 5. Tính giá trị p−value trong
mỗi trường hợp kiểm định thống kê sau:

a. x20 = 25.2 và n = 20. b. x20 = 15.2 và n = 12. c. x20 = 4.2 và n = 15.


108 9.4. Kiểm định tỉ lệ

Bài tập 9.38 Xét kiểm định H0 : σ 2 = 10 với H1 : σ 2 > 10. Tính giá trị p−value trong
mỗi trường hợp kiểm định thống kê sau:

a. x20 = 25.2 và n = 20. b. x20 = 15.2 và n = 12. c. x20 = 4.2 và n = 15.

Bài tập 9.39 Một máy làm đầy tự động được sử dụng để đổ đầy chất tẩy lỏng vào chai.
Một mẫu ngẫu nhiên gồm 20 chai có phương sai mẫu của khối lượng đầy s2 = 0.01553
(chất lỏng ounces)2 . Nếu phương sai khối lượng khác 0.01 (chất lỏng ounces)2 , thì chai
không được chấp nhận vì quá đầy hoặc quá vơi. Có bằng chứng trong dữ liệu mẫu để
cho thấy rằng nhà sản xuất có một sản phẩm quá đầy hoặc quá vơi? Sử dụng α = 0.05,
và giả định rằng khối lượng đổ đầy có phân phối chuẩn.

Bài tập 9.40 Tỷ lệ titan trong một hợp kim được sử dụng trong đúc hàng không vũ trụ
được đo đạc trên 51 mẫu được chọn ngẫu nhiên. Độ lệch chuẩn của mẫu là s = 0.37.

a. Kiểm định giả thuyết H0 : σ = 0.35 với giả thuyết H1 : σ ̸= 0.35 với α = 0.05.
Nêu giả thiết cần thiết về phân phối của dữ liệu để có thể đưa ra kết luận.

b. Tính p−value.

c. Tìm khoảng tin cậy 95% cho σ.

d. Sử dụng kết quả ở trên giải thích kết luận kiểm định.

9.4 Kiểm định tỉ lệ


109

Định lý 9.6 (Kiểm định tỉ lệ của phân phối nhị thức)


Ta phát biểu giả thuyết 
H 0 : p = p0 ,
H1 : p ̸= p0 ,
với p0 là giá trị tham số đặc biệt mà ta quan tâm.
Sử dụng ước lượng trung bình mẫu hay tỉ lệ mẫu f ở chương trước, ta định nghĩa thống
kê cho kiểm định
nf − np0
Z=p ∼ N (0, 1).
np0 (1 − p0 )

Chú ý: xác suất sai lầm loại II được tính theo công thức
p ! p !
f − p0 + zα/2 p0 (1 − p0 )/n f − p0 − zα/2 p0 (1 − p0 )/n
β=Φ p −Φ p
f (1 − f )/n f (1 − f )/n

Người ta có thể suy ra công thức xác định cỡ mẫu để có sai số β cho trước khi biết
α và δ
p p
(zβ f (1 − f ) + zα/2 p0 (1 − p0 ))2
n≃ .
(f − p0 )2

Bài tập 9.41 Một phần mềm thống kê cho ra bảng kết quả:
Test and Cl for One Proportion
Test of p = 0.4 vs p not = 0.4

Variable N Sample p 95% CI Z-Value P-Value


98 275 ? (0.299759, 0.412968) ? ?

Sử dụng xấp xỉ phân phối chuẩn, tính

a. Kết quả này là kiểm định hai bên hay một bên?

b. Tính những chỗ còn thiếu.

c. Tại sao lại xấp xỉ được bằng phân phối chuẩn?

Bài tập 9.42 Một phần mềm thống kê cho ra bảng kết quả:
Test and Cl for One Proportion
Test of p = 0.6 vs p < 0.6

Variable N Sample p 95% CI Z-Value P-Value


287 500 ? ? ? ?

a. Kết quả này là kiểm định hai bên hay một bên?
110 9.4. Kiểm định tỉ lệ

b. Tại sao lại xấp xỉ được bằng phân phối chuẩn?

c. Tính những chỗ còn thiếu.

d. Giả sử đối thuyết là kiểm định 2 bên. Hãy tính p−value.

Bài tập 9.43 Một nhà sản xuất chất bán dẫn sản xuất bộ điều khiển sử dụng trong
công nghệ động cơ ô tô. Khách hàng yêu cầu phần khiếm khuyết ở các bước sản xuất
quan trọng không vượt quá 0.05 và nhà sản xuất chứng minh khả năng xử lý ở mức
chất lượng này bằng cách sử dụng α = 0.05. Nhà sản xuất chất bán dẫn lấy mẫu ngẫu
nhiên gồm 200 thuyết bị và thấy rằng bốn thuyết bị này bị lỗi. Nhà sản xuất có thể
chứng minh khả năng xử lý cho khách hàng không?
(Đs: kết luận rằng quá trình này là có khả năng)

Bài tập 9.44 Sử dụng số liệu của Bài tập 9.43, giả sử quá trình sản xuất thực tế có
p = 0.03. Sai số β sẽ là bao nhiêu nếu n = 200 và α = 0.05? Giả sử rằng nhà sản xuất
chất bán dẫn đã sẵn sàng chấp nhận một sai số β = 0.1 nếu giá trị thực sự của phần
quá trình bị lỗi là p = 0.03 và α = 0.05, kích thước mẫu nào sẽ được yêu cầu?

Bài tập 9.45 Giả sử rằng 1000 khách hàng được khảo sát và 850 người hài lòng hoặc
rất hài lòng với các sản phẩm và dịch vụ của công ty

a. Kiểm định với giả thuyết H0 : p = 0.9 với đối thuyết H1 : p ̸= 0.9 với mức
α = 0.05. Tìm p−value.

b. Giải thích thêm cho kết luận trên bằng cách sử dụng khoảng tin cậy cho p.

Bài tập 9.46 Giả sử người ta kiểm tra 500 thành phần máy móc do một nhà máy sản
xuất và thấy có 10 thành phần bị loại bỏ. Kiểm định giả thuyết H0 : p = 0.03 với đối
thuyết H1 : p < 0.03 và α = 0.05. Tìm p−value.

Bài tập 9.47 Một bài báo trên tạp chí y khoa Anh “So sánh điều trị sỏi thận bằng
phẫu thuật phẫu thuật, cắt bỏ sỏi thận, và Lithotrips sóng bổ sung,” (1986, Vol. 292,
pp. 879–882)] thấy rằng tác động qua da (PN) có tỷ lệ thành công trong việc loại bỏ sỏi
thận của 289 trong số 350 bệnh nhân. Phương pháp truyền thống đạt hiệu quả 78%.
Có bằng chứng gì cho thấy tỉ lệ thành công của PN lớn hơn so với truyền thống với
mức ý nghĩa α = 1%? Tìm p−value.

Bài tập 9.48 Một mẫu ngẫu nhiên gồm 300 mạch có 13 khiếm khuyết.

a. Kiểm định với giả thuyết H0 : p = 0.05 với đối thuyết H1 : p ̸= 0.05 với mức
α = 0.05. Tìm p−value.

b. Giải thích thêm cho kết luận trên bằng cách sử dụng khoảng tin cậy cho p.
111

Bài tập 9.49 Một máy nhà sản xuất ống kính interocular có một máy nghiền mới được
coi là đủ điều kiện nếu có bằng chứng cho thấy tỷ lệ phần trăm của các thấu kính được
đánh bóng có chứa khuyết tật bề mặt không vượt quá 2%. Một mẫu ngẫu nhiên gồm
250 thấu kính thì chứa sáu ống kính bị lỗi.

a. Xây dựng và kiểm tra giả thuyết phù hợp để xác định xem máy có đủ điều kiện
hay không. Giả sử α = 0.05, hày tìm p−value.

b. Giải thích thêm cho kết luận trên bằng cách sử dụng khoảng tin cậy cho p.

Bài tập 9.50 Một bài báo trên tạp chí Fortune (ngày 21 tháng 9 năm 1992) tuyên bố
rằng gần một nửa số kỹ sư tiếp tục học bậc học sau ĐH, cuối cùng nhận được bằng
Thạc sĩ hoặc Tiến sĩ. Dữ liệu từ bài viết trong Horizons Engineering (Mùa xuân 1990)
cho thấy rằng 117 trong số 484 sinh viên tốt nghiệp ngành kỹ thuật có kế hoạch học
sau đại học.

a. Dữ liệu từ Engineering Horizons có phù hợp với yêu cầu của Fortune không? Sử
dụng α = 0.05 để đưa ra kết luận của bạn. Tìm p−value cho kiểm định trên.

b. Giải thích thêm kết luận trên bằng khoảng tin cậy cho p.

Bài tập 9.51 Một nhà nghiên cứu tuyên bố rằng ít nhất 10% của tất cả các mũ bảo
hiểm bóng đá có lỗi sản xuất có khả năng có thể gây thương tích cho người đội. Một
mẫu 200 mũ bảo hiểm cho thấy 16 mũ bảo hiểm chứa các khuyết tật như vậy.

a. Phát hiện này có ủng hộ tuyên bố của nhà nghiên cứu không?

b. Giải thích thêm cho kết luận trên bằng cách sử dụng khoảng tin cậy cho p.

Bài tập 9.52 Quảng cáo pin của một hãng sản xuất điện thoại di động được biết là sẽ
hoạt động liên tục 48 giờ hoạt động, với các một lần sạc pin đúng yêu cầu kĩ thuật. Một
nghiên cứu về 5000 pin được thực hiện và 15 ngừng hoạt động trước 48 giờ. Những kết
quả thử nghiệm này có ủng hộ cho tuyên bố rằng dưới 0.2% pin của công ty sẽ không
hoạt động như trong khoảng thời gian được quảng cáo, với các một lần sạc pin đúng
yêu cầu kĩ thuật không? Sử dụng kiểm định giả thuyết trên với α = 0.01.

Bài tập 9.53 Trong một mẫu ngẫu nhiên gồm 85 vòng bi trục khuỷu động cơ ô tô
trong đó có 10 vòng độ nhám bề mặt hoàn thiện vượt quá các thông số kỹ thuật. Dữ
liệu này có cho thấy bằng chứng rõ ràng rằng tỷ lệ vòng bi trục khuỷu có độ nhám bề
mặt vượt quá 0.10?

a. Phát biểu và kiểm định giả thuyết trên với mức α = 0.05.

b. Nếu p thực sự là 0.15, hãy tính xác suất để không bác bỏ giả thuyết H0 (sai số
β)?

c. Nếu p = 0.15, cỡ mẫu phải là bao nhiêu để xác suất bác bỏ đúng giả thiết H0 với
xác suất 0.9?
112 9.4. Kiểm định tỉ lệ
10. KIỂM ĐỊNH GIẢ THUYẾT HAI MẪU 113

10.1 Kiểm định so sánh hai trung bình của hai tổng thể
phân phối chuẩn 113
10.1.1 Kiểm định so sánh hai trung bình khi biết
phương sai
10.1.2 Kiểm định so sánh hai trung bình khi
phương sai bằng nhau chưa biết
10.1.3 Kiểm định so sánh hai trung bình khi
phương sai khác nhau chưa biết

10.2 Kiểm định so sánh hai phương sai của hai tổng thể
phân phối chuẩn 121

10.3 Kiểm định so sánh hai tỉ lệ của hai tổng thể phân
phối nhị thức 122

10.1 Kiểm định so sánh hai trung bình của hai tổng thể phân phối chuẩn
Giả thiết chung cho chương này là hai mẫu phải thỏa các điều kiện:
i. Quan trắc X11 , · · · , X1n1 là một mẫu ngẫu nhiên lấy từ tổng thể thứ nhất.
ii. Quan trắc X21 , · · · , X2n2 là một mẫu ngẫu nhiên lấy từ tổng thể thứ hai.
iii. Hai tổng thế đại diện bởi X1 , X2 là độc lập nhau.
iv. Cả hai tổng thể đều có phân phối chuẩn.

10.1.1 Kiểm định so sánh hai trung bình khi biết phương sai

Định lý 10.1 Ta phát biểu giả thuyết



H0 : µ 1 − µ 2 = ∆ 0 ,
H1 : µ1 − µ2 ̸= ∆0 ,

với ∆0 là giá trị khác nhau đặc biệt mà ta quan tâm. Ta định nghĩa thống kê cho kiểm
định có phân phối chuẩn

X 1 − X 2 − ∆0
Z=p 2 ∼ N (0, 1).
σ1 /n1 + σ22 /n2

Chú ý: giả sử giả thuyết H0 là sai và giá trị trung bình đúng là µ = µ0 + ∆ với ∆ > 0,
khi đó xác suất sai lầm loại II được tính theo công thức
! !
∆ − ∆0 ∆ − ∆0
β = Φ zα/2 − p 2 − Φ −zα/2 − p 2 .
σ1 /n1 + σ22 /n2 σ1 /n1 + σ22 /n2

Vì !
∆ − ∆0
Φ −zα/2 − p 2 ≃ 0,
σ1 /n1 + σ22 /n2
114 10.1. Kiểm định so sánh hai trung bình của hai tổng thể phân phối chuẩn

nên người ta có thể suy ra công thức xác định cỡ mẫu n = n1 = n2 để có giá trị β khi
biết trước α và ∆

(zβ + zα/2 )2 (σ12 + σ22 )


n≃ .
(∆ − ∆0 )2

Bài tập 10.1 Xét giả thuyết H0 : µ1 = µ2 với đối thuyết H1 : µ1 ̸= µ2 của hai
tổng thể có σ1 = 10 và σ2 = 5. Giả sử cỡ mẫu n1 = 10, n2 = 15 và trung bình mẫu
x1 = 4.7, x2 = 7.8. Sử dụng mức ý nghĩa α = 0.05

a. Kiểm định giả thuyết trên và tìm p−value.

b. Tính độ mạnh của kiểm định nếu µ1 hơn µ2 đúng ba đơn vị.

c. Giả sử hai mẫu có kích thước bằng nhau, cỡ mẫu đó phải là bao nhiêu để µ1 hơn
µ2 đúng ba đơn vị có sai số β = 0.05 biết α = 0.05.

Bài tập 10.2 Xét giả thuyết H0 : µ1 = µ2 với đối thuyết H1 : µ1 < µ2 của hai
tổng thể có σ1 = 10 và σ2 = 5. Giả sử cỡ mẫu n1 = 10, n2 = 15 và trung bình mẫu
x1 = 14.2, x2 = 19.7. Sử dụng mức ý nghĩa α = 0.05

a. Kiểm định giả thuyết trên và tìm p−value.

b. Tính độ mạnh của kiểm định nếu µ1 hơn µ2 đúng bốn đơn vị.

c. Giả sử hai mẫu có kích thước bằng nhau, cỡ mẫu đó phải là bao nhiêu để µ1 hơn
µ2 đúng bốn đơn vị có sai số β = 0.05 biết α = 0.05.

Bài tập 10.3 Xét giả thuyết H0 : µ1 = µ2 với đối thuyết H1 : µ1 > µ2 của hai
tổng thể có σ1 = 10 và σ2 = 5. Giả sử cỡ mẫu n1 = 10, n2 = 15 và trung bình mẫu
x1 = 24.5, x2 = 21.3. Sử dụng mức ý nghĩa α = 0.01

a. Kiểm định giả thuyết trên và tìm p−value.

b. Tính độ mạnh của kiểm định nếu µ1 hơn µ2 đúng hai đơn vị.

c. Giả sử hai mẫu có kích thước bằng nhau, cỡ mẫu đó phải là bao nhiêu để µ1 hơn
µ2 đúng hai đơn vị có sai số β = 0.05 biết α = 0.05.

Bài tập 10.4 Hai máy được sử dụng để làm đầy các chai nhựa với khối lượng tịnh là
16.0 ounce. Khối lượng làm đầy có thể được giả định có phân phối chuẩn, với độ lệch
chuẩn σ1 = 0.020 và σ2 = 0.025 ounce. Một thành viên của đội ngũ nhân viên kỹ thuật
chất lượng nghi ngờ rằng cả hai máy đều có cùng khối lượng trung bình, dù khối lượng
này có là 16.0 ounce hay không. Một mẫu ngẫu nhiên gồm 10 chai được lấy từ đầu ra
của mỗi máy:

Máy 1: 16.03 16.01 16.04 15.96 16.05 15.98 16.05 16.02 16.02 15.99
Máy 2: 16.02 16.03 15.97 16.04 15.96 16.02 16.01 16.01 15.99 16.00
115

a. Suy nghĩ của đội ngũ kỹ sư đúng? Sử dụng α = 0.05. Tìm p−value.

b. Tính độ mạnh của kiểm định nếu sự khác nhau của 2 trung bình đúng bằng 0.04.

c. Giả sử hai mẫu có kích thước bằng nhau, cỡ mẫu đó phải là bao nhiêu để µ1 khác
µ2 đúng bằng 0.04 có sai số β = 0.05 biết α = 0.05.

Bài tập 10.5 Hai loại nhựa phù hợp để sử dụng cho một nhà sản xuất linh kiện điện tử.
Sức mạnh chịu sự phá hủy của loại nhựa này là quan trọng. Được biết, σ1 = σ2 = 1 psi.
Từ một mẫu ngẫu nhiên có kích thước n1 = 10 và n2 = 12, ta có được x1 = 162.5 và
x1 = 155.0. Công ty sẽ không áp dụng nhựa loại 1 trừ khi sức chịu phá vỡ trung bình
của nó vượt quá nhựa loại 2 ít nhất 10 psi.

a. Trên cơ sở thông tin đó, ta có nên sử dụng nhựa loại 1? Sử dụng α = 0.05 đưa ra
câu trả lời. Tìm p−value.

b. Giả sử sự khác nhau giữa chúng đúng là 12 psi. Tính độ mạnh của kiểm định với
α = 0.05.

c. Giả sử sự khác nhau giữa chúng đúng là 12 psi. Cỡ mẫu ở câu a có đủ để có


khẳng định đúng đắn?

Bài tập 10.6 Tốc độ cháy của hai loại nguyên liệu rắn sử dụng trong động cơ tên lửa
được nghiên cứu. Được biết tốc độ cháy của hai loại này có xấp xỉ phân phối chuẩn với
σ1 = σ2 = 3 cm/s. Hai mẫu ngẫu nhiên với cỡ mẫu n1 = n2 = 20 được xem xét có tốc
độ cháy trung bình x1 = 18 cm/s và x2 = 24 cm/s.

a. Kiểm định xem hai loại này có cùng trung bình hay không? Với α = 0.05, hãy
tìm p−value.

b. Hãy tìm sai số β của phần trên nếu biết sự khác nhau của hai trung bình đúng
bằng 2.5 cm/s.

c. Giả sử hai mẫu ngẫu nhiên có cùng cỡ, hãy tìm cỡ mẫu để có được độ mạnh kiểm
định là 0.9 với sự khác nhau của trung bình đúng bằng 14 cm/s.

Bài tập 10.7 Hai công thức khác nhau của nhiên liệu động cơ ôxy hóa đang được thử
nghiệm để nghiên cứu số octane của chúng. Phương sai chỉ số octane của công thức thứ
nhất σ12 = 1.5 và công thức thứ hai σ22 = 1.2. Hai mẫu ngẫu nhiên có cỡ mẫu n1 = 15 và
n2 = 20 được nghiên cứu có chỉ số octane trung bình lần lượt là x1 = 89.6 và x2 = 92.5.
Với giả sử có phân phối chuẩn

a. Nếu công thức 2 tạo ra một số octane cao hơn so với công thức 1, nhà sản xuất
muốn phát hiện nó. Xây dựng và kiểm định giả thuyết thích hợp sử dụng α = 0.05
và tính p−value.

b. Cỡ mẫu bao nhiêu sẽ được yêu cầu trong mỗi tổng thể nếu bạn muốn tin tưởng
95% rằng sai số trong sự khác biệt trong chỉ số octane trung bình nhỏ hơn 1?
116 10.1. Kiểm định so sánh hai trung bình của hai tổng thể phân phối chuẩn

10.1.2 Kiểm định so sánh hai trung bình khi phương sai bằng nhau chưa
biết

Định lý 10.2 Ta phát biểu giả thuyết



H0 : µ 1 − µ 2 = ∆ 0 ,
H1 : µ1 − µ2 ̸= ∆0 ,

với ∆0 là giá trị khác nhau đặc biệt mà ta quan tâm. Ta định nghĩa thống kê cho kiểm
định có phân phối Student

X 1 − X 2 − (µ1 − µ2 )
T = p ∼ t(n1 + n2 − 2),
Sp 1/n1 + 1/n2

với một ước lượng phương sai gộp của σ1 = σ2 = σ là Sp2 được định nghĩa

(n1 − 1)S12 + (n2 − 1)S22


Sp2 = .
n1 + n2 − 2

Code R 10.1 Chạy các lệnh sau rồi giải thích

R > x <- rnorm(100)


R > y <- rnorm(100, mean=1)
R > t.test(x, y,var.equal = TRUE)

Bài tập 10.8 Xét kiểm định giả thuyết H0 : µ1 = µ2 với đối thuyết H1 : µ1 ̸= µ2 . Với
cỡ mẫu n1 = n2 = 15 có x1 = 4.7, x2 = 7.8 và s21 = 4, s22 = 6.25, giả sử σ12 = σ22 và mẫu
lấy từ phân phối chuẩn. Sử dụng α = 0.05, tính

a. Kiểm định giả thuyết trên và tìm p−value.

b. Tính độ mạnh của kiểm định trên nếu hai trung bình thực sự khác nhau 3 đơn vị.

c. Giả sử cỡ mẫu bằng nhau, sử dụng cỡ mẫu bao nhiêu để có được β = 0.05 nếu
trung bình khác nhau bằng -2 với α = 0.05.

Bài tập 10.9 Xét kiểm định giả thuyết H0 : µ1 = µ2 với đối thuyết H1 : µ1 ̸= µ2 . Với
cỡ mẫu n1 = n2 = 15 có x1 = 6.2, x2 = 7.8 và s21 = 4, s22 = 6.25, giả sử σ12 = σ22 và mẫu
lấy từ phân phối chuẩn. Sử dụng α = 0.05, tính

a. Kiểm định giả thuyết trên và tìm p−value.

b. Tính độ mạnh của kiểm định trên nếu µ1 nhỏ hơn µ2 đúng 3 đơn vị.

c. Giả sử cỡ mẫu bằng nhau, sử dụng cỡ mẫu bao nhiêu để có được β = 0.05 nếu µ1
nhỏ hơn µ2 đúng 2.5 đơn vị với α = 0.05.
117

Bài tập 10.10 Xét kiểm định giả thuyết H0 : µ1 = µ2 với đối thuyết H1 : µ1 ̸= µ2 . Với
cỡ mẫu n1 = n2 = 10 có x1 = 7.8, x2 = 5.6 và s21 = 4, s22 = 9, giả sử σ12 = σ22 và mẫu lấy
từ phân phối chuẩn. Sử dụng α = 0.05, tính

a. Kiểm định giả thuyết trên và tìm p−value.

b. Tính độ mạnh của kiểm định trên nếu µ1 lớn hơn µ2 đúng 3 đơn vị.

c. Giả sử cỡ mẫu bằng nhau, sử dụng cỡ mẫu bao nhiêu để có được β = 0.05 nếu µ1
lớn hơn µ2 đúng 3 đơn vị với α = 0.05.

Bài tập 10.11 Đường kính của các thanh thép được sản xuất trên hai máy đúc khác
nhau đang được nghiên cứu. Hai mẫu ngẫu nhiên có cỡ mẫu n1 = 15, n2 = 17 được
chọn có trung bình và phương sai mẫu x1 = 8.73, s21 = 0.35 và x2 = 8.68, s21 = 0.40.
Giả sử rằng σ12 = σ22 và quan trắc lấy có phân phối chuẩn. Có bằng chứng để khẳng
định rằng hai máy sản xuất thanh thép có đường kính trung bình khác nhau? Sử dụng
α = 0.05 khi đưa ra kết luận này. Tìm giá trị p?

Bài tập 10.12 Hai chất xúc tác có thể được sử dụng trong một phản ứng hóa học hàng
loạt. Mười hai lô được sử dụng chất xúc tác 1, dẫn đến năng suất trung bình là 86 và
độ lệch chuẩn mẫu là 3. Mười lăm lô được sử dụng chất xúc tác 2, và kết quả là năng
suất trung bình 89 với độ lệch chuẩn là 2. Giả sử năng suất các phép đo xấp xỉ thường
được phân phối với cùng độ lệch chuẩn. Có bằng chứng để khẳng định rằng chất xúc
tác 2 tạo ra năng suất trung bình cao hơn chất xúc tác 1? Sử dụng α = 0.01.

Bài tập 10.13 Trong sản xuất chất bán dẫn, khắc hóa chất ướt thường được sử dụng
để loại bỏ silic từ mặt sau của tấm wafer trước khi kim loại hóa. Tỷ lệ etch là một đặc
tính quan trọng trong quá trình này và được biết là tuân theo sự phân bố chuẩn. Hai
giải pháp khắc khác nhau đã được so sánh bằng cách sử dụng hai mẫu ngẫu nhiên gồm
10 tấm mỏng cho mỗi dung dịch. Tỷ lệ etch quan sát được như sau (trong mils mỗi
phút):

Mẫu 1: 9.9 10.6 9.4 10.3 9.3 10.0 9.6 10.3 10.2 10.1
Mẫu 2: 10.2 10.0 10.6 10.2 10.7 10.7 10.4 10.4 10.5 10.3

a. Xây dựng đồ thị xác suất phân phối chuẩn cho hai mẫu. Từ đó rút ra giả thiết
hai mẫu có phân phối chuẩn và cùng phương sai.

b. Dữ liệu có hỗ trợ tuyên bố rằng tỷ lệ etch trung bình là giống nhau cho cả hai
giải pháp? Để đạt được kết luận của bạn, sử dụng α = 0.05 và giả sử rằng cả hai
phương sai giống nhau. Tính giá trị p.

Bài tập 10.14 Các điểm nóng chảy của hai hợp kim được sử dụng trong công thức hàn
được điều tra bằng cách làm tan chảy 21 mẫu của mỗi vật liệu. Trung bình mẫu và độ
lệch chuẩn mẫu của hợp kim thứ nhất là x1 = 420o F, s1 = 4o F và của hợp kim thứ hai
là x1 = 426o F , s1 = 3o F .
118 10.1. Kiểm định so sánh hai trung bình của hai tổng thể phân phối chuẩn

a. Dữ liệu mẫu có hỗ trợ cho rằng cả hai hợp kim có cùng điểm nóng chảy không?
Sử dụng α = 0.05 và giả định rằng cả hai tổng thể thường có phân phối chuẩn và
có cùng độ lệch chuẩn. Tìm giá trị p cho kiểm định.

b. Giả sử rằng sự khác biệt trung bình thực sự ở các điểm nóng chảy là 3o F . Cỡ
mẫu sẽ được yêu cầu để phát hiện sự khác biệt này bằng cách sử dụng kiểm định
mức α = 0.05 với xác suất ít nhất là 0.9? Sử dụng σ1 = σ2 = 4 làm ước lượng
ban đầu về độ lệch chuẩn chung.

Bài tập 10.15 Một bài viết trong Hội nghị Công nghệ và Linh kiện Điện tử (2001, Vol.
52, pp. 1167–1171) đã so sánh trục đơn so với trục kép trong quy trình sản xuất các
tấm kim loại đồng. Tổng cộng 15 thiết bị của mỗi loại được đo chiều rộng của chipout
mặt sau, xs = 66.385, ss = 7.895 và xd = 45.278, ss = 8.612.

a. Dữ liệu mẫu có hỗ trợ khẳng định rằng cả hai quy trình đều có cùng kết quả đầu
ra của chip? Sử dụng α = 0.05 và giả định rằng cả hai tổng thể có phân phối
chuẩn cùng phương sai. Tìm giá trị p cho kiểm định.

b. Nếu sai số β của sự khác nhau thực sự của trung bình trong các đầu ra của chip
là 15 không được vượt quá 0.1, thì phải sử dụng cỡ mẫu nào? Sử dụng α = 0.05.

Bài tập 10.16 Một bài báo về Kỹ thuật Radio và Vật lý điện tử [1984, Vol. 29 No.(3),
pp. 63-66] đã nghiên cứu hành vi của một máy phát ngẫu nhiên khi có tiếng ồn bên
ngoài. Số chu kỳ được đo trong một mẫu là 100 lần với hai mức điện áp nhiễu khác
nhau, 100 và 150mV . Với 100mV , số chu kì trung bình là 7.9 với s = 2.6. Với 150 mV,
giá trị trung bình là 6.9 với s = 2.4.
Ban đầu, người ta nghi ngờ rằng việc tăng điện áp tiếng ồn sẽ làm giảm số chu kỳ trung
bình. Dữ liệu có hỗ trợ xác nhận này không? Sử dụng α = 0.01 và giả định rằng hai
tổng thể có phân phối chuẩn cùng phương sai. Giá trị p của kiểm định?

10.1.3 Kiểm định so sánh hai trung bình khi phương sai khác nhau chưa
biết

Định lý 10.3 Ta phát biểu giả thuyết



H0 : µ 1 − µ 2 = ∆ 0 ,
H1 : µ1 − µ2 ̸= ∆0 ,

với ∆0 là giá trị khác nhau đặc biệt mà ta quan tâm. Ta định nghĩa thống kê cho kiểm
định có phân phối Student

X 1 − X 2 − (µ1 − µ2 )
T0 = p ∼ t(ν),
S12 /n1 + S22 /n2

với bậc tự do 
 2  
 S1 /n1 + S22 /n2 2 
ν = (S 2 /n )2 (S 2 /n )2  ,

1 2
n1 −1 + n2 −1
1 2
119

trong đó ⌊x⌋ là kí hiệu phần nguyên dưới của x (số nguyên lớn nhất bé hơn hoặc bằng
x).

Code R 10.2 Chạy các lệnh sau rồi giải thích

R > x <- rnorm(100)


R > y <- rnorm(100, mean=1)
R > t.test(x, y,var.equal = FALSE)

Bài tập 10.17 Một bài báo về Suy thoái và Ổn định Polymer (2006, Tập 91) trình bày
dữ liệu từ một nghiên cứu chín năm về bọt S537. Các mẫu bọt được nén tới 50% độ
dày ban đầu của chúng và được bảo quản ở các nhiệt độ khác nhau trong chín năm.
Khi bắt đầu thử nghiệm cũng như trong mỗi năm, độ dày mẫu được đo và độ dày của
tám mẫu tại từng điều kiện lưu trữ được ghi lại. Dữ liệu cho hai điều kiện lưu trữ:

50o C: 0.047, 0.060, 0.061, 0.064, 0.080, 0.090, 0.118, 0.165, 0.183
60o C: 0.062, 0.105, 0.118, 0.137, 0.153, 0.197, 0.210, 0.250, 0.375

Có bằng chứng nào để hỗ trợ cho khẳng định rằng trung bình nén có tăng theo nhiệt
độ ở điều kiện bảo quản không với mức ý nghĩa α = 0.05?

Bài tập 10.18 Dữ liệu sau thể hiện thời lượng của các bộ phim được sản xuất bởi hai
công ty điện ảnh
Công ty Thời lượng (phút)
1 102 86 98 109 92
2 81 165 97 134 92 87 114

Kiểm định giả thuyết rằng thời lượng trung bình của các bộ phim được sản xuất bởi
công ty 2 dài hơn thời lượng trung bình của các bộ phim được sản xuất bởi công ty 1
là 10 phút với đối thuyết một phía là sự khác nhau là nhỏ hơn 10 phút. Sử dụng mức
ý nghĩa 0.1 và giả sử các phân phối của thời lượng là xấp xỉ chuẩn với các phương sai
khác nhau.

Bài tập 10.19 Trong một nghiên cứu được thực hiện tại Học Viện Kỹ Thuật Virginia,
mức axit ascobic plasma của phụ nữ có thai được so sánh ở những người hút thuốc với
những người không hút thuốc. Ba mươi hai phụ nữ trong ba tháng cuối của thai kỳ,
không bị rối loạn sức khỏe nghiêm trọng và có tuổi từ 15 đến 32, được chọn cho nghiên
cứu. Trước khi thu thập 20 ml máu, những người tham gia được yêu cầu không ăn
sáng, không dùng thuốc bổ sung vitamin, và hạn chế các thực phẩm có hàm lượng axit
ascobic cao. Từ các mẫu máu, các giá trị axit ascobic plasma sau được xác định, theo
mg mỗi 100 ml
120 10.1. Kiểm định so sánh hai trung bình của hai tổng thể phân phối chuẩn

Các giá trị Axit Ascobic Plasma


Những người không hút thuốc Những người hút thuốc
0.97 1.16 0.48
0.72 0.86 0.71
1.00 0.85 0.98
0.81 0.58 0.68
0.62 0.57 1.18
1.32 0.64 1.36
1.24 0.98 0.78
0.99 1.09 1.64
0.90 0.92
0.74 0.78
0.88 1.24
0.94 1.18

Hỏi có đủ bằng chứng để kết luận rằng có sự khác nhau giữa mức axit ascobic plasma
của những người hút thuốc và không hút thuốc hay không? Giả sử rằng hai tập dữ liệu
đến từ các tổng thể chuẩn với các phương sai khác nhau. Sử dụng p-value kết luận với
mức ý nghĩa α = 0.01.

Bài tập 10.20 Một nghiên cứu được thực hiện bởi Khoa Động Vật Học tại Học Viện
Kỹ Thuật Virginia để xác định xem có sự khác biệt có ý nghĩa nào không trong mật độ
sinh vật tại hai trạm khác nhau đặt tại Cedar Run, một dòng sông nhỏ thứ cấp trong
lưu vực sông Roanoke. Nước thải từ một công ty xử lý nước thải tràn từ hồ chứa của
Tổng Công Ty Mogul Liên Bang vào dòng sông gần thượng nguồn. Dữ liệu sau cho các
số đo mật độ, tính theo số sinh vật trên mỗi mét vuông, tại hai trạm thu thập:
Số sinh vật trên mỗi mét vuông
Trạm 1 Trạm 2
5030 4980 2800 2810
13,700 11,910 4670 1330
10,730 8130 6890 3320
11,400 26,850 7720 1230
860 17,660 7030 2130
2200 22,800 7330 2190
4250 1130
15,040 1690

Hỏi ta có thể kết luận, tại mức ý nghĩa 0.05, rằng các mật độ trung bình tại hai trạm là
bằng nhau không? Giả sử rằng các quan trắc đến từ các tổng thể chuẩn với các phương
sai khác nhau.

Bài tập 10.21 Một quản lý công ty taxi đang cố gắng quyết định xem việc sử dụng
vỏ xe radial thay vì vỏ có lớp bố xiên thông thường có tiết kiệm nhiên liệu hơn không.
Mười hai xe hơi được trang bị các vỏ xe radial và được lái theo một bài kiểm tra quy
chuẩn. Không thay đổi tài xế, các xe trên sau đó được trang bị vỏ có lớp bố xiên thông
thường và được lái một lần nữa theo bài kiểm tra trên. Nhiên liệu tiêu thụ, theo kilomet
121

mỗi lít, được ghi lại như sau:


Số kilomet mỗi Lít
Xe Vỏ Radial Vỏ bố xiên
1 4.2 4.1
2 4.7 4.9
3 6.6 6.2
4 7.0 6.9
5 6.7 6.8
6 4.5 4.4
7 5.7 5.7
8 6.0 5.8
9 7.4 6.9
10 4.9 4.7
11 6.1 6.0
12 5.2 4.9

Ta có thể kết luận rằng các xe hơi được trang bị vỏ xe radial có mức tiêu hao nhiên liệu
tốt hơn những xe được trang bị vỏ bố xiên không? Giả sử các tổng thể có phân phối
chuẩn. Sử dụng p-value trong kết luận của bạn với mức ý nghĩa 1%.

10.2 Kiểm định so sánh hai phương sai của hai tổng thể phân phối chuẩn

Định lý 10.4 Ta phát biểu giả thuyết



H0 : σ12 = σ22 ,
H1 : σ12 ̸= σ22 ,

Ta định nghĩa thống kê cho kiểm định có phân phối Fisher (xem trang 75)

S12
F = ∼ F (n1 − 1; n2 − 1).
S22

Kết luận: bác bỏ H0 nếu F0 > fα/2,n1 −1,n2 −1 hoặc F0 < 1/fα/2,n2 −1,n1 −1 với
fα/2,n1 −1,n2 −1 thỏa P(F > fα/2,n1 −1,n2 −1 ) = α/2 với F ∼ F (n1 − 1; n2 − 1). Ngược lại
thì chấp nhận.
Đặc biệt:

i. Nếu H1 : σ12 > σ22 thì ta sẽ bác bỏ giả thuyết H0 khi F0 > fα,n1 −1,n2 −1 .

ii. Nếu H1 : σ12 < σ22 thì ta sẽ bác bỏ giả thuyết H0 khi F0 < 1/fα,n2 −1,n1 −1 .

Chú ý: phân phối Fisher có tính chất

1
f1−α,u,v = .
fα,v,u
122 10.3. Kiểm định so sánh hai tỉ lệ của hai tổng thể phân phối nhị thức

Code R 10.3 Sử dụng lệnh var.test để kiểm định hai phương sai.

Bài tập 10.22 Cho giả thuyết H0 : σ12 = σ22 với đối thuyết H1 : σ12 < σ22 . Cho trước
n1 = 5, n2 = 10 và s21 = 23.3, s22 = 28.8. Sử dụng mức α = 0.05, hãy kiểm định giả
thuyết trên.

Bài tập 10.23 Cho giả thuyết H0 : σ12 = σ22 với đối thuyết H1 : σ12 > σ22 . Cho trước
n1 = 20, n2 = 8 và s21 = 4.5, s22 = 2.3. Sử dụng mức α = 0.01, hãy kiểm định giả thuyết
trên.

Bài tập 10.24 Cho giả thuyết H0 : σ12 = σ22 với đối thuyết H1 : σ12 ̸= σ22 . Cho trước
n1 = 15, n2 = 15 và s21 = 2.3, s22 = 1.9. Sử dụng mức α = 0.05, hãy kiểm định giả thuyết
trên.

Bài tập 10.25 Hai công ty hóa chất cùng cung cấp một loại nguyên liệu thô. Nồng độ
của một nguyên tố cụ thể trong vật liệu này là quan trọng. Nồng độ trung bình do cả
hai nhà cung cấp là như nhau, nhưng bạn nghi ngờ rằng sự thay đổi về nồng độ có thể
khác nhau đối với hai công ty. Độ lệch chuẩn của nồng độ trong một mẫu ngẫu nhiên
có cỡ mẫu n1 = 10 lô được sản xuất bởi công ty 1 là s1 = 4.7 gam/lít và đối với công
ty 2, một mẫu ngẫu nhiên có cỡ mẫu n2 = 16 lô sản lượng s2 = 5.8 gam/lít. Có bằng
chứng đủ để kết luận rằng hai phương sai là khác nhau? Sử dụng α = 0.05.

Bài tập 10.26 Một nghiên cứu được thực hiện để xác định liệu nam giới và nữ giới có
khác nhau về độ lặp lại trong việc lắp ráp các thành phần trên các bảng mạch in hay
không. Các mẫu ngẫu nhiên gồm 25 người đàn ông và 21 phụ nữ đã được chọn, và mỗi
người cùng làm các đơn vị công việc như nhau. Hai độ lệch chuẩn của thời gian lắp ráp
là smen = 0.98 phút và swomen = 1.02 phút. Có bằng chứng nào để ủng hộ tuyên bố
rằng đàn ông và phụ nữ khác nhau về tính lặp lại cho nhiệm vụ lắp ráp này không? Sử
dụng α = 0.02 và nêu rõ bất kỳ giả định cần thiết nào về phân phối dữ liệu cần.

Bài tập 10.27 Kiểm định giả thuyết H0 : σ12 = σ22 với đối thuyết H1 : σ12 ̸= σ22 với số
liệu từ Bài tập 10.11 - 10.17 với mức α = 0.05.

10.3 Kiểm định so sánh hai tỉ lệ của hai tổng thể phân phối nhị thức

Định lý 10.5 Ta phát biểu giả thuyết



H 0 : p1 = p 2 ,
H1 : p1 ̸= p2 ,

Ta định nghĩa thống kê cho kiểm định có phân phối chuẩn


123

f1 − f2
Z0 = p ∼ N (0; 1),
f (1 − f )(1/n1 + 1/n2 )

với ước lượng tỉ lệ gộp f = (f1 n1 + f2 n2 )/(n1 + n2 ).

Code R 10.4 Chạy đoạn code sau rồi giải thích kết quả

R > tab1=matrix(c(94,39, 120,89),nc=2)


R > prop.test(tab1, correct=FALSE)
R > prop.test(x = c(490, 400), n = c(500, 500))

Bài tập 10.28 Trong cuộc bầu cử tổng thống năm 2004, các cuộc thăm dò ý kiến từ
tiểu bang quan trọng của Ohio đã cung cấp các kết quả sau: những người được hỏi có
trình độ đại học, 53% đã bầu cho Bush và 46% đã bỏ phiếu cho Kerry. Có 2020 người
trả lời. Có sự khác biệt đáng kể trong các tỷ lệ này không? Sử dụng α = 0.05. Giá trị
p?

Bài tập 10.29 Hai loại máy ép phun khác nhau được sử dụng để tạo thành các bộ
phận bằng nhựa. Một phần được coi là khiếm khuyết nếu nó bị co rút quá mức hoặc bị
đổi màu. Hai mẫu ngẫu nhiên, mỗi mẫu có kích thước 300, được chọn, và 15 bộ phận
bị lỗi được tìm thấy trong mẫu từ máy 1, và 8 bộ phận bị lỗi được tìm thấy trong mẫu
từ máy 2. Có hợp lý để kết luận rằng cả hai máy sản xuất cùng một tỉ lệ các bộ phận
lỗi, sử dụng α = 0.05? Tìm giá trị p cho kiểm định này.

Bài tập 10.30 Hai loại giải pháp khác nhau về cách đánh bóng đang được đánh giá để
sử dụng trong một hoạt động đánh bóng sản xuất ống kính interocular được dùng trong
mắt người sau phẫu thuật đục thủy tinh thể. Ba trăm thấu kính đã được đánh bóng
bằng cách sử dụng giải pháp đánh bóng thứ nhất và 253 sản phẩm không có khuyết tật
do đánh bóng. 300 ống kính khác được đánh bóng bằng cách sử dụng cách đánh bóng
thứ hai và 196 ống kính đã đạt yêu cầu sau khi hoàn thành. Có lý do nào để tin rằng
hai giải pháp đánh bóng khác nhau không? Sử dụng α = 0.05. Giá trị p cho kiểm định
này là bao nhiêu?

Bài tập 10.31 Trong một vùng dân cư có 18 bé trai và 28 bé gái mắc bệnh B. Hỏi
rằng tỷ lệ nhiễm bệnh của bé trai và bé gái có như nhau không? (Kết luận với α = 0.05
và giả sử rằng số lượng bé trai và bé gái trong vùng tương đương nhau, và rất nhiều).

Bài tập 10.32 Một mẫu ngẫu nhiên 500 cư dân trưởng thành của Quận Maricopa chỉ
ra rằng 385 ủng hộ việc tăng giới hạn tốc độ đường cao tốc lên 75 dặm một giờ, và một
mẫu khác gồm 400 cư dân trưởng thành của Hạt Pima đã chỉ ra rằng 267 đã ủng hộ
giới hạn tốc độ tăng lên. Những dữ liệu này cho thấy có sự khác biệt trong việc hỗ trợ
tăng giới hạn tốc độ cho cư dân của hai quận? Sử dụng α = 0.05. Giá trị p cho kiểm
định này là bao nhiêu?
124 10.3. Kiểm định so sánh hai tỉ lệ của hai tổng thể phân phối nhị thức

Bài tập 10.33 Ô nhiễm không khí có liên quan đến việc giảm cân ở trẻ sơ sinh. Trong
một nghiên cứu được công bố trên Tạp chí của Hiệp hội Y khoa Hoa Kỳ, các nhà nghiên
cứu đã kiểm tra tỷ lệ trẻ sơ sinh nhẹ cân được sinh ra từ các bà mẹ tiếp xúc với liều
lượng bồ hóng và tro nặng trong vụ tấn công của Trung tâm Thương mại Thế giới ngày
11/9/2001. Có 182 đứa bé sinh ra từ những bà mẹ này, 15 đứa được xếp loại có trọng
lượng thấp. Trong số 2300 trẻ sinh ra trong cùng một khoảng thời gian ở New York ở
một bệnh viện khác, 92 đứa được phân loại là có trọng lượng thấp. Có bằng chứng cho
thấy rằng các bà mẹ tiếp xúc ô nhiễm có tỷ lệ trẻ sơ sinh nhẹ cân cao hơn không?

Bài tập 10.34 Tạp chí Y học New England đã báo cáo một thử nghiệm để đánh giá
hiệu quả của phẫu thuật trên những người đàn ông được chẩn đoán mắc bệnh ung thư
tuyến tiền liệt. Một nửa số mẫu ngẫu nhiên của 695 (là 347) nam giới trong nghiên cứu
đã phẫu thuật và 18 người trong số họ cuối cùng đã chết vì ung thư tuyến tiền liệt so
với 31 trong số 348 người không phẫu thuật. Có bằng chứng nào cho thấy rằng phẫu
thuật giảm tỷ lệ những người chết vì ung thư tuyến tiền liệt?
125
11. HỒI126QUY ĐƠN BIẾN – TƯƠNG QUAN

11.1 Mô hình và ước lượng bình phương cực tiểu 126

11.2 Tính chất thống kê của ước lượng 127

11.3 Kiểm định giả thuyết trong hồi quy tuyến tính 128

11.4 Khoảng tin cậy 128

11.5 Tiên đoán giá trị quan trắc mới 129

11.6 Hệ số xác định 129

11.7 Hệ số tương quan 129

11.8 Bài tập 130

11.1 Mô hình và ước lượng bình phương cực tiểu


Mô hình hồi quy tuyến tính đơn giản xem xét một biến hồi qui đơn (hoặc biến dự đoán)
x và biến phụ thuộc (hoặc biến đáp ứng) Y . Giả sử rằng mối quan hệ thực sự giữa Y và x là
một đường thẳng và quan trắc Y tại mỗi giá trị của x là một biến ngẫu nhiên thỏa

E(Y |x) = β0 + β1 x,

với tung độ gốc β0 và hệ số góc β1 là những hệ số hồi quy chưa biết. Giả sử những giá trị
quan trắc Y được biểu diễn thông qua mô hình

Y = β0 + β1 x + ϵ, (11.1)

với sai số ngẫu nhiên ϵ có trung bình 0 và phương sai (không biết) σ 2 . Sai số của mỗi quan
trắc Y khác nhau được giả sử là những biến ngẫu nhiên không tương quan.
Giả sử ta có n cặp quan trắc (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) như hình vẽ

và mô hình
yi = β 0 + β 1 x i + ϵ i , i = 1, 2, . . . , n.
Sử dụng lệnh như trong Code 6.7 để quan sát mối liên hệ giữa 2 đại lượng X, Y.
127

Ta định nghĩa hàm tổng bình phương sai số giữa giá trị quan trắc và đường thẳng hồi quy
đúng là
Xn Xn
L= 2
ϵi = (yi − β0 − β1 xi )2 .
i=1 i=1
Tìm cực tiểu sai số bằng đạo hàm riêng
∂L Xn
∂L X n
= −2 (yi − β0 − β1 xi ) = 0, = −2 (yi − β0 − β1 xi ) xi = 0.
∂β0 ∂β1
i=1 i=1

Giải hệ ta được kết quả sau

Định lý 11.1 Ước lượng bình phương cực tiểu của tung độ gốc và hệ số góc của mô
hình hồi quy là
Pn P P
−1 ( n y ) ( n x )
i=1 yi xi − n i=1 i i=1 i Sxy
β̂0 = y − β̂1 x, β̂1 = Pn Pn := ,
i=1 xi − n
2 −1 ( i=1 xi )2 Sxx
Pn Pn
với x = n−1 i=1 xi và y = n−1 i=1 yi .

11.2 Tính chất thống kê của ước lượng


Từ Định lý 11.1 trên, ước lượng cho đường thẳng hồi quy có dạng
ŷ = β̂0 + β̂1 x.
Chú ý rằng tại những điểm quan trắc ta có biểu thức liên hệ:
yi = β̂0 + β̂1 xi + ei ,
với ei = yi − ŷi được gọi là thặng dư (hay phần dư), đại lượng biểu diễn cho sai số giữa mô
hình ước lượng và giá trị quan trắc. Sử dụng khái niệm này, ta có thể xây dựng một ước
lượng cho phương sai của sai số trong mô hình hồi quy (11.1).

Định lý 11.2 Ước lượng không chệch của phương sai trong mô hình (11.1) là

SSE
σ̂ 2 = ,
n−2
với
X
n X
n
SSE = e2i = (yi − ŷi )2 = SST − β̂1 Sxy ,
i=1 i=1

trong đó Sxy như trong Định lý 11.1 và


!2
X
n X
n
−1
SST = yi2 −n yi .
i=1 i=1
128 11.3. Kiểm định giả thuyết trong hồi quy tuyến tính

Định lý 11.3 Trong mô hình hồi quy tuyến tính, ước lượng cho độ lệch chuẩn cho hệ
số góc và tung độ gốc lần lượt là
s s  
  σ̂ 2   1 x2
se β̂1 = và se β̂0 = σ̂ 2 + ,
Sxx n Sxx

với σ̂ 2 như trong Định lý 11.2 và Sxx như trong Định lý 11.1.

11.3 Kiểm định giả thuyết trong hồi quy tuyến tính
Xét bài toán kiểm định hệ số góc của mô hình hồi quy tuyến tính có bằng hằng số β1,0
hay không? Khi đó, ta phát biểu giả thuyết

H0 : β1 = β1,0 ,
H1 : β1 ̸= β1,0 ,
với β1,0 là giá trị tham số đặc biệt mà ta quan tâm. Ta định nghĩa thống kê cho kiểm định
β̂1 − β1,0
T =   ∼ t(n − 2).
se β̂1

Tương tự cho bài toán kiểm định tung độ gốc



H0 : β0 = β0,0 ,
H1 : β0 ̸= β0,0 ,
với β0,0 là giá trị tham số đặc biệt mà ta quan tâm. Ta định nghĩa thống kê cho kiểm định
β̂0 − β0,0
T =   ∼ t(n − 2).
se β̂0

Ngoài ra, ta có thể sử dụng phương pháp phân tích phương sai (Analysis Of Variance)
để kiểm định hệ số góc như sau: xét bài toán kiểm định

H0 : β1 = 0,
H1 : β1 ̸= 0,
Ta lập bảng phân tích phương sai sau

Tên đại lượng Tổng bình phương Bậc tự do Trung bình bình phương F0 ∼ F1,n−2
Hồi quy đơn SSR = β̂1 Sxy 1 M SR M SR /M SE
Sai số (hay thặng dư) SSE = SST − SSR n−2 M SE = σ̂ 2
Tổng SST n−1

ta bác bỏ H0 nếu f0 > fα,1,n−2 .

11.4 Khoảng tin cậy


129

Định lý 11.4 Giả sử quan trắc có phân phối chuẩn và độc lập nhau. Khi đó, ta có
khoảng tin cậy 100(1 − α)% cho hệ số góc và tung độ gốc lần lượt là
   
β̂1 − tα/2,n−2 se β̂1 ≤ β1 ≤ β̂1 + tα/2,n−2 se β̂1 ;
   
β̂0 − tα/2,n−2 se β̂0 ≤ β0 ≤ β̂0 + tα/2,n−2 se β̂0 .

11.5 Tiên đoán giá trị quan trắc mới


Nếu x0 là giá trị cần tiên đoán trong mô hình hồi quy 11.1, ta có

Ŷ0 = β̂0 + β̂1 x0 ,

là một ước lượng cho giá trị đáp ứng tương lai.

Định lý 11.5 Khoảng tin cậy 100(1 − α)% cho tiên đoán giá trị đáp ứng Y0 tương lai
tại x0 được tính bằng
s   s  
1 (x 0 − x) 2 1 (x0 − x)2
ŷ0 − tα/2,n−2 σ̂ 1 + +
2 ≤ Y0 ≤ ŷ0 + tα/2,n−2 σ̂ 1 + +
2 ,
n Sxx n Sxx

với ŷ0 được tính từ ước lượng của mô hình hồi quy ŷ0 = β̂0 + β̂1 x0 .

11.6 Hệ số xác định

Định nghĩa 11.1 Hệ số xác định (coefficient of determination) R2 ∈ [0, 1] được tính
bằng
SSR SSE
R2 = =1−
SST SST
giúp ta đo lường “độ tốt” của việc khớp (fit) giữa dữ liệu quan trắc và mô hình hồi qui
tuyến tính. Nếu hệ số xác định càng gần 1 thì độ khớp càng tốt.

11.7 Hệ số tương quan

Định nghĩa 11.2 Hệ số tương quan mẫu (correlation coefficient) (là căn bậc 2 của hệ
số xác định được tính theo công thức
Pn
i=1 Yi (Xi − X)
R= P Pn 
n 2 1/2
i=1 (Xi − X) i=1 (Yi − Y )
2

được sử dụng để đánh giá mức độ liên kết tuyến tính giữa X và Y .
130 11.8. Bài tập

Định lý 11.6 Sử dụng thống kê:



R n−2
T = √ ∼ t(n − 2)
1 − R2

để kiểm định hệ số tương quan H0 : ρ = 0 với đối thuyết H1 : ρ ̸= 0.

11.8 Bài tập

Bài tập 11.1 Bệnh tiểu đường và béo phì là những vấn đề sức khỏe nghiêm trọng ở
Hoa Kỳ và phần lớn các nước phát triển. Đo lượng mỡ cơ thể của một người là một
cách để theo dõi tiến độ kiểm soát cân nặng, nhưng đo chính xác nó phải sử dụng đến
thiết bị X-quang đắt tiền hoặc nhúng cơ thể xuống một hồ bơi. Thay vào đó, chỉ số
khối cơ thể (BMI) thường được sử dụng làm đại diện cho mỡ cơ thể vì nó dễ đo: BMI
= khối lượng (kg) / (chiều cao (m))2 = 703 khối lượng (lb) / (chiều cao (in))2 . Trong
một nghiên cứu của 250 người đàn ông tại Đại học Bingham Young, cả BMI và mỡ cơ
thể được đo lường. Các nhà nghiên cứu đã tìm thấy các thống kê tóm tắt sau:

X
n X
n X
n
xi = 6322.28, x2i = 162674.18, yi = 4757.90,
i=1 i=1 i=1
X
n X
n
yi2 = 107679.27, xi yi = 125471.10
i=1 i=1

a. Tính những ước lượng bình phương tối thiểu cho hệ số góc và tung độ góc. Vẽ đồ
thị của đường thẳng hồi quy.

b. Sử dụng đường thẳng hồi quy, hãy tiên đoán lượng mỡ cơ thể của một người đàn
ông sẽ được quan trắc nếu có chỉ số BMI là 30?

c. Giả sử rằng người ta quan trắc lượng mỡ cơ thể của một người đàn ông có chỉ số
BMI 25 là 25%. Tìm thặng dư của quan trắc này?

d. Ước lượng tiên đoán của câu c) so với số liệu quan trắc là ước lượng thiếu hay
ước lượng thừa. Giải thích?

Bài tập 11.2 Một bài báo trong Nghiên cứu Bê tông “Đặc tính bề mặt gần bê tông:
Tính thấm nội tại” (1989, Tập 41) trình bày dữ liệu về cường độ nén x và độ thấm nội
tại y của các hỗn hợp bê tông và phương pháp xử lý khác nhau. Số liệu được tóm tắt
như sau:
X X X
n = 14; yi = 572; yi2 = 23530; xi = 43;
X X
x2i = 157.42; xi yi = 1697.80.

a. Tính những ước lượng bình phương tối thiểu cho hệ số góc và tung độ góc. Ước
lượng σ 2 . Vẽ đồ thị của đường thẳng hồi quy.
131

b. Sử dụng đường thẳng hồi quy, hãy tiên đoán lượng độ thấm nội sẽ quan trắc được
khi cường độ nén là x = 4.3?

c. Giả sử rằng giá trị quan trắc độ thấm nội tại x = 3.7 là y = 46.1. Tính toán
thằng dư tương ứng.

Bài tập 11.3 Các phương pháp hồi quy đã được sử dụng để phân tích dữ liệu từ một
nghiên cứu điều tra mối quan hệ giữa nhiệt độ bề mặt đường (x) và độ lún mặt đường
(y). Số liệu được tóm tắt như sau:
X X X
n = 20; yi = 12.75; yi2 = 8.86; xi = 1478;
X X
x2i = 143215.8; xi yi = 1083.67.

a. Tính những ước lượng bình phương tối thiểu cho hệ số góc và tung độ góc. Ước
lượng σ 2 . Vẽ đồ thị của đường thẳng hồi quy.

b. Sử dụng đường thẳng hồi quy, hãy tiên đoán lượng độ lún mặt đường sẽ quan trắc
được khi nhiệt độ bề mặt đường là 850 F ?

Bài tập 11.4 Sử dụng dữ liệu sau trả lời những câu hỏi dưới:

x 7 12 14 22 27 33 37 39 42 49 53 61
y 10.6 16.8 23.3 12.5 91.7 67.7 130.7 110.3 147.3 138.3 142.6 151.4

a. Vẽ biểu đồ phân tán của dữ liệu.

b. Xác định phương trình đường thẳng hồi qui bằng phương pháp bình phương bé
nhất.

c. Tiên đoán giá trị của y khi x = 40.

d. Tiên đoán giá trị của y khi x = 100.

Bài tập 11.5 Điểm thi giữa kỳ (x) và cuối kỳ (y) của một lớp có 9 sinh viên là như
sau:
x 77 50 71 72 81 94 96 99 67
y 82 66 78 34 47 85 99 99 68

a. Ước lượng đường hồi quy tuyến tính.

b. Ước lượng điểm bài thi cuối kỳ của một sinh viên có điểm giữa kỳ là 85.

c. Tính s2

d. Xây dựng khoảng tin cậy 95% cho β0

e. Xây dựng khoảng tin cậy 95% cho β1


132 11.8. Bài tập

f. Sử dụng giá trị s2 đã tìm được ở câu (c.), hãy xây dựng khoảng tin cậy 95% cho
µY |85 .

Bài tập 11.6 Khối lượng của một hợp chất hóa học y hòa tan trong 100 gram nước ở
các nhiệt độ khác nhau x được ghi lại như sau:
x (°C) y (gram)
0 8 6 8
15 12 10 14
30 25 21 24
45 31 33 28
60 44 39 42
75 48 51 44

a. Tìm phương trình của đường thẳng hồi quy

b. Vẽ đường thẳng lên đồ thị phân tán

c. Ước lượng khối lượng của hợp chất hóa học sẽ hòa tan trong 100 gram nước ở
50°C

d. Tính s2

e. Xây dựng khoảng tin cậy 99% cho β0

f. Xây dựng khoảng tin cậy 99% cho β1


Sử dụng giá trị s2 tìm được trong câu (d.) để tính

g. Khoảng tin cậy 99% cho khối lượng trung bình của hợp chất hóa học sẽ hòa tan
trong 100 gram nước ở 50 °C

h. Khoảng dự đoán 99% cho khối lượng hợp chất hóa học sẽ hòa tan trong 100 gram
nước ở 50 °C.

Bài tập 11.7 Một nghiên cứu về khối lượng đường bị biến đổi trong một quá trình nào
đó ở các nhiệt độ khác nhau. Dữ liệu được mã hóa và ghi lại như sau:
Nhiệt độ, x Đường bị biến đổi, y
10 8.1
1.1 7.8
1.2 8.5
1.3 9.8
1.4 9.5
1.5 8.9
1.6 8.6
1.7 10.2
1.8 9.3
1.9 9.2
2.0 10.5
133

a. Ước lượng đường hồi quy tuyến tính

b. Ước lượng khối lượng trung bình của đường bị biến đổi được tạo ra khi nhiệt độ
được mã hóa là 1.75.

c. Vẽ các phần dư theo nhiệt độ. Nêu nhận xét.

d. Tính s2

e. Xây dựng khoảng tin cậy 95% cho β0

f. Xây dựng khoảng tin cậy 95% cho β1


Sử dụng giá trị s2 tìm được trong câu (d.),

g. Vẽ đồ thị đường hồi quy và khoảng tin cậy 95% cho đáp ứng trung bình µY |x .

h. Xây dựng khoảng tin cậy 95% cho khối lượng đường bị biến đổi tương ứng với
x = 1.6.

Bài tập 11.8 Ở một loại mẫu thử kim loại nào đó, ứng suất pháp tuyến trên một mẫu
vật phụ thuộc hàm vào độ kháng cắt. Sau đây là một tập dữ liệu thí nghiệm đã được
mã hóa về hai biến:
Ứng suất pháp tuyến, x Độ kháng cắt, y
26.8 26.5
25.4 27.3
28.9 24.2
23.6 27.1
27.7 23.6
23.9 25.9
24.7 26.3
28.1 22.5
26.9 21.7
27.4 21.4
22.6 25.8
25.6 24.9

a. Ước lượng đường hồi quy µY |x = β0 + β1 x

b. Ước lượng độ kháng cắt với ứng suất pháp tuyến 24.5

c. Tính s2

d. Xây dựng khoảng tin cậy 99% cho β0

e. Xây dựng khoảng tin cậy 99% cho β1


Sử dụng giá trị s2 tìm được trong câu (c.), để tính

f. Khoảng tin cậy 95% cho độ kháng cắt trung bình khi x = 24.5

g. Khoảng dự đoán 95% cho một giá trị dự đoán đơn lẻ của độ kháng cắt khi x = 24.5.
134 11.8. Bài tập

Bài tập 11.9 Xem bảng sau để biết dữ liệu về xếp hạng cầu thủ ném bóng cà na trong
mùa giải bóng quốc gia 2008 (The Sports Network). Người ta nghi ngờ rằng tốc độ (y)
có liên quan đến số lượng trung bình đạt được cho mỗi lần bóng bay (x)

Player Team Yards per Attempt Rating Points


Philip Rivers SD 8,39 105,5
Chad Pennington MIA 7,67 97,4
Kurt Warner ARI 7,66 96,9
Drew Brees NO 7,98 96,2
Peyton Manning IND 7,21 95
Aaron Rodgers GB 7,53 93,8
Matt Schaub HOU 8,01 92,7
Tony Romo DAL 7,66 91,4
Jeff Garcia TB 7,21 90,2
Matt Cassel NE 7,16 89,4
Matt Ryan ATL 7,93 87,7
Shaun Hill SF 7,1 87,5
Seneca Wallace SEA 6,33 87
Eli Manning NYG 6,76 86,4
Donovan McNabb PHI 6,86 86,4
Jay Cutler DEN 7,35 86
Trent Edwards BUF 7,22 85,4
Jake Delhomme CAR 7,94 84,7
Jason Campbell WAS 6,41 84,3
David Garrard JAC 6,77 81,7
Brett Favre NYJ 6,65 81
Joe Flacco BAL 6,94 80,3
Kerry Collins TEN 6,45 80,2
Ben Roethlisberger PIT 7,04 80,1
Kyle Orton CHI 6,39 79,6
JaMarcus Russell OAK 6,58 77,1
Tyler Thigpen KC 6,21 76
Gus Freotte MIN 7,17 73,7
Dan Orlovsky DET 6,34 72,6
Marc Bulger STL 6,18 71,4
Ryan Fitzpatrick CIN 5,12 70
Derek Anderson CLE 5,71 66,5

a. Tính những ước lượng bình phương tối thiểu cho hệ số góc và tung độ góc. Ước
lượng σ 2 . Vẽ đồ thị của đường thẳng hồi quy.

b. Cho x = 7.21 yards, tính giá trị hồi quy và thặng dư tương ứng.
135

Bài tập 11.10 Một động cơ tên lửa được sản xuất bằng cách liên kết với nhau hai
thành phần: một bộ đánh lửa và một máy phát điện. Độ bền cắt của liên kết y được
cho là một hàm tuyến tính của tuổi động cơ đẩy x khi động cơ được đúc. Bảng số liệu
20 quan trắc như sau:

Observation Number Strength y (psi) Age x (weeks)


1 2158,7 15,5
2 1678,15 23,75
3 2316 8
4 2061,3 17
5 2207,5 5
6 1708,3 19
7 1784,7 24
8 2575 2,5
9 2357,9 7,5
10 2277,7 11
11 2165,2 13
12 2399,55 3,75
13 1779,8 25
14 2336,75 9,75
15 1765,3 22
16 2053,5 18
17 2414,4 6
18 2200,5 12,5
19 2654,2 2
20 1753,7 21,5

a. Vẽ một sơ đồ phân tán dữ liệu. Mô hình hồi quy tuyến tính có hợp lý không?

b. Tính những ước lượng bình phương tối thiểu cho hệ số góc và tung độ góc. Ước
lượng σ 2 . Vẽ đồ thị của đường thẳng hồi quy.

Bài tập 11.11 Sử dụng lại số liệu từ Bài tập 11.1. Tính

a. Ước lượng sai số độ lệch chuẩn.

b. Ước lượng độ lệch chuẩn của hệ số góc.

c. Tìm giá trị thống kê t của hệ số góc.

d. Hãy kiểm định giả thuyết β1 = 0 khi α = 0.05. Tìm p-value?

Bài tập 11.12 Sử dụng lại số liệu từ Bài tập 11.10.

a. Ước lượng sai số chuẩn cho β̂0 và β̂1 .


136 11.8. Bài tập

b. Kiểm định giả thuyết H0 : β1 = −30 với đối thuyết H1 : β1 ̸= −30 sử dụng
α = 0.01. Tính p-value?

c. Kiểm định giả thuyết H0 : β0 = 0 với đối thuyết H1 : β0 ̸= 0 sử dụng α = 0.01.


Tính p-value?

d. Kiểm định giả thuyết H0 : β0 = 2500 với đối thuyết H1 : β0 > 2500 sử dụng
α = 0.01. Tính p-value?

Bài tập 11.13 Sử dụng lại số liệu từ Bài tập 11.1. Tính

a. Khoảng tin cậy 95% của hệ số góc.

b. Khoảng tin cậy 95% cho trung bình phần trăm mỡ cơ thể của một người đàn ông
có chỉ số BMI là 25.

c. Khoảng tiên đoán 95% cho phần trăm mỡ cơ thể của một người đàn ông có chỉ số
BMI là 25.

Bài tập 11.14 Sử dụng lại số liệu từ Bài tập 11.10.

a. Khoảng tin cậy 95% cho: hệ số góc và tung độ góc.

b. Trung bình độ thấm nội khi x = 2.5.

c. Khoảng tiên đoán 95% cho độ thấm nội khi x = 2.5.


12. HỒI QUY TUYẾN TÍNH ĐA BIẾN 137

12.1 Mô hình và ước lượng bình phương cực tiểu 137

12.2 Dạng biểu diễn ma trận của mô hình 138

12.3 Tính chất thống kê của ước lượng 144

12.4 Kiểm định giả thiết trong hồi quy tuyến tính bội 144
12.4.1 Kiểm định ý nghĩa của mô hình hồi quy
12.4.2 Kiểm định từng hệ số của mô hình

12.5 Khoảng tin cậy 147


12.5.1 Khoảng tin cậy cho từng hệ số ước lượng
12.5.2 Khoảng tin cậy riêng cho trung bình đáp ứng

12.6 Dự báo giá trị quan trắc mới 148

12.1 Mô hình và ước lượng bình phương cực tiểu

Mô hình hồi qui tuyến tính bội phụ thuộc k biến được mô tả bằng mô hình

Y = β0 + β1 x1 + β2 x2 + · · · + βk xk + ϵ, (12.1)

những tham số βj , j = 1, k được gọi là hệ số hồi quy. Giả sử rằng ta có n > k quan trắc và
kí hiệu xij là quan trắc thứ i của biến phụ thuộc xj , khi đó quan trắc được mô tả

(xi1 , xi2 , . . . , xik , yi ), i = 1, n với n > k.

Với mỗi giá trị quan trắc (xi1 , xi2 , . . . , xik ) thoả phương trình (12.1) ta có

X
k
yi = β0 + β1 xi1 + β2 xi2 + · · · + βk xik + ϵi = β0 + βj xij + ϵi , i = 1, n.
j=1

Ngoài ra ta có thể biểu diễn dữ liệu dạng bảng sau

y x1 x2 ··· xk
y1 x11 x12 ··· x1k
y2 x21 x22 ··· x2k
··· ··· ··· ··· ···
yn xn1 xn2 ··· xnk

Hàm tổng bình phương sai số có dạng


 2
X
n X
n X
k
L= ϵ2i = yi − β0 − βj xij 
i=1 i=1 j=1
138 12.2. Dạng biểu diễn ma trận của mô hình

Cực tiểu hoá hàm sai số bằng cách lấy đạo hàm riêng theo từng biến β0 , β1 , . . . , βk ta được
 
∂L X
n X
k
= −2 yi − β0 − βj xij  xij = 0
∂βj β̂0 ,β̂1 ,...,β̂k
i=1 j=1

Do đó ta có hệ phương trình sau


! ! !
X
n X
n X
n X
n
nβ0 + xi1 β̂1 + xi2 β̂2 + · · · + xik β̂k = yi
i=1 i=1 i=1 i=1
! ! ! !
X
n X
n X
n X
n Xn
xi1 β̂0 + x2i1 β̂1 + xi1 xi2 β̂2 + · · · + xi1 xik β̂k = xi1 yi
i=1 i=1 i=1 i=1 i=1
...
! ! ! !
X
n X
n X
n X
n X
n
xik β̂0 + xik xi1 β̂1 + xik xi2 β̂2 + · · · + x2ik β̂k = xik yi
i=1 i=1 i=1 i=1 i=1

Giải hệ ta được ước lượng của các hệ số hồi qui β0 , β1 , . . . , βk . Chú ý, ma trận hệ số của hệ
phương trình trên là một ma trận đối xứng.

12.2 Dạng biểu diễn ma trận của mô hình


Từ đó, ta có dạng biểu diễn ma trận như sau:
y = Xβ + ϵ,
với
       
y1 1 x11 . . . x1k β1 ϵ1
 y2   1 x21 . . . x2k   β2   ϵ2 
       
y= .. , X= .. .. .. .. , β= .. , ϵ= .. .
 .   . . . .   .   . 
yn 1 xn1 . . . xnk βn ϵn
Sử dụng phương pháp bình phương cực tiểu ta có

Định lý 12.1 Ước lượng bình phương cực tiểu của vecto hệ số β là

β̂ = (X T X)−1 X T y.

Khi đó, vecto thặng dư giữa giá trị quan trắc và giá trị dự báo được kí hiệu là e = y − ŷ
với ŷ = X β̂. Do đó, ước lượng phương sai của nhiễu ϵi là
eT e
σ̂ 2 = .
n − (k + 1)
Hơn nữa, đặt C = (X T X)−1 ta có ma trận sai số chuẩn cho các hệ số hồi qui như sau
p p p 
se(β) = σ̂ C00 C11 . . . Ckk

với C00 , C11 , . . . , Ckk là các phần tử trên đường chéo chính của ma trận C.
139

Bài tập 12.1 Một nghiên cứu đã được thực hiện để nghiên cứu sức chống trượt của
đất vì nó liên quan đến độ sâu (feet) và phần trăm độ ẩm. Mười quan sát được thực
hiện được tổng kết như sau:
X X X X
n = 10, xi1 = 223, xi2 = 553, yi = 1916, x2i1 = 5200.9,
X X X
x2i2 = 31729, xi1 xi2 = 12352, xi1 yi = 43550.8,
X X
xi2 yi = 104736.8, yi2 = 371595.6.

a. Hãy mô hình hóa dạng ma trận cho bài toán trên với dạng: Y = β0 +β1 x1 +β2 x2 +ϵ.

b. Ước lượng các tham số trong mô hình trên.

c. Dự báo giá trị sức chống trượt của đất khi x1 = 18 feet và x2 = 48%.

Bài tập 12.2 Một mô hình hồi qui được phát triển để dự đoán khả năng đất hấp thụ
các chất ô nhiễm hóa học. Mười giá trị quan trắc về khả năng hấp thụ (y) và hai biến
hồi qui: x1 = lượng quặng sắt có thể khai thác and x2 = lượng bauxite. Người ta xét mô
hình y = β0 + β1 x1 + β2 x2 + ε. Một số đại lượng đã được tính
 
1.17991 −7.30982E − 03 7.3006E − 04
(XT X)−1 =  −7.30982E − 03 7.9799E − 05 −1.23713E − 04 
7.3006E − 04 −1.23713E − 04 4.6576E − 04

và  
220
XT y =  36, 768 
9, 965

a. Ước lượng các hệ số hồi qui của mô hình trên.

b. Hãy dự báo khả năng hấp thụ y khi x1 = 200 and x2 = 50?

Bài tập 12.3 Bài tập 11.1 cho ta mô tả chỉ số mỡ cơ thể (%BF ) được đo bởi chỉ số nổi
và BMI từ nghiên cứu trên 250 người đàn ông. Những nhà nghiên cứu tiến hành đo 13
chỉ số đặc trưng vật lý cơ thể của mỗi người đàn ông như tuổi (yrs), chiều cao (in), và
số đo vòng bụng (in). Một mô hình hồi qui phần trăm mỡ cơ thể thông qua cả chiều
cao và vòng eo do phần mềm tính toán xuất ra như sau

. Estimate. Std. Error t-value Pr(>|t|)


(Intercept) −3.10088 7.68611 −0.403 0.687
Height −0.60154 0.10994 −5.472 1.09e−07
Waist 1.77309 0.07158 24.770 < 2e−16
Residual standard error: 4.46 on 247 degrees of freedom
Multiple R-squared: 0.7132, Adjusted R-squared: 0.7109
F-statistic: 307.1 on 2 and 247 DF, p-value: < 2.2e-16
140 12.2. Dạng biểu diễn ma trận của mô hình

a. Viết mô hình hồi qui nếu cho


 
2.9705 −4.0042E−2 −4.1679E−2
(XT X)−1 =  −0.04004 6.0774E−4 −7.3875E−5 
−0.00417 −7.3875E−5 2.5766E−4

và  
4757.9
XT y =  334335.8 
179706.7

b. Kiểm tra các hệ số tính toán do phần mềm xuất ra đúng tới ít nhất 2 chữ số thập
phân.

c. Dự đoán phần trăm mỡ cơ thể một người đàn ông cao 6-f t và vòng eo 34-in?

Bài tập 12.4 Một lớp gồm 63 sinh viên có hai giờ làm kiểm tra và điểm cuối kì. Làm
thể nào để dự báo điểm cuối kì thông qua hai giờ kiểm tra? Người ta tính toán các đại
lượng sau
 
0.9129168 −9.815022e − 03 −7.11238e − 04
(XT X)−1 =  −0.0981502 1.497241e − 04 −4.15806e − 05 
−0.00071123 −4.158056e − 05 5.81235e − 05

và  
4871.0
XT y =  426011.0 
367576.5

a. Tính toán ước lượng bình phương bé nhất hai hệ số góc của giờ 1, giờ 2 và tung
độ gốc.

b. Sử dụng phương trình đường thẳng khớp dữ liệu để dự báo điểm cuối kì của sinh
viên có điểm kiểm tra giờ 1 là 70 và giờ hai là 80.

c. Nếu một sinh viên có điểm giờ 1 là 80, điểm giờ 2 là 90 và điểm cuối kì là 85.Hãy
tính giá trị thặng dư của sinh viên này?

Bài tập 12.5 Can the percentage of the workforce who are engineers in each U.S. state
be predicted by the amount of money spent in on higher education (as a percent of gross
domestic prod-uct), on venture capital (dollars per $1000 of gross domestic product) for
high-tech business ideas, and state funding (in dollars per student) for major research
universities? Data for all 50 states and a software package revealed the following results:
. Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.051e+00 1.567e-01 6.708 2.5e-08 ***
Venture cap 9.514e-02 3.910e-02 2.433 0.0189 *
State funding 4.106e-06 1.437e-05 0.286 0.7763
Higher.eD -1.673e-01 2.595e-01 -0.645 0.5223
Residual standard error: 0.3007 on 46 degrees of freedom
141

Multiple R-squared: 0.1622, Adjusted R-squared: 0.1075


F-statistic: 2.968 on 3 and 46 DF, p-value: 0.04157

a. Write the equation predicting the percent of engineers in the workforce.

b. For a state that has $1 per $1000 in venture capital, spends $10,000 per student
on funding for major research universities, and spends 0.5% of its GDP on higher
education, what percent of engineers do you expect to see in the workforce?

c. If the state in part b. actually had 1.5% engineers in the workforce, what would
the residual be?

Bài tập 12.6 You have fit a multiple linear regression model and the (XT X)−1 matrix
is  
0.893758 −0.0282448 −0.0175641
(XT X)−1 =  −0.028245 0.0013329 0.00001547 
−0.0175641 0.00001547 0.0009108
a. How many regressor variables are in this model?

b. If the error sum of squares is 307 and there are 15 observations, what is the
estimate of σ 2 ?

c. What is the standard error of the regression coefficient β̂1 ?

Bài tập 12.7 A study was performed on wear of a bearing and its relationship to x1 =
oil viscosity and x2 = load. The following data were obtained.

a. Fit a multiple linear regression model to these data.

b. Estimate σ 2 and the standard errors of the regression coefficients.

c. Use the model to predict wear when x1 = 25 and x2 = 1000.

Bài tập 12.8 An article in Biotechnology Progress (2001, Vol. 17, pp.366–368) reported
on an experiment to investigate and optimize nisin extraction in aqueous two-phase
systems (ATPS). The nisin recovery was the dependent variable (y). The two regressor
variables were concentration (%) of PEG 4000 (denoted as x1 ) and concentration (%)
of N a2 SO4 (denoted as x2 ).
142 12.2. Dạng biểu diễn ma trận của mô hình

a. Fit a multiple linear regression model to these data with rads as the response.

b. Estimate σ 2 and the standard errors of the regression coefficients.

c. Use the model to predict the nisin recovery when x1 = 14.5 and x2 = 12.5.

Bài tập 12.9 An article in Optical Engineering [“Operating Curve Extraction of a


Correlator’s Filter” (2004, Vol. 43, pp.2775–2779)] reported on the use of an optical
correlator to perform an experiment by varying brightness and contrast. The resulting
modulation is characterized by the useful range of gray levels. The data follow

Brightness (%): 54 61 65 100 100 100 50 57 54


Contrast (%): 56 80 70 50 65 80 25 35 26
Useful range (ng): 96 50 50 112 96 80 155 144 255

a. Fit a multiple linear regression model to these data.

b. Estimate σ 2 .

c. Compute the standard errors of the regression coefficients.

d. Predict the useful range when brightness = 80 and contrast = 75.

Bài tập 12.10 An article in IEEE Transactions on Instrumentation and Measurement


(2001, Vol. 50, pp. 2033–2040) reported on a study that had analyzed powdered
mixtures of coal and limestone for permittivity. The errors in the density measurement
was the response.
143

a. Fit a multiple linear regression model to these data with rads as the response.

b. Estimate σ 2 and the standard errors of the regression coefficients.

c. Use the model to predict the density when the dielectric constant is 2.5 and the
loss factor is 0.03.

Bài tập 12.11 An article in Electronic Packaging and Production (2002, Vol. 42)
considered the effect of X-ray inspection of integrated circuits. The rads (radiation dose)
were studied as a function of current (in milliamps) and exposure time (in minutes).

a. Fit a multiple linear regression model to these data with rads as the response.
b. Estimate σ 2 and the standard errors of the regression coefficients.
144 12.3. Tính chất thống kê của ước lượng

c. Use the model to predict rads when the current is 15 milliamps and the exposure
time is 5 second.

12.3 Tính chất thống kê của ước lượng

Định lý 12.2

i. Ước lượng bình phương cực tiểu của vecto tham số β là ước lượng không chệch
 
E(β̂) = E (X T X)−1 X T Y = E (X T X)−1 X T (Xβ + ϵ)

= E (X T X)−1 X T Xβ = β

ii. Ma trận tương quan của ước lượng β̂


 
V(β̂) = V (X T X)−1 X T (Xβ + ϵ) = V (X T X)−1 X T ϵ
 T
= (X T X)−1 X T V(ϵ)X T (X T X)−1 = σ 2 (X T X)−1 ,

với (X T X)−1 là ma trận đối xứng.

12.4 Kiểm định giả thiết trong hồi quy tuyến tính bội

12.4.1 Kiểm định ý nghĩa của mô hình hồi quy


Xét bài toán kiểm định tồn tại một hệ số trong mô hình có ý nghĩa, nghĩa là ta có giả
thuyết kiểm định như sau

H0 : βj = 0 với mọi j,
H1 : βj ̸= 0 với ít nhất một j,

Ta lập bảng phân tích phương sai cho mô hình hồi quy bội như sau để tính thống kê kiểm
định

Tên đại lượng Tổng bình phương Bậc tự do Trung bình bình phương F0
Hồi quy bội SSR k M SR M SR /M SE
Sai số (hay thặng dư) SSE n − (k + 1) M SE
Tổng SST n−1

trong đó
!2 !2
1 X
n
1 X
n
SST = y T y − yi , SSR = β̂ T X T y − yi , SSE = SST − SSR .
n n
i=1 i=1

và bác bỏ H0 nếu f0 > fα,k,n−(k+1) . Chú ý, ta tính p − value theo công thức p − value =
1 − P Fa−1,a(n−1) ≤ F0 .
145

Ta có thể sử dụng hệ số xác định bội R2 (coefficient of multiple determination) để đánh


giá dộ “khớp” (fit) của mô hình
SSR SSE
R2 = =1− ,
SST SST
với mô hình khớp tốt nhất khi R2 = 1 và khi R2 càng xa 1 thì mô hình khớp càng không hợp
lí.

12.4.2 Kiểm định từng hệ số của mô hình


Xét bài toán kiểm định 
H0 : βj = βj0 ,
H1 : βj ̸= βj0 ,
có thống kê kiểm định

β̂j − βj0 β̂j − βj0


T0 = p = ∼ t(n − (k + 1)),
σ 2 Cjj se(β̂j )

với Cjj là đường chéo của ma trận (X T X)−1 tương ứng với hệ số ước lượng β̂j . Kiểm định
trên gọi là kiểm định riêng hoặc kiểm định lề (partial test, marginal test).
Ngoài ra người ta còn sử dụng kiểm định một nhóm các hệ số ước lượng!

Bài tập 12.12 Consider the regression model fit to the soil shear strength data in
Exercise 12.1

a. Test for significance of regression using α = 0.05. What is the p-value for this
test?

b. Construct the t-test on each regression coefficient. What are your conclusions,
using α = 0.05? Calculate p-values.

Bài tập 12.13 Consider the absorption index data in Exercise 12.2. The total sum of
squares for y is SST = 742.00.

a. Test for significance of regression using α = 0.01. What is the p-value for this
test?

b. Test the hypothesis H0 : β1 = 0 versus H1 : β1 ̸= 0 using α = 0.01. What is the


p-value for this test?

c. What conclusion can you draw about the usefulness of x1 as a regressor in this
model?

Bài tập 12.14 Recall the regression of percent of body fat on height and waist from
Exercise 12.3. The simple regression model of percent of body fat on height alone shows
the following

Estimate Std. Error t-value Pr(>|t|)


(Intercept) 25.58078 14.15400 1.807 0.0719
146 12.4. Kiểm định giả thiết trong hồi quy tuyến tính bội

Height −0.09316 0.20119 −0.463 0.6438

a. Test whether the coefficient of height is statistically significant.

b. Looking at the model with both waist and height in the model, test whether the
coefficient of height is significant in this model.

c. Explain the discrepancy in your two answers.

Bài tập 12.15 Exercise 12.4 presented a regression model to predict final grade from
two hourly tests.

a. Test the hypotheses that each of the slopes is zero.

b. What is the value of R2 for this model?

c. What is the residual standard deviation?

d. Do you believe that the professor can predict the final grade well enough from the
two hourly tests to consider not giving the final exam? Explain.

Bài tập 12.16 Consider the regression model of Exercise 12.5 attempting to predict
the percent of engineers in the workforce from various spending variables.

a. Are any of the variables useful for prediction? (Test an appropriate hypothesis).

b. What percent of the variation in the percent of engineers is accounted for by the
model?

c. What might you do next to create a better model?

Bài tập 12.17 Consider the regression model fit to the X-ray inspection data in Exercise
12.11. Use rads as the response.

a. Test for significance of regression using α = 0.05. What is the p-value for this
test?

b. Construct a t-test on each regression coefficient. What conclusions can you draw
about the variables in this model? Use α = 0.05.

Bài tập 12.18 Consider the regression model fit to the nisin extraction data in Exercise
12.8. Use nisin extraction as the response.

a. Test for significance of regression using α = 0.05. What is the P-value for this
test?

b. Construct a t-test on each regression coefficient. What conclusions can you draw
about the variables in this model? Use α = 0.05.

c. Comment on the effect of a small sample size to the tests in the previous parts
147

Bài tập 12.19 Consider the regression model fit to the gray range modulation data in
Exercise 12.9. Use the useful range as the response.

a. Test for significance of regression using α = 0.05. What is the p-value for this
test?

b. Construct a t-test on each regression coefficient. What conclusions can you draw
about the variables in this model? Use α = 0.05.

Bài tập 12.20 Consider the bearing wear data in Exercise 12.7.

a. For the model with no interaction, test for significance of regression using α = 0.05.
What is the p-value for this test? What are your conclusions?

b. For the model with no interaction, compute the t-statistics for each regression
coefficient. Using α = 0.05, what conclusions can you draw?

c. For the model with no interaction, use the extra sum of squares method to inves-
tigate the usefulness of adding x2 = load to a model that already contains x1 =
oil viscosity. Use α = 0.05.

d. Refit the model with an interaction term. Test for significance of regression using
α = 0.05.

e. Use the extra sum of squares method to determine whether the interaction term
contributes significantly to the model. Use α = 0.05.

f. Estimate σ 2 for the interaction model. Compare this to the estimate of σ 2 from
the model in part a..

12.5 Khoảng tin cậy

12.5.1 Khoảng tin cậy cho từng hệ số ước lượng

Định lý 12.3 Khoảng tin cậy 100(1 − α)% của hệ số hồi quy βj , j = 0, k của mô hình
hồi qui bội là

β̂j − tα/2,n−(k+1) se(β̂j ) ≤ βj ≤ β̂j + tα/2,n−(k+1) se(β̂j )

12.5.2 Khoảng tin cậy riêng cho trung bình đáp ứng
Xét một điểm ta quan tâm có tọa độ x01 , x02 , . . . , x0k , ta đặt
 
1
 x01 
 
x0 =  .. .
 . 
x0k
148 12.6. Dự báo giá trị quan trắc mới

Trung bình đáp ứng ( mean response) tại điểm x0 là E(Y |x0 ) = µY |x0 = xT0 β được ước lượng
bởi µ̂Y |x0 = xT0 β̂. Chú ý, ước lượng này là không chệch vì

E(µ̂Y |x0 ) = E(xT0 β̂) = xT0 β = µY |x0

và phương sai
V(µ̂Y |x0 ) = σ 2 xT0 (X T X)−1 x0 .
Do đó, ta có

Định lý 12.4 Trong mô hình hồi qui bội, khoảng tin cậy 100(1 − α)% của trung bình
đáp ứng tại điểm x01 , x02 , . . . , x0k là µ̂Y |x0 − ϵ ≤ µY |x0 ≤ µ̂Y |x0 + ϵ với
q
ϵ = tα/2,n−(k+1) σ̂ 2 xT0 (X T X)−1 x0 .

12.6 Dự báo giá trị quan trắc mới

Định lý 12.5 Khoảng tin cậy 100(1 − α)% của giá trị dự báo ŷ0 = xT0 β̂ là ŷ0 − ϵ ≤
Y0 ≤ ŷ0 + ϵ với q
ϵ = tα/2,n−(k+1) σ̂ 2 (1 + xT0 (X T X)−1 x0 ).

Bài tập 12.21 Using the regression model from Exercise 12-1,

a. Find a 95% confidence interval for the coefficient of height.

b. Find a 95% confidence interval for the mean percent of body fat for a man with
a height of 72 in and waist of 34 in.

c. Find a 95% prediction interval for the percent of body fat for a man with the
same height and waist as in part b..

d. Which interval is wider, the confidence interval or the prediction interval? Explain
briefly.

e. Given your answer to part c., do you believe that this is a useful model for pre-
dicting body fat? Explain briefly

Bài tập 12.22 Using the regression from Exercise 12-2,

a. Find a 95% confidence interval for the coefficient of hourly 1 test.

b. Find a 95% confidence interval for the mean final grade for students who score 80
on the first test and 85 on the second.

c. Find a 95% prediction interval for a student with the same grades as in part b..
149

Bài tập 12.23 Referring to the regression model from Exercise 12-3,

a. Find a 95% confidence interval for the coefficient of spending on higher education.

b. Is zero in the confidence interval you found in part a.? What does that fact imply
about the coefficient of higher education?

c. Find a 95% prediction interval for a state that has $1 per $1000 in venture capital,
spends $10,000 per student on funding for major research universities, and spends
0.5% of its GDP on higher education.

Bài tập 12.24 Consider the regression model fit to the shear strength of soil in Exercise
12-5.

a. Calculate 95% confidence intervals on each regression coefficient.

b. Calculate a 95% confidence interval on mean strength when x1 = 18 f t and


x2 = 43%.

c. Calculate 95% prediction interval on strength for the same values of the regressors
used in the previous part.

Bài tập 12.25 Consider the soil absorption data in Exercise 12-6.

a. Find 95% confidence intervals on the regression coefficients.

b. Find a 95% confidence interval on mean soil absorption index when x1 = 200 and
x2 = 50.

c. Find a 95% prediction interval on the soil absorption index when x1 = 200 and
x2 = 50.

Bài tập 12.26 Consider the bearing wear data in Exercise 12-23.

a. Find 99% confidence intervals on β1 and β2 .

b. Recompute the confidence intervals in part a. after the interaction term x1 x2 is


added to the model. Compare the lengths of these confidence intervals with those
computed in part a.. Do the lengths of these intervals provide any information
about the contribution of the interaction term in the model?

Bài tập 12.27 Consider the regression model fit to the X-ray inspection data in Exercise
12-15. Use rads as the response.
a. Calculate 95% confidence intervals on each regression coefficient.
b. Calculate a 99% confidence interval on mean rads at 15 milliamps and 1 second
on exposure time.
c. Calculate a 99% prediction interval on rads for the same values of the regressors
used in the part b..
150 12.6. Dự báo giá trị quan trắc mới

Bài tập 12.28 Consider the regression model fit to the coal and limestone mixture data
in Exercise 12-17. Use density as the response.

a. Calculate 90% confidence intervals on each regression coefficient.

b. Calculate a 90% confidence interval on mean density when the dielectric constant
= 2.3 and the loss factor = 0.025

c. Calculate a prediction interval on density for the same values of the regressors
used in part b..

Bài tập 12.29 Consider the regression model fit to the nisin extraction data in Exercise
12-18.

a. Calculate 95% confidence intervals on each regression coefficient.

b. Calculate a 95% confidence interval on mean nisin extraction when x1 = 15.5 and
x2 = 16.

c. Calculate a prediction interval on nisin extraction for the same values of the
regressors used in part b..

d. Comment on the effect of a small sample size to the widths of these intervals.

Bài tập 12.30 Consider the regression model fit to the gray range modulation data in
Exercise 12-19. Use the useful range as the response.

a. Calculate 99% confidence intervals on each regression coefficient.

b. Calculate a 99% confidence interval on mean useful range when brightness = 70


and contrast = 80.

c. Calculate a prediction interval on useful range for the same values of the regressors
used in part b..

d. Calculate a 99% confidence interval and a 99% a prediction interval on useful


range when brightness = 50 and contrast = 25. Compare the widths of these
intervals to those calculated in parts b. and c.. Explain any differences in widths.
13. PHÂN TÍCH PHƯƠNG SAI MỘT NHÂN TỐ 151

13.1 Bài toán đặt vấn đề: độ bền của giấy 151

13.2 Phân tích phương sai (ANOVA) 151

13.3 Kiểm định Turkey 154

13.4 Bài tập 156

13.1 Bài toán đặt vấn đề: độ bền của giấy

Một nhà máy cần làm túi giấy đựng hàng tạp hóa đang quan tâm đến việc cải thiện độ
bền của sản phẩm. Kỹ sư tin rằng độ bền phụ thuộc vào nồng độ gỗ cứng trong bột giấy và
nồng độ gỗ cứng trong thực tế nằm giới hạn từ 5% đến 20%. Một nhóm các kỹ sư chịu trách
nhiệm nghiên cứu quyết định điều tra bốn mức độ nồng độ của gỗ cứng là: 5%, 10%, 15%
và 20%. Họ quyết định tạo ra sáu mẫu thử ở mỗi mức nồng độ và tất cả 24 mẫu thử được
thử trên máy thử độ bền kéo trong phòng thí nghiệm theo thứ tự ngẫu nhiên. Dữ liệu từ thí
nghiệm này được thể hiện trong bảng sau

Vấn đề đặt ra là phân tích sự ảnh hưởng của nồng độ gỗ cứng lên độ bền kéo của sản phẩm?

13.2 Phân tích phương sai (ANOVA)

Giá trị quan trắc tổng quát sẽ được mô tả như bảng số liệu sau
152 13.2. Phân tích phương sai (ANOVA)

bằng mô hình thống kê tuyến tính

Yij = µ + τi + ϵij , i = 1, a; j = 1, n, (13.1)

với Yij là biến ngẫu nhiên thể hiện cho giá trị quan trắc lần thứ ij, tham số chung cho tất cả
các treatment µ được gọi là trung bình chung, tham số τi kết hợp với treatment thứ i được
gọi là tham số hiệu quả thứ i và ϵij là sai số của phép đo thứ ij. Chú ý, ta có thể viết ngắn
gọn mô hình (13.1) thành

Yij = µi + ϵij , i = 1, a; j = 1, n,

với µi là trung bình của treatment thứ i. Với giả sử sai số ϵij độc lập cùng phân phối N (0, σ),
quan sát mô hình này ta sẽ thấy ứng với mỗi treatment được coi như một tổng thể có phân
phối chuẩn N (µi , σ).

Trong mô hình hiệu quả cố định, ta gỉa sử tham số hiệu quả τi dao động quanh trung bình
chung thỏa mãn
Xa
τi = 0.
i=1

Ta xét bài toán kiểm định H0 : µ1 = µ2 = · · · = µa với đối thiết H1 : có ít nhất một µi khác.
Bài toán này tương đương với

H0 : τ1 = τ2 = · · · = τa = 0,
H1 : τi ̸= 0 tại ít nhất một i.
153

Nếu giả thiết H0 đúng có nghĩa là mỗi quan trắc đều là tổng của trung bình chung µ với biến
ngẫu nhiên nhiễu ϵij . Điều này có nghĩa là tất cả an quan trắc đều lấy từ tổng thể có phân
phối N (µ, σ 2 ). Do đó, mọi sự thay đổi nhân tố không ảnh hưởng tới trung bình.

Định nghĩa 13.1 Thống kê F -test

MSTr
F0 = ∼ Fa−1;a(n−1) .
MSE

Bảng sau được gọi là bảng phân tích phương sai (ANOVA table)

Tên đại lượng Tổng bình phương Bậc tự do T/bình bình phương F0
Treatment SSTr a−1 M STr M STr /M SE
Sai số SSE a(n − 1) M SE
Tổng SST an − 1


Chú ý, ta tính p − value theo công thức p − value = 1 − P Fa−1,a(n−1) ≤ F0 .
Đặc biệt, nếu cỡ mẫu giữa các treatment bằng nhau ta có

X
a X
n
y..2
SST = 2
yij − ,
an
i=1 j=1
Xa
yi.2 y..2
SSTr = − ,
n an
i=1
SSE = SST − SSTr ,
Pa
cỡ mẫu giữa các treatment không bằng nhau, với N = i=1 ni

X
a X
ni
y..2
SST = 2
yij − ,
N
i=1 j=1
Xa
yi.2 y..2
SSTr = − ,
ni N
i=1
SSE = SST − SSTr ,

và trung bình bình phương treatment, trung bình bình phương sai số tính như sau

SSTr
MSTr = ,
(a − 1)
SSE
MSE = .
(a(n − 1))

Ví dụ 13.1 Sử dụng số liệu ở mục 13.1, ta tiến hành kiểm định có sự khác nhau của
trung bình ảnh hưởng của nồng độ bột gỗ. Đặt giả thuyết H0 : τ1 = τ2 = τ3 = τ4 = 0
và đối thuyết H1 : có ít nhất một τi ̸= 0 với mức ý nghĩa 0.01.
154 13.3. Kiểm định Turkey

Ta tính toán các đại lượng sau:

X
4 X
6
y..2 (383)2
SST = 2
yij − = (7)2 + (8)2 + · · · + (20)2 − = 512.96
24 24
i=1 j=1

X
4
y2 y..2 (60)2 + (94)2 + (102)2 + (127)2 (383)2
SSTr = i.
− = − = 382.79
6 24 6 24
i=1
SSE = SST − SSTr = 512.96 − 382.79 = 130.17

và lập bảng ANOVA

Source of Variation SS Bậc tự do SSE f0 p − value


Treatments 382.79 3 127.60 19.60 3.59E-6
Sai số 130.17 20 6.51
Tổng 512.96 24

Tra bảng ta được f0.01,3,20 = 4.94 và do đó f0 > f0.01,3,20 nên ta bác bỏ H0 . Vậy ta có
thể kết luận có một nồng độ phần trăm bột gỗ cứng ảnh hưởng tới độ bền kéo của sản
phẩm.

13.3 Kiểm định Turkey

Khi ta sử dụng F -test trên ta chỉ phát hiện ra có sự khác nhau giữa những giá trị trung
bình mà không xác định được cụ thể hai giá trị trung bình nào khác nhau. Để xem xét kĩ hơn
vấn đề này, người ta sử dụng thủ tục so sánh cặp giá trị trung bình (multiple comparisons
procedure) hay còn được gọi là kiểm định Turkey (Tukey’s procedure hoặc T -method).

Định lý 13.1 (Kiểm định Turkey) r


MSE
Với α cho trước, ta tính w = Qα,a,a(n−1) . Sau đó thực hiện các bước sau:
n
i. Liệt kê các trung bình mẫu theo thứ tự tăng dần.

ii. Gạch dưới những cặp liền kề mà khác nhau ít hơn w. Chú ý, nếu cách 1 số ở
giữa mà 2 số khác nhau lượng nhỏ hơn w thì gạch liên tục, nếu không thì gạch 2
đường trên dưới rời nhau.

iii. Cặp trung bình mẫu nào không được gạch dưới chứng tỏ cặp treatment tương
ứng có trung bình khác nhau đáng kể.

Ví dụ 13.2 Một nghiên cứu đã được thực hiện để so sánh năm nhãn hiệu lọc dầu ô
tô khác nhau liên quan đến khả năng loại bỏ cặn bẩn trong dầu. Gọi µi là trung bình
đúng cho khả năng loại bỏ cặn bẩn của nhãn hiệu thứ i với i = 1, 5. Mỗi nhãn hiệu ta
lấy 9 mẫu với trung bình mẫu như sau: x1· = 14.5, x2· = 13.8, x3· = 13.3, x4· = 14.3 và
x5· = 13.1. Ta có bảng phân tích ANOVA sau
155

Tên đại lượng Tổng bình phương Bậc tự do Trung bình bình phương F0
Treatment 13.32 4 3.33 37.84
Sai số 3.53 40 0.088
Tổng 16.85 44

Với f0.001,4,40 = 5.7, suy ra p − value = 0.001. Do đó, bác bỏ H0 vì nhỏ hơn mức ý
nghĩa 0.05.
Sau đây, ta sử dụng kiểm định Turkey để kiểm trapsự khác nhau giữa các cặp µi . Từ
giá trị phân vị Q0.05,5,40 = 4.04, ta tính w = 4.04 0.088/9 = 0.4. Xếp giá trị trung
bình treatment tăng dần: x5· < x3· < x2· < x4· < x1· sau đó gạch dưới cặp treatment
có sự sai khác giá trị trung bình nhỏ hơn w như sau

x5· x3· x2· x4· x1·

Ta có kết luận rằng treatment 5 và treatment 3, treatment 4 và treatment 1 không có


sự sai khác trung bình đáng kể.

Hơn nữa, ta có công thức xây dựng khoảng tin cậy cho cặp giá trị trung bình bất kì như
sau

Định lý 13.2 Với xác suất (1 − α)100%, ta có khoảng tin cậy


r r
MSE MSE
y i. − y j. − Qα,a,a(n−1) ≤ µi − µj ≤ y i. − y j. + Qα,a,a(n−1) ,
n n

với mọi i, j = 1, a thỏa i < j và Qa,a(n−1) là phân phối khoảng Student (Studentized
range distribution).

Ví dụ 13.3 A biologist wished to study the effects of ethanol on sleep time. A sample
of 20 rats, matched for age and other characteristics, was selected, and each rat was
given an oral injection having a particular concentration of ethanol per body weight.
The rapid eye movement (REM) sleep time for each rat was then recorded for a 24-hour
period, with the following results

Does the data indicate that the true average REM sleep time depends on the concentra-
tion of ethanol? (This example is based on an experiment reported in “Relationship of
Ethanol Blood Level to REM and Non-REM Sleep Time and Distribution in the Rat,”
156 13.4. Bài tập

Life Sciences, 1978: 839-846.)

13.4 Bài tập

Bài tập 13.1 Consider the following computer output

a. How many levels of the factor were used in this experiment?

b. How many replicates did the experimenter use?

c. Fill in the missing information in the ANOVA table. Use bounds for the p-value.

d. What conclusions can you draw about differences in the factor level means?

Bài tập 13.2 Consider the following computer output for an experiment. The factor
was tested over four levels

a. How many replicates did the experimenter use?

b. Fill in the missing information in the ANOVA table. Use bounds for the p-value.

c. What conclusions can you draw about differences in the factor-level means?

Bài tập 13.3 Consider the following computer output for an experiment.

a. How many replicates did the experimenter use?

b. Fill in the missing information in the ANOVA table. Use bounds for the p-value.

c. What conclusions can you draw about differences in the factor level means?

d. Compute an estimate for σ 2 .


157

Bài tập 13.4 An electronics engineer is interested in the effect on tube conductivity
of five different types of coating for cathode ray tubes in a telecommunications system
display device. The following conductivity data are obtained.

a. Is there any difference in conductivity due to coating type? Use α = 0.01.

b. Analyze the residuals from this experiment.

c. Construct a 95% interval estimate of the coating type 1 mean. Construct a 99%
interval estimate of the mean difference between coating types 1 and 4.

Bài tập 13.5 An article in Environment International [1992, Vol. 18(4)] described an
experiment in which the amount of radon released in showers was investigated. Radon-
enriched water was used in the experiment, and six different orifice diameters were
tested in shower heads. The data from the experiment are shown in the following table.

a. Does the size of the orifice affect the mean percentage of radon released? Use
α = 0.05..

b. Find the p-value for the F -statistic in part a..

c. Analyze the residuals from this experiment.

d. Find a 95% confidence interval on the mean percent of radon released when the
orifice diameter is 1.40.

Bài tập 13.6 An article in the ACI Materials Journal (1987, Vol. 84, pp. 213–216)
described several experiments investigating the rodding of concrete to remove entrapped
air. A 3-inch × 6-inch cylinder was used, and the number of times this rod was used is
the design variable. The resulting compressive strength of the concrete specimen is the
response. The data are shown in the following table.
158 13.4. Bài tập

a. Is there any difference in compressive strength due to the rodding level?

b. Find the p-value for the F -statistic in part a..

c. Analyze the residuals from this experiment. What conclusions can you draw about
the underlying model assumptions?

Bài tập 13.7 A paper in the Journal of the Association of Asphalt Paving Technol-
ogists (1990, Vol. 59) described an experiment to determine the effect of air voids on
percentage retained strength of asphalt. For purposes of the experiment, air voids are
controlled at three levels; low (2–4%), medium (4–6%), and high (6–8%). The data are
shown in the following table.

a. Do the different levels of air voids significantly affect mean retained strength? Use
α = 0.01.

b. Find the P-value for the F -statistic in part a..

c. Analyze the residuals from this experiment.

d. Find a 95% confidence interval on mean retained strength where there is a high
level of air voids.

e. Find a 95% confidence interval on the difference in mean retained strength at the
low and high levels of air voids.

Bài tập 13.8 An experiment was run to determine whether four specific firing temper-
atures affect the density of a certain type of brick. The experiment led to the following
data.
159

a. Does the firing temperature affect the density of the bricks? Use α = 0.05.

b. Find the P-value for the F -statistic computed in part a..

c. Analyze the residuals from the experiment.

Bài tập 13.9 It is common practice in many countries to destroy (shred) refrigerators
at the end of their useful lives. In this process material from insulating foam may be
released into the atmosphere. The article “Release of Fluorocarbons from Insulation
Foam in Home Appliances During Shredding” (J. of the Air and Waste Mgmt. As-
soc., 2007: 1452–1460) gave the following data on foam density (g/L) for each of two
refrigerators produced by four different manufacturers:

1. 30.4, 29.2 2. 27.7, 27.1


3. 27.1, 24.8 4. 25.5, 28.8

Does it appear that true average foam density is not the same for all these manu-
facturers? Carry out an appropriate test of hypotheses by obtaining as much p-value
information as possible, and summarize your analysis in an ANOVA table.

Bài tập 13.10 The article “Origin of Precambrian Iron Formations” (Econ. Geology,
1964: 1025–1057 ) reports the following data on total Fe for four types of iron formation
(1=carbonate, 2=silicate, 3=magnetite, 4=hematite).

1: 20.5 28.1 27.8 27.0 28.0


25.2 25.3 27.1 20.5 31.3
2: 26.3 24.0 26.2 20.2 23.7
34.0 17.1 26.8 23.7 24.9
3: 29.5 34.0 27.5 29.4 27.9
26.2 29.9 29.5 30.0 35.6
4: 36.5 44.2 34.1 30.3 31.4
33.1 34.1 32.9 36.3 25.5

Carry out an analysis of variance F -test at significance level 0.01, and summarize the
results in an ANOVA table.

Bài tập 13.11 An experiment to compare the spreading rates of five different brands
of yellow interior latex paint available in a particular area used 4 gallons (J = 4) of
each paint. The sample average spreading rates (f t2/gal) for the five brands were
x1· = 462.0, x2· = 512.8, x3· = 437.5, x4· = 469.3 and x5· = 532.1. The computed
value of F was found to be significant at level a α = 0.05. With MSE = 272.8, use
Tukey’s procedure to investigate significant differences in the true average spreading
rates between brands.

Bài tập 13.12 Consider the accompanying data on plant growth after the application
of five different types of growth hormone.

1: 13 17 7 14
160 13.4. Bài tập

2: 21 13 20 17
3: 18 15 20 17
4: 7 11 18 10
5: 6 11 15 8

a. Perform an F test at level a α = 0.05.

b. What happens when Tukey’s procedure is applied?


161
14. KIỂM
162 ĐỊNH PHI THAM SỐ

14.1 Kiểm định dấu trường hợp mẫu cặp 162

14.2 Kiểm định dấu - hạng Wilcoxon trường hợp mẫu cặp
165

14.3 Kiểm định Mann-Whitney trường hợp mẫu độc lập169

14.4 Kiểm định phân phối 172

14.5 Kiểm định giả thuyết về tính độc lập 174

14.1 Kiểm định dấu trường hợp mẫu cặp


Kiểm định dấu (sign test) được sử dụng để kiểm định giả thuyết so sánh trung vị µ (xem
định nghĩa ở Chương 3) của hai phân phối liên tục. Chú ý, phân phối chuẩn là một phân phối
đối xứng nên trung bình và trung vị trùng nhau do đó kiểm định dấu cũng có thể sử dụng
kiểm định giá trị trung bình như Chương 10. Sự khác biệt chính là kiểm định dấu thiết kế
cho mẫu quan trắc từ phân phối liên tục bất kì và là một thủ tục kiểm định phi tham số.
Xét bài toán kiểm định so sánh trung vị µ của một tổng thể có phân phối liên tục từ một
bộ dữ liệu (mẫu ngẫu nhiên) X11 , · · · , X1n được quan trắc từ tổng thể đang quan tâm thứ
nhất và X21 , · · · , X2n được quan trắc từ tổng thể đang quan tâm thứ hai. Khi đó, ta phát
biểu giả thuyết 
H0 : µ 1 = µ 2 ,
H1 : µ1 ̸= µ2 ,
với µ0 là giá trị tham số đặc biệt mà ta quan tâm. Ta gọi thống kê kiểm định R+ là biến
ngẫu nhiên biểu thị số lần đại lượng khác nhau là dương. Do đó, ta có

R+ ∼ B(n, 0.5)

Kết luận: ta kết luận dựa trên giá trị của p − value được tính như sau:

i. Nếu H1 : µ1 < µ2 thì p − value = P(R+ ≤ r+ ),

ii. Nếu H1 : µ1 > µ2 thì p − value = P(R+ ≥ r+ ),

iii. Nếu H1 : µ1 ̸= µ2 thì p−value = 2P(R+ ≤ r+ ) nếu r+ < n/2 và p−value = 2P(R+ ≥ r+ )
nếu r+ > n/2,

trong đó r+ là số lần dương của X1i − X2i . Chú ý: khi X1i − X2i = 0 ta gọi đó là trường hợp
“ties” và sẽ bỏ qua không tính mẫu này.

Định lý 14.1 Khi p = 0.5, phân phối nhị thức sẽ được xấp xỉ tốt bởi phân phối chuẩn
khi cỡ mẫu ít nhất là 10. Do đó, khi trung bình của phân phối nhị thức là np và phương
163

sai là np(1 − p) thì R+ xấp xỉ phân phối chuẩn N (0.5n, 0.25n) với n lớn vừa đủ. Trong
trường hợp kiểm định H0 : µ = µ0 , ta có thể sử dụng thống kê kiểm định

R+ − 0.5n
Z0 = √
0.5 n

Ví dụ 14.1 Montgomery, Peck và Vining (2012) đã báo cáo một nghiên cứu trong đó
động cơ tên lửa được hình thành bằng cách kết hợp chất đẩy nhiên liệu và chất đẩy bền
vững với nhau bên trong một vỏ kim loại. Độ bền cắt của liên kết giữa hai loại nhiên
liệu là một đặc tính quan trọng. Kết quả của 20 lần đo ngẫu nhiên các động cơ như
bảng sau

Observation Shear Strength xi


1 2158,7
2 1678,15
3 2316
4 2061,3
5 2207,5
6 1708,3
7 1784,7
8 2575
9 2357,9
10 2277,7
11 2165,2
12 2399,55
13 1779,8
14 2336,75
15 1765,3
16 2053,5
17 2414,4
18 2200,5
19 2654,2
20 1753,7
164 14.1. Kiểm định dấu trường hợp mẫu cặp

Hãy kiểm định giá trị trung vị của độ bền cắt là 2000psi với mức ý nghĩa α = 0.05.
Đặt giả thuyết H0 : µ = 2000 và đối thuyết H1 : µ ̸= 2000.
Ta lập bảng số liệu sau

Observation Shear Strength xi Differences xi − 2000 Sign


1 2158.7 +158.70 +
2 1678.15 –321.85 -
3 2316 +316.00 +
4 2061.3 +61.30 +
5 2207.5 +207.50 +
6 1708.3 –291.70 -
7 1784.7 –215.30 -
8 2575 +575.10 +
9 2357.9 +357.90 +
10 2277.7 +256.70 +
11 2165.2 +165.20 +
12 2399.55 +399.55 +
13 1779.8 –220.20 -
14 2336.75 +336.75 +
15 1765.3 –234.70 -
16 2053.5 +53.50 +
17 2414.4 +414.40 +
18 2200.5 +200.50 +
19 2654.2 +654.20 +
20 1753.7 –246.30 -

suy ra thống kê kiểm định r+ = 14. Vì r+ > n/2 = 10 nên

X
20
p − value = 2P(R+ ≥ 14) = 2 x
C20 0.5x (1 − 0.5)20−x = 0.1153
x=14

Vì p − value < α nên ta không thể bác bỏ H0 khẳng định rằng trung vị bằng 2000psi.

Bài tập 14.1 Ten samples were taken from a plating bath used in an electronics
manufacturing process, and the bath pH of the bath was determined. The sample pH
values are 7.91, 7.85, 6.82, 8.01, 7.46, 6.95, 7.05, 7.35, 7.25, and 7.42. Manufacturing
engineering believes that pH has a median value of 7.0.

a. Do the sample data indicate that this statement is correct? Use the sign test with
α = 0.05 to investigate this hypothesis. Find the p-value for this test.

b. Use the normal approximation for the sign test to test H0 : µ = 0.7 versus
H1 : µ ̸= 0.7. What is the p-value for this test?
165

Bài tập 14.2 The titanium content in an aircraft-grade alloy is an important determi-
nant of strength. A sample of 20 test coupons reveals the following titanium content
(in percent): 8.32, 8.05, 8.93, 8.65, 8.25, 8.46, 8.52, 8.35, 8.36, 8.41, 8.42, 8.30, 8.71,
8.75, 8.60, 8.83, 8.50, 8.38, 8.29, 8.46 The median titanium content should be 8.5%.

a. Use the sign test with α = 0.05 to investigate this hypothesis. Find the p-value
for this test.

b. Use the normal approximation for the sign test to test H0 : µ = 8.5 versus
H1 : µ ̸= 8.5 with α = 0.05. What is the p-value for this test?

Bài tập 14.3 The impurity level (in ppm) is routinely measured in an intermediate
chemical product. The following data were observed in a recent test: 2.4, 2.5, 1.7, 1.6,
1.9, 2.6, 1.3, 1.9, 2.0, 2.5, 2.6, 2.3, 2.0, 1.8, 1.3, 1.7, 2.0, 1.9, 2.3, 1.9, 2.4, 1.6 Can you
claim that the median impurity level is less than 2.5 ppm?

a. State and test the appropriate hypothesis using the sign test with α = 0.05. What
is the p-value for this test?

b. Use the normal approximation for the sign test to test H0 : µ = 2.5 versus
H1 : µ < 2.5 with α = 0.05. What is the p-value for this test?

14.2 Kiểm định dấu - hạng Wilcoxon trường hợp mẫu cặp
Thủ tục kiểm định dấu chỉ quan tâm dấu dương hoặc âm giữa sự khác nhau của hai trung
vị mà không quan tâm tới độ lớn của sự khác nhau đó. Frank Wilcoxon đã đề xuất một thủ
tục kiểm định sử dụng cả dấu và độ lớn của sự khác biệt. Thủ tục này được gọi là kiểm định
dấu-hạng Wilcoxon (Wilcoxon signed-rank test). Chú ý, khi phân phối quan trắc là liên tục
đối xứng thì giá trị trung bình và trung vị là như nhau nên thủ tục này có thể sử dụng nhằm
kiểm định giá trị trung bình µ = µ0 .
Xét bài toán kiểm định giá trị trung vị µ của một tổng thể có phân phối liên tục từ một
bộ dữ liệu (mẫu ngẫu nhiên) X11 , · · · , X1n được quan trắc từ tổng thể đang quan tâm thứ
nhất và X21 , · · · , X2n được quan trắc từ tổng thể đang quan tâm thứ hai. Khi đó, ta phát
biểu giả thuyết 
H0 : µ 1 − µ 2 = ∆ 0 ,
H1 : µ1 − µ2 ̸= ∆0 ,
với ∆0 là giá trị tham số đặc biệt mà ta quan tâm. Ta gọi thống kê kiểm định

W = min(W − ; W + )

trong đó W − , W + được tính như sau:

i. Tính giá trị X1i − X2i rồi ghi lại dấu của kết quả.

ii. Tính giá trị |(X1i − X2i ) − ∆0 |; xóa những quan trắc khi kết quả này bằng 0; n là cỡ
mẫu còn lại sau khi xóa.

iii. Xếp các giá trị trên theo thứ tự tăng dần.
166 14.2. Kiểm định dấu - hạng Wilcoxon trường hợp mẫu cặp

iv. W − là tổng số thứ tự mà kết quả bước i. âm và W + là tổng số thứ tự mà kết quả bước
i. dương.

Kết luận: bác bỏ H0 nếu w ≤ wα∗ với wα∗ như bảng phía dưới. Ngược lại thì chấp nhận.

i. Nếu H1 : µ > µ0 thì ta sẽ bác bỏ giả thuyết H0 khi w− ≤ wα∗ .

ii. Nếu H1 : µ < µ0 thì ta sẽ bác bỏ giả thuyết H0 khi w+ ≤ wα∗ .

Trường hợp có nhiều giá trị khác nhau giữa quan trắc và trung vị giống nhau thì ta lấy trung
bình cộng hạng vốn dĩ phải xếp cho các quan trắc này làm hạng chung.

Ví dụ 14.2 Sử dụng số liệu ở ví dụ 14.1, sử dụng kiểm định dấu và hạng Wilcoxon
kiểm tra khẳng định giá trị trung vị là 2000psi với mức ý nghĩa α = 0.05.
Đặt giả thuyết H0 : µ = 2000 và đối thuyết H1 : µ ̸= 2000.
Ta lập bảng số liệu sau

Observation Shear Strength xi Differences xi − 2000 Sign


1 2158.7 +158.70 +3
2 1678.15 –321.85 -14
3 2316 +316.00 +13
4 2061.3 +61.30 +2
5 2207.5 +207.50 +6
167

6 1708.3 –291.70 -12


7 1784.7 –215.30 -7
8 2575 +575.10 +19
9 2357.9 +357.90 +16
10 2277.7 +256.70 +11
11 2165.2 +165.20 +4
12 2399.55 +399.55 +17
13 1779.8 –220.20 -8
14 2336.75 +336.75 +15
15 1765.3 –234.70 -9
16 2053.5 +53.50 +1
17 2414.4 +414.40 +18
18 2200.5 +200.50 +5
19 2654.2 +654.20 +20
20 1753.7 –246.30 -10

suy ra thống kê kiểm định w = min(w+ , w− ) = min(150, 60) = 60. Ta có w = 60 ≥



w0.05 = 52 nên ta không thể bác bỏ H0 khẳng định rằng trung vị bằng 2000psi.

Ví dụ 14.3 Một bộ phận làm việc trong công viên thành phố đã so sánh công thức
mới của một loại phân bón (nhãn hiệu A), với phân bón được sử dụng trước đó (nhãn
hiệu B), trên 20 mảnh đất khác nhau. Mỗi mảnh đất được chia làm hai, nhãn hiệu A
được sử dụng ngẫu nhiên cho một nửa của mảnh đất và nhãn hiệu B cho nửa còn lại.
Sáu mươi pound phân bón được sử dụng mỗi mẫu Anh của những mảng đất. Hiệu quả
của phân bón trên cỏ được trồng trên đất được đo bằng trọng lượng (tính bằng pound)
cắt được trong thời gian 1 tháng.

Field Brand A Brand A Field Brand A Brand A


1 211.4 186.3 11 208.9 183.6
2 204.4 205.7 12 208.7 188.7
3 202.0 184.4 13 213.8 188.6
4 201.9 203.6 14 201.6 204.2
5 202.4 180.4 15 201.8 181.6
6 202.0 202.0 16 200.3 208.7
7 202.4 181.5 17 201.8 181.5
8 207.1 186.7 18 201.5 208.7
9 203.6 205.7 19 212.1 186.8
10 216.0 189.1 20 203.4 182.9

Đánh giá xem nhãn hiệu A có xu hướng cho năng suất nhiều cỏ hơn nhãn hiệu B? Mức
ý nghĩa α = 0.05.
168 14.2. Kiểm định dấu - hạng Wilcoxon trường hợp mẫu cặp

Bài tập 14.4 An inspector are measured the diameter of a ball bearing using a new
type of caliper. The results were as follows (in mm): 0.265, 0.263, 0.266, 0.267, 0.267,
0.265, 0.267,0.267, 0.265, 0.268, 0.268, and 0.263.

a. Use the Wilcoxon signed-rank test to evaluate the claim that the mean ball diam-
eter is 0.265 mm. Use α = 0.05.

b. Use the normal approximation for the test. With α = 0.05, what conclusions can
you draw?

Bài tập 14.5 A new type of tip can be used in a Rockwell hardness tester. Eight
coupons from test ingots of a nickelbased alloy are selected, and each coupon is tested
using the new tip. The Rockwell C-scale hardness readings are 63, 65, 58, 60, 55, 57,
53, and 59. Do the results support the claim that the mean hardness exceeds 60 at a
0.05 level?

Bài tập 14.6 A primer paint can be used on aluminum panels. The primer’s drying
time is an important consideration in the manufacturing process. Twenty panels are
selected, and the drying times are as follows: 1.6, 1.3, 1.5, 1.6, 1.7, 1.9, 1.8, 1.6, 1.4,
1.8, 1.9, 1.8, 1.7, 1.5, 1.6, 1.4, 1.3, 1.6, 1.5, and 1.8. Is there evidence that the mean
drying time of the primer exceeds 1.5 hr?

Bài tập 14.7 A random sample of eight pairs of twins were randomly assigned to
treatment A or treatment B. The data are given in the following table.

Is there significant evidence that the two treatments differ using an a α = 0.05 Wilcoxon
signed-rank test.

Bài tập 14.8 A study was conducted to determine whether automobile repair charges
are higher for female customers than for male customers. Twenty auto repair shops
were randomly selected from the telephone book. Two cars of the same age, brand,
and engine problem were used in the study. For each repair shop, the two cars were
randomly assigned to a man and woman participant and then taken to the shop for an
estimate of repair cost. The repair costs (in dollars) are given here.

a. Which procedure, t or Wilcoxon, is more appropriate in this situation? Why?


169

b. Are repair costs generally higher for female customers than for male customers?
Use a α = 0.05.

Bài tập 14.9 The effect of Benzedrine on the heart rate of dogs (in beats per minute)
was examined in an experiment on 14 dogs chosen for the study. Each dog was to serve
as its own control, with half of the dogs assigned to receive Benzedrine during the first
study period and the other half assigned to receive a placebo (saline solution). All dogs
were examined to determine the heart rates after 2 hours on the medication. After 2
weeks in which no medication was given, the regimens for the dogs were switched for
the second study period. The dogs previously on Benzedrine were given the placebo,
and the others received Benzedrine. Again, heart rates were measured after 2 hours.
The following sample data are not arranged in the order in which they were taken but
have been summarized by regimen. Use these data to test the research hypothesis that
the distribution of heart rates for the dogs when receiving Benzedrine is shifted to the
right of that for the same animals when on the placebo. Use a one-tailed Wilcoxon
signed-rank test with a α = 0.05.

14.3 Kiểm định Mann-Whitney trường hợp mẫu độc lập


Kiểm định Mann-Whitney có tác dụng tương tự kiểm định Wilcoxon tuy nhiên nó được
áp dụng khi mẫu độc lập. Xét bài toán kiểm định giá trị trung vị µ của một tổng thể có phân
phối liên tục từ một bộ dữ liệu (mẫu ngẫu nhiên) X11 , · · · , X1n1 được quan trắc từ tổng thể
đang quan tâm thứ nhất và X21 , · · · , X2n2 được quan trắc từ tổng thể đang quan tâm thứ
hai. Chú ý, ta giả sử n1 ≤ n2 . Khi đó, ta phát biểu giả thuyết

H0 : µ1 − µ2 = 0,
H1 : µ1 − µ2 ̸= 0,

với ∆0 là giá trị tham số đặc biệt mà ta quan tâm. Ta gọi thống kê kiểm định

(n1 + n2 )(n1 + n2 + 1)
W2 = − W1
2
trong đó W1 được tính như sau:

i. Trộn hai mẫu lại thành một, sau đó xếp giá trị tăng dần rồi đánh chỉ số thứ tự này.

ii. W1 là tổng các chỉ số thứ tự của mẫu thứ 1.

Kết luận: bác bỏ H0 nếu w1 , w2 ≤ wα với wα như bảng phía dưới. Ngược lại thì chấp nhận.
170 14.3. Kiểm định Mann-Whitney trường hợp mẫu độc lập

i. Nếu H1 : µ1 − µ2 > 0 thì ta sẽ bác bỏ giả thuyết H0 khi w2 ≤ wα .

ii. Nếu H1 : µ1 − µ2 < 0 thì ta sẽ bác bỏ giả thuyết H0 khi w1 ≤ wα .

Ví dụ 14.4 Ứng suất trung bình dọc trục của những bộ phận chịu kéo được sử dụng
trong cấu trúc máy bay đang được nghiên cứu. Hai hợp kim đang được điều tra. Hợp
kim 1 là vật liệu truyền thống, và hợp kim 2 là hợp kim nhôm mới nhẹ hơn nhiều so với
vật liệu truyền thống. Mười mẫu của mỗi loại hợp kim được thử nghiệm, và ứng suất
dọc trục được đo. Dữ liệu mẫu được tập hợp trong bảng sau

Alloy 1 Alloy 1
3238 psi 3254 psi 3261 psi 3248 psi
3195 3229 3187 3215
3246 3225 3209 3226
3190 3217 3212 3240
3204 3241 3258 3234
171

Sử dụng α = 0.05, ta muốn kiểm tra giả thuyết rằng trung bình của hai phân phối ứng
suất là giống nhau?
Đặt giả thuyết H0 : µ1 = µ2 và đối thuyết H1 : µ1 ̸= µ2 . Lập bảng sau

Alloy number Axial Stress Rank


2 3187psi 1
1 3190 2
1 3195 3
1 3204 4
2 3209 5
2 3212 6
2 3215 7
1 3217 8
1 3225 9
2 3226 10
1 3229 11
2 3234 12
1 3238 13
2 3240 14
1 3241 15
1 3246 16
2 3248 17
1 3254 18
2 3258 19
2 3261 20

(n1 + n2 )(n1 + n2 + 1)
Tổng hạng của alloy 1 w1 = 99 và w2 = − w1 = 111. Ta thấy
2
w1 , w2 ≥ w0.05 = 78. Ta không thể bác bỏ khẳng định H0 là hai trung vị có giá trị như
nhau.

Ví dụ 14.5 Xem ví dụ 6.5 trang 318 sách Ott [OL].

Bài tập 14.10 An electrical engineer must design a circuit to deliver the maximum
amount of current to a display tube to achieve sufficient image brightness. Within
her allowable design constraints, she has developed two candidate circuits and tests
prototypes of each. The resulting data (in microamperes) are as follows:

a. Use the Wilcoxon rank-sum test to test H0 : µ1 = µ2 the alternative H1 : µ1 > µ2 .


Use α = 0.025.

b. Use the normal approximation for the Wilcoxon rank-sum test. Assume that
172 14.4. Kiểm định phân phối

α = 0.05. Find the approximate p-value for this test statistic.

Bài tập 14.11 One of the authors travels regularly to Seattle, Washington. He uses
either Delta or Alaska airline. Flight delays are sometimes unavoidable, but he would
be willing to give most of his business to the airline with the best on-time arrival record.
The number of minutes that his flight arrived late for the last six trips on each airline
follows. Is there evidence that either airline has superior on-time arrival performance?
Use α = 0.01 and the Wilcoxon rank-sum test

Bài tập 14.12 The manufacturer of a hot tub is interested in testing two different
heating elements for its product. The element that produces the maximum heat gain
after 15 minutes would be preferable. The manufacturer obtains 10 samples of each
heating unit and tests each one. The heat gain after 15 minutes (in ◦ F ) follows.

a. Is there any reason to suspect that one unit is superior to the other? Use α = 0.05
and the Wilcoxon ranksum test.

b. Use the normal approximation for the Wilcoxon ranksum test. Assume that α =
0.05. What is the approximate p-value for this test statistic?

Bài tập 14.13 Random samples of size n1 = 8 and n2 = 8 were selected from popula-
tions A and B, respectively. The data are given in the following table.

a. Test for a difference in the medians of the two populations using an a α = 0.05
Wilcoxon rank sum test.

b. Place a 95% confidence interval on the difference in the medians of the two pop-
ulations.

14.4 Kiểm định phân phối

Xét một biến ngẫu nhiên X có phân phối xác suất P chưa biết. Dựa trên một mẫu dữ
liệu thu thập được dạng

X I1 I2 ... Ik
Tần số thực nghiệm n1 n2 ... nk
173

với Ii có thể là giá trị số, giá trị nhãn hoặc có thể là một khoảng giá trị. Với mức ý nghĩa α,
hãy kiểm định giả thuyết
(
H0 : X có phân phối xác suất P (nào đó)
H1 : X không có phân phối xác suất P

Ta giả sử thống kê kiểm định

X
k
(nj − n′j )2
X2 = ∼ χ2 (k − r − 1),
n′j
j=1

với r là số tham số cần ước lượng của phân phối P và n′j = P. Ví dụ, khi H0 : X có phân
phối Poisson P (4) thì r = 0 vì ta không cần ước lượng tham số nào cả; nhưng khi H0 : X có
phân phối Poisson thì r = 1 vì ta cần ước lượng 1 tham số đó là λ = E(X).
Kết luận: bác bỏ H0 nếu X 2 > χ2α (k − r − 1).

Bài tập 14.14 Một máy dùng để trộn các loại hạt: đậu phộng, hạt dẻ, hạt điều và
hạt hạnh nhân theo tỷ lệ 5 : 2 : 2 : 1. Một mẫu ngẫu nhiên gồm 500 hạt được chọn ra
để khảo sát, trong đó có 269 hạt đậu phộng, 112 hạt dẻ, 74 hạt điều và 45 hạt hạnh
nhân. Với mức ý nghĩa 5%, kiểm tra giả thuyết rằng máy này trộn bốn loại hạt trên
theo đúng tỷ lệ 5 : 2 : 2 : 1 hay không?

Bài tập 14.15 Điểm trong một khoá học thống kê của sinh viên năm nhất được thể
hiện trong bảng dưới đây

Hạng A B C D F
Tần số quan sát 14 18 32 20 16

Có ý kiến cho rằng sự phân bố các hạng là như nhau. Hãy kiểm trả xem ý kiến đó có
tin được không với mức ý nghĩa 5%.

Bài tập 14.16 Điểm thi cuối kỳ của môn Xác suất Thống kê được thể hiện dưới đây

23 60 36 80 55 76 98 81 88 62

79 32 77 81 52 10 67 41 74 43
57 74 95 41 64 75 71 83 60 78
52 70 48 84 69 74 79 34 85 61
82 90 15 63 80 65 92 85 78 25
80 54 64 72 89 76 84 67 17 82
Với mức ý nghĩa 5%, hãy kiểm tra mức độ phù hợp giữa tần số quan sát và tần số lý
thuyết của phân phối chuẩn N (65, 212 ).
174 14.5. Kiểm định giả thuyết về tính độc lập

Bài tập 14.17 Dữ liệu sau đây thể hiện thời gian sống (ĐV : năm) của 30 máy bơm
nhiên liệu, các số liệu được làm tròn đến một chữ số thập phân:

2.0 3.0 0.3 3.3 1.3 0.4

5.5 6.5 0.2 2.3 1.5 4.0


4.7 0.7 4.5 0.3 0.2 6.0
1.5 0.5 2.5 5.0 5.9 1.8
1.0 6.0 5.6 6.0 1.2 0.2
Với mức ý nghĩa 5%, hãy kiểm tra mức độ phù hợp giữa tần số quan sát và tần số lý
thuyết của phân phối chuẩn N (1.8, 0.42 ).

Bài tập 14.18 Trong một thí nghiệm nhân giống, người ta giao phối những con gà lông
trắng với những con gà có mào gà nhỏ và sinh ra được 190 con với những loại được thể
hiện như trong bảng sau:

Lông trắng, mào gà nhỏ. 111 con


Lông trắng, mào gà lớn 37 con
Lông đen, mào gà nhỏ 34
Lông đen, mào gà lớn 8 con

Những sữ liệu này có phù hợp với tỷ lệ dự kiến của Mendel là 9 : 3 : 3 : 1 cho bốn loại
không? Với mức ý nghĩa 10%

14.5 Kiểm định giả thuyết về tính độc lập


Xét một cặp biến ngẫu nhiên (X, Y ) với dữ liệu quan trắc được cho dưới dạng bảng sau
X
Tổng dòng
I1 I2 ... Ic
J1 n11 n12 ... n1c n1•
J2 n21 n22 ... n2c n2•
Y
... ... ... ... ...
Jd nd1 nd2 ... ndc nd•
Tổng cột n•1 n•2 ... n•c n
với Ii có thể là giá trị số hoặc giá trị nhãn hoặc có thể là một khoảng giá trị; nij là số cặp
quan trắc (x, y) thỏa x ∈ Ii và y ∈ Jj . nij được gọi là tần số thực nghiệm.
Hãy kiểm định giả thuyết
(
H0 : X, Y độc lập nhau
H1 : X, Y không độc lập nhau (phụ thuộc nhau)
Ta tính thống kê kiểm định như sau:
X (nij − n′ij )2
X2 = ∼ χ2 ((d − 1)(c − 1)),
n′ij
i,j
175

ni• × n•j Tổng dòng i × Tổng cột j


với n′ ij = = được tính thành bảng sau
n Tổng bảng
X
Tổng dòng
I1 I2 ... Ic
J1 n′11 n′12 ... n′1c n1•
J2 n′21 n′22 ... n′2c n2•
Y
... ... ... ... ...
Jd n′d1 n′d2 ... n′dc nd•
Tổng cột n•1 n•2 ... n•c n
Kết luận: bác bỏ H0 nếu X 2 > χ2α ((d − 1)(c − 1)).

Bài tập 14.19 Có giả thuyết cho rằng thời gian xem tivi không phụ thuộc vào giới tính
người xem. Để kiểm định giả thuyết này, một mẫu ngẫu nhiên gồm 90 ngừoi trưởng
thành được chọn để tham gia khảo sát. Kết quả khảo sát được trình bày trong bảng số
liệu sau

Nam Nữ
Trên 25 giờ/ tuần 15 29
Dưới 25 giờ/ tuần 27 19

Với mức ý nghĩa 1% , hãy cho kết luận về giả thuyết trên.

Bài tập 14.20 Một nhà tội phạm học đã thực hiện một cuộc khảo sát để xác định xem
liệu tỷ lệ của một số loại tội phạm có phụ thuộc vào các khu vực của thành phố hay
không? Các tội phạm đặc biệt quan tâm là tấn công, trộm cắp, nói dối và giết người.
Bảng dưới đây cho thấy số lượng tội phạm được thực hiện trong bốn khu vực của thành
phố trong năm qua.

Quận Tấn công Trộm cắp Cướp Giết người


1 162 118 451 18
2 310 196 996 25
3 258 193 458 10
4 280 175 390 19

Từ những dữ liệu này, chúng ta có thể kết luận rằng sự xuất hiện của các loại tội phạm
này phụ thuộc vào mỗi quận trong thành phố hay không, với mức ý ngĩa 1% ?

Bài tập 14.21 Trong một khảo sát để nghiên cứu sự phụ thuộc của bệnh tăng huyết
áp và thói quen hút thuốc. Một mẫu gồm 180 cá nhận được chọn ngẫu nhiên để tham
gia khảo sát, kết quả khảo sát được thể hiện trong bảng sau :

Không hút thuốc Hút thuốc ít Nghiện thuốc nặng


Tăng huyết áp 21 36 30
Không tăng huyết áp 48 26 19

Có ý kiến cho rằng bệnh tăng huyết áp không phụ thuộc vào thói quen hút thuốc. Với
mức ý nghĩa 5% hãy cho biết ý kiến đó có tin được không?
15. CHUỖI
176 THỜI GIAN

15.1 Khái niệm 176

15.2 Kĩ thuật trơn hóa chuỗi thời gian 179


15.2.1 Dự báo Naive (Naive Forecasting Models)
15.2.2 Trung bình di động (moving averages method)
15.2.3 Trung bình di động có trọng số (weighted
moving average method)
15.2.4 Làm trơn lũy thừa (exponential smoothing)

15.3 Phân tích thành phần xu thế 184


15.3.1 Hồi qui tuyến tính xu thế
15.3.2 Hồi qui cầu phương xu thế

15.4 Phân tích thành phần theo mùa 187

15.1 Khái niệm

Định nghĩa 15.1 Chuỗi thời gian là một tập hợp những quan trắc được sắp xếp theo
thời gian trong một khoảng quan tâm nào đó. Trong chuỗi thời gian, trình tự của quan
trắc rất quan trong trong khi dữ liệu bị cắt nhỏ (cross-section) bất kì là không có ý
nghĩa.

Định lý 15.1 Chuỗi thời gian có thể được phân tích ra 4 thành phần bao gồm: 3 thành
phân liên quan tới hệ thống và 1 thành phần ngẫu nhiên

i. Thành phần xu thế, định hướng (trend component) là định hướng dài hạn của dữ
liệu, thường kéo dài hết khoảng thời gian ta quan tâm.

ii. Thành phần chu kì (cyclical component) là những bước ngoặt của mức cao và
mức thấp mà dữ liệu trải qua khoảng thời gian dài thường là hơn một năm.

iii. Thành phần theo mùa (seasonality component) tương tự như thành phần chu kì
nhưng ngắn hơn, thường kéo dài trong một chu kì thời gian ngắn hơn một năm.

iv. Thành phần không chu kì, không thường xuyên (irregular component) là những
thay đổi nhanh chóng hay tiếng “bíp” của dữ liệu xảy ra trong thời gian ngắn
hơn khoảng thời gian của thành phần mùa.

Khi chuỗi thời gian không chứa thành phần xu thế, chu kì và theo mùa được gọi là
chuỗi thời gian dừng. Khi đó, những kĩ thuật sử dụng để dự báo với dữ liệu dừng chỉ
nhằm phân tích ảnh hưởng của thành phần ngẫu nhiên.
177

Định nghĩa 15.2 Các loại sai số trong dự báo

i. Sai số dự báo điểm (error of an individual forecast) et là sự sai khác giữa giá trị
thực xt và giá trị dự báo ft
et = xt − ft .

ii. Sai số trung bình tuyệt đối (mean absolute deviation - MAD) là giá trị trung bình
đại số của tất cả các trị tuyệt đối sai số dự báo điểm. Chú ý, sai số loại này có
tính chất toàn cục. Pn
|et |
MAD = t=1
n
iii. Sai số trung bình bình phương (mean square error - MSE) là giá trị trung bình
đại số của tất cả các bình phương sai số dự báo điểm, có tính chất toàn cục.
Pn 2
e
MSE = t=1 t
n

Ví dụ 15.1 Cho bảng số liệu sau:


178 15.1. Khái niệm

Year New Car Registrations (thousands) Forecast Error


1 2222 2311 -89
2 2459 2403 56
3 2564 2452 112
4 2579 2486 93
5 2567 2476 91
6 2440 2333 107
7 2345 2261 84
8 2404 2362 42
9 2132 2646 -514
10 1995 2065 -70
11 2031 2064 -33

Tính toán trực tiếp ta sẽ được: MAD = 117.36 và MSE = 30089.55

Bài tập 15.1 Use the forecast errors given here to compute MAD and MSE. Discuss
the information yielded by each type of error measurement.

Bài tập 15.2 Determine the error for each of the forecasts below. Compute MAD and
MSE.
179

Bài tập 15.3 Using the following data, determine the values of MAD and MSE. Which
of these measurements of error seems to yield the best information about the forecasts?
Why?

Bài tập 15.4 Figures for hectares of organic crop area in Belgium from a 10-year period
follow. The data are published by Eurostat’s New Cronos Database. With these data,
forecasts have been made by using techniques presented later in this chapter. Compute
MAD and MSE on these forecasts. Comment on the errors.

15.2 Kĩ thuật trơn hóa chuỗi thời gian

Chú ý, những phương pháp trong mục này không phù hợp khi các thành phần xu thế,
chu kì hoặc theo mùa được quan tâm ở mức đáng kể. Bởi vì những phương pháp trong mục
này có tác dụng làm giảm ảnh hưởng của thành phần ngẫu nhiên nên chúng được gọi là các
phương pháp trơn hóa chuỗi thời gian (smoothing methods). Các phương pháp này dễ sử dụng
và thường có độ chính xác cao cho các dự báo ngắn hạn, chẳng hạn như dự báo cho chu kì
thời gian tiếp theo.

15.2.1 Dự báo Naive (Naive Forecasting Models)


Mô hình dự báo Naive là mô hình đơn giản nhất, người ta sử dụng dữ liệu của chu kì thời
gian trước làm dự báo cho thời gian sau hoặc thời gian của chu kì kế tiếp.

Ft = Yt−1 ,

trong đó Ft là dự báo của chuỗi thời gian tại chu kì t và Yt−1 là giá trị thực của chuỗi thời
gian tại chu kì t − 1.
180 15.2. Kĩ thuật trơn hóa chuỗi thời gian

15.2.2 Trung bình di động (moving averages method)

Định nghĩa 15.3 Dự báo trung bình di động bậc k

1
Ft+1 = (Yt + Yt−1 + · · · + Yt−k+1 )
k
trong đó Ft+1 là dự báo của chuỗi thời gian tại chu kì t + 1 và Yt là giá trị thực của
chuỗi thời gian tại chu kì t.

Ví dụ 15.2 Shown here are shipments (in millions of dollars) for electric lighting and
wiring equipment over a 12-month period. Use these data to compute a four-month
moving average for all available months.

Sử dụng công thức trung bình di động với k = 4, ta được

Four-Month Moving Forecast


Month Shipments Average Error
January 1056 – –
February 1345 – –
March 1381 – –
April 1191 – –
May 1259 1243.25 15.75
June 1361 1294.00 67.00
July 1110 1298.00 -188.00
August 1334 1230.25 103.75
September 1416 1266.00 150.00
October 1282 1305.25 -23.25
November 1341 1285.50 55.50
December 1382 1343.25 38.75
181

15.2.3 Trung bình di động có trọng số (weighted moving average method)

Định nghĩa 15.4 Dự báo trung bình di động có trọng số bậc k

Ft+1 = Yt p1 + Yt−1 p2 + · · · + Yt−k+1 pk

trong đó Ft+1 là dự báo của chuỗi thời gian tại chu Pkì t + 1, Yt là giá trị thực của chuỗi
thời gian tại chu kì t và bộ trọng số {pi }i=1,k thỏa ki=1 pi = 1.

Ví dụ 15.3 Compute a four-month weighted moving average for the electric lighting
and wiring data from Example 15.4, using weights of 4 for last month’s value, 2 for the
previous month’s value, and 1 for each of the values from the two months prior to that.

15.2.4 Làm trơn lũy thừa (exponential smoothing)

Định nghĩa 15.5 Làm trơn lũy thừa với hằng số trơn lũy thừa α ∈ [0, 1]:

Ft+1 = αYt + (1 − α)Ft

trong đó Ft+1 là dự báo của chuỗi thời gian tại chu kì t + 1 và Yt là giá trị thực của
chuỗi thời gian tại chu kì t.

Ví dụ 15.4 The Department for Communities and Local Government reports the total
units of new houses started. The total units of new houses over a 20-year recent period
in Scotland are given here. Use exponential smoothing to forecast the values for each
ensuing time period. Work the problem using α = 0.2, 0.5 and 0.8.

Bài tập 15.5 Use the following time-series data to answer the given questions
182 15.2. Kĩ thuật trơn hóa chuỗi thời gian

a. Develop forecasts for periods 5 through 10 using four-month moving averages.

b. Develop forecasts for periods 5 through 10 using four-month weighted moving


averages. Weight the most recent month by a factor of 4, the previous month by
2, and the other months by 1.

c. Compute the errors of the forecasts in parts a. and b. and observe the differences
in the errors forecast by the two different techniques.

Bài tập 15.6 Following are time-series data for eight different periods. Use exponential
smoothing to forecast the values for periods 3 through 8. Use the value for the first
period as the forecast for the second period. Compute forecasts using two different values
of alpha, α = 0.1 and α = 0.8. Compute the errors for each forecast and compare the
errors produced by using the two different exponential smoothing constants.

Bài tập 15.7 Following are time-series data for nine time periods. Use exponential
smoothing with constants of 0.3 and 0.7 to forecast time periods 3 through 9. Let the
value for time period 1 be the forecast for time period 2. Compute additional forecasts
for time periods 4 through 9 using a three-month moving average. Compute the errors
for the forecasts and discuss the size of errors under each method.

Bài tập 15.8 The Federal Statistical Office of Germany publishes data relating to
sustainable development in Germany, including data on resource protection, climate
protection, renewable energies, and land use. Shown here are data on housing and
transport area in Germany over a 17-year period (in hectares).
183

a. Use these data to develop forecasts for the years 6 through 17 using a five-year
moving average.

b. Use these data to develop forecasts for the years 6 through 17 using a five-year
weighted moving average. Weight the most recent year by 6, the previous year by
4, the year before that by 2, and the other years by 1.

c. Compute the errors of the forecasts in parts a. and b. and observe the differences
in the errors of the forecasts.

Bài tập 15.9 The data below show the global number of issues from initial public
offerings (IPOs) for a 15-year period released by the study Global IPO Trends by Ernst &
Young. Use these data to develop forecasts for the years 3 through 15 using exponential
smoothing techniques with alpha values of 0.2 and 0.9. Let the forecast for year 2 be
the value for year 1. Compare the results by examining the errors of the forecasts.
184 15.3. Phân tích thành phần xu thế

15.3 Phân tích thành phần xu thế

15.3.1 Hồi qui tuyến tính xu thế

Ta sử dụng mô hình hồi qui tuyến tính đơn: Ft = β̂0 + β̂1 t từ chuỗi thời gian Yt = β0 + β1 t
theo Định lí 11.1.

Ví dụ 15.5 Cho chuỗi thời gian bán xe đạp như bảng sau

Bicycle sales time series


Year Sales (1000s)
1 21.6
2 22.9
3 25.5
4 21.9
5 23.9
6 27.5
7 31.5
8 29.7
9 28.6
10 31.4

Sử dụng Định lí 11.1, ta có các hệ số hồi qui β0 = 20.4, β1 = 1.1 và đồ thị biểu diễn:
185

15.3.2 Hồi qui cầu phương xu thế

Ta sử dụng mô hình hồi qui cầu phương đơn: Ft = β̂0 + β̂1 t + β̂2 t2 từ chuỗi thời gian
Yt = β0 + β1 t + β2 t2 theo công thức sau:

X X X X
β2 t4 + β 1 t3 + β 0 t2 = t2 Y t
X X X X
β2 t3 + β 1 t2 + β 0 t= tYt
X X X X
β2 t2 + β 1 t1 + β 0 t0 = Yt

Sau khi giải hệ ba phương trình trên ta được β̂k với k = 0, 1, 2.

Ví dụ 15.6 Cho chuỗi thời gian bán xe đạp như bảng sau

Cholesterol revenue time Series ($Millions)


Year (t) Revenue ($millions)
1 23.1
2 21.3
3 27.4
4 34.6
5 33.8
6 43.2
7 59.5
8 64.4
9 74.2
10 99.3

Giải hệ phương trình trên, ta có các hệ số hồi qui β0 = 24.18, β1 = −2.11, β2 = 0.92 và
đồ thị biểu diễn:
186 15.3. Phân tích thành phần xu thế

Bài tập 15.10 The Office for National Statistics compiles data on household expenditure
on tobacco in the United Kingdom. Shown here are the household expenditures on
tobacco at current prices in the UK over the past 22 years. Use a computer to develop
a regression model to fit the trend effects for these data. Use a linear model and then
try a quadratic model. How well does either model fit the data?

Bài tập 15.11 The data below on the number of people employed in Agriculture in
Finland for the years 1985 through 2010 are provided by the Organization for Economic
Cooperation and Development. Using regression techniques discussed in this section,
analyse the data for trend. Develop a scatter plot of the data and fit the trend line
through the data. Discuss the strength of the model.
187

Bài tập 15.12 Shown below are the average number of construction permits granted for
buildings and construction work (residential and non-residential buildings) in Germany
for a recent nine-year period and published by the German Federal Statistical Office.
Plot the data, fit a trend line, and discuss the strength of the regression model. In
addition, explore a quadratic trend and compare the results of the two models.

15.4 Phân tích thành phần theo mùa


Từ mô hình nhân của chuỗi thời gian

T ·C ·S·I

với T là thành phần xu thế, C là thành phần chu kì, S là thành phần theo mùa và I là thành
phần nhiễu.
16. CHỈ188
SỐ

16.1 Chỉ số đơn 188

16.2 Chỉ số giá tổng hợp không trọng số 189

16.3 Chỉ số giá tổng hợp có trọng số 190

16.4 Chỉ số giá Laspeyres 190

16.5 Chỉ số giá Paasche 191

16.1 Chỉ số đơn

Định nghĩa 16.1 Chỉ số là tỷ lệ giữa một số đo thực hiện trong khung thời gian này
với số đo thực hiện trong khung thời gian khác thường là khoảng thời gian gốc

Định nghĩa 16.2 Chỉ số đơn được tính bằng công thức

Xi
Ii = × 100%,
X0
với

X0 : số lượng, giá cả hoặc chi phí trong năm gốc,


Xi : số lượng, giá cả hoặc chi phí trong năm cần tính,
Ii : chỉ số năm cần tính.

Ví dụ 16.1 Ví dụ, hãy xem xét dữ liệu thô về số lần thanh lý công ty ở Anh và xứ
Wales từ năm 1990 đến năm 2010 được trình bày trong bảng sau
189

Year Company Liquidations


1990 15,051
1991 21,827
1992 24,425
1993 20,708
1994 16,728
1995 14,536
1996 13,461
1997 12,610
1998 13,203
1999 14,280
2000 14,317
2001 14,972
2002 16,306
2003 14,184
2004 12,192
2005 12,893
2006 13,137
2007 12,507
2008 15,535
2009 19,077
2010 16,045

Sử dụng số liệu năm 1990 làm cơ sở thì chỉ số năm 2000 là


X2000 14, 317
I2000 = × 100% = × 100% = 95.1%.
X1990 15, 051

16.2 Chỉ số giá tổng hợp không trọng số


Việc sử dụng chỉ số đơn chỉ giúp chuyển đổi giá, chi phí và số lượng ... trong những khung
thời gian khác nhau về tỷ lệ phần trăm. Tuy nhiên hạn chế của chỉ số đơn là chỉ tính trên
một loại hàng hoá hoặc một mục liên quan với số lượng như nhau (trọng số bằng 1). Khi ta
có nhiều mục hoặc nhiều loại hàng hoá thì có thể tính nhiều loại chỉ số tương ứng, tuy nhiên
người đưa ra quyết định có thể quan tâm đến việc kết hợp hoặc gộp giá của một số mặt hàng
nhằm tạo ra “rổ thị trường” nhằm so sánh giá giữa các khung thời gian. Một kĩ thuật tồn
tại cho tổng hợp các mục liên quan hoặc hàng hoá liên quan nhằm tạo ra chỉ mục tổng hợp
được tính như sau P
Pi
Ii = P × 100%,
P0

P0 : số lượng, giá cả hoặc chi phí của một hàng hoá trong năm gốc,
Pi : số lượng, giá cả hoặc chi phí của một hàng hoá trong năm cần tính,
Ii : chỉ số năm cần tính,
X
: tính tổng các loại hàng hoá.
190 16.3. Chỉ số giá tổng hợp có trọng số

Ví dụ 16.2 Giá cho một giỏ các mặt hàng thực phẩm như sau

Year
Item 1995 2000 2012
Eggs (dozen) 0.78 0.86 1.15
Milk (per litre) 0.60 0.73 0.95
Bananas (per kg.) 0.79 1.01 1.12
Potatoes (per kg.) 0.62 0.68 0.88
Sugar (per kg.) 0.77 0.93 1.10
Total of Items 3.56 4.22 5.20

Sử dụng số liệu năm 1995 làm cơ sở thì chỉ số năm 2000 là


P
P2000 4.22
I2000 = P × 100% = × 100% = 118.32%.
P1995 3.56

16.3 Chỉ số giá tổng hợp có trọng số

Định nghĩa 16.3 Một hạn chế lớn nhất của chỉ số giá không trọng số là người ta coi
tác động (hoặc số lượng) của mọi loại hàng hoá trong rổ thị trường là như nhau. Điều
này không đúng trong thực tế và do đó có khái niệm chỉ số giá tổng hợp có trọng số.
Chỉ số giá tổng hợp được tính bởi công thức
P
Pi Q i
Ii = P × 100%,
P0 Q 0

với Qi là trọng số tương ứng với năm thứ i.

16.4 Chỉ số giá Laspeyres

Định nghĩa 16.4 Chỉ số giá Laspeyres là chỉ số giá tổng hợp có trọng số tại thời điểm
gốc được sử dụng như nhau cho tất cả các năm.
P
Pi Q 0
Ii = P × 100%.
P0 Q 0

Ví dụ 16.3 Các mặt hàng trong giỏ thực phẩm với số lượng trọng lượng như sau
191

Year
Item Quantity 1995 2012
Eggs (dozen) 45 0.78 1.15
Milk (per litre) 60 0.60 0.95
Bananas (per kg.) 12 0.79 1.12
Potatoes (per kg.) 55 0.62 0.88
Sugar (per kg.) 36 0.77 1.10

Theo công thức Laspeyres ta có


X
P2012 Q1995 = 1.15 × 45 + 0.95 × 60 + · · · + 1.10 × 36 = 210.19
X
P1995 Q1995 = 0.78 × 45 + 0.60 × 60 + · · · + 0.77 × 36 = 142.49
P
P2012 Q1995
I2012 = P × 100% = 147.51%.
P1995 Q1995

16.5 Chỉ số giá Paasche

Định nghĩa 16.5 Chỉ số giá Paasche là chỉ số giá tổng hợp có trọng số thời điểm quan
tâm được sử dụng như nhau cho tất cả các năm.
P
Pi Q i
Ii = P × 100%.
P0 Q i

Ví dụ 16.4 Các mặt hàng trong giỏ thực phẩm với số lượng trọng lượng năm 1995 và
năm 2012 như sau

Item P1995 Q1995 P2012 Q2012


Eggs (dozen) 0.78 45 1.15 42
Milk (per litre) 0.60 60 0.95 57
Bananas (per kg) 0.79 12 1.12 13
Potatoes (per kg) 0.62 55 0.88 52
Sugar (per kg) 0.77 36 1.1 36

Theo công thức Paasche ta có


X
P2012 Q2012 = 1.15 × 42 + 0.95 × 57 + · · · + 1.10 × 36 = 202.27
X
P1995 Q2012 = 0.78 × 42 + 0.60 × 57 + · · · + 0.77 × 36 = 137.29
P
P2012 Q2012
I2012 = P × 100% = 147.41%.
P1995 Q2012

Bài tập 16.1 The Southwest Paediatrics Clinic has been in business for 18 years. The
office manager noticed that prices of clinic materials and office supplies fluctuate over
time. To get a handle on the price trends for running the clinic, the office manager
192 16.5. Chỉ số giá Paasche

examined prices of six items the clinic uses as part of its operation. Shown here are the
items, their prices, and the quantities for the years 2011 and 2012. Use these data to
develop unweighted aggregate price indexes for 2012 with a base year of 2011. Compute
the Laspeyres price index for the year 2012 using 2011 as the base year. Compute the
Paasche index number for 2012 using 2011 as the base year.

Bài tập 16.2 Suppose the data below represent the price of 20 reams of offi ce paper
over a 50-year time frame. Find the simple index numbers for the data.

1. Let 1950 be the base year.

2. Let 1980 be the base year.

Bài tập 16.3 The World Intellectual Property Organization reports yearly figures for
patents issued around the world. Following are the numbers of patents applications for
the years 1980 through 2009 at the European Patent Office. Using these data and a
base year of 2000, determine the simple index numbers for each year.
193

Bài tập 16.4 Using the data that follow, compute the aggregate index numbers for the
four types of meat. Let 1995 be the base year for this market basket of goods.

Bài tập 16.5 Suppose the data below are prices of market goods involved in household
transportation for the years 2004 through 2012. Using 2010 as a base year, compute
aggregate transportation price indexes for this data.

Bài tập 16.6 Calculate Laspeyres price indexes for 2010–2012 from the data below.
Use 2000 as the base year
194 16.5. Chỉ số giá Paasche

Bài tập 16.7 Calculate Paasche price indexes for 2011 and 2012 using the following
data and 2010 as the base year.
17. ĐỀ THI GIỮA KÌ 195

17.1 Đề giữa kì 2 năm 2018-2019 195

17.2 Đề giữa kì 1 năm 2018-2019 196

17.3 Đề giữa kì 2 năm 2018-2019 196

17.4 Đề giữa kì 1 năm 2017-2018 197

17.5 Đề giữa kì 2 năm 2017-2018 197

17.6 Đề giữa kì năm 2016-2017 198

17.7 Đề giữa kì năm 2015-2016 200

17.1 Đề giữa kì 2 năm 2018-2019

Bài tập 17.1 Một nghiên cứu về sức khỏe đã theo dõi một nhóm người trong 5 năm.
Trong đó có 20% được xem là người nghiện thuốc lá nặng, 30% là người nghiện thuốc
lá nhẹ và 50% không hút thuốc. Kết quả nghiên cứu cho thấy xác suất tử vong trong 5
năm nghiên cứu ở những người nghiện thuốc lá nặng, nhẹ và không hút thuốc lần lượt
là 0.5; 0.3 và 0.2. Một người tham gia được chọn ngẫu nhiên từ nghiên cứu.

a. Tính xác suất người này tử vong trong thời gian 5 năm nghiên cứu.

b. Biết rằng người này đã tử vong trong thời gian 5 năm nghiên cứu. Tính xác suất
người này nghiện thuốc lá nặng

Bài tập 17.2 Ở một quốc gia cho trước, nồng độ cholesterol của một người được lấy
ngẫu nhiên được mô hình bằng một phân phối chuẩn với trung bình 200 và độ lệch
chuẩn 20. Đơn vị đo: 1mg/100ml.

a. Hỏi xác suất để một người được chọn ngẫu nhiên trong quốc gia đó có mức
cholesterol dưới 160 là bao nhiêu?

b. Hỏi tỷ lệ dân số có mức cholesterol từ 170 tới 230?

c. Hỏi xác suất để chọn ngẫu nhiên 10 người thì có ít nhất 2 người có mức cholesterol
từ 170 tới 230?
196 17.2. Đề giữa kì 1 năm 2018-2019

17.2 Đề giữa kì 1 năm 2018-2019

Bài tập 17.3 Một nhà máy có ba loại máy sản xuất một linh kiện. Các xác suất để
linh kiện đạt chuẩn nếu nó được sản xuất bởi máy i được cho trong bảng sau:

Máy loại Xác suất linh kiện đạt chuẩn


1 0.94
2 0.95
3 0.97

Tổng sản lượng được phân phối giữa các máy như sau: 30% được làm bởi các máy loại
1, 50% bởi loại 2, 20% bởi loại 3. Một linh kiện được chọn ngẫu nhiên từ nhà máy.

a. Hỏi xác suất để nó đạt chuẩn là bao nhiêu?

b. Nếu nó đạt chuẩn, hỏi xác suất để nó được sản xuất bởi máy loại 1 là bao nhiêu?

Bài tập 17.4 Giả sử rằng thời gian cần thiết để một sinh viên hoàn thành một bài
kiểm tra giữa kì môn XSTK có phân phối chuẩn với trung bình là 40 phút, và độ lệch
chuẩn 10 phút. Biết rằng thời gian làm bài được quy định là 60 phút. Một sinh viên
được chọn ngẫu nhiên. Tính xác suất để:

a. thời gian làm bài của người ấy không quá 50 phút.

b. người này không hoàn thành bài kiểm tra trong thời gian quy định.

c. lấy ngẫu nhiên 10 sinh viên thì có không quá hai sinh viên không hoàn thành
bài kiểm tra trong thời gian quy định.

17.3 Đề giữa kì 2 năm 2018-2019

Bài tập 17.5 Một nhà sản xuất máy quay kỹ thuật số sử dụng một vi mạch cho mỗi
máy quay mà nó sản xuất. Các vi mạch được mua từ các nhà cung cấp A, B và C và
được chọn ngẫu nhiên để lắp ráp cho mỗi máy quay. Hai mươi phần trăm số vi mạch
đến từ A, 35% đến từ B, và còn lại đến từ C. Dựa trên kinh nghiệm trong quá khứ,
nhà sản xuất tin rằng xác suất mà một vi mạch từ A bị lỗi là 0.03, và xác suất tương
ứng với B và C là 0.02 và 0.01. Một máy quay được chọn ngẫu nhiên từ một ngày sản
xuất.

a. Tìm xác suất để vi mạch của nó bị lỗi.

b. Nếu vi mạch của nó được phát hiện bị lỗi. Tìm xác suất nó được cung cấp từ A.
197

Bài tập 17.6 Giả sử rằng thời gian cần thiết để một sinh viên hoàn thành một bài
kiểm tra giữa kì môn XSTK có phân phối chuẩn với trung bình là 45 phút, và độ lệch
chuẩn 10 phút. Biết rằng thời gian làm bài được quy định là 60 phút. Một sinh viên
được chọn ngẫu nhiên. Tính xác suất để:

a. thời gian làm bài của người ấy không quá 40 phút.

b. người này không hoàn thành bài kiểm tra trong thời gian quy định.

c. lấy ngẫu nhiên 10 sinh viên thì có không quá hai sinh viên không hoàn thành
bài kiểm tra trong thời gian quy định.

17.4 Đề giữa kì 1 năm 2017-2018

Bài tập 17.7 Ba máy tự động sản xuất cùng một loại chi tiết, trong đó máy I sản xuất
20%, máy II sản xuất 30% và máy III sản xuất 50% tổng sản lượng. Tỷ lệ phế phẩm
của các máy lần lượt là 3%;2%;1%. Tìm xác suất để khi chọn ngẫu nhiên ra 1 sản phẩm
từ kho thì

a. được chi tiết phế phẩm.

b. chi tiết phế phẩm đó do máy II sản xuất.

Bài tập 17.8 Tuổi thọ của một loài côn trùng (đv: tháng) là biến ngẫu nhiên có hàm
mật độ xác suất 
k(4x − 2x2 ) nếu x ∈ [0, 2]
f (x) =
0 nếu x ∈
/ [0, 6]

a. Tính tuổi thọ trung bình của loài côn trùng trên.

b. Tính tỷ lệ côn trùng có tuổi thọ dưới 1 tháng tuổi.

17.5 Đề giữa kì 2 năm 2017-2018

Bài tập 17.9 Một nhà máy có hai phân xưởng. Sản phẩm của phân xưởng II gấp đôi
sản phẩm của phân xưởng I. Tỷ lệ hàng kém chất lượng của hai phân xưởng lần lượt là
10% và 15%. Chọn ngẫu nhiên một sản phẩm của nhà máy

a. Tính tỷ lệ sản phẩm kém chất lượng của nhà máy.

b. Giả sử chọn được sản phẩm tốt. Tính xác suất sản phẩm này do phân xưởng I
làm ra.

Bài tập 17.10 Giả sử lượng xăng bán ra trong một tuần lễ tại một cây xăng là biến
198 17.6. Đề giữa kì năm 2016-2017

ngẫu nhiên có hàm mật độ xác suất (đv: 1000 m3 )



C(1 − x)2 nếu 0 < x < 1
f (x) =
0 chỗ khác

a. Lượng xăng trung bình bán ra trong một tuần là bao nhiêu?

b. Tính xác suất để lượng xăng bán ra trong một tuần lễ ít hơn 500 m3 .

17.6 Đề giữa kì năm 2016-2017

Bài tập 17.11 Cho A và B là hai biến cố ngẫu nhiên, B ⊂ A. Điều nào sau đây không
đúng

A. P(A) = P(BA) + P(AB̄) C. P(A + B) = P(B) + P(A)

B. P(A) = P(B) + P(AB̄) D. P(A) ≥ P(B)

Bài tập 17.12 Một tháp điện thoại di động có vùng phủ sóng trong vòng bán kính
10km. Nếu một cuộc gọi được bắt đầu từ một điểm ngẫu nhiên trong vùng phủ sóng,
tìm xác suất mà các cuộc gọi đến từ bên trong vòng 2km của tháp.

A. 0.2 B. 0.1 C. 0.02 D. 0.04

Bài tập 17.13 Phân tích sự phù hợp với các thông số kỹ thuật của các trục cho máy
nén được tóm tắt trong bảng sau

Độ tròn phù hợp Độ tròn không phù hợp


Bề mặt hoàn thành phù hợp 345 5
Bề mặt hoàn thành không phù hợp 12 8

Nếu chọn ngẫu nhiên một trục, tính xác suất trục đó có thông số về bề mặt hoàn thành
phù hợp với yêu cầu hoặc trục đó không phù hợp với yêu cầu về thông số độ tròn?
362 353 358 348
A. 370 B. 370 C. 370 D. 370

Bài tập 17.14 Một lô hàng có 500 thùng nước cam, trong đó có 5 thùng bị lỗi. Chọn
ngẫu nhiên không hoàn lại ba thùng. Tính xác suất thùng nước cam lấy ra ở lần thứ 3
bị lỗi nếu thùng nước cam lấy ra ở lần thứ nhất là thùng bị lỗi và lấy ra ở lần thứ hai
là thùng nước không bị lỗi.

A. 8 × 10−3 B. 8 × 10−5 C. 0.98 D. 0.992

Bài tập 17.15 Các cuộc gọi đến Trung tâm dịch vụ khách hàng được phân loại là khiếu
nại (75% của cuộc gọi) hoặc yêu cầu thông tin (25% cuộc gọi). Các khiếu nại, 40% đối
phó với các thiết bị máy tính không đáp ứng và 57% đối phó với cài đặt phần mềm
199

không đầy đủ; và trong 3% còn lại khiếu nại của người sử dụng đã không đúng theo
hướng dẫn cài đặt. yêu cầu đối với thông tin được chia ra đồng đều trên các câu hỏi
kỹ thuật (50%) và các yêu cầu để mua các sản phẩm (50%). Xác suất mà các cuộc gọi
đến Trung tâm dịch vụ khách hàng sẽ từ một khách hàng người đã không theo hướng
dẫn cài đặt đúng cách là

A. 0.225 B. 0.4 C. 0.04 D. 0.0225

Từ câu 17.16 – 17.17 sử dụng đề bài sau: Giả sử tỷ lệ sản phẩm bị lỗi tùy thuộc vào mức
độ ô nhiễm trong sản suất: 10% nếu mức độ ô nhiễm cao; 1% nếu mức độ ô nhiễm trung bình;
0.1% nếu mức độ ô nhiễm thấp. Trong sản suất, 20% các con chip chịu mức độ ô nhiễm cao,
30% các con chip chịu mức độ ô nhiễm trung bình, 50% các con chip chịu mức độ ô nhiễm
thấp.

Bài tập 17.16 Chọn ngẫu nhiên một con chip, tính xác suất con chip đó là sản phẩm
không bị lỗi?

A. 0.0225 B. 0.9765 C. 0.111 D. 0.889

Bài tập 17.17 Nếu con chip được chọn là sản phâm không bị lỗi, tính xác suất con
chip đó là sản phẩm chịu ô nhiễm mức độ trung bình.

A. 0.1333 B. 0.334 C. 0.027 D. 0.3041

Bài tập 17.18 Ba người đi săn mỗi người bắn 1 phát đạn vào con mồi. Gọi A1 , A2 , A3
lần lượt là các biến cố người thứ 1, thứ 2, thứ 3, bắn trúng mồi. Gọi A là biến cố con
mồi trúng đạn, B là biến cố con mồi chỉ trúng một viên đạn. Điều nào sau đây không
đúng

A. B = A1 Ā2 Ā3 + Ā1 A2 Ā3 + Ā1 Ā2 A3

B. Ā= A1 A¯2 A3 C. A = A1 + A2 + A3 D. Ā = Ā1 Ā2 Ā3

Bài tập 17.19 Tung một con xúc xắc hai lần. Tính xác suất cả hai lần tung đều được
mặt sáu chấm biết rằng lần tung thứ nhất được mặt một chấm.
1 5 1 5
A. 6 B. 6 C. 36 D. 36

Bài tập 17.20 Có hai hộp đựng các viên bi. Hộp thứ nhất gồm 15 viên bi, trong đó
có 3 viên bi trắng và 12 viên bi xanh. Hộp thứ 2 gồm 20 viên bi, trong đó có 4 viên bi
trắng và 16 viên bi xanh. Chọn ngẫu nhiên một viên bi từ hộp 1 bỏ sang hộp 2. Sau
đó chọn ngẫu nhiên một viên bi từ hộp hai . Tính xác suất viên bi lấy ra từ hộp 2 là
viên bi trắng từ hộp 2 ban đầu.

A. 0.95 B. 0.86 C. 0.76 D. 1.00


200 17.7. Đề giữa kì năm 2015-2016

17.7 Đề giữa kì năm 2015-2016

Bài tập 17.21 Cho X số sản phẩm bị hỏng trong một dây chuyền sản xuất. Kiểm tra
một lô hàng biết rằng X có phân phối nhị thức với kì vọng bằng bằng 240 và phương
sai 48. Số lần kiểm tra ngẫu nhiên độc lập các sản phẩm và xác suất một sản phẩm bị
hỏng lần lượt bằng:

A. 192; 0.2 B. 300; 0.8 C. 192; 0.8 D. 300; 0.2

Từ câu 17.22–17.23 sử dụng đề bài sau: Một cuốn sách có 500 trang, trong đó trung bình
có một lỗi in sai trong một trang.

Bài tập 17.22 Xác suất để một trang chứa ít nhất một lỗi in sai là:

A. 0.6321 B. 0.7358 C. 0.2642 D. 0.3679

Bài tập 17.23 Xác suất ít nhất 3 trang chứa ít nhất một lỗi in sai là:

A. 1.0000 B. 0.4232 C. 0.9921 D. 0.5768

Bài tập 17.24 Tuổi thọ của một thiết bị điện tử có phân phối mũ với trung bình 25
năm. Nếu ba thiết bị được chọn ngẫu nhiên, vận hành độc lập cùng trong một khoảng
thời gian, xác suất ít nhất 2 sẽ vận hành sau 35 năm là:

A. 0.2466 B. 0.7534 C. 0.1524 D. 0.8476

Bài tập 17.25 Giả sử phân phối nhiệt độ T (đơn vị: o F ) của một bình ga là chuẩn với
kì vọng µ = 400 và phương sai là 1600. P (|T − µ| ≤ 20|T ≥ 300) là:

A. 0.3830 B. 0.9938 C. 0.6170 D. 0.3854

Bài tập 17.26 Vì sẽ hiệu quả kinh tế hơn khi giới hạn độ dài các cuộc điện thoại trong
ba phút hoặc ít hơn ba phút nên ta có hàm phân phối xác suất của độ dài các cuộc điện
thoại X (đơn vị phút) có dạng:

 0, x < 0;
F (x) = 1 − e−x/3 , 0 ≤ x < 3;
 −x/3
1− e 2 , x ≥ 3.

Xác suất X nằm trong khoảng từ hai đến sáu phút là:

A. 0.4866 B. 0.4457 C. 0.5134 D. 0.9323

Từ câu 17.27–17.28 sử dụng đề bài sau: Một biến ngẫu nhiên X với hàm mật độ xác suất
f (x) = cx + d với 0 ≤ x ≤ 1 và bằng 0 với các trường hợp khác. Giả sử rằng, P (X > 21 ) = 31
201

Bài tập 17.27 Xác định c, d.

−4 5 4 1 1 4 5 −4
A. 3 ,3 B. 3, 3 C. 3, 3 D. 3, 3

Bài tập 17.28 Tính kỳ vọng và độ lệch tiêu chuẩn của X



11 2 7 23 7 23 11 4
A. 18 , 3 B. 18 , 324 C. ,
18 18
D. 18 , 9

Bài tập 17.29 Cho X là biến ngẫu nhiên có E(X) = 100 và V ar(X) = 15. Tính
E(X 2 ); V ar(−3X + 50)?

A. 10015; 135 B. 9985; 5 C. 10015; 95 D. 9985; 185

Bài tập 17.30 Một vòng quay số gồm 18 rãnh đen, 18 rãnh đỏ và 2 rãnh xanh, mỗi lần
quay sẽ dừng lại 1 rãnh. Người chơi chỉ cược 10 USD vào rãnh đỏ, nếu thắngsẽ được số
tiền cược, nếu thua sẽ mất số tiền đó, về trung bình người chơi sẽ thắng hay thua?

A. Không thể kết luận. C. Người đó thắng.

B. Người đó thua. D. Người đó sẽ hòa.

Bài tập 17.31 Cho A và B là hai biến cố ngẫu nhiên, B ⊂ A. Điều nào sau đây không
đúng:

A. P(A) = P(BA) + P(AB̄) C. P(A + B) = P(B) + P(A)

B. P(A) = P(B) + P(AB̄) D. P(A) ≥ P(B)

Bài tập 17.32 Một tháp điện thoại di động có vùng phủ sóng trong vòng bán kính
10km. Nếu một cuộc gọi được bắt đầu từ một điểm ngẫu nhiên trong vùng phủ sóng,
tìm xác suất mà các cuộc gọi đến từ bên trong vòng 2km của tháp.

A. 0.2 B. 0.1 C. 0.02 D. 0.04

Bài tập 17.33 Phân tích sự phù hợp với các thông số kỹ thuật của các trục cho máy
nén được tóm tắt trong bảng sau

Độ tròn phù hợp Độ tròn không phù hợp


Bề mặt hoàn thành phù hợp 345 5
Bề mặt hoàn thành không phù hợp 12 8

Nếu chọn ngẫu nhiên một trục, tính xác suất trục đó có thông số về bề mặt hoàn thành
phù hợp với yêu cầu hoặc trục đó không phù hợp với yêu cầu về thông số độ tròn?
362 353 358 348
A. 370 B. 370 C. 370 D. 370
202 17.7. Đề giữa kì năm 2015-2016

Bài tập 17.34 Một lô hàng có 500 thùng nước cam, trong đó có 5 thùng bị lỗi. Chọn
ngẫu nhiên không hoàn lại ba thùng. Tính xác suất thùng nước cam lấy ra ở lần thứ 3
bị lỗi nếu thùng nước cam lấy ra ở lần thứ nhất là thùng bị lỗi và lấy ra ở lần thứ hai
là thùng nước không bị lỗi.

A. 8 × 10−3 B. 8 × 10−5 C. 0.98 D. 0.992

Bài tập 17.35 Các cuộc gọi đến Trung tâm dịch vụ khách hàng được phân loại là khiếu
nại (75% của cuộc gọi) hoặc yêu cầu thông tin (25% cuộc gọi). Các khiếu nại, 40% đối
phó với các thiết bị máy tính không đáp ứng và 57% đối phó với cài đặt phần mềm
không đầy đủ; và trong 3% còn lại khiếu nại của người sử dụng đã không đúng theo
hướng dẫn cài đặt. yêu cầu đối với thông tin được chia ra đồng đều trên các câu hỏi
kỹ thuật (50%) và các yêu cầu để mua các sản phẩm (50%). Xác suất mà các cuộc gọi
đến Trung tâm dịch vụ khách hàng sẽ từ một khách hàng người đã không theo hướng
dẫn cài đặt đúng cách là

A. 0.225 B. 0.4 C. 0.04 D. 0.0225

Từ câu 17.36–17.37 sử dụng đề bài sau: Giả sử tỷ lệ sản phẩm bị lỗi tùy thuộc vào mức độ
ô nhiễm trong sản suất: 10% nếu mức độ ô nhiễm cao; 1% nếu mức độ ô nhiễm trung bình;
0.1% nếu mức độ ô nhiễm thấp. Trong sản suất, 20% các con chip chịu mức độ ô nhiễm cao,
30% các con chip chịu mức độ ô nhiễm trung bình, 50% các con chip chịu mức độ ô nhiễm
thấp.

Bài tập 17.36 Chọn ngẫu nhiên một con chip, tính xác suất con chip đó là sản phẩm
không bị lỗi?

A. 0.0225 B. 0.9765 C. 0.111 D. 0.889

Bài tập 17.37 Nếu con chip được chọn là sản phâm không bị lỗi, tính xác suất con
chip đó là sản phẩm chịu ô nhiễm mức độ trung bình.

A. 0.1333 B. 0.334 C. 0.027 D. 0.3041

Bài tập 17.38 Ba người đi săn mỗi người bắn 1 phát đạn vào con mồi. Gọi A1 , A2 , A3
lần lượt là các biến cố người thứ 1, thứ 2, thứ 3, bắn trúng mồi. Gọi A là biến cố con
mồi trúng đạn, B là biến cố con mồi chỉ trúng một viên đạn. Điều nào sau đây không
đúng

A. B = A1 Ā2 Ā3 + Ā1 A2 Ā3 + Ā1 Ā2 A3

B. Ā= A1 A¯2 A3 C. A = A1 + A2 + A3 D. Ā = Ā1 Ā2 Ā3

Bài tập 17.39 Tung một con xúc xắc hai lần. Tính xác suất cả hai lần tung đều được
mặt sáu chấm biết rằng lần tung thứ nhất được mặt một chấm.
203

1 5 1 5
A. 6 B. 6 C. 36 D. 36

Bài tập 17.40 Có hai hộp đựng các viên bi. Hộp thứ nhất gồm 15 viên bi, trong đó
có 3 viên bi trắng và 12 viên bi xanh. Hộp thứ 2 gồm 20 viên bi, trong đó có 4 viên bi
trắng và 16 viên bi xanh. Chọn ngẫu nhiên một viên bi từ hộp 1 bỏ sang hộp 2. Sau
đó chọn ngẫu nhiên một viên bi từ hộp hai . Tính xác suất viên bi lấy ra từ hộp 2 là
viên bi trắng từ hộp 2 ban đầu.

A. 0.95 B. 0.86 C. 0.76 D. 1.00


18. ĐỀ THI
204 CUỐI KÌ

18.1 Đề cuối kì I năm 2018-2019 204

18.2 Đề cuối kì I năm 2018-2019 205

18.3 Đề 1 cuối kì 1 năm 2017-2018 206

18.4 Đề 2 cuối kì 1 năm 2017-2018 207

18.5 Đề cuối kì 2017-2018 207

18.6 Đề cuối kì hè năm 2017-2018 208

18.1 Đề cuối kì I năm 2018-2019

Bài tập 18.1 (7 điểm)


Gọi X (giờ) là thời gian tự học hàng ngày của sinh viên, khảo sát 120 sinh viên trường
Đại học KHXHNV. Kết quả cho bởi bảng sau:

Thời gian tự học (giờ) 1 2 3 4 5 6 7 8


Số sinh viên 13 18 14 23 15 16 17 4

Giả sử thời gian tự học của sinh viên có phân phối chuẩn.

a. Ước lượng thời gian tự học trung bình của sinh viên trường KHXHNV với độ tin
cậy 98%. (1.5đ)

b. Với độ tin cậy 95%, ước lượng tỉ lệ những sinh viên có thời gian tự học trên 5 giờ
mỗi ngày. (1.5đ)

c. Khảo sát thời gian tự học của 90 sinh viên trường Đại học Kinh tế

Thời gian tự học (giờ) 1 2 3 4 5 6


Số sinh viên 7 8 17 24 20 14

Có ý kiến cho rằng thời gian tự học của sinh viên trường KHXHNV lớn hơn sinh
viên trường Kinh tế. Với mức ý nghĩa 5%, hãy kiểm định ý kiến trên. (2đ)

d. So sánh tỷ lệ những sinh viên có thời gian tự học trên 5 giờ mỗi ngày giữa hai
trường KHXHNV và Kinh tế. (α = 1% (2đ))
205

Bài tập 18.2 (3 điểm)


Trong cấu tạo một loại dây thừng, người ta quan tâm đến hàm lượng nylon x (đv: %)
ảnh hưởng như thế nào đến lực căng y (đv: psi) (lực kéo tối đa trước khi sợi dây bị
đứt). Số liêu bên dưới cho kết quả đo tương ứng (x, y) của 8 sợi dây:

Hàm lượng nylon 0 10 20 20 30 40 50 50


Lực căng 160 240 320 340 395 450 510 520

a. Tìm phương trình hồi quy tuyến tính biểu diễn mối liên hệ của x vào y dưới dạng:
ŷ = β̂0 + β̂1 x. (2đ)

b. Giải thích ý nghĩa của hệ số β1 nhận được và dự đoán lực căng của một sợi dây
có hàm lượng nylon bằng 45. (1đ)

18.2 Đề cuối kì I năm 2018-2019

Bài tập 18.3 Thực hiện một khảo sát xã hội về số tiền chi trả cho các hoạt động vui
chơi giải trí trong 1 tháng của 400 thanh niên tại TP.HCM người ta thu được bảng sau:

Số tiền (USD) 50-80 80-120 120-160 160-200 200-220 220-250


Số người 50 80 100 80 60 30

Giả thiết số tiền phải bỏ ra cho các hoạt động vui chơi giải trí trong một tháng của một
thanh niên tại TP.HCM là một đại lượng ngẫu nhiên phân phối theo qui luật chuẩn.

a. Ước lượng số tiền trung bình một thanh niên phải bỏ ra với độ tin cậy 95%. (1.5đ)

b. Những thanh niên bỏ ra trên 200 USD/tháng cho các hoạt động vui chơi là những
thanh niên khá giả. Hãy ước lượng tỉ lệ những thanh niên khá giả với độ tin cậy
97%. Nếu muốn sai số ≤ 0.1 thì phải khảo sát thêm bao nhiêu thanh niên? (2.5đ)

c. Một nhà nghiên cứu xã hội cho rằng cứ 100 thanh niên ở TP.HCM thì có 30 người
thuộc diện khá giả, trong khi nhà thống kê lại tỏ ra nghi ngờ và họ cho rằng con
số này thực sự phải nhỏ hơn con số thống kê do nhà nghiên cứu ngày đưa ra. Vậy
theo các bạn, ý kiến nào đúng đắn với mức ý nghĩa α = 5%. (1.5đ)

d. Lời khẳng định: “ Tỷ lệ thanh niên có thu nhập hạn chế là 50%” có được chấp
nhận hay không, mức ý nghĩa 1%. Biết rằng một thanh niên được gọi là có thu
nhập hạn chế nếu số tiền bỏ ra cho hoạt động vui chơi dưới 120 USD/tháng.
(1.5đ)

Bài tập 18.4 Bảng số liệu bên dưới mô tả về chỉ số khối cơ thể x (Body Mass Index -
BMI) và huyết áp y của 8 người được chọn ngẫu nhiên. BMI được tính bởi công thức
(cân nặng (kg)/chiều cao (m))2 .
206 18.3. Đề 1 cuối kì 1 năm 2017-2018

BMI 20.3 22.0 26.4 28.2 31 32.6 17.6 19.4


Huyết áp 116 110 131 136 144 138 122 115

a. Tìm phương trình hồi quy tuyến tính biểu diễn mối liên hệ của x vào y dưới dạng:
ŷ = β̂0 + β̂1 x. (2đ)

b. Giải thích ý nghĩa của hệ số β1 nhận được và dự đoán huyết áp của một người có
BMI bằng 30. (1đ)

18.3 Đề 1 cuối kì 1 năm 2017-2018

Bài tập 18.5 Các sản phẩm được sản xuất trong một dây chuyền. Để thực hiện kiểm
tra chất lượng, mỗi giờ người ta rút ngẫu nhiên không hoàn lại 10 sản phẩm từ một
hộp có 25 sản phẩm. Quá trình sản xuất được báo cáo là đạt yêu cầu nếu có không quá
một sản phẩm là thứ phẩm.

a. Nếu tất cả các hộp được kiểm tra đều chứa chính xác hai thứ phẩm, thì xác suất
quá trình sản xuất được báo cáo đạt yêu cầu ít nhất 7 lần trong một ngày làm
việc 8 giờ là bao nhiêu?

b. Sử dụng phân phối Poisson để xấp xỉ xác suất được tính trong câu (a).

c. Biết rằng lần kiểm tra chất lượng cuối cùng trong câu (a), quá trình sản xuất
được báo cáo đạt yêu cầu. Hỏi xác suất mẫu 10 sản phẩm tương ứng không chứa
thứ phẩm là bao nhiêu?

Bài tập 18.6 Khảo sát về thu nhập của một số người làm việc ở một công ty, người ta
thu được các số liệu cho ở bảng sau:

Thu nhập (triệu đồng/tháng) 5 5.5 6 6.5 7 7.5 8 9 10


Số người 6 12 20 34 30 16 12 10 4

Giả sử thu nhập là đại lượng ngẫu nhiên có phân phối chuẩn.

a. Giả sử thu nhập là đại lượng ngẫu nhiên có phân phối chuẩn. Hãy ước lượng cho
thu nhập trung bình của người làm trong công ty với độ tin cậy 90%.

b. Nếu muốn sai số ước lượng thu nhập trung bình của một người ở công ty không
vượt quá 200000 đồng/tháng ở độ tin cậy 99% thì cần khảo sát thêm ít nhất bao
nhiêu người nữa?

c. Nếu nói rằng thu nhập trung bình của một người ở công ty là 7 triệu đồng/tháng
thì có đáng tin cậy không? Hãy kết luận với mức ý nghĩa 5%.
207

18.4 Đề 2 cuối kì 1 năm 2017-2018

Bài tập 18.7 Một công ty kỹ thuật thiết lập một bài kiểm tra năng lực khi các ứng
viên nộp đơn để thực tập. Thời gian hoàn thành bài kiểm tra có phân phối chuẩn với
trung bình 40,5 phút và độ lệch chuẩn 7,5 phút. Các ứng viên hoàn thành bài thi ít hơn
30 phút được chấp nhận thực tập ngay. Những người hoàn thành bài thi từ 30 đến 36
phút được yêu cầu làm thêm một bài kiểm tra khác. Mọi ứng viên khác sẽ bị từ chối.

a. Với một ứng viên được chọn ngẫu nhiên, tính xác suất để người này được

i. chấp nhận thực tập ngay;


ii. yêu cầu làm thêm một bài kiểm tra khác.

b. Cho biết một ứng viên được chọn ngẫu nhiên không bị từ chối sau bài kiểm tra
đầu tiên này, tính xác suất ứng viên được chấp nhận thực tập ngay.

c. Vào một dịp nào đó có 100 ứng viên. Sử dụng một xấp xỉ phù hợp để tính xác
suất có nhiều hơn 25 ứng viên được yêu cầu làm thêm một bài kiểm tra khác.

Bài tập 18.8 Điều tra năng suất lúa trên diện tích 100 hecta trồng lúa của một vùng,
ta thu được bảng số liệu sau:

Năng suất (tạ/ha) 41 44 45 46 48 52 54


Diện tích (ha) 10 20 30 15 10 10 5

Giả sử năng suất lúa có phân phối chuẩn.

a. Hãy ước lượng năng suất lúa trung bình của vùng đó với độ tin cậy 95%.

b. Nếu muốn sai số ước lượng của năng suất lúa trung bình không vượt quá 0.5
tạ/ha, với độ tin cậy 99% thì cần điều tra thêm ít nhất bao nhiêu hecta lúa nữa?

c. Những thửa ruộng có năng suất từ 48 tạ/ha trở lên được xem là những thửa có
năng suất cao. Hãy ước lượng tỷ lệ diện tích có năng suất cao trong vùng với độ
tin cậy 90%.

d. Có tài liệu cho biết năng suất lúa trung bình là 47 tạ/ha. Giá trị này có phù hợp
với mẫu quan sát không? Hãy kết luận với mức ý nghĩa 5%.

18.5 Đề cuối kì 2017-2018

Bài tập 18.9 Trọng lượng A của mỗi con bò trong một đàn bò là biến ngẫu nhiên có
phân phối chuẩn với kỳ vọng 300kg và độ lệch chuẩn 50kg. Chọn ngẫu nhiên một con
bò trong chuồng. Tính xác suất để con bò được chọn:

a. Có trọng lượng trên 500kg.


208 18.6. Đề cuối kì hè năm 2017-2018

b. Có trọng lượng từ 250 kg tới 350kg.

c. Chọn ngẫu nhiên 4 con bò trong đàn bò nói trên. Tính xác suất để có 2 trong 4
con bò nói trên có trọng lượng từ 250kg tới 3050kg.

Bài tập 18.10 Một khảo sát về chiều cao X(cm) của một giống cây trồng người ta
quan sát một mẫu và có kết quả như sau:

Chiều cao (cm) 100 110 120 130 140 150 160
Số cây 10 10 15 30 10 10 15

Giả sử chiều cao X có phân phối chuẩn.

a. Ước lượng chiều cao trung bình của giống cây trồng trên với độ tin cậy 95%.

b. Những cây trồng có chiều cao từ 135cm trở lên được gọi là những cây “cao”. Hãy
ước lượng tỉ lệ những cây cao với độ tin cậy 95%.

c. Người ta áp dụng phương pháp mới trong việc trồng và chăm sóc cây. Sau một
thời gian, khảo sát 100 cây trồng theo phương pháp mới được bảng số liệu sau:

Chiều cao (cm) 100 110 120 130 140 150 160
Số cây 6 10 20 34 12 7 11

Với mức ý nghĩa 5%, hãy kiểm định xem phương pháp mới có làm tăng chiều cao
trung bình của cây hay không?

d. Có ý kiến cho rằng phương pháp mới làm tăng tỉ lệ cây “cao”. Với mức ý nghĩa
5%, hãy kiểm tra ý kiến này.

18.6 Đề cuối kì hè năm 2017-2018

Bài tập 18.11 Cho biến ngẫu nhiên X (phút) thể hiện thời gian chờ mua trà sữa của
khách hàng ở một quán nhỏ ven đường và có hàm mật độ là:

kx2 (6 − x) nếu x ∈ [0, 6]
fX (x) =
0 nếu x ∈ R[0, 6]

trong đó k là một số thực nào đó.

a. Tìm k.

b. Tìm thời gian chờ trung bình của khách.

c. Tìm hàm phân phối tích lũy của biến ngẫu nhiên X.
209

Bài tập 18.12 Một nhà nông trồng giống cherry Úc theo phương pháp được các nhà
khoa học đề xuất; chính vì thể đường kính của quả cherry tuân theo phân phối chuẩn
với trung bình 28mm và độ lệch chuẩn 2mm. Một quả cherry được gọi là có size 32 nếu
đường kính của quả cherry nằm trong [30, 32]. Giả sử các quả cherry có size 32 độc lập
nhau.

a. Chọn ngẫu nhiên một quả cherry trong vườn, tìm xác suất nhận được quả cherry
có size 32.

b. Tìm số tự nhiên n nhỏ nhất sao cho chọn n quả cherry trong vườn thì xác suất
nhận được ít nhất 1 quả cherry size 32 không bé hơn 0.99.

c. Chọn ngẫu nhiên 100 quả cherry trong vườn, hãy chọn mô hình xấp xỉ thích hợp
để tìm xác suất có ít nhất 20 quả cherry size 32.

Bài tập 18.13 Để xem xét tình hình học tập môn xác suất thống kê (XSTK), một
giảng viên (GV) đã tiến hành lấy mẫu (2 lần). Biết rằng điểm số sinh viên tuân theo
phân phối chuẩn. Điểm sinh viên nam và sinh viên nữ độc lập nhau.

a. Ở lần lấy mẫu thứ nhất, GV này thu thập được thông tin của 20sinh viên với
điểm trung bình 5.5 và độ lệch chuẩn 0.75. Sử dụng thông tin này để ước lượng
điểm trung bình của sinh viên với độ tin cậy 95%.

GV này tiếp tục thực hiện lấy mẫu lần thứ hai và thu thập được bảng thông tin sau:

Điểm [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10]
Nam 4 6 4 6 2 6 5 2 6 4
Nữ 5 10 8 8 5 4 3 2 3 2

(Bảng dữ liệu chứa thông tin: có 4 sinh viên nam và 5 sinh viên nữ có điểm số nằm
trong [0, 1), có 6 sinh viên nam và 10 sinh viên nữ có điểm số nằm trong [1, 2...)
Hãy sử dụng thông tin ở lần lấy mẫu thứ hai để giải các câu hỏi 3(b-c-d)

b. Một sinh viên được gọi là có điểm cao nếu điểm lớn hơn hoặc bằng 7.0. Ước lượng
khoảng tin cậy cho tỉ lệ học sinh có điểm cao với độ tin cậy 99%.

c. Dựa theo số liệu điểm môn SXTK trong học kì trước, điểm trung bình của sinh
viên nam là 5.0. Hãy cho biết giá trị trên có phù hợp với dữ liệu quan sát (điểm
sinh viên nam đã thu thập được) hay không với mức ý nghĩa 2%?

d. Có nhiều người cho rằng các bạn nữ chăm học hơn các bạn nam nên điểm trung
bình của các bạn nữ cao hơn điểm trung bình của các bạn nam. Tuy nhiên, GV
này cho rằng điểm trung bình của các bạn nữ không cao hơn điểm trung bình
của các bạn nam. Hãy sử dụng dữ liệu quan sát để kiểm tra nhận định về hai
điểm trung bình của GV với mức ý nghĩa 2%.
19. MỞ 210
ĐẦU VỀ CHƯƠNG TRÌNH R

19.1 Cài đặt và làm việc với các cửa sổ của R 210

19.2 Sử dụng lệnh help 210

19.3 Gói hàm - packages 211

19.4 Những lệnh cơ bản 211

19.5 Nhập xuất dữ liệu 215

19.6 Cấu trúc lập trình cơ bản 215

19.1 Cài đặt và làm việc với các cửa sổ của R


Đường dẫn download chương trình R:

https://www.r-project.org/

Nếu người dùng muốn sử dụng R có giao diện thì cài đặt thêm chương trình RStudio sau khi
đã cài R:

https://www.rstudio.com/

Chú ý, tất cả những ví dụ code R trong mục này đều viết trong của sổ “R prompt”. Chạy
thử đoạn code sau:

R > help(plot)
R > print(
+ > "Hello word!"
+ > )

Hãy nhận xét về dòng lệnh: R > và + >? Lệnh help có tác dụng gì?
Chạy đoạn code sau:

R > # sử dụng để ghi chú


R > print( # Ghi chú được để ở phần cuối một câu lệnh
+ > "Hello word!")
R > q # được hiểu như một kí tự code
R > q() # thoát chương trình R

19.2 Sử dụng lệnh help


So sánh kết qả trả ra từ hai đoạn code sau:

1. Code 1:
211

R > help(plot)
R > ?plot # trợ giúp nhanh

2. Code 2:

R > help.search("plot")
R > ??plot # trợ giúp nhanh

Hơn nữa, bạn có thể tìm hiểu thông tin nhiều hơn về lệnh help và help.search bằng lệnh
R > help(help)
R > help(help.search)

19.3 Gói hàm - packages


Một packages trong R là tập những hàm (đôi khi là dữ liệu) được phát triển bởi cộng
đồng người sử dụng ngôn ngữ R mà thường là những nhà nghiên cứu thống kê. Để sử dụng
một hàm nào đó cho nhu cầu code, người dùng thực hiện như sau:
1. Tìm tên hàm và package trong đường dẫn sau: https://cran.r-project.org/index.
html bên trái cửa số trang web ở mục Software rồi Packages.
2. Sau khi tìm được package mong muốn, ta dùng lệnh install.packages để cài đặt.
3. Từ sau khi đã cài đặt mỗi lần sử dụng hàm trong package ta phải dùng lệnh library.
Chú ý rằng mỗi lần khởi động ngôn ngữ R muốn sử dụng package ta đều phải chạy lệnh
này một lần.
Chạy ví dụ sau:
R > install.packages("foreign") # Cài đặt package
R > library(foreign) # Gọi package
R > search() # Kiểm tra những package đã gọi
R > ls(pos=2) # Kiểm tra những mục con trong gói số 2
R > update.packages() # Update các gói đã cài đặt

19.4 Những lệnh cơ bản


1. Biến và các phép toán
Hãy chạy đoạn code

R > a = 17
R > b <- 8
R > 17 -> c
R > a + b + c
R > z_42 <- "Hello"
R > z_42 <- a + b + c
R > ls()
R > objects()
R > rm(z_42)
R > remove(a)
212 19.4. Những lệnh cơ bản

Trả lời các câu hỏi sau:

(a) Dấu: =, < −, − > có tác dụng gì?


(b) Lệnh: ls và objects có tác dụng gì?
(c) Nêu tác dụng cảu hai dòng lệnh rm(z_42) và remove(a)?

2. Các phép toán Hãy chạy đoạn code

R > a <- 2 + 2
R > pi
R > cos(3*pi/2)
R > b <- exp(8.17)
R > typeof(a)
R > typeof(b)
R > typeof(a + b)
R > s <- "Hello"
R > typeof(s)
R > 2 == 3
R > t <- 2 < 3
R > typeof(t)

Trả lời các câu hỏi sau:

(a) Lệnh typeof được sử dụng làm gì?

3. Vectơ
Hãy chạy đoạn code

R > v1 <- c(2, 3, 5, 8, 4, 6); v1


R > typeof(v1) # Loại dữ liệu của các phần tử
R > is.vector(v1)
R > c(1, 3.14, "Hello")
R > 1:10
R > seq(seq(from=1, to=20, by=2)
R > seq(1, 20, by=5)
R > seq(1, 20, length=5)
R > rep(5, times=10)
R > rep(c(1, 2), 3)
R > rep(c(1, 2), each=3)
R > v1[2]; v1[2:4]; v1[c(1, 4)]
R > v1[-3]
R > v1[-1:2] # Error, why?
R > v1[(1:2)]
R > v1[3] <- NA; v1
R > is.na(v1)
R > help(NA)
R > any(is.na(v1))
R > all(is.na(v1))
R > v2 <- c(a=32, b=26, c=12, d=41)
213

R > v2["b"] <- 22; v2


R > names(v2)
R > names(v2) <- c(
+ > "a1", "a2", "a3", "a4")
R > v2 > 30
R > v2[v2 > 30]
R > which(v2 > 30)
R > v2 + 100
R > v1 + v2 # Error, why?
R > 1:4 + v2; 1:8 + v2
R > cos(v2)
R > length(v2)
R > sort(v2)

Trả lời các câu hỏi sau:

4. Ma trận

R > A <- matrix(1:15, ncol=5)


R > A; t(A)
R > B <- matrix(1:15, nc=5, byrow=TRUE)
R > B2 <- B; B2[1, 1] <- "Hello"; B2
R > typeof(B); typeof(B2)
R > cbind(A, B)
R > rbind(A, B)
R > A[1, 3]; A[2,]; A[, 2]
R > A[1:3, 2:4]
R > g <- seq(0, 1, length=20)
R > C <- matrix(g, nrow=4)
R > C[C[, 1] > 0.1,] # ***
R > A + B; A * B # Elementwise
R > A %*% t(B) # Matrix product
R > cos(A)
R > I <- diag(rep(1, 2))
R > diag(A)
R > D <- solve(A[1:2, 1:2])
R > all(A[1:2, 1:2] %*% D == I) # Why?
R > apply(A, 2, sum)
R > apply(A, 1, max)

5. Mảng

R > A <- array(1:12, c(2, 3, 2))


R > A
R > dim(A); length(A)
R > nrow(A); ncol(A)
R > apply(A, 1, mean)
214 19.4. Những lệnh cơ bản

R > apply(A, 2, mean)


R > apply(A, 3, mean)

6. Danh sách

R > height <- runif(20, 150, 180)


R > mass <- runif(20, 50, 90)
R > sex <- sample(c("M", "F"), 20,
+ > rep=TRUE)
R > color <- c("Blue", "Green", "Brown")
R > eyes <- sample(color, 20, rep=TRUE)
R > table(sex); table(eyes)
R > table(sex, eyes)
R > H <- data.frame(
+ > height, mass, sex, eyes)
R > H; summary(H)
R > head(H)
R > tail(H)
R > H[1,]
R > H$height
R > H$sex
R > is.data.frame(H)
R > is.matrix(H)
R > as.matrix(H) # Cast as a matrix

R > l1 <- list("Bobby", 1:8); l1


R > l1[[1]]
R > l1[[2]] + 10
R > l2 <- list(
+ > vect=1:5, text="DVORAK", scal=8)
R > names(l2)
R > l2$text
R > l2[c("scal", "vect")]
R > length(l2); length(l2$vect)

7. Data frames

R > height <- runif(20, 150, 180)


R > mass <- runif(20, 50, 90)
R > sex <- sample(c("M", "F"), 20,
+ > rep=TRUE)
R > color <- c("Blue", "Green", "Brown")
R > eyes <- sample(color, 20, rep=TRUE)
R > table(sex); table(eyes)
R > table(sex, eyes)
R > H <- data.frame(
215

+ > height, mass, sex, eyes)


R > H; summary(H)
R > head(H)
R > tail(H)
R > H[1,]
R > H$height
R > H$sex
R > is.data.frame(H)
R > is.matrix(H)
R > as.matrix(H) # Cast as a matrix

19.5 Nhập xuất dữ liệu


1. Nhập dữ liệu Trong R, ta có thể đọc dữ liệu từ một file .txt theo định dạng sau:

f ile1.csv f ile2.txt f ile3.txt f ile4.txt


X1;X2;X3
5,2.5,3.8 5 2.5 3.8 5;2.5;3.8 5;2,5;3,8
8,3.2,3.4 8 3.2 3.4 8;3.2;3.4 8;3,2;3,4
12,4.6,5 12 4.6 5 12;4.6;5 12;4,6;5

Hãy tạo file theo định dạng và chạy đoạn code sau

R > f1 <- read.table("file1.csv", sep=",")


R > f1
R > f1bis <- read.csv("file1.csv")
R > f1bis
R > f1bis <- read.csv("file1.csv",
+ > header=FALSE)
R > f1bis

2. Xuất dữ liệu Chạy đoạn code dưới đây và cho biết vai trò của lệnh sink.

R > A <- seq(1, 10, length=50)


R > write.table(A, "A.txt")
R > sink("A2.txt")
R > A
R > summary(A)
R > sink()
R > summary(A)

19.6 Cấu trúc lập trình cơ bản


1. Cấu trúc điều kiện

R > x <- rnorm(10)


216 19.6. Cấu trúc lập trình cơ bản

R > if (is.double(x)) print("OK")


R > if (is.integer(x)) print("KO")
R > if (x[1] > 0) 1 else -1
R > if (x[1] > 0) {
+ > y <- 1
+ > print("Positive")
+ > } else {
+ > y <- -1
+ > print("Non positive")
+ > }
R > y <- ifelse(x > 0, 1, -1); y
R > z <- "cat"
R > switch(z,
+ > cat=print("Hi Felix!"),
+ > dog=print("Hi Snowy!"),
+ > print("What is this pet?"))

2. Cấu trúc lặp

R > x <- c(17, 8, 42, 3)


R > for (e in x) print(e)
R > for (i in 1:length(x)) print(x[i])
R > for (i in seq_along(x)) print(x[i])
R > for (i in seq_len(5)) {
+ > fact <- prod(1:i)
+ > cat(i, "! = ", fact, "\n", sep="")
+ > }
R > for (k in seq_len(10)) {
+ > if (k %% 2 == 0) next
+ > print(k)
+ > }
R > i <- 1; s <- 0
R > while (i <= length(x)) {
+ > s <- s + x[i]
+ > i <- i + 1
R > }
R > s
R > x <- 0
R > repeat {
+ > print(x)
+ > x <- x + 1
+ > if (x == 10) break
R > }

3. Cấu trúc hàm

R > f1 <- function() print("Hello!")


R > f1
217

R > f1()
R > f2 <- function(k) cat(2*k)
R > f2(21)
R > f3 <- function(k) return(2*k)
R > f3(21)
R > y <- f3(21); y
R > f3 <- fix(f3)
R > f4 <- function(a, b=0) return(a + 2*b)
R > f4(2, 3); f4(5); f4(b=2, a=1)
R > f5 <- function(a, b=a) return(a + 2*b)
R > f5(2, 3); f5(5)
R > my_circle <- function(r) {
+ > p <- 2*pi*r
+ > a <- pi*r*r
+ > return(list(radius=r,
+ > perimeter=p,
+ > area=a))
+ > }
R > y <- my_circle(3)
R > y$area == pi*y$radius^2
R > my_var <- 17
R > f6 <- function(x) {
+ > my_var <- x
+ > print(my_var)
+ > }
+ > print(my_var); f6(8); print(my_var)
Tài liệu 218
tham khảo 19.6. Cấu trúc lập trình cơ bản

1. Phạm Hoàng Quân & Đinh Ngọc Thanh, Xác suất thống kê, NXB Giáo Dục Việt
Nam, 2011.
2. Douglas C. Montgomery & George C. Runger, Applied Statistics and Probability
for Engineers, Fifth Edition, John Wiley & Sons, Inc., 2011.
3. David S. Moore, George P. McCabe & Bruce A. Craig, Introduction to the Practice
of Statistics, W. H. Freeman and Company, New York, 2009.
4. Anthony Eccles, Bob Francis, Alan Graham & Roger Porkess, Statistics 1 & 2,
Third Edition, Hodder Education an Hachette UK Company, 2004.
5. Bernard Rosner, Fundamentals of Biostatistics, Seventh Edition, Brooks/Cole Cen-
gage Learning, Boston USA, 2011.
6. Douglas C. Montgomery, George C. Runger & Norma Faris Hubele, Engineering
Statistics, Fifth Edition, John Wiley & Sons, Inc., 2011.
7. Joy Devore, Probability and Statistics for Engineering and the Sciences, Ninth
Edition, Brooks/Cole Cengage Learning, Boston USA, 2014.
8. R. Lyman Ott & Michael Longnecker, An Introduction to Statistical Methods &
Data Analysis, Seventh Edition, Cengage Learning, Boston USA, 2016.
9. Carlos Cortinhas & Ken Black, Statistics for Business and Economics, First Eu-
ropean Edition, John Wiley & Sons Ltd., Italy, 2012.
10. David R. Anderson, Dennis J. Sweeney, Thomas A. Williams, Jeffrey D. Camm &
James J. Cochran, Statistics for Business & Economics 13e Revised, Brooks/Cole
Cengage Learning, Boston USA, 2017.
Bibliography 219

Sách

[1] Phạm Hoàng Quân & Đinh Ngọc Thanh, Xác suất thống kê, NXB Giáo Dục Việt
Nam, 2011.
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
220 Bibliography

You might also like