You are on page 1of 104

CHƯƠNG 5: XÁC SUẤT

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 1 / 104
I. MỘT SỐ KHÁI NIỆM MỞ ĐẦU

Tự tìm hiểu:

Những khái niệm cơ bản: phép thử, biến cố sơ cấp, không gian mẫu,
biến cố.
Quan hệ giữa các biến cố: biến cố bù A, biến cố tổng A+B, biến cố
tích A.B, hai biến cố xung khắc.(1)

Bài tập liên quan: V.25, V.26, V.28, V.29

(1)
A, B là các biến cố.
(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 2 / 104
Bài 28. (Tung một con xúc xắc hai lần. ...)
Ta viết E, F dưới dạng tập hợp

E  tp1, 1q, p1, 3q, . . . p6, 6qu, F  tp1, 1q, p1, 2q, . . . p1, 6qu.

EF: biến cố tổng số chấm hai mặt trên là chẵn và mặt trên con xúc
xắc đầu là 1. Viết EF dưới dạng tập hợp: EF  tp1, 1q, p1, 3q, p1, 5qu.
E Y F : biến cố tổng số chấm hai mặt trên là chẵn hoặc mặt trên con
xúc xắc đầu là 1. Dưới dạng tập hợp: E Y F = tập E hợp với tập F =
tp1, 1q, p1, 2q, p1, 3q, . . . p6, 6qu.
EF : biến cố tổng số chấm hai mặt trên là chẵn và mặt trên con xúc
xắc đầu không là 1. Ta có E F  tp2, 2q, p2, 4q, . . . p6, 6qu.
EFG: biến cố tổng số chấm hai mặt trên là chẵn và mặt trên con xúc
xắc đầu là 1 và tổng hai mặt trên là 5. Ta có EFG  H.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 3 / 104
II. ĐỊNH NGHĨA XÁC SUẤT

Tự tìm hiểu:
1 Định nghĩa cổ điển của xác suất.
2 Định nghĩa thống kê của xác suất.

Lưu ý: Một đặc điểm quan trọng trong định nghĩa cổ điển của xác suất
đó là yêu cầu khả năng (xác suất) xảy ra của các biến cố sơ cấp là như
nhau. Khi đó xác suất của một biến cố A bằng ||Ω
A|
| (số phần tử của A / số
phần tử của Ω).
Bài tập liên quan: V.32, V.33

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 4 / 104
Bài 32. (Rút ngẫu nhiên từ một bộ bài tây ...)
5 cách rút 5 quân bài từ bộ bài 52 quân. Mỗi một cách rút
Có tất cả C52
đều có khả năng xảy ra như nhau. Do đó yêu cầu của xác suất cổ điển
được thỏa mãn (khả năng xảy ra của các biến cố sơ cấp là như nhau).
a. Số cách rút được tứ quý Át là 1. Quân thứ 5 được chọn
trong 48 quân còn lại, ta có 48 sự lựa chọn quân thứ 5. Vậy
số cách rút 5 quân bài trong đó có tứ quý Át là 48. Do đó
xác suất rút được tứ quý Át là 48{C525 .

b. Có tất cả 4 chất (Rô, Cơ, Bích, Nhép), mỗi chất có 13 quân.


Số cách rút 5 năm quân cùng một chất Rô là C13 5 . Tương tự

số cách rút 5 năm quân cùng một chất Cơ, Bích, Nhép đều
5 . Vậy số cách rút 5 năm quân từ toàn bộ bộ bài là
là C13
5 . Do đó xác suất cần tìm là 4C 5 {C 5
4C13 13 52

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 5 / 104
c. Ta xét biến cố bù: trong 5 quân bài rút ra không có đôi nào.
Ta phân bộ bài thành 13 nhóm: tứ quý 2, tứ quý 3, ... tứ
quý Át. Trong 5 quân bài không có đôi nào, chứng tỏ 5 quân
bài được lấy ra từ 5 nhóm trong 13 nhóm. Có C13 5 cách chọn

5 nhóm. Với mỗi cách chọn 5 nhóm, từ mỗi nhóm ta có thể


chọn 1 trong 4 quân bài, suy ra số cách chọn 5 quân bài từ
mỗi bộ 5 nhóm là 45 . Từ các lập luận trên ta có xác suất
của biến cố bù là 45 C135 {C 5 . Do đó xác suất của biến cố cần
52
tìm là 1  4 C13 {C52 .
5 5 5

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 6 / 104
III. CÁC QUY TẮC TÍNH XÁC SUẤT

1 Quy tắc cộng: P pA B q  P pAq P pB q  P pAB q.


2 Quy tắc nhân: P pAB q  P pAqP pB |Aq  P pB qP pA|B q.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 7 / 104
Hai biến cố A, B độc lập nếu sự xảy ra hay không của biến cố này không
ảnh hưởng đến khả năng (xác suất) xảy ra của biến cố kia.

Lưu ý: Hai biến cố A, B độc lập ô P pA|B q  P pAq


ô P pB |Aq  P pB q ô P pAB q  P pAqP pB q.
Bài tập liên quan: V.27, V.39, V.30, V.34, V.35, V.36, V.37, V.38

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 8 / 104
Bài 30. (Một hệ thống chữa cháy ...)
Gọi A, B tương ứng là biến cố: Khi có cháy thiết bị báo cháy D1 , D2 báo
động đúng. Theo giả thiết P pAq  0.95, P pB q  0.92.
a. Biến cố cả D1 , D2 báo động là AB. Do hai thiết bị báo cháy
hoạt động độc lập nên hai biến ngẫu nhiên A, B độc lập. Do
đó P pAB q  P pAqP pB q  0.95x0.92  0.874.
b. Hệ thống chữa cháy hoạt động nếu một trong hai thiết bị
hoạt động đúng, do đó đây là biến cố A B. Ta có:

P pA B q  P pAq P pB qP pAB q  0.95 0.920.874  0.996.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 9 / 104
c. Hệ thống chữa cháy không hoạt động nếu cả hai thiết bị
không hoạt động, do đó đây là biến cố A B. Lưu ý rằng hai
biến cố A, B độc lập thì các cặp biến cố sau cũng độc lập
A, B; A, B; và A, B. Nên ta có:

P pA B q  P pAqP pB q  p1  0.95qp1  0.92q  0.004.

Lưu ý: Biến cố trong câu này là biến cố bù của biến cố


trong ý b., do đó xác suất của biến cố cần tìm có thể tính
theo cách khác là:

1  0.996  0.004.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 10 / 104
Bài 35. (Một bài thi thể dục tổng hợp ...)

a. Ký hiệu chạy, nhảy cao, nhảy xa tương ứng bằng các chữ:
c, nc, nx. Khi đó không gian mẫu của phép thử là (trong mỗi
cặp môn thi của Nam được viết trước, môn thi của Tiến
được viết sau):

tpc, c q, pc, nc q, pc, nx q, pnc, c q,


pnc, nc q, pnc, nx q, pnx, c q, pnx, nc q, pnx, nx qu.
b. Gọi A là biến cố Nam bốc môn thi đầu tiên là chạy.

A  tpc, c q, pc, nc q, pc, nx qu.

Gọi B là biến cố Tiến bốc môn thi đầu tiên là chạy.

B  tpc, c q, pnc, c q, pnx, c qu.


(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 11 / 104
Gọi C là biến cố Tiến bốc môn thi đầu tiên là nhảy cao.

C  tpc, nc q, pnc, nc q, pnx, nc qu.


i. Dễ thấy cặp biến cố xung khắc là: B, C .
ii. Cặp biến cố phụ thuộc là B, C . Có hai cách giải thích cho
điều này. Cách 1 : rõ rằng việc Tiến bốc môn thi đầu tiên là
chạy ảnh hưởng đến khả năng (xác suất) của Tiến bốc môn
thi đầu tiên là nhảy cao (bình thường xác suất để Tiến bốc
môn thi đầu tiên là nhảy cao là 3{9, nhưng khi biết Tiến bốc
môn thi là chạy thì xác suất này về 0). Cách 2 : ta dùng
công thức để kiểm tra:

AB  H ñ P pAB q  0  P pAqP pB q  3{9 x 3{9  1{9.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 12 / 104
Bài 36. (Ở một trường đại học ...)
Chọn ngẫu nhiên một sinh viên trong trường. Gọi A, B tương ứng là các
biến cố: Chọn được sinh viên nữ, Chọn được sinh viên chuyên về khoa học
máy tính. Theo giả thiết ta có: P pAq  0.52, P pB q  0.05, P pAB q  0.02.
a. Ta cần tính P pA|B q. Ta có:
P pA|B q  P pAB q{P pB q  0.02{0.05  0.4.
b. Ta cần tính P pB |Aq. Ta có:
P pB |Aq  P pAB q{P pAq  0.02{0.52  1{26.
c. Dễ thấy P pAB q  P pAqP pB q, do đó hai biến cố A, B là
không độc lập với nhau.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 13 / 104
Lưu ý Bên cạnh những công thức tính xác suất ở trên, ta có thể sử dụng
thêm một số công thức sau:
1

P pAB q  P pAq  P pA B q
hoặc đổi vai trò của A và B ta có

P pAB q  P pB q  P pB Aq.

P pB |Aq  1  P pB |Aq
hoặc đổi vai trò của A và B ta có

P pA|B q  1  P pA|B q.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 14 / 104
CHƯƠNG 6: BIẾN NGẪU NHIÊN

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 15 / 104
I. MỘT SỐ ĐẶC TRƯNG CỦA BIẾN NGẪU NHIÊN

Cho biến ngẫu nhiên rời rạc X có bảng phân phối xác suất

X x1 x2 ... xn
P p1 p2 ... pn

Tự tìm hiểu công thức tính và ý nghĩa của


trung bình (kỳ vọng) của X,
độ lệch chuẩn và phương sai của X.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 16 / 104
Thực hành tính kỳ vọng và phương sai trong R.

Đặt X  c px1 , x2 , ..., xn q.


Đặt P  c pp1 , p2 , ..., pn q.
Tính kỳ vọng: EX  sumpX  P q.
Tính phương sai: VX  sumppX  EX q2  P q.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 17 / 104
Bài tập liên quan: từ VI.45 đến VI.54

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 18 / 104
Bài 46. (Xét phân phối ...)

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 19 / 104
Bài 47. (Gọi X là biến ngẫu nhiên chỉ chênh lệch giữa ...)
Có 24  16 khả năng xảy ra khi tung đồng xu 4 lần: SSSS, SSSN, ...,
NNNS, NNNN.
X = số mặt sấp - số mặt ngửa; ví dụ khi kết quả tung đồng xu là SSSS thì
X = 4, khi kết quả là NNNS thì X = -2. Các giá trị mà X có thể nhận là
-4, -2, 0, 2 và 4.
Trong 16 khả năng ở trên, có 1 khả năng cho X =4, đó là SSSS; có 4 khả
năng cho X = 2, đó là SSSN, SSNS, SNSS, NSSS; tương tự có 6 khả
năng cho X = 0; 4 khả năng cho X=-2; 1 khả năng cho X=-4. Do đó ta
có bảng phân phối xác suất

X 4 2 0 2 4
P 1/16 4/16 6/16 4/16 1/16

Ta dùng công thức để tính kỳ vọng và phương sai của X.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 20 / 104
Bài 48. (Mười quả bóng được chọn ngẫu nhiên ...)
X là số bóng trắng trong số 10 quả bóng được chọn. X có thể là 0, là 1, ...
hoặc là 10. Ta tính xác suất để X nhận giá trị k p0 ¤ k ¤ 10q.
Số cách chọn 10 bóng trong đó có k bóng trắng là C(17, k)C(23, 10-k).
(C(17, k) là số cách chọn k bóng trắng từ tổng số 17 bóng trắng, C(23,
10-k) là số cách chọn 10-k quả bóng đen từ 23 bóng đen.)
Tổng số cách chọn 10 bóng trong bình 40 bóng (17 trắng + 23 đen) là
C(40, 10). Do đó xác suất chọn được 10 bóng trong đó có k bóng trắng là
C p17,k qC p23,10k q
C p40,10q .

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 21 / 104
(Tiếp) Ta có bảng phân phối xác suất

X 0 ... k ... 10
p q p
C 17,0 C 23,10 q ... p q p  q ...
C 17,k C 23,10 k p q p
C 17,10 C 23,0 q
P p
C 40,10 q p q
C 40,10 p
C 40,10 q

Kỳ vọng của X (chính là số bóng trắng bình quân lấy được) là



Σxi P pxi q  0.C p17, 0q.C p23, 10q 1.C p17, 1q.C p23, 9q 2.C p17, 2q.C p23, 8q

... 10.C p17, 10q.C p23, 0q {C p40, 10q.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 22 / 104
(Tiếp) Ta dùng R để tính biểu thức trên:

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 23 / 104
Bài 53. (Số lượng thuyền gỗ X ...)
a. Số thuyền có khả năng nhiều nhất mà xưởng đó có thể đóng được trong
tháng tới là 4 (Vì P(X) lớn nhất khi X=4, cụ thể P(X=4) = 0.3.)

b. Trước tiên ta tính số thuyền bình quân xưởng đóng trong một tháng,
đó chính là kỳ vọng của biến ngẫu nhiên X:

EX  2  0.2 3  0.2 4  0.3 5  0.1 6  0.1 7  0.05 8  0.05  4.05.


Chi phí bình quân tháng = Chi phí cố định (: 25) + Chi phí phụ thuộc vào
số thuyền đóng trong một tháng (: Đơn giá x Số thuyền bình quân tháng)
= 25 + 15 x 4.05 = 85.75.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 24 / 104
II. PHÂN PHỐI NHỊ THỨC

Tình huống dẫn đến phân phối nhị thức:


- Tiến hành n phép thử y hệt nhau (ví dụ tung con xúc xắc lên 10 lần,
rút ngẫu nhiên có hoàn lại 20 lần từ một bộ bài, ...).
- Mỗi phép thử có 2 kết cục xảy ra: kết cục ’Thành’ xảy ra với xác suất là
p, kết cục ’Bại’ xảy ra với xác suất là 1-p.
- Gọi X là biến ngẫu nhiên chỉ số lần ’Thành’ xảy ra trong n phép thử.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 25 / 104
(Tiếp theo)
Khi đó có thể chứng minh được rằng X có phân phối xác suất là

X 0 1 ... k ... n
P Cn0 p1  p q n Cn1 p p1  p q n 1 ... Cnk p k p1  p q n k ... Cnn p n

Định nghĩa Từ giờ trở đi, bất cứ biến ngẫu nhiên X nào (có thể không
phải biến ngẫu nhiên xuất phát từ tình huống nêu ở trên) - có phân phối
xác suất như bảng ở trên - được gọi là biến ngẫu nhiên tuân theo phân
phối nhị thức. Ký hiệu X  B pn, p q.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 26 / 104
Ví dụ khi ta viết X  B p10, 0.5q; ta hiểu X là biến ngẫu nhiên tuân theo
phối nhị thức với các tham số n = 10, p=0.5 và X có bảng phân phối xác
suất là
X 0 ... k ... 10
P 0
C10 p1  0.5q 10 ... k 0.5k
C10 p1  0.5qnk ... 10 0.510
C10

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 27 / 104
Tự tìm hiểu công thức tính kỳ vọng EX và phương sai VX của biến ngẫu
nhiên X  B pn, p q.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 28 / 104
Thực hành tính toán trong R.

Cho X  B pn, pq. Khi đó


để tính P(X=k), trong R ta dùng câu lệnh dbinom(k, n, p);
để tính P(X¤k), trong R ta dùng câu lệnh pbinom(k, n, p). (1)

Bài tập liên quan: từ VI.56 đến VI.60

(1)
Ta có P(X¥k) = 1 - P(X¤k-1) = 1 - pbinom(k-1, n, p)
(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 29 / 104
Bài 56. (Một bài thi trắc nghiệm gồm 100 câu hỏi ...)
Gọi X là số câu trả lời đúng của Nam, X là biến ngẫu nghiên tuân theo
phân phối nhị thức với n =100, p = 0.25 (xác suất trả lời đúng một câu
hỏi).
a. Xác suất để Nam trả lời đúng một nửa số câu hỏi là P(X=50) =
dbinom(50, 100, 0.25).
b. Tính xác suất để Nam thi đỗ là P(X¥50) = 1-P(X¤49) = pbinom(49,
100, 0.25).
c. Số câu trả lời đúng trung bình của Nam là n.p = 100  0.25 = 25.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 30 / 104
Bài 58. (Cho X là biến ngẫu nhiên ...)
Chú ý rằng nếu X  B pn, pq, thì EX  np và VX  npp1  pq.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 31 / 104
Bài 60. (Nếu bạn mua 50 vé xổ số ...)
Gọi X là số vé trúng giải, X có thể nhận giá trị 0 (không vé nào trúng
giải), có thể nhận giá trị 1, ... , có thể nhận giá trị 50 (tất cả các vé đều
trúng giải). Xác suất một vé trúng giải là 1/100. Ta có

X  B pn  50, p  1{100q.
a. Xác suất trúng ít nhất một giải là P(X ¥ 1) = 1 - P(X=0) = 1 -
dbinom(0, 50, 1/100), đúng một giải là P(X=1) = dbinom(0, 50, 1/100),
ít nhất hai giải P(X ¥ 2) = 1 - P(X¤1) = 1 - pbinom(1, 50, 1/100).
b. Xác suất không trúng giải nào, trúng một giải, ... , trúng 50 giải lần
lượt là P(X=0), P(X=1), ... , P(X=50). Ta tìm giá trị k sao cho P(X=k)
là lớn nhất trong số các P(X=0), P(X=1), ... , P(X=50).

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 32 / 104
(Tiếp) Ta sử dụng R để tìm k.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 33 / 104
III. PHÂN PHỐI CHUẨN

Khi ta viết X  N pµ, σ 2 q, ta nói X là biến ngẫu nhiên liên tục tuân theo
phân phối chuẩn với các tham số µ và σ 2 , và ta hiểu X là một biến ngẫu
nhiên liên tục, X có trung bình là µ, phương sai là σ 2 .

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 34 / 104
Chú ý rằng nếu X tuân theo phân phối chuẩn thì xác suất để X nhận một
giá trị a cụ thể bất kỳ là bằng 0 (tức P(X=a)=0). Do đó

P pX a q  P pX ¤ a q, P pX ¡ a q  P p X ¥ a q.
Điều này có nghĩa dấu bằng không quan trọng khi ta tính xác suất liên
quan đến phân phối chuẩn.
Tính chất trên không đúng nếu X tuân theo phân phối nhị thức:
P pX k q và P pX ¤ k q chênh nhau một đại lượng P(x=k) có thể khác 0.
Do đó P pX k q và P pX ¤ k q có thể khác nhau. Tương tự đối với
P pX ¡ k q và P pX ¥ k q.
- Nếu X  N p..., ...q thì P pX ¥ aq  1  P pX a q  1  P pX ¤ a q.
- Nếu X  B p..., ...q thì P pX ¥ aq  1  P pX a q  1  P pX ¤ a  1q.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 35 / 104
Trong R
1 để tính P pX aq, ta dùng lệnh pnormpa, µ, σ q.
2 Để tìm giá trị a sao cho P pX aq  α (α cho trước) ta dùng lệnh
qnormpα, µ, σ q.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 36 / 104
Ví dụ Cho X  N p10, 4q, ta hiểu X là biến ngẫu nhiên liên tục có trung
bình là 10, phương sai là 4 (do đó độ lệch chuẩn 2).
1 Để tính P pX 9q, trong R ta dùng lệnh pnormp9, 10, 2q,
2 Để tìm a sao cho P pX aq  0.4, trong R ta dùng lệnh
qnormp0.4, 10, 2q.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 37 / 104
(Tiếp) Lưu ý ở trên ta dùng pnormp9, 10, 2q và qnormp0.4, 10, 2q, chứ
không phải pnormp9, 10, 4q, qnormp0.4, 10, 4q; cẩn thận không bị nhầm (2
chứ không phải 4.).

Khi viết X  N p , ...q, ở vị trí ... ta viết phương sai. Còn ở vị trí ... trong
pnorm( , ,...) và qnorm( , ,...), ta khai báo độ lệch chuẩn.

Bài tập liên quan: từ VI.63 đến VI.66

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 38 / 104
Bài 64. (Giả sử tuổi thọ ...)
Gọi X là biến ngẫu nhiên chỉ tuổi thọ một chiếc đèn hình.
Theo bài, ta có X  N p8.2, 1.42 q.

a. Tính P pX ¡ 10q. Ta có
P pX ¡ 10q  1P pX ¤ 10q  1pnormp10, 8.2, 1.4q.
Tính trong R

b. Tính P pX 4q.
P p X 4q  pnormp4, 8.2, 1.4q.
Tính trong R

c. Tính P p4 ¤ X ¤ 10q.
P p4 ¤ X ¤ 10q  P pX ¤ 10q  P pX 4q  Tính trong R
pnormp10, 8.2, 1.4q  pnormp4, 8.2, 1.4q.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 39 / 104
(Tiếp)
d. Tỉ lệ đèn hình phải đổi chính là tỉ lệ đèn hình hỏng trước
thời gian bảo hành P pX 5q.
P pX 5q  pnormp5, 8.2, 1.4q.

e. Gọi thời gian bảo hành là α (năm), ta có P pX αq  5%.


Trong R, α được tính bằng câu lệnh qnormp0.05, 8.2, 1.4q.(2)

(2)
Câu hỏi: Tính ra ta được qnormp0.05, 8.2, 1.4q  5.897205, hỏi
pnormp5.897205, 8.2, 1.4q bằng bao nhiêu?
(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 40 / 104
Bài 64. (Chỉ số IQ của người ...)
Gọi X là chỉ số IQ của một người. Ta có X  N p100, 14.22q.
Gọi khoảng rα, 8q là khoảng chứa 10% những chỉ số IQ cao nhất, ta có
P pX ¥ αq  10% và do đó P pX ¤ αq  0.9.
α được tính trong R bằng cách dùng qnormp0.9, 100, 14.2q.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 41 / 104
CHƯƠNG 7: ƯỚC LƯỢNG THAM SỐ TỔNG THỂ

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 42 / 104
Những tham số thường được quan tâm khi nghiên cứu một tổng thể
1 trung bình tổng thể: µ,
2 tỉ lệ tổng thể: p,
3 v.v.

Đối với mỗi mẫu điều tra, ta tính được


1 trung bình mẫu: x,
2 tỉ lệ mẫu: ps ,
3 v.v.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 43 / 104
Ước lượng điểm Ta coi mỗi tham số mẫu là một ước lượng - ta gọi ước
lượng điểm - cho tham số tổng thể. Cụ thể

trung bình mẫu x là một ước lượng điểm cho trung bình tổng thể µ,

tỉ lệ mẫu ps là một ước lượng điểm cho tỉ lệ tổng thể p.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 44 / 104
Bài VII.70 a. và VII.71 a. (Tại một ngân hàng ...)
Trong nhiều bài tập, hữu ích khi ngay từ đầu ta hình dung tổng thể đang
quan tâm là gì.
Ở đây ngân hàng thử nghiệm hệ thống mới, mỗi khách hàng đến giao dịch
trong thời gian thử nghiệm có một gian chờ. Tất cả các thời gian chờ của
tất cả các khách hàng tạo nên tổng thể thời gian chờ. Tổng thể này có thể
rất lớn/nhiều do rất nhiều khách hàng đến giao dịch, và ta không có điều
kiện (thời gian, kinh phí, v.v.) để có toàn bộ tổng thể này.
Dữ liệu gồm 100 thời gian chờ được cho trong tệp ThoiGianCho.csv chỉ là
mẫu, tổng thể có thể lớn/nhiều hơn nhiều. Mẫu thì đã biết, tổng thể thì
không biết nhưng lại là cái ta quan tâm.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 45 / 104
(Tiếp) (Bài VII.70 a.) Trung bình mẫu là một ước lượng điểm cho trung
bình tổng thể. Ở đây, thời gian chờ trung bình trong mẫu là một ước
lượng điểm cho thời gian chờ trung bình của tất cả lượt khách hàng.
Ta tính thời gian chờ trung bình trong mẫu, câu trả lời là 5.46.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 46 / 104
(Tiếp) (Bài VII.71 a.) Tỉ lệ mẫu là một ước lượng điểm cho tỉ lệ tổng thể.
Ở đây, tỉ lệ lượt khách chờ < 6 phút trong mẫu là một ước lượng điểm
cho tỉ lệ lượt khách chờ < 6 phút trong tổng thể.
Ta tính tỉ lệ lượt khách chờ < 6 phút trong mẫu, câu trả lời là
60{100  0.6.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 47 / 104
Ước lượng khoảng Tự tìm hiểu công thức tính khoảng ước lượng cho
trung bình, tỉ lệ tổng thể.
Trong R, câu lệnh tìm khoảng ước lượng với độ tin cậy cho trước

cho trung bình tổng thể µ là t.test(x, conf.level = ),


trong đó x là véc tơ dữ liệu mẫu, conf.level là độ tin cậy;

cho tỉ lệ tổng thể p là prop.test(x, n, conf.level =),


trong đó x là số lần ’thành công’, n là cỡ mẫu, conf.level là độ tin cậy.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 48 / 104
Bài VII.70 b. và VII.71 b. (Tại một ngân hàng ...)
(Bài VII.70 b.) Khoảng tin cậy 99% cho thời gian chờ trung bình (trung
bình tổng thể) là p4.809845, 6.110155q.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 49 / 104
(Tiếp) (Bài VII.71 b.) Khoảng tin cậy 90% cho tỉ lệ lượt khách hàng chờ
ít hơn 6 phút (tỉ lệ tổng thể) là p0.5127842, 0.6816248q.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 50 / 104
Bài tập liên quan: VII.70, 71, 75, 76

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 51 / 104
CHƯƠNG 8: KIỂM ĐỊNH THAM SỐ

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 52 / 104
Phân loại một số loại kiểm định

Kiểm định tham số một tổng thể:


1 Kiểm định giả thuyết về trung bình của một tổng thể.
2 Kiểm định giả thuyết về tỉ lệ của một tổng thể.

Kiểm định tham số hai tổng thể:


1 Kiểm định giả thuyết về trung bình của hai tổng thể.
2 Kiểm định giả thuyết về tỉ lệ của hai tổng thể.
3 Kiểm định giả thuyết về phương sai của hai tổng thể.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 53 / 104
Các bước thực hiện bài toán kiểm định

Bước 1. Phân tích bài toán và đặt cặp giả thuyết H0 , H1 .


(Ta có thể tự đặt ra những câu hỏi sau và tự trả lời, việc này có thể giúp chúng ta hiểu bài toán hơn: Có

mấy tổng thể? Các tổng thể đó cụ thể/chi tiết như thế nào? Ta quan tâm đến tham số nào (trung

bình/tỉ lệ/phương sai v.v.) của tổng thể? Số liệu mẫu đã cho chưa, lấy ở đâu?)

Bước 2. Sử dụng hàm thích hợp trong R để tìm p-giá trị.


(Kiểm định trung bình, ta dùng hàm t.test(...). Kiểm định tỉ lệ, ta dùng prop.test(...). Kiểm định phương

sai, ta dùng var.test(...).)

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 54 / 104
(Tiếp)
Bước 3. So sánh p-giá trị với mức ý nghĩa α rồi đưa ra kết luận:
a. Nếu p-giá trị ¡ α thì chấp nhận H0 ,
chưa đủ bằng chứng thống kê cho rằng H1
là đúng.
b. Nếu p-giá trị α thì bác bỏ H0 ,
đủ bằng chứng thống kê cho rằng H1 là
đúng.
(Khi kết luận ta nên có đoạn bôi đậm, ghạch chân ở trên.)

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 55 / 104
Một số lưu ý về cặp giả thuyết H0 , H1
1 Trong cấu trúc của H0 luôn có dấu bằng.
2 H0 thường mô tả hiện tượng lúc bình thường - tức không có gì mới
xảy ra, lý thuyết cũ vẫn đúng, tiêu chuẩn cũ vẫn đúng, hệ thống vẫn
đang kiểm soát được v.v..
3 H1 thường mô tả hiện tượng ta đang nghi ngờ hoặc hiện tượng ta
đang muốn kiểm chứng.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 56 / 104
Kiểm định giả thuyết về trung bình của một tổng thể

Hàm được dùng để tìm p-value: t.test (x, mu=, alt=)

Trong đó:
x: véc tơ dữ liệu mẫu.
mu: giá trị xuất hiện trong H0 , H1 .
alt: kiểm định về hai phía (=’t’)/ bên trái (=’l’)/ bên phải (=’g’).

Bài tập liên quan: VIII.77, 78, 79, 80, 84, 85 (Trong những bài này, ta
không dùng đến thông tin về độ lệch chuẩn - nếu trong bài có đề cập đến.)

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 57 / 104
Bài VIII.78 c. (Trong một quy trình sản xuất hoá học ...)
Bước 1: (Như đã đề cập, chúng ta tự đặt ra những câu hỏi và tự trả lời, việc này có thể giúp chúng ta hiểu bài toán hơn:

- Có mấy tổng thể? - Có một tổng thể.

- Các tổng thể đó cụ thể/chi tiết như thế nào? - Ta chỉ có một loại dung dịch với một độ PH xác định, nhưng để ước lượng/tìm
hiểu độ PH của dung dịch này người ta tiến hành đo nhiều lần. Và do sai số của phép đo, mỗi lần đo có thể cho một con số
khác nhau. Ta hình dung có vô số lần đo, tất cả các số đo đó tạo nên tổng thể. Trong bài cho 10 số đo, đó chỉ là mẫu.

- Ta quan tâm đến tham số nào (trung bình/tỉ lệ/phương sai v.v.) của tổng thể? - Ta quan tâm đến trung bình tổng thể, trung

bình của tổng thể tất cả các lần đo bù trừ cho nhau và được coi như độ PH thực sự của dung dịch.)

Gọi µ là trung bình số đo độ PH. Xét cặp giả thuyết:

H0 : µ  8.2 (Độ PH của dung dịch là 8.2.)


H1 : µ  8.2 (Độ PH của dung dịch khác 8.2)

Đây là bài toán kiểm định trung bình một tổng thể, về hai phía (3) .

(3)
Để biết kiểm định về phía nào, ta nhìn vào H1 .
(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 58 / 104
Bước 2: Sử dụng R tìm p - value.

Bước 3: Ta có p-value= 0.01562 < α (=5%), đủ bằng chứng thống kê


cho rằng H1 đúng hay đủ bằng chứng thống kê(4) cho rằng độ PH của
loại dung dịch này khác 8.2.

(4)
Khi kết luận, nên có đoạn bôi đậm, ghạch chân này.
(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 59 / 104
Bài VIII.85 (Khối lượng sản phẩm ...)
Ghi chú: Bài toán kiểm định trung bình một tổng thể, về hai phía.
Ta có thể tạo véc tơ mẫu (gồm 100 số liệu) trong R như sau:

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 60 / 104
Kiểm định giả thuyết về trung bình của hai tổng thể

Hàm được dùng để tìm p-value: t.test (x, y, mu=, alt=)

Trong đó:
x, y: véc tơ dữ liệu mẫu thứ nhất, thứ hai.
mu: giá trị so sánh với hiệu hai trung bình (xuất hiện trong H0 , H1 ),
giá trị mặc định của mu là 0.
alt: kiểm định về hai phía (=’t’)/ bên trái (=’l’)/ bên phải (=’g’).

Bài tập liên quan: VIII.88, 89, 91, 92, 93

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 61 / 104
Bài VIII.88 (Trong một nghiên cứu ...)
Bước 1: (Ta có thể tự đặt ra những câu hỏi và tự trả lời, việc này có thể giúp chúng ta hiểu bài toán hơn:

- Có mấy tổng thể? - Có hai tổng thể.

- Các tổng thể đó cụ thể/chi tiết như thế nào? - Ta hình dung có rất nhiều người điều trị cảm bằng cách dùng C, mỗi người có
một thời gian điều trị. Tất cả thời gian điều trị của tất cả những người dùng C tạo nên tổng thể thứ nhất. 10 dữ liệu về thời
gian điều trị có dùng C cho trong bài chỉ là số liệu mẫu. Tổng thể có thể lớn hơn nhiều.

Tương tự mỗi người điều trị cảm lạnh không dùng C sẽ đóng góp một con số (thời gian điều trị), toàn bộ những con số này tạo
nên tổng thể thứ 2 - tổng thể thời gian điều trị của những người không dùng C. Tổng thể này có thể rất lớn/nhiều, 12 số liệu
cho trong bài chỉ là mẫu.

- Ta quan tâm đến tham số nào (trung bình/tỉ lệ/phương sai v.v.) của tổng thể? - Ta quan tâm đến trung bình của hai tổng thể,

trung bình của mỗi tổng thể đại diện cho độ lớn của tổng thể đó - ở đây là đại diện cho hiệu quả của mỗi phương pháp điều trị.)

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 62 / 104
Gọi µ1 , µ2 tương ứng là thời gian bị cảm trung bình của những người dùng
C và của những người không dùng C.
Ta thực hiện bài toán kiểm định:

H 0 : µ1  µ 2 ¥0 (Dùng C không giảm thời gian cảm lạnh.)


H 1 : µ1  µ 2 0 (Dùng C làm giảm thời gian cảm lạnh.)

Đây là bài toán kiểm định trung bình hai tổng thể, về bên trái(5) .

(5)
Để biết kiểm định về phía nào, ta nhìn vào H1 . Ở đây ta kiểm định xem µ1  µ2 có
nhỏ hơn 0 hay không, tức có nằm ở bên trái điểm 0 hay không.
(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 63 / 104
Bước 2: Ta dùng R tìm p - value.

Bước 3: p  value  0.03428 α  0.05. Đủ bằng chứng thống kê


cho rằng H1 đúng hay đủ bằng chứng cho rằng dùng C làm giảm thời
gian bị cảm lạnh.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 64 / 104
Bài VIII.92 (Để nghiên cứu ảnh hưởng ...)
Bài VIII.93 (Để so sánh số hành khách ...)
Ghi chú: Trong trường hợp mẫu theo đôi như trong hai bài tập này, trong
hàm kiểm định ta thêm tham số paired=T:

t.test (x, y, mu=, alt=, paired=T)

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 65 / 104
Kiểm định giả thuyết về tỉ lệ của một tổng thể

Hàm được dùng để tìm p-value: prop.test(x, n, p=, alt=)

Trong đó:
x: số dữ liệu trong mẫu có tính chất mà ta đang quan tâm.
n: cỡ mẫu (số lần thử nghiệm).
p: giá trị so sánh xuất hiện trong H0 , H1 .
alt: kiểm định về hai phía (=’t’)/ bên trái (=’l’)/ bên phải (=’g’).

Bài tập liên quan: VIII. 86, 87

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 66 / 104
Bài VIII.87 (Dùng tệp dữ liệu ThoiGianCho.csv ...)
Bước 1: (Ta cũng nên tự đặt một số câu hỏi và tự trả lời nhằm giúp chúng ta hình dung rõ vấn đề.)

Gọi p là tỉ lệ lượt khách hàng phải chờ trên bảy phút (tỉ lệ tổng thể). Ta
thực hiện bài toán kiểm định:

H0 : p ¤ 0.25, H1 : p ¡ 0.25.
Đây là bài toán kiểm định tỉ lệ một tổng thể, về bên phải.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 67 / 104
Bước 2: Lấy dữ liệu. Sử dụng R, ta đếm được cỡ mẫu n  100
(length(dulieu$ThoiGian)) và số thời gian chờ lớn hơn bảy phút là x  26
(sum(dulieu$ThoiGian>7)).
Dùng hàm prop.test(26, 100, p=0.25, alt=’g’), ta tìm được
p  value  0.4087.

Bước 3: p  value  0.4087 ¡ α  0.05 nên chấp nhận H0 , chưa đủ


bằng chứng thống kê cho rằng H1 đúng, tức chưa đủ bằng chứng
thống kê cho rằng tỉ lệ lượt khách hàng có thời gian chờ hơn bảy phút là
lớn hơn 0.25.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 68 / 104
Kiểm định giả thuyết về tỉ lệ của hai tổng thể

Hàm được dùng để tìm p-value: prop.test(x, n, alt=)

Trong đó:
x là c(x1 , x2 ): véc tơ số lần ’thành công’, x1 , x2 tương ứng là số dữ liệu
trong mẫu thứ nhất, mẫu thứ hai có tính chất mà ta đang quan tâm.
n là c(n1 , n2 ): véc tơ cỡ mẫu, n1 , n2 tương ứng là cỡ mẫu thứ nhất,
cỡ mẫu thứ hai.
alt: kiểm định về hai phía (=’t’)/ bên trái (=’l’)/ bên phải (=’g’).

Bài tập liên quan: VIII.94, 95, 96

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 69 / 104
Bài VIII.94 (Trong một cuộc điều tra ...)
Bước 1: Gọi p1 , p2 lần lượt là tỉ lệ nam giới, tỉ lệ nữ giới cho rằng trọng
lượng là một yếu tố quan trọng khi mua một chiếc máy tính xách tay. (6)
Ta thực hiện bài toán kiểm định:
H0 : p1  p2 ¥0
H1 : p1  p2 0 (Phụ nữ coi trọng yếu tố trọng lượng hơn.) .

Đây là bài toán kiểm định tỉ lệ của hai tổng thể, về bên trái.

(6)
Ta hiểu p1 , p2 là tỉ lệ tổng thể, chứ không phải tỉ lệ mẫu.
(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 70 / 104
Bước 2: Ta có véc tơ cỡ mẫu là c p375, 481q.
Số nam giới (trong mẫu) quan trọng yếu tố trọng lượng của máy xáy tay
là 375  59%  221.25, con số tương tự của nữ giới là 481  70%  336.7.
Vậy ta có véc tơ số lần ’thành công’ là c p221.25, 336.7q.
Trong R, ta dùng hàm prop.test(c(221.25, 336.7), c(375, 481), alt=’l’) ,
ta tìm được p  value  0.00052.
Bước 3: p  value  0.00052 α  0.05 nên bác bỏ H0 , đủ bằng chứng
thống kê cho rằng H1 đúng, tức đủ bằng chứng thống kê cho tỉ lệ phụ
nữ cho rằng ... là cao hơn so với nam giới.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 71 / 104
Kiểm định giả thuyết về sự khác biệt của phương sai của hai tổng
thể (Kiểm định hai phương sai là bằng hay khác nhau)

Hàm được dùng để tìm p-value: var.test(x, y)

Trong đó:
x: véc tơ dữ liệu mẫu thứ nhất.
y: véc tơ dữ liệu mẫu thứ hai.

Bài tập liên quan: VIII. 97, 98, 99

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 72 / 104
Bài VIII.98 (Điều tra về sự biến động ...)
Bước 1: Gọi σ12 , σ22 lần lượt là phương sai giá xăng của thành phố 1, thành
phố 2. Ta thực hiện bài toán kiểm định:

H0 : σ12  σ22, H1 : σ12  σ22.


Bước 2: Trong R, ta dùng hàm var.test(ThanhPho1, ThanhPho2) , trong
đó ThanhPho1, ThanhPho2 tương ứng là véc tơ dữ liệu mẫu về giá xăng
của thành phố 1, thành phố 2. Ta tìm được p  value  ....
Bước 3: p  value  ..., α  0.01, nên kết luận ....

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 73 / 104
CHƯƠNG 9: PHÂN TÍCH PHƯƠNG SAI

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 74 / 104
I. Bài toán so sánh trung bình nhiều tổng thể

Bài toán: Cho k tổng thể với trung bình lần lượt là µ1 , µ2 , . . . , µk . Thực
hiện bài toán kiểm định:

H0 : µ 1  µ2      µk
pCác tổng thể có trung bình như nhau.q
H1 : Tồn tại 1 ¤ i, j ¤ k sao cho µi  µj .
pCó ít nhất hai tổng thể có trung bình khác nhau.q

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 75 / 104
Các yêu cầu khi giải bài toán phân tích phương sai

1 Các tổng thể tuân theo phân phối chuẩn.


2 Phương sai của các tổng thể là bằng nhau.
3 Các mẫu lấy ra là độc lập.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 76 / 104
Các bước giải bài toán phân tích phương sai

1 Nhập các mẫu điều tra thành một nhóm (đặt tên, ví dụ, là MauGop).
2 Tạo véc tơ (đặt tên, ví dụ, là PhanNhom) với mục đính nhận diện dữ
liệu trong MauGop.
3 Dùng hàm anova(lm(MauGop ∼ factor(PhanNhom))) để tìm p-giá
trị.
4 So sánh p-giá trị với mức ý nghĩa α rồi đưa ra kết luận.

Bài tập liên quan: VIII.100, 101, 102, 103, 110

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 77 / 104
Bài VIII.100 (Một nhà sản xuất muốn so sánh ...)
Gọi µA , µB , µC tương ứng là trung bình số sản phẩm bán được mỗi ngày
ứng với mẫu chai A, B, C. Theo yêu cầu của đầu bài ta xét cặp giả thuyết:

H0 : µ A  µB  µC
pNhân tố mẫu mã KHÔNG ảnh hưởng đến số lượng bán hàng.q
H1 : Tồn tại ít nhất hai trung bình khác nhau.
pNhân tố mẫu mã CÓ ảnh hưởng đến số lượng bán hàng.q

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 78 / 104
(Tiếp) Trong R ta tiến hành như sau:

1. Nhập các mẫu thành một nhóm.

2. Khi gộp các mẫu thành một nhóm, ta không biết dữ liệu nào
thuộc mẫu nào. Véc tơ PhanNhom được tạo giúp nhận diện
dữ liệu trong MauGop, nhìn vào PhanNhom ta biết dữ liệu
nào thuộc mẫu nào.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 79 / 104
3. Dùng hàm anova để tìm p-giá trị.

4. So sánh p-giá trị với mức ý nghĩa α rồi đưa ra kết luận.
p-giá trị=3.227e-06<α, bác bỏ H0 , đủ bằng chứng thống kê
cho rằng có sự khác nhau trong các trung bình tổng thể, hay
nhân tố mẫu mã có ảnh hưởng đến số lượng bán hàng.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 80 / 104
II. Phân tích sâu - phương pháp Tukey.

Trong trường hợp bác bỏ H0 , chấp nhận H1 (Chấp nhận có ít nhất hai
tổng thể có trung bình khác nhau.), ta thực hiện phân tích sâu nhằm tìm
ra những tổng thể có trung bình khác nhau.

Câu lệnh trong R: TukeyHSD(aov(MauGop) ∼ factor(PhanNhom)))

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 81 / 104
(Tiếp bài 100) Ta tiến hành phân tích sâu nhằm tìm ra những cặp trung
bình khác nhau (và xem trung bình nào lớn nhất/nhỏ nhất).

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 82 / 104
Dòng thông tin màu hồng ở trên cho ta thông tin về bài toán kiểm định
phụ:
H0 : µB  µA  0, H1 : µB  µA  0.
P - value cho bài toán kiểm định phụ trên là p adj = 0.0000021 <
α  1%, đủ bằng chứng thống kê cho rằng µB  µA  0.
Ta có µB  µA , nhưng giá trị nào lớn hơn? diff trong dòng thông tin
chính là = Trung bình mẫu B - Trung bình mẫu A(7) , ở đây là 16.2, lớn
hơn 0, do đó ta cho rằng µB (trung bình tổng thể B) > µA (trung bình
tổng thể A).

(7)
Ta có thể kiểm tra lại bằng lệnh mean(MauB) - mean(MauA).
(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 83 / 104
Hai dòng thông tin màu xanh cho ta thông tin về hai bài toán kiểm định
phụ:
H0 : µC  µA  0, H1 : µC  µA  0
pp  value  0.0013480 α  1%, diff  8.2 ¡ 0q,

H0 : µ C  µB  0,  µB  0
H1 : µ C
pp  value  0.0016386 α  1%, diff  8.0 0q.
Lập luận tương tự, ta cho rằng µC ¡ µA , µC µB . Tổng hợp lại, ta cho
rằng µB lớn nhất, µA nhỏ nhất.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 84 / 104
Ta khai thác thêm thông tin từ hàm anova:

Ta có bảng phân tích phương sai sau:


Nguồn Tổng Bậc tự do Phương sai Tỉ số
biến thiên bình phương (df) (MS) F
Giữa các nhóm SSG k  1 MSG  {p  1q
SSG k F  {
MSG MSW

656.13  2 328.07 43.357
Nội bộ các nhóm SSW n  k MSW  {p  k q
SSW n
90.80  12 7.57
SST n  1
Toàn bộ SSG SSW  14

746.93

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 85 / 104
Bài tập bổ sung Lấy dữ liệu từ tệp SoLieu.csv và hãy cho biết yếu tố
khu vực có ảnh hưởng đến thu nhập hay không (sử dụng mức ý nghĩa
α  5%)?
Lời giải Lấy dữ liệu từ tệp SoLieu.csv. Ta thấy có 4 khu vực là Thành
Phố, Nông Thôn, Miền Núi, Hải Đảo. Gọi µ1 , µ2 , µ3 , µ4 tương ứng là thu
nhập trung bình của nhóm dân cư ở các khu vực Thành Phố, Nông Thôn,
Miền Núi, Hải Đảo. Theo yêu cầu của đầu bài ta xét cặp giả thuyết:

H 0 : µ1  µ 2  µ3  µ4 .
pYếu tố khu vực KHÔNG ảnh hưởng đến thu nhập.q
H1 : Tồn tại 1 ¤ i, j ¤ 4 : µi  µj .
pYếu tố khu vực CÓ ảnh hưởng đến thu nhập.q

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 86 / 104
Phân tích: Ta nhận thấy cột ThuNhap chính là véc tơ mẫu gộp, còn
véc tơ KhuVuc chính là véc tơ phân nhóm. Do đó trong trường hợp này,
trên R ta chỉ cần thực hiện như sau:

anova(lm(ThuNhap ∼ factor(KhuVuc)))

Ta tìm được p-value=0.2883. Vì p  value ¡ α  5% nên chưa đủ bằng


chứng thống kê cho rằng có sự khác biệt về thu nhập giữa 4 khu vực, hay
chưa đủ bằng chứng cho rằng yếu tố khu vực ảnh hưởng đến thu nhập.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 87 / 104
CHƯƠNG 11: KIỂM ĐỊNH CHI BÌNH PHƯƠNG

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 88 / 104
1. Kiểm chứng tính độc lập của hai biến định tính

Bài toán kiểm định

H0 : Hai biến định tính ĐỘC LẬP (KHÔNG CÓ mối liên hệ) với nhau.
H1 : Hai biến định tính PHỤ THUỘC (CÓ mối liên hệ) với nhau.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 89 / 104
Hàm được dùng để tìm p-value: chisq.test(A), với A là ma trận dữ liệu.

Bài tập liên quan: XI.126, 127, 128

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 90 / 104
Bài XI.126 (Các phương tiện giải trí ở TPHCM ...)
Bài toán kiểm định:

H0 : Thu nhập và thái độ đối với phương tiện giải trí ĐỘC LẬP
(KHÔNG có mối liên hệ) với nhau.
H1 : Thu nhập và thái độ đối với phương tiện giải trí PHỤ THUỘC
(CÓ mối liên hệ) với nhau.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 91 / 104
Trong R ta nhập ma trận dữ liệu A:
> # Nhập các phần tử trong ma trận thành một véc tơ
> x=c(175, 118, 127, 124, 110, 82, 92, 126, 147)
> # Biến véc tơ thành ma trận
> A=matrix(x, nrow=3)
>A
> # Hàm được dùng để tìm p-value
> chisq.test(A)
Ta tìm được p-value= 2.115e-06. Ta thấy p-value < α nên bác bỏ H0 , đủ
bằng chứng thống kê cho rằng H1 đúng, tức là đủ bằng chứng thống kê
cho rằng thu nhập và thái độ đối với phương tiện giải trí phụ thuộc (có
mối liên hệ) với nhau.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 92 / 104
Bài tập bổ sung Lấy dữ liệu từ tệp SoLieu.csv. Kiểm định xem có mối
liên hệ giữa yếu tố Khu vực (KhuVuc) và yếu tố Thu nhập (ThuNhap)
hay không (α  5%)?
Lời giải Ta thực hiện bài toán kiểm định:

H0 : Yếu tố Khu vực và Thu nhập độc lập (không có mối liên hệ) với nhau.
H1 : Yếu tố Khu vực và Thu nhập phụ thuộc (có mối liên hệ) với nhau.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 93 / 104
Chú ý trong trường hợp này, ma trận dữ liệu A được tạo ra bằng cách
tính tần số chéo giữa hai cột Khu vực và Thu nhập.
> SoLieu=read.csv(’SoLieu.csv’, header=T)
> A=table(SoLieu$KhuVuc, SoLieu$ThuNhap)
>A
Hàm được dùng để tìm p-value: chisq.test(A). Ta tìm được p-value =
0.5834. Ta thấy p-value >α nên chấp nhận H0 , chưa đủ bằng chứng thống
kê cho rằng H1 đúng, tức là chưa đủ bằng chứng thống kê cho rằng có
mối liên hệ giữa yếu tố Khu vực và yếu tố Thu nhập.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 94 / 104
2. Kiểm chứng mức phù hợp của một phân phối

Bài toán kiểm định

H0 : Tổng thể đang xét TUÂN THEO quy luật xác suất nào đó.
H1 : Tổng thể đang xét KHÔNG TUÂN THEO quy luật xác suất ở trên.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 95 / 104
Căn cứ vào bài toán đang xét, ta lập bảng

Lớp/Biểu hiện 1 2 ... k


Số phần tử quan sát O1 O2 ... Ok
Xác suất kỳ vọng p1 p2 ... pk

Trong R ta tạo hai véc tơ


x  c pO 1 , O 2 , . . . , O k q
p0  c pp1 , p2 , . . . , pk q

Hàm được dùng để tìm p-value: chisq.test(x, p=p0) (8)

(8)
Chú ý trong câu lệnh phải có (phải gõ) p =.
(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 96 / 104
Bài tập liên quan: từ XI.120 đến XI.123

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 97 / 104
Bài XI.120 (Một mẫu ngẫu nhiên gồm 100 phụ nữ ...)
Bài toán kiểm định

H0 : 5 loại xà phòng ĐƯỢC ưa thích như nhau đối với ...


H1 : 5 loại xà phòng KHÔNG ĐƯỢC ưa thích như nhau đối với ...

Nếu 5 loại xà phòng được ưa thích như nhau đối với phụ nữ ở TPHCM thì
xác suất mỗi loại xà phòng được yêu thích bởi một người phụ nữ ở
TPHCM là 15  0.2.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 98 / 104
Do đó ta có bảng sau:

Lớp/Biểu hiện A B C D E
Số phần tử quan sát 18 16 23 20 23
Xác suất kỳ vọng 0.2 0.2 0.2 0.2 0.2
(Quy luật xác suất)

Trong R ta lập các véc tơ và dùng hàm kiểm định


x  c p18, 16, 23, 20, 23q
p0  c p0.2, 0.2, 0.2, 0.2, 0.2q
chisq.test(x, p=p0 )
p-value = 0.7541 > α; chấp nhận H0 , chưa đủ bằng chứng thống kê cho
rằng H1 đúng, tức là chưa đủ bằng chứng thống kê cho rằng 5 loại xà
phòng không được yêu thích như nhau đối với phụ nữ ở TPHCM.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 99 / 104
Bài XI.121 (Theo hồ sơ lưu trữ ...)
Bài toán kiểm định

H0 : Chất lượng sản phẩm tuần qua bình thường.


H1 : Chất lượng sản phẩm tuần qua không bình thường.

Nếu chất lượng sản phẩm tuần qua bình thường thì có 93% số sản phẩm
không bị sai sót, 5% có một sai sót, 2% có hơn một sai sót.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 100 / 104
Do đó ta có bảng sau:

Lớp/Biểu hiện Không có sai sót 1 sai sót >1 sai sót
Số phần tử quan sát 458 30 12
Xác suất kỳ vọng 93% 5% 2%
(Quy luật xác suất)

Trong R ta lập các véc tơ và dùng hàm kiểm định


x  c p458, 30, 12q
p0  c p0.93, 0.05, 0.02q
chisq.test(x, p=p0 )
p-value = 0.4711 > α; chấp nhận H0 , chưa đủ bằng chứng thống kê cho
rằng H1 đúng, tức là chưa đủ bằng chứng thống kê cho rằng chất lượng
sản phẩm tuần qua không như bình thường.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 101 / 104
Bài tập bổ sung Lấy dữ liệu từ tệp SoLieu.csv. Trong tệp có đề cập đến
4 khu vực là Thành Phố, Nông Thôn, Miền Núi, Hải Đảo. Hãy cho biết số
lượng dân cư ở 4 khu vực trên có như nhau hay không (α  5%).

Lời giải Bài toán kiểm định

H0 : Số lượng dân cư ở 4 khu vực ở trên là như nhau.


H1 : Số lượng dân cư ở 4 khu vực ở trên không như nhau.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 102 / 104
Ta có thể dùng lệnh tính tần số của cột Khu vực để biết được số lượng dân
cư trong mẫu điều tra: table(SoLieu$ KhuVuc). Ta được kết quả như sau:

Khu vực Thành Phố Nông Thôn Miền Núi Hải Đảo
Số lượng 42 20 26 12

Lưu ý rằng số lượng ở trên được tính trong mẫu điều tra (số liệu mẫu).
Đầu bài hỏi rằng số lượng dân cư ở 4 khu vực có như nhau không (tỉ lệ
0.25 cho mỗi khu vực), câu hỏi này là dành cho toàn bộ dân cư (tổng thể)
(9) , tức hỏi trong tổng thể toàn bộ dân cư, 4 khu vực đã nêu có số

lượng dân cư như nhau không.

(9)
Các bài toán ước lượng/kiểm định thường đặt ra cho tham số tổng thể, chứ không
đặt ra cho tham số mẫu.
(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 103 / 104
Ta có bảng sau:

Khu vực Thành Phố Nông Thôn Miền Núi Hải Đảo
Số lượng 42 20 26 12
Xác suất kỳ vọng 0.25 0.25 0.25 0.25

Trong R ta lập các véc tơ và dùng hàm kiểm định


x  c p42, 20, 26, 12q
p0  c p0.25, 0.25, 0.25, 0.25q
chisq.test(x, p=p0 )
p-value = 0.0002303 < α; bác bỏ H0 , đủ bằng chứng thống kê cho rằng
H1 đúng, tức là đủ bằng chứng thống kê cho rằng số lượng dân cư ở 4 khu
vực là khác nhau.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 25 tháng 12 năm 2023 104 / 104

You might also like