You are on page 1of 20

Xác suất thống kê Học kỳ I 2021

Lecture 2: Xác suất và quyết định


Lecturer: Huỳnh Ngọc Phước- hnphuoc@medvnu.edu.vn Scribes: Huỳnh Ngọc Phước

Note: LaTeX template courtesy of UC Berkeley EECS dept.


Disclaimer: Đây chỉ là một bài sơ lượt nội dung giảng dạy một khóa học cho sinh viên dược của Khoa Y -
ĐHQG HCM. Bài giảng này không nhằm mục đích xuất bản hay những việc khác với nội dung tương tự.

2.1 Giới thiệu về Xác suất

Xác suất là giá trị nằm trong đoạn [0;1]. Xác suất thể hiện cơ hội, khả năng một vấn đề quan tâm xảy ra.

i. Nếu không có cơ hội nào để vấn đề quan tâm đến xảy ra thì xác suất tương ứng bằng 0.

ii. Nếu như chắc chắn vấn đề quan tâm đến xảy ra thì xác suất tương ứng bằng 1.

2.2 Một số định nghĩa cơ bản

Phép thử (Experiment/trial): quá trình đo đạt, hay quan sát một sự việc xảy ra và ghi nhận lại kết quả.
Không gian mẫu (Sample Space): tập hợp tất cả các kết quả có thể xảy ra của một phép thử.
Kí hiệu: Ω.
Biến cố (Event): một hay nhiều kết quả có thể của phép thủ. Nói cách khác, biến cố là tập con của không
gian mẫu.
Kí hiệu: (A,B,C,D,…).
Biến cố cơ bản (Simple event): Biến cố chỉ có một kết quả của phép thử.

Ví dụ 2.2.1. Không gian mẫu và phép thử

Phép thử Không gian mẫu


Tung một đồng xu {Sắp, Ngửa}
Phương án trong một câu trắc nghiệm {a,b,c,d}
Kiểm tra một sản phẩm {Bị lỗi, Không bị lỗi}
Rút một lá bài trong bộ bài {Có 52 lá bài trong một bộ bài}

2-1
2-2 Lecture 2: Xác suất và quyết định

2.3 Xác suất

2.3.1 Định nghĩa xác suất cổ điển

Xác suất định nghĩa theo cổ điển được được định nghĩa

Số tất cả những khả năng có thể xảy ra của biến cố A


P(A) = .
Tất cả các khả năng có thể xảy ra của phép thử

P(A): xác suất xảy ra của biến cố A.

Chú ý 2.3.1. Số các kết quả của phép thử phải biết được, thì ta mới dùng được định nghĩa này.

Ví dụ 2.3.2. Ta văng một con xúc sắc. Không gian mẫu Ω = {1, 2, 3, 4, 5, 6}.
Nếu ta gọi A: ”Biến cố con xúc sắc xuất hiện mặt 6 chấm. Khi đó xác suất biến cố A xảy ra là
1
P(A) = .
6

Trong thực tế, xác suất hầu như rất khó để tính theo định nghĩa cổ điển, và có nhiều trường hợp chúng ta
không cách nào dùng công thức cổ điển để tính được. Cho nên người ta mới nghĩ đến một công thức thực
tế hơn, đó là xác suất theo lối kinh nghiệm. Để tính xác suất theo kinh nghiệm, người ta sẽ quan sát một
nhóm nào đó và ghi nhận tỷ số giữa tính chất cần được tính xác suất so với toàn bộ quan sát. Cụ thể ta có
định nghĩa như sau:

2.3.2 Định nghĩa xác suất theo kinh nghiệm (tần số)

Xác suất của biến cố A được tính theo kinh nghiệm bởi công thức:

Số quan sát biến cố A xảy ra


P(A) = .
Tất cả các quan sát

Chú ý 2.3.2. Việc áp dụng định nghĩa theo tần số đòi hỏi số quan sát phải lớn, trong trường hợp do
điều kiện hạn chế chúng ta không thể có được một lượng lớn quan sát thì kết quả tính được chỉ cho
ta một dự đoán về xác suất

Ví dụ 2.3.3. Xác suất phát triển ung thư vú trên 40 tuổi ở người 30 tuổi phụ nữ chưa bao giờ bị
ung thư vú là khoảng 1/11. Xác suất này có nghĩa là trên một lượng lớn phụ nữ 30 tuổi chưa từng
bị ung thư vú, khoảng 1 trong 11 người sẽ phát bệnh ở tuổi trên 40, với tỷ lệ này ngày càng trở nên
gần bằng 1 trên 11 khi số lượng phụ nữ được lấy mẫu tăng lên.

Ví dụ 2.3.4. Khảo sát 400 sinh viên đại học vừa tốt nghiệp về khoảng vay sinh viên của họ. Kết quả
được ghi nhận ở bảng sau:
Lecture 2: Xác suất và quyết định 2-3

Số tiền Tần số
$30.000 hoặc hơn 47
$20.000–$29.999 66
$10.000–$19.999 144
$5.000–$9.999 102
Ít hơn $5.000 41
Tổng 400

a. Tìm xác suất để chọn ra một sinh viên bất kì, thì sinh viên này có khoảng vay là $5.000–$9.999.
b. Tìm xác suất để chọn ra một sinh viên bất kì, thì sinh viên này có khoảng vay lớn hơn $20.000.

BÀI LÀM

102
a. P($5.000 − $9.999) = = 0, 255.
400
66 + 47
b. P (> 20.000) = = 0, 2825.
400

Chú ý 2.3.3. Với số quan sát đủ lớn, thì phương pháp dùng tần số để tính xác suất có kết quả gần
băng với phương pháp tính xác suất cổ điển.

2.4 Một số tính chất của xác suất

i. P (A) = 1 : A luôn xảy ra.

ii. P (A) = 0 : A không bao giờ xảy ra.

iii. 0 6 P(A) 6 1.

iv. P(Ω) = 1.

v. Phần bù của biến cố A là tất cả các kết quả trong không gian mẫu mà không nằm trong A. Kí hiệu:
A hoặc Ac .

A
2-4 Lecture 2: Xác suất và quyết định

2.5 Các phép toán trong xác suất

2.5.1 Giao hai biến cố (Biến cố tích)

Giao của hai biến cố A và B là một biến cố thể hiện A và B cùng xảy ra.
Kí hiệu: A ∩ B hoặc A.B.

A B

A∩B

Ví dụ 2.5.5. Xét bảng thể hiện việc rút ngẫu nhiên một lá bài từ bộ bài 52 lá như sau:
Màu
Tổng
Đỏ Đen P(ace và đỏ) =
2
= 0, 038
Ace 2 2 4 52
Không phải-Ace 24 24 48 P(ace và đỏ) = P(ace ∩ đỏ)
Tổng 26 26 52

2.5.2 Hợp hai biến cố (Biến cố tổng)

Hợp của hai biến cố A và B là một biến cố thể hiện hoặc A xảy ra hoặc B xảy ra.
Kí hiệu: A ∪ B hoặc A + B.

Ví dụ 2.5.6. Xét bảng thể hiện việc rút ngẫu nhiên một lá bài từ bộ bài 52 lá như sau:
Màu
Tổng
Đỏ Đen P(ace hoặc đỏ) =
28
= 0, 538
Ace 2 2 4 52
Không phải-Ace 24 24 48 P(ace hoặc đỏ) = P(ace ∪ đỏ)
Tổng 26 26 52
Lecture 2: Xác suất và quyết định 2-5

2.5.3 Qui tắc cộng

Định nghĩa 2.5.1 (Biến cố xung khắc)

Hai biến cố được gọi là rời nhau (mutually exclusive) (xung khắc) nếu chúng không thể cùng xảy
trong suốt phép thử.

Ví dụ 2.5.7. Xét phép chọn ngẫu nhiên 1 sinh viên trong lớp. Gọi A là biến cố “sinh viên được chọn
là nam ” và B là biến cố “sinh viên được chọn là nữ” thì A và B là hai biến cố xung khắc.

Hình 2.1: Hai biến cố rời nhau Hình 2.2: Hai biến cố không rời nhau

Định lý 2.5.2

Nếu hai biến cố A và B rời nhau (xung khắc) thì

P(A ∪ B) = P(A) + P(B).

Nếu hai biến cố A và B không rời nhau thì

P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

Chú ý 2.5.4. Nếu A và B rời nhau thì P(A ∩ B) = 0.

Ví dụ 2.5.8. Xét bảng thể hiện việc rút ngẫu nhiên một lá bài từ bộ bài 52 lá như sau:
Màu
Tổng
Đỏ Đen
Ace 2 2 4 Không tính hai lá Ace màu đỏ hai lần.
Không phải-Ace 24 24 48
Tổng 26 26 52
P(ace ∪ đỏ) = P(ace) + P(đỏ) − P(ace ∩ đỏ)
4 26 2
= + − .
52 52 52
2-6 Lecture 2: Xác suất và quyết định

Ví dụ 2.5.9. Người ta khảo sát được từ các hộ gia đình rằng xác suất người mẹ có huyết áp tâm
trương (DBP) từ 90 trở lên là 0, 1, người cha có huyết áp tâm trương từ 90 trở lên là 0, 2 và hoặc cả
hai có huyết áp tâm trương từ 90 trở lên là 0, 05. Nếu ta gọi A = { cha có DBP> 90}, B = {mẹ có
DBP> 90} Khi đó, xác xuất một gia đình bất kì có người cha hoặc mẹ có huyết áp tâm trương từ 90
trở lên là:
P(A ∪ B) = P(A) + P(B) − P(A ∩ B) = 0, 1 + 0, 2 − 0, 05 = 0, 25

Định lý 2.5.3

Cho ba biến cố A, B, và C bất kì, ta có

P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (AB) − P (AC) − P (CB) + P (ABC)

2.5.4 Xác suất có điều kiện

2.5.4.1 Xác suất có điều kiện

Xác suất có điều kiện Xác suất điều kiện là xác suất biến cố A xảy ra với điều kiện biến cố B đã xảy ra rồi.
Kí hiệu: P(A|B).

Ví dụ 2.5.10. Kết quả của một kì thi SAT với hai nhóm đối tượng khác nhau được ghi nhận:
Bảng 2.1: Điểm thi SAT.
Điểm số Ôn Không ôn Tổng A: ”Biến cố điểm 601-800”.
B: ”Đã hoàn thành khóa ôn thi”.
201 − 400 8 53 61 22
P(A|B) = = 0, 314
401 − 600 40 107 147 70
42
601 − 800 22 20 42 P(A) = = 0, 168.
250
Tổng 70 180 250

Định lý 2.5.4 (Công thức xác suất có điều kiện)

Cho hai biến cố A và B, khi đó xác suất của biến cố A với điều kiện B được xác định bởi công thức:

P(A ∩ B) P(A ∩ B)
P(A|B) = hoặc P(B|A) = .
P(B) P(A)

22 70
Ví dụ 2.5.11. Từ Ví dụ 2.5.10 ở trên, ta có P(A ∩ B) = = 0, 088, P(B) = = 0, 28
250 250
P(A ∩ B) 0, 088
P(A|B) = = = 0, 314.
P(B) 0, 28
Lecture 2: Xác suất và quyết định 2-7

Ví dụ 2.5.12. Kết quả xét nghiệm NT-proBNP những người trên 45 tuổi và những người có chẩn
đoán suy tim trước đây ghi nhận (xem Hobbs et al. (2002)

Kết quả chẩn đoán


Biểu hiện Không biểu hiện
Tổng
NT-proBNP (pmol/l) (D+) (D−)
>36 Dương tính (T+) 35 7 42
636 Âm tính (T−) 68 300 368
Tổng 103 307 410

Dựa vào định nghĩa xác xuất có điều kiện, ta dễ dàng tính được khả năng một người kết quả xét
nghiệm dương tính khi biết người này có biểu hiện suy tim là
35
P(T + |D+) = = 0, 34,
307
bên cạnh đó, ta có thể áp dụng công thức công thức xác xuất có điều kiện, và cũng tính được

P(T + ∩D+) 35/410


P(T + |D+) = = = 0, 34,
P(D+) 307/410

2.5.4.2 Độc lập và phụ thuộc của biến cố

Hai biến cố được gọi là độc lập, nếu việc xảy ra hay không của biến cố này cũng không ảnh hưởng đến biến
cố kia.
Hai biến cố không độc lập gọi là phụ thuộc.

Định lý 2.5.5

Nếu hai biến cố A và B độc lập, thì


P(A|B) = P(A).
Nếu P(A|B) 6= P(A), thì hai biến cố A và B không độc lập (phụ thuộc).

Ví dụ 2.5.13. Cho bảng sau:


A:”Điểm > 8”
Thích Không thích Tổng B:”Thích môn học.”
>8 72 38 110 72
<8 42 48 90 P(A|B) =
114
= 0, 632.
Tổng 114 86 200 P(A) =
110
= 0, 55.
200
Ta thấy P(A|B) 6= P(A), do đó hay biết cố A và B là không độc lập.
2-8 Lecture 2: Xác suất và quyết định

Ví dụ 2.5.14. Giả sử hai bác sĩ, A và B, kiểm tra tất cả bệnh nhân đến một phòng khám bệnh giang
mai. Cho biến cố A+ = {bác sĩ A chẩn đoán dương tính} và B+ = {bác sĩ B chẩn đoán dương tính}.
Giả sử bác sĩ A chẩn đoán 10% bệnh nhân là dương tính, bác sĩ B chẩn đoán 17% bệnh nhân là dương
tính, và cả hai bác sĩ chẩn đoán 8% bệnh nhân là dương tính. Các biến cố A+, B+ có độc lập không?

BÀI LÀM
Chúng ta dễ thấy rằng

P(A+) = 0, 1; P(B+) = 0, 17 và P(A + ∪B+) = 0, 08,

như vậy P(A + ∪B+) > P(A+). P(B+). Do đó, các biến cố A+, B+ không độc lập.

Từ công thức xác suất có điều kiện, ta dễ dàng có được công thức xác suất của tích hai biến cố

2.5.4.3 Tỷ số nguy cơ (RR)

Tỷ số nguy cơ của biến cố B từ biến cố A được tính bởi công thức

P(B|A)
RR = .
P(B|A)

Chú ý 2.5.5. Nếu như 2 biến cố A, B độc lập thì RR =1, khi hai biến cố A và B phụ thuộc càng lớn
thì RR sẽ càng khác xa 1.
i. Nếu RR > 1 thì gia tăng nguy cơ B đối với A.

ii. Nếu RR < 1 thì giảm nguy cơ B đối với A.

Ví dụ 2.5.15. Giả sử rằng trong số 100.000 phụ nữ không có dấu hiệu có u ở vú qua thì 20 người bị
chẩn đoán mắc bệnh ung thư vú trong vòng 2 năm, ngược lại cứ 10 phụ nữ có u ở vú thì có 1 phụ nữ
bị chẩn đoán mắc bệnh ung thư vú trong vòng 2 năm. Nếu ta gọi A là biến cố có u ở vú, B là biến
cố bị chẩn đoán ung thư vú trong 2 năm tới. Khi đó,

P(B|A) = 0, 1; và P(B|A) = 2.10−4 .

Tỷ số nguy cơ
P(B|A)
RR = = 500.
P(B|A)
Ta nhận thấy RR rất lớn so với 1, điều này cho phép chúng ta kết luận rằng những người nữ có u ở
vú có nguy cơ bị ung thư vú rất cao.
Lecture 2: Xác suất và quyết định 2-9

2.5.4.4 Tỷ số chênh (OR)

Tỷ số chênh của biến cố B đối với biến cố A được xác định bởi công thức

P(B|A)/ [1 − P(B|A)]
OR =  .
P(B|A)/ 1 − P(B|A)

Ví dụ 2.5.16. Một nghiên cứu về các yếu tố nguy cơ gây ung thư vú là kiểm tra tác động của việc
uống thuốc tránh thai. Trong một nghiên cứu bệnh chứng, các nhà điều tra bắt đầu bằng cách xác
định các nhóm cá nhân bị bệnh và không bị bệnh (nhóm đối chứng). Trong số 989 phụ nữ trong
nghiên cứu bị ung thư vú, 273 người trước đây đã uống thuốc tránh thai và 716 người chưa uống.
Trong số 9901 phụ nữ không bị ung thư vú, 2641 người đã đã thuốc tránh thai và 7260 người không
bị bệnh. Hãy tính tỷ số chênh tỷ lệ có uống thuốc tránh thai giữ nhóm bị ung thư vú và không bị, từ
đó đưa ra nhận xét về tỷ số này.

BÀI LÀM
Gọi B={uống thuốc tránh thai}, A={bị ung thư vú}. Khi đó, ta có tỷ sổ chênh tỷ lệ bị ung thư vú
giữ nhóm uống thuốc tránh thai và không uống là

P(B|A)/ [1 − P(B|A)] (273/989)/ [1 − 273/989]


OR =  = = 1, 05.
P(B|A)/ 1 − P(B|A) (2641/9901)/ [1 − 2641/9901]

Ta có OR=1,05, điều này cho thấy là tỷ lệ ung thư vú của nhóm sử dụng thuốc tránh thai bằng 1,05
tỷ lệ ung thư vú của nhóm không sử dụng thuốc. Ở đây 1,05 gần như bằng 1, tức là gần như không
có sự hiện diện ảnh hưởng của việc uống thuốc tránh thai đối với bệnh ung thư vú.

Chú ý 2.5.6. Khi P(B|A) ' 0 và P(B|A) ' 0 thì OR'RR.

Định lý 2.5.6 (Công thức nhân)

Cho hai biến cố A và B, khi đó xác xuất của tích hai biến cố A và B được xác định bởi công thức sau:

P(A.B) = P(A). P(B|A)

hoặc
P(A.B) = P(B). P(A|B).

Ví dụ 2.5.17. Giả sử A: ”Dự báo trời mưa”; B: ”mang theo dù”; P(A)=0,3; P(A|B)=0,9. Khi đó,

P(A.B) = P(A). P(B|A) = 0, 3.0, 9 = 0, 27.


2-10 Lecture 2: Xác suất và quyết định

Hình 2.3: Mối quan hệ giữ nhóm nghiên cứu với nhóm đối chứng theo OR

Định lý 2.5.7

Nếu hai biến cố A và B độc lập thì

P(A.B) = P(A). P(B).

Và hơn nữa, nếu họ các biến cố {A1 , A2 , ..., An } độc lập thì

P(A1 .A2 .....An ) = P(A1 ). P(A2 ).... P(An ).

Ví dụ 2.5.18. Trong một lớp học gồm 60 nữ và 40 nam, người ta quan sát thấy 24 nữ và 16 nam
sinh đeo kính. Tính:
a. Xác suất một sinh viên được chọn ngẫu nhiên đeo kính, khi sinh viên đó là nam?

b. Xác suất sinh viên được chọn ngẫu nhiên đeo kính và là nam?

BÀI LÀM

a. Ta gọi A ={sinh viên được chọn đeo kính}; B = {sinh viên được chọn là sinh viên nam}. Khi
đó, xác suất một sinh viên được chọn ngẫu nhiên đeo kính, khi sinh viên đó là nam là:
P(A.B) 16/100
P(A|B) = = = 0, 4.
P(B) 40/100

b. Ta dễ dàng nhận thấy P(A|B) = P(A) = 0, 4, cho nên A và B là hai biến cố độc lập. Xác suất
Lecture 2: Xác suất và quyết định 2-11

sinh viên được chọn ngẫu nhiên đeo kính và là nam là:

P(A.B) = P(A). P(B|A) = P(A). P(B) = 0, 4.0, 4 = 0, 16.

Định lý 2.5.8

Với hai biến cố A và B bất kì, ta có

P(B) = P(B|A). P(A) + P(B|A). P(A).

Ví dụ 2.5.19. Cho A và B là hai biến cố ở Ví dụ 2.5.15, giả sử rằng 7% phụ nữ bị u ở vú. Tính xác
suất một người nữ bị ung thư vú trong vòng 2 năm tới?

BÀI LÀM
Xác suất một người nữ bị ung thư vú trong vòng 2 năm tới là:

P(B) = P(B|A). P(A) + P(B|A). P(A) = 0, 1.0, 07 + 0, 0002.0, 93 = 7, 19.10−3 .

2.5.5 Công thức đầy đủ

Công thức đầy đủ Hai biến cố A1 và A2 thỏa A1 ∩ A2 = ∅ và A1 ∪ A2 = Ω.


Khi đó ta có,
P(B) = P(A1 ). P(B|A1 ) + P(A2 ). P(B|A2 ).
Tổng quát: Cho họ đầy đủ các biến cố A1 , A2 , ..., An (từng đôi xung khắc và A1 ∪ A2 ∪ .... ∪ An = Ω). Ta

có:
P(B) = P(A1 ). P(B|A1 ) + P(A2 ). P(B|A2 ) + ... + P(An ) P(B|An ).

Ví dụ 2.5.20. Một nhóm nghiên cứu đang lên kế hoạch nghiên cứu 5 năm về bệnh đục thủy tinh thể
ở một nhóm 5000 người từ 60 tuổi trở lên.Từ dữ liệu điều tra dân số ghi nhận 45% trong số này dân
số 60–64 tuổi, 28% 65–69 tuổi, 20% 70–74 tuổi độ tuổi và 7% từ 75 tuổi trở lên. Framingham Eye
Study cho biết 2,4%, 4,6%, 8,8% và 15,3% những người ở các nhóm tuổi tương ứng này sẽ phát triển
đục thủy tinh thể trong 5 năm tới. Bao nhiêu phần trăm trong độ tuổi từ 60 trở lên sẽ phát triển
bệnh đục thủy tinh thể trong 5 năm tới và trong nhóm đang được nghiên cứu có khả năng có bao
nhiêu người bị đục thủy tinh thể?
2-12 Lecture 2: Xác suất và quyết định

BÀI LÀM
Gọi A1 ={60–64 tuổi}, A2 ={65–69 tuổi}, A3 ={70–74 tuổi}, A4 ={từ 75 tuổi trở lên}, B = {bị đục
tinh thể trong năm năm tới}. Khi đó ta có P(A1 ) = 0, 45; P(A2 ) = 0, 28; P(A3 ) = 0, 2; P(A4 ) = 0, 7
và P(B|A1 ) = 0, 024; P(A2 ) = 0, 046; P(A3 ) = 0, 088; P(A4 ) = 0, 153. Xác một người trong độ tuổi từ
60 trở lên bị đục tinh thể trong năm năm tới:

P(B) = P(A1 ). P(B|A1 ) + P(A2 ). P(B|A2 ) + P(A3 ) P(B|A3 ) + P(A4 ) P(B|A4 )


= 0, 45.0, 024 + 0, 28.0, 046 + 0, 2.0, 088 + 0, 7.0, 153 = 0, 052.

2.6 Công thức Bayes và xét nghiệm sàng lọc

2.6.1 Giá trị dự đoán dương (PV+)

Giá trị dự đoán dương (PV+) của xét nghiệm sàng lọc là xác suất một người bị bệnh khi xét nghiệm cho
kết quả dương tính.
PV+ = P(bị bệnh|dương tính).

2.6.2 Giá trị dự đoán dương (PV−)

Giá trị dự đoán âm (PV−) của xét nghiệm sàng lọc là xác suất để một người không bị bệnh khi xét nghiệm
cho kết quả âm tính.
PV− = P(không bị bệnh|âm tính).

Ví dụ 2.6.21. Ở Ví dụ 2.5.15, ta có

P V + = P(bị ung thư vú|xét nghiệm dương tính u vú) = 0, 1.


P V − = P(xét nghiệm âm tính ung thư vú|xét nghiệm âm tính u vú)
= 1 − P(bị ung thư vú|xét nghiệm âm tính u vú) = 1 − 0, 0002 = 0.9998.

Ta thấy P V − gần như bằng 1, điều này cho thấy khi xét nghiệm âm tính với u vú thì trong hai năm
tới hầu như không bị ung thư vú. Và P V + = 0, 1 ta có thể nhận định trong 2 năm tới, người xét
nghiệm dương tính với u vú có 10% khả năng bị ung thư vú.

2.6.3 Độ nhạy

Độ nhạy của một triệu chứng (hoặc tập hợp các triệu chứng hoặc xét nghiệm sàng lọc) là xác suất mà triệu
chứng đó xuất hiện cho thấy người đó mắc bệnh.
Lecture 2: Xác suất và quyết định 2-13

2.6.4 Độ đặc hiệu

Độ đặc hiệu của một triệu chứng (hoặc tập hợp các triệu chứng hoặc xét nghiệm sàng lọc) là xác suất mà
triệu chứng đó không xuất hiện vì người đó không mắc bệnh

2.6.5 Âm tính giả và dương tính giả

Âm tính giả được định nghĩa là kết quả xét nghiệm âm tính khi có bệnh hoặc tình trạng đang được kiểm
tra là thực sự có. Dương tính giả được định nghĩa là kết quả xét nghiệm dương tính khi không có bệnh hoặc
tình trạng được kiểm tra thực sự không có.

Ví dụ 2.6.22. Giả sử bệnh là ung thư phổi và dấu hiệu là hút thuốc lá. Nếu chúng ta giả định rằng
90% những người bị ung thư phổi và 30% những người không có phổi ung thư (xem như toàn bộ dân
số) là những người hút thuốc. Khi đó, độ nhạy và độ đặc hiệu của hút thuốc làm xét nghiệm sàng lọc
lần lượt là 0,9 và 0,7. Rõ ràng, việc hút thuốc lá không thể được sử dụng như một tiêu chí sàng lọc
để dự đoán ung thư phổi vì sẽ có quá nhiều dương tính giả.

Định lý 2.6.1 (Công thức Bayes)

Cho hai biến cố A1 , A2 thỏa điều kiện của công thức đầy đủ, khi đó ta có

P(A1 ). P(B|A1 )
P(A1 |B) = .
P(A1 ). P(B|A1 ) + P(A2 ). P(B|A2 )

Tổng quát hơn, nếu họ các biến cố A1 , A2 , ..., An thỏa điều kiện của công thức đầy đủ thì

P(Ai ). P(B|Ai )
P(Ai |B) = ,
P(A1 ). P(B|A1 ) + P(A2 ). P(B|A2 ) + ... + P(An ) P(B|An )

với i ∈ {1, 2, 3, ..., n}.

Giả sử ta đặt A = {triệu chứng}, B = {bị bệnh}, khi đó ta có

• Giá trị dự đoán dương: P V + = P(B|A).

• Giá trị dự đoán âm: P V − = P(B|A).

• Độ nhạy = P(A|B).

• Độ đặc hiệu = P(A|B).


2-14 Lecture 2: Xác suất và quyết định

Định lý 2.6.2

Giả sử ta đặt A = {triệu chứng}, B = {bị bệnh}, P(B) là xác suất bị bệnh trong quần thể tham
chiếu. Khi đó,
P(B). P(A|B)
P V + = P(B|A) = .
P(B). P(A|B) + P(B). P(A|B)

P(B). P(A|B)
P V − = P(B|A) = .
P(B). P(A|B) + P(B). P(A|B)

Định lý 2.6.3

Từ Định lý 2.6.2, nếu ta đặt x = P(B), ta có thể viết lại như sau:

(độ nhạy).x
P V + = P(B|A) = .
(độ nhạy).x + (1 − độ đặc hiệu).(1 − x)


(độ đặc hiệu).(1 − x)
P V − = P(B|A) = .
(độ đặc hiệu).(1 − x) + (1 − độ nhạy).x

Ví dụ 2.6.23. Giả sử 84% người cao huyết áp và 23% người bình thường được phân loại là cao huyết
áp bởi máy đo huyết áp tự động. Tính PV + và PV− của máy, giả sử 20% người trưởng thành bị
tăng huyết áp?

BÀI LÀM
Ta có độ nhạy = 0,84 và độ đặc hiệu = 1- 0,23 = 0,77. Do đó,
0, 84.0, 2
PV + = = 0, 48.
0, 84.0, 2 + (1 − 0, 77).(1 − 0, 2)


0, 77.(1 − 0, 2)
PV − = = 0, 95.
0, 77.(1 − 0, 2) + (1 − 0, 84).0, 2
Ta nhận thấy rằng, kết quả không bị cao huyết áp từ máy này có thể chấp nhận được vì có 95% kết
quả từ máy không bị thực sự không bị cao huyết áp. Tuy nhiên, với kết quả dương tính từ máy thật
sự có vấn đề vì chỉ có 48% kết quả của máy là đúng.

Ví dụ 2.6.24. Một nhóm nghiên cứu muốn đánh giá một xét nghiệm sàng lọc được đề xuất cho bệnh
Alzheimer. Thử nghiệm được thực hiện trên một mẫu ngẫu nhiên gồm 450 bệnh nhân mắc bệnh
Alzheimer và một mẫu ngẫu nhiên độc lập gồm 500 bệnh nhân không có triệu chứng của bệnh. Hai
mẫu được lấy từ nhóm đối tượng 65 tuổi hoặc lớn hơn. Kết quả như sau:
Lecture 2: Xác suất và quyết định 2-15

Kết quả chẩn đoán Alzheimer


Kết quả xét nghiệm Biểu hiện Không biểu hiện
Tổng
(D+) (D−)
Dương tính (T+) 436 5 441
Âm tính (T−) 14 495 509
Tổng 450 500 950

Ta có P V + và P V − của xét nghiệm được xác định như sau:


0, 9689.0, 113
PV + = = 0, 93.
0, 9689.0, 113 + 0, 1.(1 − 0, 113)


0, 99.(1 − 0, 113)
PV − = = 0, 996.
0, 99.(1 − 0, 113) + 0, 0311.0, 113
Ta thấy cả P V + và P V − điều rất cao, điều này cho thấy sự tin cậy của xét nghiệm.

2.7 Hướng dẫn tìm hiểu thêm

Xác suất được học rất sớm từ bậc học Trung học Phổ thông ở Việt nam, nhưng đa phần là thuần túy mang
tính lý thuyết, rất khó để tìm được một tài liệu mang tính ứng dụng thực thụ. Riêng đối với ngành y dược,
chúng ta có thể thấy một số tài liệu của Đại học Y Dược Thành phố Hồ Chí Minh, Đại học Y Hà Nội. Tuy
nhiên trong phần này, chúng tôi sử dụng Rosner (2011) làm tài liệu chỉ dẫn chính để định hình và trích dẫn
rất nhiều nội dung, đây là một tài liệu rất hay, viết rất tinh tế và đặc sắc về ứng dụng xác suất trong y
dược. Bên cạnh đó, Daniel and Cross (2013), Pagano and Gauvreau (2018) và Campbell et al. (2010) cũng
là những tài liệu rất tốt để các bạn tìm hiểu thêm. Ở phần bài tâp của chương này, ngoài những tài liệu kể
trên, chúng tôi có sử dụng bài tập của Đại học Tây Đô (2015) để làm phong phú thêm bài tập cho người
đọc có thể luyện tập.

Bài tập
Bài tập 1. Tỷ lệ người bị bệnh tim trong một vùng dân cư là 19%, bị bệnh huyết áp là 12%, bị cả
hai bệnh này là 5%.
(a) Chọn ngẫu nhiên 1 người trong vùng. Tính xác suất để người đó bị bệnh tim hay bị bệnh huyết
áp; không bị bệnh tim cũng không bị bệnh huyết áp; không bị bệnh tim hay không bị bệnh
huyết áp; bị bệnh tim nhưng không bị bệnh huyết áp; không bị bệnh tim nhưng bị bệnh huyết
áp?
(b) Khám ngẫu nhiên 1 người và thấy có dấu hiệu bị bệnh huyết áp. Tính xác suất người này bị
bệnh tim?
(c) Khám ngẫu nhiên 1 người và thấy không có dấu hiệu bị bệnh huyết áp. Tính xác suất người
này không bị bệnh tim?
(d) Khám ngẫu nhiên 15 người trong vùng. Tính xác suất trong 10 người được khám không có
2-16 Lecture 2: Xác suất và quyết định

người, đúng 1 người, ít nhất 1 người bị bệnh tim?

(e) Khám ngẫu nhiên 20 người trong vùng. Tính xác suất trong 20 người được khám không có
người, đúng 1 người, ít nhất 1 người khỏe mạnh (không bị bệnh tim cũng không bị bệnh huyết
áp)?
(f) Cần khám tối thiểu bao nhiêu người trong vùng sao cho xác suất có ít nhất một người bị bệnh
tim lớn hơn 90%?
Bài tập 2. Trong dân số, tỷ lệ bệnh A là 25%, tỷ lệ bệnh B là 35% và trong số những người bệnh A
thì tỷ lệ bệnh B là 75%.
(a) Khám ngẫu nhiên một người và thấy người này bị bệnh B. Tính xác suất người này bị bệnh A?
(b) Khám ngẫu nhiên một người khác và thấy người này không bị bệnh B. Tính xác suất người này
không bị bệnh A?

(c) Khám ngẫu nhiên 15 người, tính xác suất không có người, đúng 1 người, ít nhất 1 người bị bệnh
B?
(d) Khám ngẫu nhiên 20 người, tính xác suất không có người, đúng 1 người, ít nhất 1 người bị bệnh
A?
(e) Khám ngẫu nhiên 25 người, tính xác suất không có người, đúng 1 người, ít nhất 1 người bị bệnh
A và bị bệnh B?
(f) Khám ngẫu nhiên 30 người, tính xác suất có không có người, đúng 1 người, ít nhất 1 người khỏe
mạnh (không bị bệnh A cũng không bị bệnh B)?
Bài tập 3. Có ba hộp đựng thuốc. Hộp B1 có 15 lọ thuốc trong đó có 5 lọ hỏng và 10 lọ tốt; hộp B2
có 20 lọ trong đó có 8 lọ hỏng và 12 lọ tốt; hộp B3 có 25 lọ thuốc trong đó có 10 lọ hỏng và 15 lọ tốt.
(a) Lấy ngẫu nhiên mỗi hộp 1 lọ. Tính xác suất trong 3 lọ được lấy có 2 lọ hỏng; ít nhất 1 lọ hỏng;
2 lọ tốt?

(b) Lấy ngẫu nhiên 1 hộp, rồi từ hộp đó lấy ngẫu nhiên 1 lọ. Tính xác suất lấy được lọ thuốc tốt?
lọ thuốc hỏng? Nếu lấy được lọ tốt, phán đoán lọ tốt được lấy thuộc hộp nào?
(c) Dồn chung ba hộp lại, sau đó lấy ngẫu nhiên 3 lọ. Tính xác suất trong 3 lọ được lấy có 2 lọ tốt;
ít nhất 1 lọ tốt; không có lọ hỏng?
Bài tập 4. Một dân số có 45% đàn ông và 55% phụ nữ. Tỷ lệ loạn sắc của đàn ông là 4% và của phụ
nữ là 0,5%. Chọn ngẫu nhiên một người trong số đó.

(a) Tính xác suất người này bị loạn sắc?


(b) Nếu người này bị loạn sắc, tính khả năng người này là phụ nữ?
(c) Nếu người này không bị loạn sắc thì khả năng người này là đàn ông bao nhiêu?
Bài tập 5. Bệnh A có thể đưa đến hậu quả: Chết 10%, liệt nửa người 40%, liệt hai chân 30%, khỏi
hoàn toàn 20%.
(a) Tính xác suất người bệnh không chết, người bệnh bị tật (liệt nửa người hoặc liệt hai chân)?

(b) Nếu người bệnh không chết, tính xác suất để người đó bị tật?
Lecture 2: Xác suất và quyết định 2-17

Bài tập 6. Ở một vùng cứ 100 người thì có 30 người hút thuốc lá. Biết tỉ lệ người bị viêm họng trong
số người hút thuốc là 60%, còn trong số người không hút là 10%.
(a) Khám ngẫu nhiên một người. Tìm xác suất để người đó bị viêm họng.
(b) Giả sử người được khám bị viêm họng. Tìm xác suất anh ta hút thuốc.

(c) Nếu người đó không bị viêm họng thì xác suất để anh ta hút thuốc bằng bao nhiêu?
Bài tập 7. Tỷ lệ bệnh B của trẻ em trai trong dân số là 20% và của trẻ em gái là 25%. Khám ngẫu
nhiên 7 trẻ em trai và 8 trẻ em gái. Tính xác suất trong 15 trẻ được khám có 1 trẻ, 2 trẻ, không có
trẻ, ít nhất 1 trẻ bị bệnh B?
Bài tập 8. Một hồi cứu về bệnh ung thư vú sau phẩu thuật cho biết: Tỷ lệ sống không quá 5 năm
là 35%, tỷ lệ có hạch di căn là 30%. Trong hồi cứu này số ca vừa sống qua 5 năm và có di hạch di
căn bằng phân nữa số ca không có hạch di căn và không sống quá 5 năm.
(a) Một người bị ung thư vú và có hạch di căn. Tính khả năng người này sống quá 5 năm sau phẫu
thuật?
(b) Một người bị ung thư vú và không có hạch di căn. Tính khả năng người này sống quá 5 năm
sau phẫu thuật?
Bài tập 9. Tỷ lệ suy tim trong dân số là 3%, tỷ lệ bướu cổ là 12%, trong những người bướu cổ thì
tỷ lệ suy tim là 10%.

(a) Khám tối thiểu bao nhiêu người để xác suất gặp được người vừa bị bướu cổ vừa bị suy tim lớn
hơn 95%?
(b) Khám tối thiểu bao nhiêu người để xác suất gặp được người bị bướu cổ lớn hơn 90
(c) Một người đến khám, thấy có dấu hiệu suy tim. Tính xác suất người này bị bướu cổ?

(d) Một người đến khám, thấy không có dấu hiệu suy tim. Tính khả năng người này không bị bướu
cổ?
Bài tập 10. Một bệnh nhân uống nhầm một trong ba loại thuốc A, B, hoặc C bề ngoài rất giống
nhau để trong tủ thuốc, biết rằng có 3 lọ loại A, 5 lọ loại B và 2 lọ loại C. Uống nhầm loại thuốc nào
cũng gây hạ huyết áp, biết rằng có 75% nếu dùng thuốc loại A, 65% nếu dùng thuốc loại B và 20%
nếu dùng thuốc loại C.
(a) Tính xác suất bệnh nhân trên bị hạ huyết áp?

(b) Giả sử bệnh nhân trên bị hạ huyết áp. Ba loại thuốc trên có cách xử lý khác nhau và không
tương thích. Nếu không xử lý kịp thời sẽ để lại di chứng biết rằng khả năng để lại di chứng là
12% nếu uống nhầm thuốc loại A, 15% nếu uống nhầm thuốc loại B và 20% nếu uống nhầm
thuốc loại C. Để hạn chế di chứng phải xử lý theo hướng nào? (nhầm A, nhầm B hay nhầm C)
Bài tập 11. Theo tài liệu nghiên cứu: trong 100 người bị đau nhói dưới ngực thì có 10 người bị bệnh
mạch vành, 20 người bị bệnh đường hô hấp, 30 người bị bệnh đường tiêu hóa và số còn lại khỏe mạnh
bình thường. Gọi A là biến cố triệu chứng đau dưới ngực khi gắng sức và hết đau khi nghỉ ngơi. Biết
rằng nếu người bị bệnh mạch vành thì chắc chắn có triệu chứng A, nếu bị bệnh đường hô hấp thì 25%
có triệu chứng A, nếu bị bệnh đường tiêu hóa thì có 35% có triệu chứng A. Một người có triệu chứng
A đến khám bệnh, bác sĩ chỉ nghĩ đến 3 bệnh trên. Khả năng người này bị bệnh nào là cao nhất?
2-18 Lecture 2: Xác suất và quyết định

Bài tập 12. Tỷ lệ bệnh B trong một vùng là 20%. Để chẩn đoán bệnh B, bác sĩ dùng xét nghiệm
T1. Biết xét nghiệm T1 có độ nhạy là 90% và độ chuyên là 80%.
(a) Khám ngẫu nhiên 20 người trong vùng. Tính xác suất có đúng 3 người, ít nhất 1 người, nhiều
nhất 2 người bị bệnh B?
(b) Một người đến khám bệnh, bác sĩ cho làm xét nghiệm T1, kết quả T1 dương tính. Tính xác
suất người này bị bệnh B?
(c) Bác sĩ cho người này tiếp tục làm xét nghiệm T2, biết độ nhạy và độ chuyên của xét nghiệm T2
bằng nhau và bằng 85%. Nếu kết quả xét nghiệm T2 của người này là dương tính, tính xác suất
người bị bệnh B? Nếu kết quả xét nghiệm T2 của người này là âm tính, tính xác suất người bị
bệnh B?
Bài tập 13. Một người “nghi ngờ” mình bị bệnh B nên xin làm xét nghiệm để kiểm tra. Có hai xét
nghiệm T1 và T2 có chi phí và cách thực hiện như nhau. Biết độ nhạy và độ chuyên của T1 là 85%
và 90%; còn T2 là 92% và 82%.

(a) Nên chọn xét nghiệm nào để kiểm tra người này? Tại sao?
(b) Biết tỷ lệ bệnh này trong dân số là 20/00 và xét nghiệm vừa chọn của người này có kết quả
dương tính. Tính khả năng người này bị bệnh B?
(c) Một người đến khám bệnh, bác sĩ cho làm xét nghiệm T, kết quả T âm tính. Tính xác suất
người này không bị bệnh B?
Bài tập 14. Hai xét nghiệm T1 và T2 được dùng để chẩn đoán bệnh B. Bệnh này không lây lan và
diễn tiến bệnh là tử vong nếu không được chẩn đoán và điều trị; việc điều trị bệnh này cũng không
tốn kém. Biết xét nghiệm T1 cho âm giả 2%, dương giả 25% và xét nghiệm T2 cho âm giả 25%, dương
giả 2%.
(a) Tính độ nhạy và độ đặc hiệu của xét nghiệm T1 và T2?
(b) Nếu chỉ dùng 1 trong hai xét nghiệm để chẩn đoán bệnh nhân nghi ngờ bị bệnh B, nên dùng
xét nghiệm nào? Tại sao?
Bài tập 15. Chị A đến khám bệnh vì thấy đau ở vú. Bác sĩ nghi ngờ chị A bị K vú với xác suất là
0,001. Chị A được cho làm xét nghiệm T1 và có kết quả là dương tính biết xét nghiệm T1 có độ nhạy
là 99% và độ đặc hiệu là 88%. Sau khi có kết quả T1, chị A được cho làm tiếp xét nghiệm T2 và kết
quả xét nghiệm T2 cũng dương tính, biết xét nghiệm T2 có độ nhạy 88% và độ đặc hiệu là 99%.
(a) Tính xác suất chị A bị K vú?

(b) Với 2 xét nghiệm T1, T2 nên cho chị A làm xét nghiệm nào trước và xét nghiệm nào sau? Giải
thích?
Bài tập 16. Giả sử một dịch cúm tấn công một thành phố. Trong 10% gia đình có mẹ bị cúm; trong
10% gia đình cha bị cúm; và trong 2% gia đình có cả mẹ và cha bị cúm.
(a) Các biến cố A1 = mẹ bị cúm và A2 = cha bị cúm độc lập?
(b) Giả sử có 20% khả năng mỗi đứa trẻ sẽ bị cúm, trong khi 10% gia đình có hai con thì cả hai
đứa trẻ bị bệnh. Tính xác suất để ít nhất một đứa trẻ bị cúm?

(c) Tính xác suất có điều kiện để cha bị bệnh cúm khi biết mẹ bị bệnh cúm?
(d) Tính xác suất có điều kiện để cha bị cúm khi biết mẹ không bị cúm?
Lecture 2: Xác suất và quyết định 2-19

Bài tập 17. Hoa Kỳ năm 1993, xác suất để một người trưởng thành trong độ tuổi từ 45 đến 64 không
có bảo hiểm y tế dưới bất kỳ hình thức nào là 0,123.
(a) Giả sử rằng chọn ngẫu nhiên một nữ 47 tuổi và một người nam 59 tuổi không liên quan. Xác
suất cả hai người đều không có bảo hiểm là bao nhiêu?
(b) Xác suất cả hai người trong độ tuổi từ 45 đến 64 đều có bảo hiểm y tế là bao nhiêu?

(c) Nếu năm người không liên quan trong độ tuổi từ 45 đến 64 được chọn từ ngẫu nhiên, xác suất
để cả năm người đều không có bảo hiểm là bao nhiêu?
Bài tập 18. Một nghiên cứu đã báo cáo rằng độ nhạy của chụp quang tuyến vú như một xét nghiệm
sàng lọc để phát hiện ung thư vú là 0,85, trong khi độ đặc hiệu của nó là 0,80.
(a) Xác suất của một kết quả xét nghiệm âm tính giả là bao nhiêu?

(b) Xác suất của một kết quả dương tính giả là bao nhiêu?
(c) Biết xác suất một người nữ bị ung thư vú là 0,0025, xác suất cô ấy bị ung thư sẽ là bao nhiêu
khi kết quả chụp quang tuyến vú của cô ấy là dương tính?
Bài tập 19. Viện Quốc gia về An toàn và Sức khỏe Nghề nghiệp đã phát triển một định nghĩa trường
hợp của hội chứng ống cổ tay - một bệnh lý ở cổ tay - kết hợp ba tiêu chí: các triệu chứng liên quan
đến thần kinh, tiền sử các yếu tố rủi ro nghề nghiệp và sự hiện diện của các kết quả khám sức khỏe.
Độ nhạy của định nghĩa này như một xét nghiệm đối với hội chứng ống cổ tay là 0,67; độ đặc hiệu
của nó là 0,58.
(a) Ở một đám đông mà tỷ lệ hiện bị hội chứng ống cổ tay được ước tính là 15%, giá trị dự đoán
dương của kết quả xét nghiệm là bao nhiêu?
(b) Giá trị dự đoán này thay đổi như thế nào nếu tỷ lệ phổ biến chỉ là 10%? 5%?
Bài tập 20. Dữ liệu sau đây được lấy từ một nghiên cứu điều tra việc sử dụng một kỹ thuật gọi là
chụp não thất hạt nhân phóng xạ (xạ tâm thất ký), một xét nghiệm chẩn đoán để phát hiện mạch
vành bệnh động mạch

Bệnh
Xét nghiệm Tổng
Có dấu hiệu Không có dấu hiệu
Dương tính 302 80 382
Âm tính 179 372 551
Tổng 481 452 933

(a) Độ nhạy của chụp não thất hạt nhân phóng xạ là gì? Tính cụ thể của nó?
(b) Đối với một đám đông có tỷ lệ bị bệnh mạch vành là 0,10. Tính xác suất một cá nhân bị bệnh
cho rằng người đó có kết quả xét nghiệm dương tính bằng phương pháp chụp não thất hạt nhân
phóng xạ.
(c) Giá trị dự đoán của xét nghiệm âm tính là gì? Tính cụ thể của nó?
Bài tập 21. Nghiên cứu dựa trong cộng đồng về bệnh hô hấp trong năm đầu tiên của cuộc đời được
thực hiện ở Bắc Carolina. Là một phần của nghiên cứu này, một nhóm trẻ em được phân loại theo
tình trạng kinh tế xã hội của gia đình. Số lượng trẻ em trong mỗi nhóm đã trải qua các triệu chứng
hô hấp dai dẳng được trình bày dưới đây
2-20 Lecture 2: Xác suất và quyết định

Tình trạng kinh tế xã hội của gia đình Số trẻ Số triệu chứng
Thấp 79 31
Trung bình 122 29
Cao 192 27

Sử dụng những dữ liệu này để tính toán xác suất bị các triệu chứng hô hấp dai dẳng ở mỗi nhóm kinh
tế xã hội. Giả sử rằng các số đủ lớn để đáp ứng định nghĩa xác suất theo kinh nghiệm.

References
Campbell, M. J., Machin, D., and Walters, S. J. (2010). Medical statistics: a textbook for the health sciences.
John Wiley & Sons.

Daniel, W. W. and Cross, C. L. (2013). Biostatistics: a foundation for analysis in the health sciences. Wiley,
10th ed. edition.
Hobbs, F., Davis, R., Roalfe, A., Hare, R., Davies, M., and Kenkre, J. (2002). Reliability of n-terminal
pro-brain natriuretic peptide assay in diagnosis of heart failure: cohort study in representative and high
risk community populations. Bmj, 324(7352):1498.

Đại học Tây Đô, T. (2015). Bài giảng xác suất thống kê y dược. Khoa cơ bản Trường đại học Tây Đô.
Pagano, M. and Gauvreau, K. (2018). Principles of biostatistics. CRC Press.
Rosner, B. (2011). Fundamentals of biostatistics. Brooks/Cole, Cengage Learning, Pacific Grove, Calif., 7th
ed., international ed. edition.

You might also like