Xác Suất Thống Kê Đưa Lên Mạng

TRƢỜNG ĐẠI HỌC Y DƢỢC THÁI NGUYÊN
BỘ MÔN TOÁN TIN
TÀI LIỆU HỌC TẬP
XÁC SUẤT THỐNG KÊ TRONG Y HỌC
GV phụ trách học phần Thƣ ký Chủ tịch HĐ nghiệm thu
TS. Đỗ Thị Phƣơng Quỳnh BS. Lại Ngọc Khánh PGS. TS Trịnh Xuân Tráng
Thái Nguyên, tháng 8/2018
1
TRƢỜNG ĐẠI HỌC Y DƢỢC THÁI NGUYÊN
BỘ MÔN TOÁN TIN
TÀI LIỆU HỌC TẬP
XÁC SUẤT THỐNG KÊ TRONG Y HỌC
Cán bộ tham gia biên soạn:
TS Đỗ Thị Phƣơng Quỳnh
Ths Đỗ Thị Hồng Nga
Ths Lê Thị Huyền My.
2
Thái Nguyên, tháng 8/2018
Lời nói đầu

Xác suất và thống kê có vai trò quan trọng trong hầu hết mọi lĩnh vực của
thế giới hiện đại, từ khoa học, công nghệ, kinh tế, chính trị, môi trƣờng cho
đến y học, giáo dục. Chính vì tầm quan trọng của nó mà trong các chƣơng
trình giáo dục đại học đã chú trọng đến việc giúp cho ngƣời học hiểu rõ bản
chất của Xác suất thống kê, từ đó giúp ngƣời học làm chủ đƣợc các bài toán
ứng dụng của xác xuất thống kê trong chuyên ngành cụ thể của mình. Với chủ
trƣơng đó của giáo dục đại học, trƣờng đại học Y – Dƣợc đã đƣa môn xác
suất là một học phần trong năm thứ nhất trong chƣơng trình đào tạo bác sĩ đa
khoa.
Khi học xong học phần này sẽ giúp các bác sĩ tƣơng lai có thể đƣa ra
các lập luận logic trong chuẩn đoán và điều trị bệnh. Đồng thời biết cách tiếp
cận các lƣu trữ và hồi cứu các thông tin lâm sàng trong hồ sơ bệnh án (giấy và
điện tử), thƣ viện, các nguồn thông tin trực tuyến một cách phù hợp, đầy đủ,
chính xác đảm bảo tính bảo mật và tính pháp lý hay biết cách thu thập, đánh
giá và sử dụng đƣợc các thông tin y học giá trị và đáng tin cậy trong nƣớc và
nƣớc ngoài. Từ đó đƣa ra đƣợc những đánh giá hay kiểm chứng về hiệu quả
của các can thiệp y tế dựa trên bằng chứng khoa học.
Để đảm bảo đƣợc chuẩn năng lực đầu ra của một bác sĩ, Bộ môn Toán tin
đã biên soạn Giáo trình xác suất thống kê trong y học, với nội dung phù hợp
mang tính ứng dụng cao trong y học. Giáo trình đƣợc biên soạn gồm 9 bài,
trong đó có 7 bài học và 2 bài thảo luận. Bài 1, bài 2 là các bài giảng liên quan
đến xác suất thống kê, từ bài 3 đến bài 6 là các bài giảng phần thống kê, bài 7
tìm mối tƣơng quan giữa hai biến và phƣơng trình hồi quy giữa chúng.
3
Trong quá trình biên soạn chúng tôi đã hết sức cố gắng giải thích tƣờng
minh các vấn đề của xác suất, đồng thời đƣa ra nhiều ví dụ minh họa giúp cho
các bạn sinh viên dễ dàng tiếp thu kiến thức đồng thời vận dụng tốt xác suất
thống kê trong chuyên ngành y khoa. Tuy nhiên trong quá trình biên soạn
cũng không tránh khỏi sai sót nhất định, rất mong sự đóng góp ý kiến từ phía
bạn đọc để tài liệu ngày càng hoàn thiện hơn.
Xin trân trọng cảm ơn!
4
BÀI 1: ĐẠI CƢƠNG VỀ XÁC SUẤT
* Giảng viên:
1. TS Đỗ Thị Phƣơng Quỳnh
2. Ths Đỗ Thị Hồng Nga
3. Ths Lê Thị Huyền My
Mục tiêu:
Sau khi kết thúc bài học, sinh viên phải đạt đƣợc các mục tiêu nhƣ sau:
Kiến thức:
1. Phân tích đƣợc biến cố và mối quan hệ giữa các biến cố.
2. Vận dụng đƣợc xác suất theo quan điểm đồng khả năng.
Kĩ năng:
3. Tính toán đƣợc một số bài toán xác suất đơn giản.
Nội dung:
1. Phép thử và biến cố
 Định nghĩa
Việc thực hiện một nhóm các điều kiện cơ bản để quan sát một hiện tượng
nào đó có xảy ra hay không đựợc gọi là thực hiện một phép thử, còn hiện tượng có
thể xảy ra trong kết quả của phép thử đó được gọi là biến cố.
Ví dụ 1.
+ Tung một đồng xu xuống đất là một phép thử, còn việc "xuất hiện mặt sấp"
hay "xuất hiện mặt ngửa" là các biến cố.
+ Chẩn đoán bệnh cho bệnh nhân là một phép thử, còn kết quả "chẩn đoán
đúng" hay "chẩn đoán sai" là các biến cố.
+ Uống thuốc để chữa bệnh là một phép thử, còn "khỏi bệnh" hay "không
khỏi bệnh" là các biến cố.
 Các loại biến cố
+ Biến cố ngẫu nhiên: là biến cố có thể xảy ra hoặc không xảy ra khi thực
hiện một phép thử. Các biến cố ngẫu nhiên đƣợc ký hiệu là A, B, C... hoặc
A1 , A2 ,..., An , B1 , B2 ,..., Bn .
5
Ví dụ 2. Tung một con xúc xắc, nếu A là biến cố "xuất hiện mặt 6 chấm" thì
A là biến cố ngẫu nhiên.
+ Biến cố chắc chắn: là biến cố nhất định sẽ xảy ra khi thực hiện một phép
thử. Ký hiệu U hoặc  .
Ví dụ 3. Tung một con xúc xắc,  là biến cố "xuất hiện mặt  6 chấm".
+ Biến cố không thể: là biến cố nhất định không xảy ra khi thực hiện một
phép thử. Ký hiệu V hoặc .
Ví dụ 4. Tung một con xúc xắc, V là biến cố "xuất hiện mặt 7 chấm".
+ Biến cố sơ cấp: Một biến cố sơ cấp là một tập con gồm đúng một phần tử
của không gian mẫu.
Ví dụ 5. Tung một con xúc xắc. Gọi A i là biến cố "xuất hiện mặt i chấm" (
i  1,6 ). Ta có A i là các biến cố sơ cấp.
Do đó, tập hợp các kết quả có thể xảy ra gọi là không gian mẫu của phép thử
hoặc còn gọi là không gian các biến cố sơ cấp.
2. Quan hệ giữa các biến cố
 Biến cố kéo theo: Nếu biến cố A xuất hiện kéo theo biến cố B cũng xuất
hiện, ta nói biến cố A kéo theo biến cố B. Ký hiệu: A  B hay B  A .
Ví dụ 6. Gieo một con xúc xắc. Gọi A là biến cố xuất hiện mặt 2 chấm, B là
biến cố xuất hiện mặt chẵn chấm, rõ ràng A xuất hiện kéo theo B xuất hiện.
 Biến cố tƣơng đƣơng: Nếu biến cố A kéo theo biến cố B và biến cố B kéo
theo biến cố A thì ta nói A và B là hai biến cố tƣơng đƣơng. Ký hiệu: A  B .
 Hợp (tổng) của hai biến cố: Hợp (tổng) của hai biến cố A và B là một biến
cố sao cho biến cố này xuất hiện khi và chỉ khi có ít nhất một trong hai biến cố A và
B xuất hiện. Ký hiệu: A  B hoặc A  B .
Tổng quát: Hợp (tổng) của n biến cố A1 ,A2 ,...,An là một biến cố sao cho
biến cố này xuất hiện khi và chỉ khi có ít nhất một trong n biến cố A1 ,A2 ,...,An
n n
xuất hiện. Ký hiệu: A i hoặc  Ai .
i 1 i 1
6
Ví dụ 7. Gieo một con xúc xắc. Gọi A i là biến cố xuất hiện mặt i chấm (
i  1,6 ). A là biến cố xuất hiện mặt chẵn chấm. B là biến cố xuất hiện mặt lẻ chấm.
Khi đó:
A  A2  A4  A6 ; B  A1  A3  A5 .
 Giao (tích) của hai biến cố: Giao (tích) của hai biến cố A và B là một biến
cố sao cho biến cố này xuất hiện khi và chỉ khi cả hai biến cố A và B đồng thời xuất
hiện. Ký hiệu: A  B hoặc AB .
Tổng quát: Giao (tích) của n biến cố A1 ,A2 ,...,An là một biến cố sao cho
biến cố này xuất hiện khi và chỉ khi cả n biến cố A1 ,A2 ,...,An đồng thời xuất hiện.
n n
Ký hiệu:
i 1
A i hoặc  Ai .
i 1
Ví dụ 8. Hai bác sĩ cùng chẩn đoán một bệnh. Gọi A i là biến cố "bác sĩ i
chẩn đoán đúng" ( i  1;2 ). Vậy A  A1  A 2 (hay A  A1A2 ) là biến cố "cả hai bác
sĩ chẩn đoán đúng".
 Hiệu của hai biến cố: Hiệu của hai biến cố A và B là một biến cố sao cho biến
cố này xuất hiện khi và chỉ khi biến cố A xuất hiện còn biến cố B không xuất hiện. Ký
hiệu: A\ B.
Ví dụ 9. Gieo một con xúc xắc. A là biến cố xuất hiện mặt chẵn, B là biến
cố xuất hiện mặt 2 chấm. Khi đó A\ B là biến cố xuất hiện mặt 4 chấm hoặc 6 chấm.
 Biến cố xung khắc: Hai biến cố A và B đƣợc gọi là xung khắc nếu chúng
không đồng thời xảy ra trong phép thử. Nghĩa là A  B   .
Hệ n biến cố A1 ,A2 ,...,An đƣợc gọi là xung khắc từng đôi nếu
Ai  A j   (i  j;i, j  1,n)

 Biến cố đối lập: Hai biến cố A và B đƣợc gọi là đối lập nhau nếu A xảy ra
thì B không xảy ra và ngƣợc lại. Ký hiệu biến cố đối lập của A là A .

A  A  
Vậy A và A là đối lập nhau thì: 

A  A  
Ví dụ 10. Gieo một con xúc xắc. Gọi Ai (i  1,6) là biến cố xuất hiện mặt i
chấm. A là biến cố xuất hiện mặt chẵn chấm. B là biến cố xuất hiện mặt lẻ chấm.
7
Khi đó: A1 và A 2 là hai biến cố xung khắc; A1 , A2 ,..., An là hệ xung khắc từng đôi;
Còn A và B là hai biến cố đối lập.
Nhận xét: Hai biến cố đối lập thì chắc chắn xung khắc, còn hai biến cố xung
khắc thì chƣa chắc đối lập.
 Hệ đầy đủ các biến cố: Một hệ các biến cố A1 , A2 ,..., An xung khắc từng
n
đôi và Ai   đƣợc gọi là hệ đầy đủ các các biến cố.
i 1
Nếu khả năng xuất hiện các biến cố đó là nhƣ nhau thì ta gọi đó là hệ đầy đủ
đồng khả năng.
Trong ví dụ 10 hệ các biến cố A1 , A2 ,..., A6 là một hệ đầy đủ các biến cố
và đó cũng là hệ đầy đủ đồng khả năng. Hai biến cố A và B cũng lập nên một hệ
đầy đủ đồng khả năng.
3. Xác suất của biến cố
Biến cố ngẫu nhiên xảy ra hay không xảy ra trong kết quả của phép thử
không phụ thuộc vào ý muốn chủ quan của con ngƣời nên không đoán trƣớc đƣợc.
Tuy nhiên, bằng trực quan, ta có thể nhận thấy các biến cố ngẫu nhiên khác nhau có
những khả năng xảy ra khác nhau. Ví dụ tung một đồng xu, thì biến cố xuất hiện
mặt sấp có khả năng xảy ra lớn hơn so với biến cố xuất hiện mặt 6 chấm khi ta tung
một con xúc xắc.
Khi lặp đi, lặp lại nhiều lần cùng một phép thử trong cùng một điều kiện,
ngƣời ta thấy tính ngẫu nhiên của biến cố mất dần đi và khả năng xảy ra của biến cố
sẽ đƣợc thể hiện theo những quy luật nhất định. Bởi vậy ta có thể định lƣợng khả
năng khách quan xuất hiện một biến cố nào đó.
Vậy: Xác suất của một biến cố là một con số đặc trưng cho khả năng khách
quan xuất hiện một biến cố khi thực hiện một phép thử.
4. Định nghĩa cổ điển về xác suất
 Định nghĩa 1
8
Xác suất xuất hiện biến cố A là tỷ số giữa số trường hợp thuận lợi cho A và
tổng số các trường hợp duy nhất đồng khả năng có thể xảy ra khi thực hiện phép
thử đó.
Ký hiệu P(A) là xác suất xuất hiện biến cố A.
Nhƣ vậy nếu một phép thử có n kết quả duy nhất đồng khả năng, trong đó có
m
m kết quả thuận lợi cho việc xuất hiện biến cố A thì P(A)  .
n
Ví dụ 11. Tung một xúc xắc cân đối và đồng chất. Hãy tìm xác suất xuất
hiện mặt có số chấm chẵn.
Giải: Khi tung xúc xắc, sẽ có 6 trƣờng hợp duy nhất đồng khả năng là: xuất
hiện các mặt 1 chấm, 2 chấm,..., 6 chấm.
Gọi A là biến cố xuất hiện mặt có số chấm chẵn. Ta thấy có 3 trƣờng hợp:
xuất hiện các mặt 2 chấm, 4 chấm, 6 chấm là các trƣờng hợp thuận lợi cho biến cố
A (tức là một trong ba trƣờng hợp này xảy ra thì biến cố A xảy ra).
3
Vậy P  A    0,5 .
6
 Tính chất
1. 0  P(A)  1 (Vì 0  m  n ).
2. P()  1 .
3. P()  0 .
Chú ý: Một biến cố có xác suất bằng 1 chƣa chắc đã là biến cố chắc chắn và
nếu một biến cố có xác suất bằng 0 chƣa hẳn đã là biến cố không thể.
Ví dụ 12. Trong một bình có a quả cầu trắng, b quả cầu đen. Lấy ngẫu nhiên
ra một quả cầu. Tìm xác suất để lấy đƣợc cầu trắng.
Giải: Gọi A là biến cố "lấy đƣợc cầu trắng". Lấy ngẫu nhiên 1 quả, ta có thể
lấy đƣợc bất kỳ quả nào trong số a + b quả cầu. Số kết quả đồng khả năng là
n  a  b . Biến cố A sẽ xảy ra khi lấy đƣợc 1 trong số a quả cầu trắng. Ta thấy số
kết quả thuận lợi cho A là m  a .
a
Vậy: P(A)  .
ab
9
Ví dụ 13. Một ngƣời khi gọi điện thoại quên mất hai số cuối của số điện
thoại cần gọi mà chỉ nhớ đƣợc là chúng khác nhau. Tìm xác suất để ngƣời đó quay
ngẫu nhiên một lần đƣợc đúng số cần gọi.
Giải: Gọi B là biến cố "quay ngẫu nhiên một lần đƣợc đúng số cần gọi". Số
kết quả đồng khả năng là tất cả các phƣơng thức để lập nên 1 cặp 2 số khác nhau từ
10 số tự nhiên đầu tiên.
Đó là chỉnh hợp chập 2 của 10  n  A10
2
 10.9  90 .
1
Số kết quả thuận lợi cho B chỉ có 1  m  1 . Vậy: P(B)  .
90
Ví dụ 14. Trong một bình có 6 quả cầu giống hệt nhau đƣợc đánh số từ 1 đến
6. Lấy ngẫu nhiên lần lƣợt từng quả cầu. Tìm xác suất để số quả cầu lấy ra trùng với
số thứ tự lần lấy.
Giải: Gọi C là biến cố "số của quả cầu lấy ra trùng với số thứ tự lần lấy".
Số kết quả đồng khả năng là P6  6!  720 .
1
Số kết quả thuận lợi cho C xuất hiện chỉ có 1. Vậy P(C)  .
720
Ví dụ 15. Một hộp thuốc tiêm có 10 ống thuốc, trong đó có 4 ống hết hạn sử
dụng.
1. Lấy ngẫu nhiên từ hộp ra 1 ống thuốc. Tìm xác suất lấy đƣợc ống thuốc
còn hạn sử dụng.
2. Lấy ngẫu nhiên từ hộp ra 3 ống thuốc. Tìm xác suất trong 3 ống thuốc lấy
đƣợc 2 ống thuốc còn hạn sử dụng.
Giải:
1. Gọi A là biến cố "lấy đƣợc 1 ống thuốc còn hạn sử dụng".
Số kết quả đồng khả năng là n  10 .
Số kết quả thuận lợi cho A xảy ra là m  6 .
m 6
Vậy P(A)    0,6 .
n 10
2. Gọi B là biến cố "lấy đƣợc 2 ống thuốc còn hạn sử dụng trong 3 ống thuốc
lấy ra".
Số kết quả đồng khả năng là n  C10  120 .
3
10
Số kết quả thuận lợi để lấy đƣợc 2 ống thuốc còn hạn sử dụng bằng số tổ hợp
chập 2 của 6. Ngoài ra ống thuốc thứ 3 là hết hạn sử dụng, ta có tổ hợp chập 1 của 4
cách lấy.
Số kết quả thuận lợi cho B xảy ra là m  C62C14  60 .
m 1
Vậy P(B)   .
n 2
 Ƣu điểm và hạn chế của định nghĩa cổ điển về xác suất
Ƣu điểm: Tìm xác suất của một biến cố, ta không phải tiến hành phép thử
(phép thử chỉ là giả định). Nếu đáp ứng đầy đủ các yêu cầu của định nghĩa, ta có thể
tính đƣợc chính xác giá trị của xác suất.
Hạn chế: Đòi hỏi phép thử chỉ có một số hữu hạn các kết quả duy nhất đồng
khả năng (khó thực hiện) vì trong thực tế nhiều phép thử mà số kết quả đồng khả
năng là vô hạn. Ví dụ sự phân tán của các nguyên tử của một chất phóng xạ trong
một khoảng thời gian t nào đó, hoặc khi gieo một con xúc xắc không đồng chất,
hoặc khả năng trúng đích của một viên đạn.
Để khắc phục điều đó, ta đƣa ra định nghĩa theo quan điểm thống kê sau đây.
5. Định nghĩa thống kê về xác suất
 Định nghĩa 2 (Định nghĩa tần suất)

Tần suất xuất hiện biến cố trong n phép thử là tỷ số giữa số phép thử trong
đó biến cố xuất hiện và tổng số phép thử thực hiện.
Nếu gọi n là số phép thử thực hiện, m là số lần biến cố A xuất hiện, f (A) là
m
tần suất xuất hiện biến cố A, khi đó f (A)  .
n
Ví dụ 16. Kiểm tra ngẫu nhiên 1000 ngƣời ở một vùng thấy có 2 ngƣời có vi rút
viêm gan B. Gọi A là "biến cố xuất hiện bệnh viêm gan B", thì tần suất xuất hiện bệnh
là 2‰ .
Trị số của tần suất nói chung phụ thuộc vào số lƣợng của phép thử n. Thực
nghiệm chứng tỏ rằng khi n càng lớn thì tần suất có tính chất ổn định. Nghĩa là trị số
của tần suất dao động xung quanh một hằng số xác định nào đó.
11
Ví dụ 17. Bảng số liệu về tần suất xuất hiện mặt sấp khi tung đồng xu nhiều
lần:
Ngƣời làm thí nghiệm Số lần tung (n) Số lần sấp (m) Tần suất ( f (A) )
Buffon 4.040 2.048 0,5069
Pearson 12.000 6.019 0,5016

Pearson 24.000 12.012 0,5005
Từ kết quả trên, chứng tỏ khả năng xuất hiện mặt sấp đƣợc đặc trƣng bởi 0,5.
Ví dụ 18. Tỷ suất sinh con trai so với toàn bộ trẻ sơ sinh trong các quốc gia
1
khác nhau trong những khoảng thời gian khác nhau là . Laplace đã thống kê ở
2
22
London, Petecbua, Beclin trong 10 năm là   0,512 .
43
Xác suất của một biến cố là trị số ổn định của tần suất khi số phép thử tăng
n 
lên vô hạn (f   p). Nghĩa là: với n đủ lớn:
P(A)  f (A)
 Ƣu điểm và hạn chế của định nghĩa thống kê về xác suất

Ƣu điểm: Định nghĩa thống kê về xác suất không đòi hỏi những điều kiện áp
dụng nhƣ đối với định nghĩa cổ điển. Nó hoàn toàn dựa trên những quan sát thực tế
để làm cơ sở kết luận về xác suất xảy ra của một biến cố.
Hạn chế: Định nghĩa thống kê về xác suất chỉ áp dụng đƣợc đối với các hiện
tƣợng ngẫu nhiên mà tần suất của nó có tính ổn định. Để xác định một cách tƣơng
đối chính xác giá trị của xác suất ta phải tiến hành trên thực tế một số đủ lớn các
phép thử. Trong nhiều bài toán thực tế rất khó hoặc không thể tiến hành nhiều phép
thử để dựa vào đó mà tính xác suất của một biến cố.
6. Định nghĩa xác suất theo hình học

Xét một phép thử có vô hạn sự kiện đồng khả năng. Giả sử ta có thể biểu diễn
tập hợp các sự kiện này bởi một miền hình học G nào đó (một đoạn thẳng, một miền
12
phẳng, một khối không gian...) và những sự kiện thích hợp cho sự kiện A là một tập
mesg
con g  G . Khi đó: P(A)   (Kích thƣớc miền g /Kích thƣớc miền G).
mesG
Ví dụ 19. (Bài toán gặp gỡ)
Hai ngƣời A và B hẹn gặp nhau tại một địa điểm xác định trong khoảng từ 12
đến 13 giờ chiều. Ngƣời đến trƣớc chờ ngƣời kia 20 phút, quá 20 phút sẽ bỏ đi. Tìm
xác suất để họ gặp đƣợc nhau. Biết rằng mỗi ngƣời có thể đến chỗ hẹn vào một thời
điểm bất kỳ trong khoảng thời gian nói trên.
Giải: Gọi x là thời điểm đến chỗ y

hẹn của ngƣời A và y là thời điểm đến
chỗ hẹn của ngƣời B (tính ra phút). Mỗi I 40 20 J
sự kiện đồng khả năng là một cặp (x,y) 20
60 g
mà: 0  x,y  60. Tập hợp các cặp này tạo
40
thành một hình vuông OIJK (Hình bên).
O x
Các sự kiện thích hợp để A và B gặp đƣợc 60 K
nhau là những cặp (x, y) sao cho: x  y  20 . Đó là miền có gạch chéo g. Vậy xác
mesg S(g) 602  402 5

suất phải tìm là: P     .
mesG SOIJK 602 9
7. Nguyên lý xác suất lớn và nguyên lý xác suất nhỏ
Nhƣ chú ý ở phần trƣớc, một biến cố có xác suất rất nhỏ, thậm chí bằng
không vẫn chƣa hẳn là biến cố không thể (nghĩa là vẫn có thể xảy ra).Tuy nhiên qua
nhiều lần quan sát, ngƣời ta nhận thấy các biến cố có xác suất nhỏ hầu nhƣ sẽ không
xảy. Do vậy: "Nếu một biến cố ngẫu nhiên có xác suất rất nhỏ thì có thể cho rằng
trong một phép thử biến cố đó sẽ không xảy ra". Đó là nội dung cơ bản của nguyên
lý xác suất nhỏ.Tƣơng tự, ta có nguyên lý xác suất lớn: "Nếu biến cố ngẫu nhiên
có xác suất gần bằng 1 thì có thể cho rằng biến cố đó sẽ xảy ra trong một phép
13
thử". Một xác suất khá nhỏ mà với nó có thể cho rằng biến cố sẽ không xảy ra đƣợc
gọi là mức ý nghĩa (thƣờng lấy từ 0,01 đến 0,05).
Chú ý: Tuỳ yêu cầu cụ thể của từng bài toán mà việc quy định mức xác suất
đƣợc coi là rất nhỏ sẽ khác nhau. Ví dụ xác suất để một buổi biểu diễn ca nhạc mở
màn chậm giờ là 0,01 thì rất nhỏ có thể chấp nhận đƣợc, nhƣng xác suất bị biến
chứng khi tiêm phòng vắcxin cho trẻ là 0,001 lại không hề nhỏ.
Tài liệu tham khảo
[1] Đỗ Thị Hồng Nga, Đỗ Thị Phƣơng Quỳnh, Lê Thị Huyền My (2017), Xác suất
thống kê, NXB Đại học Thái Nguyên. (chƣơng 1)
[2]. Nguyễn Cao Văn, Trần Thái Ninh (2008), Lý thuyết xác suất và thống kê toán,
NXB Thống kê.
[3]. Đặng Đức Hậu (2008), Xác suất thống kê, NXB Giáo dục.
[4]. Đào Hữu Hồ (2008), Xác suất thống kê, NXB ĐHQG Hà Nội.
[5]. Tống Đình Quỳ (2010), Giáo trình xác suất thống kê, NXB Bách Khoa Hà Nội.
[6]. Sheldon M. Ross, Introduction to Probability and Statistics for Engineers and
Scientists, Fourth Edition, Academic Press is an imprint of Elsevier, 2009.
14
BÀI 2: MỘT SỐ CÔNG THỨC TÍNH XÁC SUẤT
* Giảng viên:
Mục tiêu:
Sau khi kết thúc bài học, sinh viên phải đạt đƣợc các mục tiêu nhƣ sau:
Kiến thức:
1. Phân tích đƣợc công thức cộng xác suất, công thức nhân xác suất.
2. Vận dụng đƣợc công thức xác suất toàn phần và Bayes, công thức Bernoulli.
Kĩ năng:
3. Giải đƣợc bài toán sử dụng công thức xác suất (công thức cộng và nhân xác suất,
công thức xác suất toàn phần – Bayes, công thức Bernoulli).
1. Công thức cộng xác suất
 Định lý 1
Nếu A và B là hai biến cố bất kỳ thì:
P(A  B)  P(A)  P(B)  P(AB) (3.1)
Chứng minh: Giả sử n là số kết quả đồng khả năng có thể xảy ra trong phép
thử, n A là số kết quả thuận lợi cho A xảy ra, n B là số kết quả thuận lợi cho B xảy ra,
n AB là số kết quả thuận lợi cho AB xảy ra. Lúc đó số kết quả thuận lợi cho ít nhất
một trong hai biến cố A và B xảy ra bằng n A  n B  n AB . Nhƣ vậy:

n A  n B  n AB n A n B n AB
P(A  B)    
n n n n
 P(A)  P(B)  P(AB).
 Tổng quát: Nếu A1,A2 ,...,A n là các biến cố bất kỳ thì:
n  n
P   Ai    P(Ai )   P(Ai A j )   P(Ai A jA k )  ...  ( 1) n 1 P(A iA j ...A n ). (3.2)
 i1  i1 i j i  jk
 Định lý 2
15
Nếu A và B là hai biến cố xung khắc thì:
P(A  B)  P(A)  P(B). (3.3)
Chứng minh: Giả thiết A và B là hai biến cố xung khắc ta có AB   , suy
ra P(AB)  0 . Vậy: P(A  B)  P(A)  P(B)  P(AB)  P(A)  P(B) .
 Tổng quát: Nếu A1,A2 ,...,A n là hệ xung khắc từng đôi thì:
 n  n
P   Ai    P  Ai . (3.4)
 i 1  i 1
Hệ quả: P(A)  1  P(A) . (3.5)
Chứng minh: Vì A  A   nên P(A  A)  P()  1 .
Mặt khác A và A xung khắc nên P(A  A)  P(A)  P(A) .
Vậy P(A)  P(A) 1 .

Ví dụ 1. Xác xuất để một xạ thủ bắn bia trúng điểm 10 là 0,1; trúng điểm 9 là
0,2; trúng điểm 8 là 0,25 và ít hơn điểm 8 là 0,45. Xạ thủ ấy bắn một phát. Tính xác
suất để ngƣời ấy đƣợc ít nhất 9 điểm.
Giải: Gọi A1 là biến cố "bắn trúng điểm 10".
A 2 là biến cố "bắn trúng điểm 9".
A là biến cố "bắn đƣợc ít nhất 9 điểm".
Ta có A1  A2  A ; A1 và A 2 là xung khắc. Do đó:
P(A)  P(A1 )  P(A2 )  0,1  0,2  0,3 .
Ví dụ 2. Một hộp thuốc tiêm có 10 ống thuốc, trong đó có 2 ống hết hạn sử
dụng. Tìm xác suất lấy ra 6 ống thuốc thì có không quá 1 ống hết hạn sử dụng.
Giải: Gọi A là biến cố "trong 6 ống thuốc lấy ra có không quá 1 ống thuốc
hết hạn".
A 0 là biến cố "trong 6 ống thuốc lấy ra không có ống nào hết hạn"
A1 là biến cố "trong 6 ống thuốc lấy ra có đúng một ống hết hạn"
Khi đó: A  A0  A1 . Vì A 0 và A1 xung khắc nhau, nên: P(A)  P(A0 )  P(A1 )
C86 .C02 2 C12 .C85 8 2

P(A 0 )  6  ; P(A1 )  6  . Vậy P(A)  .
C10 15 C10 15 3
16
2. Công thức nhân xác suất
2.1. Xác suất có điều kiện
Trong các ví dụ trƣớc, ta không đặt điều kiện nào của các biến cố mà chỉ có điều
kiện của phép thử G mà thôi. Bây giờ ta xét trƣờng hợp phải tìm xác suất của biến cố A
khi biết một biến cố B đã xảy ra với một xác suất P(B) nào đó. Đó là xác suất có điều
kiện.
Xác suất của biến cố A được tính với giả thiết biến cố B đã xảy ra gọi là xác
suất có điều kiện của A với điều kiện B. Ký hiệu P(A/B) hoặc PBA.
Ví dụ 3. Năm ngƣời lần lƣợt rút thăm để lấy 2 vé xem bóng đá (rút không
hoàn lại). Tìm xác suất để ngƣời thứ 2 rút đƣợc vé nếu biết rằng ngƣời thứ nhất đã
không rút đƣợc vé.
Giải: Trƣớc lúc rút thăm, xác suất rút đƣợc vé của mỗi ngƣời đều giống nhau
2
bằng . Nếu ngƣời thứ 1 đã không rút đƣợc vé thì xác suất rút đƣợc vé của ngƣời
5
2 1
thứ 2 sẽ là  . Rõ ràng biến cố ngƣời 1 rút đƣợc vé hay không đã ảnh hƣởng tới
4 2
xác suất của biến cố rút đƣợc vé của ngƣời thứ 2.
Ví dụ 4. Ở một vùng dân cƣ, tỷ lệ mắc bệnh B bằng a. Tỷ lệ mắc bệnh B của
nam bằng b và tỷ lệ mắc bệnh B của nữ bằng c.
Nhƣ vậy nếu gọi B là biến cố "mắc bệnh B"; A là biến cố "nam giới" thì ta
có: P(B)  a , P(B/A)  b , P(B/A)  c .

Thông thƣờng khi nói đến tỷ lệ bị bệnh nói chung, đó là xác suất không điều
kiện, còn nói đến tỷ lệ bị bệnh của riêng nam hay tỷ lệ bị bệnh của riêng nữ thì đó là
các xác suất có điều kiện.
Ví dụ 5. Tại một địa phƣơng có 5000 ngƣời, điều tra thấy có 510 ngƣời bị
sốt rét. Trong số bị sốt rét có 15 ngƣời sốt rét ác tính. Trong số sốt rét ác tính có 5
ngƣời chết.
1. Tìm tỷ lệ sốt rét thƣờng.
2. Tìm tỷ lệ chết của sốt rét ác tính.
17
Giải:
Gọi T là sốt rét thƣờng. A là sốt rét ác tính. C là chết.
510  15
1. P(T)   0,099 .
5000
5
2. P(C/A)   0,333.
15
5 5
Rõ ràng P(C/A) khác với P(C)   0,001 và P(C/S)   0,0098 ,
5000 510
trong đó S là sốt rét nói chung.
 Định lý 3
Nếu A và B là hai biến cố bất kỳ thì ta có:
P(AB)  P(A) P(B / A)  P(B) P(A / B). (3.6)
Chứng minh: Giả sử n là số kết quả đồng khả năng có thể xảy ra trong phép
thử, n A là số kết quả thuận lợi cho biến cố A xảy ra, n B là số kết quả thuận lợi cho
biến cố B xảy ra. Vì không giả thiết A và B xung khắc do đó sẽ có n AB kết quả
thuận lợi cho cả A và B cùng đồng thời xảy ra. Lúc đó:
n AB nA
P(AB)  ; P(A)  .
n n
Ta đi tìm P(B / A) . Với điều kiện biến cố A đã xảy ra thì số kết quả duy nhất
đồng khả năng cho phép thử đối với biến cố B là n A trong đó có n AB kết quả thuận
lợi cho B xảy ra. Do đó:
n AB
P(B / A)  .
nA
n AB n A n AB
Nhƣ vậy: P(AB)    P(A) P(B / A) .
n n nA
Tƣơng tự ta có: P(AB)  P(B) P(A / B) .
Từ định lý trên ta có thể suy ra hệ quả sau đây:
P(AB)
 Hệ quả: P(A/B)  (nếu P(B) > 0)
P(B)
18
P(AB)
hoặc: P(B/A)  (nếu P(A) > 0). (3.7)
P(A)
 Tổng quát: P(A1A2 ...An )  P(A1 )P(A2 / A1 )...P(An / A1...An-1 ) . (3.8)

(Xác suất của tích n biến cố bằng tích xác suất của n biến cố đó, trong đó
xác suất của mỗi biến cố tiếp sau đều được tính với điều kiện tất cả các biến cố trước
đó đã xảy ra.)
Ví dụ 6. Để dập tắt nạn sâu bệnh hại lúa, đội bảo vệ thực vật của Hợp tác xã đã
tiến hành phun thuốc 3 lần liên tiếp trong 1 tuần. Xác suất sâu bị chết sau lần phun thứ
nhất là 0,5. Nếu sâu sống sót thì khả năng bị chết sau lần phun thứ 2 là 0,7. Tƣơng tự
sau lần phun thứ 3 là 0,9. Tìm xác suất sâu bị chết sau đợt phun thuốc.
Giải: Gọi A là biến cố "sâu bị chết sau đợt phun thuốc".
Gọi A i là biến cố "sâu bị chết sau lần phun thuốc thứ i" (i  1,3) .
Ta có thể giải bài này theo một trong hai cách sau:
Cách 1: Ta có A  A1  A1 A 2  A1 A 2 A3 .
Vì A1 , A1 A 2 , A1 A 2 A3 là xung khắc từng đôi nên:
P(A)  P(A1 )  P(A 1 A 2 )  P(A 1 A 2 A 3 )
 P(A1 )  P(A 1 ) P(A 2 / A 1 )  P(A 1 ) P(A 2 / A 1 ) P(A 3 / A 1 A 2 )
 0,5  0,5.0, 7  0,5.0,3.0,9
 0,985.
Cách 2: Ta có A  A1 A 2 A 3 là biến cố sâu sống sót sau đợt phun thuốc.
P(A)  P(A 1 ) P(A 2 / A 1 ) P(A 3 / A 1 A 2 )
 0,5.0,3.0,1
 0,015.
Vậy: P(A)  1  P(A)  0,985.
2.2. Biến cố độc lập
Hai biến cố A và B gọi là độc lập với nhau nếu việc xảy ra hay không xảy ra
của biến cố này không làm thay đổi xác suất xảy ra của biến cố kia và ngược lại.
19
P(A/B)  P(A)
Nhƣ vậy nếu A và B độc lập với nhau thì 
P(B/A)  P(B)
Chú ý: Nếu A và B độc lập với nhau thì các cặp A và B; A và B ; A và B
cũng độc lập với nhau.
Ví dụ 7. Hai chị A và B cùng sinh con. Gọi A là biến cố "chị A sinh con
trai", B là biến cố "chị B sinh con trai". Rõ ràng biến cố A xảy ra hay biến cố A
xảy ra không ảnh hƣởng đến biến cố B có xảy ra hay không, tức là việc chị A sinh
con trai hay con gái đều không ảnh hƣởng đến khả năng sinh con trai hay gái của
chị B. Nhƣ vậy A và B là hai biến cố độc lập.
Các biến cố A1 , A2 ,..., An được gọi là độc lập từng đôi nếu mỗi cặp trong n
biến cố đó độc lập với nhau.
Các biến cố A1 , A2 ,..., An được gọi là độc lập toàn phần nếu mỗi biến cố độc
lập với một tổ hợp bất kỳ của các biến cố còn lại.
 Hệ quả
Nếu A và B là hai biến cố độc lập với nhau thì:
P(AB)  P(A) P(B). (3.9)
Chứng minh: Giả thiết A và B là hai biến cố độc lập với nhau nên ta có
P(A/B)  P(A), P(B/A)  P(B) .
Vậy: P(AB)  P(A) P(B/A)  P(A) P(B) .
 Tổng quát: Nếu hệ n biến cố A1 , A2 ,..., An là độc lập toàn phần thì:
 n  n
P   Ai   P(A1 )P(A 2 )...P(A n )   P(A i ). (3.10)
 i 1  i 1
Ví dụ 8. Một thiết bị gồm 3 bộ phận. Trong khoảng thời gian t , việc các bộ
phận đó bị hỏng là độc lập với nhau với các xác suất tƣơng ứng là: 0,1; 0,2 và 0,3.
Cả thiết bị sẽ bị hỏng nếu có ít nhất một bộ phận bị hỏng. Tìm xác suất hoạt động
tốt trong thời gian t của thiết bị đó.
Giải: Gọi A i là biến cố "bộ phận thứ i hoạt động tốt trong thời gian t"
(i  1,3) . Gọi A là biến cố "thiết bị hoạt động tốt trong khoảng thời gian t".
20
Ta có A  A1A 2 A3 . Vì A1 , A 2 , A3 độc lập toàn phần với nhau nên:
P(A)  P(A1 ) P(A 2 ) P(A 3 )
 (1  0,1)(1  0, 2)(1  0,3)
 0,504.
Ví dụ 9. Có ba bác sỹ độc lập nhau khám bệnh. Xác suất chẩn đoán đúng
của các bác sĩ tƣơng ứng là 0,9; 0,85 và 0,8. Ba ngƣời đã khám cho một bệnh nhân.
Tìm xác suất sao cho:
1. Không ai chẩn đoán sai.
2. Không ai chẩn đoán đúng.
3. Có 1 ngƣời chẩn đoán sai.
4. Có ít nhất 1 ngƣời chẩn đoán đúng.
Giải: Gọi A i là biến cố "bác sĩ i chẩn đoán đúng" (i  1,3) . Ta có A1 , A 2 , A3

độc lập toàn phần với nhau.
Gọi A là biến cố "không ai chẩn đoán sai".
Gọi B là biến cố "không ai chẩn đoán đúng".
Gọi C là biến cố "có 1 ngƣời chẩn đoán sai".
Gọi D là biến cố "có ít nhất 1 ngƣời chẩn đoán đúng".
1. P(A)  P(A1A2 A3 )  P(A1 ) P(A2 ) P(A3 )  0,9.0,85.0,8  0,612 .
2. P(B)  P(A1 A 2 A 3 )  P(A1 )P(A 2 )P(A 3 )  0,1.0,15.0, 2  0,003 .
3. Ta có C  A1 A 2 A3  A1 A 2 A3  A1A 2 A 3 .
Vì các biến cố A 1 A 2 A3 , A1 A 2 A3 , A1A 2 A 3 là xung khắc từng đôi nên:
P(C)  P(A 1 A 2 A 3 )  P(A1 A 2 A 3 )  P(A1A 2 A 3 )
 P(A 1 )P(A 2 )P(A 3 )  P(A1 )P(A 2 )P(A 3 )  P(A1 )P(A 2 )P(A 3 )
 0,1.0,85.0,8  0,9.0,15.0,8  0,9.0,85.0, 2

 0,329.
4. P(D)  1  P(D)  1  P(A1 A 2 A 3 )  1  0,003  0,997 .
Ví dụ 10. Khám bệnh ngoài da cho các cháu tại một nhà trẻ, kết quả cho thấy
70% trẻ mắc bệnh A, 50% trẻ mắc bệnh B.
21
Dùng thuốc T1 chữa bệnh, xác suất khỏi khi chữa bệnh A bằng 0,8; bệnh B
bằng 0,6 và cả hai bệnh bằng 0,3.
Dùng thuốc T2 chữa bệnh, xác suất khỏi khi chữa bệnh A bằng 0,6; bệnh B
bằng 0,7 và cả hai bệnh bằng 0,4.
a. Tìm xác suất trẻ mắc cả 2 bệnh A và B.
b. Biết rằng giá thuốc, khối lƣợng thuốc 2 loại nhƣ nhau. Nên dùng thuốc
nào để chữa bệnh?
Giải: Gọi A là biến cố "trẻ bị bệnh A"
B là biến cố "trẻ bị bệnh B"
AB là biến cố "trẻ bị hai bệnh A và B"
a. Vì trẻ bị bệnh A hay B là độc lập nên:
P(AB)  P(A) P(B)  0, 7.0,5  0,35.
b. Gọi D là biến cố "trẻ bị bệnh "

Gọi E i là biến cố "trẻ khỏi bệnh do điều trị thuốc Ti " (i = 1, 2).
Ta có: P(AE1 )  P(A) P(E1 /A)  0,7.0,8  0,56
P(BE1 )  P(B) P(E1 /B)  0,5.0,6  0,3
P((AB)E1 )  P(AB) P(E1 /AB)  0,35.0,3  0,105
P(AE 2 )  P(A) P(E 2 /A)  0,7.0,6  0, 42
P(BE 2 )  P(B) P(E 2 /B)  0,5.0,7  0,35
P((AB)E 2 )  P(AB) P(E 2 /AB)  0,35.0, 4  0,14.
Ta có: D  A  B  AB (3 biến cố A, B và AB không xung khắc từng đôi).
Biến cố “trẻ bị bệnh và đƣợc chữa khỏi bằng thuốc T1 ” là:
DE1   A  B  AB E1  AE1  BE1  (AB)E1.
Theo công thức cộng xác suất (2.2) ta có:
22
P(DE1 )  P(AE1 )  P(BE1 )  P((AB)E1 )  P(AE1BE1 )  P(AE1 (AB)E1 )
 P(BE1 (AB)E1 )  P(AE1BE1 (AB)E1 )
 P(AE1 )  P(BE1 )  P((AB)E1 )  P(AE1 ) P(BE1 )  P(AE1 ) P((AB)E1 )
 P(BE1 ) P((AB)E1 )  P(AE1 ) P(BE1 ) P((AB)E1 )
 0,56  0,3  0,105  0,56.0,3  0,56.0,105  0,3.0,105  0,56.0,3.0,105
 0,72434.
Biến cố “trẻ bị bệnh và đƣợc chữa khỏi bằng thuốc T2 ” là:
DE 2   A  B  AB E 2  AE 2  BE 2  (AB)E 2 .
Suy ra:
P(DE 2 )  P(AE 2 )  P(BE 2 )  P((AB)E 2 )  P(AE 2 BE 2 )  P(AE1 (AB)E 2 )
 P(BE 2 (AB)E 2 )  P(AE 2 BE 2 (AB)E 2 )
 P(AE 2 )  P(BE 2 )  P((AB)E 2 )  P(AE 2 ) P(BE 2 )  P(AE 2 ) P((AB)E 2 )
 P(BE 2 ) P((AB)E 2 )  P(AE 2 ) P(BE 2 ) P((AB)E 2 )
 0, 42  0,35  0,14  0, 42.0,35  0, 42.0,14  0,35.0,14  0, 42.0,35.0,14
 0, 67578.
Nhƣ vậy khả năng khỏi bệnh do điều trị thuốc T1 cao hơn T2 .
Vậy nên dùng thuốc T1
3. Công thức Bernoulli
3.1. Dãy phép thử độc lập
Các phép thử được gọi là độc lập với nhau, nếu xác suất để xảy ra một biến
cố nào đó trong từng phép thử không phụ thuộc vào việc biến cố đó có xảy ra ở các
phép thử khác hay không.
Ví dụ 11.
+ Tung một đồng xu nhiều lần sẽ tạo nên các phép thử độc lập.
+ Lấy nhiều lần sản phẩm từ một lô sản phẩm theo phƣơng thức có hoàn lại
sẽ tạo nên các phép thử độc lập.
23
3.2. Lược đồ Bernoulli
Giả sử ta tiến hành n phép thử độc lập. Trong mỗi phép thử chỉ xảy ra hai
trƣờng hợp: hoặc biến cố A xảy ra, hoặc biến cố A không xảy ra. Xác suất xảy ra
của biến cố A trong mỗi phép thử đều bằng p và xác suất không xảy ra của biến cố
A trong mỗi phép thử đều bằng q  1  p . Những bài toán thỏa mãn các điều kiện
trên đƣợc gọi là tuân theo lƣợc đồ Bernoulli (hay còn gọi là bài toán Bernoulli).
Ví dụ 12.
+ Tung một đồng xu 10 lần, đó là 10 phép thử Bernoulli.
+ Một bác sĩ chẩn đoán bệnh cho 5 ngƣời, đó là 5 phép thử Bernoulli.
(Nhƣng nếu 5 bác sĩ độc lập chẩn đoán bệnh cho 1 ngƣời thì nói chung không phải
là 5 phép thử Bernoulli.)
+ Một bà mẹ sinh 5 ngƣời con. Đó là 5 phép thử Bernoulli.
3.3. Công thức Bernoulli
Trong lƣợc đồ Bernoulli với n phép thử độc lập, tìm xác suất để:
a. Biến cố A xuất hiện đúng k lần
Xác suất đó đƣợc tính bởi công thức:
Pn (A,k)  Cnk pk q n k (k  0,1,2,...,n) (3.13)
Công thức trên là công thức Bernoulli.
Thật vậy, gọi B là biến cố "Trong n phép thử, biến cố A xảy ra đúng k lần".
Gọi A i là biến cố "xảy ra biến cố A trong phép thử lần thứ i", (i  1,n ) . Khi đó:
B  A1A2 ...Ak A k1 ...A n  A1 A 2 A3...A n1 An  ...  A1 A 2 ...A nk An k 1...An .
Trong đó A i là biến cố "Không xảy ra biến cố A trong phép thử thứ i"
k
Ta thấy có C n số cách chọn ra k phép thử, trong đó biến cố A xảy ra k lần,
còn A xảy ra n  k lần. Do đó xác suất của mỗi biến cố tích đều bằng p k q n k . Vì
n k
tích các biến cố đó xung khắc từng đôi với nhau nên: Pn (A,k)  p(B)  Cn p q
k k
(k  0,1, 2,..., n) .
b. Biến cố A xuất hiện từ k1 đến k 2 lần

Xác suất đó đƣợc tính bởi công thức:
24
k2
Pn (A,k1,k 2 )  
k k
Ckn p k q n k (k  0,1,2,...,n) (3.14)
1
Ví dụ 13. Điều trị một bệnh có xác suất khỏi bằng 0,8. Điều trị cho 10 ngƣời
bệnh, tìm xác suất có 8 ngƣời khỏi.
Giải: Điều trị cho 10 ngƣời bệnh là các phép thử độc lập. Gọi A là biến cố
"điều trị khỏi bệnh". Theo công thức Bernoulli với n  10, p  0,8 , ta có:
P10 (A, 8)  C10 p q  C10

8 8 2 8
(0,8)8 (0, 2)2  0,302.
Ví dụ 14. Xác suất phản ứng thuốc khi điều trị kháng sinh cho bệnh nhân
bằng 0,001. Điều trị cho 100 ngƣời.
1. Tìm xác suất có 1 ngƣời bị phản ứng thuốc.
2. Tìm xác suất có không quá 1 ngƣời bị phản ứng thuốc.
Giải: Điều trị thuốc cho 100 ngƣời bị bệnh là các phép thử độc lập. Gọi A là
biến cố "ngƣời bệnh bị phản ứng thuốc". Bài toán thỏa mãn lƣợc đồ Bernoulli với
n  100, p  0,001 .
1. P100 (A,1)  C100 (0,001) (0,999)  0,091
1 1 99
2. P100 (A,0,1)  C100

0
(0,001)0 (0,999)100  C100
1
(0,001)1 (0,999)99  0,995
3.4. Số có khả năng nhất trong lược đồ Bernoulli
Trong lƣợc đồ Bernoulli số x 0 mà tại đó xác suất Pn (x 0 ) đạt giá trị lớn nhất
gọi là số có khả năng nhất (hay số lần xuất hiện chắc chắn nhất còn gọi là mode).
Ngƣời ta đã chứng minh đƣợc rằng:
* Nếu (np  q)  Z thì số có khả năng nhất cùng một lúc nhận 2 giá trị:
x 0  np  q và x 0  np  q  1 (3.15)
* Nếu (np  q)  Z thì số có khả năng nhất là phần nguyên của np  q 1 ,
tức là: x 0   np  q  1 (Ký hiệu ... chỉ phần nguyên) (3.16)

Ví dụ 15. Xác suất để mỗi con lợn sau khi tiêm phòng bằng một loại vắcxin
đƣợc miễn dịch là 0,9. Có 50 con lợn đƣợc tiêm phòng. Hãy tìm số lợn đƣợc miễn
dịch có khả năng nhiều nhất.
Giải: Bài toán thỏa mãn lƣợc đồ Bernoulli.
25
Ta có: np  q  50.0,9  0,1  45  0,1  44,9  Z
Do đó: x 0   np  q  1   45,9  45 .Vậy số lợn có khả năng miễn dịch
nhiều nhất là 45 con.
4. Công thức xác suất đầy đủ
 Định lý 4
Giả sử A1 , A2 ,..., An là một hệ đầy đủ các biến cố. Xét biến cố A có thể xảy
ra đồng thời với một trong các biến cố A1 , A2 ,..., An . Lúc đó xác suất của biến cố A
được tính bằng công thức sau:
n
P(A)   P(A i ) P(A / A i ). (4.1)
i 1
Công thức trên gọi là công thức xác suất đầy đủ (còn gọi là công thức xác
suất toàn phần).
Chứng minh: Vì A1, A2 ,..., An là một hệ đầy đủ các biến cố nên biến cố A
chỉ có thể xảy ra đồng thời với một trong các biến cố đó:
A  A1 A  A2 A  ...  An A.
Vì các biến cố A1,A2 ,...,A n xung khắc từng đôi nên các biến cố
A1A, A2A,..., An A cũng xung khắc từng đôi.
Do đó: P(A)  P( A1 A)  P( A2 A)  ...  P( An A).
Áp dụng định lý nhân xác suất đối với các tích Ai A trong đó A i và A
n
không độc lập, ta có: P(A)   P(Ai ) P(A / A i ).
i 1
Ví dụ 16. Có hai thùng đựng thuốc. Thùng thứ nhất có 10 lọ thuốc, trong đó
có 9 lọ thuốc còn hạn sử dụng. Thùng thứ hai có 20 lọ thuốc, trong đó có 18 lọ còn
hạn sử dụng.
1. Từ một thùng lấy ngẫu nhiên 1 ống thuốc, tìm xác suất lấy đƣợc ống thuốc
còn hạn sử dụng.
2. Từ thùng thứ nhất lấy ngẫu nhiên một lọ thuốc bỏ sang thùng thứ hai. Tìm
xác suất để lấy ngẫu nhiên từ thùng thứ hai một lọ thuốc còn hạn sử dụng.
26
Giải:
1. Gọi A là biến cố "lấy đƣợc lọ thuốc còn hạn sử dụng". Biến cố A có thể
xảy ra đồng thời với một trong 2 biến cố sau đây tạo nên một nhóm đầy đủ các biến
cố:
A1 là biến cố "lấy thuốc từ thùng 1".
A 2 là biến cố "lấy thuốc từ thùng 2".
Theo công thức xác suất đầy đủ ta có:

P(A)  P(A1 ) P(A / A1 )  P(A 2 ) P(A / A 2 )
1 9 1 18
 .  .  0,9.
2 10 2 20
2. Gọi A là biến cố "lấy đƣợc lọ thuốc từ thùng 2 là còn hạn sử dụng". Biến
cố A có thể xảy ra đồng thời với 1 trong 2 biến cố sau đây tạo nên một nhóm đầy đủ
các biến cố:
A1 là "lọ thuốc từ thùng 1 chuyển sang thùng 2 còn hạn sử dụng".
A 2 là "lọ thuốc từ thùng 1 chuyển sang thùng 2 hết hạn sử dụng".
9 1
P(A1 )  ; P(A 2 )  .
10 10
P(A)  P(A1 ) P(A / A1 )  P(A 2 ) P(A / A 2 )
9 19 1 18
 .  .  0,9.
10 21 10 21
5. Công thức Bayes
 Định lý 5
Giả sử biến cố A có thể xảy ra đồng thời với một trong n biến cố
A1,A2 ,...,An tạo nên một hệ đầy đủ các biến cố. Khi đó:
P(A k ) P(A / A k )
P(A k / A)  n
(k  1, n) (4.2)
 P(A k ) P(A / A k )
k 1
Công thức trên gọi là công thức Bayes.

Chứng minh: Theo định lý nhân xác suất ta có:
P(AAk )  P(A) P(Ak / A)  P(A k ) P(A / A k ) (k  1, n)
27
P(A k ) P(A / A k )
Suy ra: P(A k / A)  (k  1, n)
P(A)
n
Thay P(A) bằng công thức xác suất đầy đủ P(A)   P(A k ) P(A / A k ) ta
k 1
đƣợc điều phải chứng minh.

n n
Chú ý:  P(Ai )  1 và  P(A k / A)  1 .
i 1 k 1
Các biến cố A1 , A2 ,..., A n thƣờng đƣợc gọi là các giả thuyết.

Các xác suất P( A1 ), P( A2 ),..., P( A n ) đƣợc xác định trƣớc khi phép thử tiến
hành, do đó thƣờng đƣợc gọi là các xác suất tiên nghiệm. Còn các xác suất
P( A1 / A), P( A2 / A),..., P( An / A) đƣợc xác định sau khi phép thử đã tiến hành và biến
cố A đã xảy ra, do đó đƣợc gọi là các xác suất hậu nghiệm. Nhƣ vậy công thức
Bayes cho phép đánh giá lại xác suất xảy ra các giả thuyết sau khi đã biết kết quả
của phép thử tức là biến cố A đã xảy ra.
Ví dụ 17. Ở một vùng, tỷ lệ ngƣời dân nghiện thuốc lá là 30%, biết rằng tỷ lệ
ngƣời viêm họng trong số ngƣời nghiện thuốc lá là 60%, còn tỷ lệ ngƣời viêm họng
trong số ngƣời không nghiện thuốc lá là 40%.
1. Gặp ngẫu nhiên một ngƣời, biết ngƣời đó viêm họng. Tìm xác suất ngƣời
đó nghiện thuốc.
2. Nếu ngƣời đó không bị viêm họng, tìm xác suất ngƣời đó nghiện thuốc.
Giải: Gọi A là biến cố "gặp ngƣời bị viêm họng". A có thể xảy ra cùng với
một trong hai biến cố sau tạo nên một nhóm đầy đủ các biến cố:
B: "ngƣời đó nghiện thuốc"
B : "ngƣời đó không nghiện thuốc".
P(A)  P(B) P(A / B)  P(B) P(A / B)  0,3.0,6  0,7.0, 4  0, 46.

1. Theo công thức Bayes ta có:
P(B) P(A / B) 0,3.0, 6
P(B / A)    0,39.
P(A) 0, 46
2. P(A)  1  P(A)  0,54.
28
Theo công thức Bayes ta có:
P(B) P( A / B) 0,3.0, 4
P(B / A)    0, 222.
P( A) 0,54
Ví dụ 18. Tại một địa phƣơng tỷ lệ mắc bệnh B bằng 0,02. Dùng một phản
ứng giúp chẩn đoán, nếu ngƣời bị bệnh thì phản ứng dƣơng tính 95%, nếu ngƣời
không bị bệnh phì phản ứng dƣơng tính 10%.
1. Tìm xác suất dƣơng tính của phản ứng.
2. Một ngƣời làm phản ứng thấy dƣơng tính, tìm xác suất ngƣời đó bị bệnh.
3. Tìm xác suất chẩn đoán đúng của phản ứng.
Giải: Gọi A là biến cố "dƣơng tính".
B là biến cố "bị bệnh B".
Đ là biến cố "chẩn đoán đúng của phản ứng".
S là biến cố "chẩn đoán sai của phản ứng".
Tổ chức y tế thế giới quy ƣớc gọi:
P(A / B) là độ nhạy.
P(A / B) là độ đặc hiệu.

P(B / A) là giá trị của phản ứng dƣơng tính.
P(B / A) là giá trị của phản ứng âm tính.

P(Đ) là giá trị của phản ứng.
Theo đề bài ta có:
P(B)  0, 02; P(A / B)  0,95; P(A / B)  0,1.
1. P(A)  P(B) P(A / B)  P(B) P(A / B)

 0,02.0,95  0,98.0,1
 0,117.
P(B)P(A/B) 0,02.0,95
2. Ta có: P(B / A)    0,162.
P(A) 0,117
3. Đ  AB  AB
29
P(Đ)  P(B) P(A / B)  P(B) P(A / B)
 0, 02.0,95  0,98.0,9
 0,901.
Ví dụ 19. Tại một địa phƣơng tỉ lệ bệnh B bằng 0,05. Dùng một phản ứng
giúp chẩn đoán, nếu phản ứng dƣơng tính thì bị bệnh 20%, nếu phản ứng âm tính thì
bị bệnh 1,25%.
1. Tìm xác suất dƣơng tính của phản ứng.
2. Tìm độ nhạy, độ đặc hiệu của phản ứng.
3. Tìm xác suất chẩn đoán sai của phản ứng.
Giải: Ta có: P(B)  0, 05 ; P(B / A)  0, 2 ; P(B / A)  0,0125 .

1. Áp dụng công thức sác xuất đầy đủ:
P(B)  P(A) P(B / A)  P(A) P(B / A)
 0, 05  P(A).0, 2  (1  P(A)).0, 0125
0, 05  0, 0125
 P(A)   0, 2.
0, 2  0, 0125
P(A) P(B / A) 0, 2.0, 2

2. P(A / B)    0,8.
P(B) 0, 05
P(A) P(B / A) 0,8.0,9875

P(A / B)    0,832.
P(B) 0,95
3. S  AB  AB
P(S)  P(A) P(B / A)  P(A) P(B / A)
 0, 2.0,8  0,8.0,0125
 0,17.
 Nhận xét:
Trong một bài có thể có nhiều hệ đầy đủ. Để tìm xác suất của biến cố A có
thể dựa vào hệ đầy đủ này hay hệ đầy đủ khác, miễn là quan hệ giữa A với hệ đầy
đủ đó phải phù hợp, tức là A xảy ra thì một trong các biến cố của hệ đầy đủ phải
xảy ra. Nếu phép thử gồm 2 giai đoạn, biến cố A liên quan đến giai đoạn sau, thì
các kết quả có thể có của giai đoạn trƣớc chính là một hệ đầy đủ cần tìm. Hoặc nếu
30
hiện tƣợng đang xét có thể phân chia làm 2 bƣớc, khi đó các kết quả có thể có của
bƣớc 1 chính là hệ đầy đủ cần tìm.
thống kê, NXB Đại học Thái Nguyên. (chƣơng 1trang 7-82)
NXB Thống kê.
31
Bài 3:ĐẠI LƢỢNG NGẪU NHIÊN VÀ QUY LUẬT PHÂN PHỐI XÁC SUẤT
THƢỜNG GẶP
* Giảng viên:
* Mục tiêu học tập:
Kiến thức:
1. Phân tích đƣợc đại lƣợng ngẫu nhiên và quy luật phân phối xác suất
thông dụng.
Kỹ năng:
2. Tính toán tham số trong bài toán cụ thể.
* Nội dung bài giảng:
1. Định nghĩa và phân loại đại lƣợng ngẫu nhiên

Đại lượng ngẫu nhiên (hay biến ngẫu nhiên) là đại lượng mà trong kết quả
của phép thử sẽ nhận một và chỉ một trong các giá trị có thể có của nó với một xác
suất tương ứng nhất định.
Ký hiệu: X, Y, Z... hoặc X1 ,...,Xn ,...,Y1 ,...,Yn ...
Các giá trị có thể có của chúng đƣợc ký hiệu x1 , x 2 ,..., x n , y1,y2 ..., y n
Ví dụ 1.
+ Tung một con xúc xắc. Gọi X là "số chấm xuất hiện". X là đại lƣợng
ngẫu nhiên vì trong kết quả của phép thử nó sẽ nhận 1 trong 6 giá trị có thể có
là: 1,2,3,4,5,6.
+ Gọi Y là "Số con trai trong 100 trẻ sắp sinh trong một nhà hộ sinh". Y
là đại lƣợng ngẫu nhiên.
+ Gọi Z là "Khoảng cách từ điểm chạm của viên đạn đến tâm bia". Z là
đại lƣợng ngẫu nhiên.
 Phân loại đại lƣợng ngẫu nhiên
Căn cứ vào giá trị mà đại lƣợng ngẫu nhiên nhận ta có hai loại chính: Đại
lƣợng ngẫu nhiên rời rạc và đại lƣợng ngẫu nhiên liên tục.
Đại lượng ngẫu nhiên được gọi là rời rạc, nếu các giá trị của nó có thể lập
nên một tập hợp hữu hạn hay đếm được.
32
Nói cách khác, đại lƣợng ngẫu nhiên là rời rạc nếu ta có thể liệt kê đƣợc tất
cả các giá trị có thể có của nó.
Ví dụ 2. Gọi Y là "Số ngƣời vào khám chữa bệnh tại một phòng khám trong
một ngày". Y là một đại lƣợng ngẫu nhiên rời rạc với các giá trị có thể có của nó lập
nên một tập hợp đếm đƣợc Y = 0, 1, 2, 3,...
Đại lượng ngẫu nhiên được gọi là liên tục nếu các giá trị có thể có của nó
lấp đầy một khoảng trên trục số.
Đối với đại lƣợng ngẫu nhiên liên tục, ta không thể liệt kê đƣợc tất cả các giá
trị có thể có của nó.
Ví dụ 3. Gọi Y là "Cân nặng trẻ sơ sinh". Y là đại lƣợng ngẫu nhiên liên tục.
2. Quy luật phân phối xác suất của đại lƣợng ngẫu nhiên
Hình thức biểu diễn mối quan hệ giữa các giá trị có thể có của đại lượng
ngẫu nhiên và các xác suất tương ứng được gọi là quy luật phân phối xác suất của
đại lượng ngẫu nhiên ấy.
Trong thực tế ngƣời ta thƣờng sử dụng ba phƣơng pháp để mô tả quy luật
phân phối xác suất của đại lƣợng ngẫu nhiên là: bảng phân phối xác suất, hàm phân
phối xác suất và hàm mật độ xác suất.
2.1. Bảng phân phối xác suất:
Bảng phân phối xác suất chỉ dùng để thiết lập quy luật phân phối xác suất
của đại lượng ngẫu nhiên rời rạc.
Giả sử đại lƣợng ngẫu nhiên rời rạc X có thể nhận một trong các giá trị có
thể có là: x1 , x 2 ,..., x n với các xác suất tƣơng ứng là p1 , p2 ,..., pn . Bảng phân phối
xác suất của đại lƣợng ngẫu nhiên rời rạc X có dạng:
X x1 x 2 x3 ... x i ... xn
P p1 p2 p3 ... pi ... pn
Ta chú ý rằng: để tạo nên một quy luật phân phối xác suất thì các xác suất p i
n
phải thỏa mãn điều kiện: 0  pi  1; i  1,n và  pi  1 .
i 1
Ví dụ 4. Tung một con xúc xắc. Gọi X là "Số chấm xuất hiện". Hãy xây
dựng quy luật phân phối xác suất của X.
Giải: Vì X là đại lƣợng ngẫu nhiên rời rạc, các giá trị có thể có của X là 1; 2;
1
3; 4; 5; 6; với các xác suất tƣơng ứng đều bằng . Do đó bảng phân phối xác suất
6
của X có dạng:
X 1 2 3 4 5 6
33
1 1 1 1 1 1
P
6 6 6 6 6 6
1 1 1 1 1 1
Kiểm tra:       1.
6 6 6 6 6 6
Ví dụ 5. Một chuồng gà có 10 con, trong đó có 6 con gà trống. Bắt ngẫu nhiên 2
con gà. Xây dựng quy luật phân phối xác suất của số gà trống đƣợc bắt ra.
Giải: Gọi Y là "Số gà trống đƣợc bắt ra trong 2 con gà". Y là đại lƣợng ngẫu
nhiên rời rạc với các giá trị có thể có của Y là 0, 1, 2. Ta tính các xác suất tƣơng ứng.
C24 6 2 C16C14 24 8 C62 15 5
P(Y  0)  2
  ; P(Y  1)  2
  ; P(Y  2)  2
  .
C10 45 15 C10 45 15 C10 45 15
Vậy quy luật phân phối của Y có dạng:
Y 0 1 2
2 8 5
P
15 15 15
2 8 5
Kiểm tra:    1.
15 15 15
Ví dụ 6. Xác suất để xạ thủ bắn trúng bia là 0,8. Xạ thủ đƣợc phát từng viên
đạn để bắn cho đến khi trúng bia. Xây dựng quy luật phân phối xác suất của số viên
đạn đƣợc phát.
Giải: Gọi X là "Số viên đạn mà xạ thủ đƣợc phát". X là đại lƣợng ngẫu nhiên
rời rạc với các giá trị có thể có của X là 1, 2, 3,..., k,... Ta tìm các xác suất tƣơng
ứng. Xác suất P(X  1) là xác suất để số viên đạn đƣợc phát bằng 1. Muốn xảy ra
biến cố đó thì ngay phát đạn đầu tiên xạ thủ phải bắn trúng bia. Do đó:
P(X  1)  0,8 .
Xác suất P(X  2) là xác suất để ngƣời ấy đƣợc phát 2 viên đạn. Muốn vậy,
phải xảy ra đồng thời hai biến cố: phát thứ nhất bắn trƣợt, phát thứ 2 bắn trúng.
Theo định lý nhân xác suất ta có: P(X  2)  0, 2.0,8 .
Ta tìm xác suất tổng quát P(X  k) . Biến cố (X  k) là tích của k biến cố:
k - 1 phát đầu bắn trƣợt và phát thứ k bắn trúng. Theo định lý nhân xác suất ta có:
X 1 2 ... k ...
P 0,8 0,2.0,8 ... (0,2)k 1.0,8 ...
Kiểm tra: 0,8 + 0,2 + 0,8 +... + (0,2)k 1.0,8 +...

Đây chính là tổng của một cấp số nhân lùi vô hạn với công bội q = 0,2. Do đó:

0,8
 (0, 2)k 1.0,8  1  0, 2  1 .
k 1
34
2.2. Hàm phân phối xác suất
Khái niệm hàm phân phối xác suất áp dụng đƣợc đối với cả đại lƣợng ngẫu
nhiên rời rạc và liên tục.
Hàm phân phối xác suất của đại lượng ngẫu nhiên X, ký hiệu là F(x), là xác
suất để đại lượng ngẫu nhiên X nhận giá trị nhỏ hơn x, với x là một số thực bất kỳ.
F(x) = P(X < x) . (3.1)
Chú ý: Đây là định nghĩa tổng quát của hàm phân phối xác suất. Đối với
từng loại đại lƣợng ngẫu nhiên, hàm phân phối xác suất đƣợc tính theo những công
thức riêng.
Nếu X là đại lượng ngẫu nhiên rời rạc, thì hàm phân phối xác suất được xác
định bởi công thức:
0 khi : x  x1
 i 1

F(x)   pi   p j khi : x i 1 < x  x i (3.2)
x x
i  j1
1 khi : x > x n
Nếu X là đại lượng ngẫu nhiên liên tục, thì hàm phân phối xác suất được xác
x
F(x) =  f(x)dx , (3.3)

trong đó f(x) là hàm mật độ xác suất của đại lƣợng ngẫu nhiên liên tục X (sẽ nói
đến ở phần sau).
Ví dụ 7. Đại lƣợng ngẫu nhiên rời rạc X có bảng phân phối xác suất nhƣ sau:
X 1 3 4
P 0,1 0,5 0,4
Hãy xây dựng hàm phân phối.
Giải:
Nếu x  1, biến cố (X < x) là biến cố không thể có, do đó F(x) = 0.
Nếu 1 < x ≤ 3, biến cố (X < x) chỉ xảy ra khi (X = 1), do đó F(x) = 0,1.
Nếu 3 < x ≤ 4, biến cố (X < x) sẽ xảy ra hoặc khi (X = 1) hoặc khi (X = 3),
do đó: F(x) = 0,1 + 0,5 = 0,6.
Nếu x > 4 biến cố (X < x) sẽ xảy ra hoặc khi (X = 1) hoặc khi (X = 3) hoặc
khi (X = 4), do đó: F(x) = 0,1 + 0,5 + 0,4 = 1.
35
0 khi : x  1
0,1 khi :1 < x  3

Vậy hàm phân phối xác suất: F(x) = 
0,6 khi : 3 < x  4

1 khi : x > 4
y=k-1
Đồ thị của F(x) có dạng bậc thang.
y
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
x
O 1 2 3 4 5 6 7
Hình 1.1. Đồ thị hàm F(x)

Nhƣ vậy, đồ thị của hàm phân phối xác suất của đại lƣợng ngẫu nhiên rời rạc
có dạng bậc thang, với số điểm gián đoạn chính bằng số giá trị có thể có của X. Nếu
X là đại lƣợng ngẫu nhiên liên tục thì hàm phân phối xác suất của nó liên tục và khả
vi tại mọi điểm của X, do đó đồ thị của nó sẽ là một đƣờng cong liên tục.
 Các tính chất của hàm phân phối xác suất
Tính chất 1. 0  F(x)  1,  x .
Tính chất này suy trực tiếp từ định nghĩa hàm phân phối xác suất, vì nó là
một xác suất nên giá trị của nó luôn nằm trong  0,1 .
Tính chất 2. Hàm phân phối xác suất là hàm không giảm, tức là với x2  x1
thì: F ( x2 )  F ( x1 ) .
Chứng minh: Giả sử x 2  x1 . Xét biến cố (X  x 2 ) . Biến cố này có thể phân
tích thành hai biến cố xung khắc (X  x1 ) và (x1  X  x 2 ) . Theo định lý cộng xác
suất ta có:
P(X  x 2 )  P(X  x1 )  P(x1  X  x 2 ) .
Từ đó
P(X  x 2 )  P(X  x1 )  P(x1  X  x 2 ) .
hay
F(x 2 )  F(x1 )  P(x1  X  x 2 ) .
Vì vế phải là một xác suất nên không âm, do đó:
F(x 2 )  F(x1 )  0  F(x 2 )  F(x1 ).
Hệ quả 1. P(a  X  b)  F(b)  F(a). (3.4)
36
Hệ quả 2. Xác suất để đại lượng ngẫu nhiên liên tục X nhận một giá trị xác
định thì bằng 0:
P(X  x)  0. (3.5)
Thật vậy: Nếu đặt a  x, b  x  x thì
P(x  X  x  x)  F(x  x)  F(x).
Lấy giới hạn cả hai vế khi x  0
lim P(x  X  x  x )  lim(F(x  x)  F(x)) .
x 0 x 0
Vì X là đại lƣợng ngẫu nhiên liên tục, do đó tại điểm x, hàm phân phối xác
suất cũng liên tục. Vì vậy:
lim F(x  x)  F(x)  P(X  x)  F(x)  F(x)  0.
x 0
Hệ quả 3. Nếu X là đại lượng ngẫu nhiên liên tục thì:
P(a  X  b)  P(a  X  b)  P(a  X  b)  P(a  X  b). (3.6)
Chứng minh: Chẳng hạn, với đẳng thức P(a  X  b)  P(a  X  b) , ta
chứng minh nhƣ sau:
P(a  X  b)  P(X  a)  P(a  X  b)  P(a  X  b).
Nhận xét: Việc xét xác suất để lƣợng ngẫu nhiên liên tục X nhận một giá trị
xác định là không có ý nghĩa, song việc tìm xác suất để nó nhận giá trị trong một
khoảng, dù rất nhỏ lại có ý nghĩa.
Tính chất 3. Ta có biểu thức giới hạn sau: F()  0, F()  1.
Thật vậy: F()  P(X  )  P()  0.
F()  P(X  )  P()  1.
 Ý nghĩa của hàm phân phối xác suất
Hàm phân phối xác suất phản ánh mức độ tập trung xác suất ở về phía bên
trái một số thực x nào đó.
Ví dụ 8. Đại lƣợng ngẫu nhiên X có hàm phân phối xác suất:

0 khi x  1

3 3 1
F(x)   x  khi  1  x 
4 4 3
 1
1 khi x 
3
 1
Tìm xác suất để trong kết quả của phép thử, X nhận giá trị trong đoạn 0;  .
 3
Giải: Theo tính chất của hàm phân phối xác suất:
1 1
P(0  X  )  F( )  F(0).
3 3
37
 1 3 3
Trong đoạn 0;  ta có F(x)  x  . Do đó:
 3 4 4
1 3 1 3 3 3 1
F( )  F(0)   .     .0    .
3 4 3 4 4 4 4
1 1
Nhƣ vậy: P(0  X  )  .
3 4
Ví dụ 9. Cho đại lƣợng ngẫu nhiên liên tục X có hàm phân phối xác suất:
0 khi x  a
 x
F(x)  A  B.arcsin khi  a  x  a
 a
1 khi x  a
Hãy tìm A, B ?
Giải: Theo tính chất của hàm phân phối: 0  F(x)  1 suy ra:
x
0  A  B.arcsin  1.
a
Mặt khác, vì X liên tục nên F(x) cũng liên tục. Do đó:
 x  
lim F(x )  lim F(x)  F(a)  lim  A  B.arcsin   0  A  B     0 .

x  a 
x  a x  a 

a  2
 x  
lim F(x)  lim F(x)  F(a)  lim  A  B.arcsin   1  A  B    1.
x a 
x a 
x a 

a  2
1 1
Kết hợp lại, ta tìm đƣợc A  , B  .
2 
2.3. Hàm mật độ xác suất
Hàm mật độ xác suất đặc trƣng cho quy luật phân phối xác suất của đại
lƣợng ngẫu nhiên liên tục X.
Hàm mật độ xác suất của đại lượng ngẫu nhiên liên tục X, ký hiệu f ( x) , là
đạo hàm bậc nhất của hàm phân phối xác suất của đại lượng ngẫu nhiên đó.
f (x)  F(x) .
 Các tính chất của hàm mật độ xác suất
Tính chất 4. f(x)  0,  x .
Chứng minh: Vì hàm phân phối xác suất F(x) là một hàm không giảm, do đó
đạo hàm của nó F(x)  f (x) là một hàm không âm. Về mặt hình học điều đó có
nghĩa là đồ thị của hàm f (x) không nằm thấp hơn trục Ox.
38
b
Tính chất 5. P(a  X  b)   f (x)dx . (3.7)
a
Chứng minh: Theo tính chất của hàm phân phối xác suất ta có:
P(a  X  b)  F(b)  F(a) .
Theo công thức Newton- Leibnitz:
b b
F(b)  F(a)   F'(x)dx   f (x)dx .
a a
b
Do đó: P(a  X  b)   f (x)dx .
a
x
Tính chất 6.  f (x)dx  F(x) . (3.8)

Chứng minh: Theo định nghĩa của hàm phân phối xác suất, ta có:
F(x)  P(X  x)  P(  X  x) .
Theo tính chất 5, đặt a   ; và b  x ta có:
x
P(  X  x)   f (x)dx .

Công thức này cho phép tìm hàm phân phối xác suất của đại lƣợng ngẫu
nhiên liên tục khi đã biết hàm mật độ xác suất của nó.

Tính chất 7.  f(x)dx  1 . (3.9)

Chứng minh: Theo tính chất 2, đặt a  , b   . Ta có:

P(  X  )   f(x)dx .

Vì biến cố (  X  ) là biến cố chắc chắn, do đó:

 f(x)dx  P()  1 .

Chú ý:
Để hàm f(x) là hàm mật độ xác suất của đại lƣợng ngẫu nhiên liên tục nào đó
thì nó phải thỏa mãn hai điều kiện:
f(x)  0, x
 

  f(x)dx  1
 
Ví dụ 10. Hàm phân phối của đại lƣợng ngẫu nhiên liên tục X có dạng:
0 khi x  0
 2
F(x)  ax khi 0  x  1
1 khi x  1

39
a) Hãy tìm hệ số a.
b) Tìm hàm mật độ xác suất f (x) .
c) Tìm xác suất để đại lƣợng ngẫu nhiên X nhận giá trị trong khoảng
(0,25;0,75).
Giải:
a) Vì F(x) liên tục, do đó nó liên tục tại x  1, ax 2  1  a  1.
0 khi : x  0

b) Ta có: f (x)  F(x)  2x khi : 0  x  1
0 khi : x  1

c) Theo tính chất của hàm phân phối xác suất:
P(0,25  X  0,75)  F(0,75)  F(0,25)  (0,75)2  (0,25)2  0,5
Ví dụ 11. Đại lƣợng ngẫu nhiên liên tục X có hàm mật độ xác suất:
   
 a.cos x khi x    , 
  2 2
f (x)  
0   
khi x    , 

  2 2
a) Tìm hệ số a ?
b) Tìm hàm phân phối xác suất F(x) ?
 
c) Tìm xác suất để đại lƣợng ngẫu nhiên X nhận giá trị trong khoảng  0,  .
 4
Giải:
a) Vì f (x) là hàm mật độ xác suất của đại lƣợng ngẫu nhiên liên tục X nên
f (x)  0, x

nó thỏa mãn:  
  f (x)dx  1

  
Với mọi x    ,   cos x  0 . Do đó từ điều kiện đầu suy ra a  0 .
 2 2
Với điều kiện sau ta thấy
  

 2 2 
1
1   f (x)dx   f (x)dx   a.cos xdx   f (x)dx  a.sin x  2a  a  .
2
   2

2 2

2
1
Kết hợp với a  0 , ta có a  .
2
b) Để tìm hàm phân phối xác suất, ta sử dụng tính chất của hàm mật độ xác
suất:
40
x
F(x)   f (x)dx .

 x
Với x   : F(x) 
2
 0dx  0 .



  x 2 x
1 1
Với   x  : F(x)   f (x)dx   0dx   2 cos xdx  2 (sin x  1) .
2 2   
2
 

 x 2 2
1 x
Với x  : F(x)   f (x)dx   0dx   2 cos xdx   0dx  1 .
2   
2 2
Vậy hàm phân phối xác suất của x có dạng:

0 
khi x  
 2

1  
F(x)   (sin x  1) khi   x 
2 2 2
 
1 khi x 
2
c) Theo tính chất của hàm phân phối xác suất, ta có:
  1  1 2
P(0  x  )  F( )  F(0)  (sin  1)  (sin 0  1)  .
4 4 2 4 2 4
 Ý nghĩa của hàm mật độ xác suất
Hàm mật độ xác suất của đại lƣợng ngẫu nhiên X tại mỗi điểm x cho biết
mức độ tập trung xác suất tại điểm đó.
3. Các tham số đặc trƣng của đại lƣợng ngẫu nhiên
Nhƣ ta đã biết, quy luật phân phối xác suất của đại lƣợng ngẫu nhiên (cho
dƣới dạng bảng phân phối, hàm phân phối hay hàm mật độ) hoàn toàn xác định đại
lƣợng ngẫu nhiên. Nhƣ vậy, khi xác định đƣợc quy luật phân phối xác suất thì ta đã
nắm đƣợc toàn bộ thông tin về đại lƣợng ngẫu nhiên đó. Tuy nhiên, trong thực tế ta
không chỉ cần đến những thông tin đó, mà còn phải quan tâm đến những thông tin
cô đọng phản ánh những đặc trƣng quan trọng của đại lƣợng ngẫu nhiên đang đƣợc
nghiên cứu. Những thông tin cô đọng phản ánh từng phần về đại lƣợng ngẫu nhiên
đƣợc gọi là các tham số đặc trƣng. Sau đây, ta nghiên cứu một vài tham số quan
trọng nhất.
3.1. Kỳ vọng toán
41
Giả sử đại lượng ngẫu nhiên rời rạc X nhận một trong các giá trị có thể có
x1 , x2 ,..., xn với các xác suất tương ứng p1 , p2 ,..., pn . Kỳ vọng toán của X, ký hiệu
là E ( X ) , là tổng các tích giữa các giá trị có thể có của đại lượng ngẫu nhiên rời
rạc với các xác suất tương ứng.
n
E(X)   x i pi . (3.10)
i 1
Nếu X là đại lượng ngẫu nhiên liên tục, với hàm mật độ xác suất f (x) thì kỳ
vọng toán E ( X ) được xác định bởi:

E(X)   xf (x)dx.

(3.11)
Chú ý:
Kỳ vọng toán của đại lƣợng ngẫu nhiên là một số xác định.
b
Nếu f(x) chỉ dƣơng trong khoảng (a,b) thì: E(X)   xf(x)dx .
a
Ví dụ 12. Tìm kỳ vọng toán của đại lƣợng ngẫu nhiên rời rạc X có bảng
phân phối xác suất nhƣ sau:
X 1 3 4
P 0,1 0,5 0,4
Giải: Theo định nghĩa kỳ vọng toán của đại lƣợng ngẫu nhiên rời rạc, ta có:
n
E(X)   x p  1.0,1  3.0,5  4.0,4  3,2 .
i 1 i i
Ví dụ 13. Tìm kỳ vọng toán của đại lƣợng ngẫu nhiên liên tục X có hàm mật
độ xác suất nhƣ sau:
3 2
 ( x  2x) khi x  (0,1)
f (x)   4
0 khi x  (0,1)
Giải: Theo định nghĩa kỳ vọng toán của đại lƣợng ngẫu nhiên liên tục ta có:

31 31 3 3  x 4 2x 3  1 11
E(X)   xf (x)dx   x(x 2
 2x)dx   (x  2x 2
)dx      .
4 4 4  4 3  0 16
 0 0  
 Các tính chất của kỳ vọng toán
Tính chất 8. E(C)  C (C  const). (3.12)
Thật vậy, ta coi C nhƣ là một đại lƣợng ngẫu nhiên rời rạc đặc biệt với một
giá trị có thể có bằng C và xác suất tƣơng ứng bằng 1. Khi đó, theo định nghĩa kỳ
vọng toán ta có:
E(C)  C.1  C.
42
Tính chất 9. E(CX)  C.E(X) (C  const). (3.13)
Thật vậy, giả sử X là đại lƣợng ngẫu nhiên rời rạc nhận một trong các giá trị
có thể có x1,x 2 ,...,x n với P(X  x i )  pi .
Ta có P(CX  Cx i )  pi
n n
E  CX    Cx i pi  C x i pi  C  EX  .
i=1 i=1
Tính chất 10. E(X  Y)  E(X)  E(Y) . (3.14)

Giả sử X, Y là các đại lƣợng ngẫu nhiên rời rạc tƣơng ứng nhận một trong
các giá trị có thể có x1,x 2 ,...,x n và y1,y2 ,...,ym với P(X  xi )  pi và P(Y  y j )  q j .
n m
Giả sử P(X  Y  x i  y j )  pij , ta chứng minh  pij  q j ;  pij  pi .
i 1 j1
Thật vậy, theo định lý cộng xác suất ta có:

P(X  x i )  P ((X  Y)  (x i  y1 ))  ((X  Y)  (x i  y 2 ))  ...  ((X  Y)  (x i  y m )) 
 P  (X  Y)  (x i  y1 )  P (X  Y)  (x i  y 2 )   ...  P (X  Y)  (x i  y m )
m
 pi  pi1  pi2  ...  pim   pij .
j1
n
Tƣơng tự ta có:  pij  q j.
i 1
Theo định nghĩa kỳ vọng toán ta có:

n m n m n m n m m n
E(X  Y)   (x i  y j )pij   x i pij   y jpij   x i  pij   y j  pij
i 1 j1 i 1 j1 i 1 j1 i 1 j1 j1 i 1
n m
  x i pi   y jq j  E(X)  E(Y).
i 1 j1
n n
Hệ quả: E( x i )   E(x i ) . (3.15)
i 1 i 1
Tính chất 11. Nếu X và Y là hai đại lượng ngẫu nhiên độc lập thì:
E(XY)  E(X) E(Y). (3.16)
(X và Y gọi là độc lập với nhau nếu mọi biến cố liên quan đến X độc lập với
biến cố bất kỳ liên quan đến Y.)
Thật vậy, giả sử X và Y là các đại lƣợng ngẫu nhiên rời rạc tƣơng ứng nhận
một trong các giá trị có thể có x1, x 2 ,..., x n và y1, y2 ,..., ym với P(X  x i )  pi và
P(Y  y j )  q j .
P(XY  xi y j )  P((X  x i )  (Y  y j ))  P(X  x i )P(Y  y j )  piq j .
n m n m
Ta có: E(XY)   x i y jpi q j   x i pi  y jq j  E(X) E(Y) .
i 1 j1 i 1 j1
43
 n  n
Hệ quả: E   x i    E(x i ) ( x1 , x 2 ,..., x n độc lập với nhau). (3.17)
 i1  i 1
 Bản chất và ý nghĩa của kỳ vọng toán
Giả sử đối với đại lƣợng ngẫu nhiên X, tiến hành n phép thử, trong đó n1 lần
n
X nhận giá trị x1 , n 2 lần X nhận giá trị x 2 ,..., n k lần X nhận giá trị x k , ( n i  n) .
i 1
Giá trị trung bình của đại lƣợng ngẫu nhiên X trong n phép thử này là:
n x  n 2 x 2  ...  n k x k n n n
X 1 1  x1 1  x 2 2  ...  x k k .
n n n n
n n n
Với chú rằng 1 , 2 ,..., k chính là tần suất xuất hiện các giá trị x1 , x 2 ,..., x n trong
n n n
n phép thử trên. Do đó: X  x1f1  x 2f 2  ...  x k f k .
Theo định nghĩa thống kê về xác suất, khi n   các tần suất sẽ hội tụ theo
xác suất về các xác suất tƣơng ứng, do đó với n đủ lớn ta có thể viết:
X  x1p1  x 2 p2  ...  x k pk  E(X) .
Vậy kỳ vọng toán của đại luợng ngẫu nhiên gần bằng trung bình số học của
các giá trị quan sát của đại lượng ngẫu nhiên. Nó phản ánh giá trị trung tâm của
phân phối xác suất của đại lượng ngẫu nhiên.
Ví dụ 14. Tung con xúc xắc n lần. Tìm kỳ vọng toán của tổng số chấm thu
đƣợc.
Giải: Gọi Xi (i  1,n) là số chấm thu đƣợc ở lần tung thứ i và gọi X là tổng số
n
chấm thu đƣợc trong n lần tung. Nhƣ vậy: X   Xi . Theo tính chất của kỳ vọng toán:
i 1
n n
E(X)  E( Xi )   E(Xi ) .
i 1 i 1
Mỗi đại lƣợng ngẫu nhiên Xi đều có bảng phân phối xác suất nhƣ sau:
Xi 1 2 3 4 5 6
1 1 1 1 1 1
P
6 6 6 6 6 6
1 7 7
Do đó: E(Xi )  (1  2  3  4  5  6)  , i  E(X)  n .
6 2 2
3.2. Phương sai
Trong thực tế nhiều khi chỉ xác định kỳ vọng toán của đại lƣợng ngẫu nhiên
thì chƣa đủ để xác định đại lƣợng ngẫu nhiên đó. Ta còn phải xác định mức độ phân
tán của các giá trị của đại lƣợng ngẫu nhiên xung quanh các giá trị trung bình của
nó nữa. Từ đó ta có khái niệm phƣơng sai.
44
Phương sai của đại lượng ngẫu nhiên X, ký hiệu D( X ) là kỳ vọng toán của
bình phương sai lệch của đại lượng ngẫu nhiên so với kỳ vọng toán của nó.
D(X)  E  X  E(X) .
2
(3.18)
Nhƣ vậy, nếu X là đại lƣợng ngẫu nhiên rời rạc thì phƣơng sai xác định bởi
công thức:
n
D(X)    X  E(X) pi .
2
(3.19)
i=1
Còn nếu X là đại lƣợng ngẫu nhiên liên tục có hàm mật độ xác suất f (x) thì
phƣơng sai đƣợc xác định bởi công thức:

D(X)    X  E(X)
2
f(x)dx . (3.20)

Trong thực tế, việc tính phƣơng sai bằng các công thức trên có thể gặp khó
khăn. Ngƣời ta thƣờng tính phƣơng sai bằng công thức sau:
D(X)  E(X2 )   E(X) .
2
(3.21)
Thật vậy, theo định nghĩa của phƣơng sai:
D(X)  E  X  E(X)   E X 2  2XE(X)  E(X) 2 
2
 E(X 2 )  2E(X)E(X)  (E(X)) 2

 E(X 2 )  (E(X)) 2 .
Do đó, nếu X là rời rạc thì:
2
 n
n

D(X)   x p    x i pi  .
2
i i (3.22)
i 1  i1 
Nếu X là liên tục thì:
2

  
D(X)   x f (x)dx    xf (x)dx  .
2
(3.23)
   
Ví dụ 15. Đại lƣợng ngẫu nhiên rời rạc X có bảng phân phối xác suất nhƣ
sau:
X 1 3 4
P 0,1 0,5 0,4
Hãy tìm phƣơng sai ?

Giải: Áp dụng công thức D(X)  E(X2 )   E(X) , do đó ta cần tính:
2
E(X)  1.0,1  3.0,5  4.0,4  3,2 .

E(X2 )  12.0,1  32.0,5  42.0,4  11.
45
Vậy D(X) 11 (3,2) 2  0,76 .
Ví dụ 16. Đại lƣợng ngẫu nhiên liên tục X có hàm mật độ xác suất nhƣ sau:
2x khi x  (0,1)
f(x)  
0 khi x  (0,1)
Hãy tìm phƣơng sai.
Giải: Áp dụng công thức: D(X)  E(X2 )   E(X) .
2
 1
2x 3 2
Ta cần tính: E(X)   xf(x)dx   x.2x.dx 
1
 .
 0 3 0 3
 1
x4 1
Tính E(X )   x f (x)dx   x .2x.dx 
1
2 2 2
 .
 0 2 0 2
2
Vậy: D(X)      .
1 2 1
2  3  18
Chú ý: Phƣơng sai của đại lƣợng ngẫu nhiên là một giá trị xác định không âm.
 Các tính chất của phƣơng sai
Tính chất 12: D(C)  0  C  const  . (3.24)
Thật vậy, theo định nghĩa của phƣơng sai
D(C)  E C E(C)  E(C  C)2  E(0)  0 .
2
Tính chất 13: D(CX)  C D(X)  C  const  .

2
(3.25)
Thật vậy:
D(CX)  E CX  E(CX)  E CX  CE(X)  EC2  X  E(X)
2 2 2
 C2 E  X  E(X)  C2D(X).
2
Tính chất 14: Phương sai của hai đại lượng ngẫu nhiên độc lập bằng tổng
của các phương sai thành phần: D(X  Y)  D(X)  D(Y) . (3.26)
Thật vậy, theo công thức tính phƣơng sai:
D(X  Y)  E (X  Y) 2    E(X  Y) 
2
 E  X 2  2XY  Y 2    E(X)  E(Y)

2
 E(X) 2  2E(X)E(Y)  E(Y 2 )   E(X)   2E(X)E(Y)   E(Y) 

2 2
 E(X) 2   E(X)   E  Y 2    E(Y) 

2 2
 D(X)  D(Y).
Hệ quả 1: Với X1 ,X2 ,...,X n là các đại lƣợng ngẫu nhiên độc lập
n n
D( Xi )   D(Xi ) . (3.27)
i 1 i 1
46
Hệ quả 2: D(C X)  D(X) ;  C  const  . (3.28)
Hệ quả 3: D(X  Y)  D(X)  D(Y) . (3.29)
 Bản chất và ý nghĩa của phƣơng sai
Xuất phát từ định nghĩa của phƣơng sai, ta thấy phƣơng sai chính là trung
bình số học của bình phƣơng các sai lệch giữa các giá trị có thể có của đại lƣợng
ngẫu nhiên so với giá trị trung bình của các giá trị đó. Do vậy, nó phản ánh mức độ
phân tán của các giá trị của đại lƣợng ngẫu nhiên xung quanh giá trị trung tâm của
nó là kỳ vọng toán.
Ví dụ 17. Tung con xúc xắc n lần. Tìm phƣơng sai của tổng số chấm thu
đƣợc.
Giải: Gọi Xi (i  1, n) là số điểm thu đƣợc ở con xúc xắc thứ i. Gọi X là
n
tổng số chấm thu đƣợc ở cả n con xúc xắc. Vậy: X   X i .
i 1
n n
Vì các X i độc lập với nhau nên: D(X)  D( Xi )   D(Xi ) .
i 1 i 1
Ta có: D(Xi )  E(Xi 2 )   E(Xi ) .

2
Mỗi đại lƣợng ngẫu nhiên Xi đều có bảng phân phối xác suất nhƣ sau:
Xi 1 2 3 4 5 6
1 1 1 1 1 1
P
6 6 6 6 6 6
1 7
Do đó: E(Xi )  (1  2  3  4  5  6)  , i .
6 2
1 91
Và E(Xi2 )  (12  22  32  42  52  62 )  .
6 6
2
91  7  35
Do đó: D(Xi )      (i  1,n) .
6 2 12
n
35
Vậy: D(X)   D(Xi )  n.
i 1 12
3.3. Độ lệch chuẩn
Độ lệch chuẩn của đại lượng ngẫu nhiên X, ký hiệu là σ , là căn bậc hai của
phương sai. Ta có:
σ  D(X) . (3.30)
Đơn vị đo của phƣơng sai bằng bình phƣơng đơn vị đo của đại lƣợng ngẫu
nhiên. Vì vậy khi cần đánh giá mức độ phân tán của đại lƣợng ngẫu nhiên theo đơn
47
vị đo của nó, ngƣời ta thƣờng tính độ lệch chuẩn chứ không phải là phƣơng sai, vì
nó cùng đơn vị đo với đại lƣợng ngẫu nhiên.
4. Một số quy luật phân phối xác suất thông dụng
4.1. Quy luật không - một
Đại lượng ngẫu nhiên rời rạc X được gọi là phân phối theo quy luật không -
một với tham số p nếu X nhận một trong hai giá trị có thể có X  0; 1 với các xác
suất tương ứng được tính bằng công thức:
Px  px (1  p)1x (x  0;1) .
Ký hiệu: A(p)
Do đó, bảng phân phối xác suất của đại lƣợng ngẫu nhiên phân phối theo quy
luật không - một có dạng:
X 0 1
P q p
(q  1  p) .
Các tham số đặc trƣng của quy luật không - một
E(X)  p ; D(X)  pq ; (X)  pq .
Thật vậy theo bảng phân phối xác suất ta sẽ tính đƣợc:
E(X)  0q  1p  p .
D(X)  E(X2 )  (E(X))2  (02 q  12 p)  (p2 )  p(1  p)  pq .
4.2. Quy luật nhị thức- Bernoulli
Giả sử ta có một lƣợc đồ Bernoulli, tức là tiến hành n phép thử độc lập, trong
mỗi phép thử chỉ có hai trƣờng hợp, hoặc biến cố A xảy ra hoặc biến cố A không
xảy ra, xác suất xảy ra biến cố A trong mỗi phép thử đều bằng p và xác suất không
xảy ra biến cố A trong mỗi phép thử đều bằng q  1  p . Gọi X là “Số lần xảy ra
biến cố A trong n phép thử” thì X là biến ngẫu nhiên rời rạc nhận một trong các giá
trị có thể có X  0,1,2,...,n với các xác suất tƣơng ứng đƣợc tính bởi công thức
Bernoulli Px  Cn p q , x  0,1,2,...,n .
x x n x
Đại lượng ngẫu nhiên rời rạc X nhận một trong các giá trị có thể có
X = 0,1,2,...,n với các xác suất tương ứng được tính bởi công thức:
Px  Cnx px qn x , x  0,1,2,...,n . (3.31)
48
được gọi là phân phối theo quy luật nhị thức với các tham số n và p.
Ký hiệu: B(n,p).
Nhƣ vậy, bảng phân phối xác suất của đại lƣợng ngẫu nhiên X phân phối
theo quy luật nhị thức có dạng:
X 0 1 ... k ... n
P C0n p0q n C1n p1q n 1 ... Ckn pk q n k ... Cnn pn q 0
 Các tham số đặc trƣng của quy luật phân phối nhị thức:
E(X)  np , D(X)  npq , (X)  npq .
Thật vậy, gọi Xi (i  1,n) là số lần xuất hiện biến cố A trong phép thử thứ i.
Do các phép thử là độc lập nên các Xi (i  1,n) độc lập với nhau và mỗi Xi (i  1,n)
đều có phân phối không - một với tham số p:
Khi đó: E(Xi )  p ; D(Xi )  pq .

n
Ta có: X   Xi .
i=1
Theo tính chất của kỳ vọng toán và phƣơng sai ta có:

 n  n
E(X)  E   Xi    E(Xi )  np .
 i=1  i=1
 n  n
D(X)  D   Xi    D(Xi )  npq .
 i=1  i=1
Ngoài kỳ vọng, phƣơng sai và độ lệch chuẩn, trong quy luật nhị thức có một
tham số khác có nhiều ứng dụng trong thực tế mà ta đã biết, đó là mode (mục 3.4,
bài 2, chƣơng I).
Ví dụ 18. Điều trị một bệnh có xác suất khỏi bằng 0,8. Điều trị cho 10 bệnh
nhân. Gọi X là số bệnh nhân khỏi. Hỏi X có phân phối gì? Trung bình có mấy bệnh
nhân khỏi? Mode là bao nhiêu?
Giải: Bài toán thỏa mãn lƣợc đồ Bernoulli, do đó X có phân phối nhị thức
với tham số: n  6 , p  0,8 . Số bệnh nhân khỏi trung bình chính là kỳ vọng:
E(X)  np  6.0,8  4,8 .
Xét: np  q  6.0,8  0,2  4,6  . Do đó: Mode x 0   4,6  1  5 .
Số bệnh nhân có khả năng khỏi nhiều nhất là 5 ngƣời.
Nhắc lại: Mode chính là giá trị có khả năng xảy ra nhiều nhất trong các giá
trị có thể có của đại lƣợng ngẫu nhiên. Chẳng hạn nếu X là năng suất lao động của
một xí nghiệp thì mode chính là năng suất lao động mà nhiều công nhân đạt đƣợc
nhiều nhất.
49
4.3. Quy luật Poisson
Giả sử tiến hành n phép thử độc lập, trong mỗi phép thử xác suất để biến cố
A xảy ra đều bằng p và xác suất để biến cố A không xảy ra đều bằng q  1  p . Lúc
đó nếu gọi X là “Số lần xảy ra biến cố A trong n phép thử” thì X phân phối theo quy
luật nhị thức và xác suất để X nhận một trong các giá trị có thể có của nó đƣợc tính
bằng công thức Bernoulli. Tuy nhiên nếu số phép thử n quá lớn mà xác suất p lại
quá nhỏ thì việc tính toán lại gặp nhiều khó khăn. Trong trƣờng hợp này ngƣời ta sử
dụng công thức xấp xỉ Poisson.
Nhƣ vậy, trong bài toán Bernoulli với n rất lớn và p rất nhỏ ta phải tìm xác
suất để biến cố A xuất hiện đúng x lần.
Giả sử np  λ thì công thức Bernoulli đƣợc viết nhƣ sau:
n(n  1)(n  2)...(n  (x  1)) x n  x
Px  p q
x!
x n x
n(n  1)(n  2)...(n  (x  1))      
   1  
x! n  n
n x
 1  2   x  1     
x
 1  1   ...1   1   .
 n  n   n  x!  n 
 i
Ta có: lim 1    1 (i  1, x  1) .
n   n
n x
 λ
lim 1    e λ .
n   n
λx λ
Khi đó nlim P  e .
 x x!
Nhƣ vậy trong trƣờng hợp số phép thử n rất lớn, xác suất p rất nhỏ và tích
np  λ không đổi, các xác suất Px của công thức Bernoulli có thể thay thế bằng
công thức xấp xỉ Poisson sau:
e   x
Px  .
x!
Đại lượng ngẫu nhiên rời rạc X được gọi là phân phối theo quy luật Poisson
với tham số   0 nếu X nhận một trong các giá trị có thể có X = 0,1,2,... và các xác
suất tương ứng được tính bởi công thức xấp xỉ Poisson:
e  x
Px  P(X  x)  . (3.32)
x!
Ký hiệu: P(λ) .
Bảng phân phối xác suất của X phân phối theo quy luật Poisson có dạng:
50
X 0 1 ... k
λ0 λ1 λk
P e λ e λ ... e λ
0! 1! k!
Chú ý: Trong thực tế, công thức Poisson có thể dùng thay cho công thức
Bernoulli nếu thỏa mãn điều kiện n  20 và p  0,1.
 Các tham số đặc trƣng của quy luật Poisson
E(X)  λ ; D(X)  λ ; (X)  λ .
Mode đƣợc xác định bởi công thức: λ  1  x 0  λ .
Xảy ra hai trƣờng hợp:
Nếu λ  Z thì mode cùng một lúc nhận hai giá trị x 0  λ  1 và x 0  λ .
Nếu λ  Z thì mode sẽ là x 0   λ  .
Ví dụ 19. Xác suất mắc bệnh sau khi dùng vacxin bằng 0,001. Dùng vacxin
cho 2000 trẻ.
1) Tìm xác suất sao cho có 4 trẻ bị bệnh.
2) Tìm số trẻ bị bệnh trung bình sau tiêm.
3) Tìm số trẻ có khả năng bị bệnh nhiều nhất sau tiêm?
Giải: Bài toán thỏa mãn lƣợc đồ Bernoulli. Vì n  2000 khá lớn, p  0,001
khá nhỏ và tích np  2000.0,001  2 không đổi. Do đó nếu gọi X là số trẻ bị bệnh
sau tiêm thì X có phân phối Poisson.
e2 24
1) P4   0,09 .
4!
2) Số trẻ bị bệnh trung bình sau tiêm chính là kỳ vọng toán của X
E(X)  λ  2 .
3) Số trẻ có khả năng bị bệnh nhiều nhất sau tiêm là mode x 0 . Ta có
λ  2  Z nên x 0  1 và x 0  2 .
Nhƣ vậy số trẻ có khả năng bị bệnh nhiều nhất sau tiêm là 1 và 2 trẻ.
4.4. Phân phối chuẩn
Đại lượng ngẫu nhiên liên tục X nhận các giá trị trong khoảng  ;   gọi
là phân phối theo quy luật chuẩn với các tham số  và  2 nếu hàm mật độ xác suất
của nó có dạng:
( x  )
2
1 
f (x)  2
2
e (3.33)
 2
Ký hiệu: N(, 2 )
51
Đồ thị của hàm mật độ xác suất có dạng:
y=k-1
f(x)
1
σ 2π
1
σ 2πe
O   
Hình 1.2. Đồ thị hàm f(x) phân phối chuẩn.

f(x)
O   
Hình 1.3. Sự thay đổi của f(x) theo  .

Hàm phân phối xác suất theo quy luật chuẩn đƣợc xác định bởi:
( x  )
2
1 x  2
F(x)  e
2
dx . (3.34)
 2 
 Các tham số đặc trƣng của quy luật chuẩn:
E(X)   ; D(X)  2 ; (X)   .
Thật vậy, theo định nghĩa kỳ vọng toán của đại lƣợng ngẫu nhiên liên tục, ta có:
 ( x  )
2
1  
E(X)   xf (x)dx   xe 2
2
dx .
  2  
x 
Đổi biến t   x  t  , dx  dt .

2 2 2

1     2
t t t
1  
E(X)   (t    )e 2
dt   t e 2
dt   dt
e
2  2  2 

 0 2  .
2
52
( x  )
2 2
1   1  2  t2
D(X)     2
dx   t e dt  y=k-1
2 2 2
(x ) e .
 2  2 
t2

(Lấy tích phân từng phần với u = t và dv  te dt .) 2
Có liên quan mật thiết đến phân phối chuẩn là phân phối chuẩn hóa.
 Định nghĩa 11 (phân phối chuẩn hóa)
Giả sử đại lượng ngẫu nhiên X phân phối chuẩn N (  , 2 ) . Khi đó đại
X 
lượng ngẫu nhiên U  nhận giá trị trong khoảng  ;   gọi là tuân theo

quy luật phân phối chuẩn hóa, nếu hàm mật độ xác suất của nó có dạng:
2
1  u2
φ(u)  e . (3.35)
2π
Đồ thị của hàm mật độ xác suất φ(u) có dạng:
φ(u)
u
-2 -1 1 2
O
Hình 1.4. Đồ thị hàm φ(u) .

Hàm phân phối xác suất của đại lƣợng ngẫu nhiên U phân phối chuẩn hóa có
dạng:
2
1 u  u2
(u)   e du. (3.36)
2 
Các tham số đặc trƣng của phân phối chuẩn hóa
E(U)  0 ; D(U)  1; (U)  1.
Thật vậy, theo tính chất của kỳ vọng toán và tính chất của phƣơng sai ta có:
 X  1
E(U)  E    (E(X)  )  0 .
   
 X 1 1
D(U)  D    2 D(X  )  2 D(X)  1 .
    
Phân phối chuẩn hóa đƣợc ký hiệu: N(0,1) .
53
 Định nghĩa 12 (phân vị chuẩn)
Phân vị chuẩn mức  (còn gọi là giá trị tới hạn), ký hiệu U  , là giá trị của
đại lượng ngẫu nhiên U có phân phối chuẩn hóa thỏa mãn điều kiện:
P(U  U )   . (3.37)
Vì U có phân phối chuẩn hóa nên U có hàm mật độ là:
2
1  u2
φ(u)  e .
2π
Theo tính chất hàm mật độ ta có:
2
1 u  u2 α
P(U  u α )   e du  α.
2π 
Nhƣ vậy cho trƣớc α sẽ tính đƣợc U α và ngƣợc lại.
Bảng tính sẵn giá trị của U α với mức α cho trƣớc có trong bảng phân vị
chuẩn (Phụ lục 1).
Chú ý: Uα  U1α .
 Công thức tính xác suất để đại lƣợng ngẫu nhiên X phân phối chuẩn
nhận giá trị trong khoảng  a, b 
( x  )
2
b
1 
Ta đã biết: P(a  x  b)   f (x)dx ; với f (x)  2
2
e .
a  2
x 
Đặt z  thì x  z   và dx  dz .

a  b
Đổi cận: x  a  z  ; x bz .
 
Khi đó:
b  b  a 
2 2 2
 z  z  z
1  1  1 
P(a  x  b) 
 2
a  e dz  2
2
 e dz 
2
2
 e dz2
0 0

(3.38)
 b  a 
 0    0  .
     
2
1 u  z2
Trong đó 0 (u) 
2 0
e dz (Hàm Laplace) với các giá trị cho trƣớc đã
đƣợc tính sẵn trong bảng (Phụ lục 2).

Ví dụ 20. Kích thƣớc của các chi tiết do một máy sản xuất ra là đại lƣợng
ngẫu nhiên phân phối chuẩn với kích thƣớc trung bình   5 cm và độ lệch tiêu
chuẩn σ  0,9 cm . Tìm xác suất để lấy ngẫu nhiên một chi tiết có kích thƣớc nằm
trong khoảng từ 4cm đến 7cm.
54
Giải: Gọi X là kích thƣớc chi tiết đƣợc lấy ra. Theo giả thiết X phân phối
chuẩn N(,σ2 )  N(5,(0,9)2 ) . Do đó:
 75  45
P(4  x  7)  0    0    0 (2, 22)  0 (1,11)  0 (2, 22)  0 (1,11)
 0,9   0,9 
Tra bảng (Phụ lục 2) ta có: 0 (2,22)  0,4868; 0 (1,11)  0,3665 .
Do đó: P(4  x  7)  0, 4868  0,3665  0,8533 .
 Xác suất của sự sai lệch giữa đại lƣợng ngẫu nhiên và kỳ vọng toán của nó
Trong thực tế, nhiêu khi ta phải tính xác suất để đại lƣợng ngẫu nhiên X
phân phối chuẩn nhận giá trị sai lệch so với kỳ vọng của nó về giá trị tuyệt đối nhỏ
hơn một số dƣơng cho trƣớc.
Nghĩa là:
P( X    )  P(    x    )
      
 0    0    0    0    20  
        
 
Do đó: P( X  a  )  20   . Nếu ta lấy: t   t   thì ta có:
 
P( X    t)  20  t  .
Nếu t  1  P( X    )  20 1  2.0,34135  0,6827
Nếu t  2  P( X    2)  20  2   2.0,47725  0,9545
Nếu t  3  P( X    3)  20  3  2.0,49865  0,9973
Chú ý: (u)  0,5  0 (u)
Quy tắc 3 : Công thức P( X    3)  20  3  2.0,49865  0,9973 cho
thấy xác suất để đại lƣợng ngẫu nhiên có phân phối chuẩn nhận giá trị trong khoảng
   3,   3 lên tới 0,9973, còn xác suất để nó nhận giá trị ngoài khoảng đó chỉ
còn 0,0027 (hầu nhƣ không xảy ra).
Trong thực tế, quy tắc 3 đƣợc áp dụng nhƣ sau: Nếu quy luật phân phối
xác suất của đại lƣợng ngẫu nhiên đƣợc nghiên cứu chƣa biết, song nó thỏa mãn
điều kiện của quy tắc 3 thì ta có thể xem nhƣ nó là đại lƣợng ngẫu nhiên có phân
phối chuẩn.
 Phân phối xác suất của tổng các đại lƣợng ngẫu nhiên độc lập tuân theo
cùng một quy luật
Nếu X1 và X 2 là hai đại lƣợng ngẫu nhiên độc lập, tuân theo quy luật chuẩn
N(1 , 12 ) và N(2 , 22 ) . Khi đó X  X1  X2 cũng phân phối theo quy luật chuẩn
N(1  2 , 12  22 ) . Tính chất này cũng có thể mở rộng cho n đại lƣợng ngẫu nhiên
độc lập lẫn nhau và cùng phân phối chuẩn.
55
Hơn thế nữa nếu X1 ,X2 ,...,Xn là n đại lƣợng ngẫu nhiên độc lập lẫn nhau và
cùng tuân theo quy luật phân phối xác suất nào đó mà không nhất thiết là quy luật
chuẩn với các kỳ vọng toán E(X1 ), E(X2 ),..., E(Xn ) và các phƣơng sai
n
D(X1 ),D(X2 ),...,D(Xn ) thì đại lƣợng ngẫu nhiên X   Xi sẽ phân phối xấp xỉ
i 1
n n
chuẩn với E(X)   E(Xi ) và D(X)   D(Xi ) khi n khá lớn ( n  30 ).
i 1 i 1
4.5. Một số quy luật khác

4.5.1. Hàm Gamma
Hàm Gamma, ký hiệu là (n) , có biểu thức sau:

(n)   e x x n 1dx. (3.39)
0
Ứng với các giá trị n  2 , (n) đƣợc cho trong một bảng. Ví dụ:
(1, 46)  0,8856 , (2)  1.
Ứng với các giá trị n  2 , (n) đƣợc tính xấp xỉ theo công thức:
(n)  (n  1)(n  1) .
Với n nguyên dƣơng thì (n)  n! .
Với n đủ lớn, (n) đƣợc xác định theo công thức sau;
n n e  n 2
(n)  . (3.40)
n
4.5.2. Quy luật khi bình phương
 Định nghĩa 3.13
Giả sử X 1 , X 2 ,..., X n là n đại lượng ngẫu nhiên chuẩn tắc độc lập thì
n
Qn   x 2 là đại lượng ngẫu nhiên có quy luật khi bình phương  2 với n bậc tự
i
i 1
do.
Ký hiệu 2 (n) .
X1 là biến chuẩn tắc thì Q1  X1 là một biến  2 với 1 bậc tự do.
2
Chia n giá trị nghiên cứu thành k hàng, có k-1 bậc tự do.
Chia n giá trị nghiên cứu thành k hàng và m cột, có (k-1)(m-1) bậc tự do.
Q là đại lƣợng ngẫu nhiên có quy luật  2 với n bậc tự do, khi đó hàm mật độ
xác suất Q, có biểu thức sau:
56
x n
1  1
f (x)  n
e x 2 2
,(x  0) . (3.41)
n
2 ( )
2
2
Giá trị tới hạn khi bình phương, ký hiệu 2 ( n ) là giá trị của đại lượng ngẫu
nhiên Q phân phối theo quy luật khi bình phương với n bậc tự do, thỏa mãn điều
kiện:
P(T  2(n ) )   . (3.42)
Giá trị tới hạn khi bình phƣơng  2 cho ở bảng phụ lục 4.
4.5.3. Quy luật Student (Gosset W.S)

Giả sử U là đại lượng ngẫu nhiên có phân phối chuẩn hóa, tức là E (U )  0
D(U )  1 , độc lập với Vn là một đại lượng ngẫu nhiên phân phối theo quy luật  2
U
với n bậc tự do thì Tn  là đại lượng ngẫu nhiên phân phối theo quy luật
Vn
n
Student với n bậc tự do.
Ký hiệu T(n).
Khi đó hàm mật độ xác suất của Tn có biểu thức sau:
n 1
(  ) 
n 1
2 22
x 
f (x)  12 2 1   ,(x  ) . (3.43)
n
n 2 ( )  n 
2
(n)
Phân vị Student (giá trị tới hạn), ký hiệu t , là giá trị của đại lượng ngẫu
nhiên T phân phối theo quy luật Student với n bậc tự do, thỏa mãn điều kiện:
P(T  t (n ) )   . (3.44)
Giá trị của phân vị t  cho ở bảng phụ lục 3. Ngoài ra: t   t1 .
(n ) (n) (n)

57
NXB Thống kê.
58
Bài thảo luận 1: Vận dụng xác suất vào lập luận logic trong y học.
* Giảng viên:
Mục tiêu học tập:
1. Vận dụng đƣợc các công thức xác suất đã học để giải quyết bài toán
nghịch lý.
2. Giải thành thạo các bài toán xác suất trong y học.
Nội dung bài giảng:

Nghịch lý 1 (Nghịch lý Simpson). Thuốc nào tốt hơn ?
Một ngƣời nghiên cứu muốn xác định xem giữa 2 loại thuốc cùng để chữa 1
bệnh, loại nào tốt hơn. Kết quả thống kê về lƣợng ngƣời chữa đƣợc khỏi bệnh, phân
biệt theo giới tính, đƣợc viết dƣới đây:
Giới tính: Nữ Thuốc I Thuốc II
Chữa đƣợc 150 15
Không chữa đƣợc 850 285
Giới tính: Nam Thuốc I Thuốc II
Chữa đƣợc 190 720
Không chữa đƣợc 10 180
Dựa vào bảng thống kê trên, có 2 câu trả lời trái ngƣợc nhau nhƣ sau cho câu
hỏi thuốc nào tốt hơn:
1) Thuốc I đem cho 1200 ngƣời dùng, chữ đƣợc bệnh cho 340 ngƣời. Thuốc
II đem cho 1200 ngƣời dùng, chữa đƣợc 735 ngƣời, nhƣ vậy thuôc II tốt hơn.
2) Đối với nữ, tỷ lệ chữa đƣợc bệnh của Thuốc I là 15%, của Thuốc II là 5%.
Đối với nam, tỷ lệ chữa đƣợc bệnh của thuốc I là 95%, của thuốc II là 80%.
Trong cả hai trƣờng hợp thì tỷ lệ chữa đƣợc bệnh của thuốc I cao hơn, vậy
nên thuốc I tốt hơn. Trong hai câu trả lời trên câu trả lời nào đáng tin? Vì sao
? Nghịch lý nằm ở đâu ?
Nghịch lý 2. Hoàng tử có chị em gái không ?
Biết rằng cha mẹ của hoàng tử Romeo có 2 con (hoàng tử Romeo là một
trong hai ngƣời con đó). Hỏi xác suất để hoàng tử Romeo có sister (chị gái
hoặc em gái) là bao nhiêu ? Có 2 đáp án sau:
1) Hoàng tử có 1 ngƣời anh chị em ruột. Có hai khả năng: hoặc ngƣời đó là
con trai, hoặc là con gái. Nhƣ vậy xác suất để ngƣời đó là con gái (tức là hoàng tử
có sister) là 1/2.
59
2) Có 4 khả năng cho 1 gia đình có 2 con: {B,B}, {B,G}, {G,B}, {G,G}. (B
= boy = con trai, G = girl = con gái, xếp theo thứ tự con thứ nhất - con thứ
hai). Vì ta biết hoàng tử là con trai (đây là điều kiện) nên loại đi khả năng
{G,G}, còn 3 khả năng {B,B}, {B,G}, {G,B}. Trong số 3 khả năng đó thì có
2 khả năng có con gái. Nhƣ vậy xác suất để hoàng tử có sister là 2/3.
Trong hai đáp án trên, ắt hẳn phải có (ít nhất) 1 đáp án sai. Thế nhƣng cái
nào sai, sai ở chỗ nào ?
Nghịch lý 3. Văn Phạm có phải là thủ phạm ? Một ngƣời đàn ông tên là
Văn Phạm bị tình nghi là thủ phạm trong một vụ án. Cảnh sát điều tra đƣợc
những tin sau đây:
1) Ngoài nạn nhân chỉ có 2 ngƣời có mặt lúc xảy ra vụ án, một trong
hai ngƣời đó là Văn Phạm, ngƣời kia cảnh sát không hề biết là ai, và một
trong hai ngƣời đó là thủ phạm;
2) Thủ phạm phải là đàn ông. Hỏi xác suất để "Văn Phạm là thủ
phạm" là bao nhiêu ?
Gọi ngƣời thứ hai mà cảnh sát không biết là ai là "X". X có thể là đàn
ông hoặc đàn bà. Ta gọi sự kiện "Văn Phạm là thủ phạm" là A,
Sự kiện "X là đàn ông" là B, "thủ phạm là đàn ông" là C.
Có hai cách giải khác nhau nhƣ sau:
1) Theo công thức xác suất toàn phần ta có P(A) = P(A|B).P(B) +
P(A| B ).P( B ) Nếu X là đàn bà thì X không thể là thủ phạm và Văn Phạm
phải là thủ phạm, bởi vậy
P(A| B ) = 1.
Nếu X là đàn ông thì một trong hai ngƣời, X hoặc Văn Phạm, là thủ
phạm, bởi vậy P(A|B) = 1/2.
Cách 2: X có thể là đàn ông hoặc đàn bà, và ta coi số đàn ông bằng số
đàn bà, bởi vậy P(B) = P( B ) = 1/2. Từ đó ta có P(A) = (1/2).(1/2) + 1.(1/2) =
3/4, có nghĩa là xác suất để "Văn Phạm là thủ phạm" bằng 3/4.
2) Ta coi C là điều kiện, và muốn tính xác suất có điều kiện P(A|C)
(xác suất để Văn Phạm là thủ phạm, khi biết rằng thủ phạm là đàn ông).
Theo công thức Bayes ta có P(A|C) = P(C|A).P(A); P(C|A).P(A) +
P(C|A).P(A) . Ở trong công thức trên, P(A) là xác suất của sự kiện "Văn
Phạm là thủ phạm" nếu nhƣ chƣa có điều kiện "thủ phạm là đàn ông". Vì một
trong hai ngƣời Văn Phạm và X là thủ phạm, nên xác suất P(A) không có
điều kiện ở đây là P(A) = 1/2. Ta có P(C|A) = 1 vì tất nhiên nếu Văn Phạm là
thủ phạm thì thủ phạm là đàn ông. Ngƣợc lại, P(C|A) = 1/2 (nếu X là thủ
phạm, thì thủ phạm có thể là đàn ông hoặc đàn bà, khi mà chƣa đặt điều kiện
"thủ phạm là đàn ông"). Bởi vậy ta có:
60
1.(1 / 2) 1/ 2
P (A / C )   2/3
1.(1 / 2)  (1 / 2) / (1 / 2) 3 / 4
tức là xác suất để Văn Phạm là thủ phạm bằng 2/3. Hai cách giải trên cho 2
đáp số khác nhau, nhƣ vậy (ít nhất) một trong hai cách giải trên là sai. Cách
giải nào sai và sai ở chỗ nào ?

thống kê, NXB Đại học Thái Nguyên. (chƣơng 1 trang 1-82).
NXB Thống kê.
61
Bài 4: LÝ THUYẾT MẪU
* Giảng viên:
Kiến thức:
1. Trình bày đƣợc các tham số đặc trƣng của mẫu.
2. Vận dụng kiến thức về lý thuyết mẫu để xử lý dữ liệu trong bài toán cụ
thể.
Kĩ năng:
3. Tính đƣợc các tham số đặc trƣng của mẫu.

4.1. Tổng thể và mẫu
Trong thực tế thƣờng phải nghiên cứu một tập hợp các phần tử đồng nhất
theo một hay nhiều dấu hiệu định tính hoặc định lƣợng đặc trƣng cho các phần tử
đó. Chẳng hạn một bệnh viện phải nghiên cứu tập hợp các bệnh nhân thì dấu hiệu
định tính có thể là mức độ hài lòng của bệnh nhân đối với bệnh viện, còn dấu hiệu
định lƣợng là số lƣợng bệnh nhân có nhu cầu đến khám.
 Định nghĩa 4.1 (Định nghĩa tổng thể)
Toàn bộ tập hợp các phần tử đồng nhất theo một định tính hoặc định lượng
nào đó được gọi là tổng thể.
Số lƣợng các phần tử của tổng thể đƣợc gọi là kích thƣớc của tổng thể, ký
hiệu là N. Kích thƣớc của tổng thể có thể hữu hạn hoặc vô hạn.
Với mỗi tổng thể ta không nghiên cứu trực tiếp tổng thể đó mà thông qua dấu
hiệu  đặc trƣng cho tổng thể đó.
Trong thực tế vì các điều kiện hạn chế ta không thể sử dụng phƣơng pháp
nghiên cứu toàn bộ tức là nghiên cứu trên tập hợp tất cả các đối tƣợng của tổng thể,
(phƣơng pháp này thƣờng chỉ đƣợc áp dụng đối với các tập hợp có quy mô nhỏ), mà
chủ yếu sử dụng phƣơng pháp chọn mẫu, tức là từ tập hợp cần nghiên cứu chọn ra
một số phần tử (gọi là mẫu), phân tích các phần tử này và dựa vào đó mà suy ra các
62
kết luận về tổng thể cần nghiên cứu. Số phần tử của tập hợp mẫu gọi là kích thƣớc
mẫu hay cỡ mẫu, ký hiệu là n.
 Định nghĩa 4.2 (Định nghĩa mẫu ngẫu nhiên)
Mẫu ngẫu nhiên kích thước n là tập hợp của n biến ngẫu nhiên độc lập
X 1 , X 2 ,..., X n được thành lập từ biến ngẫu nhiên X trong tổng thể nghiên cứu và có
cùng quy luật phân phối xác suất với X. Ký hiệu W   X 1 , X 2 ,..., X n  .
Cần lấy mẫu ngẫu nhiên, khách quan sao cho tính chất của tập hợp mẫu phản
ánh đúng tính chất của tổng thể.
Có hai cách lấy các phần tử ra để nghiên cứu:
Lấy mẫu ngẫu nhiên có hoàn lại: Rút ngẫu nhiên từ một tập nào đó ra một
phần tử. Ghi lại các số liệu cần thiết, sau đó trả nó trở lại tập ban đầu trƣớc khi rút
tiếp ngẫu nhiên lần sau.
Lấy mẫu ngẫu nhiên không hoàn lại: Tƣơng tự nhƣ trên, chỉ khác ở chỗ các
phần tử đƣợc rút ra sẽ không đƣợc trả lại tập ban đầu.
4.2. Phân bố thực nghiệm
 Trƣờng hợp ít số liệu: Nếu dung lƣợng mẫu nhỏ, ta trình bày mẫu dƣới
dạng bảng:
Giá trị xi x1 x2 ... xk ......
Số lần lặp ( mi ) m1 m2 ... mk .......
k
Với  mi  n là dung lƣợng mẫu (cỡ mẫu).
i 1
Các giá trị x1 , x 2 ,..., x n đƣợc sắp xếp theo chiều tăng dần hoặc giảm dần.
 Trƣờng hợp nhiều số liệu: Với những nghiên cứu có kích thƣớc mẫu n rất
lớn, để tính các tham số mẫu thuận tiện mà sai số không đáng kể, có thể phân chia
số liệu thành nhiều lớp.
Nếu gọi k là số lớp định chia, x max là giá trị lớn nhất trong mẫu, x min là giá
trị nhỏ nhất trong mẫu thì độ dài mỗi lớp đƣợc xác định:
x max  x min
d (4.1)
k
Khi đó: lớp thứ nhất chứa số liệu từ x min  x min  d
63
lớp thứ hai chứa số liệu từ x min  d  x min  2d
lớp thứ k chứa số liệu từ x max  d  x max
Chú ý:
Để tránh trƣờng hợp số liệu có thể vừa rơi vào lớp này vừa rơi vào lớp bên
cạnh, ta quy ƣớc dùng nửa khoảng.
Nếu số liệu mẫu đã làm tròn đến đơn vị, độ dài mỗi lớp là h đơn vị, thì sẽ
d d
lấy mút trái của lớp đầu là x min  ; mút phải lớp cuối cùng là x max  .
2 2
Ví dụ 4.1. Trong một mẫu có dung lƣợng 100, với: x min  103 ; x max  157
Ta định chia mỗi lớp có độ dài d  3 . Khi đó:
d 3
Lớp đầu tiên chứa số liệu trong khoảng x min   103   101,5  104,5
2 2
Lớp thứ hai chứa số liệu từ 104,5  107,5
Lớp cuối cùng chứa số liệu từ 155,5  158,5
Các số liệu của mẫu sau khi đã đƣợc chia thành lớp, ta sẽ lấy trung bình của
lớp đó làm số đại diện cho toàn lớp. Số số liệu xuất hiện trong mẫu là số lần lặp của
số liệu trung bình của lớp. Khi đó ta có bảng phân bố thực nghiệm trình bày nhƣ ở
trƣờng hợp ít số liệu.
4.3. Đa giác tần suất và tổ chức đồ
Để mô tả số liệu mẫu một cách rõ ràng hơn cho phép đƣa ra những nhận xét
sơ bộ ban đầu về tổng thể, ngƣời ta còn xây dựng các loại đồ thị khác nhau của phân
bố thực nghiệm.
Đa giác tần số là một đường gãy khúc mà các đoạn thẳng của nó nối các
điểm (x1 , m1 ),(x 2 , m2 ),...,(x n , mn ) trên mặt phẳng.
Đa giác tần suất là một đường gãy khúc mà các đoạn thẳng của nó nối các
mi
điểm (x1 ,f1 ),(x 2 ,f 2 ),...,(x n ,f n ) trên mặt phẳng. Trong đó f i  .
n
Ví dụ 4.2. Vẽ đa giác tần suất của phân bố thực nghiệm cho ở bảng sau:
xi 17 19 20 22 24
64
mi 1 2 4 2 1
fi 0,1 0,2 0,4 0.2 0,1
fi
0.4
0.3
0.2
0.1
O xi
17 19 20 22 24
Hình 4.1. Đa giác tần suất.

Đa giác tần suất thƣờng đƣợc dùng để mô tả các số liệu mẫu theo thời gian.
Khi dấu hiệu nghiên cứu có phân phối liên tục thì nên xây dựng biểu đồ tần
số hay biểu đồ tần suất còn gọi là tổ chức đồ.
Tổ chức đồ: Nếu số liệu được chia thành lớp, thì mỗi lớp được biểu diễn
bằng một hình chữ nhật có đáy là độ dài d của lớp đó đặt trên trục OX và chiều cao
mi f m
là (với biểu đồ tần số) hay i (với biểu đồ tần suất và fi  i ) của lớp đó.
d d n
Ví dụ 4.3. Vẽ biểu đồ tần số của phân bố thực nghiệm cho ở bảng sau:
mi
Đoạn giá trị độ dài d=5 Tần số mi
d
5-10 10 2
10-15 26 5,2
15-20 56 11,2
20-25 64 12,8
25-30 30 6
30-35 14 2,8
65
13 mi
12 d
11
10
9
8
7
6
5
4
3
2
1
O 5 10 15 20 25 30 35 xi
Hình 4.2. Biểu đồ tần số.

4.4. Tham số mẫu
4.4.1. Trung bình mẫu
Cho mẫu ngẫu nhiên kích thước n được xây dựng từ đại lượng ngẫu nhiên
gốc X: Wx   X 1 , X 2 ,..., X n  . Trung bình mẫu là một thống kê, ký hiệu là X và là
trung bình số học của các giá trị mẫu:

1 1 n
X  X1  X2  ...  Xn    Xi (4.2)
n n i1
Khi mẫu nhận một giá trị cụ thể w   x1 , x 2 ,..., x n  thì trung bình mẫu cũng
1 n 1 k
nhận giá trị cụ thể bằng: X   x i hoặc X   mi x i ( mi là các tần số tƣơng ứng
n i 1 n i 1
của xi).
Ví dụ 4.4. Cho bảng số liệu sau:
xi 35,6 35,9 36,1 36,2 36,6
ni 1 3 3 2 1
1.35,6  3.35,9  3.36,1  2.36,2  1.36,6

Khi đó: X   36,06
10
 Tính chất: Nếu đại lượng ngẫu nhiên gốc X có kỳ vọng E ( X )   và
2
phương sai D( X )   2 , thì thống kê X có: E ( X )   và D( X )  .
n
66
Do vậy, bất kể đại lƣợng ngẫu nhiên gốc phân phối theo quy luật nào, thống
kê X cũng có kỳ vọng bằng kỳ vọng của đại lƣợng ngẫu nhiên gốc X, còn phƣơng
sai của nó nhỏ hơn n lần phƣơng sai của đại lƣợng ngẫu nhiên gốc X. Do đó các giá
trị có thể có của X ổn định xung quanh kỳ vọng toán a hơn các giá trị có thể có của X.
4.4.2. Phương sai mẫu
Cho mẫu ngẫu nhiên kích thước n được xây dựng từ đại lượng ngẫu nhiên
gốc X: Wx   X 1 , X 2 ,..., X n  . Phương sai mẫu là một thống kê, ký hiệu là S 2 và xác

1 n 1 n
 
2
S2  (X i  X) 2
 Xi  X (4.3)
n i 1 n i 1
Xét ví dụ 4.4, ta có:
1
S2  1.(35,6  36,06) 2  3.(35,9  35,06) 2  ...  1.(36,6  36, 06)2   0,0624
10
Trong thống kê toán, ngoài phƣơng sai mẫu, còn dùng phƣơng sai mẫu điều
chỉnh S' 2 .
n 2 1 n
 Xi  X 
2
S' 2  S  (4.4)
n 1 n  1 i 1
Nếu lấy căn bậc hai của phƣơng sai mẫu S 2 và phƣơng sai S '2 , ta có các thống
kê tƣơng ứng gọi là độ lệch tiêu chuẩn mẫu và độ lệch tiêu chuẩn mẫu điều chỉnh:
1 n

 Xi  X  1 n
 Xi  X  
2 2
S S  2
và S  S 
' '2
(4.5)
n i 1 n  1 i 1
4.4.3. Phương pháp tính các giá trị của các thống kê thông dụng X ; S2
Giả sử có mẫu ngẫu nhiên cụ thể: w    x1 , x 2 ,..., x n  .
 Nếu tần số của các xi đều bằng 1 thì sử dụng cặp công thức:
 1 n


X   xi
n i 1
 n n
(4.6)
S2  1  (x  X) 2  1  x 2  (X) 2

 n i 1
i
n i 1
i
Ví dụ 4.5. Tính X ; S ; S' của một mẫu Wx   6,5,1 .
67
Giải: Từ mẫu đã cho ta lập đƣợc bảng sau:
 x  X
2
X xi  X i
6 (6 - 4)=2 4
5 1 1
1 -3 9
12 14
1 1 14 n 2 3 14
Ta có: X  .12  4 S2  .14   S' 2  S  .  7;
3 3 3 n 1 2 3
14
S  2.16; S'  7  2,65 ;
3
 Nếu đối với x i có tần số là n i ( ni  1 ) thì X và S 2 đƣợc tính theo công

thức:
 1 k


X   ni xi
n i 1
 (4.7)
   
k
S2  1  n x  X 1 k
  ni xi2  X
2 2

 n i 1
i i
n i 1
Ví dụ 4.6. Gọi X là áp lực động mạch phổi thời tâm trƣơng ngƣời bình thƣờng.
Đo 30 ngƣời thu đƣợc kết quả sau:
Giá trị x i (mm Hg) 3 4 5 6 7 8
Số ngƣời mi 5 7 8 2 5 3
Hãy tính các tham số X và S' .

Giải: Từ số liệu đã cho, ta lập bảng tính toán sau:
xi mi mi x i mi x i2
3 5 15 45
4 7 28 112
5 8 40 200
6 2 12 72
7 5 35 245
68
8 3 24 192
 mi  30  mi xi  154  mi xi2  866
Ta có:
1 1
X 154  5,13 ; S2  866  5,132  2,55
30 30
30
S'2  .2,55  2,64  S'  2,64  1,62
29
4.4.4. Mẫu thu gọn. Phương pháp đổi biến
Trong thực tế, khi các giá trị x i rất gần nhau và các tần số mi rất lớn thì việc
sử dụng các công thức trên trở nên rất khó khăn. Ta thƣờng sử dụng mẫu thu gọn
bằng cách chia nhóm sau đây:
Giả sử từ đại lƣợng ngẫu nhiên X lấy ra một mẫu kích thƣớc n đƣợc xác
định cụ thể w   x1 , x 2 ,..., x n  . Ta phân chia các số liệu (n số liệu):  x1 , x 2 ,..., x n 
thành k khoảng (k < n). Các khoảng có độ dài bằng nhau (= d) và điểm giữa mỗi
 n 
khoảng là t i (i  1, 2,..., k) với tần số tƣơng ứng là m1 , m2 ,..., mk   n i  n  . Gọi
 i 1 
ti  t0
hi  . Trong đó t 0 là một giá trị trong các t i (i  1, 2,..., k) sao cho ứng với nó
d
là tần số mi lớn nhất.
 1 k d k
 X 
n
 n t
i i  t 0 
n
 nihi
 i 1 i 1
Khi đó:  2  k
(4.8)
2

S2  d   n h 2  1   n h  
k
n  i 1
i i
 n  i 1
i i
 

Ví dụ 4.7. Đo chiều cao của 1948 thanh niên tuổi 17, ta đƣợc 1948 số liệu
(tính bằng cm) từ 152 đến 175 đƣợc chia thành 8 khoảng cho ở bảng sau:
Khoảng [152,155) [155,158) [158,161) [161,164) [164,167) [167,170)
chiều cao [170,173) [173,176)
Số ngƣời 263 460 540 385 204 70 20
6
Hãy tính số trung bình và phƣơng sai của mẫu trên.

69
Giải: Ta thấy [158,161) có tần số 540 là lớn nhất nên ta chọn t0 trong khoảng
161  158
đó t 0  t 3   159,5 . Độ dài mỗi khoảng d  3 . Sử dụng công thức đổi
2
ti  t0
biến h i  (i  1,8) . Lập bảng tính toán sau:
d
Phạm vi Tần số thuộc
ti hi nihi n i h i2
khoảng khoảng ( n i )
[152,155) 153.5 263 -2 -526 1052
[155,158) 156.5 460 -1 -460 460
[158,161) 159.5 540 0 0 0
[161,164) 162.5 385 1 385 385
[164,167) 165.5 204 2 408 816
[167,170) 168.5 70 3 210 630
[170,173) 171.5 20 4 80 320
[173,176) 174.5 6 5 30 150
8 8 8
 n i  1948  n i h i  127  n i h i2  3813

i 1 i 1 i 1
Khi đó:
d k 3
X  t0  
n i1
n i h i  159.5 
1948
.127  159.7(cm)
d2  k 
2
1 k  32  1 
S   n i h i2    n i h i 
2
  3813  (127)2   17.58
n  i1 n  i 1   1948  1948 
Ví dụ 4.8. Để nghiên cứu trọng lƣợng trẻ sơ sinh trong một vùng, ngƣời ta
cân thử 6000 cháu, thu đƣợc số liệu sau đây:
Trọng 2500- 2600- 2700- 2800- 2900- 3000- 3100-
lƣợng 2600 2700 2800 2900 3000 3100 3200
Số
425 892 961 1533 1226 734 229
cháu
Tính trọng lƣợng trung bình và phƣơng sai trọng lƣợng trẻ sơ sinh ở vùng đó.
70
ti  t0
Giải: Với số liệu đã cho ta có: d = 100, t 0  2850 , h i  (i  1,7)
d
Lập bảng tính toán sau:
Trọng lƣợng (g) ni ti hi nihi nihi2

2500 - 2600 425 2250 -3 -1275 3825
2600 - 2700 982 2650 -2 -1784 3568
2700 - 2800 961 2750 -1 -961 961
2800 - 2900 1533 2850 0 0 0
2900 - 3000 1226 2950 1 1226 1226
3000 - 3100 734 3050 2 1468 2936
3100 - 3200 229 3150 3 687 2061
Tổng 6000 - 639 14.577
100
X  2800  (639)  2839,35(gam)
Khi đó: 6000
1002 
 639    24181,58
1
S2  14577 
2

6000  6000 
BÀI TẬP CHƢƠNG 4
Bài 1. Định lƣợng Protein dịch não tủy ngƣời bình thƣờng (đv: mg%) thu
đƣợc số liệu sau:
11 17 19 12 17 19 14 18 19 16 18 20
16 18 20 16 18 20 16 19 20 16 19 20
16 19 21 17 19 21 17 19 21 17 19 22
1. Hãy tính số trung bình và phƣơng sai của mẫu trên.
2. Vẽ đa giác tần suất của mẫu trên.
Bài 2. Gọi X là áp lực trung bình của động mạch phổi bệnh nhân hẹp hai lá
đơn thuần (đv: mmHg), nghiên cứu thu đƣợc số liệu sau:
xi 13 23 33 43 53 63 73 83 93 103
ni 5 20 27 24 25 23 15 10 4 2
71
2. Vẽ đa giác tần suất.
Bài 3. Đo chiều cao của 100 thanh niên từ 18 đếnn 20 tuổi (đv: cm) ở một
tỉnh A thu đƣợc số liệu sau:
166 163 165 175 165 166 162 165 175 154
155 167 163 167 168 160 168 163 167 160
168 175 166 167 165 172 159 170 165 159
165 172 160 168 155 167 156 163 165 175
155 167 176 159 170 157 165 175 163 167
166 168 156 175 163 165 163 167 174 170
160 168 163 167 169 163 166 155 167 165
169 159 170 170 174 168 175 165 172 178
164 175 163 165 160 165 175 155 167 168
182 155 157 163 169 163 167 162 160 164
1. Rút gọn số liệu bằng cách ghép khoảng.
3. Xây dựng tổ chức đồ.
thống kê, NXB Đại học Thái Nguyên. (chƣơng 2 trang 83-191).
NXB Thống kê.
72
Bài 5: ƯỚC LƯỢC CÁC THAM SỐ CỦA ĐẠI LƯỢNG NGẪU NHIÊN
* Giảng viên:
Mục tiêu học tập
Kiến thức:
1. Vận dụng ƣớc lƣợng vào một số bài toán trong y học.
2. Vận dụng ƣớc lƣợng trong việc đƣa ra dự đoán về kết quả của một số vấn
đề
Kĩ năng:
3. Tìm đƣợc khoảng ƣớc lƣợng của một số tham số đặc trƣng của đại lƣợng
ngẫu nhiên.
Nếu dấu hiệu nghiên cứu trong tổng thể có thể xem nhƣ một đại lƣợng ngẫu
nhiên gốc X và giả sử bằng phân tích lý thuyết đã xác định đƣợc dạng phân phối
xác xuất của nó thì vấn đề xác định các tham số đặc trƣng của tổng thể sẽ đƣợc quy
về bài toán xác định các tham số đặc trƣng của quy luật phân phối xác suất xác định
đại lƣợng ngẫu nhiên gốc X.
Giả sử các tham số của đại lƣợng ngẫu nhiên cần nghiên cứu, ký hiệu:  ,
nhƣ trung bình, phƣơng sai, tỷ lệ của tổng thể ( hay kỳ vọng, phƣơng sai, xác suất
của đại lƣợng ngẫu nhiên)... Song các tham số này thƣờng chƣa biết, vậy ta phải
ƣớc lƣợng  (xác định một cách gần đúng) nhờ phƣơng pháp ƣớc lƣợng thông qua
mẫu. Vì  là một hằng số nên có thể dùng một số nào đó để ƣớc lƣợng  , ƣớc
lƣợng nhƣ vậy gọi là ƣớc lƣợng điểm. Ngoài ra còn dùng phƣơng pháp ƣớc lƣợng
bằng khoảng tin cậy, tức là chỉ ra một khoảng  1; 2  nào đó có thể chứa đƣợc θ
với độ tin cậy nhất định.

Nhƣ vậy bài toán ƣớc lƣợng tham số có thể phát biểu nhƣ sau: Cho đại
lƣợng ngẫu nhiên gốc X với quy luật phân phối xác suất đã biết song chƣa biết tham
số đặc trƣng θ nào đó của nó. Phải ƣớc lƣợng giá trị  .
73
Phƣơng pháp mẫu cho phép giải quyết bài toán trên nhƣ sau: Từ tổng thể
nghiên cứu rút ra một mẫu ngẫu nhiên kích thƣớc n và dựa vào đó mà xây dựng một
thống kê G dùng để ƣớc lƣợng  bằng cách này hay cách khác. Có hai phƣơng
pháp sử dụng thống kê G để ƣớc lƣợng  là phƣơng pháp ƣớc lƣợng điểm và
phƣơng pháp ƣớc lƣợng bằng khoảng tin cậy.
5.1. Phương pháp ước lượng điểm
Phƣơng pháp này chủ trƣơng dùng một giá trị để thay thế cho tham số 
chƣa biết của tổng thể, vì bản thân  là một số xác định. Thông thƣờng giá trị đƣợc
chọn là một thống kê G nào đó của mẫu ngẫu nhiên. Có nhiều cách chọn thống kê G
khác nhau tạo nên những phƣơng pháp ƣớc lƣợng điểm khác nhau.
 Các tiêu chuẩn lựa chọn hàm ƣớc lƣợng
Chất lƣợng của ƣớc lƣợng không thể đánh giá qua một giá trị g cụ thể của G.
Vì nhƣ vậy chỉ có cách so sánh trực tiếp g và  mà  lại chƣa biết. Hơn nữa, theo
định nghĩa ƣớc lƣợng bằng phƣơng pháp hàm ƣớc lƣợng, ta có thể có vô số cách
chọn thống kê G làm hàm ƣớc lƣợng cho  . Sau đây là một số tiêu chuẩn để chọn
hàm ƣớc lƣợng:
5.1.1. Ước lượng không chệch
Thống kê G của mẫu đƣợc gọi là ƣớc lƣợng không chệch của tham số  của
đại lƣợng ngẫu nhiên gốc X nếu: E(G)   .
Ngƣợc lại, nếu E(G)   thì G gọi là ƣớc lƣợng chệch của  .
Chú ý: G là ƣớc lƣợng không chệch của  không có nghĩa là mọi giá trị của
G đều trùng khít với θ mà chỉ có nghĩa trung bình các giá trị của G bằng  . Từng
giá trị G có thể sai lệch rất lớn so với  . Do đó: trung bình mẫu X , tần suất mẫu f ,
phƣơng sai điều chỉnh mẫu S theo thứ tự là ƣớc lƣợng không chệch của kỳ vọng
2
toán µ, xác suất p, phƣơng sai  của đại lƣợng ngẫu nhiên gốc X.
2
5.1.2. Ước lượng hiệu quả

Thống kê G đƣợc gọi là ƣớc lƣợng hiệu quả của tham số  của đại lƣợng
ngẫu nhiên gốc X, nếu G là ƣớc lƣợng không chệch của  và phƣơng sai của G
(D(G)) không nhỏ hơn bất kỳ phƣơng sai của một hàm ƣớc lƣợng không chệch nào
74
khác. Do đó, để xét G có phải là ƣớc lƣợng hiệu quả của tham số  hay không, ta
cần tìm đƣợc cận dƣới của phƣơng sai hàm ƣớc lƣợng.
5.1.3. Ước lượng vững
Thống kê G của mẫu đƣợc gọi là ƣớc lƣợng vững của tham số  của đại
lƣợng ngẫu nhiên gốc X nếu G hội tụ theo xác suất đến  khi n   . Tức là:
lim P  G       1   0
n 
Chú ý: Trƣờng hợp G là ƣớc lƣợng không chệch của  thì để tìm ƣớc lƣợng
vững, có thể dùng định lý sau: Nếu G là ước lượng không chệch của  và
lim D(G)  0 thì G là ước lượng vững của  .
n 
5.1.4. Kết luận về phương pháp hàm ước lượng
 
 Đại lƣợng ngẫu nhiên gốc X  N  , 2  . Có E X   vậy X là ƣớc lƣợng
không chệch, hiệu quả và vững của trung bình tổng thể µ, do đó nếu chƣa biết µ có
thể dùng X để ƣớc lƣợng nó.
 Với đại lƣợng ngẫu nhiên gốc X  N  , 2  . S2  S . E S2   2  D  X  .

n 2
n 1
Vậy S là ƣớc lƣợng không chệch của phƣơng sai của đại lƣợng ngẫu nhiên gốc X.
2
do đó nếu chƣa biết  có thể dùng S hoặc S để ƣớc lƣợng nó.

2 2 2
 X là đại lƣợng ngẫu nhiên phân phối theo qui luật nhị thức B(n,p), có
X
f  E  f   p . Vậy tần số f là ƣớc lƣợng không chệch, hiệu quả và vững của tần
n
suất tổng thể ( p) do đó nếu p chƣa biết có thể dùng f để ƣớc lƣợng nó.
Chú ý: Phƣơng sai mẫu và phƣơng sai mẫu hiệu chỉnh chỉ khác nhau rất ít
n 2 n
bởi: S2  S , khi n đủ lớn thì  1 rất nhanh. Trong thực tế, khi n  30 ta
n 1 n 1
có thể lấy phƣơng sai mẫu S thay cho phƣơng sai tổng thể  .
2 2
Ví dụ 5.1. Đo huyết áp tối đa ở bệnh nhân bị cao huyết áp (Đơn vị: mmHg),
đang điều trị tại khoa nội một bệnh viện, ngƣời ta thu đƣợc kết quả sau:
Huyết áp tối đa [140-160) [160-180) [180-200) [200-220) [220-240)
Số ngƣời 25 30 32 9 4
75
Gọi X là huyết áp tối đa của bệnh nhân bị cao huyết áp. Hãy chỉ ra ƣớc lƣợng
điểm cho E(X), D(X) và tỷ lệ (p) số bệnh nhân có huyết áp tối đa từ 180 trở lên.
Giải: Ta lập bảng tính X, S2 .

Gọi x i là điểm đại diện cho mỗi khoảng và x 0  x 3  190 . Độ dài mỗi
xi  x0
khoảng d  20 . Sử dụng công thức đổi biến h i  (i  1,5) .
d
Phạm vi Tần số thuộc
TT xi hi nihi n i h i2
khoảng khoảng ( n i )
1 [140,160) 150 25 -2 -50 100
2 [160,180) 170 30 -1 -30 30
3 [180,200) 190 32 0 0 0
4 [200,220) 210 9 1 9 9
5 [220,240) 230 4 2 8 16
5 5 5
 n i  100  n i h i  63  n i h i2  155

i 1 i 1 i 1
Khi đó:
d k 20
X  t0  
n i 1
n i h i  190 
100
(63)  177, 4(cm)
d2  k  202 
2
1 k  1 
S   n i h i    n i h i 
2 2
 155  (63) 2   461, 24
n  i1 n  i 1   100  100 
45
f  0, 45 (45=32+9+4)
100
Vậy: Ƣớc lƣợng điểm cho E(X) là 177,4.
Ƣớc lƣợng điểm cho D(X) là 461,24.
Ƣớc lƣợng điểm cho p là 0,45.
Ví dụ 5.2. Để đánh giá tỷ lệ ngƣời mắc bệnh bƣớu cổ ở một vùng cao, ta
chọn ngẫu nhiên vài bản làng và điều tra số ngƣời mắc bệnh ở bản này. Kết quả
thấy trong số 264 ngƣời có 156 ngƣời mắc bệnh bƣớu cổ. Hỏi tỷ lệ mắc bệnh bƣớu
cổ ở vùng cao này là bao nhiêu. (Ta coi nhƣ tình hình mắc bệnh ở các bản khác
nhau trong vùng là nhƣ nhau)
76
Ta có f=156/246=0,59= 59%, ta ƣớc lƣợng tỷ lệ mắc bệnh thực sự của cả
vùng là 59%.
5.2. Ước lượng khoảng đối với kỳ vọng toán
Phƣơng pháp ƣớc lƣợng điểm ở trên có nhƣợc điểm cơ bản là khi kích thƣớc
mẫu nhỏ thì ƣớc lƣợng điểm tìm đƣợc có thể sai lệch nhiều so với tham số cần ƣớc
lƣợng, nghĩa là sai số của ƣớc lƣợng rất lớn. Ngoài ra, không thể đánh giá khả năng
mắc sai lầm khi ƣớc lƣợng bằng bao nhiêu. Do vậy, khi cỡ mẫu nhỏ, ngƣời ta dùng
phƣơng pháp ƣớc lƣợng bằng khoảng tin cậy. Nội dung của phƣơng pháp ƣớc lƣợng
khoảng cho tham số  là: Từ một thống kê G nào đó của mẫu, xây dựng một
khoảng giá trị ngẫu nhiên  1; 2  sao cho với một xác suất cho trƣớc thì tham số 
sẽ rơi vào khoảng  1; 2  .
5.2.1. Định nghĩa khoảng tin cậy

Khoảng 1 ; 2  của thống kê G được gọi là khoảng tin cậy, hay ước lượng
khoảng, của tham số  nếu với xác suất 1   cho trước, 0    1 , thì tham số
 thuộc khoảng 1 ;2  tức là:

P  1    2   1  
Xác suất 1  đƣợc gọi là độ tin cậy còn  gọi là mức ý nghĩa. (Trong thực
tế thƣờng yêu cầu 1     0,95 ).
I  2  1 gọi là độ dài của khoảng tin cậy.

Nhận xét:
Cùng một độ tin cậy thì khoảng tin cậy càng nhỏ hay độ dài khoảng tin cậy
càng ngắn càng xác định đƣợc chính xác tham số cần tìm.
5.2.2. Ước lượng kỳ vọng toán của đại lượng ngẫu nhiên phân phối theo quy luật
chuẩn.
Giả sử trong tổng thể đại lƣợng ngẫu nhiên gốc X phân phối theo quy luật
chuẩn N  , 2  nhƣng chƣa biết tham số  của nó. Để ƣớc lƣợng  từ tổng thể ta
lập ra mẫu ngẫu nhiên kích thƣớc n, W   X1 ,X2 ,...,Xn 
Để chọn thống kê G thích hợp ta xét 2 trƣờng hợp sau:

77
5.2.2.1. Đã biết phương sai  2 của đại lượng ngẫu nhiên gốc X trong tổng thể
Chọn thống kê G  U 
 X   n trong đó X là trung bình mẫu.

Với độ tin cậy 1   cho trƣớc tham số  của đại lƣợng ngẫu nhiên gốc X
   
sẽ nằm trong khoảng  X  U1 ; X  U1  với 1  2   .
 
1 2
n n
Thật vậy Từ giả thiết X có phân phối chuẩn N  , 2  kéo theo X có phân
 2 
phối chuẩn N  ,  , khi đó U có phân phối chuẩn hóa N(0,1) . Với độ tin cậy
 n 
1   cho trƣớc, ta tìm đƣợc cặp giá trị 1 ;  2 sao cho: 1   2   , (Với:
0    1; 0  1  1; 0  2  1 ). Từ đó tìm đƣợc hai phân vị chuẩn tƣơng ứng của

phân phối chuẩn hóa là U11 và U 2 thỏa mãn các điều kiện P(U  U )   2 và 2
P(U  U1 )  1 (do P(U  U1 )  1  1 ).

1 1
Khi đó: P(U  U  U1 )  1  (1  2 )

2 1
 P( U1 
 X   n  U1 )  1   (Vì tính chất U  U1 )
2
 1 2 2
 
 P(X  U1    X 
1
U1 )  1   2
n n
Biểu thức cuối cùng cho biết tham số  của đại lƣợng ngẫu nhiên gốc X sẽ
   
nằm trong khoảng:  X  U1 ; X  U1  với độ tin cậy 1   .
 
1 2
n n
   
Nhận xét:  X  U1 ; X  U1  chỉ cho ta một khoảng tin cậy tổng
 
1 2
n n
quát của  . Với độ tin cậy 1   ta có vô số khoảng tin cậy tƣơng ứng vì có vô số
cách chọn 1 ,  2 dẫn đến vô số U11 , U12 . Trong thực tế, ta thƣờng chỉ sử dụng
trong một số trƣờng hợp đặc biệt sau:

 Khoảng tin cậy đối xứng
78

Nếu lấy 1   2  thì ta có khoảng tin cậy đối xứng của  là:
2
   
X  U  ; X U  (5.1)
 n 1 2 n 1 2 
Trong đó phân vị U  đƣợc tra trong bảng giá trị phân vị chuẩn (Phụ lục 1).
1
2

Nếu kí hiệu   U  thì biểu thức của khoảng tin cậy đối xứng có dạng
n 1 2
 X   ; X    , và  đƣợc gọi là độ chính xác của ƣớc lƣợng. Nó phản ánh mức độ
sai lệch của trung bình mẫu so với trung bình tổng thể với xác suất 1  cho trƣớc.
 Khoảng tin cậy bên phải (Ƣớc lƣợng giá trị tối tiểu của  )
Nếu lấy 1  , 2  0 thì khoảng tin cậy của  là:

(X  U1 ;  ) (5.2)
n
 Khoảng tin cậy bên trái (Ƣớc lƣợng giá trị tối đa của  )
Nếu lấy 1  0, 2   thì khoảng tin cậy của  là:

(;X  U1 ) (5.3)
n
Chú ý:
Với cùng độ tin cậy 1  hiển nhiên khoảng tin cậy nào ngắn hơn thì sẽ tốt
hơn. Trong trƣờng hợp này độ dài khoảng tin cậy sẽ là ngắn nhất khi và chỉ khi
khoảng tin cậy là đối xứng. Lúc đó độ dài khoảng tin cậy sẽ bằng hai lần độ chính
2
xác của ƣớc lƣợng và đƣợc xác định bằng công thức I  2  U 
n 1 2
Ta nhận thấy nếu tăng kích thƣớc mẫu n lên và giữ nguyên độ tin cậy 1 
cho trƣớc thì  giảm đi tức độ chính xác của ƣớc lƣợng tăng lên. Còn nếu tăng độ
tin cậy 1  mà giữ nguyên kích thƣớc n của mẫu thì giá trị của phân vị chuẩn cũng
tăng lên theo do đó  cũng tăng lên và làm cho độ chính xác của ƣớc lƣợng giảm đi.
79
Từ công thức độ dài khoảng tin cậy ta sẽ thu đƣợc công thức xác định kích
thƣớc mẫu tối thiểu n sao cho với độ tin cậy bằng 1  cho trƣớc độ dài khoảng tin
cậy không vƣợt quá giá trị I 0 cho trƣớc là:
 42 2   2 2 
N   2 U    1   2 U    1. (5.4)
 I0 1
2  0 1 2 
Ví dụ 5.3. Để xác định trọng lƣợng trung bình của các viên thuốc A, ngƣời ta
lấy ngẫu nhiên ra 100 viên và tìm đƣợc trọng lƣợng trung bình X  36,06mg với
2  0,282 . Hãy tìm khoảng tin cậy đối xứng của trọng lƣợng trung bình của các
viên thuốc với độ tin cậy 1    0,99 . Nếu giả thiết trọng lƣợng của các viên thuốc
tuân theo quy luật phân phối chuẩn.
Giải:
Đây là bài toán tìm khoảng tin cậy đối xứng của giá trị trung bình khi đã biết
phƣơng sai. Chọn thống kê G  U 

 X   n .Vậy từ mẫu cụ thể khoảng tin cậy

đối xứng của là:
   
X  U  ; X U 
 n 1 2 n 1 2 
Với U  U 0,01  U0,995  2,576
1 1
2 2
 0, 28
 U  2,576  0,072 .
n 1 2 100
Vậy với độ tin cậy là 1    0,99 thì trọng lƣợng các viên thuốc nằm trong
khoảng (35,988 mg ; 36,132 mg).
Ví dụ 5.4. Đo sức bền chịu lực của một loại vật liệu làm răng giả ngƣời ta
thu đƣợc bộ số liệu nhƣ sau:
4500 6500 5000 5200 4800
4900 5125 6200 5375
Từ kinh nghiệm nghề nghiệp ngƣời ta cũng biết rằng sức bền đó có phân
phối chuẩn với độ lệch chuẩn   300 . Hãy xây dựng khoảng tin cậy đối xứng cho
sức bền trung bình của loại vật liệu trên với độ tin cậy 95% .
80
Giải: Ta có   300; n  9; U   U0,975  1,96 .
1
2
Theo bảng số liệu ta tính đƣợc sức bền trung bình của các vật liệu trên là
1 9
X  x i  5288,89 .
9 i 1
Vậy khoảng tin cậy đối xứng cho sức bền chịu lực của vật liệu trên là:
 X  ;X      5288,89  300

3
1,96;5288,89 
300
3

1,96   5092,89;5484,89 

Ví dụ 5.5. Trọng lƣợng của một loại sản phẩm của nhà thuốc A là đại lƣợng
ngẫu nhiên phân phối theo quy luật chuẩn với độ lệch tiêu chuẩn là 1 gam. Cân thử
25 sản phẩm loại này ta có kết quả:
Trọng lƣợng (g) 18 19 20 21
Số sản phẩm 3 5 15 2
Với độ tin cậy 1    0,95 , hãy tìm khoảng tin cậy đối xứng của trọng lƣợng
trung bình của loại sản phẩm nói trên?
Giải: Gọi X là "Trọng lƣợng sản phẩm". X có phân phối chuẩn N(, 2 ) . Đã
biết   1 (gam) . Ta cần chỉ ra khoảng tin cậy đối xứng của  với độ tin cậy
1    0,95 .
18.3  19.5  20.15  21.2

Từ mẫu đã cho, tính X   19,64
25
Với 1    0,95; U   U0,975  1,96
1
2
1
Ta có:   1,96  0,392 .
25
Vậy với độ tin cậy 0,95 khoảng tin cậy đối xứng của µ (tức là trọng lƣợng

trung bình của sản phẩm trên) là: X  ;X    (19,248;20,032) . 
Ví dụ 5.6.
Trong ví dụ 2.5 nếu yêu cầu độ chính xác của ƣớc lƣợng chỉ là 0,1 và giữ
nguyên độ tin cậy 1    0,95 thì cỡ mẫu cần phải xác định là bao nhiêu?
Giải: Với 0  0,1 và 1    0,95; U   U0,975  1,96
1
2
81
 2 
Theo công thức N   2 U 2    1 ta có:
  1 2 
 1 
N   2 1,962   1  384,16  1  385
 0,1 
Vậy cần phải xác định một mẫu có kích thƣớc tối thiểu bằng 385. Tức là để
sai số cho phép giảm từ 0,392 về 0,1 thì cỡ mẫu phải tăng từ 25 lên ít nhất 385.
5.2.2.2. Đại lượng ngẫu nhiên chưa biết phương sai mà kích thước mẫu n  30
Chọn thống kê: G  T 

 X   n
với X là trung bình mẫu, S là độ lệch
S'
tiêu chuẩn mẫu điều chỉnh.
Với độ tin cậy 1   cho trƣớc tham số  của đại lƣợng ngẫu nhiên gốc X
 S' n 1 S' n 1 
sẽ nằm trong khoảng  X  t1 ; X  t1  với 1  2  
 
1 2
n n
1 n
Thật vậy ta có S2  
n  1 i 1
(Xi  ) 2 .
(n  1)S2  Xi   
n 2
Xét Vn 1 

  
 
 là đại lƣợng ngẫu nhiên có phân phối
i 1 
2
khi bình phƣơng  2 với n-1bậc tự do và U 

 X   n có phân phối chuẩn hóa

N(0,1) .
Khi đó thống kê G  T 
U


X  n
phân phối theo quy luật
Vn 1 S'
n 1
Student với n-1 bậc tự do.
Với độ tin cậy 1   cho trƣớc, ta có thể tìm đƣợc hai giá trị phân vị
1
Student là t1n và t n 1 thỏa mãn các điều kiện P(T  t n 1 )   2 và P(T  t1n
1 2 2
1
)  1
1
1
(do P(T  t1n )  1 ).
1
82
Khi đó: P( t n 1  T  t1n
2
1
)  1  (1   2 )
1
1
 P( t1n 
 X   n 1
 t1n )  1   ( Vì tính chất t n 1  t1n
1
)
2
S' 1 2 2
S' n 1 S' n 1
 P(X  t1    X 
1
t1 )  1   2
n n
Biểu thức cuối cùng cho biết tham số  của đại lƣợng ngẫu nhiên gốc X sẽ
 S' n 1 
t1  với độ tin cậy 1   .
S' n 1
nằm trong khoảng:  X  t1 ; X 
 
1 2
n n
Từ khoảng tin cậy tổng quát ta xây dựng công thức khoảng tin cậy trong các
trƣờng hợp đặc biệt sau:

Nếu lấy 1   2  ta có khoảng tin cậy đối xứng của  là:
2
 S' n 1 S' n 1 
X  t  ; X t  (5.5)
 n 1 2 n 1 2 
S' n 1
 t  gọi là độ chính xác của ƣớc lƣợng.
n 1 2
 S' n 1 
Nếu lấy 1  , 2  0 thì khoảng tin cậy của  là:  X  t1 ;  
 n 
(5.6)
 S'  n 1 
Nếu lấy 1  0, 2   thì khoảng tin cậy của  là:  ;X  t1  (5.7)
 n 
 Công thức xác định cỡ mẫu tối thiểu
Với độ tin cậy 1   cho trƣớc và sai số  cho phép không vƣợt quá số 0
cho trƣớc, khi đó cỡ mẫu tối thiểu đƣợc tính bởi công thức:
 S2 n 1 2 
N   2  t1 /2    1 . (5.8)
 0 
83
Trong đó t n 1 , t1n
1
đƣợc xác định từ bảng phân phối Student với (n -1) bậc
1
2
tự do (Phụ lục 3).

Ví dụ 5.7. Qua một mẫu điều tra về Urê máu của 10 ngƣời, ngƣời ta thu
đƣợc kết quả sau: Đơn vị (cg/1): 24; 40; 30; 19; 48; 32; 35; 21; 18; 40.
Hãy ƣớc lƣợng khoảng tin cậy đối xứng của trung bình Urê máu của đám đông với
mức ý nghĩa   5% , và   1% . Giả thiết Urê máu có phân phối chuẩn.
Giải: Gọi X là Urê máu ngƣời. X : N(, 2 ) trong đó  chƣa biết, cần phải
2
ƣớc lƣợng µ dựa trên một mẫu có kích thƣớc n  10  30 .

 X   n
S'
Từ mẫu đã cho ta tính đƣợc:
1 10 1
X 
10 i 1
x i  (24  40  19  ...  18  40)  30,70
10
1 10
S' 2  
9 i1
(x i  X)2  103,3  S'  103,3  10,16
Tra bảng Student với n  10 ta có t 90,975  2, 265; t 90,995  3, 25
Áp dụng công thức tìm khoảng tin cậy đối xứng:

 S' n 1 S' n 1 
X  t  ; X t  .
 n 1 2 n 1 2 
Khi đó khoảng tin cậy cần tìm của trung bình Urê máu với mức ý nghĩa
  0,05 hay với độ tin cậy 95% là:
 10,16 10,16 
 30,7  2, 262;30,7  2, 262    23, 43;37,97 
 10 10 
Khi đó khoảng tin cậy của trung bình Urê máu với mức ý nghĩa   0,01 hay
với độ tin cậy 99% là:
 10,16 10,16 
 30,7  3, 25;30,7  3, 25    20, 25;41,15 
 10 10 
84
Ví dụ 5.8. Để ƣớc lƣợng chi phí trung bình cho một loại phẫu thuật ở một
khoa ngoại, ngƣời ta tiến hành kiểm tra thử chi phí của 25 ca phẫu cùng loại thu
đƣợc số liệu sau:
Số tiền ( triệu đồng) 9,7 9,9 10,1 10,3 10,5 10,7
Số ca tƣơng ứng (ni) 2 4 10 5 3 1
Với độ tin cậy 95%, hãy ƣớc lƣợng chi phí trung bình, chi phí trung bình tối
đa, chi phí trung bình tối thiểu cho một ca phẫu thuật nói trên ở thời điểm đang xét.
Cho biết số tiền chi phí là đại lƣợng ngẫu nhiên tuân theo quy luật chuẩn.
Giải: Gọi X là chi phí cho phẫu thuật. X : N(, 2 ) trong đó  chƣa biết,
2
cần phải ƣớc lƣợng µ dựa trên một mẫu có kích thƣớc n  25  30 .

 X   n
S'
Căn cứ vào số liệu đã cho, ta lập bảng để tính X và S'

xi  x0
xi ni hi  nihi n i h i2
d
9,7 2 -2 -4 8
9,9 4 -1 -4 4
10,1 10 0 0 0
10,3 5 1 5 5
10,5 3 2 6 12
10,7 1 3 3 9
 25 6 38
Ta thấy n3 = 10 lớn nhất, chọn x0 = 10,1, d = 0,2.

d 6 0, 2
Khi đó: X  x 0  
n i 1
n i h i  10,1 
25
.6  10,15
d2  6   0, 2 
2
1 6 2
1 2
S   i i   i i    38  (6)   0, 061
2 2
n  1  i 1
n h  n h
n  i 1   24  25 
 S  0,061  0,247
85
Tra bảng Student với n  25 ta có t 0,975
24
 2,064; t 0,95
24
 1,711
Vậy với độ tin cậy 1    0,95 qua mẫu nói trên, chi phí trung bình là:
 S' n 1 S' n 1 
X  t  ; X
1
t    (10,048;10, 252)
1
 n 2 n 2 
Tƣơng tự, chi phí trung bình tối đa sẽ là:

 S' n 1 
 ;X  t1    ;10, 237 
 n 
Tƣơng tự, chi phí trung bình tối thiểu sẽ là:
 S' n 1 
X  t1 ;    10,063;  
 n 
5.2.2.3. Đại lượng ngẫu nhiên chưa biết phương sai mà kích thước mẫu n  30
Nhƣ ta đã biết khi n khá lớn ( n  30 ) phân phối Student của thống kê
U
 X   n xấp xỉ phân phối chuẩn hóa. Với độ tin cậy 1   cho trƣớc, ta
S'
tìm đƣợc hai phân vị chuẩn là U11 và U 2 thỏa mãn các điều kiện P(U  U )   2 2
và P(U  U1 )  1 . ( 1   2   ).
1
Khi đó: P(U  U  U1 )  1  (1   2 )

2 1
 P( U1 
 X   n  U1 )  1   (Theo tính chất U  U1 )
2
S 1 2 2
S S
 P(X  U1    X 
1
U1 )  1  
2
n n
Biểu thức cuối cùng cho biết:
 Khoảng tin cậy của  với độ tin cậy 1   là:
 S S 
X  U1 ; X  U1  (5.9)
 
1 2
n n

Nếu lấy 1   2  thì ta có khoảng tin cậy đối xứng của  là:
2
86
 S S 
X  U  ; X U  (5.10)
 n 1 2 n 1 2 
S
 U  là độ chính xác của ƣớc lƣợng.
n 1 2
 S 
Nếu lấy 1  , 2  0 thì khoảng tin cậy của  là:  X  U1 ;   (5.11)
 n 
 S 
Nếu lấy 1  0, 2   thì khoảng tin cậy của  là:  ;X  U1  (5.12)
 n 
 S2 
N   2 U2    1. (5.13)
 0 1 2 
Trong đó U , U1 đƣợc tra trong bảng giá trị phân vị chuẩn (Phụ lục 3).
1
2
Ví dụ 5.9. Điều tra glucoza máu của 100 ngƣời bình thƣờng, thu đƣợc 100 số
liệu (đơn vị mg%) đƣợc thể hiện trong bảng sau:
Phạm vi khoảng [65,75) [75,85) [85,95) [95,105) [105,115) [115,125)
Số ngƣời 1 7 24 35 25 8
Với độ tin cậy 95%, hãy ƣớc lƣợng glucoza máu trung bình của ngƣời bình
thƣờng, glucoza máu trung bình tối đa, glucoza máu trung bình tối thiểu. Cho biết
glucoza máu của ngƣời bình thƣờng là đại lƣợng ngẫu nhiên tuân theo quy luật phân
phối chuẩn.
Giải: Gọi X là glucoza máu của ngƣời bình thƣờng. X : N(, 2 ) trong đó
2 chƣa biết, cần phải ƣớc lƣợng µ dựa trên một mẫu có kích thƣớc n  100  30 .

 X   n
S'
Căn cứ vào số liệu đã cho, ta lập bảng để tính X và S'

87
Phạm vi ti  t0
ti ni hi  nihi n i h i2
khoảng d
[65,75) 70 1 -3 -3 9
[75,85) 80 7 -2 -14 28
[85,95) 90 24 -1 -24 24
[95,105) 100 35 0 0 0
[105,115) 110 25 1 25 25
[115,125) 120 8 2 16 32
 100 0 118
Ta thấy n4 = 35 lớn nhất, chọn x0 = 100, d = 10.

d 6 10
Khi đó: X  x 0  
n i1
n i h i  100 
100
.0  100
d2  6   10 
2
1 6 2
1 
S   n i h i    n i h i    118  (0) 2   119,19
2 2
n  1  i1 n  i 1   99  100 
 S  119,19  10,92
Tra bảng phân vị chuẩn (Phụ lục 3) U0,975  1,96 ; U0,95  1,645
Vậy với độ tin cậy 1    0,95 khoảng tin cậy đối xứng của glucoza máu
trung bình của ngƣời bình thƣờng là:
 S S 
X  U  ; X U    (97,86;102,14)
 n 1 2 n 1 2 
Tƣơng tự, glucoza máu trung bình tối đa của ngƣời bình thƣờng sẽ là:
 S 
 ;X  U1   (;101,8)
 n 
Tƣơng tự, glucoza máu trung bình tối thiểu của ngƣời bình thƣờng là:
 S 
X  U1 ;    (98, 2; )
 n 
5.3. Ƣớc lƣợng khoảng đối với tỷ lệ hay xác suất
Giả sử trong tổng thể kích thƣớc n có m phần tử mang dấu hiệu nghiên cứu.
Nếu lấy ngẫu nhiên ra một phần tử và gọi X là số phần tử mang dấu hiệu nghiên
88
cứu đƣợc lấy ra thì X là đại lƣợng ngẫu nhiên tuân theo quy luật không – một, trong
đó p  m / n là xác suất để lấy ngẫu nhiên một phần tử thì đƣợc phần tử mang dấu
hiệu nghiên cứu. Ta đã biết trong quy luật không – một thì E(X)  p và
D(X)  p(1  p) / n , nhƣ vậy ƣớc lƣợng của kỳ vọng toán của quy luật này cũng
chính là ƣớc lƣợng xác suất p, mà p lại là tần số của tổng thể, phản ánh cơ cấu của
tổng thể theo dấu hiệu nghiên cứu đó.
Khi kích thƣớc mẫu n đủ lớn ( n  100 ) thì ta có thể chọn thống kê
f p
GU n
f 1  f 
Thống kê này cũng phân phối xấp xỉ phân phối chuẩn hóa N(0,1). Với độ tin
cậy 1   cho trƣớc, ta tìm đƣợc hai phân vị chuẩn U11 và U 2 thỏa mãn các điều
kiện P(U  U )   2 và P(U  U1 )  1 . ( 1   2   ).

2 1
Khi đó: P(U  U  U1 )  1  (1   2 )

2 1
f p
 P( U1  n  U1 )  1   ( tính chất U  U1 )
f 1  f 
2 1
f 1  f  f 1  f 
 P(f  U1  p  f  U1 )  1  
n 1
n 1
Biểu thức cuối cùng cho biết:

 Khoảng tin cậy của p với độ tin cậy 1    là:
 f 1  f  f 1  f  
f  U1 ; f  U1 
 n 1
n 2

 

Nếu lấy 1   2  thì ta có khoảng tin cậy đối xứng của p là:
2
 f 1  f  f 1  f  
f  U  ;f U  (5.14)
 n 1 n 1 
 2 2 
f 1  f 
 U  là độ chính xác của ƣớc lƣợng.
n 1
2
89
 Khoảng tin cậy bên phải (Ƣớc lƣợng giá trị tối tiểu của p )
 f 1  f  
Nếu lấy 1  , 2  0 thì khoảng tin cậy của p là:  f  U1 ;   (5.15)
 n 
 
 Khoảng tin cậy bên trái (Ƣớc lƣợng giá trị tối đa của p)
 f 1  f  
Nếu lấy 1  0, 2   thì khoảng tin cậy của p là:  ;f  U1  (5.16)
 n 
 
 f 1  f  2 
N U    1. (5.17)
  2
0
1
2
Trong đó U , U1 đƣợc tra trong bảng giá trị phân vị chuẩn (Phụ lục 1).
1
2
Chú ý: Khi áp dụng các công thức trên, để kết quả đƣợc chính xác ta cần có
n đủ lớn, f không quá nhỏ hoặc quá lớn. Thực tế ta áp dụng khi:
n  100; 0,1  f  0,9; nf  10; n(1  f )  10 .
Ví dụ 5.10. Để xác định tỷ lệ thành công trong xét nghiệm bệnh A, ngƣời ta
làm thử 300 xét nghiệm, thấy có 276 xét nghiệm đạt yêu cầu.
1. Với độ tin cậy 95% ta có thể nói tỷ lệ thành công trong xét nghiệm bệnh A
là bao nhiêu?
2. Ƣớc lƣợng tỷ lệ tối đa xét nghiệm đạt yêu cầu với độ tin cậy 95%.
3. Cần phải làm thêm bao nhiêu xét nghiệm để với độ tin cậy 0,95 thì khoảng
ƣớc lƣợng tỷ lệ xét nghiệm đạt yêu cầu của mẫu đó có độ chính xác không vƣợt quá
0,01?
Giải:
Gọi p là tỷ lệ xét nghiệm đạt yêu cầu trong xét nghiệm bệnh A.
f p
Chọn thống kê G  U  n
f 1  f 
276
Ta có f   0,92 . U   U0,975  1,96 ; U1  U0,95  1,645
300 1
2
90
1. Với độ tin cậy 95% ta khẳng định tỷ lệ thành công của xét nghiệm bệnh A
thuộc vào khoảng:
 f 1  f  f 1  f  
 f  U ; f  U  
 n 1

n 1 
 2 2 
 0,92 1  0,92  0,92 1  0,92  

  0,92  1,96 ; 0,92  1,96    0,89 ; 0,95 
 300 300 
 
2. Để ƣớc lƣợng tỷ lệ tối đa xét nghiệm đạt yêu cầu với độ tin cậy 95%, ta có
 f 1  f  
khoảng tin cậy bên trái của p là:  ;f  U1  
 n 
 
 0,92 1  0,92  
   ; 0,92  1,645     ; 0,946 
 300 
 
3. Ta có 0  0,01. Kích thƣớc của mẫu cần phải làm thỏa mãn đầu bài là:
 f 1  f  2   0,92(1  0,92) 
N       1   2827, 42  1  2828
2
U  1 N 1,96
  
2 2
 0
1
2 
 0,01 
Vậy cần phải làm thêm ít nhất 2528 xét nghiệm nữa.
Ví dụ 5.11. Điều tra tình hình mắc bệnh bƣớu cổ ở một vùng dân cƣ trên một
mẫu gồm 500 ngƣời (nữ tuổi từ 30 đến 50), thấy có 60 ngƣời mắc bệnh. Nếu cho
rằng độ sai khác giữa tỷ lệ không bị mắc bệnh thực tế với tỷ lệ thu đƣợc ở mẫu
không vƣợt qua 3% thì độ tin cậy của ƣớc lƣợng phải bằng bao nhiêu?
Giải: Gọi p là tỷ lệ không bị mắc bệnh bƣớu cổ của dân cƣ vùng đang xét.
f p
f 1  f 
500  60
Tỷ lệ không bị mắc bệnh ở mẫu là: f   0,88
500
Theo giả thiết, sai số cho phép là   0,03 .
Ta có:
f (1  f )  n 0,03 500 0,67

 U  U      2,064
n 1
2
1
2 f (1  f ) 0,88.0,12 0,325
91

Tra bảng phân vị chuẩn (Phụ lục 3) ta đƣợc 1   0,9805  1    0,96 .
2
Vậy độ tin cậy của ƣớc lƣợng bằng 0,96 và khoảng tin cậy đối xứng của p
với độ tin cậy này là: (0,88  0,03; 0,88  0,03)  (0,85;0,91) .
Ví dụ 5.12. Để ƣớc lƣợng cá trong hồ, ngƣời ta đánh lên 2000 con, đánh dấu
chúng rồi thả xuống. Sau một thời gian, để số cá đã đánh dấu phân tán tƣơng đối
đồng đều trong hồ, ngƣời ta lại đánh lên một mẫu n = 400 con thì thấy có 80 con bị
đánh dấu. Với độ tin cậy 0,9 hãy ƣớc lƣợng số cá hiện có trong hồ.
Giải: Gọi số cá trong hồ cần ƣớc lƣợng là N. Tỷ lệ cá bị đánh dấu trong hồ là
2000
p . Trong mẫu 400 con cá, có 80 con bị đánh dấu, do đó tỷ lệ f (cá bị đánh dấu
N
80
ở mẫu) là: f   0, 2 .
400
f p
f 1  f 
Với độ tin cậy đã ấn định: 1    0,9 ta có U1/2  U0,95  1,645
Khoảng tin cậy đối xứng của p ứng với độ tin cậy 0,9 là:
 f 1  f  f 1  f  
f  U1 /2  p  f  U1 /2  .
 n n 
 
Khi đó:
 0, 2.0,8 0, 2.0,8 
 0, 2  .1,645  p  0, 2  .1,645    0,167  p  0,233 .
 400 400 
2000
Từ: p  , suy ra: (8583 < N < 11976).
N
Vậy với độ tin cậy 0,9, số cá trong hồ có khoảng từ 8583 đến 11976 con.
BÀI TẬP BÀI 5
Bài 1. Kiểm tra ngẫu nhiên 50 lô thuốc từ một lô thuốc mới sản xuất thấy có
3 lô thuốc hỏng. Vậy có thể cho rằng tỷ lệ lô thuốc hỏng của lô thuốc mới sản xuất
đó bằng bao nhiêu nếu dùng hàm ƣớc lƣợng.
92
Bài 2. Điều tra số con trai của 1400 gia đình có 4 con thu đƣợc kết quả nhƣ
sau:
Số con trai 0 1 2 3 4
Số gia đình 111 367 376 428 118
1. Hãy ƣớc lƣợng số con trai trung bình của các gia đình có 4 con với độ tin
cậy 95% và 99%.
2. Hãy ƣớc lƣợng tỷ lệ gia đình có ít nhất 3 con trai với độ tin cậy 95%.
Bài 3. Điều tra lƣợng Protein huyết thanh ngƣời bình thƣờng. Điện di 17 mẫu
của 17 ngƣời thu đƣợc kết quả sau:
Giá trị (g/l) 6,9 7,2 7,6 8,2 8,5
Số ngƣời 2 3 5 6 1
1. Với độ tin cậy 95%, hãy ƣớc lƣợng lƣợng Protein huyết thanh trung bình
của ngƣời bình thƣờng, lƣợng Protein huyết thanh trung bình tối đa, lƣợng Protein
huyết thanh trung bình tối thiểu.
2. Cần phải điện di thêm bao nhiêu mẫu để với độ tin cậy 0,95 thì khoảng
ƣớc lƣợng lƣợng Protein huyết thanh ngƣời bình thƣờng của mẫu đó có độ chính
xác không vƣợt quá 0,2?
Cho biết lƣợng Protein huyết thanh của ngƣời bình thƣờng là đại lƣợng ngẫu
nhiên tuân theo quy luật phân phối chuẩn.
Bài 4. Để ƣớc lƣợng trọng lƣợng trung bình của một viên thuốc A. Qua thực
tế sản xuất, tiến hành kiểm tra ngẫu nhiên ta thu đƣợc số liệu sau:
Trọng lƣợng (mg) 4,5- 5 5-5,5 5,5- 6 6- 6,5 6,5- 7 7- 7,5
Số viên thuốc 10 24 40 27 17 3
1. Với độ tin cậy 95%, hãy tìm khoảng tin cậy đối xứng của trọng lƣợng
trung bình của viên thuốc A. Cho biết trọng lƣợng trung bình của viên thuốc A là
đại lƣợng ngẫu nhiên có phân phối chuẩn.
2. Hãy ƣớc lƣợng số viên thuốc có trọng lƣợng từ 5,5 đến 6,5 (mg) với độ tin
cậy 95%.
93
NXB Thống kê.
94
Bài 6: KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ
* Giảng viên:
2.Ths Đỗ Thị Hồng Nga
Kiến thức:
1. Phân tích đƣợc các bƣớc của bài toán kiểm định giả thiết đại lƣợng ngẫu
nhiên phân phối chuẩn.
2. Vận dụng kiểm định để đƣa ra một số kết luận có cơ trong y học để có thể
phục vụ nghiên cứu y học.
Kĩ năng:
3. Giải đƣợc bài toán kiểm định trong tình huống cụ thể.
Trong chƣơng này chúng ta sẽ giải quyết bài toán dạng nhƣ sau
Giả sử ta có hai giả thiết (hai khả năng) về một vấn đề nào đó, chẳng hạn:
+ Có ý kiến cho rằng tham số ẩn  của phân phối nào nhận giá trị 0 , nhƣng
lại có ý kiến cho rằng  nhận giá trị 1 .
+ Có ý kiến cho rằng việc điều trị lần trƣớc có ảnh hƣởng đến kết quả điều trị
lần này, nhƣng lại có ý kiến cho rằng không ảnh hƣởng.
+ Tỷ lệ mắc bệnh của các địa phƣơng có nhƣ nhau không? Tỷ lệ mắc bệnh có
phụ thuộc vào yếu tố nào không (nhƣ giới tính, nghề nghiệp...)?
Vấn đề đặt ra là ta phải chọn một trong hai giả thiết đặt ra. Nói cách khác là
ta chọn giả thiết nào để khả năng đúng là cao hơn, khả năng sai là thấp hơn. Để cho
tiện ta gọi một trong hai giả thiết đặt ra là giả thiết H, còn giả thiết kia là đối giả
thiết K. (Hoặc có thể gọi giả thiết là H 0 , đối thiết là H1 )
Nếu giả sử cần nghiên cứu tham số  nào đó của đại lƣợng ngẫu nhiên và có
cơ sở nào đó để nêu giả thiết   0 . Khi đó cặp giả thiết và đối thiết sẽ là cặp:
H :   0 ; K :   0 ; hoặc H :   0 ; K :   0 hoặc H :   0 ; K :   0 .
Để giải quyết bài toán trên, thông tin duy nhất mà chúng ta có là một mẫu
ngẫu nhiên. Vận dụng các kết quả của lý thuyết xác suất ta sẽ tìm một miền bác bỏ
95
W , sao cho đối với mẫu ta tính đƣợc Gqs  G(X1 ,X2 ,...,Xn )  W thì ta bác bỏ
giả thiết H, còn khi Gqs  G(X1 ,X2 ,...,Xn )  W thì ta chấp nhận H cho đến khi có
thông tin mới. Khi bác bỏ hay chấp nhận giả thiết H chúng ta có thể mắc phải 2 loại
sai lầm sau:
Sai lầm loại 1: Ta bác bỏ H nhƣng thực tế H đúng. Ta thấy xác suất mắc
phải sai lầm loại này đúng bằng mức ý nghĩa  .
Sai lầm loại 2: Ta chấp nhận H nhƣng thực tế H sai. Giả sử xác suất mắc sai
lầm loại 2 là  : P(G  W / K)   , khi đó biến cố không mắc sai lầm loại 2 là
G  W / K với xác suất P(G  W / K)  1   . Xác suất 1  đƣợc gọi là lực
kiểm định.
Ta thấy sai lầm loại 1 và loại 2 là mâu thuẫn nhau, tức là với một mẫu kích
thƣớc xác định không thể cùng một lúc giảm tối thiểu cả hai sai lầm loại 1 và 2 nói
trên, do đó thông thƣờng ta cho trƣớc giới hạn trên của xác suất sai lầm loại 1, kí
hiệu là  , mức ý nghĩa  thƣờng nhỏ (  = 0,01; 0,05; 0,1). trong vô số các miền
bác bỏ W ta sẽ tìm miền W sao cho khả năng mắc sai lầm loại 2 đạt cực tiểu.
Miền bác bỏ nhƣ vậy gọi là miền bác bỏ “tốt nhất” với mức ý nghĩa  và kích
thƣớc mẫu n hoàn toàn xác định.
6.1. Kiểm định giả thiết về kỳ vọng toán của đại lượng ngẫu nhiên có phân phối
chuẩn
6.1.1. Đại lượng ngẫu nhiên đã biết phương sai 

2
Giả sử đại lƣợng ngẫu nhiên gốc X phân phối theo quy luật chuẩn N(; 2 )
với phƣơng sai  đã biết nhƣng chƣa biết kỳ vọng toán  . Nếu có cơ sở ta đƣa ra
2
giả thiết thống kê H :   0 . Để kiểm định giả thiết trên từ tổng thể lập mẫu kích
thƣớc n: W   X1 ,X2 ,...,Xn 
Vì đã biết phƣơng sai  của đại lƣợng ngẫu nhiên gốc X nên tiêu chuẩn
2
kiểm định là thống kê:
GU
X   
0 n

Nếu giả thiết H đúng thì ta có:
96
U
X   
0 n

 X   n
 
Ta đã biết U có phân phối N(0,1).
Nếu cho trƣớc mức ý nghĩa  thì tuỳ vào dạng của đối thiết K miền bác bỏ
đƣợc xây dựng theo các trƣờng hợp sau:
a) H :   0 ; K :   0 . Lúc đó với  cho trƣớc có thể tìm đƣợc giá trị
phân vị chuẩn U1 sao cho:
P(G  W / H)    P(U  U  )
 P(U   U1 )
 P(U  U1 )
Ta thu đƣợc miền bác bỏ bên phải W đƣợc xác định bằng biểu thức:


W   U 

X  0  n 

; U  U1  (6.1)
  
 
b) H :   0 ; K :   0 . Lúc đó với mức ý nghĩa  cho trƣớc tìm đƣợc giá
trị tới hạn chuẩn U  sao cho:
P(G  W / H)  P(U  U )  P(U  U1 )  
Ta thu đƣợc miền bác bỏ bên trái W đƣợc xác định bằng biểu thức:


W   U 

X  0  n 

; U   U1  (6.2)
  
 
c) H :   0 ; K :   0 . Lúc đó với mức ý nghĩa  cho trƣớc có thể tìm
đƣợc hai giá trị tới hạn chuẩn U1 2 và U  2 sao cho:
P(G  W / H)  P(U  U 2 )  P(U  U1 2 )
 P(U  u1 2 )  P(U  u1 2 )
 P( U  U1 2 )   .
Ta thu đƣợc miền bác bỏ hai phía đƣợc xác định bằng biểu thức:


W   U 

X  0  n 

; U  u1 2  (6.3)
  
 
97
 Các bƣớc của bài toán kiểm định đƣợc tiến hành nhƣ sau:
Lập cặp giả thiết, đối thiết phù hợp với yêu cầu của đề bài.
Từ tổng thể lấy ra mẫu cụ thể w    x1 , x 2 ,..., x n  và tính giá trị quan sát tiêu
chuẩn kiểm định:
U qs 
X   
0 n
(6.4)

Tra bảng phân vị chuẩn: U1 2 và U  2 .
Dựa vào W để kết luận:
- Nếu Uqs  W thì bác bỏ H chấp nhận K.
- Nếu Uqs  W thì chƣa có cơ sở để bác bỏ H.
Ví dụ 6.1. Từ một đám đông nào đó có phân phối chuẩn với   5, 2 lấy một
mẫu cỡ n =100, đã tính đƣợc X  27, 26 . Hãy kiểm định cặp giả thiết thống kê
H0 :   26; H1 :   26 ở mức ý nghĩa   0,05 .
Giải: Với giả thiết đã cho ta chọn thống kê U 

 X   n
.

n = 100, X  27, 26 ,   5, 2 , ta tính Uqs 

 27, 26  26  100
 2, 42
5, 2
Với   0, 05 ta có miền bác bỏ hai phía:
W  U; U  u 0,975  U; U  1,96
So sánh ta thấy Uqs  2, 42  1,96 . Vậy ta bác bỏ H 0 . Ta hiểu là: Kỳ vọng 
của đám đông khác 26 một cách có ý nghĩa ở mức   0, 05 .

Nhận xét: Vẫn với giả thiết của bài toán trên, nếu lấy mức ý nghĩa   0, 01 ,
(Tức là để giảm bớt sai lầm loại I), thì ta có miền bác bỏ hai phía:
W  U; U  u 0,995  U; U  2,58
98
Khi đó U  2, 42  2,58 , không có cơ sở bác bỏ H 0 , nhƣng khi đó khả năng
mắc sai lầm loại II tăng lên ( H 0 là sai mà ta lại công nhận). Muốn có kết luận tốt
hơn ta phải tiếp tục làm thí nghiệm.
6.1.2. Đại lượng ngẫu nhiên chưa biết phương sai 

2
Trƣờng hợp 1: Mẫu có kích thƣớc n  30

Trong trƣờng hợp này tiêu chuẩn kiểm định là thống kê:
GT
X   0 n
S
T
X   
0 n

X   n
S S
Ta đã biết T có phân phối Student T(n-1).
Nếu cho trƣớc mức ý nghĩa  thì tuỳ thuộc vào dạng của đối thiết K miền
bác bỏ đƣợc xây dựng theo các trƣờng hợp sau:
a) H :   0 ; K :   0 . Lúc đó với  cho trƣớc có thể tìm đƣợc giá trị
1
phân vị chuẩn t1n sao cho:
1
P(G  W / H)  P(T  t1n )
Ta thu đƣợc miền bác bỏ bên phải W đƣợc xác định bằng biểu thức:


W  T 

X  0  n
;T  t n 1


1  (6.5)
 S 
 
b) H :   0 ; K :   0 . Lúc đó với mức ý nghĩa  cho trƣớc tìm đƣợc giá
n 1
trị tới hạn chuẩn t  sao cho:
P(G  W / H)  P(T  t n 1 )  P(T  t1n

1
)
Ta thu đƣợc miền bác bỏ bên trái W đƣợc xác định bằng biểu thức:


W  T 

X  0  n 
1 
;T   t1n  (6.6)
 S 
 
99
c) H :   0 ; K :   0 . Lúc đó với mức ý nghĩa  cho trƣớc có thể tìm
1 n 1
đƣợc hai giá trị tới hạn chuẩn t1n /2 và t  /2 sao cho:
P(G  W / H)  P(T  t n /21 )  P(T  t1n

1
/2 )
1 n 1
 P(T  t1n /2 )  P(T  t1 /2 )
1
 P( T  t1n /2 )   .
Ta thu đƣợc miền bác bỏ hai phía đƣợc xác định bằng biểu thức:


W  T 
X  0  n
;T t n 1


1 /2  (6.7)
  
 
Từ tổng thể lấy ra mẫu cụ thể w    x1 , x 2 ,..., x n  và tính giá trị quan sát tiêu
chuẩn kiểm định:
Tqs 
X    0 n
(6.8)
S
1 n 1
Tra bảng Student: t1n /2 và t  /2 .
Dựa vào W để kết luận.

Ví dụ 6.2. Hàm lƣợng Vitamin B12 trong thuốc tiêm của một cơ sở sản xuất
là đại lƣợng ngẫu nhiên có phân phối chuẩn với hàm lƣợng trung bình theo quy định
là 200  /ml. Nghi ngờ thuốc không có đủ hàm lƣợng Vitamin B12 nhƣ quy định,
ngƣời ta kiểm tra ngẫu nhiên 25 ống thuốc thu đƣợc kết quả về hàm lƣợng (tính theo
 /ml ):
Hàm lƣợng 185 190 195 200 205 210
Số ống 2 4 6 9 3 1
Với mức ý nghĩa   0,01 hãy kết luận về điều nghi ngờ nói trên.
Giải: Gọi X là hàm lƣợng Vitamin B12 trong thuốc tiêm. Theo giả thiết X có
phân phối chuẩn N(; 2 ) .
Xét giả thiết H :   200 với đối giả thiết K :   200 .
100
Với n  25  30 ta chọn thống kê T 
 X   n
.
S
Với x 0  200, d  5 . Lập bảng tính X, S' :
xi mi hi mi h i mi h i2
185 2 -3 -6 18
190 4 -2 -8 16
195 6 -1 -6 6
200 9 0 0 0
205 3 1 3 3
210 1 2 2 4
n  25   14   47
Tta có:
5
X  200  (14)  197, 2
25
52  1 2
S2   47   14    40, 79  S  6,386
24  25 
Ta có: Tqs 
197, 2  200  25
 2,192
6,386
Với   0,01 miền bác bỏ bên trái W đƣợc xác định bằng biểu thức:
W  T; T  t 0,99
24
  T; T  2, 492
Ta thấy Tqs  W , vậy không có cơ sở bác bỏ H tức là không có cơ sở để
khẳng định thuốc tiêm của cơ sở này không có đủ hàm lƣợng Vitamin B12 nhƣ quy
định với mức ý nghĩa   0,01 .
Trƣờng hợp 2: Mẫu có kích thƣớc n  30
Trong trƣờng hợp này do mẫu có kích thƣớc lớn nên thống kê
GT
 X   n
xấp xỉ phân phối chuẩn hóa, do đó ta áp dụng nhƣ trƣờng hợp
S
mục 7.1.1 trong bài này và thay  bằng S .
2 2
101
Ví dụ 6.3. Trọng lƣợng trung bình của một viên thuốc A là 6 mg. Qua thực tế
sản xuất, tiến hành kiểm tra ngẫu nhiên ta thu đƣợc số liệu sau:
Trọng lƣợng (mg) 3 4 5 6 7 8
Số sản phẩm (ni) 10 22 22 30 20 17
Hãy kết luận về tình hình sản xuất với mức ý nghĩa 5%.
Giải: Gọi X là trọng lƣợng trung bình của viên thuốc A .
Xét giả thiết H :   6 với đối giả thiết K :   6 .
Với n  121  30 ta chọn thống kê U 

 X   n
làm tiêu chuẩn kiểm
S
định. U có phân phối chuẩn hóa.
Với   0,05 miền bác bỏ hai phía đƣợc xác định bằng biểu thức:
W  U; U  u 0,975   ; 1,96   (1,96; )
Lập bảng tính X, S' :
xi mi mi x i mi x i2
3 10 30 90
4 22 88 352
5 22 110 550
6 30 180 1080
7 20 140 980
8 17 136 1088
n  121   684   4140
Ta có:
1
X 684  5, 653
121
1
S2   4140  121 5, 6532   2, 277  S  1,509
120  
Ta có: Uqs 
 5,653  6  121
 2,529
1,509
102
Có Uqs  W ta bác bỏ giả thiết. Điều đó có nghĩa là tình hình sản xuất
không bình thƣờng với mức ý nghĩa 5%.

6.1.3. Tìm xác suất sai lầm loại hai (  )
Giả sử  0 là giá trị giả thiết của  và 1 là giá trị thực của  thì miền bác
bỏ bên phải giá trị  đƣợc xác định nhƣ sau:
Xét cặp giả thiết thống kê H :   0 ; K :   0 .
Do H sai và  có giá trị thực là 1 nên U 

X   
1 n
có phân phối

N(0,1).
Khi đó:
  P(G  W / K)  P(
X   
0 n
 U1 )  P(
X    0 n

1 n  n
 U1  1 )
   
 P(
X   1 n
 U1 
 1  0  n
)
 
Vậy:   P(U  U1 

 1  0  n
)

(6.9)
Tƣơng tự ta có biểu thức của  với miền bác bỏ bên trái:
  P(U  U1 
 0  1  n
) (6.10)

Từ đó ta có công thức chung để tìm xác suất mắc sai lầm loại hai  khi miền
bác bỏ 1 phía nhƣ sau:
0  1 n
  P(U  U1  ) (7.11)

Nếu miền bác bỏ hai phía thì  đƣợc xác định bằng công thức:
0  1 n
  P(U  U   ) (6.12)
1
2

Từ đó suy ra giá trị của lực kiểm định 1  .
103
Chú ý: Trong trƣờng hợp không biết  ta thay  bằng S và trong trƣờng
1 n 1
hợp mẫu nhỏ U1 , U 
thay bằng t1n /2 , t  /2 .
1
2
Ví dụ 6.4. Gọi X là chiều cao nam thanh niên (cm). Giả sử X có quy luật
phân phối chuẩn N(158,5;52 ) . Sau 10 năm đo chiều cao 270 nam thanh niên đƣợc
kết quả: x  Sx  162,3  5,5 .

1. Chiều cao trung bình của nam thanh niên sau 10 năm có còn bằng 158,5
không? Lấy   0,05 .
2. Nếu chiều cao trung bình thực của nam thanh niên sau 10 năm bằng 160,
hãy tính (160) .
Giải:
1. Xét cặp giả thiết thống kê: H :   158,5 ; K :   158,5
Vì   5 đã biết ta chọn thống kê U 

 X   n
.

162,3  158,5 270

Ta có: U qs   12, 488
5
Với   0,05 miền bác bỏ bên phải W đƣợc xác định bằng biểu thức:
W  U;U  U0,95  (1,645; )
Ta thấy Uqs  W , vậy ta bác bỏ giả thiết   162 , chấp nhận đối thiết
  158,5 Nghĩa là sau 10 năm chiều cao trung bình của nam thanh tăng lên.
2. Giả sử chiều cao trung bình thực của nam thanh nên sau 10 năm bằng 160,
ta có:
0  1 n 158,5  160 270

  P(U  U1  )  P(U  1,645  )
 5
 P(U  3, 28)  P(U  3, 28)  1  P(U  3, 28)  1  0,99952  0,00048
Vậy (160)  0,00048 .
6.2. Kiểm định về hai kỳ vọng toán của hai đại lƣợng ngẫu nhiên phân phối
theo quy luật chuẩn.
104
Giả sử có hai tổng thể nghiên cứu trong đó các đại lƣợng ngẫu nhiên X1 và
X 2 cùng có phân phối chuẩn với các kỳ vọng toán 1 , 2 và các phƣơng sai 12 , 22
. Nếu 1 , 2 chƣa biết nhƣng có cơ sở để giả thiết chúng bằng nhau ta đƣa ra giả
thiết thống kê H : 1  2 .
Để kiểm định giả thiết trên ta xét một số trƣờng hợp sau:
6.2.1. Các đại lượng ngẫu nhiên đã biết các phương sai 12 ; 22
Từ hai tổng thể trên có thể rút ra đƣợc 2 mẫu độc lập kích thƣớc n1;n 2 :

W1  X11 ,X12 ,...,X1n 1

W2  X 21 ,X 22 ,...,X 2n 2

X1  X 2   1   2 
Thống kê để kiểm định là: G  U 
12 22

n1 n 2
X1  X 2
U
12  22

n1 n2
U phân phối N(0,1).
Với mức ý nghĩa  cho trƣớc và với phƣơng pháp xây dựng giống nhƣ đã
làm ở mục 7.1 bài này ta xây dựng đƣợc các miền bác bỏ W tƣơng ứng với các
dạng của đối thiết K nhƣ sau:
a) H : 1  2 ; K : 1  2 . Miền bác bỏ bên phải: W  U;U  U1 
b) H : 1  2 ; K : 1  2 . Miền bác bỏ bên trái: W  U;U  U1 
c) H : 1  2 ; K : 1  2 . Miền bác bỏ hai phía : W  U; U  u1 2 
105
  
Từ tổng thể lấy ra hai mẫu cụ thể w1  x11 , x12 ,..., x1n , w 2  x 21 , x 22 ,..., x 2n
1 2

1 n 1 n
và tính các trung bình mẫu cụ thể: x1   x1i và x 2   x 2i
1 2
n1 i 1 n 2 i 1
Khi đó giá trị quan sát tiêu chuẩn kiểm định:
x1  x 2
U qs  (6.13)
12  22

n1 n 2
- Nếu Uqs  W thì bác bỏ H chấp nhận K.
Ví dụ 6.5.
Tại một xí nghiệp gia công thuốc viên ngƣời ta xây dựng 2 phƣơng án gia
công cùng một loại thuốc. Để đánh giá xem chi phí trung bình về nguyên liệu theo
hai phƣơng án đó có khác nhau hay không ngƣời ta tiến hành sản xuất thử và thu
đƣợc kết quả nhƣ sau (đv: nghìn đồng/ viên):
Phƣơng án 1: 2,5 3,2 3,5 3,8 3,5
Phƣơng án 2: 2,0 2,7 2,5 2,9 2,3 2,6
Với mức ý nghĩa   0,05 hãy kết luận về vấn đề trên biết rằng chi phí
nguyên liệu theo cả hai phƣơng án gia công đều là các biến ngẫu nhiên phân phối
chuẩn có 1  2  0,16 .
2 2
Giải: Gọi X1; X 2 tƣơng ứng là chi phí nguyên liệu theo hai phƣơng án gia
công trên. Theo giả thiết X1; X 2 là phân phối chuẩn N(1; 1 ) , N(2 ; 2 ) .
2 2
Giả thiết H : 1  2 với đối giả thiết K : 1  2 .
X1  X 2
Ta chọn thống kê U  .
12  22

n1 n2
Với hai mẫu tƣơng ứng có:
106
2,5  3, 2  3,5  3,8  3,5
X1   3,3
5
2,0  2,7  2,5  2,9  2,3  2,6
X2   2,5
6
3,3  2,5
Giá trị quan sát là U qs   3,33
0,16 0,16

5 6
Do   0,05 , đối giả thiết K: 1  2 nên miền bác bỏ
W  U; U  u 0,975  U; U  1,96
Dễ thấy Uqs  W ta bác bỏ H và có cơ cở để chấp nhận K tức là chi phí
nguyên liệu gia công thuốc theo 2 phương án gia công trên là khác nhau với mức ý
nghĩa   0,05 .
6.2.2. Các đại lượng ngẫu nhiên chưa biết các phương sai 1 ; 2
2 2
 Trƣờng hợp: 1  2
2 2
Ta giả định 1  2 . Từ hai tổng thể trên có thể rút ra đƣợc 2 mẫu độc lập
2 2
kích thƣớc n1;n 2 :

W1  X11 ,X12 ,...,X1n 1

W2  X 21 ,X 22 ,...,X 2n 2

Tiêu chuẩn kiểm định đƣợc chọn là:
GT
 X  X      
1 2 1 2
1 1
S 
n1 n 2
S
 n1  1 S12   n 2  1 S22 
n1S12  n 2S2 2
n1  n 2  2 n1  n 2  2
X1  X 2
T
1 1
S 
n1 n 2
107
T phân phối Student với n1  n 2  2 bậc tự do.
Với mức ý nghĩa  cho trƣớc ta xây dựng đƣợc các miền bác bỏ W tƣơng
ứng với các dạng của đối thiết K nhƣ sau:
a) H : 1  2 ; K : 1  2 .
Miền bác bỏ bên phải W đƣợc xác định: W  T;T  t1nn 1 2 2


(6.14)
b) H : 1  2 ; K : 1  2 .
Miền bác bỏ bên trái W đƣợc xác định: W  T;T  t1nn 1 2 2

 (6.15)
c) H : 1  2 ; K : 1  2 .
Miền bác bỏ hai phía đƣợc xác định: W  T; T  t1nn/2 2  1 2

(6.16)
Từ tổng thể lấy ra hai mẫu cụ thể 
w1  x11 , x12 ,..., x1n , 1


w 2  x 21 , x 22 ,..., x 2n 2
 và tính các trung bình mẫu và các phƣơng sai mẫu cụ thể:
1 n 1 n 1n 2 1 n 2 
x1   x1i , x 2   x 2i và s1    x   (x1 ) , s 2    x
1 2 1 2
  (x 2 )
2 2 2 2
n1 i 1 n 2 i 1 n1  i 1  n 2  i 1 1i 2i

Tqs 
x 1
; S
 x2 
n1s12  n 2s 22
(6.17)
1 1 n1  n 2  2
S 
n1 n 2
n1  n 2  2
Tra bảng Student: t1nn/22 và t1
1 2
.
- Nếu Tqs  W thì bác bỏ H chấp nhận K.
- Nếu Tqs  W thì chƣa có cơ sở để bác bỏ H.
Ví dụ 6.6. Gọi X1 , X 2 lần lƣợt là đƣờng kính các viên thuốc do máy 1, máy
2 dập, cho biết X1 , X 2 có phân phối chuẩn. Kiểm tra 8 viên thuốc đƣợc dập từ máy
108
1 thu đƣợc X1  5,658 và S12  0,0098 . Kiểm tra 10 viên thuốc đƣợc dập từ máy 2
thu đƣợc X2  5, 486 và S22  0,0156 . Đƣờng kính trung bình của các viên thuốc do
hai máy dập ra có nhƣ nhau không?
Giải:
Theo giả thiết X1; X 2 phân phối chuẩn N(1; 12 ) , N(2 ; 22 ) . So sánh các
phƣơng sai thấy chúng nhƣ nhau. Do đó để kiểm định cặp giả thiết H : 1  2 ; đối
thiết K : 1  2 ta sử dụng công thức kiểm định:
Tqs 
x 1  x2  ; S
n1s12  n 2s 22
1 1 n1  n 2  2
S 
n1 n 2
Ta có:
n1s12  n 2s 22 8.0,0086  10.0,014

S   0,114
n1  n 2  2 8  10  2
Khi đó:
Tqs 
x 1  x2  
 5,658  5, 486   3,18
1 1 1 1
S  0,114 
n1 n 2 8 10
Với mức ý nghĩa   0,05 ta có miền bác bỏ:
W  T; T  t16
0,975   T; T  2,12
Với mức ý nghĩa   0,01 ta có miền bác bỏ:
W  T; T  t16
0,995   T; T  2,921
Tqs  3,18 thuộc vào cả 2 miền bác bỏ, tức bác bỏ giả thiết H. Nhƣ vậy
đƣờng kính trung bình của các viên thuốc do hai máy dập ra là khác biệt có ý nghĩa
thống kê.
 Trƣờng hợp: 1  2
2 2
Trƣờng hợp ta không thể cho rằng 1  2  12  22  . Từ tổng thể ta có thể
2 2
rút ra đƣợc 2 mẫu độc lập kích thƣớc n1;n 2 và chọn tiêu chuẩn kiểm định là:
109
GT
X1 
 X 2   1   2 
S12 S2 2

n1 n 2
T phân phối Student với số bậc tự do là:
S12

k
 n1  1 n 2  1  n1
  1 với C  2
          S1 S22
2
 2 
2
n 1 C 1 C n 1 1 
n1 n 2
T
X 1  X2 
S12 S2 2

n1 n 2
a) H : 1  2 ; K : 1  2 .
Miền bác bỏ bên phải W đƣợc xác định: W  T;T  t1k  (6.18)
b) H : 1  2 ; K : 1  2 .
Miền bác bỏ bên trái W đƣợc xác định: W  T;T  t1k 
(6.19)
c) H : 1  2 ; K : 1  2 .
Miền bác bỏ hai phía đƣợc xác định: W  T; T  t1k /2  (6.20)
  
Từ tổng thể lấy ra hai mẫu cụ thể w1  x11 , x12 ,..., x1n , w 2  x 21 , x 22 ,..., x 2n
1 2

và tính các trung bình mẫu x1 , x 2 và các phƣơng sai mẫu s1 , s2 .
2 2
110
Tqs 
x 1  x2  (6.21)
s12 s2 2

n1 n 2
S12

Tính k  
 n1  1 n 2  1  n1
  1 với C  2 (6.22)
  n 2  1 C  1  C   n1  1  S1 S22
2 2

n1 n 2
Tra bảng Student: t1k /2 và t1k .
So sánh Tqs với W để kết luận.
Ví dụ 6.7. Hai loại thuốc A, B làm tim đập chậm đƣợc thử nghiêm trên 16
con chuột bạch. Mỗi loại đƣợc thử nghiệm trên 8 con. Kết quả thu đƣợc về hiệu số
nhịp đập của tim sau khi dùng thuốc và trƣớc khi dùng thuốc:
Thuốc A -22 -14 -36 -28 -8 -22 -8 2
Thuốc B -14 -12 -22 -30 10 0 -8 24
So sánh tác dụng của 2 loại thuốc trên ở mức ý nghĩa 0.05. Cho biết hiệu số
nhịp đập của tim sau khi dùng thuốc và trƣớc khi dùng thuốc là phân phối chuẩn.
Giải: Gọi X1; X 2 lần lƣợt là hiệu số nhịp đập của tim sau và trƣớc khi dùng
thuốc A, thuốc B. Theo giả thiết X1; X 2 phân phối chuẩn N(1; 1 ) , N(2 ; 2 ) . Giả
2 2
thiết H : 1  2 ; đối thiết K : 1  2 .
Từ mẫu cụ thể ta tính đƣợc: X1  17;S12  152 và X2  6,5;S22  297,68

So sánh các phƣơng sai thấy chúng khác nhau, do dó ta chọn thống kê:
T
X1  X2 
S12 S2 2

n1 n 2
Ta có:
 17  6,5 
Tqs   1, 4
152 297, 68

8 8
111
S12 152
n1 8
C 2   0,33;
S1 S22
152

297,68

n1 n 2 8 8
 7.7 
k 2
 1  12,67   1  13
 7(0,338)  7(1  0,338) 
2
Miền bác bỏ tƣơng ứng là W  T; T  t13

0,975   T; T  2,16
Dễ thấy Tqs  W ta chƣa có cơ sở để bác bỏ giả thiết, tức là tác dụng của 2
loại thuốc trên nhƣ nhau ở mức ý nghĩa 0.05.

 Trƣờng hợp: Mẫu có kích thƣớc lớn n1  30, n2  30
Trong trƣờng hợp này do mẫu có kích thƣớc lớn nên dù X1 , X 2 không phân
phối chuẩn thì thống kê G  U 

 X  X      
1 2 1 2
vẫn xấp xỉ phân phối chuẩn
S12 S2 2

n1 n 2
hóa, do đó ta áp dụng nhƣ trƣờng hợp mục 6.2.1 trong bài này và thay 1 , 2 bằng
2 2
S12 , S22 .
 Tìm 
Nếu miền bác bỏ 1 phía xác suất mắc sai lầm loại hai  đƣợc xác định bằng
công thức:
1   2
  P(U  U1  ) (6.23)
12 22

n1 n2
1   2
  P(U  U   ) (6.24)
1
12  22

2
n1 n2
Chú ý: Trong các trƣờng hợp chƣa biết 1 , 2 ta thay bằng S1 , S2 và trong
trƣờng hợp cỡ mẫu nhỏ ta thay giá trị U1 , U 

bằng giá trị t1k , t k  .
1 1
2 2
112
Ví dụ 6.8. Định lƣợng Vitamin B12 tiêm 200  /ml của 2 cơ sở sản xuất A và
B thu đƣợc kết quả về hàm lƣợng (tính theo  /ml ):
Hàm lƣợng 185 190 195 200 205 210 215 220
Số ống c.s A 2 2 3 9 7 6 5 6
Số ống c.s B 4 5 3 12 8 5 2 1
Hàm lƣợng B12 trong thuốc tiêm của 2 cơ sở sản xuất trên có nhƣ nhau
không? Giả thiết hàm lƣợng Vitamin B12 phân phối chuẩn. Lấy   0,05 .
Giải: Gọi X1; X 2 lần lƣợt là hàm lƣợng Vitamin B12 tiêm 200  /ml của 2 cơ
sở sản xuất A và B. Theo giả thiết X1; X 2 phân phối chuẩn N(1; 12 ) , N(2 ; 22 ) .
Giả thiết H : 1  2 ; đối thiết K : 1  2 .

Từ mẫu cụ thể ta tính đƣợc:
X1  205,625; S12  96,4 và X2  200,375; S22  77,42
Với n1  n 2  40  30 ta chọn thống kê:
U
X  X 
1 2
S12 S2 2

n1 n 2
Ta có:
205, 625  200, 375
U qs   2, 518
96, 4 77, 42

40 40
Miền bác bỏ tƣơng ứng là W  U; U  u 0,975  U; U  1,96
Ta thấy Uqs  W , vậy bác bỏ giả thiết, chấp nhận đối thiết, tức hàm lƣợng
B12 trong thuốc tiêm của 2 cơ sở sản xuất trên không nhƣ nhau ở mức ý nghĩa 0.05.
6.3. Kiểm định giả thiết về xác suất (hoặc tỷ lệ)
6.3.1. Kiểm định giả thiết về tham số p của một đại lƣợng ngẫu nhiên
Giả sử trong tổng thể của đại lƣợng ngẫu nhiên X phân phối không – một có
xác suất xuất hiện biến cố A là p, nếu chƣa biết p song có cơ sở để giả thiết giá trị
113
của nó bằng p 0 , ta đƣa ra giả thiết H : p  p0 , đối thiết K : p  p0 (hoặc K : p  p0 ,
hoặc K : p  p0 ).
Từ tổng thể lập mẫu ngẫu nhiên kích thƣớc n, với n đủ lớn ta chọn tiêu chuẩn
f  p0
kiểm định là thống kê G  U  n
p0 1  p0 

f p
U n
p 1  p 
U có phân phối xấp xỉ phân phối chuẩn hóa N(0,1).

a) H : p  p0 ; K : p  p0 .
Miền bác bỏ bên phải W đƣợc xác định: W  U;U  U1 
b) H : p  p0 ; K : p  p0 .
Miền bác bỏ bên trái W đƣợc xác định: W  U;U  U1 
c) H : p  p0 ; K : p  p0 .
Miền bác bỏ hai phía đƣợc xác định: W  U; U  u1 2 
Từ mẫu cụ thể ta tính đƣợc giá trị quan sát tiêu chuẩn kiểm định:
f  p0
U qs  n (6.25)
p0 1  p0 
- Nếu Uqs  W thì bác bỏ H và có cơ sở chấp nhận K.
Ví dụ 6.9. Tỷ lệ mắc bệnh sốt rét ở một huyện miền núi là 0,07. Trong một
đợt kiểm tra sức khỏe ngẫu nhiên 350 ngƣời ở huyện này thấy có 30 ngƣời mang vi
114
trùng sốt rét. Với mức ý nghĩa   0,02 , có thể khẳng định tỷ lệ mắc bệnh sốt rét ở
vùng đó đã tăng lên hay không?
Giải: Gọi p là tỷ lệ mắc bệnh sốt rét. Đây là bài toán kiểm định giả thiết
thống kê về tỷ lệ.
Xét cặp giả thiết, đối thiết H : p  0,07; K : p  0,07
f p
Chọn thống kê U  n , trong đó f là tần số của mẫu ngẫu nhiên
p 1  p 
30
và f   0,086; n  350 .
350
0,086  0,07
Ta có: Uqs  350  1,173
0,07 1  0,07 
Với mức ý nghĩa   0,02 . Miền bác bỏ bên phải W đƣợc xác định:
W  U; U  U0,98  U; U  2,054 .
Ta thấy Uqs  W , vậy không có cơ sở bác bỏ giả thiết H, nghĩa là không có
cơ sở để khẳng định tỷ lệ mắc bệnh sốt rét ở vùng đó tăng lên.

 Tìm 
Nếu miền bác bỏ 1 phía thì xác suất mắc sai lầm loại hai  đƣợc xác định
bằng công thức:
p0  p1 n
  P(U  U1  ) (6.26)
p0 (1  p0 )
p0  p1 n
  P(U  U   ) (6.27)
1
2 p0 (1  p0 )
Ví dụ 6.10. Điều tra 100.000 ngƣời ở một tỉnh thấy có 32 ngƣời bị lao. Tỷ lệ bị
lao bằng 0,0005 có đúng không? Nếu tỷ lệ bị lao đúng bằng 0,0008 tính sai lầm loại 2
với   0,05 .
Giải: Gọi p là tỷ lệ bị lao. Đây là bài toán kiểm định giả thiết thống kê về tỷ lệ.
Xét cặp giả thiết, đối thiết H : p  0,0005; K : p  0,0005
115
f p
Chọn thống kê U  n , trong đó f là tần số của mẫu ngẫu nhiên
p 1  p 
32
và f   0,00032; n  100000 .
100000
0, 00032  0, 0005
Ta có: Uqs  100000  2,546
0, 0005 1  0, 0005 
Với mức ý nghĩa   0,02 . Miền bác bỏ bên trái W đƣợc xác định:
W  U; U  U0,95  U; U  1,645 .
Ta thấy Uqs  W , vậy bác bỏ giả thiết H, nghĩa là tỷ lệ bị lao thấp hơn
0,0005.
Nếu tỷ lệ bị lao đúng bằng 0,0008 ta tính sai lầm loại 2 với   0,05 nhƣ sau:
p 0  p1 n 0, 0005  0, 0008 100000

  P(U  U1  )  P(U  1, 645  )
p 0 (1  p 0 ) 0, 0005(1  0, 0005)
 P(U  2,599)  P(U  2,599)  1  P(U  2,599)  1  0,9955  0, 0045
(Tra bảng phụ lục 1).
6.3.2. Kiểm định giả thiết về tham số p của hai đại lượng ngẫu nhiên phân phối
không – một
Giả sử có hai tổng thể nghiên cứu, trong đó các đại lƣợng ngẫu nhiên X1 , X 2
có cùng phân phối không - một A  p1  , A  p 2  . Nếu p1 , p 2 chƣa biết song có cơ sở
để giả thiết rằng giá trị của chúng bằng nhau ta đƣa giả thiết thống kê H : p1  p2 ;
Đối thiết K : p1  p2 (K : p1  p2 ; K : p1  p2 )
Để kiểm định giả thiết thống kê trên, từ tổng thể rút ra hai mẫu ngẫu nhiên
độc lập kích thƣớc tƣơng ứng là n1; n 2  n1  30; n 2  30 
 f1  f 2    p1  p 2 
Chọn tiêu chuẩn kiểm định là thống kê : G  U 
1 1 
f 1  f    
 n1 n 2 
n1f1  n 2f 2
trong đó f1 ,f 2 là các tần suất tƣơng ứng của hai mẫu trên và f  .
n1  n 2
116
Với n1 , n 2 đủ lớn  n1  30; n 2  30  thì thống kê G nói trên sẽ xấp xỉ phân
phối N(0,1). Nếu giả thiết H đúng thì tiêu chuẩn kiểm định có dạng
f1  f 2
U và vẫn là phân phối xấp xỉ N(0,1).
1 1 
f 1  f    
 n1 n 2 
a) H : p1  p2 ; K : p1  p2 .
Miền bác bỏ bên phải W đƣợc xác định: W  U;U  U1 
b) H : p1  p2 ; K : p1  p2 .
Miền bác bỏ bên trái W đƣợc xác định: W  U;U  U1 
c) H : p1  p2 ; K : p1  p2 .
Miền bác bỏ hai phía đƣợc xác định: W  U; U  u1 2 
Từ mẫu cụ thể ta tính đƣợc giá trị quan sát tiêu chuẩn kiểm định:
f1  f 2 n1f1  n 2f 2
U qs  ; f (6.28)
1 1  n1  n 2
f 1  f    
 n1 n 2 
So sánh U qs với W để kết luận.
Ví dụ 6.11. Điều trị phƣơng pháp I cho 405 bệnh nhân có 328 ngƣời
khỏi.Điều trị phƣơng pháp II cho 155 bệnh nhân có 122 ngƣời khỏi. Tỷ lệ khỏi của
hai phƣơng pháp có nhƣ nhau không? Kết luận với mức ý nghĩa   0,05 .
Giải: Gọi p1 , p2 tƣơng ứng là tỷ lệ khỏi của 2 phƣơng pháp I và II. Đây là
bài toán kiểm định giả thiết thống kê về tỷ lệ của hai tổng thể.
Giả thiết H : p1  p2 , đối giả thiết K : p1  p2 .
117
f1  f 2 n1f1  n 2f 2
Chọn tiêu chuẩn kiểm định U  ; f
1 1  n1  n 2
f 1  f    
 n1 n 2 
328 122
Từ mẫu cụ thể ta tìm đƣợc f1   0,81; f 2   0,787
405 155
405.0,81  155.0,787
Khi đó: f   0,804
405  155
0,81  0,787
và: U qs   0,613
 1 1 
0,804(1  0,804)   
 405 155 
Với mức ý nghĩa   0,05 Miền bác bỏ hai phía đƣợc xác định:
W  U; U  u 0,975  U; U  1,96
Ta thấy U qs không thuộc miền W .
Kết luận: Chƣa có cơ sở để bác bỏ H nghĩa là tỷ lệ khỏi của hai phƣơng pháp
là nhƣ nhau.
6.4. Kiểm định khi bình phƣơng
Kiểm định khi bình phƣơng dựa trên việc sử dụng tiêu chuẩn  2 của
K.Pearson, thƣờng đƣợc sử dụng giải quyết các bài toán trong thực tế nhƣ: tỷ lệ
khỏi của các phƣơng pháp có nhƣ nhau không hoặc tỷ lệ mắc bệnh nào đó có phụ
thuộc vào giới tính hay nghề nghiệp không...Và nếu tỷ lệ mắc bệnh nào đó không
phụ thuộc vào giới tính hay nghề nghiệp thì tức là tỷ lệ mắc bệnh độc lập với giới
tính hay nghề nghiệp. Nhƣ vậy từ bài toán so sánh các tỷ lệ cũng có thể dẫn đến bài
toán kiểm định tính độc lập giữa các đặc tính.
Giả sử cần nghiên cứu đồng thời hai dấu hiệu định tính A và B trên cùng một
tổng thể. Dấu hiệu A có các phạm trù là A1 ,A2 ,...,Ak , còn Dấu hiệu B có các phạm
trù là B1 ,B2 ,...,Bh . Nếu có cơ sở ta đƣa ra cặp giả thiết thống kê:
H: Các tỷ lệ nhƣ nhau hoặc H: Hai đặc tính độc lập
K: Các tỷ lệ không nhƣ nhau K: Hai đặc tính không độc lập
Để kiểm định giả thiết trên, từ tổng thể lập mẫu kích thƣớc n và trình bày bẫu
dƣới dạng bảng hai lối vào sau đây:
118
B
B1 B2 ... Bh ni
A
A1 n11 n12 n1h n1
A2 n 21 n 22 n 2h n2
.
.
Ak n k1 nk2 n kh nk
mj m1 m2 mh n
Trong đó: n là kích thƣớc mẫu;

n i là tổng các tần số tƣơng ứng với dấu hiệu thành phần A i ;
m j là tổng các tần số tƣơng ứng với dấu hiệu thành phần B j ;
n ij là tần số ứng với các phần tử đồng thời mang dấu hiệu A i và B j .
Với n đủ lớn thì theo định nghĩa thống kê về xác suất ta có:
n ij ni m
P(Ai B j )  (i  1, k; j  1, h) ; P(Ai )  (i  1, k) ; P(B j )  j ( j  1, h)
n n n
Nếu giả thiết A, B độc lập thì các dấu hiệu thành phần cũng độc lập nên:
n ij ni m j
P(Ai B j )  P(Ai )P(B j )   (i  1, k; j  1, h)
n n n
Vì thế tiêu chuẩn kiểm định đƣợc chọn là thống kê:
2
 n ij n i m j 
h 
 
 n n n 
k
G    n 
2
i 1 j1 ni m j
n n
Hay
2
 nim j 

 n   
2
ij
n  M nm
 2     
k h k h
n
 (đặt Mij  i j )
ij ij
i 1 j1
nim j i 1 j1 M ij n
n
119
Với n đủ lớn thống kê  2 phân phối theo quy luật khi bình phƣơng với
(k-1)(h-1) bậc tự do. Tra bảng phụ lục 4. Khi đó với mức ý nghĩa  miền bác bỏ
của H là:
W  2 ; 2  2 (k 1)(h 1)  (6.29)
Vậy dựa vào mẫu cụ thể tính đƣợc giá trị quan sát  qs
2
, so sánh với W và
kết luận. Trong thực tế ta thƣờng lấy   0,05 .
Ta có thể tính  qs
2
bằng công thức:
n ij  M ij 
2
k h  k h n2  nim j
2    n   ij  1 (Với Mij  ) (6.30)
Mij  i 1 j1 n m  n
i 1 j1  i j 
Ví dụ 6.12. Điều trị một bệnh bằng hai phƣơng pháp thu đƣợc kết quả sau:
Kết quả
Khỏi Đỡ Thất bại ni
P. pháp
I 230 40 50 320
II 76 12 7 95
mj 306 52 57 415
Hai phƣơng pháp điều trị có nhƣ nhau không?
Giải: Xét cặp giả thiết thống kê:
H: Hai phƣơng pháp điều trị hiệu quả nhƣ nhau.
K: Hai phƣơng pháp điều trị hiệu quả không nhƣ nhau.
nim j
Với Mij  ta có:
n
M11  235,952 M12  40,096 M13  43,952

M 21  70,048 M 22  11,904 M 23  13,048
Ta có giá trị quan sát:
n  Mij 
2
2 3
qs    4, 292
2 ij
i 1 j1 Mij
Lấy   0,05 miền bác bỏ của H là:

120
W  2 ; 2  2 (k 1)(h 1)   2 ; 2  0,05
2 (2)
  2 ; 2  5,991
Ta thấy qs
2
 W , giữ giả thiết H. Nhƣ vậy hai phƣơng pháp điều trị hiệu quả
nhƣ nhau.
Ví dụ 6.13. Điều tra tình hình mắc ba bệnh B1 , B2 , B3 tại hai xã thu đƣợc kết
quả sau:
Bệnh
B1 B2 B3 ni
Xã
I 588 369 89 1046
II 304 171 50 525
mj 892 540 139 1571
Tỷ lệ ba bệnh tại hai xã có nhƣ nhau không?
H: Tỷ lệ ba bệnh tại hai xã nhƣ nhau.
K: Tỷ lệ ba bệnh tại hai xã khác nhau.
nim j
n
M11  593,91 M12  359,54 M13  92,55

M 21  298,09 M 22  180, 46 M 23  46, 45
n  Mij 
2
2 3
qs    1,328
2 ij
i 1 j1 Mij
W  2 ; 2  2 (k 1)(h 1)   2 ; 2  0,05

2 (2)
  2 ; 2  5,991
Ta thấy qs
2
 W , giữ giả thiết H. Nhƣ vậy tỷ lệ ba bệnh B1 , B2 , B3 tại hai xã
nhƣ nhau.
Ví dụ 6.14. Điều tra 169 ngƣời nƣớc ngoài về hai đặc tính màu tóc và màu mắt
thu đƣợc số liệu sau:
121
Màu tóc
Đen Hung Nâu Bạch kim ni
Màu mắt
Xanh 35 19 36 25 115
Đen 14 14 16 10 54
mj 49 33 52 35 169
Hai đặc tính di truyền có độc lập với nhau không?
H: Hai đặc tính di truyền độc lập nhau.
K: Hai đặc tính di truyền không độc lập nhau.
nim j
n
M11  33,343 M12  22, 456 M13  35,385 M14  23,817

M 21  15,657 M 22  10,544 M23  16,615 M24  11,183
n  Mij 
2
2 3
    2,140
2 ij
qs
i 1 j1 Mij
W  2 ; 2  2 (k 1)(h 1)   2 ; 2  0,05

2 (3)
  2 ; 2  7,815
Ta thấy qs
2
 W , giữ giả thiết H. Nhƣ vậy hai đặc tính di truyền độc lập nhau.
BÀI TẬP CHƢƠNG 6

Bài 1. Gọi X là chiều cao nam thanh niên từ 18 đến 20 tuổi ở một tỉnh. Giả
sử X có quy luật phân phối chuẩn   162 . Sau 10 năm đo chiều cao 100 thanh niên
trong độ tuổi này thu đƣợc kết quả:
Chiều cao 154- 158- 162- 166- 170- 174- 178-
(cm) 158 162 166 170 174 178 182
Số thanh 12 14 26 30 10 6 2
122
niên
1. Chiều cao trung bình của nam thanh niên sau 10 năm có còn bằng 162
không? Lấy   0,05 .
2. Nếu chiều cao trung bình thực của nam thanh niên sau 10 năm bằng 164,
hãy tính (164) .
Bài 2. Định lƣợng Protein toàn phần trong huyết thanh bệnh nhi suy dinh
dƣỡng trƣớc điều trị X và sau điều trị Y, thu đƣợc số liệu sau:
X (g/l): 55,8 53,3 30,1 51,0 37,8 68,6 57,7 59,1 49,4
35,4 53,4 42,7 21,2 28,3 57,3 42,4 61,4
Y (g/l): 60,4 58,7 28,9 48,0 39,7 68,8 57,5 70,4 56,8
40,6 57,3 44,3 32,2 47,7 77,0 55,1 66,1
Phƣơng pháp điều trị có hiệu quả không? Lấy   0,05 . Giả thiết X, Y có
phân phối chuẩn.
Bài 3. Biết tỷ lệ phế phẩm do một máy tự động dập thuốc dạng viên nén sản
xuất ra là 5%. Kiểm tra ngẫu nhiên 300 viên thuốc thấy có 24 viên thuốc là phế
phẩm. Từ đó có ý kiến cho rằng tỷ lệ phế phẩm do máy đó sản xuất ra có chiều
hƣớng tăng lên. Hãy kết luận ý kiến nêu trên với mức ý nghĩa   0,05 .
Bài 4. Tại một địa phƣơng, điều tra 1000 trẻ thấy 376 trẻ suy dinh dƣỡng.
1. Tỷ lệ suy dinh dƣỡng bằng 0,4 có đúng không? Tính sai lầm loại 2 nếu tỷ lệ
suy dinh dƣỡng đúng bằng 0,37 với   0,05 .
2. Tỷ lệ suy dinh dƣỡng bằng 0,35 có đúng không? Tính sai lầm loại 2 nếu tỷ lệ
suy dinh dƣỡng đúng bằng 0,37 với   0,05 .
Bài 5.Tại một địa phƣơng khám 1689 trẻ nam thấy 116 trẻ bị bƣớu cổ, khám
1539 trẻ nữ thấy 131 trẻ bị bƣớu cổ. Hỏi tỷ lệ bƣớu cổ của trẻ nam có thấp hơn tỷ lệ
bƣớu cổ ở trẻ nữ hay không? Lấy   0,05 .
Bài 6. Quan sát các cây với hai đặc tính màu hoa và dạng lá, thu đƣợc kết quả
sau:
Màu hoa
Đỏ Hồng
Dạng lá
123
Phẳng 14 18
Nhăn 22 16
Hai đặc tính di truyền có độc lập nhau không?

Bài 7. Điều trị một bệnh bằng ba phƣơng pháp A, B, C, mỗi phƣơng pháp điều trị
cho 40 ngƣời, thu đƣợc kết quả sau:
Kết quả
Khỏi Đỡ Thất bại
P. pháp
A 14 18 8
B 22 16 2
C 32 8 0
Hiệu quả của ba phƣơng pháp điều trị có nhƣ nhau không?
Bài 8. Nghiên cứu ảnh hƣởng của thành phần thức ăn của bố mẹ (X) đối với
giới tính (Y) của con cái. Điều tra 571 cặp bố mẹ thu đƣợc số liệu sau:
X Thiếu Đủ
Y vitamin vitamin
Trai 123 145
Gái 153 150
Với   0,05 có thể xem X và Y độc lập nhau hay không?

NXB Thống kê.
124
Bài thảo luận 2:
THẢO LUẬN TẦM QUAN TRỌNG CỦA ƢỚC LƢỢNG VÀKIỂM ĐỊNH
TRONG Y HỌC
* Giảng viên:
1.TS Đỗ Thị Hồng Nga
2.Ths Đỗ Thị Phƣơng Quỳnh
3.Ths Lê Thị Huyền My
1. Vận dụng đƣợc ƣớc lƣợng và kiểm định giải quyết một số bài toán trong y
học.
2. Liệt kê đƣợc một số phần mềm ứng dụng trong xác suất thống kê. Nhận thức
đƣợc tầm quan trọng của ƣớc lƣợng và kiểm định trong y học.
1. Tầm quan trọng của ƣớc lƣợng và kiểm định trong thống kê y học.
Sau khi học xong phần ƣớc lƣợng và kiểm định giúp cho ngƣời học
biết cách tiếp cận các dữ liệu lƣu trữ và hồi cứu các thông tin lâm sàng trong
hồ sơ bệnh án (giấy và điện tử), thƣ viện, các nguồn thông tin trực tuyến một
cách phù hợp, đầy đủ, chính xác đảm bảo tính bảo mật và tính pháp lý hay
biết cách thu thập, đánh giá và sử dụng đƣợc các thông tin y học giá trị và
đáng tin cậy trong nƣớc và nƣớc ngoài. Từ đó đƣa ra đƣợc những đánh giá
hay kiểm chứng về hiệu quả của các can thiệp y tế dựa trên bằng chứng khoa
học.
2. Vận dụng đƣợc ƣớc lƣợng và kiểm định giải quyết một số bài toán trong
y học.
Bài 1: Đƣợc biết, nhịp mạch trung bình của nam thanh niên 72 lần/phút. Kiểm
tra 64 thanh niên làm việc trong hầm lò thấy nhịp mạch trung bình của họ là 74
lần/phút với phƣơng sai mẫu là 9 lần/phút. Hãy xét xem làm việc trong hầm lò có
làm tăng nhịp mạch hay không. Hãy kết luận với mức ý nghĩa 5%. Giả thiết nhịp
mạch tuân theo luật chuẩn.
Bài 2:Đối với ngƣời Việt nam lƣợng huyết sắc tố trung bình là 138.3 g/l. Khám
cho 80 công nhân ở nhà máy có tiếp xúc hóa chất thấy huyết sắc tố trung bình là
120 g/l; s = 15 g/l. Từ kết quả trên có thể kết luận lƣợng huyết sắc tố trung bình của
công nhân nhà máy này thấp hơn mức trung bình hay không với . Giả thiết huyết
sắc tố tuân theo luật chuẩn.
3. Giới thiệu một số phần mềm ứng dụng trong xác suất thống kê.
Phân tích số liệu và biểu đồ thƣờng đƣợc tiến hành bằng các phần mềm
thông dụng nhƣ SAS, SPSS, Stata, Statistica, và S-Plus. Đây là những phần
125
mềm đƣợc các công ti phần mềm phát triển và giới thiệu trên thị trƣờng
khoảng ba thập niên qua, và đã đƣợc các trƣờng đại học, các trung tâm nghiên
cứu và công ti kĩ nghệ trên toàn thế giới sử dụng cho giảng dạy và nghiên
cứu. Nhƣng vì chi phí để sử dụng các phần mềm này tuơng đối đắt tiền (có
khi lên đến hàng trăm ngàn đô-la mỗi năm), một số trƣờng đại học ở các nƣớc
đang phát triển (và ngay cả ở một số nƣớc đã phát triển) không có khả năng
tài chính để sử dụng chúng một cách lâu dài. Do đó, các nhà nghiên cứu thống
kê trên thế giới đã hợp tác với nhau để phát triển một phần mềm mới, với chủ
trƣơng mã nguồn mở, sao cho tất cả các thành viên trong ngành thống kê học
và toán học trên thế giới có thể sử dụng một cách thống nhất và hoàn toàn
miễn phí.
Năm 1996, trong một bài báo quan trọng về tính toán thống kê, hai nhà
thống kê
học Ross Ihaka và Robert Gentleman [lúc đó] thuộc Trƣờng đại học
Auckland, New Zealand phác hoạ một ngôn ngữ mới cho phân tích thống kê
mà họ đặt tên là R [1]. Sáng kiến này đƣợc rất nhiều nhà thống kê học trên thế
giới tán thành và tham gia vào việc phát triển R. Cho năm 2006, qua chƣa đầy
10 năm phát triển, càng ngày càng có nhiều nhà thống kê học, toán học,
nghiên cứu trong mọi lĩnh vực đã chuyển sang sử dụng R để phân tích dữ liệu
khoa học. Trên toàn cầu, đã có một mạng lƣới hơn một triệu ngƣời sử dụng R.
Vậy R là gì? Nói một cách ngắn gọn, R là một phần mềm sử dụng cho phân
tích thống kê và vẽ biểu đồ. Thật ra, về bản chất, R là ngôn ngữ máy tính đa
năng, có thể sử dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn giản,
toán học giải trí (recreational mathematics), tính toán ma trận (matrix), đến
các phân tích thống kê phức tạp. Vì là một ngôn ngữ, cho nên ngƣời ta có thể
sử dụng R để phát triển thành các phần mềm chuyên môn cho một vấn đề tính
toán cá biệt.
[2]. Nguyễn Văn Tuấn, Phân tích số liệu và biểu đồ bằng R, Garvan Institute of
Medical Research, Sydney, Australia.
NXB Thống kê.
126
127
BÀI 7: LÝ THUYẾT TƢƠNG QUAN HỒI QUY
* Giảng viên:
1.TS Đỗ Thị Hồng Nga
2.Ths Đỗ Thị Phƣơng Quỳnh
3.Ths Lê Thị Huyền My
* Mục tiêu học tập:
Kiến thức:
1. Trình bày đƣợc hệ số tƣơng quan mẫu và phƣơng trình tƣơng quan tuyến
tính.
2. Vận dụng đƣợc công thức tính tƣơng quan hồi quy đơn biến để giải quyết
một bài toán cụ thể.
Kỹ năng:
3. Tìm đƣợc hệ số tƣơng quan mẫu và đánh giá đƣợc mối tƣơng quan giữa
các đại lƣợng ngẫu nhiên.
4. Viết đƣợc phƣơng trình tƣơng quan tuyến tính giữa các đại lƣợng ngẫu
nhiên.
* Nội dung bài giảng:
1. Hệ số tƣơng quan mẫu

Trong phần này ta sẽ tìm hiểu mức độ phụ thuộc giữa hai đại lƣợng ngẫu
nhiên. Khi nghiên cứu sự phụ thuộc giữa hai đại lƣợng ngẫu nhiên, trong đó mỗi đại
lƣợng ngẫu nhiên chịu một sự phân tán ngẫu nhiên nào đó (sự tản mát không kiểm
tra đƣợc), ta dùng phƣơng pháp phân tích tƣơng quan. Với phƣơng pháp này, ta
không những phát hiện đƣợc mối quan hệ phụ thuộc giữa chúng mà còn “lƣợng
hóa” đƣợc mối quan hệ này.
Cho hai đại lượng ngẫu nhiên X, Y. Hệ số tương quan tuyến tính (còn gọi là
hệ số tương quan) giữa hai đại lượng ngẫu nhiên X và Y, ký hiệu là  xy , là tỷ số
giữa kỳ vọng toán của tích các sai lệch của các đại lượng ngẫu nhiên với kỳ vọng
toán của chúng và tích các độ lệch chuẩn của các đại lượng ngẫu nhiên đó.
E  X  E(X)  Y  E(Y)  E(XY)  E(X)E(Y)
xy    (7.1)
x y E(X 2 )   E(X)  E(Y 2 )   E(Y) 
2 2
Hệ số tƣơng quan là số đo mức độ phụ thuộc tuyến tính giữa hai biến ngẫu
nhiên X và Y. Tuy nhiên, khi chƣa biết phân phối của (X, Y) thì hệ số tƣơng quan lý
thuyết  cũng chƣa tìm đƣợc. Do đó ta tìm cách ƣớc lƣợng  theo mẫu quan sát
đƣợc.
128
Giả sử ta có mẫu ngẫu nhiên cỡ n về vectơ ngẫu nhiên (X, Y):
 xi , yi  , i  1,2,,n  hoặc mẫu thu gọn:
 x i , yi  i  1, 2,, k

 k


m i 
i 1
mi  n.
Khi đó hệ số tƣơng quan mẫu, ký hiệu r , đƣợc tính bởi công thức:
1 k
 1 k  1 k 

n i 1
m i x i y i    m i x i   m i y i 
 n i 1  n i 1  XY  XY
r 
(7.2)
    SX SY
k 2 2
1 1 k 1 k
1 k

n i 1
mi x i    mi x i 
2
 n i 1 

n i 1
mi yi    mi yi 
2
 n i 1 
Nếu dùng phép đổi biến để thu gọn số liệu:
xi  x0 yi  y 0
ui  ; vi  ,
k h
(trong đó x 0  x i có tần số mi lớn nhất; y0  yi có tần số mi lớn nhất, h là
khoảng cách giữa các x i , k là khoảng cách giữa các y i ), thì hệ số tƣơng quan mẫu
không thay đổi và đƣợc tính bởi công thức:
1 k
1 k  1 k 

n i 1
mi u i vi    mi u i   mi vi 
 n i 1  n i 1  uv  uv
r  .
2 2 Su S v (7.3)
1 k
1 k
1 k
1  k

n i 1
mi u    mi u i 
 n i 1
2
i


n i 1
mi v    mi vi 
2
 n i 1
i

 Tính chất của hệ số tƣơng quan mẫu
 Hệ số tƣơng quan không có đơn vị đo, thƣờng viết đến phần nghìn.
 rxy  ryx .
 1  r  1.
 Nếu r  0 thì X và Y đồng biến, còn r  0 thì X và Y nghịch biến.
 Nếu X và Y độc lập thì r  0 .
 Nếu r  1 thì X và Y phụ thuộc hàm số với nhau.
 Ý nghĩa của hệ số tƣơng quan mẫu
Hệ số tƣơng quan của hai biến X và Y cho ta một chỉ số đánh giá mối quan
hệ tuyến tính giữa X và Y. Nó là một hệ số có giá trị tuyệt đối nằm giữa 0 và 1. Nếu
hệ số tƣơng quan khá gần 0 thì có thể coi giữa X và Y không có tƣơng quan tuyến
tính. Nếu hệ số tƣơng quan khá gần  1 thì quan hệ giữa X và Y xấp xỉ bởi hệ thức
Y = aX + b.
Trong thống kê, ngƣời ta quy ƣớc rằng:
129
 0  r  0,3 : X và Y có tƣơng quan tuyến tính yếu.
 0,3  r  0,6 : X và Y có tƣơng quan tuyến tính.
 0,6  r  1 : X và Y có tƣơng quan tuyến tính chặt chẽ.
Ví dụ 1. Cho bảng số liệu sau:
X 1 2 3 4 5 6 7 8 9 10
Y 2 6 7 4 8 5 13 10 14 9
Ta lập bảng tính toán dƣới đây rồi áp dụng công thức (4.2) ta đƣợc:
508 55 78

10 10 10 790
r   0, 76.
2 2
385  55  740  78  825 1316
   
10  10  10  10 
Bảng tính toán:
xi yi x i2 yi2 xiyi
1 2 1 4 2
2 6 4 36 12
3 7 9 49 21
4 4 16 16 16
5 8 25 64 40
6 5 36 25 30
7 13 49 169 91
8 10 64 100 80
9 14 81 196 126
10 9 100 81 90
 55 78 385 740 508
Kết luận: Vì r = 0,76> 0,6 nên giữa X và Y cho bởi mẫu trên có sự phụ thuộc
tƣơng quan tuyến tính đồng biến chặt chẽ (thuận mạnh) .
Ví dụ 2. Cho bảng số liệu điều tra sau:
23, 24, 24, 24, 25, 25, 26, 26, 26, 26, 26, 27, 27, 28,
xi
0 0 5 5 0 5 0 0 0 5 5 0 0 0
0,4 0,5 0,4 0,5 0,5 0,5 0,4 0,5 0,5 0,5 0,5 0,5 0,5 0,5
yi
8 0 9 0 1 2 9 1 3 0 2 4 2 3
ni 2 4 3 2 1 1 2 1 2 1 1 2 1 3
Ta phải dùng phƣơng pháp thu gọn số liệu bằng cách đổi biến đã biết:
Chọn x0 = 26,0; y0 = 0,50; hx = 0,50; ky = 0,01.
130
x i  26, 0 y i  0, 50
Với phƣơng pháp đổi biến: u i  ; vi  . Các số liệu biến
0, 50 0, 01
đổi và đƣợc tính toán trong bảng sau đây:
xi yi ni ui niui n i u i2 vi nivi n i vi2 niuivi
23,0 0,48 2 -6 -12 72 -2 -4 8 24
24,0 0,50 4 -4 -16 64 0 0 0 0
24,5 0,49 3 -3 -9 27 -1 -3 3 9
24,5 0,50 2 -3 -6 18 0 0 0 0
25,0 0,51 1 -2 -2 4 1 1 1 -2
25,5 0,52 1 -1 -1 1 2 2 4 -2
26,0 0,49 2 0 0 0 -1 -2 2 0
26,0 0,51 1 0 0 0 1 1 1 0
26,0 0,53 2 0 0 0 3 6 18 0
26,5 0,50 1 1 1 1 0 0 0 0
26,5 0,52 1 1 1 1 2 2 4 2
27,0 0,54 2 2 4 8 4 8 32 16
27,0 0,52 1 2 2 4 2 2 4 4
28,0 0,53 3 4 12 48 3 9 27 36
 26 -26 248 22 104 87
Áp dụng công thức (4.3):
87  26  . 22
 
26  26  26
r  0, 792.
 26   22 
2 2
1 1
.248    .104   
26  26  26  26 
Kết luận: Với mẫu đã cho, giữa X và Y có sự phụ thuộc tƣơng quan tuyến
tính thuận chặt chẽ.
Ví dụ 3. Nếu số liệu điều tra đƣợc cho dƣới dạng bảng hai lối vào sau đây thì
ta có thể thực hiện các phép tính ngay trên bảng:
miyi mi yi2  mi x i yi
xi
1 2 3 4 mi
yi
7 1
1 7 49 28
28
6 1 18 1 6 36 18
5 1 10 2 30 3 15 75 40
4 2 16 2 8 32 16
3 3 9 3 9 27 9
131
mi n=
3 3 3 1 45 219
10
mixi 3 6 9 4 22
mi x i2 3 12 27 16 58
 mi x i y i 9 26 48 28 111
Trong các ô (xi,yi) số ghi ở góc bên phải của mỗi ô là tích của xiyi với số lần
lặp. Tổng các số đó trong mỗi hàng hoặc mỗi cột đƣợc ghi ở hàng và cột cuối cùng.
Theo bảng trên, ta có:  mi xi  22 ;  mi xi2  58 ;
 m y  45 ;  mi yi2  219 ;  m x y
i i i i i  111.
Áp dụng công thức (8.2):
111 22 45
 .
r 10 10 10  0, 95.
 22   45 
2 2
58 219
   
10  10  10  10 
Kết luận: X và Y có sự phụ thuộc tƣơng quan tuyến tính thuận chặt chẽ.
2. Đƣờng hồi quy tuyến tính thực nghiệm
Khi có sự phụ thuộc tuyến tính giữa hai biến ngẫu nhiên tƣơng đối chặt chẽ ta
có thể hi vọng xấp xỉ biến này bởi một hàm tuyến tính của biến kia. Nghĩa là cần tìm
biểu thức aX  b sao cho xấp xỉ Y tốt nhất theo nghĩa cực tiểu sai số bình phƣơng
trung bình E(Y  aX  b) 2 .
Ta có:
E(Y  aX  b) 2  E  Y  E(Y)   a  X  E(X)   E(Y)  aE(X)  b 
2
 E(Y  E(Y)) 2  a 2 E(X  E(X)) 2  (E(Y)  aE(X)  b) 2
 2aE  (Y  E(Y))(X  E(X)) 
 a 2 DX  2aρ DX. DY  DY  (EY  aEX  b) 2

vì
E  (Y  E(Y))(E(Y)  aE(X)  b) 

 E Y.E(Y)  aY.E(X)  bY  (E(Y)) 2  aE(X).E(Y)  bE(Y) 
 (E(Y)) 2  aE(X).E(Y)  bE(Y)  (E(Y)) 2  aE(X).E(Y)  bE(Y)  0
và tƣơng tự: E  a(X  E(X))(E(Y)  aE(X)  b)   0 .
132
Do đó E(Y  aX  b) sẽ đạt cực tiểu nếu và chỉ nếu tam thức bậc 2 theo a:
2
a 2 D(X)  2a D(X) D(Y)  D(Y) đạt cực tiểu và (E(Y)  aE(X)  b)  0 .
2
Từ đó ta chọn b  E(Y)  aE(X) , a là tọa độ đỉnh của tam thức bậc 2:
2 D(X) D(Y) D(Y)

a 
2D(X) D(X)
Khi đó giá trị nhỏ nhất của E(Y  aX  b) chính là giá trị của tam thức bậc
2
2 theo a tại đỉnh của nó:

D(Y) D(Y)
min E(Y  aX  b) 2  2 D(X)  2  D(X) D(Y)  D(Y)  D(Y)(1  2 )
D(X) D(X)
D(Y) D(Y) D(Y)

và aX  b   X  E(Y)   E(X)    X  E(X)   E(Y) .
D(X) D(X) D(X)
D(Y)
Suy ra: aX  b  Y    X  E(X)   E(Y)  Y (7.4)
D(X)
D(Y)
hay Y  E(Y)    X  E(X)  . (7.5)
D(X)
Phƣơng trình (7.4) hay (7.5) đƣợc gọi là phƣơng trình đƣờng hồi quy bình
phƣơng trung bình tuyến tính của Y theo X.
Sai số bình phƣơng trung bình khi dùng đƣờng hồi quy trung bình tuyến tính
để xấp xỉ Y là:
2y/x  D(Y)(1  2 ) .
Sai số này càng nhỏ khi  càng gần 1, tức là mức độ phụ thuộc tuyến tính
giữa 2 biến càng chặt.
Tƣơng tự, ta có phƣơng trình đƣờng hồi quy bình phƣơng trung bình tuyến
tính của X theo Y:
D(X)
X  E(X)    Y  E(Y)  (7.6)
D(Y)
và sai số là 2x/ y  D(X)(1  2 ) .
Nhận thấy rằng đƣờng hồi quy trung bình tuyến tính (7.5) hoặc (7.6) luôn lập
đƣợc, miễn là hai biến X và Y tồn tại phƣơng sai dƣơng hữu hạn. Song việc dùng
đƣờng hồi quy ấy để xấp xỉ biến này qua biến kia lại là vấn đề khác. Vấn đề đó phụ
thuộc vào  có đủ lớn hay không. Nếu  bé thì việc xấp xỉ không tốt, không nên
dùng.
133
Xuất phát từ mẫu ngẫu nhiên cỡ n về vectơ ngẫu nhiên (X,Y):
 x i , yi  ,i  1, n ta xây dựng đƣờng hồi quy trung bình tuyến tính thực nghiệm bằng
D(Y) Sy
cách thay trong (7.5) E(X), E(Y) lần lƣợt bởi X, Y và  bởi r . Khi đó
D(X) Sx
ta nhận đƣợc phƣơng trình đƣờng hồi quy trung bình tuyến tính thực nghiệm của Y
theo X:
X  X
Sy
YYr (7.7)
Sx
và ƣớc lƣợng sai số  2y/x thay bởi Sy/x  Sy 1  r .
2 2
 2

Tƣơng tự, phƣơng trình đƣờng hồi quy trung bình tuyến tính thực nghiệm
của X theo Y:
S
XXr x YY
Sy

(7.8) 
và ƣớc lƣợng sai số Sx/y  Sx 1  r .
2 2
 2

Ví dụ 4: Theo dõi sự phụ thuộc giữa mức suy giảm hàm lƣợng đƣờng trong
mía X (%) và thời gian chờ chế biến (t) ta thu đƣợc kết quả sau đây:
X 30 30 35 35 40 40 40 45 45 45 50 50
t 2 4 4 6 4 6 8 6 8 10 8 10
m 1 1 3 1 1 2 2 2 3 1 1 2
Hãy tìm hệ số tƣơng quan mẫu giữa X và t. Viết phƣơng trình hồi quy của X
theo t? Cho nhận xét?
Giải: Căn cứ vào số liệu đã cho, dùng phép đổi biến để thu gọn số liệu:
Chọn x0 = 45; t0 = 8; hx = 5; kt = 2. Ta đổi biến
xi  x0 x i  40 ti  t0 ti  6
ui   ; vi   .
hx 5 kt 2
Các bƣớc tính toán đƣợc thể hiện trong bảng dƣới đây.
xi ti mi ui vi miui mi u i2 mivi mi vi2 miuivi
30 2 1 -2 -2 -2 4 -2 4 4
30 4 1 -2 -1 -2 4 -1 1 2
35 4 3 -1 -1 -3 3 -3 3 3
35 6 1 -1 0 -1 1 0 0 0
40 4 1 0 -1 0 0 -1 1 0
40 6 2 0 0 0 0 0 0 0
40 8 2 0 1 0 0 2 2 0
134
45 6 2 1 0 2 2 0 0 0
45 8 3 1 1 3 3 3 3 3
45 10 1 1 2 1 1 2 4 2
50 8 1 2 1 2 4 1 1 2
50 10 2 2 2 4 8 4 8 8
 20 4 30 5 27 24
24 4 5
 .
r 20 20 20  0,8388 .
Khi đó: 2 2
30  4  27  5 
   
20  20  20  20 
Chú ý: Để viết phương trình hồi quy tuyến tính của Y theo X (hoặc X theo Y)
khi đã dùng phép đổi biến thì phải quay lại biến ban đầu bằng cặp công thức:
 x  x 0  h x .u SX  h x .Su
 và 
 y  y 0  k y .v SY  k y .Sv
Với ví dụ trên ta có:
 2  30  4 2 
 4 Sx  5 .Su  25       36,5
2 2
X  40  5u  40  5. 20  41   20  20  
 và 
 t  6  2v  6  2. 5  6,5  2  27  5 2 
St  2 .Sv  4  20   20    5,15
2 2
 20
  
Vậy phƣơng trình hồi quy tuyến tính của X theo t là:5
36,5
x  41  0,8388 (t  6,5)  x  2, 233t  26, 4854
5,15
và sai số Sx/t  36,5(1  0,8388 )  10,8191 .

2 2
Nhận xét: vì r = 0,8388 > 0,6 nên X và t có sự phụ thuộc tuyến tính chặt chẽ.
Nghĩa là nếu mía để càng lâu sau khi thu hoạch mới chế biến thì hàm lƣợng đƣờng
càng giảm.
Chú ý: Với bài toán trên ta có thể giải bằng phƣơng pháp xây dựng bảng hai
lối vào nhƣ sau:
X
30 35 40 45 50
t
2 1
4 1 3 1
6 1 2 2
8 2 3 1
135
10 1 2
Dùng phƣơng pháp đổi biến với x0 = 40; t0 = 6; hx = 5; kt = 2 và công thức
đổi biến :
xi  x0 x i  40 ti  t0 ti  6
ui   ; vi   .
hx 5 kt 2
Ta có:
 mi u i v i
u
-3 -2 -1 0 1 mi mivi mivi2
v
1
-3 1 -3 9 9
9
1 3 1
-2 5 -10 20 18
6 12 2
1 2 2
-1 5 -5 5 4
2 2 0
2 3 1
0 6 0 0 0
0 0 0
1 2
1 3 3 3 2
0 2
mi 2 4 5 6 3 20 -15 37
miui -6 -8 -5 0 3 -16
miui2 36 16 5 0 3 60
 mi u i v i 15 14 4 0 2 33
3. Phƣơng pháp bình phƣơng bé nhất tìm đƣờng hồi quy tuyến tính
Để viết phƣơng trình hồi quy tuyến tính của Y theo X: y = ax + b theo
phƣơng pháp “bình phƣơng bé nhất” ta tìm a và b là nghiệm của hệ:
a  x i2  b x i   x i yi
 (7.9)
a  x i  n.b   yi
 
trong đó xi là các giá trị của X i  1, n , yi là các giá trị trung bình của Y khi
X lấy giá trị xi. Hệ số a trong (7.9) gọi là hệ số hồi quy của Y theo X.
Ví dụ 5. Sự tƣơng quan giữa trọng lƣợng X (tính theo kg) và chiều dài lồng
ngực Y (cm) của 300 con bò cho bởi bảng sau:
X 225 275 325 375 425 475 525 575 mi X / yj
Y
195 1 1 575
185 1 9 15 2 27 508
136
175 4 25 35 21 9 1 95 430
165 3 40 44 24 8 119 273
155 1 17 17 17 1 53 325
145 2 1 1 4 263
135 1 1 225
mi 4 21 62 86 61 38 24 4 300
Y/x 145 156 160 166 170 175 182 185
Ta lập bảng tính toán sau đây:
xi yi x i2 xiyi
225 145 50625 32625
275 156 75625 42900
325 160 105625 52000
375 166 140625 62250
425 170 180625 72250
475 175 225625 83125
525 182 275625 95550
575 185 330625 106375
3200 1339 1385000 547075
Từ đó ta có hệ phƣơng trình:
1385000a  3200b  547075

3200a  8b  1339
Giải ra đƣợc a = 0,11; b = 123. Vậy phƣơng trình hồi quy tuyến tính của lồng
ngực trung bình Y với trọng lƣợng X của đàn bò là:
Y  0,11X  123 .
thống kê, NXB Đại học Thái Nguyên. (chƣơng 2 trang 83-191)
NXB Thống kê.
137
138
Mục lục
Lời nói đầu ........................................................................................................................................................ 3
BÀI 1: ĐẠI CƢƠNG VỀ XÁC SUẤT ............................................................................................................. 5
BÀI 2: MỘT SỐ CÔNG THỨC TÍNH XÁC SUẤT....................................................................................... 15
Bài 3:ĐẠI QUY LUẬT PHÂN PHỐI XÁC SUẤT THƢỜNG GẶP LƢỢNG NGẪU NHIÊN VÀ .............. 32
Bài thảo luận 1: Vận dụng xác suất vào lập luận logic trong y học. ................................................................ 59
Bài 4: LÝ THUYẾT MẪU .............................................................................................................................. 62
Bài 5: ƯỚC LƯỢC CÁC THAM SỐ CỦA ĐẠI LƯỢNG NGẪU NHIÊN .......................................................................... 73
Bài 6: KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ .......................................................................................................... 95
BÀI 7: LÝ THUYẾT TƢƠNG QUAN HỒI QUY........................................................................................ 124
Mục lục .......................................................................................................................................................... 139
139

Xác Suất Thống Kê Đưa Lên Mạng

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Xác Suất Thống Kê Đưa Lên Mạng

Uploaded by

Copyright:

Available Formats

TRƢỜNG ĐẠI HỌC Y DƢỢC THÁI NGUYÊN

BỘ MÔN TOÁN TIN

TÀI LIỆU HỌC TẬP

XÁC SUẤT THỐNG KÊ TRONG Y HỌC

GV phụ trách học phần Thƣ ký Chủ tịch HĐ nghiệm thu

Thái Nguyên, tháng 8/2018

TÀI LIỆU HỌC TẬP

XÁC SUẤT THỐNG KÊ TRONG Y HỌC

Cán bộ tham gia biên soạn:

TS Đỗ Thị Phƣơng Quỳnh

Ths Đỗ Thị Hồng Nga

Ths Lê Thị Huyền My.

Lời nói đầu

Xin trân trọng cảm ơn!

1. Phép thử và biến cố

i  1,6 ). Ta có A i là các biến cố sơ cấp.

2. Quan hệ giữa các biến cố

Ai  A j   (i  j;i, j  1,n)

3. Xác suất của biến cố

4. Định nghĩa cổ điển về xác suất

5. Định nghĩa thống kê về xác suất

 Định nghĩa 2 (Định nghĩa tần suất)

Buffon 4.040 2.048 0,5069

Pearson 12.000 6.019 0,5016

 Ƣu điểm và hạn chế của định nghĩa thống kê về xác suất

6. Định nghĩa xác suất theo hình học

Giải: Gọi x là thời điểm đến chỗ y

mesg S(g) 602  402 5

7. Nguyên lý xác suất lớn và nguyên lý xác suất nhỏ

1. Công thức cộng xác suất

một trong hai biến cố A và B xảy ra bằng n A  n B  n AB . Nhƣ vậy:

Hệ quả: P(A)  1  P(A) . (3.5)

Chứng minh: Vì A  A   nên P(A  A)  P()  1 .

Mặt khác A và A xung khắc nên P(A  A)  P(A)  P(A) .

Vậy P(A)  P(A) 1 .

Khi đó: A  A0  A1 . Vì A 0 và A1 xung khắc nhau, nên: P(A)  P(A0 )  P(A1 )

C86 .C02 2 C12 .C85 8 2

2.1. Xác suất có điều kiện

có: P(B)  a , P(B/A)  b , P(B/A)  c .

 Tổng quát: P(A1A2 ...An )  P(A1 )P(A2 / A1 )...P(An / A1...An-1 ) . (3.8)

Vì A1 , A1 A 2 , A1 A 2 A3 là xung khắc từng đôi nên:

P(A)  P(A1 )  P(A 1 A 2 )  P(A 1 A 2 A 3 )

 P(A1 )  P(A 1 ) P(A 2 / A 1 )  P(A 1 ) P(A 2 / A 1 ) P(A 3 / A 1 A 2 )

 0,5  0,5.0, 7  0,5.0,3.0,9

Cách 2: Ta có A  A1 A 2 A 3 là biến cố sâu sống sót sau đợt phun thuốc.

P(A)  P(A 1 ) P(A 2 / A 1 ) P(A 3 / A 1 A 2 )

Vậy: P(A)  1  P(A)  0,985.

2.2. Biến cố độc lập

Vậy: P(AB)  P(A) P(B/A)  P(A) P(B) .

 (1  0,1)(1  0, 2)(1  0,3)

Giải: Gọi A i là biến cố "bác sĩ i chẩn đoán đúng" (i  1,3) . Ta có A1 , A 2 , A3

2. P(B)  P(A1 A 2 A 3 )  P(A1 )P(A 2 )P(A 3 )  0,1.0,15.0, 2  0,003 .

Vì các biến cố A 1 A 2 A3 , A1 A 2 A3 , A1A 2 A 3 là xung khắc từng đôi nên:

P(C)  P(A 1 A 2 A 3 )  P(A1 A 2 A 3 )  P(A1A 2 A 3 )

 P(A 1 )P(A 2 )P(A 3 )  P(A1 )P(A 2 )P(A 3 )  P(A1 )P(A 2 )P(A 3 )

 0,1.0,85.0,8  0,9.0,15.0,8  0,9.0,85.0, 2

b. Gọi D là biến cố "trẻ bị bệnh "

DE1   A  B  AB E1  AE1  BE1  (AB)E1.

Theo công thức cộng xác suất (2.2) ta có:

P(DE 2 )  P(AE 2 )  P(BE 2 )  P((AB)E 2 )  P(AE 2 BE 2 )  P(AE1 (AB)E 2 )

 P(BE 2 (AB)E 2 )  P(AE 2 BE 2 (AB)E 2 )

 P(AE 2 )  P(BE 2 )  P((AB)E 2 )  P(AE 2 ) P(BE 2 )  P(AE 2 ) P((AB)E 2 )

 P(BE 2 ) P((AB)E 2 )  P(AE 2 ) P(BE 2 ) P((AB)E 2 )

 0, 42  0,35  0,14  0, 42.0,35  0, 42.0,14  0,35.0,14  0, 42.0,35.0,14