Professional Documents
Culture Documents
TS. Đỗ Thị Phƣơng Quỳnh BS. Lại Ngọc Khánh PGS. TS Trịnh Xuân Tráng
1
TRƢỜNG ĐẠI HỌC Y DƢỢC THÁI NGUYÊN
BỘ MÔN TOÁN TIN
2
Thái Nguyên, tháng 8/2018
Để đảm bảo đƣợc chuẩn năng lực đầu ra của một bác sĩ, Bộ môn Toán tin
đã biên soạn Giáo trình xác suất thống kê trong y học, với nội dung phù hợp
mang tính ứng dụng cao trong y học. Giáo trình đƣợc biên soạn gồm 9 bài,
trong đó có 7 bài học và 2 bài thảo luận. Bài 1, bài 2 là các bài giảng liên quan
đến xác suất thống kê, từ bài 3 đến bài 6 là các bài giảng phần thống kê, bài 7
tìm mối tƣơng quan giữa hai biến và phƣơng trình hồi quy giữa chúng.
3
Trong quá trình biên soạn chúng tôi đã hết sức cố gắng giải thích tƣờng
minh các vấn đề của xác suất, đồng thời đƣa ra nhiều ví dụ minh họa giúp cho
các bạn sinh viên dễ dàng tiếp thu kiến thức đồng thời vận dụng tốt xác suất
thống kê trong chuyên ngành y khoa. Tuy nhiên trong quá trình biên soạn
cũng không tránh khỏi sai sót nhất định, rất mong sự đóng góp ý kiến từ phía
bạn đọc để tài liệu ngày càng hoàn thiện hơn.
4
BÀI 1: ĐẠI CƢƠNG VỀ XÁC SUẤT
* Giảng viên:
1. TS Đỗ Thị Phƣơng Quỳnh
2. Ths Đỗ Thị Hồng Nga
3. Ths Lê Thị Huyền My
Mục tiêu:
Sau khi kết thúc bài học, sinh viên phải đạt đƣợc các mục tiêu nhƣ sau:
Kiến thức:
1. Phân tích đƣợc biến cố và mối quan hệ giữa các biến cố.
2. Vận dụng đƣợc xác suất theo quan điểm đồng khả năng.
Kĩ năng:
3. Tính toán đƣợc một số bài toán xác suất đơn giản.
Nội dung:
Định nghĩa
Việc thực hiện một nhóm các điều kiện cơ bản để quan sát một hiện tượng
nào đó có xảy ra hay không đựợc gọi là thực hiện một phép thử, còn hiện tượng có
thể xảy ra trong kết quả của phép thử đó được gọi là biến cố.
Ví dụ 1.
+ Tung một đồng xu xuống đất là một phép thử, còn việc "xuất hiện mặt sấp"
hay "xuất hiện mặt ngửa" là các biến cố.
+ Chẩn đoán bệnh cho bệnh nhân là một phép thử, còn kết quả "chẩn đoán
đúng" hay "chẩn đoán sai" là các biến cố.
+ Uống thuốc để chữa bệnh là một phép thử, còn "khỏi bệnh" hay "không
khỏi bệnh" là các biến cố.
Các loại biến cố
+ Biến cố ngẫu nhiên: là biến cố có thể xảy ra hoặc không xảy ra khi thực
hiện một phép thử. Các biến cố ngẫu nhiên đƣợc ký hiệu là A, B, C... hoặc
A1 , A2 ,..., An , B1 , B2 ,..., Bn .
5
Ví dụ 2. Tung một con xúc xắc, nếu A là biến cố "xuất hiện mặt 6 chấm" thì
A là biến cố ngẫu nhiên.
+ Biến cố chắc chắn: là biến cố nhất định sẽ xảy ra khi thực hiện một phép
thử. Ký hiệu U hoặc .
Ví dụ 3. Tung một con xúc xắc, là biến cố "xuất hiện mặt 6 chấm".
+ Biến cố không thể: là biến cố nhất định không xảy ra khi thực hiện một
phép thử. Ký hiệu V hoặc .
Ví dụ 4. Tung một con xúc xắc, V là biến cố "xuất hiện mặt 7 chấm".
+ Biến cố sơ cấp: Một biến cố sơ cấp là một tập con gồm đúng một phần tử
của không gian mẫu.
Ví dụ 5. Tung một con xúc xắc. Gọi A i là biến cố "xuất hiện mặt i chấm" (
Do đó, tập hợp các kết quả có thể xảy ra gọi là không gian mẫu của phép thử
hoặc còn gọi là không gian các biến cố sơ cấp.
Biến cố kéo theo: Nếu biến cố A xuất hiện kéo theo biến cố B cũng xuất
hiện, ta nói biến cố A kéo theo biến cố B. Ký hiệu: A B hay B A .
Ví dụ 6. Gieo một con xúc xắc. Gọi A là biến cố xuất hiện mặt 2 chấm, B là
biến cố xuất hiện mặt chẵn chấm, rõ ràng A xuất hiện kéo theo B xuất hiện.
Biến cố tƣơng đƣơng: Nếu biến cố A kéo theo biến cố B và biến cố B kéo
theo biến cố A thì ta nói A và B là hai biến cố tƣơng đƣơng. Ký hiệu: A B .
Hợp (tổng) của hai biến cố: Hợp (tổng) của hai biến cố A và B là một biến
cố sao cho biến cố này xuất hiện khi và chỉ khi có ít nhất một trong hai biến cố A và
B xuất hiện. Ký hiệu: A B hoặc A B .
Tổng quát: Hợp (tổng) của n biến cố A1 ,A2 ,...,An là một biến cố sao cho
biến cố này xuất hiện khi và chỉ khi có ít nhất một trong n biến cố A1 ,A2 ,...,An
n n
xuất hiện. Ký hiệu: A i hoặc Ai .
i 1 i 1
6
Ví dụ 7. Gieo một con xúc xắc. Gọi A i là biến cố xuất hiện mặt i chấm (
i 1,6 ). A là biến cố xuất hiện mặt chẵn chấm. B là biến cố xuất hiện mặt lẻ chấm.
Khi đó:
A A2 A4 A6 ; B A1 A3 A5 .
Giao (tích) của hai biến cố: Giao (tích) của hai biến cố A và B là một biến
cố sao cho biến cố này xuất hiện khi và chỉ khi cả hai biến cố A và B đồng thời xuất
hiện. Ký hiệu: A B hoặc AB .
Tổng quát: Giao (tích) của n biến cố A1 ,A2 ,...,An là một biến cố sao cho
biến cố này xuất hiện khi và chỉ khi cả n biến cố A1 ,A2 ,...,An đồng thời xuất hiện.
n n
Ký hiệu:
i 1
A i hoặc Ai .
i 1
Ví dụ 8. Hai bác sĩ cùng chẩn đoán một bệnh. Gọi A i là biến cố "bác sĩ i
chẩn đoán đúng" ( i 1;2 ). Vậy A A1 A 2 (hay A A1A2 ) là biến cố "cả hai bác
sĩ chẩn đoán đúng".
Hiệu của hai biến cố: Hiệu của hai biến cố A và B là một biến cố sao cho biến
cố này xuất hiện khi và chỉ khi biến cố A xuất hiện còn biến cố B không xuất hiện. Ký
hiệu: A\ B.
Ví dụ 9. Gieo một con xúc xắc. A là biến cố xuất hiện mặt chẵn, B là biến
cố xuất hiện mặt 2 chấm. Khi đó A\ B là biến cố xuất hiện mặt 4 chấm hoặc 6 chấm.
Biến cố xung khắc: Hai biến cố A và B đƣợc gọi là xung khắc nếu chúng
không đồng thời xảy ra trong phép thử. Nghĩa là A B .
Hệ n biến cố A1 ,A2 ,...,An đƣợc gọi là xung khắc từng đôi nếu
Nếu khả năng xuất hiện các biến cố đó là nhƣ nhau thì ta gọi đó là hệ đầy đủ
đồng khả năng.
Trong ví dụ 10 hệ các biến cố A1 , A2 ,..., A6 là một hệ đầy đủ các biến cố
và đó cũng là hệ đầy đủ đồng khả năng. Hai biến cố A và B cũng lập nên một hệ
đầy đủ đồng khả năng.
Biến cố ngẫu nhiên xảy ra hay không xảy ra trong kết quả của phép thử
không phụ thuộc vào ý muốn chủ quan của con ngƣời nên không đoán trƣớc đƣợc.
Tuy nhiên, bằng trực quan, ta có thể nhận thấy các biến cố ngẫu nhiên khác nhau có
những khả năng xảy ra khác nhau. Ví dụ tung một đồng xu, thì biến cố xuất hiện
mặt sấp có khả năng xảy ra lớn hơn so với biến cố xuất hiện mặt 6 chấm khi ta tung
một con xúc xắc.
Khi lặp đi, lặp lại nhiều lần cùng một phép thử trong cùng một điều kiện,
ngƣời ta thấy tính ngẫu nhiên của biến cố mất dần đi và khả năng xảy ra của biến cố
sẽ đƣợc thể hiện theo những quy luật nhất định. Bởi vậy ta có thể định lƣợng khả
năng khách quan xuất hiện một biến cố nào đó.
Vậy: Xác suất của một biến cố là một con số đặc trưng cho khả năng khách
quan xuất hiện một biến cố khi thực hiện một phép thử.
Định nghĩa 1
8
Xác suất xuất hiện biến cố A là tỷ số giữa số trường hợp thuận lợi cho A và
tổng số các trường hợp duy nhất đồng khả năng có thể xảy ra khi thực hiện phép
thử đó.
Ký hiệu P(A) là xác suất xuất hiện biến cố A.
Nhƣ vậy nếu một phép thử có n kết quả duy nhất đồng khả năng, trong đó có
m
m kết quả thuận lợi cho việc xuất hiện biến cố A thì P(A) .
n
Ví dụ 11. Tung một xúc xắc cân đối và đồng chất. Hãy tìm xác suất xuất
hiện mặt có số chấm chẵn.
Giải: Khi tung xúc xắc, sẽ có 6 trƣờng hợp duy nhất đồng khả năng là: xuất
hiện các mặt 1 chấm, 2 chấm,..., 6 chấm.
Gọi A là biến cố xuất hiện mặt có số chấm chẵn. Ta thấy có 3 trƣờng hợp:
xuất hiện các mặt 2 chấm, 4 chấm, 6 chấm là các trƣờng hợp thuận lợi cho biến cố
A (tức là một trong ba trƣờng hợp này xảy ra thì biến cố A xảy ra).
3
Vậy P A 0,5 .
6
Tính chất
1. 0 P(A) 1 (Vì 0 m n ).
2. P() 1 .
3. P() 0 .
Chú ý: Một biến cố có xác suất bằng 1 chƣa chắc đã là biến cố chắc chắn và
nếu một biến cố có xác suất bằng 0 chƣa hẳn đã là biến cố không thể.
Ví dụ 12. Trong một bình có a quả cầu trắng, b quả cầu đen. Lấy ngẫu nhiên
ra một quả cầu. Tìm xác suất để lấy đƣợc cầu trắng.
Giải: Gọi A là biến cố "lấy đƣợc cầu trắng". Lấy ngẫu nhiên 1 quả, ta có thể
lấy đƣợc bất kỳ quả nào trong số a + b quả cầu. Số kết quả đồng khả năng là
n a b . Biến cố A sẽ xảy ra khi lấy đƣợc 1 trong số a quả cầu trắng. Ta thấy số
kết quả thuận lợi cho A là m a .
a
Vậy: P(A) .
ab
9
Ví dụ 13. Một ngƣời khi gọi điện thoại quên mất hai số cuối của số điện
thoại cần gọi mà chỉ nhớ đƣợc là chúng khác nhau. Tìm xác suất để ngƣời đó quay
ngẫu nhiên một lần đƣợc đúng số cần gọi.
Giải: Gọi B là biến cố "quay ngẫu nhiên một lần đƣợc đúng số cần gọi". Số
kết quả đồng khả năng là tất cả các phƣơng thức để lập nên 1 cặp 2 số khác nhau từ
10 số tự nhiên đầu tiên.
Đó là chỉnh hợp chập 2 của 10 n A10
2
10.9 90 .
1
Số kết quả thuận lợi cho B chỉ có 1 m 1 . Vậy: P(B) .
90
Ví dụ 14. Trong một bình có 6 quả cầu giống hệt nhau đƣợc đánh số từ 1 đến
6. Lấy ngẫu nhiên lần lƣợt từng quả cầu. Tìm xác suất để số quả cầu lấy ra trùng với
số thứ tự lần lấy.
Giải: Gọi C là biến cố "số của quả cầu lấy ra trùng với số thứ tự lần lấy".
Số kết quả đồng khả năng là P6 6! 720 .
1
Số kết quả thuận lợi cho C xuất hiện chỉ có 1. Vậy P(C) .
720
Ví dụ 15. Một hộp thuốc tiêm có 10 ống thuốc, trong đó có 4 ống hết hạn sử
dụng.
1. Lấy ngẫu nhiên từ hộp ra 1 ống thuốc. Tìm xác suất lấy đƣợc ống thuốc
còn hạn sử dụng.
2. Lấy ngẫu nhiên từ hộp ra 3 ống thuốc. Tìm xác suất trong 3 ống thuốc lấy
đƣợc 2 ống thuốc còn hạn sử dụng.
Giải:
1. Gọi A là biến cố "lấy đƣợc 1 ống thuốc còn hạn sử dụng".
Số kết quả đồng khả năng là n 10 .
Số kết quả thuận lợi cho A xảy ra là m 6 .
m 6
Vậy P(A) 0,6 .
n 10
2. Gọi B là biến cố "lấy đƣợc 2 ống thuốc còn hạn sử dụng trong 3 ống thuốc
lấy ra".
Số kết quả đồng khả năng là n C10 120 .
3
10
Số kết quả thuận lợi để lấy đƣợc 2 ống thuốc còn hạn sử dụng bằng số tổ hợp
chập 2 của 6. Ngoài ra ống thuốc thứ 3 là hết hạn sử dụng, ta có tổ hợp chập 1 của 4
cách lấy.
Số kết quả thuận lợi cho B xảy ra là m C62C14 60 .
m 1
Vậy P(B) .
n 2
Ƣu điểm và hạn chế của định nghĩa cổ điển về xác suất
Ƣu điểm: Tìm xác suất của một biến cố, ta không phải tiến hành phép thử
(phép thử chỉ là giả định). Nếu đáp ứng đầy đủ các yêu cầu của định nghĩa, ta có thể
tính đƣợc chính xác giá trị của xác suất.
Hạn chế: Đòi hỏi phép thử chỉ có một số hữu hạn các kết quả duy nhất đồng
khả năng (khó thực hiện) vì trong thực tế nhiều phép thử mà số kết quả đồng khả
năng là vô hạn. Ví dụ sự phân tán của các nguyên tử của một chất phóng xạ trong
một khoảng thời gian t nào đó, hoặc khi gieo một con xúc xắc không đồng chất,
hoặc khả năng trúng đích của một viên đạn.
Để khắc phục điều đó, ta đƣa ra định nghĩa theo quan điểm thống kê sau đây.
11
Ví dụ 17. Bảng số liệu về tần suất xuất hiện mặt sấp khi tung đồng xu nhiều
lần:
Ngƣời làm thí nghiệm Số lần tung (n) Số lần sấp (m) Tần suất ( f (A) )
Từ kết quả trên, chứng tỏ khả năng xuất hiện mặt sấp đƣợc đặc trƣng bởi 0,5.
Ví dụ 18. Tỷ suất sinh con trai so với toàn bộ trẻ sơ sinh trong các quốc gia
1
khác nhau trong những khoảng thời gian khác nhau là . Laplace đã thống kê ở
2
22
London, Petecbua, Beclin trong 10 năm là 0,512 .
43
Định nghĩa 3
Xác suất của một biến cố là trị số ổn định của tần suất khi số phép thử tăng
n
lên vô hạn (f p). Nghĩa là: với n đủ lớn:
P(A) f (A)
12
phẳng, một khối không gian...) và những sự kiện thích hợp cho sự kiện A là một tập
mesg
con g G . Khi đó: P(A) (Kích thƣớc miền g /Kích thƣớc miền G).
mesG
Ví dụ 19. (Bài toán gặp gỡ)
Hai ngƣời A và B hẹn gặp nhau tại một địa điểm xác định trong khoảng từ 12
đến 13 giờ chiều. Ngƣời đến trƣớc chờ ngƣời kia 20 phút, quá 20 phút sẽ bỏ đi. Tìm
xác suất để họ gặp đƣợc nhau. Biết rằng mỗi ngƣời có thể đến chỗ hẹn vào một thời
điểm bất kỳ trong khoảng thời gian nói trên.
nhau là những cặp (x, y) sao cho: x y 20 . Đó là miền có gạch chéo g. Vậy xác
Nhƣ chú ý ở phần trƣớc, một biến cố có xác suất rất nhỏ, thậm chí bằng
không vẫn chƣa hẳn là biến cố không thể (nghĩa là vẫn có thể xảy ra).Tuy nhiên qua
nhiều lần quan sát, ngƣời ta nhận thấy các biến cố có xác suất nhỏ hầu nhƣ sẽ không
xảy. Do vậy: "Nếu một biến cố ngẫu nhiên có xác suất rất nhỏ thì có thể cho rằng
trong một phép thử biến cố đó sẽ không xảy ra". Đó là nội dung cơ bản của nguyên
lý xác suất nhỏ.Tƣơng tự, ta có nguyên lý xác suất lớn: "Nếu biến cố ngẫu nhiên
có xác suất gần bằng 1 thì có thể cho rằng biến cố đó sẽ xảy ra trong một phép
13
thử". Một xác suất khá nhỏ mà với nó có thể cho rằng biến cố sẽ không xảy ra đƣợc
gọi là mức ý nghĩa (thƣờng lấy từ 0,01 đến 0,05).
Chú ý: Tuỳ yêu cầu cụ thể của từng bài toán mà việc quy định mức xác suất
đƣợc coi là rất nhỏ sẽ khác nhau. Ví dụ xác suất để một buổi biểu diễn ca nhạc mở
màn chậm giờ là 0,01 thì rất nhỏ có thể chấp nhận đƣợc, nhƣng xác suất bị biến
chứng khi tiêm phòng vắcxin cho trẻ là 0,001 lại không hề nhỏ.
Tài liệu tham khảo
[1] Đỗ Thị Hồng Nga, Đỗ Thị Phƣơng Quỳnh, Lê Thị Huyền My (2017), Xác suất
thống kê, NXB Đại học Thái Nguyên. (chƣơng 1)
[2]. Nguyễn Cao Văn, Trần Thái Ninh (2008), Lý thuyết xác suất và thống kê toán,
NXB Thống kê.
[3]. Đặng Đức Hậu (2008), Xác suất thống kê, NXB Giáo dục.
[4]. Đào Hữu Hồ (2008), Xác suất thống kê, NXB ĐHQG Hà Nội.
[5]. Tống Đình Quỳ (2010), Giáo trình xác suất thống kê, NXB Bách Khoa Hà Nội.
[6]. Sheldon M. Ross, Introduction to Probability and Statistics for Engineers and
Scientists, Fourth Edition, Academic Press is an imprint of Elsevier, 2009.
14
BÀI 2: MỘT SỐ CÔNG THỨC TÍNH XÁC SUẤT
* Giảng viên:
1. TS Đỗ Thị Phƣơng Quỳnh
2. Ths Đỗ Thị Hồng Nga
3. Ths Lê Thị Huyền My
Mục tiêu:
Sau khi kết thúc bài học, sinh viên phải đạt đƣợc các mục tiêu nhƣ sau:
Kiến thức:
1. Phân tích đƣợc công thức cộng xác suất, công thức nhân xác suất.
2. Vận dụng đƣợc công thức xác suất toàn phần và Bayes, công thức Bernoulli.
Kĩ năng:
3. Giải đƣợc bài toán sử dụng công thức xác suất (công thức cộng và nhân xác suất,
công thức xác suất toàn phần – Bayes, công thức Bernoulli).
Định lý 1
Nếu A và B là hai biến cố bất kỳ thì:
P(A B) P(A) P(B) P(AB) (3.1)
Chứng minh: Giả sử n là số kết quả đồng khả năng có thể xảy ra trong phép
thử, n A là số kết quả thuận lợi cho A xảy ra, n B là số kết quả thuận lợi cho B xảy ra,
n AB là số kết quả thuận lợi cho AB xảy ra. Lúc đó số kết quả thuận lợi cho ít nhất
n n
P Ai P(Ai ) P(Ai A j ) P(Ai A jA k ) ... ( 1) n 1 P(A iA j ...A n ). (3.2)
i1 i1 i j i jk
Định lý 2
15
Nếu A và B là hai biến cố xung khắc thì:
P(A B) P(A) P(B). (3.3)
Chứng minh: Giả thiết A và B là hai biến cố xung khắc ta có AB , suy
ra P(AB) 0 . Vậy: P(A B) P(A) P(B) P(AB) P(A) P(B) .
Tổng quát: Nếu A1,A2 ,...,A n là hệ xung khắc từng đôi thì:
n n
P Ai P Ai . (3.4)
i 1 i 1
A1 là biến cố "trong 6 ống thuốc lấy ra có đúng một ống hết hạn"
16
2. Công thức nhân xác suất
Trong các ví dụ trƣớc, ta không đặt điều kiện nào của các biến cố mà chỉ có điều
kiện của phép thử G mà thôi. Bây giờ ta xét trƣờng hợp phải tìm xác suất của biến cố A
khi biết một biến cố B đã xảy ra với một xác suất P(B) nào đó. Đó là xác suất có điều
kiện.
Định nghĩa 1
Xác suất của biến cố A được tính với giả thiết biến cố B đã xảy ra gọi là xác
suất có điều kiện của A với điều kiện B. Ký hiệu P(A/B) hoặc PBA.
Ví dụ 3. Năm ngƣời lần lƣợt rút thăm để lấy 2 vé xem bóng đá (rút không
hoàn lại). Tìm xác suất để ngƣời thứ 2 rút đƣợc vé nếu biết rằng ngƣời thứ nhất đã
không rút đƣợc vé.
Giải: Trƣớc lúc rút thăm, xác suất rút đƣợc vé của mỗi ngƣời đều giống nhau
2
bằng . Nếu ngƣời thứ 1 đã không rút đƣợc vé thì xác suất rút đƣợc vé của ngƣời
5
2 1
thứ 2 sẽ là . Rõ ràng biến cố ngƣời 1 rút đƣợc vé hay không đã ảnh hƣởng tới
4 2
xác suất của biến cố rút đƣợc vé của ngƣời thứ 2.
Ví dụ 4. Ở một vùng dân cƣ, tỷ lệ mắc bệnh B bằng a. Tỷ lệ mắc bệnh B của
nam bằng b và tỷ lệ mắc bệnh B của nữ bằng c.
Nhƣ vậy nếu gọi B là biến cố "mắc bệnh B"; A là biến cố "nam giới" thì ta
17
Giải:
Gọi T là sốt rét thƣờng. A là sốt rét ác tính. C là chết.
510 15
1. P(T) 0,099 .
5000
5
2. P(C/A) 0,333.
15
5 5
Rõ ràng P(C/A) khác với P(C) 0,001 và P(C/S) 0,0098 ,
5000 510
trong đó S là sốt rét nói chung.
Định lý 3
Nếu A và B là hai biến cố bất kỳ thì ta có:
P(AB) P(A) P(B / A) P(B) P(A / B). (3.6)
Chứng minh: Giả sử n là số kết quả đồng khả năng có thể xảy ra trong phép
thử, n A là số kết quả thuận lợi cho biến cố A xảy ra, n B là số kết quả thuận lợi cho
biến cố B xảy ra. Vì không giả thiết A và B xung khắc do đó sẽ có n AB kết quả
thuận lợi cho cả A và B cùng đồng thời xảy ra. Lúc đó:
n AB nA
P(AB) ; P(A) .
n n
Ta đi tìm P(B / A) . Với điều kiện biến cố A đã xảy ra thì số kết quả duy nhất
đồng khả năng cho phép thử đối với biến cố B là n A trong đó có n AB kết quả thuận
lợi cho B xảy ra. Do đó:
n AB
P(B / A) .
nA
n AB n A n AB
Nhƣ vậy: P(AB) P(A) P(B / A) .
n n nA
Tƣơng tự ta có: P(AB) P(B) P(A / B) .
Từ định lý trên ta có thể suy ra hệ quả sau đây:
P(AB)
Hệ quả: P(A/B) (nếu P(B) > 0)
P(B)
18
P(AB)
hoặc: P(B/A) (nếu P(A) > 0). (3.7)
P(A)
Gọi A i là biến cố "sâu bị chết sau lần phun thuốc thứ i" (i 1,3) .
Ta có thể giải bài này theo một trong hai cách sau:
Cách 1: Ta có A A1 A1 A 2 A1 A 2 A3 .
0,985.
0,5.0,3.0,1
0,015.
Định nghĩa 2
Hai biến cố A và B gọi là độc lập với nhau nếu việc xảy ra hay không xảy ra
của biến cố này không làm thay đổi xác suất xảy ra của biến cố kia và ngược lại.
19
P(A/B) P(A)
Nhƣ vậy nếu A và B độc lập với nhau thì
P(B/A) P(B)
Chú ý: Nếu A và B độc lập với nhau thì các cặp A và B; A và B ; A và B
cũng độc lập với nhau.
Ví dụ 7. Hai chị A và B cùng sinh con. Gọi A là biến cố "chị A sinh con
trai", B là biến cố "chị B sinh con trai". Rõ ràng biến cố A xảy ra hay biến cố A
xảy ra không ảnh hƣởng đến biến cố B có xảy ra hay không, tức là việc chị A sinh
con trai hay con gái đều không ảnh hƣởng đến khả năng sinh con trai hay gái của
chị B. Nhƣ vậy A và B là hai biến cố độc lập.
Định nghĩa 3
Các biến cố A1 , A2 ,..., An được gọi là độc lập từng đôi nếu mỗi cặp trong n
biến cố đó độc lập với nhau.
Các biến cố A1 , A2 ,..., An được gọi là độc lập toàn phần nếu mỗi biến cố độc
lập với một tổ hợp bất kỳ của các biến cố còn lại.
Hệ quả
Nếu A và B là hai biến cố độc lập với nhau thì:
P(AB) P(A) P(B). (3.9)
Chứng minh: Giả thiết A và B là hai biến cố độc lập với nhau nên ta có
P(A/B) P(A), P(B/A) P(B) .
Tổng quát: Nếu hệ n biến cố A1 , A2 ,..., An là độc lập toàn phần thì:
n n
P Ai P(A1 )P(A 2 )...P(A n ) P(A i ). (3.10)
i 1 i 1
Ví dụ 8. Một thiết bị gồm 3 bộ phận. Trong khoảng thời gian t , việc các bộ
phận đó bị hỏng là độc lập với nhau với các xác suất tƣơng ứng là: 0,1; 0,2 và 0,3.
Cả thiết bị sẽ bị hỏng nếu có ít nhất một bộ phận bị hỏng. Tìm xác suất hoạt động
tốt trong thời gian t của thiết bị đó.
Giải: Gọi A i là biến cố "bộ phận thứ i hoạt động tốt trong thời gian t"
(i 1,3) . Gọi A là biến cố "thiết bị hoạt động tốt trong khoảng thời gian t".
20
Ta có A A1A 2 A3 . Vì A1 , A 2 , A3 độc lập toàn phần với nhau nên:
P(A) P(A1 ) P(A 2 ) P(A 3 )
0,504.
Ví dụ 9. Có ba bác sỹ độc lập nhau khám bệnh. Xác suất chẩn đoán đúng
của các bác sĩ tƣơng ứng là 0,9; 0,85 và 0,8. Ba ngƣời đã khám cho một bệnh nhân.
Tìm xác suất sao cho:
1. Không ai chẩn đoán sai.
2. Không ai chẩn đoán đúng.
3. Có 1 ngƣời chẩn đoán sai.
4. Có ít nhất 1 ngƣời chẩn đoán đúng.
3. Ta có C A1 A 2 A3 A1 A 2 A3 A1A 2 A 3 .
21
Dùng thuốc T1 chữa bệnh, xác suất khỏi khi chữa bệnh A bằng 0,8; bệnh B
bằng 0,6 và cả hai bệnh bằng 0,3.
Dùng thuốc T2 chữa bệnh, xác suất khỏi khi chữa bệnh A bằng 0,6; bệnh B
bằng 0,7 và cả hai bệnh bằng 0,4.
a. Tìm xác suất trẻ mắc cả 2 bệnh A và B.
b. Biết rằng giá thuốc, khối lƣợng thuốc 2 loại nhƣ nhau. Nên dùng thuốc
nào để chữa bệnh?
Giải: Gọi A là biến cố "trẻ bị bệnh A"
B là biến cố "trẻ bị bệnh B"
AB là biến cố "trẻ bị hai bệnh A và B"
a. Vì trẻ bị bệnh A hay B là độc lập nên:
P(AB) P(A) P(B) 0, 7.0,5 0,35.
22
P(DE1 ) P(AE1 ) P(BE1 ) P((AB)E1 ) P(AE1BE1 ) P(AE1 (AB)E1 )
P(BE1 (AB)E1 ) P(AE1BE1 (AB)E1 )
P(AE1 ) P(BE1 ) P((AB)E1 ) P(AE1 ) P(BE1 ) P(AE1 ) P((AB)E1 )
P(BE1 ) P((AB)E1 ) P(AE1 ) P(BE1 ) P((AB)E1 )
0,56 0,3 0,105 0,56.0,3 0,56.0,105 0,3.0,105 0,56.0,3.0,105
0,72434.
Biến cố “trẻ bị bệnh và đƣợc chữa khỏi bằng thuốc T2 ” là:
DE 2 A B AB E 2 AE 2 BE 2 (AB)E 2 .
Suy ra:
0, 67578.
Nhƣ vậy khả năng khỏi bệnh do điều trị thuốc T1 cao hơn T2 .
Vậy nên dùng thuốc T1
Định nghĩa 4
Các phép thử được gọi là độc lập với nhau, nếu xác suất để xảy ra một biến
cố nào đó trong từng phép thử không phụ thuộc vào việc biến cố đó có xảy ra ở các
phép thử khác hay không.
Ví dụ 11.
+ Tung một đồng xu nhiều lần sẽ tạo nên các phép thử độc lập.
+ Lấy nhiều lần sản phẩm từ một lô sản phẩm theo phƣơng thức có hoàn lại
sẽ tạo nên các phép thử độc lập.
23
3.2. Lược đồ Bernoulli
Giả sử ta tiến hành n phép thử độc lập. Trong mỗi phép thử chỉ xảy ra hai
trƣờng hợp: hoặc biến cố A xảy ra, hoặc biến cố A không xảy ra. Xác suất xảy ra
của biến cố A trong mỗi phép thử đều bằng p và xác suất không xảy ra của biến cố
A trong mỗi phép thử đều bằng q 1 p . Những bài toán thỏa mãn các điều kiện
trên đƣợc gọi là tuân theo lƣợc đồ Bernoulli (hay còn gọi là bài toán Bernoulli).
Ví dụ 12.
+ Tung một đồng xu 10 lần, đó là 10 phép thử Bernoulli.
+ Một bác sĩ chẩn đoán bệnh cho 5 ngƣời, đó là 5 phép thử Bernoulli.
(Nhƣng nếu 5 bác sĩ độc lập chẩn đoán bệnh cho 1 ngƣời thì nói chung không phải
là 5 phép thử Bernoulli.)
+ Một bà mẹ sinh 5 ngƣời con. Đó là 5 phép thử Bernoulli.
Trong lƣợc đồ Bernoulli với n phép thử độc lập, tìm xác suất để:
a. Biến cố A xuất hiện đúng k lần
Xác suất đó đƣợc tính bởi công thức:
Pn (A,k) Cnk pk q n k (k 0,1,2,...,n) (3.13)
Công thức trên là công thức Bernoulli.
Thật vậy, gọi B là biến cố "Trong n phép thử, biến cố A xảy ra đúng k lần".
Gọi A i là biến cố "xảy ra biến cố A trong phép thử lần thứ i", (i 1,n ) . Khi đó:
B A1A2 ...Ak A k1 ...A n A1 A 2 A3...A n1 An ... A1 A 2 ...A nk An k 1...An .
Trong đó A i là biến cố "Không xảy ra biến cố A trong phép thử thứ i"
k
Ta thấy có C n số cách chọn ra k phép thử, trong đó biến cố A xảy ra k lần,
còn A xảy ra n k lần. Do đó xác suất của mỗi biến cố tích đều bằng p k q n k . Vì
n k
tích các biến cố đó xung khắc từng đôi với nhau nên: Pn (A,k) p(B) Cn p q
k k
(k 0,1, 2,..., n) .
Ví dụ 13. Điều trị một bệnh có xác suất khỏi bằng 0,8. Điều trị cho 10 ngƣời
bệnh, tìm xác suất có 8 ngƣời khỏi.
Giải: Điều trị cho 10 ngƣời bệnh là các phép thử độc lập. Gọi A là biến cố
"điều trị khỏi bệnh". Theo công thức Bernoulli với n 10, p 0,8 , ta có:
Trong lƣợc đồ Bernoulli số x 0 mà tại đó xác suất Pn (x 0 ) đạt giá trị lớn nhất
gọi là số có khả năng nhất (hay số lần xuất hiện chắc chắn nhất còn gọi là mode).
Ngƣời ta đã chứng minh đƣợc rằng:
* Nếu (np q) Z thì số có khả năng nhất cùng một lúc nhận 2 giá trị:
x 0 np q và x 0 np q 1 (3.15)
* Nếu (np q) Z thì số có khả năng nhất là phần nguyên của np q 1 ,
25
Ta có: np q 50.0,9 0,1 45 0,1 44,9 Z
Định lý 4
Giả sử A1 , A2 ,..., An là một hệ đầy đủ các biến cố. Xét biến cố A có thể xảy
ra đồng thời với một trong các biến cố A1 , A2 ,..., An . Lúc đó xác suất của biến cố A
được tính bằng công thức sau:
n
P(A) P(A i ) P(A / A i ). (4.1)
i 1
Công thức trên gọi là công thức xác suất đầy đủ (còn gọi là công thức xác
suất toàn phần).
Chứng minh: Vì A1, A2 ,..., An là một hệ đầy đủ các biến cố nên biến cố A
chỉ có thể xảy ra đồng thời với một trong các biến cố đó:
A A1 A A2 A ... An A.
Vì các biến cố A1,A2 ,...,A n xung khắc từng đôi nên các biến cố
A1A, A2A,..., An A cũng xung khắc từng đôi.
Do đó: P(A) P( A1 A) P( A2 A) ... P( An A).
Áp dụng định lý nhân xác suất đối với các tích Ai A trong đó A i và A
n
không độc lập, ta có: P(A) P(Ai ) P(A / A i ).
i 1
Ví dụ 16. Có hai thùng đựng thuốc. Thùng thứ nhất có 10 lọ thuốc, trong đó
có 9 lọ thuốc còn hạn sử dụng. Thùng thứ hai có 20 lọ thuốc, trong đó có 18 lọ còn
hạn sử dụng.
1. Từ một thùng lấy ngẫu nhiên 1 ống thuốc, tìm xác suất lấy đƣợc ống thuốc
còn hạn sử dụng.
2. Từ thùng thứ nhất lấy ngẫu nhiên một lọ thuốc bỏ sang thùng thứ hai. Tìm
xác suất để lấy ngẫu nhiên từ thùng thứ hai một lọ thuốc còn hạn sử dụng.
26
Giải:
1. Gọi A là biến cố "lấy đƣợc lọ thuốc còn hạn sử dụng". Biến cố A có thể
xảy ra đồng thời với một trong 2 biến cố sau đây tạo nên một nhóm đầy đủ các biến
cố:
A1 là biến cố "lấy thuốc từ thùng 1".
9 1
P(A1 ) ; P(A 2 ) .
10 10
Theo công thức xác suất đầy đủ ta có:
P(A) P(A1 ) P(A / A1 ) P(A 2 ) P(A / A 2 )
9 19 1 18
. . 0,9.
10 21 10 21
Định lý 5
Giả sử biến cố A có thể xảy ra đồng thời với một trong n biến cố
A1,A2 ,...,An tạo nên một hệ đầy đủ các biến cố. Khi đó:
P(A k ) P(A / A k )
P(A k / A) n
(k 1, n) (4.2)
P(A k ) P(A / A k )
k 1
cố A đã xảy ra, do đó đƣợc gọi là các xác suất hậu nghiệm. Nhƣ vậy công thức
Bayes cho phép đánh giá lại xác suất xảy ra các giả thuyết sau khi đã biết kết quả
của phép thử tức là biến cố A đã xảy ra.
Ví dụ 17. Ở một vùng, tỷ lệ ngƣời dân nghiện thuốc lá là 30%, biết rằng tỷ lệ
ngƣời viêm họng trong số ngƣời nghiện thuốc lá là 60%, còn tỷ lệ ngƣời viêm họng
trong số ngƣời không nghiện thuốc lá là 40%.
1. Gặp ngẫu nhiên một ngƣời, biết ngƣời đó viêm họng. Tìm xác suất ngƣời
đó nghiện thuốc.
2. Nếu ngƣời đó không bị viêm họng, tìm xác suất ngƣời đó nghiện thuốc.
Giải: Gọi A là biến cố "gặp ngƣời bị viêm họng". A có thể xảy ra cùng với
một trong hai biến cố sau tạo nên một nhóm đầy đủ các biến cố:
B: "ngƣời đó nghiện thuốc"
B : "ngƣời đó không nghiện thuốc".
Theo công thức xác suất đầy đủ ta có:
28
Theo công thức Bayes ta có:
P(B) P( A / B) 0,3.0, 4
P(B / A) 0, 222.
P( A) 0,54
Ví dụ 18. Tại một địa phƣơng tỷ lệ mắc bệnh B bằng 0,02. Dùng một phản
ứng giúp chẩn đoán, nếu ngƣời bị bệnh thì phản ứng dƣơng tính 95%, nếu ngƣời
không bị bệnh phì phản ứng dƣơng tính 10%.
1. Tìm xác suất dƣơng tính của phản ứng.
2. Một ngƣời làm phản ứng thấy dƣơng tính, tìm xác suất ngƣời đó bị bệnh.
3. Tìm xác suất chẩn đoán đúng của phản ứng.
Giải: Gọi A là biến cố "dƣơng tính".
B là biến cố "bị bệnh B".
Đ là biến cố "chẩn đoán đúng của phản ứng".
S là biến cố "chẩn đoán sai của phản ứng".
Tổ chức y tế thế giới quy ƣớc gọi:
P(A / B) là độ nhạy.
3. Đ AB AB
29
P(Đ) P(B) P(A / B) P(B) P(A / B)
0, 02.0,95 0,98.0,9
0,901.
Ví dụ 19. Tại một địa phƣơng tỉ lệ bệnh B bằng 0,05. Dùng một phản ứng
giúp chẩn đoán, nếu phản ứng dƣơng tính thì bị bệnh 20%, nếu phản ứng âm tính thì
bị bệnh 1,25%.
1. Tìm xác suất dƣơng tính của phản ứng.
2. Tìm độ nhạy, độ đặc hiệu của phản ứng.
3. Tìm xác suất chẩn đoán sai của phản ứng.
0, 05 0, 0125
P(A) 0, 2.
0, 2 0, 0125
3. S AB AB
P(S) P(A) P(B / A) P(A) P(B / A)
0, 2.0,8 0,8.0,0125
0,17.
Nhận xét:
Trong một bài có thể có nhiều hệ đầy đủ. Để tìm xác suất của biến cố A có
thể dựa vào hệ đầy đủ này hay hệ đầy đủ khác, miễn là quan hệ giữa A với hệ đầy
đủ đó phải phù hợp, tức là A xảy ra thì một trong các biến cố của hệ đầy đủ phải
xảy ra. Nếu phép thử gồm 2 giai đoạn, biến cố A liên quan đến giai đoạn sau, thì
các kết quả có thể có của giai đoạn trƣớc chính là một hệ đầy đủ cần tìm. Hoặc nếu
30
hiện tƣợng đang xét có thể phân chia làm 2 bƣớc, khi đó các kết quả có thể có của
bƣớc 1 chính là hệ đầy đủ cần tìm.
Tài liệu tham khảo
[1] Đỗ Thị Hồng Nga, Đỗ Thị Phƣơng Quỳnh, Lê Thị Huyền My (2017), Xác suất
thống kê, NXB Đại học Thái Nguyên. (chƣơng 1trang 7-82)
[2]. Nguyễn Cao Văn, Trần Thái Ninh (2008), Lý thuyết xác suất và thống kê toán,
NXB Thống kê.
[3]. Đặng Đức Hậu (2008), Xác suất thống kê, NXB Giáo dục.
[4]. Đào Hữu Hồ (2008), Xác suất thống kê, NXB ĐHQG Hà Nội.
[5]. Tống Đình Quỳ (2010), Giáo trình xác suất thống kê, NXB Bách Khoa Hà Nội.
[6]. Sheldon M. Ross, Introduction to Probability and Statistics for Engineers and
Scientists, Fourth Edition, Academic Press is an imprint of Elsevier, 2009.
31
Bài 3:ĐẠI LƢỢNG NGẪU NHIÊN VÀ QUY LUẬT PHÂN PHỐI XÁC SUẤT
THƢỜNG GẶP
* Giảng viên:
1. TS Đỗ Thị Phƣơng Quỳnh
2. Ths Đỗ Thị Hồng Nga
3. Ths Lê Thị Huyền My
* Mục tiêu học tập:
Kiến thức:
1. Phân tích đƣợc đại lƣợng ngẫu nhiên và quy luật phân phối xác suất
thông dụng.
Kỹ năng:
2. Tính toán tham số trong bài toán cụ thể.
* Nội dung bài giảng:
32
Nói cách khác, đại lƣợng ngẫu nhiên là rời rạc nếu ta có thể liệt kê đƣợc tất
cả các giá trị có thể có của nó.
Ví dụ 2. Gọi Y là "Số ngƣời vào khám chữa bệnh tại một phòng khám trong
một ngày". Y là một đại lƣợng ngẫu nhiên rời rạc với các giá trị có thể có của nó lập
nên một tập hợp đếm đƣợc Y = 0, 1, 2, 3,...
Đại lượng ngẫu nhiên được gọi là liên tục nếu các giá trị có thể có của nó
lấp đầy một khoảng trên trục số.
Đối với đại lƣợng ngẫu nhiên liên tục, ta không thể liệt kê đƣợc tất cả các giá
trị có thể có của nó.
Ví dụ 3. Gọi Y là "Cân nặng trẻ sơ sinh". Y là đại lƣợng ngẫu nhiên liên tục.
2. Quy luật phân phối xác suất của đại lƣợng ngẫu nhiên
Định nghĩa 2
Hình thức biểu diễn mối quan hệ giữa các giá trị có thể có của đại lượng
ngẫu nhiên và các xác suất tương ứng được gọi là quy luật phân phối xác suất của
đại lượng ngẫu nhiên ấy.
Trong thực tế ngƣời ta thƣờng sử dụng ba phƣơng pháp để mô tả quy luật
phân phối xác suất của đại lƣợng ngẫu nhiên là: bảng phân phối xác suất, hàm phân
phối xác suất và hàm mật độ xác suất.
2.1. Bảng phân phối xác suất:
Bảng phân phối xác suất chỉ dùng để thiết lập quy luật phân phối xác suất
của đại lượng ngẫu nhiên rời rạc.
Giả sử đại lƣợng ngẫu nhiên rời rạc X có thể nhận một trong các giá trị có
thể có là: x1 , x 2 ,..., x n với các xác suất tƣơng ứng là p1 , p2 ,..., pn . Bảng phân phối
xác suất của đại lƣợng ngẫu nhiên rời rạc X có dạng:
X x1 x 2 x3 ... x i ... xn
P p1 p2 p3 ... pi ... pn
Ta chú ý rằng: để tạo nên một quy luật phân phối xác suất thì các xác suất p i
n
phải thỏa mãn điều kiện: 0 pi 1; i 1,n và pi 1 .
i 1
Ví dụ 4. Tung một con xúc xắc. Gọi X là "Số chấm xuất hiện". Hãy xây
dựng quy luật phân phối xác suất của X.
Giải: Vì X là đại lƣợng ngẫu nhiên rời rạc, các giá trị có thể có của X là 1; 2;
1
3; 4; 5; 6; với các xác suất tƣơng ứng đều bằng . Do đó bảng phân phối xác suất
6
của X có dạng:
X 1 2 3 4 5 6
33
1 1 1 1 1 1
P
6 6 6 6 6 6
1 1 1 1 1 1
Kiểm tra: 1.
6 6 6 6 6 6
Ví dụ 5. Một chuồng gà có 10 con, trong đó có 6 con gà trống. Bắt ngẫu nhiên 2
con gà. Xây dựng quy luật phân phối xác suất của số gà trống đƣợc bắt ra.
Giải: Gọi Y là "Số gà trống đƣợc bắt ra trong 2 con gà". Y là đại lƣợng ngẫu
nhiên rời rạc với các giá trị có thể có của Y là 0, 1, 2. Ta tính các xác suất tƣơng ứng.
C24 6 2 C16C14 24 8 C62 15 5
P(Y 0) 2
; P(Y 1) 2
; P(Y 2) 2
.
C10 45 15 C10 45 15 C10 45 15
Vậy quy luật phân phối của Y có dạng:
Y 0 1 2
2 8 5
P
15 15 15
2 8 5
Kiểm tra: 1.
15 15 15
Ví dụ 6. Xác suất để xạ thủ bắn trúng bia là 0,8. Xạ thủ đƣợc phát từng viên
đạn để bắn cho đến khi trúng bia. Xây dựng quy luật phân phối xác suất của số viên
đạn đƣợc phát.
Giải: Gọi X là "Số viên đạn mà xạ thủ đƣợc phát". X là đại lƣợng ngẫu nhiên
rời rạc với các giá trị có thể có của X là 1, 2, 3,..., k,... Ta tìm các xác suất tƣơng
ứng. Xác suất P(X 1) là xác suất để số viên đạn đƣợc phát bằng 1. Muốn xảy ra
biến cố đó thì ngay phát đạn đầu tiên xạ thủ phải bắn trúng bia. Do đó:
P(X 1) 0,8 .
Xác suất P(X 2) là xác suất để ngƣời ấy đƣợc phát 2 viên đạn. Muốn vậy,
phải xảy ra đồng thời hai biến cố: phát thứ nhất bắn trƣợt, phát thứ 2 bắn trúng.
Theo định lý nhân xác suất ta có: P(X 2) 0, 2.0,8 .
Ta tìm xác suất tổng quát P(X k) . Biến cố (X k) là tích của k biến cố:
k - 1 phát đầu bắn trƣợt và phát thứ k bắn trúng. Theo định lý nhân xác suất ta có:
X 1 2 ... k ...
P 0,8 0,2.0,8 ... (0,2)k 1.0,8 ...
34
2.2. Hàm phân phối xác suất
Khái niệm hàm phân phối xác suất áp dụng đƣợc đối với cả đại lƣợng ngẫu
nhiên rời rạc và liên tục.
Định nghĩa 3
Hàm phân phối xác suất của đại lượng ngẫu nhiên X, ký hiệu là F(x), là xác
suất để đại lượng ngẫu nhiên X nhận giá trị nhỏ hơn x, với x là một số thực bất kỳ.
F(x) = P(X < x) . (3.1)
Chú ý: Đây là định nghĩa tổng quát của hàm phân phối xác suất. Đối với
từng loại đại lƣợng ngẫu nhiên, hàm phân phối xác suất đƣợc tính theo những công
thức riêng.
Nếu X là đại lượng ngẫu nhiên rời rạc, thì hàm phân phối xác suất được xác
định bởi công thức:
0 khi : x x1
i 1
F(x) pi p j khi : x i 1 < x x i (3.2)
x x
i j1
1 khi : x > x n
Nếu X là đại lượng ngẫu nhiên liên tục, thì hàm phân phối xác suất được xác
định bởi công thức:
x
F(x) = f(x)dx , (3.3)
trong đó f(x) là hàm mật độ xác suất của đại lƣợng ngẫu nhiên liên tục X (sẽ nói
đến ở phần sau).
Ví dụ 7. Đại lƣợng ngẫu nhiên rời rạc X có bảng phân phối xác suất nhƣ sau:
X 1 3 4
P 0,1 0,5 0,4
Hãy xây dựng hàm phân phối.
Giải:
Nếu x 1, biến cố (X < x) là biến cố không thể có, do đó F(x) = 0.
Nếu 1 < x ≤ 3, biến cố (X < x) chỉ xảy ra khi (X = 1), do đó F(x) = 0,1.
Nếu 3 < x ≤ 4, biến cố (X < x) sẽ xảy ra hoặc khi (X = 1) hoặc khi (X = 3),
do đó: F(x) = 0,1 + 0,5 = 0,6.
Nếu x > 4 biến cố (X < x) sẽ xảy ra hoặc khi (X = 1) hoặc khi (X = 3) hoặc
khi (X = 4), do đó: F(x) = 0,1 + 0,5 + 0,4 = 1.
35
0 khi : x 1
0,1 khi :1 < x 3
Vậy hàm phân phối xác suất: F(x) =
0,6 khi : 3 < x 4
1 khi : x > 4
y=k-1
Đồ thị của F(x) có dạng bậc thang.
y
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
x
O 1 2 3 4 5 6 7
37
1 3 3
Trong đoạn 0; ta có F(x) x . Do đó:
3 4 4
1 3 1 3 3 3 1
F( ) F(0) . .0 .
3 4 3 4 4 4 4
1 1
Nhƣ vậy: P(0 X ) .
3 4
Ví dụ 9. Cho đại lƣợng ngẫu nhiên liên tục X có hàm phân phối xác suất:
0 khi x a
x
F(x) A B.arcsin khi a x a
a
1 khi x a
Hãy tìm A, B ?
Giải: Theo tính chất của hàm phân phối: 0 F(x) 1 suy ra:
x
0 A B.arcsin 1.
a
Mặt khác, vì X liên tục nên F(x) cũng liên tục. Do đó:
x
lim F(x ) lim F(x) F(a) lim A B.arcsin 0 A B 0 .
x a
x a x a
a 2
x
lim F(x) lim F(x) F(a) lim A B.arcsin 1 A B 1.
x a
x a
x a
a 2
1 1
Kết hợp lại, ta tìm đƣợc A , B .
2
2.3. Hàm mật độ xác suất
Hàm mật độ xác suất đặc trƣng cho quy luật phân phối xác suất của đại
lƣợng ngẫu nhiên liên tục X.
Định nghĩa 4
Hàm mật độ xác suất của đại lượng ngẫu nhiên liên tục X, ký hiệu f ( x) , là
đạo hàm bậc nhất của hàm phân phối xác suất của đại lượng ngẫu nhiên đó.
f (x) F(x) .
Các tính chất của hàm mật độ xác suất
Tính chất 4. f(x) 0, x .
Chứng minh: Vì hàm phân phối xác suất F(x) là một hàm không giảm, do đó
đạo hàm của nó F(x) f (x) là một hàm không âm. Về mặt hình học điều đó có
nghĩa là đồ thị của hàm f (x) không nằm thấp hơn trục Ox.
38
b
Tính chất 5. P(a X b) f (x)dx . (3.7)
a
Chứng minh: Theo tính chất của hàm phân phối xác suất ta có:
P(a X b) F(b) F(a) .
Theo công thức Newton- Leibnitz:
b b
F(b) F(a) F'(x)dx f (x)dx .
a a
b
Do đó: P(a X b) f (x)dx .
a
x
Tính chất 6. f (x)dx F(x) . (3.8)
Chứng minh: Theo định nghĩa của hàm phân phối xác suất, ta có:
F(x) P(X x) P( X x) .
Theo tính chất 5, đặt a ; và b x ta có:
x
P( X x) f (x)dx .
Công thức này cho phép tìm hàm phân phối xác suất của đại lƣợng ngẫu
nhiên liên tục khi đã biết hàm mật độ xác suất của nó.
Tính chất 7. f(x)dx 1 . (3.9)
Chứng minh: Theo tính chất 2, đặt a , b . Ta có:
P( X ) f(x)dx .
Vì biến cố ( X ) là biến cố chắc chắn, do đó:
f(x)dx P() 1 .
Chú ý:
Để hàm f(x) là hàm mật độ xác suất của đại lƣợng ngẫu nhiên liên tục nào đó
thì nó phải thỏa mãn hai điều kiện:
f(x) 0, x
f(x)dx 1
Ví dụ 10. Hàm phân phối của đại lƣợng ngẫu nhiên liên tục X có dạng:
0 khi x 0
2
F(x) ax khi 0 x 1
1 khi x 1
39
a) Hãy tìm hệ số a.
b) Tìm hàm mật độ xác suất f (x) .
c) Tìm xác suất để đại lƣợng ngẫu nhiên X nhận giá trị trong khoảng
(0,25;0,75).
Giải:
a) Vì F(x) liên tục, do đó nó liên tục tại x 1, ax 2 1 a 1.
0 khi : x 0
b) Ta có: f (x) F(x) 2x khi : 0 x 1
0 khi : x 1
c) Theo tính chất của hàm phân phối xác suất:
P(0,25 X 0,75) F(0,75) F(0,25) (0,75)2 (0,25)2 0,5
Ví dụ 11. Đại lƣợng ngẫu nhiên liên tục X có hàm mật độ xác suất:
a.cos x khi x ,
2 2
f (x)
0
khi x ,
2 2
a) Tìm hệ số a ?
b) Tìm hàm phân phối xác suất F(x) ?
c) Tìm xác suất để đại lƣợng ngẫu nhiên X nhận giá trị trong khoảng 0, .
4
Giải:
a) Vì f (x) là hàm mật độ xác suất của đại lƣợng ngẫu nhiên liên tục X nên
f (x) 0, x
nó thỏa mãn:
f (x)dx 1
Với mọi x , cos x 0 . Do đó từ điều kiện đầu suy ra a 0 .
2 2
Với điều kiện sau ta thấy
2 2
1
1 f (x)dx f (x)dx a.cos xdx f (x)dx a.sin x 2a a .
2
2
2 2
2
1
Kết hợp với a 0 , ta có a .
2
b) Để tìm hàm phân phối xác suất, ta sử dụng tính chất của hàm mật độ xác
suất:
40
x
F(x) f (x)dx .
x
Với x : F(x)
2
0dx 0 .
x 2 x
1 1
Với x : F(x) f (x)dx 0dx 2 cos xdx 2 (sin x 1) .
2 2
2
x 2 2
1 x
Với x : F(x) f (x)dx 0dx 2 cos xdx 0dx 1 .
2
2 2
41
Giả sử đại lượng ngẫu nhiên rời rạc X nhận một trong các giá trị có thể có
x1 , x2 ,..., xn với các xác suất tương ứng p1 , p2 ,..., pn . Kỳ vọng toán của X, ký hiệu
là E ( X ) , là tổng các tích giữa các giá trị có thể có của đại lượng ngẫu nhiên rời
rạc với các xác suất tương ứng.
n
E(X) x i pi . (3.10)
i 1
Nếu X là đại lượng ngẫu nhiên liên tục, với hàm mật độ xác suất f (x) thì kỳ
vọng toán E ( X ) được xác định bởi:
E(X) xf (x)dx.
(3.11)
Chú ý:
Kỳ vọng toán của đại lƣợng ngẫu nhiên là một số xác định.
b
Nếu f(x) chỉ dƣơng trong khoảng (a,b) thì: E(X) xf(x)dx .
a
Ví dụ 12. Tìm kỳ vọng toán của đại lƣợng ngẫu nhiên rời rạc X có bảng
phân phối xác suất nhƣ sau:
X 1 3 4
P 0,1 0,5 0,4
Giải: Theo định nghĩa kỳ vọng toán của đại lƣợng ngẫu nhiên rời rạc, ta có:
n
E(X) x p 1.0,1 3.0,5 4.0,4 3,2 .
i 1 i i
Ví dụ 13. Tìm kỳ vọng toán của đại lƣợng ngẫu nhiên liên tục X có hàm mật
độ xác suất nhƣ sau:
3 2
( x 2x) khi x (0,1)
f (x) 4
0 khi x (0,1)
Giải: Theo định nghĩa kỳ vọng toán của đại lƣợng ngẫu nhiên liên tục ta có:
31 31 3 3 x 4 2x 3 1 11
E(X) xf (x)dx x(x 2
2x)dx (x 2x 2
)dx .
4 4 4 4 3 0 16
0 0
Các tính chất của kỳ vọng toán
Tính chất 8. E(C) C (C const). (3.12)
Thật vậy, ta coi C nhƣ là một đại lƣợng ngẫu nhiên rời rạc đặc biệt với một
giá trị có thể có bằng C và xác suất tƣơng ứng bằng 1. Khi đó, theo định nghĩa kỳ
vọng toán ta có:
E(C) C.1 C.
42
Tính chất 9. E(CX) C.E(X) (C const). (3.13)
Thật vậy, giả sử X là đại lƣợng ngẫu nhiên rời rạc nhận một trong các giá trị
có thể có x1,x 2 ,...,x n với P(X x i ) pi .
Ta có P(CX Cx i ) pi
n n
E CX Cx i pi C x i pi C EX .
i=1 i=1
n
Tƣơng tự ta có: pij q j.
i 1
Tính chất 11. Nếu X và Y là hai đại lượng ngẫu nhiên độc lập thì:
E(XY) E(X) E(Y). (3.16)
(X và Y gọi là độc lập với nhau nếu mọi biến cố liên quan đến X độc lập với
biến cố bất kỳ liên quan đến Y.)
Thật vậy, giả sử X và Y là các đại lƣợng ngẫu nhiên rời rạc tƣơng ứng nhận
một trong các giá trị có thể có x1, x 2 ,..., x n và y1, y2 ,..., ym với P(X x i ) pi và
P(Y y j ) q j .
P(XY xi y j ) P((X x i ) (Y y j )) P(X x i )P(Y y j ) piq j .
n m n m
Ta có: E(XY) x i y jpi q j x i pi y jq j E(X) E(Y) .
i 1 j1 i 1 j1
43
n n
Hệ quả: E x i E(x i ) ( x1 , x 2 ,..., x n độc lập với nhau). (3.17)
i1 i 1
Bản chất và ý nghĩa của kỳ vọng toán
Giả sử đối với đại lƣợng ngẫu nhiên X, tiến hành n phép thử, trong đó n1 lần
n
X nhận giá trị x1 , n 2 lần X nhận giá trị x 2 ,..., n k lần X nhận giá trị x k , ( n i n) .
i 1
Giá trị trung bình của đại lƣợng ngẫu nhiên X trong n phép thử này là:
n x n 2 x 2 ... n k x k n n n
X 1 1 x1 1 x 2 2 ... x k k .
n n n n
n n n
Với chú rằng 1 , 2 ,..., k chính là tần suất xuất hiện các giá trị x1 , x 2 ,..., x n trong
n n n
n phép thử trên. Do đó: X x1f1 x 2f 2 ... x k f k .
Theo định nghĩa thống kê về xác suất, khi n các tần suất sẽ hội tụ theo
xác suất về các xác suất tƣơng ứng, do đó với n đủ lớn ta có thể viết:
X x1p1 x 2 p2 ... x k pk E(X) .
Vậy kỳ vọng toán của đại luợng ngẫu nhiên gần bằng trung bình số học của
các giá trị quan sát của đại lượng ngẫu nhiên. Nó phản ánh giá trị trung tâm của
phân phối xác suất của đại lượng ngẫu nhiên.
Ví dụ 14. Tung con xúc xắc n lần. Tìm kỳ vọng toán của tổng số chấm thu
đƣợc.
Giải: Gọi Xi (i 1,n) là số chấm thu đƣợc ở lần tung thứ i và gọi X là tổng số
n
chấm thu đƣợc trong n lần tung. Nhƣ vậy: X Xi . Theo tính chất của kỳ vọng toán:
i 1
n n
E(X) E( Xi ) E(Xi ) .
i 1 i 1
Mỗi đại lƣợng ngẫu nhiên Xi đều có bảng phân phối xác suất nhƣ sau:
Xi 1 2 3 4 5 6
1 1 1 1 1 1
P
6 6 6 6 6 6
1 7 7
Do đó: E(Xi ) (1 2 3 4 5 6) , i E(X) n .
6 2 2
3.2. Phương sai
Trong thực tế nhiều khi chỉ xác định kỳ vọng toán của đại lƣợng ngẫu nhiên
thì chƣa đủ để xác định đại lƣợng ngẫu nhiên đó. Ta còn phải xác định mức độ phân
tán của các giá trị của đại lƣợng ngẫu nhiên xung quanh các giá trị trung bình của
nó nữa. Từ đó ta có khái niệm phƣơng sai.
44
Định nghĩa 6
Phương sai của đại lượng ngẫu nhiên X, ký hiệu D( X ) là kỳ vọng toán của
bình phương sai lệch của đại lượng ngẫu nhiên so với kỳ vọng toán của nó.
D(X) E X E(X) .
2
(3.18)
Nhƣ vậy, nếu X là đại lƣợng ngẫu nhiên rời rạc thì phƣơng sai xác định bởi
công thức:
n
D(X) X E(X) pi .
2
(3.19)
i=1
Còn nếu X là đại lƣợng ngẫu nhiên liên tục có hàm mật độ xác suất f (x) thì
phƣơng sai đƣợc xác định bởi công thức:
D(X) X E(X)
2
f(x)dx . (3.20)
Trong thực tế, việc tính phƣơng sai bằng các công thức trên có thể gặp khó
khăn. Ngƣời ta thƣờng tính phƣơng sai bằng công thức sau:
D(X) E(X2 ) E(X) .
2
(3.21)
Thật vậy, theo định nghĩa của phƣơng sai:
D(X) E X E(X) E X 2 2XE(X) E(X) 2
2
45
Vậy D(X) 11 (3,2) 2 0,76 .
Ví dụ 16. Đại lƣợng ngẫu nhiên liên tục X có hàm mật độ xác suất nhƣ sau:
2x khi x (0,1)
f(x)
0 khi x (0,1)
Hãy tìm phƣơng sai.
Giải: Áp dụng công thức: D(X) E(X2 ) E(X) .
2
1
2x 3 2
Ta cần tính: E(X) xf(x)dx x.2x.dx
1
.
0 3 0 3
1
x4 1
Tính E(X ) x f (x)dx x .2x.dx
1
2 2 2
.
0 2 0 2
2
Vậy: D(X) .
1 2 1
2 3 18
Chú ý: Phƣơng sai của đại lƣợng ngẫu nhiên là một giá trị xác định không âm.
Các tính chất của phƣơng sai
Tính chất 12: D(C) 0 C const . (3.24)
Thật vậy, theo định nghĩa của phƣơng sai
D(C) E C E(C) E(C C)2 E(0) 0 .
2
C2 E X E(X) C2D(X).
2
Tính chất 14: Phương sai của hai đại lượng ngẫu nhiên độc lập bằng tổng
của các phương sai thành phần: D(X Y) D(X) D(Y) . (3.26)
Thật vậy, theo công thức tính phƣơng sai:
D(X Y) E (X Y) 2 E(X Y)
2
D(X) D(Y).
Hệ quả 1: Với X1 ,X2 ,...,X n là các đại lƣợng ngẫu nhiên độc lập
n n
D( Xi ) D(Xi ) . (3.27)
i 1 i 1
46
Hệ quả 2: D(C X) D(X) ; C const . (3.28)
Hệ quả 3: D(X Y) D(X) D(Y) . (3.29)
Bản chất và ý nghĩa của phƣơng sai
Xuất phát từ định nghĩa của phƣơng sai, ta thấy phƣơng sai chính là trung
bình số học của bình phƣơng các sai lệch giữa các giá trị có thể có của đại lƣợng
ngẫu nhiên so với giá trị trung bình của các giá trị đó. Do vậy, nó phản ánh mức độ
phân tán của các giá trị của đại lƣợng ngẫu nhiên xung quanh giá trị trung tâm của
nó là kỳ vọng toán.
Ví dụ 17. Tung con xúc xắc n lần. Tìm phƣơng sai của tổng số chấm thu
đƣợc.
Giải: Gọi Xi (i 1, n) là số điểm thu đƣợc ở con xúc xắc thứ i. Gọi X là
n
tổng số chấm thu đƣợc ở cả n con xúc xắc. Vậy: X X i .
i 1
n n
Vì các X i độc lập với nhau nên: D(X) D( Xi ) D(Xi ) .
i 1 i 1
Mỗi đại lƣợng ngẫu nhiên Xi đều có bảng phân phối xác suất nhƣ sau:
Xi 1 2 3 4 5 6
1 1 1 1 1 1
P
6 6 6 6 6 6
1 7
Do đó: E(Xi ) (1 2 3 4 5 6) , i .
6 2
1 91
Và E(Xi2 ) (12 22 32 42 52 62 ) .
6 6
2
91 7 35
Do đó: D(Xi ) (i 1,n) .
6 2 12
n
35
Vậy: D(X) D(Xi ) n.
i 1 12
3.3. Độ lệch chuẩn
Độ lệch chuẩn của đại lượng ngẫu nhiên X, ký hiệu là σ , là căn bậc hai của
phương sai. Ta có:
σ D(X) . (3.30)
Đơn vị đo của phƣơng sai bằng bình phƣơng đơn vị đo của đại lƣợng ngẫu
nhiên. Vì vậy khi cần đánh giá mức độ phân tán của đại lƣợng ngẫu nhiên theo đơn
47
vị đo của nó, ngƣời ta thƣờng tính độ lệch chuẩn chứ không phải là phƣơng sai, vì
nó cùng đơn vị đo với đại lƣợng ngẫu nhiên.
4. Một số quy luật phân phối xác suất thông dụng
4.1. Quy luật không - một
Định nghĩa 7
Đại lượng ngẫu nhiên rời rạc X được gọi là phân phối theo quy luật không -
một với tham số p nếu X nhận một trong hai giá trị có thể có X 0; 1 với các xác
suất tương ứng được tính bằng công thức:
Px px (1 p)1x (x 0;1) .
Ký hiệu: A(p)
Do đó, bảng phân phối xác suất của đại lƣợng ngẫu nhiên phân phối theo quy
luật không - một có dạng:
X 0 1
P q p
(q 1 p) .
Các tham số đặc trƣng của quy luật không - một
E(X) p ; D(X) pq ; (X) pq .
Thật vậy theo bảng phân phối xác suất ta sẽ tính đƣợc:
E(X) 0q 1p p .
D(X) E(X2 ) (E(X))2 (02 q 12 p) (p2 ) p(1 p) pq .
4.2. Quy luật nhị thức- Bernoulli
Giả sử ta có một lƣợc đồ Bernoulli, tức là tiến hành n phép thử độc lập, trong
mỗi phép thử chỉ có hai trƣờng hợp, hoặc biến cố A xảy ra hoặc biến cố A không
xảy ra, xác suất xảy ra biến cố A trong mỗi phép thử đều bằng p và xác suất không
xảy ra biến cố A trong mỗi phép thử đều bằng q 1 p . Gọi X là “Số lần xảy ra
biến cố A trong n phép thử” thì X là biến ngẫu nhiên rời rạc nhận một trong các giá
trị có thể có X 0,1,2,...,n với các xác suất tƣơng ứng đƣợc tính bởi công thức
Bernoulli Px Cn p q , x 0,1,2,...,n .
x x n x
Định nghĩa 8
Đại lượng ngẫu nhiên rời rạc X nhận một trong các giá trị có thể có
X = 0,1,2,...,n với các xác suất tương ứng được tính bởi công thức:
Px Cnx px qn x , x 0,1,2,...,n . (3.31)
48
được gọi là phân phối theo quy luật nhị thức với các tham số n và p.
Ký hiệu: B(n,p).
Nhƣ vậy, bảng phân phối xác suất của đại lƣợng ngẫu nhiên X phân phối
theo quy luật nhị thức có dạng:
X 0 1 ... k ... n
P C0n p0q n C1n p1q n 1 ... Ckn pk q n k ... Cnn pn q 0
Các tham số đặc trƣng của quy luật phân phối nhị thức:
E(X) np , D(X) npq , (X) npq .
Thật vậy, gọi Xi (i 1,n) là số lần xuất hiện biến cố A trong phép thử thứ i.
Do các phép thử là độc lập nên các Xi (i 1,n) độc lập với nhau và mỗi Xi (i 1,n)
đều có phân phối không - một với tham số p:
Chú ý: Trong thực tế, công thức Poisson có thể dùng thay cho công thức
Bernoulli nếu thỏa mãn điều kiện n 20 và p 0,1.
Các tham số đặc trƣng của quy luật Poisson
E(X) λ ; D(X) λ ; (X) λ .
Mode đƣợc xác định bởi công thức: λ 1 x 0 λ .
Xảy ra hai trƣờng hợp:
Nếu λ Z thì mode cùng một lúc nhận hai giá trị x 0 λ 1 và x 0 λ .
Nếu λ Z thì mode sẽ là x 0 λ .
Ví dụ 19. Xác suất mắc bệnh sau khi dùng vacxin bằng 0,001. Dùng vacxin
cho 2000 trẻ.
1) Tìm xác suất sao cho có 4 trẻ bị bệnh.
2) Tìm số trẻ bị bệnh trung bình sau tiêm.
3) Tìm số trẻ có khả năng bị bệnh nhiều nhất sau tiêm?
Giải: Bài toán thỏa mãn lƣợc đồ Bernoulli. Vì n 2000 khá lớn, p 0,001
khá nhỏ và tích np 2000.0,001 2 không đổi. Do đó nếu gọi X là số trẻ bị bệnh
sau tiêm thì X có phân phối Poisson.
e2 24
1) P4 0,09 .
4!
2) Số trẻ bị bệnh trung bình sau tiêm chính là kỳ vọng toán của X
E(X) λ 2 .
3) Số trẻ có khả năng bị bệnh nhiều nhất sau tiêm là mode x 0 . Ta có
λ 2 Z nên x 0 1 và x 0 2 .
Nhƣ vậy số trẻ có khả năng bị bệnh nhiều nhất sau tiêm là 1 và 2 trẻ.
4.4. Phân phối chuẩn
Định nghĩa 10
Đại lượng ngẫu nhiên liên tục X nhận các giá trị trong khoảng ; gọi
là phân phối theo quy luật chuẩn với các tham số và 2 nếu hàm mật độ xác suất
của nó có dạng:
( x )
2
1
f (x) 2
2
e (3.33)
2
Ký hiệu: N(, 2 )
51
Đồ thị của hàm mật độ xác suất có dạng:
y=k-1
f(x)
1
σ 2π
1
σ 2πe
O
O
1 x 2
F(x) e
2
dx . (3.34)
2
Các tham số đặc trƣng của quy luật chuẩn:
E(X) ; D(X) 2 ; (X) .
Thật vậy, theo định nghĩa kỳ vọng toán của đại lƣợng ngẫu nhiên liên tục, ta có:
( x )
2
1
E(X) xf (x)dx xe 2
2
dx .
2
x
Đổi biến t x t , dx dt .
2 2 2
1 2
t t t
1
E(X) (t )e 2
dt t e 2
dt dt
e
2 2 2
0 2 .
2
52
( x )
2 2
1 1 2 t2
D(X) 2
dx t e dt y=k-1
2 2 2
(x ) e .
2 2
t2
(Lấy tích phân từng phần với u = t và dv te dt .) 2
Có liên quan mật thiết đến phân phối chuẩn là phân phối chuẩn hóa.
Định nghĩa 11 (phân phối chuẩn hóa)
Giả sử đại lượng ngẫu nhiên X phân phối chuẩn N ( , 2 ) . Khi đó đại
X
lượng ngẫu nhiên U nhận giá trị trong khoảng ; gọi là tuân theo
quy luật phân phối chuẩn hóa, nếu hàm mật độ xác suất của nó có dạng:
2
1 u2
φ(u) e . (3.35)
2π
Đồ thị của hàm mật độ xác suất φ(u) có dạng:
φ(u)
u
-2 -1 1 2
O
53
Định nghĩa 12 (phân vị chuẩn)
Phân vị chuẩn mức (còn gọi là giá trị tới hạn), ký hiệu U , là giá trị của
đại lượng ngẫu nhiên U có phân phối chuẩn hóa thỏa mãn điều kiện:
P(U U ) . (3.37)
Vì U có phân phối chuẩn hóa nên U có hàm mật độ là:
2
1 u2
φ(u) e .
2π
Theo tính chất hàm mật độ ta có:
2
1 u u2 α
P(U u α ) e du α.
2π
Nhƣ vậy cho trƣớc α sẽ tính đƣợc U α và ngƣợc lại.
Bảng tính sẵn giá trị của U α với mức α cho trƣớc có trong bảng phân vị
chuẩn (Phụ lục 1).
Chú ý: Uα U1α .
Công thức tính xác suất để đại lƣợng ngẫu nhiên X phân phối chuẩn
nhận giá trị trong khoảng a, b
( x )
2
b
1
Ta đã biết: P(a x b) f (x)dx ; với f (x) 2
2
e .
a 2
x
Đặt z thì x z và dx dz .
a b
Đổi cận: x a z ; x bz .
Khi đó:
b b a
2 2 2
z z z
1 1 1
P(a x b)
2
a e dz 2
2
e dz
2
2
e dz2
0 0
(3.38)
b a
0 0 .
2
1 u z2
Trong đó 0 (u)
2 0
e dz (Hàm Laplace) với các giá trị cho trƣớc đã
Ứng với các giá trị n 2 , (n) đƣợc cho trong một bảng. Ví dụ:
(1, 46) 0,8856 , (2) 1.
Ứng với các giá trị n 2 , (n) đƣợc tính xấp xỉ theo công thức:
(n) (n 1)(n 1) .
Với n nguyên dƣơng thì (n) n! .
Với n đủ lớn, (n) đƣợc xác định theo công thức sau;
n n e n 2
(n) . (3.40)
n
4.5.2. Quy luật khi bình phương
Định nghĩa 3.13
Giả sử X 1 , X 2 ,..., X n là n đại lượng ngẫu nhiên chuẩn tắc độc lập thì
n
Qn x 2 là đại lượng ngẫu nhiên có quy luật khi bình phương 2 với n bậc tự
i
i 1
do.
Ký hiệu 2 (n) .
X1 là biến chuẩn tắc thì Q1 X1 là một biến 2 với 1 bậc tự do.
2
Chia n giá trị nghiên cứu thành k hàng, có k-1 bậc tự do.
Chia n giá trị nghiên cứu thành k hàng và m cột, có (k-1)(m-1) bậc tự do.
Q là đại lƣợng ngẫu nhiên có quy luật 2 với n bậc tự do, khi đó hàm mật độ
xác suất Q, có biểu thức sau:
56
x n
1 1
f (x) n
e x 2 2
,(x 0) . (3.41)
n
2 ( )
2
2
Định nghĩa 14
Giá trị tới hạn khi bình phương, ký hiệu 2 ( n ) là giá trị của đại lượng ngẫu
nhiên Q phân phối theo quy luật khi bình phương với n bậc tự do, thỏa mãn điều
kiện:
P(T 2(n ) ) . (3.42)
Giá trị tới hạn khi bình phƣơng 2 cho ở bảng phụ lục 4.
57
[2]. Nguyễn Cao Văn, Trần Thái Ninh (2008), Lý thuyết xác suất và thống kê toán,
NXB Thống kê.
[3]. Đặng Đức Hậu (2008), Xác suất thống kê, NXB Giáo dục.
[4]. Đào Hữu Hồ (2008), Xác suất thống kê, NXB ĐHQG Hà Nội.
[5]. Tống Đình Quỳ (2010), Giáo trình xác suất thống kê, NXB Bách Khoa Hà Nội.
[6]. Sheldon M. Ross, Introduction to Probability and Statistics for Engineers and
Scientists, Fourth Edition, Academic Press is an imprint of Elsevier, 2009.
58
Bài thảo luận 1: Vận dụng xác suất vào lập luận logic trong y học.
* Giảng viên:
1. TS Đỗ Thị Phƣơng Quỳnh
2. Ths Đỗ Thị Hồng Nga
3. Ths Lê Thị Huyền My
Mục tiêu học tập:
1. Vận dụng đƣợc các công thức xác suất đã học để giải quyết bài toán
nghịch lý.
2. Giải thành thạo các bài toán xác suất trong y học.
1) Hoàng tử có 1 ngƣời anh chị em ruột. Có hai khả năng: hoặc ngƣời đó là
con trai, hoặc là con gái. Nhƣ vậy xác suất để ngƣời đó là con gái (tức là hoàng tử
có sister) là 1/2.
59
2) Có 4 khả năng cho 1 gia đình có 2 con: {B,B}, {B,G}, {G,B}, {G,G}. (B
= boy = con trai, G = girl = con gái, xếp theo thứ tự con thứ nhất - con thứ
hai). Vì ta biết hoàng tử là con trai (đây là điều kiện) nên loại đi khả năng
{G,G}, còn 3 khả năng {B,B}, {B,G}, {G,B}. Trong số 3 khả năng đó thì có
2 khả năng có con gái. Nhƣ vậy xác suất để hoàng tử có sister là 2/3.
Trong hai đáp án trên, ắt hẳn phải có (ít nhất) 1 đáp án sai. Thế nhƣng cái
nào sai, sai ở chỗ nào ?
Nghịch lý 3. Văn Phạm có phải là thủ phạm ? Một ngƣời đàn ông tên là
Văn Phạm bị tình nghi là thủ phạm trong một vụ án. Cảnh sát điều tra đƣợc
những tin sau đây:
1) Ngoài nạn nhân chỉ có 2 ngƣời có mặt lúc xảy ra vụ án, một trong
hai ngƣời đó là Văn Phạm, ngƣời kia cảnh sát không hề biết là ai, và một
trong hai ngƣời đó là thủ phạm;
2) Thủ phạm phải là đàn ông. Hỏi xác suất để "Văn Phạm là thủ
phạm" là bao nhiêu ?
Gọi ngƣời thứ hai mà cảnh sát không biết là ai là "X". X có thể là đàn
ông hoặc đàn bà. Ta gọi sự kiện "Văn Phạm là thủ phạm" là A,
Sự kiện "X là đàn ông" là B, "thủ phạm là đàn ông" là C.
Có hai cách giải khác nhau nhƣ sau:
1) Theo công thức xác suất toàn phần ta có P(A) = P(A|B).P(B) +
P(A| B ).P( B ) Nếu X là đàn bà thì X không thể là thủ phạm và Văn Phạm
phải là thủ phạm, bởi vậy
P(A| B ) = 1.
Nếu X là đàn ông thì một trong hai ngƣời, X hoặc Văn Phạm, là thủ
phạm, bởi vậy P(A|B) = 1/2.
Cách 2: X có thể là đàn ông hoặc đàn bà, và ta coi số đàn ông bằng số
đàn bà, bởi vậy P(B) = P( B ) = 1/2. Từ đó ta có P(A) = (1/2).(1/2) + 1.(1/2) =
3/4, có nghĩa là xác suất để "Văn Phạm là thủ phạm" bằng 3/4.
2) Ta coi C là điều kiện, và muốn tính xác suất có điều kiện P(A|C)
(xác suất để Văn Phạm là thủ phạm, khi biết rằng thủ phạm là đàn ông).
Theo công thức Bayes ta có P(A|C) = P(C|A).P(A); P(C|A).P(A) +
P(C|A).P(A) . Ở trong công thức trên, P(A) là xác suất của sự kiện "Văn
Phạm là thủ phạm" nếu nhƣ chƣa có điều kiện "thủ phạm là đàn ông". Vì một
trong hai ngƣời Văn Phạm và X là thủ phạm, nên xác suất P(A) không có
điều kiện ở đây là P(A) = 1/2. Ta có P(C|A) = 1 vì tất nhiên nếu Văn Phạm là
thủ phạm thì thủ phạm là đàn ông. Ngƣợc lại, P(C|A) = 1/2 (nếu X là thủ
phạm, thì thủ phạm có thể là đàn ông hoặc đàn bà, khi mà chƣa đặt điều kiện
"thủ phạm là đàn ông"). Bởi vậy ta có:
60
1.(1 / 2) 1/ 2
P (A / C ) 2/3
1.(1 / 2) (1 / 2) / (1 / 2) 3 / 4
tức là xác suất để Văn Phạm là thủ phạm bằng 2/3. Hai cách giải trên cho 2
đáp số khác nhau, nhƣ vậy (ít nhất) một trong hai cách giải trên là sai. Cách
giải nào sai và sai ở chỗ nào ?
[2]. Nguyễn Cao Văn, Trần Thái Ninh (2008), Lý thuyết xác suất và thống kê toán,
NXB Thống kê.
[3]. Đặng Đức Hậu (2008), Xác suất thống kê, NXB Giáo dục.
[4]. Đào Hữu Hồ (2008), Xác suất thống kê, NXB ĐHQG Hà Nội.
[5]. Tống Đình Quỳ (2010), Giáo trình xác suất thống kê, NXB Bách Khoa Hà Nội.
[6]. Sheldon M. Ross, Introduction to Probability and Statistics for Engineers and
Scientists, Fourth Edition, Academic Press is an imprint of Elsevier, 2009.
61
Bài 4: LÝ THUYẾT MẪU
* Giảng viên:
1. TS Đỗ Thị Phƣơng Quỳnh
2. Ths Đỗ Thị Hồng Nga
3. Ths Lê Thị Huyền My
Mục tiêu học tập:
Kiến thức:
2. Vận dụng kiến thức về lý thuyết mẫu để xử lý dữ liệu trong bài toán cụ
thể.
Kĩ năng:
cùng quy luật phân phối xác suất với X. Ký hiệu W X 1 , X 2 ,..., X n .
Cần lấy mẫu ngẫu nhiên, khách quan sao cho tính chất của tập hợp mẫu phản
ánh đúng tính chất của tổng thể.
Có hai cách lấy các phần tử ra để nghiên cứu:
Lấy mẫu ngẫu nhiên có hoàn lại: Rút ngẫu nhiên từ một tập nào đó ra một
phần tử. Ghi lại các số liệu cần thiết, sau đó trả nó trở lại tập ban đầu trƣớc khi rút
tiếp ngẫu nhiên lần sau.
Lấy mẫu ngẫu nhiên không hoàn lại: Tƣơng tự nhƣ trên, chỉ khác ở chỗ các
phần tử đƣợc rút ra sẽ không đƣợc trả lại tập ban đầu.
4.2. Phân bố thực nghiệm
Trƣờng hợp ít số liệu: Nếu dung lƣợng mẫu nhỏ, ta trình bày mẫu dƣới
dạng bảng:
Giá trị xi x1 x2 ... xk ......
Số lần lặp ( mi ) m1 m2 ... mk .......
k
Với mi n là dung lƣợng mẫu (cỡ mẫu).
i 1
Các giá trị x1 , x 2 ,..., x n đƣợc sắp xếp theo chiều tăng dần hoặc giảm dần.
Trƣờng hợp nhiều số liệu: Với những nghiên cứu có kích thƣớc mẫu n rất
lớn, để tính các tham số mẫu thuận tiện mà sai số không đáng kể, có thể phân chia
số liệu thành nhiều lớp.
Nếu gọi k là số lớp định chia, x max là giá trị lớn nhất trong mẫu, x min là giá
trị nhỏ nhất trong mẫu thì độ dài mỗi lớp đƣợc xác định:
x max x min
d (4.1)
k
Khi đó: lớp thứ nhất chứa số liệu từ x min x min d
63
lớp thứ hai chứa số liệu từ x min d x min 2d
lớp thứ k chứa số liệu từ x max d x max
Chú ý:
Để tránh trƣờng hợp số liệu có thể vừa rơi vào lớp này vừa rơi vào lớp bên
cạnh, ta quy ƣớc dùng nửa khoảng.
Nếu số liệu mẫu đã làm tròn đến đơn vị, độ dài mỗi lớp là h đơn vị, thì sẽ
d d
lấy mút trái của lớp đầu là x min ; mút phải lớp cuối cùng là x max .
2 2
Ví dụ 4.1. Trong một mẫu có dung lƣợng 100, với: x min 103 ; x max 157
Ta định chia mỗi lớp có độ dài d 3 . Khi đó:
d 3
Lớp đầu tiên chứa số liệu trong khoảng x min 103 101,5 104,5
2 2
Lớp thứ hai chứa số liệu từ 104,5 107,5
Lớp cuối cùng chứa số liệu từ 155,5 158,5
Các số liệu của mẫu sau khi đã đƣợc chia thành lớp, ta sẽ lấy trung bình của
lớp đó làm số đại diện cho toàn lớp. Số số liệu xuất hiện trong mẫu là số lần lặp của
số liệu trung bình của lớp. Khi đó ta có bảng phân bố thực nghiệm trình bày nhƣ ở
trƣờng hợp ít số liệu.
4.3. Đa giác tần suất và tổ chức đồ
Để mô tả số liệu mẫu một cách rõ ràng hơn cho phép đƣa ra những nhận xét
sơ bộ ban đầu về tổng thể, ngƣời ta còn xây dựng các loại đồ thị khác nhau của phân
bố thực nghiệm.
Định nghĩa 4.3
Đa giác tần số là một đường gãy khúc mà các đoạn thẳng của nó nối các
điểm (x1 , m1 ),(x 2 , m2 ),...,(x n , mn ) trên mặt phẳng.
Đa giác tần suất là một đường gãy khúc mà các đoạn thẳng của nó nối các
mi
điểm (x1 ,f1 ),(x 2 ,f 2 ),...,(x n ,f n ) trên mặt phẳng. Trong đó f i .
n
Ví dụ 4.2. Vẽ đa giác tần suất của phân bố thực nghiệm cho ở bảng sau:
xi 17 19 20 22 24
64
mi 1 2 4 2 1
fi 0,1 0,2 0,4 0.2 0,1
fi
0.4
0.3
0.2
0.1
O xi
17 19 20 22 24
65
13 mi
12 d
11
10
9
8
7
6
5
4
3
2
1
O 5 10 15 20 25 30 35 xi
1 n 1 k
nhận giá trị cụ thể bằng: X x i hoặc X mi x i ( mi là các tần số tƣơng ứng
n i 1 n i 1
của xi).
Ví dụ 4.4. Cho bảng số liệu sau:
xi 35,6 35,9 36,1 36,2 36,6
ni 1 3 3 2 1
kê X cũng có kỳ vọng bằng kỳ vọng của đại lƣợng ngẫu nhiên gốc X, còn phƣơng
sai của nó nhỏ hơn n lần phƣơng sai của đại lƣợng ngẫu nhiên gốc X. Do đó các giá
trị có thể có của X ổn định xung quanh kỳ vọng toán a hơn các giá trị có thể có của X.
4.4.2. Phương sai mẫu
Định nghĩa 4.6
Cho mẫu ngẫu nhiên kích thước n được xây dựng từ đại lượng ngẫu nhiên
gốc X: Wx X 1 , X 2 ,..., X n . Phương sai mẫu là một thống kê, ký hiệu là S 2 và xác
1 n
Xi X 1 n
Xi X
2 2
S S 2
và S S
' '2
(4.5)
n i 1 n 1 i 1
4.4.3. Phương pháp tính các giá trị của các thống kê thông dụng X ; S2
Giả sử có mẫu ngẫu nhiên cụ thể: w x1 , x 2 ,..., x n .
Nếu tần số của các xi đều bằng 1 thì sử dụng cặp công thức:
1 n
X xi
n i 1
n n
(4.6)
S2 1 (x X) 2 1 x 2 (X) 2
n i 1
i
n i 1
i
67
Giải: Từ mẫu đã cho ta lập đƣợc bảng sau:
x X
2
X xi X i
6 (6 - 4)=2 4
5 1 1
1 -3 9
12 14
1 1 14 n 2 3 14
Ta có: X .12 4 S2 .14 S' 2 S . 7;
3 3 3 n 1 2 3
14
S 2.16; S' 7 2,65 ;
3
n i 1
i i
n i 1
Ví dụ 4.6. Gọi X là áp lực động mạch phổi thời tâm trƣơng ngƣời bình thƣờng.
Đo 30 ngƣời thu đƣợc kết quả sau:
Giá trị x i (mm Hg) 3 4 5 6 7 8
Số ngƣời mi 5 7 8 2 5 3
68
8 3 24 192
Ta có:
1 1
X 154 5,13 ; S2 866 5,132 2,55
30 30
30
S'2 .2,55 2,64 S' 2,64 1,62
29
4.4.4. Mẫu thu gọn. Phương pháp đổi biến
Trong thực tế, khi các giá trị x i rất gần nhau và các tần số mi rất lớn thì việc
sử dụng các công thức trên trở nên rất khó khăn. Ta thƣờng sử dụng mẫu thu gọn
bằng cách chia nhóm sau đây:
Giả sử từ đại lƣợng ngẫu nhiên X lấy ra một mẫu kích thƣớc n đƣợc xác
định cụ thể w x1 , x 2 ,..., x n . Ta phân chia các số liệu (n số liệu): x1 , x 2 ,..., x n
thành k khoảng (k < n). Các khoảng có độ dài bằng nhau (= d) và điểm giữa mỗi
n
khoảng là t i (i 1, 2,..., k) với tần số tƣơng ứng là m1 , m2 ,..., mk n i n . Gọi
i 1
ti t0
hi . Trong đó t 0 là một giá trị trong các t i (i 1, 2,..., k) sao cho ứng với nó
d
là tần số mi lớn nhất.
1 k d k
X
n
n t
i i t 0
n
nihi
i 1 i 1
Khi đó: 2 k
(4.8)
2
S2 d n h 2 1 n h
k
n i 1
i i
n i 1
i i
Ví dụ 4.7. Đo chiều cao của 1948 thanh niên tuổi 17, ta đƣợc 1948 số liệu
(tính bằng cm) từ 152 đến 175 đƣợc chia thành 8 khoảng cho ở bảng sau:
Khoảng [152,155) [155,158) [158,161) [161,164) [164,167) [167,170)
chiều cao [170,173) [173,176)
Số ngƣời 263 460 540 385 204 70 20
6
Khi đó:
d k 3
X t0
n i1
n i h i 159.5
1948
.127 159.7(cm)
d2 k
2
1 k 32 1
S n i h i2 n i h i
2
3813 (127)2 17.58
n i1 n i 1 1948 1948
Ví dụ 4.8. Để nghiên cứu trọng lƣợng trẻ sơ sinh trong một vùng, ngƣời ta
cân thử 6000 cháu, thu đƣợc số liệu sau đây:
Trọng 2500- 2600- 2700- 2800- 2900- 3000- 3100-
lƣợng 2600 2700 2800 2900 3000 3100 3200
Số
425 892 961 1533 1226 734 229
cháu
Tính trọng lƣợng trung bình và phƣơng sai trọng lƣợng trẻ sơ sinh ở vùng đó.
70
ti t0
Giải: Với số liệu đã cho ta có: d = 100, t 0 2850 , h i (i 1,7)
d
Lập bảng tính toán sau:
100
X 2800 (639) 2839,35(gam)
Khi đó: 6000
1002
639 24181,58
1
S2 14577
2
6000 6000
BÀI TẬP CHƢƠNG 4
Bài 1. Định lƣợng Protein dịch não tủy ngƣời bình thƣờng (đv: mg%) thu
đƣợc số liệu sau:
11 17 19 12 17 19 14 18 19 16 18 20
16 18 20 16 18 20 16 19 20 16 19 20
16 19 21 17 19 21 17 19 21 17 19 22
1. Hãy tính số trung bình và phƣơng sai của mẫu trên.
2. Vẽ đa giác tần suất của mẫu trên.
Bài 2. Gọi X là áp lực trung bình của động mạch phổi bệnh nhân hẹp hai lá
đơn thuần (đv: mmHg), nghiên cứu thu đƣợc số liệu sau:
xi 13 23 33 43 53 63 73 83 93 103
ni 5 20 27 24 25 23 15 10 4 2
71
2. Vẽ đa giác tần suất.
Bài 3. Đo chiều cao của 100 thanh niên từ 18 đếnn 20 tuổi (đv: cm) ở một
tỉnh A thu đƣợc số liệu sau:
166 163 165 175 165 166 162 165 175 154
155 167 163 167 168 160 168 163 167 160
168 175 166 167 165 172 159 170 165 159
165 172 160 168 155 167 156 163 165 175
155 167 176 159 170 157 165 175 163 167
166 168 156 175 163 165 163 167 174 170
160 168 163 167 169 163 166 155 167 165
169 159 170 170 174 168 175 165 172 178
164 175 163 165 160 165 175 155 167 168
182 155 157 163 169 163 167 162 160 164
1. Rút gọn số liệu bằng cách ghép khoảng.
2. Hãy tính số trung bình và phƣơng sai của mẫu trên.
3. Xây dựng tổ chức đồ.
Tài liệu tham khảo
[1] Đỗ Thị Hồng Nga, Đỗ Thị Phƣơng Quỳnh, Lê Thị Huyền My (2017), Xác suất
thống kê, NXB Đại học Thái Nguyên. (chƣơng 2 trang 83-191).
[2]. Nguyễn Cao Văn, Trần Thái Ninh (2008), Lý thuyết xác suất và thống kê toán,
NXB Thống kê.
[3]. Đặng Đức Hậu (2008), Xác suất thống kê, NXB Giáo dục.
[4]. Đào Hữu Hồ (2008), Xác suất thống kê, NXB ĐHQG Hà Nội.
[5]. Tống Đình Quỳ (2010), Giáo trình xác suất thống kê, NXB Bách Khoa Hà Nội.
[6]. Sheldon M. Ross, Introduction to Probability and Statistics for Engineers and
Scientists, Fourth Edition, Academic Press is an imprint of Elsevier, 2009.
72
Bài 5: ƯỚC LƯỢC CÁC THAM SỐ CỦA ĐẠI LƯỢNG NGẪU NHIÊN
* Giảng viên:
1. TS Đỗ Thị Phƣơng Quỳnh
2. Ths Đỗ Thị Hồng Nga
3. Ths Lê Thị Huyền My
Mục tiêu học tập
Kiến thức:
1. Vận dụng ƣớc lƣợng vào một số bài toán trong y học.
2. Vận dụng ƣớc lƣợng trong việc đƣa ra dự đoán về kết quả của một số vấn
đề
Kĩ năng:
3. Tìm đƣợc khoảng ƣớc lƣợng của một số tham số đặc trƣng của đại lƣợng
ngẫu nhiên.
Nếu dấu hiệu nghiên cứu trong tổng thể có thể xem nhƣ một đại lƣợng ngẫu
nhiên gốc X và giả sử bằng phân tích lý thuyết đã xác định đƣợc dạng phân phối
xác xuất của nó thì vấn đề xác định các tham số đặc trƣng của tổng thể sẽ đƣợc quy
về bài toán xác định các tham số đặc trƣng của quy luật phân phối xác suất xác định
đại lƣợng ngẫu nhiên gốc X.
Giả sử các tham số của đại lƣợng ngẫu nhiên cần nghiên cứu, ký hiệu: ,
nhƣ trung bình, phƣơng sai, tỷ lệ của tổng thể ( hay kỳ vọng, phƣơng sai, xác suất
của đại lƣợng ngẫu nhiên)... Song các tham số này thƣờng chƣa biết, vậy ta phải
ƣớc lƣợng (xác định một cách gần đúng) nhờ phƣơng pháp ƣớc lƣợng thông qua
mẫu. Vì là một hằng số nên có thể dùng một số nào đó để ƣớc lƣợng , ƣớc
lƣợng nhƣ vậy gọi là ƣớc lƣợng điểm. Ngoài ra còn dùng phƣơng pháp ƣớc lƣợng
bằng khoảng tin cậy, tức là chỉ ra một khoảng 1; 2 nào đó có thể chứa đƣợc θ
giá trị G có thể sai lệch rất lớn so với . Do đó: trung bình mẫu X , tần suất mẫu f ,
phƣơng sai điều chỉnh mẫu S theo thứ tự là ƣớc lƣợng không chệch của kỳ vọng
2
toán µ, xác suất p, phƣơng sai của đại lƣợng ngẫu nhiên gốc X.
2
74
khác. Do đó, để xét G có phải là ƣớc lƣợng hiệu quả của tham số hay không, ta
cần tìm đƣợc cận dƣới của phƣơng sai hàm ƣớc lƣợng.
5.1.3. Ước lượng vững
Thống kê G của mẫu đƣợc gọi là ƣớc lƣợng vững của tham số của đại
lƣợng ngẫu nhiên gốc X nếu G hội tụ theo xác suất đến khi n . Tức là:
lim P G 1 0
n
Chú ý: Trƣờng hợp G là ƣớc lƣợng không chệch của thì để tìm ƣớc lƣợng
vững, có thể dùng định lý sau: Nếu G là ước lượng không chệch của và
lim D(G) 0 thì G là ước lượng vững của .
n
Đại lƣợng ngẫu nhiên gốc X N , 2 . Có E X vậy X là ƣớc lƣợng
không chệch, hiệu quả và vững của trung bình tổng thể µ, do đó nếu chƣa biết µ có
X là đại lƣợng ngẫu nhiên phân phối theo qui luật nhị thức B(n,p), có
X
f E f p . Vậy tần số f là ƣớc lƣợng không chệch, hiệu quả và vững của tần
n
suất tổng thể ( p) do đó nếu p chƣa biết có thể dùng f để ƣớc lƣợng nó.
Chú ý: Phƣơng sai mẫu và phƣơng sai mẫu hiệu chỉnh chỉ khác nhau rất ít
n 2 n
bởi: S2 S , khi n đủ lớn thì 1 rất nhanh. Trong thực tế, khi n 30 ta
n 1 n 1
có thể lấy phƣơng sai mẫu S thay cho phƣơng sai tổng thể .
2 2
Ví dụ 5.1. Đo huyết áp tối đa ở bệnh nhân bị cao huyết áp (Đơn vị: mmHg),
đang điều trị tại khoa nội một bệnh viện, ngƣời ta thu đƣợc kết quả sau:
Huyết áp tối đa [140-160) [160-180) [180-200) [200-220) [220-240)
Số ngƣời 25 30 32 9 4
75
Gọi X là huyết áp tối đa của bệnh nhân bị cao huyết áp. Hãy chỉ ra ƣớc lƣợng
điểm cho E(X), D(X) và tỷ lệ (p) số bệnh nhân có huyết áp tối đa từ 180 trở lên.
Khi đó:
d k 20
X t0
n i 1
n i h i 190
100
(63) 177, 4(cm)
d2 k 202
2
1 k 1
S n i h i n i h i
2 2
155 (63) 2 461, 24
n i1 n i 1 100 100
45
f 0, 45 (45=32+9+4)
100
Vậy: Ƣớc lƣợng điểm cho E(X) là 177,4.
Ƣớc lƣợng điểm cho D(X) là 461,24.
Ƣớc lƣợng điểm cho p là 0,45.
Ví dụ 5.2. Để đánh giá tỷ lệ ngƣời mắc bệnh bƣớu cổ ở một vùng cao, ta
chọn ngẫu nhiên vài bản làng và điều tra số ngƣời mắc bệnh ở bản này. Kết quả
thấy trong số 264 ngƣời có 156 ngƣời mắc bệnh bƣớu cổ. Hỏi tỷ lệ mắc bệnh bƣớu
cổ ở vùng cao này là bao nhiêu. (Ta coi nhƣ tình hình mắc bệnh ở các bản khác
nhau trong vùng là nhƣ nhau)
76
Ta có f=156/246=0,59= 59%, ta ƣớc lƣợng tỷ lệ mắc bệnh thực sự của cả
vùng là 59%.
5.2. Ước lượng khoảng đối với kỳ vọng toán
Phƣơng pháp ƣớc lƣợng điểm ở trên có nhƣợc điểm cơ bản là khi kích thƣớc
mẫu nhỏ thì ƣớc lƣợng điểm tìm đƣợc có thể sai lệch nhiều so với tham số cần ƣớc
lƣợng, nghĩa là sai số của ƣớc lƣợng rất lớn. Ngoài ra, không thể đánh giá khả năng
mắc sai lầm khi ƣớc lƣợng bằng bao nhiêu. Do vậy, khi cỡ mẫu nhỏ, ngƣời ta dùng
phƣơng pháp ƣớc lƣợng bằng khoảng tin cậy. Nội dung của phƣơng pháp ƣớc lƣợng
khoảng cho tham số là: Từ một thống kê G nào đó của mẫu, xây dựng một
khoảng giá trị ngẫu nhiên 1; 2 sao cho với một xác suất cho trƣớc thì tham số
khoảng, của tham số nếu với xác suất 1 cho trước, 0 1 , thì tham số
Giả sử trong tổng thể đại lƣợng ngẫu nhiên gốc X phân phối theo quy luật
chuẩn N , 2 nhƣng chƣa biết tham số của nó. Để ƣớc lƣợng từ tổng thể ta
Chọn thống kê G U
X n trong đó X là trung bình mẫu.
Với độ tin cậy 1 cho trƣớc tham số của đại lƣợng ngẫu nhiên gốc X
sẽ nằm trong khoảng X U1 ; X U1 với 1 2 .
1 2
n n
Thật vậy Từ giả thiết X có phân phối chuẩn N , 2 kéo theo X có phân
2
phối chuẩn N , , khi đó U có phân phối chuẩn hóa N(0,1) . Với độ tin cậy
n
1 cho trƣớc, ta tìm đƣợc cặp giá trị 1 ; 2 sao cho: 1 2 , (Với:
P( U1
X n U1 ) 1 (Vì tính chất U U1 )
2
1 2 2
P(X U1 X
1
U1 ) 1 2
n n
Biểu thức cuối cùng cho biết tham số của đại lƣợng ngẫu nhiên gốc X sẽ
nằm trong khoảng: X U1 ; X U1 với độ tin cậy 1 .
1 2
n n
Nhận xét: X U1 ; X U1 chỉ cho ta một khoảng tin cậy tổng
1 2
n n
quát của . Với độ tin cậy 1 ta có vô số khoảng tin cậy tƣơng ứng vì có vô số
cách chọn 1 , 2 dẫn đến vô số U11 , U12 . Trong thực tế, ta thƣờng chỉ sử dụng
78
Nếu lấy 1 2 thì ta có khoảng tin cậy đối xứng của là:
2
X U ; X U (5.1)
n 1 2 n 1 2
Trong đó phân vị U đƣợc tra trong bảng giá trị phân vị chuẩn (Phụ lục 1).
1
2
Nếu kí hiệu U thì biểu thức của khoảng tin cậy đối xứng có dạng
n 1 2
X ; X , và đƣợc gọi là độ chính xác của ƣớc lƣợng. Nó phản ánh mức độ
sai lệch của trung bình mẫu so với trung bình tổng thể với xác suất 1 cho trƣớc.
Khoảng tin cậy bên phải (Ƣớc lƣợng giá trị tối tiểu của )
Nếu lấy 1 , 2 0 thì khoảng tin cậy của là:
(X U1 ; ) (5.2)
n
Khoảng tin cậy bên trái (Ƣớc lƣợng giá trị tối đa của )
Nếu lấy 1 0, 2 thì khoảng tin cậy của là:
(;X U1 ) (5.3)
n
Chú ý:
Với cùng độ tin cậy 1 hiển nhiên khoảng tin cậy nào ngắn hơn thì sẽ tốt
hơn. Trong trƣờng hợp này độ dài khoảng tin cậy sẽ là ngắn nhất khi và chỉ khi
khoảng tin cậy là đối xứng. Lúc đó độ dài khoảng tin cậy sẽ bằng hai lần độ chính
2
xác của ƣớc lƣợng và đƣợc xác định bằng công thức I 2 U
n 1 2
Ta nhận thấy nếu tăng kích thƣớc mẫu n lên và giữ nguyên độ tin cậy 1
cho trƣớc thì giảm đi tức độ chính xác của ƣớc lƣợng tăng lên. Còn nếu tăng độ
tin cậy 1 mà giữ nguyên kích thƣớc n của mẫu thì giá trị của phân vị chuẩn cũng
tăng lên theo do đó cũng tăng lên và làm cho độ chính xác của ƣớc lƣợng giảm đi.
79
Từ công thức độ dài khoảng tin cậy ta sẽ thu đƣợc công thức xác định kích
thƣớc mẫu tối thiểu n sao cho với độ tin cậy bằng 1 cho trƣớc độ dài khoảng tin
cậy không vƣợt quá giá trị I 0 cho trƣớc là:
42 2 2 2
N 2 U 1 2 U 1. (5.4)
I0 1
2 0 1 2
Ví dụ 5.3. Để xác định trọng lƣợng trung bình của các viên thuốc A, ngƣời ta
lấy ngẫu nhiên ra 100 viên và tìm đƣợc trọng lƣợng trung bình X 36,06mg với
2 0,282 . Hãy tìm khoảng tin cậy đối xứng của trọng lƣợng trung bình của các
viên thuốc với độ tin cậy 1 0,99 . Nếu giả thiết trọng lƣợng của các viên thuốc
tuân theo quy luật phân phối chuẩn.
Giải:
Đây là bài toán tìm khoảng tin cậy đối xứng của giá trị trung bình khi đã biết
0, 28
U 2,576 0,072 .
n 1 2 100
Vậy với độ tin cậy là 1 0,99 thì trọng lƣợng các viên thuốc nằm trong
khoảng (35,988 mg ; 36,132 mg).
Ví dụ 5.4. Đo sức bền chịu lực của một loại vật liệu làm răng giả ngƣời ta
thu đƣợc bộ số liệu nhƣ sau:
4500 6500 5000 5200 4800
4900 5125 6200 5375
Từ kinh nghiệm nghề nghiệp ngƣời ta cũng biết rằng sức bền đó có phân
phối chuẩn với độ lệch chuẩn 300 . Hãy xây dựng khoảng tin cậy đối xứng cho
sức bền trung bình của loại vật liệu trên với độ tin cậy 95% .
80
Giải: Ta có 300; n 9; U U0,975 1,96 .
1
2
Theo bảng số liệu ta tính đƣợc sức bền trung bình của các vật liệu trên là
1 9
X x i 5288,89 .
9 i 1
Vậy khoảng tin cậy đối xứng cho sức bền chịu lực của vật liệu trên là:
Với độ tin cậy 1 0,95 , hãy tìm khoảng tin cậy đối xứng của trọng lƣợng
trung bình của loại sản phẩm nói trên?
Giải: Gọi X là "Trọng lƣợng sản phẩm". X có phân phối chuẩn N(, 2 ) . Đã
biết 1 (gam) . Ta cần chỉ ra khoảng tin cậy đối xứng của với độ tin cậy
1 0,95 .
1
Ta có: 1,96 0,392 .
25
Vậy với độ tin cậy 0,95 khoảng tin cậy đối xứng của µ (tức là trọng lƣợng
trung bình của sản phẩm trên) là: X ;X (19,248;20,032) .
Ví dụ 5.6.
Trong ví dụ 2.5 nếu yêu cầu độ chính xác của ƣớc lƣợng chỉ là 0,1 và giữ
nguyên độ tin cậy 1 0,95 thì cỡ mẫu cần phải xác định là bao nhiêu?
Giải: Với 0 0,1 và 1 0,95; U U0,975 1,96
1
2
81
2
Theo công thức N 2 U 2 1 ta có:
1 2
1
N 2 1,962 1 384,16 1 385
0,1
Vậy cần phải xác định một mẫu có kích thƣớc tối thiểu bằng 385. Tức là để
sai số cho phép giảm từ 0,392 về 0,1 thì cỡ mẫu phải tăng từ 25 lên ít nhất 385.
5.2.2.2. Đại lượng ngẫu nhiên chưa biết phương sai mà kích thước mẫu n 30
S' n 1 S' n 1
sẽ nằm trong khoảng X t1 ; X t1 với 1 2
1 2
n n
1 n
Thật vậy ta có S2
n 1 i 1
(Xi ) 2 .
(n 1)S2 Xi
n 2
Xét Vn 1
là đại lƣợng ngẫu nhiên có phân phối
i 1
2
Khi đó thống kê G T
U
X n
phân phối theo quy luật
Vn 1 S'
n 1
Student với n-1 bậc tự do.
Với độ tin cậy 1 cho trƣớc, ta có thể tìm đƣợc hai giá trị phân vị
1
Student là t1n và t n 1 thỏa mãn các điều kiện P(T t n 1 ) 2 và P(T t1n
1 2 2
1
) 1
1
1
(do P(T t1n ) 1 ).
1
82
Khi đó: P( t n 1 T t1n
2
1
) 1 (1 2 )
1
1
P( t1n
X n 1
t1n ) 1 ( Vì tính chất t n 1 t1n
1
)
2
S' 1 2 2
S' n 1 S' n 1
P(X t1 X
1
t1 ) 1 2
n n
Biểu thức cuối cùng cho biết tham số của đại lƣợng ngẫu nhiên gốc X sẽ
S' n 1
t1 với độ tin cậy 1 .
S' n 1
nằm trong khoảng: X t1 ; X
1 2
n n
Từ khoảng tin cậy tổng quát ta xây dựng công thức khoảng tin cậy trong các
trƣờng hợp đặc biệt sau:
Khoảng tin cậy đối xứng
Nếu lấy 1 2 ta có khoảng tin cậy đối xứng của là:
2
S' n 1 S' n 1
X t ; X t (5.5)
n 1 2 n 1 2
S' n 1
t gọi là độ chính xác của ƣớc lƣợng.
n 1 2
Khoảng tin cậy bên phải (Ƣớc lƣợng giá trị tối tiểu của )
S' n 1
Nếu lấy 1 , 2 0 thì khoảng tin cậy của là: X t1 ;
n
(5.6)
Khoảng tin cậy bên trái (Ƣớc lƣợng giá trị tối đa của )
S' n 1
Nếu lấy 1 0, 2 thì khoảng tin cậy của là: ;X t1 (5.7)
n
Công thức xác định cỡ mẫu tối thiểu
Với độ tin cậy 1 cho trƣớc và sai số cho phép không vƣợt quá số 0
cho trƣớc, khi đó cỡ mẫu tối thiểu đƣợc tính bởi công thức:
S2 n 1 2
N 2 t1 /2 1 . (5.8)
0
83
Trong đó t n 1 , t1n
1
đƣợc xác định từ bảng phân phối Student với (n -1) bậc
1
2
10,16 10,16
30,7 2, 262;30,7 2, 262 23, 43;37,97
10 10
Khi đó khoảng tin cậy của trung bình Urê máu với mức ý nghĩa 0,01 hay
với độ tin cậy 99% là:
10,16 10,16
30,7 3, 25;30,7 3, 25 20, 25;41,15
10 10
84
Ví dụ 5.8. Để ƣớc lƣợng chi phí trung bình cho một loại phẫu thuật ở một
khoa ngoại, ngƣời ta tiến hành kiểm tra thử chi phí của 25 ca phẫu cùng loại thu
đƣợc số liệu sau:
Số tiền ( triệu đồng) 9,7 9,9 10,1 10,3 10,5 10,7
Số ca tƣơng ứng (ni) 2 4 10 5 3 1
Với độ tin cậy 95%, hãy ƣớc lƣợng chi phí trung bình, chi phí trung bình tối
đa, chi phí trung bình tối thiểu cho một ca phẫu thuật nói trên ở thời điểm đang xét.
Cho biết số tiền chi phí là đại lƣợng ngẫu nhiên tuân theo quy luật chuẩn.
Giải: Gọi X là chi phí cho phẫu thuật. X : N(, 2 ) trong đó chƣa biết,
2
cần phải ƣớc lƣợng µ dựa trên một mẫu có kích thƣớc n 25 30 .
25 6 38
d2 6 0, 2
2
1 6 2
1 2
S i i i i 38 (6) 0, 061
2 2
n 1 i 1
n h n h
n i 1 24 25
S 0,061 0,247
85
Tra bảng Student với n 25 ta có t 0,975
24
2,064; t 0,95
24
1,711
Vậy với độ tin cậy 1 0,95 qua mẫu nói trên, chi phí trung bình là:
S' n 1 S' n 1
X t ; X
1
t (10,048;10, 252)
1
n 2 n 2
U
X n xấp xỉ phân phối chuẩn hóa. Với độ tin cậy 1 cho trƣớc, ta
S'
tìm đƣợc hai phân vị chuẩn là U11 và U 2 thỏa mãn các điều kiện P(U U ) 2 2
và P(U U1 ) 1 . ( 1 2 ).
1
P( U1
X n U1 ) 1 (Theo tính chất U U1 )
2
S 1 2 2
S S
P(X U1 X
1
U1 ) 1
2
n n
Biểu thức cuối cùng cho biết:
Khoảng tin cậy của với độ tin cậy 1 là:
S S
X U1 ; X U1 (5.9)
1 2
n n
Khoảng tin cậy đối xứng
Nếu lấy 1 2 thì ta có khoảng tin cậy đối xứng của là:
2
86
S S
X U ; X U (5.10)
n 1 2 n 1 2
S
U là độ chính xác của ƣớc lƣợng.
n 1 2
Khoảng tin cậy bên phải (Ƣớc lƣợng giá trị tối tiểu của )
S
Nếu lấy 1 , 2 0 thì khoảng tin cậy của là: X U1 ; (5.11)
n
Khoảng tin cậy bên trái (Ƣớc lƣợng giá trị tối đa của )
S
Nếu lấy 1 0, 2 thì khoảng tin cậy của là: ;X U1 (5.12)
n
Công thức xác định cỡ mẫu tối thiểu
Với độ tin cậy 1 cho trƣớc và sai số cho phép không vƣợt quá số 0
cho trƣớc, khi đó cỡ mẫu tối thiểu đƣợc tính bởi công thức:
S2
N 2 U2 1. (5.13)
0 1 2
Trong đó U , U1 đƣợc tra trong bảng giá trị phân vị chuẩn (Phụ lục 3).
1
2
Ví dụ 5.9. Điều tra glucoza máu của 100 ngƣời bình thƣờng, thu đƣợc 100 số
liệu (đơn vị mg%) đƣợc thể hiện trong bảng sau:
Phạm vi khoảng [65,75) [75,85) [85,95) [95,105) [105,115) [115,125)
Số ngƣời 1 7 24 35 25 8
Với độ tin cậy 95%, hãy ƣớc lƣợng glucoza máu trung bình của ngƣời bình
thƣờng, glucoza máu trung bình tối đa, glucoza máu trung bình tối thiểu. Cho biết
glucoza máu của ngƣời bình thƣờng là đại lƣợng ngẫu nhiên tuân theo quy luật phân
phối chuẩn.
Giải: Gọi X là glucoza máu của ngƣời bình thƣờng. X : N(, 2 ) trong đó
2 chƣa biết, cần phải ƣớc lƣợng µ dựa trên một mẫu có kích thƣớc n 100 30 .
100 0 118
d2 6 10
2
1 6 2
1
S n i h i n i h i 118 (0) 2 119,19
2 2
n 1 i1 n i 1 99 100
S 119,19 10,92
Tra bảng phân vị chuẩn (Phụ lục 3) U0,975 1,96 ; U0,95 1,645
Vậy với độ tin cậy 1 0,95 khoảng tin cậy đối xứng của glucoza máu
trung bình của ngƣời bình thƣờng là:
S S
X U ; X U (97,86;102,14)
n 1 2 n 1 2
Tƣơng tự, glucoza máu trung bình tối đa của ngƣời bình thƣờng sẽ là:
S
;X U1 (;101,8)
n
Tƣơng tự, glucoza máu trung bình tối thiểu của ngƣời bình thƣờng là:
S
X U1 ; (98, 2; )
n
5.3. Ƣớc lƣợng khoảng đối với tỷ lệ hay xác suất
Giả sử trong tổng thể kích thƣớc n có m phần tử mang dấu hiệu nghiên cứu.
Nếu lấy ngẫu nhiên ra một phần tử và gọi X là số phần tử mang dấu hiệu nghiên
88
cứu đƣợc lấy ra thì X là đại lƣợng ngẫu nhiên tuân theo quy luật không – một, trong
đó p m / n là xác suất để lấy ngẫu nhiên một phần tử thì đƣợc phần tử mang dấu
hiệu nghiên cứu. Ta đã biết trong quy luật không – một thì E(X) p và
D(X) p(1 p) / n , nhƣ vậy ƣớc lƣợng của kỳ vọng toán của quy luật này cũng
chính là ƣớc lƣợng xác suất p, mà p lại là tần số của tổng thể, phản ánh cơ cấu của
tổng thể theo dấu hiệu nghiên cứu đó.
Khi kích thƣớc mẫu n đủ lớn ( n 100 ) thì ta có thể chọn thống kê
f p
GU n
f 1 f
Thống kê này cũng phân phối xấp xỉ phân phối chuẩn hóa N(0,1). Với độ tin
cậy 1 cho trƣớc, ta tìm đƣợc hai phân vị chuẩn U11 và U 2 thỏa mãn các điều
f p
P( U1 n U1 ) 1 ( tính chất U U1 )
f 1 f
2 1
f 1 f f 1 f
P(f U1 p f U1 ) 1
n 1
n 1
f 1 f f 1 f
f U1 ; f U1
n 1
n 2
Khoảng tin cậy đối xứng
Nếu lấy 1 2 thì ta có khoảng tin cậy đối xứng của p là:
2
f 1 f f 1 f
f U ;f U (5.14)
n 1 n 1
2 2
f 1 f
U là độ chính xác của ƣớc lƣợng.
n 1
2
89
Khoảng tin cậy bên phải (Ƣớc lƣợng giá trị tối tiểu của p )
f 1 f
Nếu lấy 1 , 2 0 thì khoảng tin cậy của p là: f U1 ; (5.15)
n
Khoảng tin cậy bên trái (Ƣớc lƣợng giá trị tối đa của p)
f 1 f
Nếu lấy 1 0, 2 thì khoảng tin cậy của p là: ;f U1 (5.16)
n
Công thức xác định cỡ mẫu tối thiểu
Với độ tin cậy 1 cho trƣớc và sai số cho phép không vƣợt quá số 0
cho trƣớc, khi đó cỡ mẫu tối thiểu đƣợc tính bởi công thức:
f 1 f 2
N U 1. (5.17)
2
0
1
2
Trong đó U , U1 đƣợc tra trong bảng giá trị phân vị chuẩn (Phụ lục 1).
1
2
Chú ý: Khi áp dụng các công thức trên, để kết quả đƣợc chính xác ta cần có
n đủ lớn, f không quá nhỏ hoặc quá lớn. Thực tế ta áp dụng khi:
n 100; 0,1 f 0,9; nf 10; n(1 f ) 10 .
Ví dụ 5.10. Để xác định tỷ lệ thành công trong xét nghiệm bệnh A, ngƣời ta
làm thử 300 xét nghiệm, thấy có 276 xét nghiệm đạt yêu cầu.
1. Với độ tin cậy 95% ta có thể nói tỷ lệ thành công trong xét nghiệm bệnh A
là bao nhiêu?
2. Ƣớc lƣợng tỷ lệ tối đa xét nghiệm đạt yêu cầu với độ tin cậy 95%.
3. Cần phải làm thêm bao nhiêu xét nghiệm để với độ tin cậy 0,95 thì khoảng
ƣớc lƣợng tỷ lệ xét nghiệm đạt yêu cầu của mẫu đó có độ chính xác không vƣợt quá
0,01?
Giải:
Gọi p là tỷ lệ xét nghiệm đạt yêu cầu trong xét nghiệm bệnh A.
f p
Chọn thống kê G U n
f 1 f
276
Ta có f 0,92 . U U0,975 1,96 ; U1 U0,95 1,645
300 1
2
90
1. Với độ tin cậy 95% ta khẳng định tỷ lệ thành công của xét nghiệm bệnh A
thuộc vào khoảng:
f 1 f f 1 f
f U ; f U
n 1
n 1
2 2
f 1 f 2 0,92(1 0,92)
N 1 2827, 42 1 2828
2
U 1 N 1,96
2 2
0
1
2
0,01
Vậy cần phải làm thêm ít nhất 2528 xét nghiệm nữa.
Ví dụ 5.11. Điều tra tình hình mắc bệnh bƣớu cổ ở một vùng dân cƣ trên một
mẫu gồm 500 ngƣời (nữ tuổi từ 30 đến 50), thấy có 60 ngƣời mắc bệnh. Nếu cho
rằng độ sai khác giữa tỷ lệ không bị mắc bệnh thực tế với tỷ lệ thu đƣợc ở mẫu
không vƣợt qua 3% thì độ tin cậy của ƣớc lƣợng phải bằng bao nhiêu?
Giải: Gọi p là tỷ lệ không bị mắc bệnh bƣớu cổ của dân cƣ vùng đang xét.
f p
Chọn thống kê G U n
f 1 f
500 60
Tỷ lệ không bị mắc bệnh ở mẫu là: f 0,88
500
Theo giả thiết, sai số cho phép là 0,03 .
Ta có:
Khoảng tin cậy đối xứng của p ứng với độ tin cậy 0,9 là:
f 1 f f 1 f
f U1 /2 p f U1 /2 .
n n
Khi đó:
0, 2.0,8 0, 2.0,8
0, 2 .1,645 p 0, 2 .1,645 0,167 p 0,233 .
400 400
2000
Từ: p , suy ra: (8583 < N < 11976).
N
Vậy với độ tin cậy 0,9, số cá trong hồ có khoảng từ 8583 đến 11976 con.
BÀI TẬP BÀI 5
Bài 1. Kiểm tra ngẫu nhiên 50 lô thuốc từ một lô thuốc mới sản xuất thấy có
3 lô thuốc hỏng. Vậy có thể cho rằng tỷ lệ lô thuốc hỏng của lô thuốc mới sản xuất
đó bằng bao nhiêu nếu dùng hàm ƣớc lƣợng.
92
Bài 2. Điều tra số con trai của 1400 gia đình có 4 con thu đƣợc kết quả nhƣ
sau:
Số con trai 0 1 2 3 4
Số gia đình 111 367 376 428 118
1. Hãy ƣớc lƣợng số con trai trung bình của các gia đình có 4 con với độ tin
cậy 95% và 99%.
2. Hãy ƣớc lƣợng tỷ lệ gia đình có ít nhất 3 con trai với độ tin cậy 95%.
Bài 3. Điều tra lƣợng Protein huyết thanh ngƣời bình thƣờng. Điện di 17 mẫu
của 17 ngƣời thu đƣợc kết quả sau:
Giá trị (g/l) 6,9 7,2 7,6 8,2 8,5
Số ngƣời 2 3 5 6 1
1. Với độ tin cậy 95%, hãy ƣớc lƣợng lƣợng Protein huyết thanh trung bình
của ngƣời bình thƣờng, lƣợng Protein huyết thanh trung bình tối đa, lƣợng Protein
huyết thanh trung bình tối thiểu.
2. Cần phải điện di thêm bao nhiêu mẫu để với độ tin cậy 0,95 thì khoảng
ƣớc lƣợng lƣợng Protein huyết thanh ngƣời bình thƣờng của mẫu đó có độ chính
xác không vƣợt quá 0,2?
Cho biết lƣợng Protein huyết thanh của ngƣời bình thƣờng là đại lƣợng ngẫu
nhiên tuân theo quy luật phân phối chuẩn.
Bài 4. Để ƣớc lƣợng trọng lƣợng trung bình của một viên thuốc A. Qua thực
tế sản xuất, tiến hành kiểm tra ngẫu nhiên ta thu đƣợc số liệu sau:
Trọng lƣợng (mg) 4,5- 5 5-5,5 5,5- 6 6- 6,5 6,5- 7 7- 7,5
Số viên thuốc 10 24 40 27 17 3
1. Với độ tin cậy 95%, hãy tìm khoảng tin cậy đối xứng của trọng lƣợng
trung bình của viên thuốc A. Cho biết trọng lƣợng trung bình của viên thuốc A là
đại lƣợng ngẫu nhiên có phân phối chuẩn.
2. Hãy ƣớc lƣợng số viên thuốc có trọng lƣợng từ 5,5 đến 6,5 (mg) với độ tin
cậy 95%.
Tài liệu tham khảo
93
[1] Đỗ Thị Hồng Nga, Đỗ Thị Phƣơng Quỳnh, Lê Thị Huyền My (2017), Xác suất
thống kê, NXB Đại học Thái Nguyên. (chƣơng 1trang 7-82)
[2]. Nguyễn Cao Văn, Trần Thái Ninh (2008), Lý thuyết xác suất và thống kê toán,
NXB Thống kê.
[3]. Đặng Đức Hậu (2008), Xác suất thống kê, NXB Giáo dục.
[4]. Đào Hữu Hồ (2008), Xác suất thống kê, NXB ĐHQG Hà Nội.
[5]. Tống Đình Quỳ (2010), Giáo trình xác suất thống kê, NXB Bách Khoa Hà Nội.
[6]. Sheldon M. Ross, Introduction to Probability and Statistics for Engineers and
Scientists, Fourth Edition, Academic Press is an imprint of Elsevier, 2009.
94
Bài 6: KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ
* Giảng viên:
1. TS Đỗ Thị Phƣơng Quỳnh
2.Ths Đỗ Thị Hồng Nga
3. Ths Lê Thị Huyền My
Kiến thức:
1. Phân tích đƣợc các bƣớc của bài toán kiểm định giả thiết đại lƣợng ngẫu
nhiên phân phối chuẩn.
2. Vận dụng kiểm định để đƣa ra một số kết luận có cơ trong y học để có thể
phục vụ nghiên cứu y học.
Kĩ năng:
3. Giải đƣợc bài toán kiểm định trong tình huống cụ thể.
Trong chƣơng này chúng ta sẽ giải quyết bài toán dạng nhƣ sau
Giả sử ta có hai giả thiết (hai khả năng) về một vấn đề nào đó, chẳng hạn:
+ Có ý kiến cho rằng tham số ẩn của phân phối nào nhận giá trị 0 , nhƣng
lại có ý kiến cho rằng nhận giá trị 1 .
+ Có ý kiến cho rằng việc điều trị lần trƣớc có ảnh hƣởng đến kết quả điều trị
lần này, nhƣng lại có ý kiến cho rằng không ảnh hƣởng.
+ Tỷ lệ mắc bệnh của các địa phƣơng có nhƣ nhau không? Tỷ lệ mắc bệnh có
phụ thuộc vào yếu tố nào không (nhƣ giới tính, nghề nghiệp...)?
Vấn đề đặt ra là ta phải chọn một trong hai giả thiết đặt ra. Nói cách khác là
ta chọn giả thiết nào để khả năng đúng là cao hơn, khả năng sai là thấp hơn. Để cho
tiện ta gọi một trong hai giả thiết đặt ra là giả thiết H, còn giả thiết kia là đối giả
thiết K. (Hoặc có thể gọi giả thiết là H 0 , đối thiết là H1 )
Nếu giả sử cần nghiên cứu tham số nào đó của đại lƣợng ngẫu nhiên và có
cơ sở nào đó để nêu giả thiết 0 . Khi đó cặp giả thiết và đối thiết sẽ là cặp:
H : 0 ; K : 0 ; hoặc H : 0 ; K : 0 hoặc H : 0 ; K : 0 .
Để giải quyết bài toán trên, thông tin duy nhất mà chúng ta có là một mẫu
ngẫu nhiên. Vận dụng các kết quả của lý thuyết xác suất ta sẽ tìm một miền bác bỏ
95
W , sao cho đối với mẫu ta tính đƣợc Gqs G(X1 ,X2 ,...,Xn ) W thì ta bác bỏ
giả thiết H, còn khi Gqs G(X1 ,X2 ,...,Xn ) W thì ta chấp nhận H cho đến khi có
thông tin mới. Khi bác bỏ hay chấp nhận giả thiết H chúng ta có thể mắc phải 2 loại
sai lầm sau:
Sai lầm loại 1: Ta bác bỏ H nhƣng thực tế H đúng. Ta thấy xác suất mắc
phải sai lầm loại này đúng bằng mức ý nghĩa .
Sai lầm loại 2: Ta chấp nhận H nhƣng thực tế H sai. Giả sử xác suất mắc sai
lầm loại 2 là : P(G W / K) , khi đó biến cố không mắc sai lầm loại 2 là
G W / K với xác suất P(G W / K) 1 . Xác suất 1 đƣợc gọi là lực
kiểm định.
Ta thấy sai lầm loại 1 và loại 2 là mâu thuẫn nhau, tức là với một mẫu kích
thƣớc xác định không thể cùng một lúc giảm tối thiểu cả hai sai lầm loại 1 và 2 nói
trên, do đó thông thƣờng ta cho trƣớc giới hạn trên của xác suất sai lầm loại 1, kí
hiệu là , mức ý nghĩa thƣờng nhỏ ( = 0,01; 0,05; 0,1). trong vô số các miền
bác bỏ W ta sẽ tìm miền W sao cho khả năng mắc sai lầm loại 2 đạt cực tiểu.
Miền bác bỏ nhƣ vậy gọi là miền bác bỏ “tốt nhất” với mức ý nghĩa và kích
thƣớc mẫu n hoàn toàn xác định.
6.1. Kiểm định giả thiết về kỳ vọng toán của đại lượng ngẫu nhiên có phân phối
chuẩn
Giả sử đại lƣợng ngẫu nhiên gốc X phân phối theo quy luật chuẩn N(; 2 )
với phƣơng sai đã biết nhƣng chƣa biết kỳ vọng toán . Nếu có cơ sở ta đƣa ra
2
giả thiết thống kê H : 0 . Để kiểm định giả thiết trên từ tổng thể lập mẫu kích
Vì đã biết phƣơng sai của đại lƣợng ngẫu nhiên gốc X nên tiêu chuẩn
2
GU
X
0 n
Nếu giả thiết H đúng thì ta có:
96
U
X
0 n
X n
Ta đã biết U có phân phối N(0,1).
Nếu cho trƣớc mức ý nghĩa thì tuỳ vào dạng của đối thiết K miền bác bỏ
đƣợc xây dựng theo các trƣờng hợp sau:
a) H : 0 ; K : 0 . Lúc đó với cho trƣớc có thể tìm đƣợc giá trị
phân vị chuẩn U1 sao cho:
P(G W / H) P(U U )
P(U U1 )
P(U U1 )
Ta thu đƣợc miền bác bỏ bên phải W đƣợc xác định bằng biểu thức:
W U
X 0 n
; U U1 (6.1)
b) H : 0 ; K : 0 . Lúc đó với mức ý nghĩa cho trƣớc tìm đƣợc giá
trị tới hạn chuẩn U sao cho:
P(G W / H) P(U U ) P(U U1 )
Ta thu đƣợc miền bác bỏ bên trái W đƣợc xác định bằng biểu thức:
W U
X 0 n
; U U1 (6.2)
c) H : 0 ; K : 0 . Lúc đó với mức ý nghĩa cho trƣớc có thể tìm
đƣợc hai giá trị tới hạn chuẩn U1 2 và U 2 sao cho:
P( U U1 2 ) .
Ta thu đƣợc miền bác bỏ hai phía đƣợc xác định bằng biểu thức:
W U
X 0 n
; U u1 2 (6.3)
97
Các bƣớc của bài toán kiểm định đƣợc tiến hành nhƣ sau:
Lập cặp giả thiết, đối thiết phù hợp với yêu cầu của đề bài.
Từ tổng thể lấy ra mẫu cụ thể w x1 , x 2 ,..., x n và tính giá trị quan sát tiêu
U qs
X
0 n
(6.4)
Ví dụ 6.1. Từ một đám đông nào đó có phân phối chuẩn với 5, 2 lấy một
mẫu cỡ n =100, đã tính đƣợc X 27, 26 . Hãy kiểm định cặp giả thiết thống kê
H0 : 26; H1 : 26 ở mức ý nghĩa 0,05 .
98
Khi đó U 2, 42 2,58 , không có cơ sở bác bỏ H 0 , nhƣng khi đó khả năng
mắc sai lầm loại II tăng lên ( H 0 là sai mà ta lại công nhận). Muốn có kết luận tốt
hơn ta phải tiếp tục làm thí nghiệm.
GT
X 0 n
S
Nếu giả thiết H đúng thì ta có:
T
X
0 n
X n
S S
Ta đã biết T có phân phối Student T(n-1).
Nếu cho trƣớc mức ý nghĩa thì tuỳ thuộc vào dạng của đối thiết K miền
bác bỏ đƣợc xây dựng theo các trƣờng hợp sau:
a) H : 0 ; K : 0 . Lúc đó với cho trƣớc có thể tìm đƣợc giá trị
1
phân vị chuẩn t1n sao cho:
1
P(G W / H) P(T t1n )
Ta thu đƣợc miền bác bỏ bên phải W đƣợc xác định bằng biểu thức:
W T
X 0 n
;T t n 1
1 (6.5)
S
b) H : 0 ; K : 0 . Lúc đó với mức ý nghĩa cho trƣớc tìm đƣợc giá
n 1
trị tới hạn chuẩn t sao cho:
W T
X 0 n
1
;T t1n (6.6)
S
99
c) H : 0 ; K : 0 . Lúc đó với mức ý nghĩa cho trƣớc có thể tìm
1 n 1
đƣợc hai giá trị tới hạn chuẩn t1n /2 và t /2 sao cho:
1 n 1
P(T t1n /2 ) P(T t1 /2 )
1
P( T t1n /2 ) .
Ta thu đƣợc miền bác bỏ hai phía đƣợc xác định bằng biểu thức:
W T
X 0 n
;T t n 1
1 /2 (6.7)
Các bƣớc của bài toán kiểm định đƣợc tiến hành nhƣ sau:
Lập cặp giả thiết, đối thiết phù hợp với yêu cầu của đề bài.
Từ tổng thể lấy ra mẫu cụ thể w x1 , x 2 ,..., x n và tính giá trị quan sát tiêu
Tqs
X 0 n
(6.8)
S
1 n 1
Tra bảng Student: t1n /2 và t /2 .
Với mức ý nghĩa 0,01 hãy kết luận về điều nghi ngờ nói trên.
Giải: Gọi X là hàm lƣợng Vitamin B12 trong thuốc tiêm. Theo giả thiết X có
phân phối chuẩn N(; 2 ) .
Xét giả thiết H : 200 với đối giả thiết K : 200 .
100
Với n 25 30 ta chọn thống kê T
X n
.
S
xi mi hi mi h i mi h i2
185 2 -3 -6 18
190 4 -2 -8 16
195 6 -1 -6 6
200 9 0 0 0
205 3 1 3 3
210 1 2 2 4
n 25 14 47
Tta có:
5
X 200 (14) 197, 2
25
52 1 2
S2 47 14 40, 79 S 6,386
24 25
Ta có: Tqs
197, 2 200 25
2,192
6,386
Với 0,01 miền bác bỏ bên trái W đƣợc xác định bằng biểu thức:
W T; T t 0,99
24
T; T 2, 492
Ta thấy Tqs W , vậy không có cơ sở bác bỏ H tức là không có cơ sở để
khẳng định thuốc tiêm của cơ sở này không có đủ hàm lƣợng Vitamin B12 nhƣ quy
định với mức ý nghĩa 0,01 .
Trƣờng hợp 2: Mẫu có kích thƣớc n 30
Trong trƣờng hợp này do mẫu có kích thƣớc lớn nên thống kê
GT
X n
xấp xỉ phân phối chuẩn hóa, do đó ta áp dụng nhƣ trƣờng hợp
S
mục 7.1.1 trong bài này và thay bằng S .
2 2
101
Ví dụ 6.3. Trọng lƣợng trung bình của một viên thuốc A là 6 mg. Qua thực tế
sản xuất, tiến hành kiểm tra ngẫu nhiên ta thu đƣợc số liệu sau:
Trọng lƣợng (mg) 3 4 5 6 7 8
Số sản phẩm (ni) 10 22 22 30 20 17
Hãy kết luận về tình hình sản xuất với mức ý nghĩa 5%.
Giải: Gọi X là trọng lƣợng trung bình của viên thuốc A .
Xét giả thiết H : 6 với đối giả thiết K : 6 .
xi mi mi x i mi x i2
3 10 30 90
4 22 88 352
5 22 110 550
6 30 180 1080
7 20 140 980
8 17 136 1088
Ta có:
1
X 684 5, 653
121
1
S2 4140 121 5, 6532 2, 277 S 1,509
120
Ta có: Uqs
5,653 6 121
2,529
1,509
102
Có Uqs W ta bác bỏ giả thiết. Điều đó có nghĩa là tình hình sản xuất
P(G W / K) P(
X
0 n
U1 ) P(
X 0 n
1 n n
U1 1 )
P(
X 1 n
U1
1 0 n
)
P(U U1
0 1 n
) (6.10)
Từ đó ta có công thức chung để tìm xác suất mắc sai lầm loại hai khi miền
bác bỏ 1 phía nhƣ sau:
0 1 n
P(U U1 ) (7.11)
Nếu miền bác bỏ hai phía thì đƣợc xác định bằng công thức:
0 1 n
P(U U ) (6.12)
1
2
Từ đó suy ra giá trị của lực kiểm định 1 .
103
Chú ý: Trong trƣờng hợp không biết ta thay bằng S và trong trƣờng
1 n 1
hợp mẫu nhỏ U1 , U
thay bằng t1n /2 , t /2 .
1
2
Ví dụ 6.4. Gọi X là chiều cao nam thanh niên (cm). Giả sử X có quy luật
phân phối chuẩn N(158,5;52 ) . Sau 10 năm đo chiều cao 270 nam thanh niên đƣợc
Ta thấy Uqs W , vậy ta bác bỏ giả thiết 162 , chấp nhận đối thiết
158,5 Nghĩa là sau 10 năm chiều cao trung bình của nam thanh tăng lên.
2. Giả sử chiều cao trung bình thực của nam thanh nên sau 10 năm bằng 160,
ta có:
104
Giả sử có hai tổng thể nghiên cứu trong đó các đại lƣợng ngẫu nhiên X1 và
X 2 cùng có phân phối chuẩn với các kỳ vọng toán 1 , 2 và các phƣơng sai 12 , 22
. Nếu 1 , 2 chƣa biết nhƣng có cơ sở để giả thiết chúng bằng nhau ta đƣa ra giả
thiết thống kê H : 1 2 .
Để kiểm định giả thiết trên ta xét một số trƣờng hợp sau:
6.2.1. Các đại lượng ngẫu nhiên đã biết các phương sai 12 ; 22
Từ hai tổng thể trên có thể rút ra đƣợc 2 mẫu độc lập kích thƣớc n1;n 2 :
W1 X11 ,X12 ,...,X1n 1
W2 X 21 ,X 22 ,...,X 2n 2
X1 X 2 1 2
Thống kê để kiểm định là: G U
12 22
n1 n 2
Nếu giả thiết H đúng thì ta có:
X1 X 2
U
12 22
n1 n2
U phân phối N(0,1).
Với mức ý nghĩa cho trƣớc và với phƣơng pháp xây dựng giống nhƣ đã
làm ở mục 7.1 bài này ta xây dựng đƣợc các miền bác bỏ W tƣơng ứng với các
dạng của đối thiết K nhƣ sau:
a) H : 1 2 ; K : 1 2 . Miền bác bỏ bên phải: W U;U U1
Các bƣớc của bài toán kiểm định đƣợc tiến hành nhƣ sau:
Lập cặp giả thiết, đối thiết phù hợp với yêu cầu của đề bài.
105
Từ tổng thể lấy ra hai mẫu cụ thể w1 x11 , x12 ,..., x1n , w 2 x 21 , x 22 ,..., x 2n
1 2
1 n 1 n
và tính các trung bình mẫu cụ thể: x1 x1i và x 2 x 2i
1 2
n1 i 1 n 2 i 1
Khi đó giá trị quan sát tiêu chuẩn kiểm định:
x1 x 2
U qs (6.13)
12 22
n1 n 2
Ví dụ 6.5.
Tại một xí nghiệp gia công thuốc viên ngƣời ta xây dựng 2 phƣơng án gia
công cùng một loại thuốc. Để đánh giá xem chi phí trung bình về nguyên liệu theo
hai phƣơng án đó có khác nhau hay không ngƣời ta tiến hành sản xuất thử và thu
đƣợc kết quả nhƣ sau (đv: nghìn đồng/ viên):
Phƣơng án 1: 2,5 3,2 3,5 3,8 3,5
Phƣơng án 2: 2,0 2,7 2,5 2,9 2,3 2,6
Với mức ý nghĩa 0,05 hãy kết luận về vấn đề trên biết rằng chi phí
nguyên liệu theo cả hai phƣơng án gia công đều là các biến ngẫu nhiên phân phối
chuẩn có 1 2 0,16 .
2 2
Giải: Gọi X1; X 2 tƣơng ứng là chi phí nguyên liệu theo hai phƣơng án gia
công trên. Theo giả thiết X1; X 2 là phân phối chuẩn N(1; 1 ) , N(2 ; 2 ) .
2 2
X1 X 2
Ta chọn thống kê U .
12 22
n1 n2
Với hai mẫu tƣơng ứng có:
106
2,5 3, 2 3,5 3,8 3,5
X1 3,3
5
2,0 2,7 2,5 2,9 2,3 2,6
X2 2,5
6
3,3 2,5
Giá trị quan sát là U qs 3,33
0,16 0,16
5 6
Do 0,05 , đối giả thiết K: 1 2 nên miền bác bỏ
nguyên liệu gia công thuốc theo 2 phương án gia công trên là khác nhau với mức ý
nghĩa 0,05 .
6.2.2. Các đại lượng ngẫu nhiên chưa biết các phương sai 1 ; 2
2 2
Trƣờng hợp: 1 2
2 2
Ta giả định 1 2 . Từ hai tổng thể trên có thể rút ra đƣợc 2 mẫu độc lập
2 2
W1 X11 ,X12 ,...,X1n 1
W2 X 21 ,X 22 ,...,X 2n 2
Tiêu chuẩn kiểm định đƣợc chọn là:
GT
X X
1 2 1 2
1 1
S
n1 n 2
S
n1 1 S12 n 2 1 S22
n1S12 n 2S2 2
n1 n 2 2 n1 n 2 2
Nếu giả thiết H đúng thì ta có:
X1 X 2
T
1 1
S
n1 n 2
107
T phân phối Student với n1 n 2 2 bậc tự do.
Với mức ý nghĩa cho trƣớc ta xây dựng đƣợc các miền bác bỏ W tƣơng
ứng với các dạng của đối thiết K nhƣ sau:
a) H : 1 2 ; K : 1 2 .
c) H : 1 2 ; K : 1 2 .
Các bƣớc của bài toán kiểm định đƣợc tiến hành nhƣ sau:
Lập cặp giả thiết, đối thiết phù hợp với yêu cầu của đề bài.
Từ tổng thể lấy ra hai mẫu cụ thể
w1 x11 , x12 ,..., x1n , 1
w 2 x 21 , x 22 ,..., x 2n 2
và tính các trung bình mẫu và các phƣơng sai mẫu cụ thể:
1 n 1 n 1n 2 1 n 2
x1 x1i , x 2 x 2i và s1 x (x1 ) , s 2 x
1 2 1 2
(x 2 )
2 2 2 2
n1 i 1 n 2 i 1 n1 i 1 n 2 i 1 1i 2i
Khi đó giá trị quan sát tiêu chuẩn kiểm định:
Tqs
x 1
; S
x2
n1s12 n 2s 22
(6.17)
1 1 n1 n 2 2
S
n1 n 2
n1 n 2 2
Tra bảng Student: t1nn/22 và t1
1 2
.
Ví dụ 6.6. Gọi X1 , X 2 lần lƣợt là đƣờng kính các viên thuốc do máy 1, máy
2 dập, cho biết X1 , X 2 có phân phối chuẩn. Kiểm tra 8 viên thuốc đƣợc dập từ máy
108
1 thu đƣợc X1 5,658 và S12 0,0098 . Kiểm tra 10 viên thuốc đƣợc dập từ máy 2
thu đƣợc X2 5, 486 và S22 0,0156 . Đƣờng kính trung bình của các viên thuốc do
hai máy dập ra có nhƣ nhau không?
Giải:
Theo giả thiết X1; X 2 phân phối chuẩn N(1; 12 ) , N(2 ; 22 ) . So sánh các
phƣơng sai thấy chúng nhƣ nhau. Do đó để kiểm định cặp giả thiết H : 1 2 ; đối
thiết K : 1 2 ta sử dụng công thức kiểm định:
Tqs
x 1 x2 ; S
n1s12 n 2s 22
1 1 n1 n 2 2
S
n1 n 2
Ta có:
Tqs
x 1 x2
5,658 5, 486 3,18
1 1 1 1
S 0,114
n1 n 2 8 10
W T; T t16
0,975 T; T 2,12
W T; T t16
0,995 T; T 2,921
Tqs 3,18 thuộc vào cả 2 miền bác bỏ, tức bác bỏ giả thiết H. Nhƣ vậy
đƣờng kính trung bình của các viên thuốc do hai máy dập ra là khác biệt có ý nghĩa
thống kê.
Trƣờng hợp: 1 2
2 2
Trƣờng hợp ta không thể cho rằng 1 2 12 22 . Từ tổng thể ta có thể
2 2
rút ra đƣợc 2 mẫu độc lập kích thƣớc n1;n 2 và chọn tiêu chuẩn kiểm định là:
109
GT
X1
X 2 1 2
S12 S2 2
n1 n 2
T phân phối Student với số bậc tự do là:
S12
k
n1 1 n 2 1 n1
1 với C 2
S1 S22
2
2
2
n 1 C 1 C n 1 1
n1 n 2
Nếu giả thiết H đúng thì ta có:
T
X 1 X2
S12 S2 2
n1 n 2
Với mức ý nghĩa cho trƣớc ta xây dựng đƣợc các miền bác bỏ W tƣơng
ứng với các dạng của đối thiết K nhƣ sau:
a) H : 1 2 ; K : 1 2 .
Miền bác bỏ bên phải W đƣợc xác định: W T;T t1k (6.18)
b) H : 1 2 ; K : 1 2 .
(6.19)
c) H : 1 2 ; K : 1 2 .
Miền bác bỏ hai phía đƣợc xác định: W T; T t1k /2 (6.20)
Các bƣớc của bài toán kiểm định đƣợc tiến hành nhƣ sau:
Lập cặp giả thiết, đối thiết phù hợp với yêu cầu của đề bài.
Từ tổng thể lấy ra hai mẫu cụ thể w1 x11 , x12 ,..., x1n , w 2 x 21 , x 22 ,..., x 2n
1 2
và tính các trung bình mẫu x1 , x 2 và các phƣơng sai mẫu s1 , s2 .
2 2
110
Tqs
x 1 x2 (6.21)
s12 s2 2
n1 n 2
S12
Tính k
n1 1 n 2 1 n1
1 với C 2 (6.22)
n 2 1 C 1 C n1 1 S1 S22
2 2
n1 n 2
Ví dụ 6.7. Hai loại thuốc A, B làm tim đập chậm đƣợc thử nghiêm trên 16
con chuột bạch. Mỗi loại đƣợc thử nghiệm trên 8 con. Kết quả thu đƣợc về hiệu số
nhịp đập của tim sau khi dùng thuốc và trƣớc khi dùng thuốc:
Thuốc A -22 -14 -36 -28 -8 -22 -8 2
Thuốc B -14 -12 -22 -30 10 0 -8 24
So sánh tác dụng của 2 loại thuốc trên ở mức ý nghĩa 0.05. Cho biết hiệu số
nhịp đập của tim sau khi dùng thuốc và trƣớc khi dùng thuốc là phân phối chuẩn.
Giải: Gọi X1; X 2 lần lƣợt là hiệu số nhịp đập của tim sau và trƣớc khi dùng
thuốc A, thuốc B. Theo giả thiết X1; X 2 phân phối chuẩn N(1; 1 ) , N(2 ; 2 ) . Giả
2 2
T
X1 X2
S12 S2 2
n1 n 2
Ta có:
17 6,5
Tqs 1, 4
152 297, 68
8 8
111
S12 152
n1 8
C 2 0,33;
S1 S22
152
297,68
n1 n 2 8 8
7.7
k 2
1 12,67 1 13
7(0,338) 7(1 0,338)
2
Dễ thấy Tqs W ta chƣa có cơ sở để bác bỏ giả thiết, tức là tác dụng của 2
hóa, do đó ta áp dụng nhƣ trƣờng hợp mục 6.2.1 trong bài này và thay 1 , 2 bằng
2 2
S12 , S22 .
Tìm
Nếu miền bác bỏ 1 phía xác suất mắc sai lầm loại hai đƣợc xác định bằng
công thức:
1 2
P(U U1 ) (6.23)
12 22
n1 n2
Nếu miền bác bỏ hai phía thì đƣợc xác định bằng công thức:
1 2
P(U U ) (6.24)
1
12 22
2
n1 n2
Chú ý: Trong các trƣờng hợp chƣa biết 1 , 2 ta thay bằng S1 , S2 và trong
112
Ví dụ 6.8. Định lƣợng Vitamin B12 tiêm 200 /ml của 2 cơ sở sản xuất A và
B thu đƣợc kết quả về hàm lƣợng (tính theo /ml ):
Hàm lƣợng 185 190 195 200 205 210 215 220
Số ống c.s A 2 2 3 9 7 6 5 6
Số ống c.s B 4 5 3 12 8 5 2 1
Hàm lƣợng B12 trong thuốc tiêm của 2 cơ sở sản xuất trên có nhƣ nhau
không? Giả thiết hàm lƣợng Vitamin B12 phân phối chuẩn. Lấy 0,05 .
Giải: Gọi X1; X 2 lần lƣợt là hàm lƣợng Vitamin B12 tiêm 200 /ml của 2 cơ
sở sản xuất A và B. Theo giả thiết X1; X 2 phân phối chuẩn N(1; 12 ) , N(2 ; 22 ) .
U
X X
1 2
S12 S2 2
n1 n 2
Ta có:
205, 625 200, 375
U qs 2, 518
96, 4 77, 42
40 40
Ta thấy Uqs W , vậy bác bỏ giả thiết, chấp nhận đối thiết, tức hàm lƣợng
B12 trong thuốc tiêm của 2 cơ sở sản xuất trên không nhƣ nhau ở mức ý nghĩa 0.05.
6.3. Kiểm định giả thiết về xác suất (hoặc tỷ lệ)
6.3.1. Kiểm định giả thiết về tham số p của một đại lƣợng ngẫu nhiên
Giả sử trong tổng thể của đại lƣợng ngẫu nhiên X phân phối không – một có
xác suất xuất hiện biến cố A là p, nếu chƣa biết p song có cơ sở để giả thiết giá trị
113
của nó bằng p 0 , ta đƣa ra giả thiết H : p p0 , đối thiết K : p p0 (hoặc K : p p0 ,
hoặc K : p p0 ).
Từ tổng thể lập mẫu ngẫu nhiên kích thƣớc n, với n đủ lớn ta chọn tiêu chuẩn
f p0
kiểm định là thống kê G U n
p0 1 p0
b) H : p p0 ; K : p p0 .
c) H : p p0 ; K : p p0 .
Các bƣớc của bài toán kiểm định đƣợc tiến hành nhƣ sau:
Lập cặp giả thiết, đối thiết phù hợp với yêu cầu của đề bài.
Từ mẫu cụ thể ta tính đƣợc giá trị quan sát tiêu chuẩn kiểm định:
f p0
U qs n (6.25)
p0 1 p0
Ví dụ 6.9. Tỷ lệ mắc bệnh sốt rét ở một huyện miền núi là 0,07. Trong một
đợt kiểm tra sức khỏe ngẫu nhiên 350 ngƣời ở huyện này thấy có 30 ngƣời mang vi
114
trùng sốt rét. Với mức ý nghĩa 0,02 , có thể khẳng định tỷ lệ mắc bệnh sốt rét ở
vùng đó đã tăng lên hay không?
Giải: Gọi p là tỷ lệ mắc bệnh sốt rét. Đây là bài toán kiểm định giả thiết
thống kê về tỷ lệ.
Xét cặp giả thiết, đối thiết H : p 0,07; K : p 0,07
f p
Chọn thống kê U n , trong đó f là tần số của mẫu ngẫu nhiên
p 1 p
30
và f 0,086; n 350 .
350
0,086 0,07
Ta có: Uqs 350 1,173
0,07 1 0,07
Với mức ý nghĩa 0,02 . Miền bác bỏ bên phải W đƣợc xác định:
Nếu miền bác bỏ hai phía thì đƣợc xác định bằng công thức:
p0 p1 n
P(U U ) (6.27)
1
2 p0 (1 p0 )
Ví dụ 6.10. Điều tra 100.000 ngƣời ở một tỉnh thấy có 32 ngƣời bị lao. Tỷ lệ bị
lao bằng 0,0005 có đúng không? Nếu tỷ lệ bị lao đúng bằng 0,0008 tính sai lầm loại 2
với 0,05 .
Giải: Gọi p là tỷ lệ bị lao. Đây là bài toán kiểm định giả thiết thống kê về tỷ lệ.
Xét cặp giả thiết, đối thiết H : p 0,0005; K : p 0,0005
115
f p
Chọn thống kê U n , trong đó f là tần số của mẫu ngẫu nhiên
p 1 p
32
và f 0,00032; n 100000 .
100000
0, 00032 0, 0005
Ta có: Uqs 100000 2,546
0, 0005 1 0, 0005
Với mức ý nghĩa 0,02 . Miền bác bỏ bên trái W đƣợc xác định:
Ta thấy Uqs W , vậy bác bỏ giả thiết H, nghĩa là tỷ lệ bị lao thấp hơn
0,0005.
Nếu tỷ lệ bị lao đúng bằng 0,0008 ta tính sai lầm loại 2 với 0,05 nhƣ sau:
để giả thiết rằng giá trị của chúng bằng nhau ta đƣa giả thiết thống kê H : p1 p2 ;
Đối thiết K : p1 p2 (K : p1 p2 ; K : p1 p2 )
Để kiểm định giả thiết thống kê trên, từ tổng thể rút ra hai mẫu ngẫu nhiên
độc lập kích thƣớc tƣơng ứng là n1; n 2 n1 30; n 2 30
f1 f 2 p1 p 2
Chọn tiêu chuẩn kiểm định là thống kê : G U
1 1
f 1 f
n1 n 2
n1f1 n 2f 2
trong đó f1 ,f 2 là các tần suất tƣơng ứng của hai mẫu trên và f .
n1 n 2
116
Với n1 , n 2 đủ lớn n1 30; n 2 30 thì thống kê G nói trên sẽ xấp xỉ phân
phối N(0,1). Nếu giả thiết H đúng thì tiêu chuẩn kiểm định có dạng
f1 f 2
U và vẫn là phân phối xấp xỉ N(0,1).
1 1
f 1 f
n1 n 2
Với mức ý nghĩa cho trƣớc ta xây dựng đƣợc các miền bác bỏ W tƣơng
ứng với các dạng của đối thiết K nhƣ sau:
a) H : p1 p2 ; K : p1 p2 .
b) H : p1 p2 ; K : p1 p2 .
c) H : p1 p2 ; K : p1 p2 .
Các bƣớc của bài toán kiểm định đƣợc tiến hành nhƣ sau:
Lập cặp giả thiết, đối thiết phù hợp với yêu cầu của đề bài.
Từ mẫu cụ thể ta tính đƣợc giá trị quan sát tiêu chuẩn kiểm định:
f1 f 2 n1f1 n 2f 2
U qs ; f (6.28)
1 1 n1 n 2
f 1 f
n1 n 2
Tra bảng phân vị chuẩn: U1 2 và U 2 .
Ví dụ 6.11. Điều trị phƣơng pháp I cho 405 bệnh nhân có 328 ngƣời
khỏi.Điều trị phƣơng pháp II cho 155 bệnh nhân có 122 ngƣời khỏi. Tỷ lệ khỏi của
hai phƣơng pháp có nhƣ nhau không? Kết luận với mức ý nghĩa 0,05 .
Giải: Gọi p1 , p2 tƣơng ứng là tỷ lệ khỏi của 2 phƣơng pháp I và II. Đây là
bài toán kiểm định giả thiết thống kê về tỷ lệ của hai tổng thể.
Giả thiết H : p1 p2 , đối giả thiết K : p1 p2 .
117
f1 f 2 n1f1 n 2f 2
Chọn tiêu chuẩn kiểm định U ; f
1 1 n1 n 2
f 1 f
n1 n 2
328 122
Từ mẫu cụ thể ta tìm đƣợc f1 0,81; f 2 0,787
405 155
405.0,81 155.0,787
Khi đó: f 0,804
405 155
0,81 0,787
và: U qs 0,613
1 1
0,804(1 0,804)
405 155
Với mức ý nghĩa 0,05 Miền bác bỏ hai phía đƣợc xác định:
Kết luận: Chƣa có cơ sở để bác bỏ H nghĩa là tỷ lệ khỏi của hai phƣơng pháp
là nhƣ nhau.
6.4. Kiểm định khi bình phƣơng
Kiểm định khi bình phƣơng dựa trên việc sử dụng tiêu chuẩn 2 của
K.Pearson, thƣờng đƣợc sử dụng giải quyết các bài toán trong thực tế nhƣ: tỷ lệ
khỏi của các phƣơng pháp có nhƣ nhau không hoặc tỷ lệ mắc bệnh nào đó có phụ
thuộc vào giới tính hay nghề nghiệp không...Và nếu tỷ lệ mắc bệnh nào đó không
phụ thuộc vào giới tính hay nghề nghiệp thì tức là tỷ lệ mắc bệnh độc lập với giới
tính hay nghề nghiệp. Nhƣ vậy từ bài toán so sánh các tỷ lệ cũng có thể dẫn đến bài
toán kiểm định tính độc lập giữa các đặc tính.
Giả sử cần nghiên cứu đồng thời hai dấu hiệu định tính A và B trên cùng một
tổng thể. Dấu hiệu A có các phạm trù là A1 ,A2 ,...,Ak , còn Dấu hiệu B có các phạm
trù là B1 ,B2 ,...,Bh . Nếu có cơ sở ta đƣa ra cặp giả thiết thống kê:
H: Các tỷ lệ nhƣ nhau hoặc H: Hai đặc tính độc lập
K: Các tỷ lệ không nhƣ nhau K: Hai đặc tính không độc lập
Để kiểm định giả thiết trên, từ tổng thể lập mẫu kích thƣớc n và trình bày bẫu
dƣới dạng bảng hai lối vào sau đây:
118
B
B1 B2 ... Bh ni
A
A1 n11 n12 n1h n1
A2 n 21 n 22 n 2h n2
.
.
Ak n k1 nk2 n kh nk
mj m1 m2 mh n
n ij là tần số ứng với các phần tử đồng thời mang dấu hiệu A i và B j .
Với n đủ lớn thì theo định nghĩa thống kê về xác suất ta có:
n ij ni m
P(Ai B j ) (i 1, k; j 1, h) ; P(Ai ) (i 1, k) ; P(B j ) j ( j 1, h)
n n n
Nếu giả thiết A, B độc lập thì các dấu hiệu thành phần cũng độc lập nên:
n ij ni m j
P(Ai B j ) P(Ai )P(B j ) (i 1, k; j 1, h)
n n n
Vì thế tiêu chuẩn kiểm định đƣợc chọn là thống kê:
2
n ij n i m j
h
n n n
k
G n
2
i 1 j1 ni m j
n n
Hay
2
nim j
n
2
ij
n M nm
2
k h k h
n
(đặt Mij i j )
ij ij
i 1 j1
nim j i 1 j1 M ij n
n
119
Với n đủ lớn thống kê 2 phân phối theo quy luật khi bình phƣơng với
(k-1)(h-1) bậc tự do. Tra bảng phụ lục 4. Khi đó với mức ý nghĩa miền bác bỏ
của H là:
W 2 ; 2 2 (k 1)(h 1) (6.29)
Vậy dựa vào mẫu cụ thể tính đƣợc giá trị quan sát qs
2
, so sánh với W và
Ta có thể tính qs
2
bằng công thức:
n ij M ij
2
k h k h n2 nim j
2 n ij 1 (Với Mij ) (6.30)
Mij i 1 j1 n m n
i 1 j1 i j
Ví dụ 6.12. Điều trị một bệnh bằng hai phƣơng pháp thu đƣợc kết quả sau:
Kết quả
Khỏi Đỡ Thất bại ni
P. pháp
I 230 40 50 320
II 76 12 7 95
mj 306 52 57 415
K: Hai phƣơng pháp điều trị hiệu quả không nhƣ nhau.
nim j
Với Mij ta có:
n
n Mij
2
2 3
qs 4, 292
2 ij
i 1 j1 Mij
nhƣ nhau.
Ví dụ 6.13. Điều tra tình hình mắc ba bệnh B1 , B2 , B3 tại hai xã thu đƣợc kết
quả sau:
Bệnh
B1 B2 B3 ni
Xã
I 588 369 89 1046
II 304 171 50 525
mj 892 540 139 1571
nim j
Với Mij ta có:
n
n Mij
2
2 3
qs 1,328
2 ij
i 1 j1 Mij
nhƣ nhau.
Ví dụ 6.14. Điều tra 169 ngƣời nƣớc ngoài về hai đặc tính màu tóc và màu mắt
thu đƣợc số liệu sau:
121
Màu tóc
Đen Hung Nâu Bạch kim ni
Màu mắt
Xanh 35 19 36 25 115
Đen 14 14 16 10 54
mj 49 33 52 35 169
nim j
Với Mij ta có:
n
n Mij
2
2 3
2,140
2 ij
qs
i 1 j1 Mij
122
niên
1. Chiều cao trung bình của nam thanh niên sau 10 năm có còn bằng 162
không? Lấy 0,05 .
2. Nếu chiều cao trung bình thực của nam thanh niên sau 10 năm bằng 164,
hãy tính (164) .
Bài 2. Định lƣợng Protein toàn phần trong huyết thanh bệnh nhi suy dinh
dƣỡng trƣớc điều trị X và sau điều trị Y, thu đƣợc số liệu sau:
X (g/l): 55,8 53,3 30,1 51,0 37,8 68,6 57,7 59,1 49,4
35,4 53,4 42,7 21,2 28,3 57,3 42,4 61,4
Y (g/l): 60,4 58,7 28,9 48,0 39,7 68,8 57,5 70,4 56,8
40,6 57,3 44,3 32,2 47,7 77,0 55,1 66,1
Phƣơng pháp điều trị có hiệu quả không? Lấy 0,05 . Giả thiết X, Y có
phân phối chuẩn.
Bài 3. Biết tỷ lệ phế phẩm do một máy tự động dập thuốc dạng viên nén sản
xuất ra là 5%. Kiểm tra ngẫu nhiên 300 viên thuốc thấy có 24 viên thuốc là phế
phẩm. Từ đó có ý kiến cho rằng tỷ lệ phế phẩm do máy đó sản xuất ra có chiều
hƣớng tăng lên. Hãy kết luận ý kiến nêu trên với mức ý nghĩa 0,05 .
Bài 4. Tại một địa phƣơng, điều tra 1000 trẻ thấy 376 trẻ suy dinh dƣỡng.
1. Tỷ lệ suy dinh dƣỡng bằng 0,4 có đúng không? Tính sai lầm loại 2 nếu tỷ lệ
suy dinh dƣỡng đúng bằng 0,37 với 0,05 .
2. Tỷ lệ suy dinh dƣỡng bằng 0,35 có đúng không? Tính sai lầm loại 2 nếu tỷ lệ
suy dinh dƣỡng đúng bằng 0,37 với 0,05 .
Bài 5.Tại một địa phƣơng khám 1689 trẻ nam thấy 116 trẻ bị bƣớu cổ, khám
1539 trẻ nữ thấy 131 trẻ bị bƣớu cổ. Hỏi tỷ lệ bƣớu cổ của trẻ nam có thấp hơn tỷ lệ
bƣớu cổ ở trẻ nữ hay không? Lấy 0,05 .
Bài 6. Quan sát các cây với hai đặc tính màu hoa và dạng lá, thu đƣợc kết quả
sau:
Màu hoa
Đỏ Hồng
Dạng lá
123
Phẳng 14 18
Nhăn 22 16
Hiệu quả của ba phƣơng pháp điều trị có nhƣ nhau không?
Bài 8. Nghiên cứu ảnh hƣởng của thành phần thức ăn của bố mẹ (X) đối với
giới tính (Y) của con cái. Điều tra 571 cặp bố mẹ thu đƣợc số liệu sau:
X Thiếu Đủ
Y vitamin vitamin
Trai 123 145
Gái 153 150
[2]. Nguyễn Cao Văn, Trần Thái Ninh (2008), Lý thuyết xác suất và thống kê toán,
NXB Thống kê.
[3]. Đặng Đức Hậu (2008), Xác suất thống kê, NXB Giáo dục.
[4]. Đào Hữu Hồ (2008), Xác suất thống kê, NXB ĐHQG Hà Nội.
[5]. Tống Đình Quỳ (2010), Giáo trình xác suất thống kê, NXB Bách Khoa Hà Nội.
[6]. Sheldon M. Ross, Introduction to Probability and Statistics for Engineers and
Scientists, Fourth Edition, Academic Press is an imprint of Elsevier, 2009.
124
Bài thảo luận 2:
THẢO LUẬN TẦM QUAN TRỌNG CỦA ƢỚC LƢỢNG VÀKIỂM ĐỊNH
TRONG Y HỌC
* Giảng viên:
1.TS Đỗ Thị Hồng Nga
2.Ths Đỗ Thị Phƣơng Quỳnh
3.Ths Lê Thị Huyền My
1. Vận dụng đƣợc ƣớc lƣợng và kiểm định giải quyết một số bài toán trong y
học.
2. Liệt kê đƣợc một số phần mềm ứng dụng trong xác suất thống kê. Nhận thức
đƣợc tầm quan trọng của ƣớc lƣợng và kiểm định trong y học.
Nội dung bài giảng:
1. Tầm quan trọng của ƣớc lƣợng và kiểm định trong thống kê y học.
Sau khi học xong phần ƣớc lƣợng và kiểm định giúp cho ngƣời học
biết cách tiếp cận các dữ liệu lƣu trữ và hồi cứu các thông tin lâm sàng trong
hồ sơ bệnh án (giấy và điện tử), thƣ viện, các nguồn thông tin trực tuyến một
cách phù hợp, đầy đủ, chính xác đảm bảo tính bảo mật và tính pháp lý hay
biết cách thu thập, đánh giá và sử dụng đƣợc các thông tin y học giá trị và
đáng tin cậy trong nƣớc và nƣớc ngoài. Từ đó đƣa ra đƣợc những đánh giá
hay kiểm chứng về hiệu quả của các can thiệp y tế dựa trên bằng chứng khoa
học.
2. Vận dụng đƣợc ƣớc lƣợng và kiểm định giải quyết một số bài toán trong
y học.
Bài 1: Đƣợc biết, nhịp mạch trung bình của nam thanh niên 72 lần/phút. Kiểm
tra 64 thanh niên làm việc trong hầm lò thấy nhịp mạch trung bình của họ là 74
lần/phút với phƣơng sai mẫu là 9 lần/phút. Hãy xét xem làm việc trong hầm lò có
làm tăng nhịp mạch hay không. Hãy kết luận với mức ý nghĩa 5%. Giả thiết nhịp
mạch tuân theo luật chuẩn.
Bài 2:Đối với ngƣời Việt nam lƣợng huyết sắc tố trung bình là 138.3 g/l. Khám
cho 80 công nhân ở nhà máy có tiếp xúc hóa chất thấy huyết sắc tố trung bình là
120 g/l; s = 15 g/l. Từ kết quả trên có thể kết luận lƣợng huyết sắc tố trung bình của
công nhân nhà máy này thấp hơn mức trung bình hay không với . Giả thiết huyết
sắc tố tuân theo luật chuẩn.
3. Giới thiệu một số phần mềm ứng dụng trong xác suất thống kê.
Phân tích số liệu và biểu đồ thƣờng đƣợc tiến hành bằng các phần mềm
thông dụng nhƣ SAS, SPSS, Stata, Statistica, và S-Plus. Đây là những phần
125
mềm đƣợc các công ti phần mềm phát triển và giới thiệu trên thị trƣờng
khoảng ba thập niên qua, và đã đƣợc các trƣờng đại học, các trung tâm nghiên
cứu và công ti kĩ nghệ trên toàn thế giới sử dụng cho giảng dạy và nghiên
cứu. Nhƣng vì chi phí để sử dụng các phần mềm này tuơng đối đắt tiền (có
khi lên đến hàng trăm ngàn đô-la mỗi năm), một số trƣờng đại học ở các nƣớc
đang phát triển (và ngay cả ở một số nƣớc đã phát triển) không có khả năng
tài chính để sử dụng chúng một cách lâu dài. Do đó, các nhà nghiên cứu thống
kê trên thế giới đã hợp tác với nhau để phát triển một phần mềm mới, với chủ
trƣơng mã nguồn mở, sao cho tất cả các thành viên trong ngành thống kê học
và toán học trên thế giới có thể sử dụng một cách thống nhất và hoàn toàn
miễn phí.
Năm 1996, trong một bài báo quan trọng về tính toán thống kê, hai nhà
thống kê
học Ross Ihaka và Robert Gentleman [lúc đó] thuộc Trƣờng đại học
Auckland, New Zealand phác hoạ một ngôn ngữ mới cho phân tích thống kê
mà họ đặt tên là R [1]. Sáng kiến này đƣợc rất nhiều nhà thống kê học trên thế
giới tán thành và tham gia vào việc phát triển R. Cho năm 2006, qua chƣa đầy
10 năm phát triển, càng ngày càng có nhiều nhà thống kê học, toán học,
nghiên cứu trong mọi lĩnh vực đã chuyển sang sử dụng R để phân tích dữ liệu
khoa học. Trên toàn cầu, đã có một mạng lƣới hơn một triệu ngƣời sử dụng R.
Vậy R là gì? Nói một cách ngắn gọn, R là một phần mềm sử dụng cho phân
tích thống kê và vẽ biểu đồ. Thật ra, về bản chất, R là ngôn ngữ máy tính đa
năng, có thể sử dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn giản,
toán học giải trí (recreational mathematics), tính toán ma trận (matrix), đến
các phân tích thống kê phức tạp. Vì là một ngôn ngữ, cho nên ngƣời ta có thể
sử dụng R để phát triển thành các phần mềm chuyên môn cho một vấn đề tính
toán cá biệt.
Tài liệu tham khảo
[1] Đỗ Thị Hồng Nga, Đỗ Thị Phƣơng Quỳnh, Lê Thị Huyền My (2017), Xác suất
thống kê, NXB Đại học Thái Nguyên. (chƣơng 1trang 7-82)
[2]. Nguyễn Văn Tuấn, Phân tích số liệu và biểu đồ bằng R, Garvan Institute of
Medical Research, Sydney, Australia.
[3]. Nguyễn Cao Văn, Trần Thái Ninh (2008), Lý thuyết xác suất và thống kê toán,
NXB Thống kê.
[4]. Đặng Đức Hậu (2008), Xác suất thống kê, NXB Giáo dục.
[5]. Đào Hữu Hồ (2008), Xác suất thống kê, NXB ĐHQG Hà Nội.
[6]. Tống Đình Quỳ (2010), Giáo trình xác suất thống kê, NXB Bách Khoa Hà Nội.
126
[6]. Sheldon M. Ross, Introduction to Probability and Statistics for Engineers and
Scientists, Fourth Edition, Academic Press is an imprint of Elsevier, 2009.
127
BÀI 7: LÝ THUYẾT TƢƠNG QUAN HỒI QUY
* Giảng viên:
1.TS Đỗ Thị Hồng Nga
2.Ths Đỗ Thị Phƣơng Quỳnh
3.Ths Lê Thị Huyền My
* Mục tiêu học tập:
Kiến thức:
1. Trình bày đƣợc hệ số tƣơng quan mẫu và phƣơng trình tƣơng quan tuyến
tính.
2. Vận dụng đƣợc công thức tính tƣơng quan hồi quy đơn biến để giải quyết
một bài toán cụ thể.
Kỹ năng:
3. Tìm đƣợc hệ số tƣơng quan mẫu và đánh giá đƣợc mối tƣơng quan giữa
các đại lƣợng ngẫu nhiên.
4. Viết đƣợc phƣơng trình tƣơng quan tuyến tính giữa các đại lƣợng ngẫu
nhiên.
* Nội dung bài giảng:
Hệ số tƣơng quan là số đo mức độ phụ thuộc tuyến tính giữa hai biến ngẫu
nhiên X và Y. Tuy nhiên, khi chƣa biết phân phối của (X, Y) thì hệ số tƣơng quan lý
thuyết cũng chƣa tìm đƣợc. Do đó ta tìm cách ƣớc lƣợng theo mẫu quan sát
đƣợc.
128
Giả sử ta có mẫu ngẫu nhiên cỡ n về vectơ ngẫu nhiên (X, Y):
xi , yi , i 1,2,,n hoặc mẫu thu gọn:
x i , yi i 1, 2,, k
k
m i
i 1
mi n.
Khi đó hệ số tƣơng quan mẫu, ký hiệu r , đƣợc tính bởi công thức:
1 k
1 k 1 k
n i 1
m i x i y i m i x i m i y i
n i 1 n i 1 XY XY
r
(7.2)
SX SY
k 2 2
1 1 k 1 k
1 k
n i 1
mi x i mi x i
2
n i 1
n i 1
mi yi mi yi
2
n i 1
Nếu dùng phép đổi biến để thu gọn số liệu:
xi x0 yi y 0
ui ; vi ,
k h
(trong đó x 0 x i có tần số mi lớn nhất; y0 yi có tần số mi lớn nhất, h là
khoảng cách giữa các x i , k là khoảng cách giữa các y i ), thì hệ số tƣơng quan mẫu
không thay đổi và đƣợc tính bởi công thức:
1 k
1 k 1 k
n i 1
mi u i vi mi u i mi vi
n i 1 n i 1 uv uv
r .
2 2 Su S v (7.3)
1 k
1 k
1 k
1 k
n i 1
mi u mi u i
n i 1
2
i
n i 1
mi v mi vi
2
n i 1
i
Tính chất của hệ số tƣơng quan mẫu
Hệ số tƣơng quan không có đơn vị đo, thƣờng viết đến phần nghìn.
rxy ryx .
1 r 1.
Nếu r 0 thì X và Y đồng biến, còn r 0 thì X và Y nghịch biến.
Nếu X và Y độc lập thì r 0 .
Nếu r 1 thì X và Y phụ thuộc hàm số với nhau.
Ý nghĩa của hệ số tƣơng quan mẫu
Hệ số tƣơng quan của hai biến X và Y cho ta một chỉ số đánh giá mối quan
hệ tuyến tính giữa X và Y. Nó là một hệ số có giá trị tuyệt đối nằm giữa 0 và 1. Nếu
hệ số tƣơng quan khá gần 0 thì có thể coi giữa X và Y không có tƣơng quan tuyến
tính. Nếu hệ số tƣơng quan khá gần 1 thì quan hệ giữa X và Y xấp xỉ bởi hệ thức
Y = aX + b.
Trong thống kê, ngƣời ta quy ƣớc rằng:
129
0 r 0,3 : X và Y có tƣơng quan tuyến tính yếu.
0,3 r 0,6 : X và Y có tƣơng quan tuyến tính.
0,6 r 1 : X và Y có tƣơng quan tuyến tính chặt chẽ.
Ví dụ 1. Cho bảng số liệu sau:
X 1 2 3 4 5 6 7 8 9 10
Y 2 6 7 4 8 5 13 10 14 9
Ta lập bảng tính toán dƣới đây rồi áp dụng công thức (4.2) ta đƣợc:
508 55 78
10 10 10 790
r 0, 76.
2 2
385 55 740 78 825 1316
10 10 10 10
Bảng tính toán:
xi yi x i2 yi2 xiyi
1 2 1 4 2
2 6 4 36 12
3 7 9 49 21
4 4 16 16 16
5 8 25 64 40
6 5 36 25 30
7 13 49 169 91
8 10 64 100 80
9 14 81 196 126
10 9 100 81 90
55 78 385 740 508
Kết luận: Vì r = 0,76> 0,6 nên giữa X và Y cho bởi mẫu trên có sự phụ thuộc
tƣơng quan tuyến tính đồng biến chặt chẽ (thuận mạnh) .
Ví dụ 2. Cho bảng số liệu điều tra sau:
23, 24, 24, 24, 25, 25, 26, 26, 26, 26, 26, 27, 27, 28,
xi
0 0 5 5 0 5 0 0 0 5 5 0 0 0
0,4 0,5 0,4 0,5 0,5 0,5 0,4 0,5 0,5 0,5 0,5 0,5 0,5 0,5
yi
8 0 9 0 1 2 9 1 3 0 2 4 2 3
ni 2 4 3 2 1 1 2 1 2 1 1 2 1 3
Ta phải dùng phƣơng pháp thu gọn số liệu bằng cách đổi biến đã biết:
Chọn x0 = 26,0; y0 = 0,50; hx = 0,50; ky = 0,01.
130
x i 26, 0 y i 0, 50
Với phƣơng pháp đổi biến: u i ; vi . Các số liệu biến
0, 50 0, 01
đổi và đƣợc tính toán trong bảng sau đây:
xi yi ni ui niui n i u i2 vi nivi n i vi2 niuivi
23,0 0,48 2 -6 -12 72 -2 -4 8 24
24,0 0,50 4 -4 -16 64 0 0 0 0
24,5 0,49 3 -3 -9 27 -1 -3 3 9
24,5 0,50 2 -3 -6 18 0 0 0 0
25,0 0,51 1 -2 -2 4 1 1 1 -2
25,5 0,52 1 -1 -1 1 2 2 4 -2
26,0 0,49 2 0 0 0 -1 -2 2 0
26,0 0,51 1 0 0 0 1 1 1 0
26,0 0,53 2 0 0 0 3 6 18 0
26,5 0,50 1 1 1 1 0 0 0 0
26,5 0,52 1 1 1 1 2 2 4 2
27,0 0,54 2 2 4 8 4 8 32 16
27,0 0,52 1 2 2 4 2 2 4 4
28,0 0,53 3 4 12 48 3 9 27 36
26 -26 248 22 104 87
Áp dụng công thức (4.3):
87 26 . 22
26 26 26
r 0, 792.
26 22
2 2
1 1
.248 .104
26 26 26 26
Kết luận: Với mẫu đã cho, giữa X và Y có sự phụ thuộc tƣơng quan tuyến
tính thuận chặt chẽ.
Ví dụ 3. Nếu số liệu điều tra đƣợc cho dƣới dạng bảng hai lối vào sau đây thì
ta có thể thực hiện các phép tính ngay trên bảng:
miyi mi yi2 mi x i yi
xi
1 2 3 4 mi
yi
7 1
1 7 49 28
28
6 1 18 1 6 36 18
5 1 10 2 30 3 15 75 40
4 2 16 2 8 32 16
3 3 9 3 9 27 9
131
mi n=
3 3 3 1 45 219
10
mixi 3 6 9 4 22
mi x i2 3 12 27 16 58
mi x i y i 9 26 48 28 111
Trong các ô (xi,yi) số ghi ở góc bên phải của mỗi ô là tích của xiyi với số lần
lặp. Tổng các số đó trong mỗi hàng hoặc mỗi cột đƣợc ghi ở hàng và cột cuối cùng.
Theo bảng trên, ta có: mi xi 22 ; mi xi2 58 ;
m y 45 ; mi yi2 219 ; m x y
i i i i i 111.
Áp dụng công thức (8.2):
111 22 45
.
r 10 10 10 0, 95.
22 45
2 2
58 219
10 10 10 10
Kết luận: X và Y có sự phụ thuộc tƣơng quan tuyến tính thuận chặt chẽ.
2. Đƣờng hồi quy tuyến tính thực nghiệm
Khi có sự phụ thuộc tuyến tính giữa hai biến ngẫu nhiên tƣơng đối chặt chẽ ta
có thể hi vọng xấp xỉ biến này bởi một hàm tuyến tính của biến kia. Nghĩa là cần tìm
biểu thức aX b sao cho xấp xỉ Y tốt nhất theo nghĩa cực tiểu sai số bình phƣơng
trung bình E(Y aX b) 2 .
Ta có:
E(Y aX b) 2 E Y E(Y) a X E(X) E(Y) aE(X) b
2
E Y.E(Y) aY.E(X) bY (E(Y)) 2 aE(X).E(Y) bE(Y)
(E(Y)) 2 aE(X).E(Y) bE(Y) (E(Y)) 2 aE(X).E(Y) bE(Y) 0
và tƣơng tự: E a(X E(X))(E(Y) aE(X) b) 0 .
132
Do đó E(Y aX b) sẽ đạt cực tiểu nếu và chỉ nếu tam thức bậc 2 theo a:
2
a 2 D(X) 2a D(X) D(Y) D(Y) đạt cực tiểu và (E(Y) aE(X) b) 0 .
2
Khi đó giá trị nhỏ nhất của E(Y aX b) chính là giá trị của tam thức bậc
2
D(Y)
hay Y E(Y) X E(X) . (7.5)
D(X)
Phƣơng trình (7.4) hay (7.5) đƣợc gọi là phƣơng trình đƣờng hồi quy bình
phƣơng trung bình tuyến tính của Y theo X.
Sai số bình phƣơng trung bình khi dùng đƣờng hồi quy trung bình tuyến tính
để xấp xỉ Y là:
2y/x D(Y)(1 2 ) .
Sai số này càng nhỏ khi càng gần 1, tức là mức độ phụ thuộc tuyến tính
giữa 2 biến càng chặt.
Tƣơng tự, ta có phƣơng trình đƣờng hồi quy bình phƣơng trung bình tuyến
tính của X theo Y:
D(X)
X E(X) Y E(Y) (7.6)
D(Y)
và sai số là 2x/ y D(X)(1 2 ) .
Nhận thấy rằng đƣờng hồi quy trung bình tuyến tính (7.5) hoặc (7.6) luôn lập
đƣợc, miễn là hai biến X và Y tồn tại phƣơng sai dƣơng hữu hạn. Song việc dùng
đƣờng hồi quy ấy để xấp xỉ biến này qua biến kia lại là vấn đề khác. Vấn đề đó phụ
thuộc vào có đủ lớn hay không. Nếu bé thì việc xấp xỉ không tốt, không nên
dùng.
133
Xuất phát từ mẫu ngẫu nhiên cỡ n về vectơ ngẫu nhiên (X,Y):
x i , yi ,i 1, n ta xây dựng đƣờng hồi quy trung bình tuyến tính thực nghiệm bằng
D(Y) Sy
cách thay trong (7.5) E(X), E(Y) lần lƣợt bởi X, Y và bởi r . Khi đó
D(X) Sx
ta nhận đƣợc phƣơng trình đƣờng hồi quy trung bình tuyến tính thực nghiệm của Y
theo X:
X X
Sy
YYr (7.7)
Sx
và ƣớc lƣợng sai số 2y/x thay bởi Sy/x Sy 1 r .
2 2
2
Tƣơng tự, phƣơng trình đƣờng hồi quy trung bình tuyến tính thực nghiệm
của X theo Y:
S
XXr x YY
Sy
(7.8)
và ƣớc lƣợng sai số Sx/y Sx 1 r .
2 2
2
Ví dụ 4: Theo dõi sự phụ thuộc giữa mức suy giảm hàm lƣợng đƣờng trong
mía X (%) và thời gian chờ chế biến (t) ta thu đƣợc kết quả sau đây:
X 30 30 35 35 40 40 40 45 45 45 50 50
t 2 4 4 6 4 6 8 6 8 10 8 10
m 1 1 3 1 1 2 2 2 3 1 1 2
Hãy tìm hệ số tƣơng quan mẫu giữa X và t. Viết phƣơng trình hồi quy của X
theo t? Cho nhận xét?
Giải: Căn cứ vào số liệu đã cho, dùng phép đổi biến để thu gọn số liệu:
Chọn x0 = 45; t0 = 8; hx = 5; kt = 2. Ta đổi biến
xi x0 x i 40 ti t0 ti 6
ui ; vi .
hx 5 kt 2
Các bƣớc tính toán đƣợc thể hiện trong bảng dƣới đây.
xi ti mi ui vi miui mi u i2 mivi mi vi2 miuivi
30 2 1 -2 -2 -2 4 -2 4 4
30 4 1 -2 -1 -2 4 -1 1 2
35 4 3 -1 -1 -3 3 -3 3 3
35 6 1 -1 0 -1 1 0 0 0
40 4 1 0 -1 0 0 -1 1 0
40 6 2 0 0 0 0 0 0 0
40 8 2 0 1 0 0 2 2 0
134
45 6 2 1 0 2 2 0 0 0
45 8 3 1 1 3 3 3 3 3
45 10 1 1 2 1 1 2 4 2
50 8 1 2 1 2 4 1 1 2
50 10 2 2 2 4 8 4 8 8
20 4 30 5 27 24
24 4 5
.
r 20 20 20 0,8388 .
Khi đó: 2 2
30 4 27 5
20 20 20 20
Chú ý: Để viết phương trình hồi quy tuyến tính của Y theo X (hoặc X theo Y)
khi đã dùng phép đổi biến thì phải quay lại biến ban đầu bằng cặp công thức:
x x 0 h x .u SX h x .Su
và
y y 0 k y .v SY k y .Sv
Với ví dụ trên ta có:
2 30 4 2
4 Sx 5 .Su 25 36,5
2 2
X 40 5u 40 5. 20 41 20 20
và
t 6 2v 6 2. 5 6,5 2 27 5 2
St 2 .Sv 4 20 20 5,15
2 2
20
Vậy phƣơng trình hồi quy tuyến tính của X theo t là:5
36,5
x 41 0,8388 (t 6,5) x 2, 233t 26, 4854
5,15
Nhận xét: vì r = 0,8388 > 0,6 nên X và t có sự phụ thuộc tuyến tính chặt chẽ.
Nghĩa là nếu mía để càng lâu sau khi thu hoạch mới chế biến thì hàm lƣợng đƣờng
càng giảm.
Chú ý: Với bài toán trên ta có thể giải bằng phƣơng pháp xây dựng bảng hai
lối vào nhƣ sau:
X
30 35 40 45 50
t
2 1
4 1 3 1
6 1 2 2
8 2 3 1
135
10 1 2
Dùng phƣơng pháp đổi biến với x0 = 40; t0 = 6; hx = 5; kt = 2 và công thức
đổi biến :
xi x0 x i 40 ti t0 ti 6
ui ; vi .
hx 5 kt 2
Ta có:
mi u i v i
u
-3 -2 -1 0 1 mi mivi mivi2
v
1
-3 1 -3 9 9
9
1 3 1
-2 5 -10 20 18
6 12 2
1 2 2
-1 5 -5 5 4
2 2 0
2 3 1
0 6 0 0 0
0 0 0
1 2
1 3 3 3 2
0 2
mi 2 4 5 6 3 20 -15 37
miui -6 -8 -5 0 3 -16
miui2 36 16 5 0 3 60
mi u i v i 15 14 4 0 2 33
3. Phƣơng pháp bình phƣơng bé nhất tìm đƣờng hồi quy tuyến tính
Để viết phƣơng trình hồi quy tuyến tính của Y theo X: y = ax + b theo
phƣơng pháp “bình phƣơng bé nhất” ta tìm a và b là nghiệm của hệ:
a x i2 b x i x i yi
(7.9)
a x i n.b yi
trong đó xi là các giá trị của X i 1, n , yi là các giá trị trung bình của Y khi
X lấy giá trị xi. Hệ số a trong (7.9) gọi là hệ số hồi quy của Y theo X.
Ví dụ 5. Sự tƣơng quan giữa trọng lƣợng X (tính theo kg) và chiều dài lồng
ngực Y (cm) của 300 con bò cho bởi bảng sau:
X 225 275 325 375 425 475 525 575 mi X / yj
Y
195 1 1 575
185 1 9 15 2 27 508
136
175 4 25 35 21 9 1 95 430
165 3 40 44 24 8 119 273
155 1 17 17 17 1 53 325
145 2 1 1 4 263
135 1 1 225
mi 4 21 62 86 61 38 24 4 300
Y/x 145 156 160 166 170 175 182 185
Ta lập bảng tính toán sau đây:
xi yi x i2 xiyi
225 145 50625 32625
275 156 75625 42900
325 160 105625 52000
375 166 140625 62250
425 170 180625 72250
475 175 225625 83125
525 182 275625 95550
575 185 330625 106375
3200 1339 1385000 547075
Từ đó ta có hệ phƣơng trình:
1385000a 3200b 547075
3200a 8b 1339
Giải ra đƣợc a = 0,11; b = 123. Vậy phƣơng trình hồi quy tuyến tính của lồng
ngực trung bình Y với trọng lƣợng X của đàn bò là:
Y 0,11X 123 .
Tài liệu tham khảo
[1] Đỗ Thị Hồng Nga, Đỗ Thị Phƣơng Quỳnh, Lê Thị Huyền My (2017), Xác suất
thống kê, NXB Đại học Thái Nguyên. (chƣơng 2 trang 83-191)
[2]. Nguyễn Cao Văn, Trần Thái Ninh (2008), Lý thuyết xác suất và thống kê toán,
NXB Thống kê.
[3]. Đặng Đức Hậu (2008), Xác suất thống kê, NXB Giáo dục.
[4]. Đào Hữu Hồ (2008), Xác suất thống kê, NXB ĐHQG Hà Nội.
[5]. Tống Đình Quỳ (2010), Giáo trình xác suất thống kê, NXB Bách Khoa Hà Nội.
[6]. Sheldon M. Ross, Introduction to Probability and Statistics for Engineers and
Scientists, Fourth Edition, Academic Press is an imprint of Elsevier, 2009.
137
138
Mục lục
Bài 3:ĐẠI QUY LUẬT PHÂN PHỐI XÁC SUẤT THƢỜNG GẶP LƢỢNG NGẪU NHIÊN VÀ .............. 32
Bài thảo luận 1: Vận dụng xác suất vào lập luận logic trong y học. ................................................................ 59
Bài 5: ƯỚC LƯỢC CÁC THAM SỐ CỦA ĐẠI LƯỢNG NGẪU NHIÊN .......................................................................... 73
139