Professional Documents
Culture Documents
1
bình của tổng thể……………………………………. 102
4.3 Kiểm định giả thiết thống kê về tham số tỉ lệ của
tổng thể……………………………………………… 121
4.4 Kiểm định giả thiết thống kê về tham số phƣơng
sai của tổng thể……………………………………… 127
4.5 Kiểm định giả thiết thống kê về sự phù hợp của
luật phân phối……………………………………….. 131
4.6 Kiểm định giả thiết thống kê về tính độc lập của
hai đặc tính……………………………………. 134
4.7 Kiểm định giả thiết thống kê phi tham số……….. 136
CHƢƠNG 5: TƢƠNG QUAN VÀ HỒI QUY……... 151
5.1 Hệ số tƣơng quan và phƣơng trình hồi quy……... 151
5.2 Kiểm định sự phù hợp của phƣơng trình hồi quy.. 156
5.3 Ƣớc lƣợng hệ số và giá trị của phƣơng trình hồi
quy…………………………………………………... 163
PHẦN THỨ HAI: CÂU HỎI TRẮC NGHIỆM VÀ
HƢỚNG DẪN GIẢI………………………………...
Chƣơng 1: Xác suất- công thức tính xác suất………..
Chƣơng 2: Biến ngẫu nhiên và luật phân phối xác
suất…………………………………………………...
Chƣơng 3: Ƣớc lƣợng tham số thống kê…………….
Chƣơng 4: Kiểm định giả thiết thống kê…………….
Chƣơng 5: Tƣơng quan và hồi quy…………………..
PHỤ LỤC: CÁC BẢNG TRA……………………
2
LỜI NÓI ĐẦU
Sách xác suất thống kê y học đƣợc viết theo chƣơng
trình đào tạo bậc Đại học khối ngành khoa học sức khỏe.
Quyển sách không những cung cấp các kiến thức cơ bản về
xác suất thống kê mà còn đƣa ra một số ví dụ ứng dụng
kiến thức xác suất thống kê trong lĩnh vực y học. Nội dung
của cuốn sách là tài liệu học tập cho sinh viên khối ngành
khoa học sức khỏe, đồng thời cũng có thể là tài liệu tham
khảo cho các cán bộ giảng dạy xác suất thống kê y học
trong khối ngành khỏa học sức khỏe và những nhà nghiên
cứu cần phân tích và xử lý số liệu trong các nghiên cứu y
học. Nghiên cứu về xác suất làm cho ta hiểu rõ hơn về khả
năng xảy ra của các hiện tƣợng ngẫu nhiên cũng nhƣ các
quy luật xác suất của chúng, nhờ đó giúp ta đánh giá đúng,
phán đoán đúng hơn về các hiện tƣợng ngẫu nhiên. Nghiên
cứu về thống kê để phân tích và xử lý số liệu từ đó có thể
so sánh đánh giá đúng về hiệu quả của phƣơng pháp chẩn
đoán và điều trị, góp phần đƣa ra các khuyến cáo về chẩn
đoán và điều trị. Ứng dụng xác suất thống kê vào thực tiễn,
đặc biệt là trong lĩnh vực y học, là việc làm rất quan trọng
và cần thiết. Nhƣng việc đƣa lý thuyết toán học vào ứng
dụng trong lĩnh vực y học là việc làm còn rất nhiều khó
khăn, nó đòi hỏi sự tìm tòi, học hỏi và đầu tƣ nghiên cứu
một cách thỏa đáng. Sách này, với mong mỏi sẽ góp một
phần nhỏ nhằm đáp ứng yêu cầu trên của bạn đọc.
Nội dung quyển sách đƣợc thiết kê gồm hai phần.
Phần 1 trình bày tóm tắt lý thuyết xác suất thống kê và các
ví dụ minh họa có liên hệ vận dụng kiến thức xác suất
thống kê trong lĩnh vực y học. Đặc biệt, tác giả đã sử sụng
3
một số phần mềm nhƣ Crystal Ball, SPSS để minh họa
phân phối xác suất và xử lý số liệu thống kê. Nội dung
phần 1 gồm có 5 chƣơng.
Chƣơng 1: Xác suất- công thức tính xác suất.
Chƣơng 2: Biến ngẫu nhiên và luật phân phối xác suất.
Chƣơng 3: Ƣớc lƣợng tham số thống kê.
Chƣơng 4: Kiểm định giả thiết thống kê.
Chƣơng 5: Tƣơng quan và hồi quy.
Phần 2 trình bày 300 câu hỏi trắc nghiệm có hƣớng dẫn
giải chi tiết nhằm hỗ trợ sinh viên ôn tập củng cố kiến thức
của môn học xác suất thống kê y học.
Với thời gian và khả năng có hạn, chắc chắn quyển sách
xác suất thống kê y học do tác giả biên soạn khó tránh khỏi
những hạn chế và thiếu sót. Tác giả rất mong nhận đƣợc sự
đóng góp ý kiến của bạn đọc.
TÁC GIẢ
4
PHẦN THỨ NHẤT
TÓM TẮT LÝ THUYẾT
VÀ VÍ DỤ MINH HỌA
Nội dung đƣợc trình bày trong chƣơng 1 bao gồm: Các
khái niệm cơ bản nhƣ phép thử, kết cục, biến cố, xác suất.
Tính xác suất theo định nghĩa cổ điển (phƣơng pháp liệt
kê, phƣơng pháp sử dụng đại số tổ hợp), theo định nghĩa
thống kê. Mối quan hệ giữa các biến cố: tổng, tích, độc lập,
xung khắc, nhóm đầy đủ, đối lập. Các công thức tính xác
suất nhƣ công thức cộng xác suất, công thức nhân xác suất;
công thức Bernoulli, Công thức xác suất đầy đủ và công
thức Bayes. Đặc biệt, trình bày nội dung ứng dụng xác suất
trong chẩn đoán nhƣ phân biệt giữa bệnh trạng và kết quả
xét nghiệm; giá trị dƣơng tính hay âm tính thật, giá trị tiên
đoán dƣơng tính hay âm tính của xét nghiệm.
1.1 SƠ LƢỢC VỀ LÝ THUYẾT TẬP HỢP, TỔ HỢP
1.1.1 Các phép toán trên tập hợp
Phép hợp: Hợp của hai tập hợp A và B (ký hiệu: A B ) là
tập hợp mà mỗi phần tử của nó thuộc tập hợp A hoặc thuộc
tập hợp B.
Phép giao: Giao của hai tập hợp A và B (ký hiệu: A B )
là tập hợp mà mỗi phần tử của nó thuộc đồng thời cả hai
tập hợp A và B.
5
Phép hiệu: Hiệu của hai tập hợp A và B (ký hiệu: A \ B ) là
tập hợp mà mỗi phần tử của nó thuộc tập hợp A mà không
thuộc tập hợp B.
Tập con: Tập hợp A gọi là tập con của tập hợp B (kí hiệu
A B) nếu mọi phần tử của A đều thuộc B.
Phần bù: Nếu A X thì X\A gọi là phần bù của tập hợp A
đối với tập hợp X. Khi đó ta kí hiệu Ac X \ A hay kí hiệu
A X \ A .
Ví dụ 1.1: Cho các tập hợp: X 1;2;3;4;5;6
A 2;4;6 ; A 4;5;6
Khi đó ta có:
A B 2;4;5;6
A B 4;6
A X; B X
A \ B 2 ; B \ A 5
A 1;3;5 ; B 1; 2,3
1.1.2 Giải tích tổ hợp: Cho tập hợp gồm n phần tử (n > 0),
khi đó:
Hoán vị: Cho tập hợp gồm n phần tử (n > 0), sắp xếp n
phần tử vào n vị trí. Mỗi một cách sắp xếp gọi là một hoán
vị. Số hoán vị (số kết quả sắp xếp) đƣợc tính theo công
thức:
Pn n!
Ví dụ 1.2: Có 5 bác sỹ cùng ngồi vào bàn để tham gia
buổi hội chẩn, hỏi có bao nhiêu cách bố trí bảng tên của
5 bác sỹ này vào bàn?
Giải:
6
Số cách bố trí bảng tên của 5 bác sỹ này vào bàn tham
gia hội chẩn là
P5 5! 120 cách
Tổ hợp: Cho tập hợp gồm n phần tử (n > 0), từ tập hợp này
lấy ngẫu nhiên ra k phần tử (0 <k n). Mỗi một cách lấy ra
gọi là một tổ hợp chập k của n phần tử. Nói cách khác:
Chọn ngẫu nhiên k phần tử từ n phần tử (k n) sao cho k
phần tử đó không lặp và không có phân biệt thứ tự. Số tổ
hợp (số cách chọn) đƣợc tính theo công thức.
n!
C nk
k!(n k )!
Ví dụ 1.3: Khoa sản nhi có 10 bác sỹ, hỏi có bao nhiêu
cách chọn ngẫu nhiên 3 bác sỹ để bố trí lịch trực?
Giải:
Số cách chọn ngẫu nhiên 3 bác sỹ trong tổng số 10 bác
sỹ để bố trí lịch trực là: C103 120 cách
Chỉnh hợp không lặp: Từ tập hợp gồm n phần tử (n > 0),
sắp xếp n phần tử của tập hợp này vào k vị trí (0 <k n)
(Mỗi vị trí chứa một phần tử, mỗi phần tử chỉ xuất hiện
một lần trong mỗi cách sắp xếp). Mỗi một cách sắp xếp gọi
là một chỉnh hợp không lặp chập k của n phần tử. Nói cách
khác: Chọn ngẫu nhiên k phần tử từ n phần tử (k n) sao
cho k phần tử đó không lặp và có phân biệt thứ tự. Số
chỉnh hợp (số cách chọn) đƣợc tính theo công thức:
n!
Ank
(n k )!
Ví dụ 1.4: Khoa ngoại có 10 bác sỹ, hỏi có bao nhiêu
cách chọn ngẫu nhiên 3 bác sỹ để cử tham gia 3 tổ công
7
tác theo yêu cầu của Ban Giám đốc bệnh viện?
Giải:
Số cách chọn ngẫu nhiên 3 bác sỹ trong tổng số 10 bác
sỹ để cử tham gia 3 tổ công tác theo yêu cầu của Ban
Giám đốc bệnh viện là: A103 720 cách
Chỉnh hợp lặp: Từ tập hợp gồm n phần tử (n > 0), sắp xếp
n phần tử của tập hợp này vào k vị trí (0 < k) (Mỗi vị trí
chứa một phần tử, mỗi phần tử có thể xuất hiện nhiều lần
trong mỗi cách sắp xếp). Mỗi một cách sắp xếp gọi là một
chỉnh hợp lặp chập k của n phần tử. Nói cách khác: Số
cách chọn ngẫu nhiên k phần tử từ n phần tử sao cho k
phần tử đó có thể lặp lại và có phân biệt thứ tự. Số chỉnh
hợp (số cách chọn) đƣợc tính theo công thức:
k
An nk
Ví dụ 1.5: Mỗi vé số của mỗi tỉnh gồm có 6 chữ số. Hỏi
mỗi tỉnh khi phát hành mỗi đợt sẽ phát hành được bao
nhiêu vé số khác nhau?
Giải:
Ta có mỗi vé số gồm có 6 chữ số, nên ta có thể xem
việc phát hành ra một vé số là việc chọn ra 6 số bất kỳ có
thứ tự có thể trùng nhau từ 10 số từ 0 đến 9. Do đó mỗi
vé số đƣợc phát hành có thể đƣợc xem là một chỉnh hợp
lặp chập 6 của 10. Vậy số vé số có thể phát hành mỗi đợt
của mỗi tỉnh là số chỉnh hợp lặp chập 6 của 10:
6
A10 106 1000000 (vé số)
Quy tắc nhân: Giả sử một công việc có k giai đoạn thực
hiện hay ta sắp xếp các phần tử của tập hợp vào k vị trí.
Giai đoạn thứ 1 hay vị trí thứ 1 có n1 cách chọn phần tử
sắp xếp
8
Giai đoạn thứ 2 hay vị trí thứ 2 có n2 cách chọn phần tử
sắp xếp
9
và bác sỹ nữ nên có 2 trƣờng hợp xảy ra:
Trƣờng hợp 1: Có 2 bác sỹ nam và 1 bác sỹ nữ, số
cách là: C62 .C41 60 cách
Trƣờng hợp 2: Có 1 bác sỹ nam và 2 bác sỹ nữ, số
cách là: C61.C42 36 cách
Vậy, số cách lập tổ công tác 3 bác sỹ sao cho phải có
bác sỹ nam và bác sỹ nữ là: 60 36 96 cách
1.2 PHÉP THỬ, KHÔNG GIAN MẪU VÀ BIẾN CỐ
1.2.1 Phép thử ngẫu nhiên (Hiện tƣợng ngẫu nhiên)
Phép thử ngẫu nhiên là một thí nghiệm hay hành động mà
kết quả của nó không đoán trƣớc đƣợc nhƣng có thể xác
định đƣợc tập hợp tất cả các kết quả có thể xảy ra của phép
thử đó
Trong thực tế cho thấy có rất nhiều thí nghiệm khi tiến
hành nhiều lần trong cùng điều kiện ban đầu nhƣng không
dẫn đến cùng kết quả. Chẳng hạn khi tung một con xúc xắc
xem nhƣ thực hiện một thí nghiệm, khi đó ta không thể
đoán trƣớc đƣợc chắc chắn kết quả xuất hiện là mặt mấy
chấm.
Ví dụ 1.8: Lƣợng mƣa trong năm; đầu tƣ vào một dự án;
tham gia một kỳ thi tuyển sinh; kinh doanh một mặt hàng
nào đó; điều trị cho một bệnh nhân;… là các hiện tƣợng
ngẫu nhiên.
1.2.2 Không gian mẫu và biến cố
a) Biến cố sơ cấp, không gian mẫu
Biến cố sơ cấp: mỗi kết quả có thể xảy ra của một phép thử
ngẫu nhiên đƣợc gọi là biến cố sơ cấp.
10
Không gian mẫu (không gian các biến cố sơ cấp) là tập
hợp tất cả các kết quả có thể xảy ra của phép thử. Ký hiệu
là , số phần tử của không gian mẫu ký hiệu là n()
Ví dụ 1.9: Điều trị bệnh cho một ngƣời. Gọi A là sự kiện
ngƣời này đƣợc điều trị khỏi bệnh; B là sự kiện ngƣời này
không đƣợc điều trị khỏi bệnh, khi đó:
Phép thử này có 2 biến cố sơ cấp : A; B.
Không gian mẫu ={A; B}
Ví dụ 1.10: Từ một hộp đựng 10 lá phiếu có 3 phiếu ƣu
tiên, rút ngẫu nhiên ra 1 thăm. Khi đó: Phép thử này có 10
biến cố sơ cấp (kết quả có thể xảy ra), trong đó có 3 biến
cố sơ cấp (kết quả) là phiếu ƣu tiên và 7 biến cố sơ cấp (kết
quả) là phiếu không ƣu tiên. Không gian mẫu gồm 10 phần
tử.
b) Biến cố ngẫu nhiên (gọi tắt là biến cố)
Với một phép thử ngẫu nhiên, mỗi sự kiện mà ta không thể
khẳng định chắc chắn nó xảy ra hay không xảy ra gọi là
biến cố ngẫu nhiên. Biến cố ngẫu nhiên là tập hợp gồm
một số biến cố sơ cấp, do đó biến cố ngẫu nhiên là tập hợp
con của không gian mẫu . Biến cố ngẫu nhiên thƣờng kí
hiệu: A, B, C, D, …
Ví dụ 1.11: Một hộp đựng 8 dƣợc phẩm loại A và 2 dƣợc
phẩm loại B. Từ hộp này, lấy ngẫu nhiên ra 1 dƣợc phẩm.
Gọi A là biến cố lấy đƣợc dƣợc phẩm loại A; B là biến
cố lấy đƣợc dƣợc phẩm loại B.
a. Không gian mẫu gồm 10 biến cố sơ cấp (10
phần tử).
b. Biến cố ngẫu nhiên A gồm 8 biến cố sơ cấp (8
phần tử)
11
c. Biến cố ngẫu nhiên B gồm 2 biến cố sơ cấp (2
phần tử)
Ví dụ 1.12: Một hộp đựng 8 dƣợc phẩm loại A và 2 dƣợc
phẩm loại B. Từ hộp này, lấy ngẫu nhiên ra 2 dƣợc phẩm.
Gọi A là biến cố lấy đƣợc hai dƣợc phẩm loại A;
B là biến cố lấy đƣợc hai dƣợc phẩm loại B.
C là biến cố lấy đƣợc 1 dƣợc phẩm loại A, 1
dƣợc phẩm loại B
a. Không gian mẫu gồm C10
2
45 biến cố sơ cấp
(45 phần tử).
b. Biến cố ngẫu nhiên A gồm C82 28 biến cố sơ cấp
(28 phần tử)
c. Biến cố ngẫu nhiên B gồm C 22 1 biến cố sơ cấp
(1 phần tử)
d. Biến cố ngẫu nhiên C gồm C18 .C12 16 biến cố
sơ cấp (16 phần tử)
2.2.3. Biến cố chắc chắn, biến cố không thể.
Biến cố chắc chắn là biến cố nào mà luôn chắc chắn xảy ra
trong phép thử là, kí hiệu:
Biến cố không thể là biến cố nào mà không thể xảy ra trong
phép thử, kí hiệu:
1.2.3 Phép toán trên biến cố
a) Quan hệ giữa các biến cố
Biến cố A đƣợc gọi là kéo theo biến cố B (kí hiệu A
B) nếu A xảy ra kéo theo B cũng xảy ra.
Biến cố A và B đƣợc gọi là bằng nhau (kí hiệu A B)
nếu A kéo theo B và B kéo theo A.
12
Ví dụ 1.13: Hộp thứ nhất đựng 10 chai thuốc, trong đó có 4
chai thuốc loại I và 6 chai thuốc loại II; hộp thứ hai đựng 8
chai thuốc, trong đó có 3 chai thuốc loại I và 5 chai thuốc
loại II. Lấy ngẫu nhiên mỗi hộp ra 1 chai thuốc.
Xét các biến cố:
A là biến cố lấy đƣợc 1 chai thuốc loại I ở hộp thứ nhất
và 1 chai thuốc loại II ở hộp thứ hai;
B là biến cố lấy đƣợc hai chai thuốc loại I;
C là biến cố lấy đƣợc hai chai thuốc cùng một loại;
D là biến cố lấy đƣợc hai chai thuốc khác loại.
Các kết quả sau, kết quả nào đúng:
a. Nếu A xảy ra thì D xảy ra
b. Nếu D xảy ra thì A xảy ra
c. Nếu B xảy ra thì C xảy ra
d. Nếu C xảy ra thì B xảy ra
e. Số phần tử của bằng 80
f. Số phần tử của A bằng 20
g. Số phần tử của B bằng 12
h. Số phần tử của C bằng 42
i. Số phần tử của D bằng 38
b) Các phép toán trên biến cố
a. Phép cộng (hợp): Tổng của hai biến cố A và B, kí
hiệu A B là biến cố xảy ra khi và chỉ khi ít nhất một
trong hai biến cố A, B xảy ra.
b. Phép nhân (giao): Tích của hai biến cố A và B, kí
hiệu A B là biến cố xảy ra khi và chỉ khi cả hai biến cố
A, B đồng thời xảy ra.
c. Phép trừ: Hiệu của hai biến cố A và B, kí hiệu A\B là
biến cố xảy ra khi và chỉ khi biến cố A xảy ra mà biến cố
B không xảy ra.
13
d. Biến cố đối lập, biến cố xung khắc:
Ta gọi A = \A là biến cố đối lập của biến cố A
Hai biến cố A, B gọi là xung khắc nếu A B
(A, B không đồng thời xảy ra)
Chú ý: Những tính chất của phép cộng, nhân và trừ
giống nhƣ các tính chất của phép hợp, giao và hiệu của lý
thuyết tập hợp.
Ví dụ 1.14: Hộp 1 đựng 10 lọ thuốc, trong đó có 2 lọ không
đạt chuẩn, 8 lọ đạt chuẩn; hộp 2 gồm 10 lọ thuốc, trong đó
có 1 lọ không đạt chuẩn, 9 lọ đạt chuẩn. Lấy ngẫu nhiên
mỗi hộp ra 1 lọ thuốc
Xét các biến cố:
A1 là biến cố lấy đƣợc lọ đạt chuẩn ở hộp 1
A2 là biến cố lấy đƣợc lọ đạt chuẩn ở hộp 2
A là biến cố lấy đƣợc 2 lọ đạt chuẩn
B là biến cố lấy đƣợc 1 lọ đạt chuẩn và 1 lọ không đạt
chuẩn.
Khi đó, đáp án nào đúng, đáp án nào sai:
a. A = A1 A2
b. Số phần tử của là 100
c. A, B xung khắc
d. Số phần tử của A là 72
1.3 ĐỊNH NGHĨA XÁC SUẤT
1.3.1 Định nghĩa xác suất cổ điển
Định nghĩa: Với không gian biến cố sơ cấp hữu hạn
phần tử, các biến cố sơ cấp đồng khả năng. A là một biến
cố trong không gian . Khi đó xác suất (khả năng) biến cố
n(A)
A xảy ra đƣợc xác định: P(A)
n ( )
14
Trong đó:
n(A) số biến cố sơ cấp (phần tử) có trong A (Số trƣờng
hợp để A xảy ra)
n() là số biến cố sơ cấp (phần tử) của không gian
(Tổng số trƣờng hợp có thể xảy ra của phép thử).
Ví dụ 1.15: Một lớp y khoa có 30 sinh viên và 20 sinh viên
nữ. Chọn ngẫu nhiên một sinh viên trong lớp này.
Ta thấy, khi chọn ngẫu nhiên một sinh viên trong lớp thì
mỗi sinh viên đều có khả năng đƣợc chọn là nhƣ nhau nên
không gian mẫu có 50 kết quả (biến cố sơ cấp) đồng khả
năng có thể xảy ra.
Gọi A là biến cố sinh viên chọn ra là sinh viên nam, ta
có:
n( A) 30
P( A) 0,6
n() 50
n(A) 20
P(A) 0, 4
n() 50
Ví dụ 1.16: Một hộp đựng 6 vĩ thuốc nhóm I và 4 vĩ thuốc
nhóm II, lấy ngẫu nhiên từ hộp ra 3 vĩ thuốc. Khi đó:
a. Không gian biến cố sơ cấp có bao nhiêu phần tử.
b. Gọi B là biến cố lấy đƣợc 3 vĩ thuốc nhóm II. Tìm
P(B)
c. Gọi C là biến cố lấy đƣợc 3 vĩ thuốc cùng một nhóm.
Tìm P(C)
d. Gọi D là biến cố lấy đƣợc 3 vĩ thuốc không cùng một
nhóm. Tìm P(D)
Giải
a. Số phần tử của không gian biến cố sơ cấp là
n() C103 120
15
n(B) C43
b. P ( B ) 0,033
n() C103
n(C) C63 C43
c. P (C) 0, 2
n ( ) C103
n(D) C61C42 C62C41
d. P(D) 0,8
n () C103
1.3.2 Định nghĩa xác suất theo tần suất
Định nghĩa: Giả sử một phép thử có thể lặp lại n lần độc
lập, trong đó biến cố A xuất hiện m lần trong n lần thực
m
hiện phép thử. Khi đó ta gọi f là tần suất xuất hiện
n
biến cố A. Khi số lần lặp n của phép thử càng lớn, tần suất
m
của biến cố A tiến về một số cố định p, ta nói biến cố A
n
ổn định ngẫu nhiên và p chính là xác xuất của biến cố A.
m
Và nhƣ vậy khi n đủ lớn ta có thể xấp xĩ p , nghĩa là:
n
m
P( A)
n
Ví dụ 1.17: Thống kê kết quả xổ số kiến thiết của một Tỉnh
với tổng số lần quay lòng cầu là 12715 lần, kết quả nhƣ sau
Số bóng Số lần Tỷ lệ
0 1266 9.96%
1 1305 10.26%
2 1224 9.63%
3 1276 10.04%
4 1251 9.84%
5 1289 10.14%
6 1262 9.93%
7 1298 10.21%
16
8 1253 9.85%
9 1291 10.15%
Tổng 12715 100%
Bảng thực nghiệm, cho thấy xác suất để một chữ số xuất
hiện xấp xỉ p = 10%. Theo công thức xác suất cổ điển, xác
suất để mỗi quả bóng rơi xuống lòng cầu trong một lần
quay lòng cầu là 10%. Bảng thống kê trên cho thấy tỷ lệ
xuất hiện của mỗi quả bóng cũng giao động quanh 10%.
Ví dụ 1.18: Để biết xác suất (khả năng) áp dụng một phác
đổ điều trị sẽ điều trị khỏi bệnh là bao nhiêu, ngƣời ta tiến
hành áp dụng phác đồ điều trị để điều trị cho n ngƣời bệnh,
với n đủ lớn (mỗi lần điều trị xem nhƣ thực hiện một phép
thử), sau đó ghi nhận số lần điều trị khỏi bệnh (giả sử có m
lần điều trị khỏi bệnh).
m
Khi đó: f đƣợc xem là xác suất (khả năng) điều trị
n
khỏi bệnh của phác đồ điều trị này.
1.4 CÔNG THỨC TÍNH XÁC SUẤT
1.4.1 Công thức cộng
Xét trƣờng hợp có 2 biến cố A, B:
P(A B) = P(A) + P(B) – P(A B)
P(A B) = P(A) + P(B), (nếu A, B xung khắc)
Xét trƣờng hợp có 3 biến cố A, B, C:
P(A B C) = P(A) + P(B) + P(C) – P(A B) –
P(A C) – P (B C) + P(A B C)
Nếu A, B, C đôi một xung khắc thì
P(A B C) = P(A)+P(B)+P(C)
Tổng quát: Cho n biến cố ngẫu nhiên A1, A2,…, An trên
cùng không gian biến cố sơ cấp . Khi đó:
17
n n
P( Ak ) P( Ak ) P( A A ) P( A A A ) ... (1)
k j k j l
n 1
P( A1 A2 ... An )
k 1 k 1 1 k j n 1 k j l n
Nếu các biến cố A1, A2,…, An đôi một xung khắc thì
n n
P( Ak ) P( Ak )
k 1 k 1
18
Gọi A là biến cố khách hàng biết đƣợc thông tin
quảng cáo của công ty trên truyền hình.
B là biến cố khách hàng biết đƣợc thông tin quảng
cáo của công ty trên báo.
Khi đó ta có:
P( A B) P(A) P(B) P(A B)
= 35% + 20% -10% = 45%
1.4.2 Xác suất có điều kiện
Ta gọi P( A B) là xác suất của biến cố A với điều kiện biến
cố B đã xảy ra (hay còn gọi P( A B ) là xác suất của biến cố
A trên không gian điều kiện B) và nó đƣợc tính bởi công
n( A B ) P ( A B )
thức P( A B)
n( B ) P( B)
Hai biến cố A và B gọi là độc lập nếu P ( A B ) P ( A) ;
P( B A) P( B)
Ví dụ 1.21: Một xét nghiệm (XN) T dùng để chẩn đoán
bệnh B. Qua thống kê cho thấy, trong 20 ngƣời mắc bệnh,
XN T chẩn đoán đúng 18 ngƣời; trong 30 ngƣời không
mắc bệnh, XN T chẩn đoán đúng 27 ngƣời.
Gọi T+ là biến cố xét nghiệm T cho dƣơng tính; T- là
biến cố XN T cho âm tính.
B là biến cố mắc bệnh; B là biến cố không mắc bệnh
19
Giải
18 3 21
a. P(T ) 0, 42
50 50
18 9
P(T B) 0,9
20 10
18
b. P(B T ) 0,8571
21
1.4.3 Công thức nhân
Xét trƣờng hợp 2 biến cố A và B, từ công thức xác suất
điều:
P( A B) P( B) P( A B) P( A) P( B A)
P( A B) P( A) P( B) (nếu A, B độc lập)
Tổng quát:
n
P( Ak ) P( A1 ) P( A2 A1 ) P( A3 A1 A2 )...P( An A1 ... An 1 )
k 1
Nếu A1, A2,…, An là các biến cố độc lập thì:
n n
P( Ak ) P( Ak )
k 1 k 1
20
Giải
a. Gọi A là biến cố lấy đƣợc 1 dƣợc phẩm không đạt
tiêu chuẩn trong 2 dƣợc phẩm lấy ra
A1, A2 lần lƣợt là biến cố lấy đƣợc dƣợc phẩm không
đạt tiêu chuẩn từ lô thứ nhất và lô thứ hai
P( A) P( A1 A2 A1 A2 ) P( A1 ) P( A2 ) P( A1 ) P( A2 )
10 85 90 5
0,144
100 90 100 90
b. Gọi B là biến cố lấy đƣợc 1 dƣợc phẩm không đạt
tiêu chuẩn trong 2 dƣợc phẩm lấy ra
B1, B2 lần lƣợt là là biến cố chọn đƣợc lô thứ nhất và lô
thứ hai
P(B) P( B1 ) P( B B1 ) P( B2 ) P( B B2 )
1 C101 C90
1
1 C51C85
1
2 2 0,144
2 C100 2 C90
1.4.4 Công thức xác suất nhị thức (công thức Bernoulli)
Xét n phép thử độc lập (kết quả xảy ra hay không xảy ra
phép thử này không ảnh hƣởng đến kết quả xảy ra hay
không xảy ra của phép thử khác), mỗi phép thử ta chỉ quan
tâm đến hai biến cố A và A và P(A) = p (không đổi với
mỗi phép thử)
Xác suất để biến cố A xuất hiện k lần trong n phép thử
đƣợc xác định:
nk
P = P (n; k; A)= Cn p (1 p) , k = 0, 1, 2, …,n
k k
Ví dụ 1.23: Xác suất trị khỏi bệnh của một loại thuốc là
0,8. Dùng loại thuốc này điều trị cho 5 bệnh nhân. Tính
xác suất
a. Có 3 bệnh nhân khỏi bệnh.
21
A: biến cố khỏi bệnh với P(A) = 0,8
3 3 5 3
P(3; A) C 0,8 (1 0,8)
5 0, 2048
b. Có ít nhất 1 bệnh nhân khỏi bệnh.
C: biến cố có ít nhất 1 bệnh nhân khỏi
bệnh
P(C ) 1 P(C ) 1 C50 0,80 (1 0,8)5 0
0,99968
1.4.5 Công thức xác suất đầy đủ và công thức Bayes
a. Hệ đầy đủ các biến cố: Dãy n biến cố A1, A2,…, An lập
thành hệ đầy đủ nếu thỏa mãn 2 điều kiện sau:
i. A1 A2 … An =
ii. Ai Aj = , i j
Ví dụ 1.24: Ở một bệnh viện, bệnh nhân điều trị thuộc
nhóm bệnh A là 50%, nhóm bệnh B là 30% và nhóm bệnh
C là 20%. Rút ngẫu nhiên hồ sơ bệnh án của một bệnh
nhân đã điều trị tại bệnh viện.
Xét các biến cố:
A là biến cố rút ngẫu nhiên hồ sơ bệnh án của một bệnh
nhân nhóm bệnh A.
B là biến cố rút ngẫu nhiên hồ sơ bệnh án của một bệnh
nhân nhóm bệnh B.
C là biến cố rút ngẫu nhiên hồ sơ bệnh án của một bệnh
nhân nhóm bệnh C.
Khi đó A, B, C là hệ đầy đủ các biến cố.
b. Công thức xác suất đầy đủ
Trong không gian cho hệ đầy đủ các biến cố A1, A2,…,
An , A là một biến cố bất kỳ của , Khi đó ta có:
P( A) P( A1 ) P( A A1 ) P( A2 ) P( A A 2 ) ... P( An ) P( A An )
c. Công thúc Bayes
22
Nếu P( A) 0 thì P( Ak A) P( Ak ) P( A Ak ) , k = 1,2,…,n,
P ( A)
Ví dụ 1.25: Ở một bệnh viện, bệnh nhân điều trị thuộc
nhóm bệnh A là 50%, nhóm bệnh B là 30% và nhóm bệnh
C là 20%. Tỉ lệ bệnh nhân điều trị có phẫu thuật tƣơng ứng
là 1%, 2% và 5%. Rút ngẫu nhiên hồ sơ bệnh án của một
bệnh nhân đã điều trị tại bệnh viện.
a. Tính xác suất để hồ sơ này có phẫu thuật.
b. Nếu hồ sơ rút đƣợc là hồ sơ có phẫu thuật thì xác
suất hồ sơ này thuộc nhóm bệnh B là bao nhiêu?
Giải
Gọi B là biến cố rút hồ sơ bệnh án có phẫu thuật
B1, B2 , B2lần lƣợt là là biến cố rút hồ sơ bệnh án thuộc
nhóm bệnh A, B, C.
a. Áp dụng công thức xác suất đầy đủ, ta có:
P(B) P( B1 ) P( B B1 ) P( B2 ) P( B B2 ) P( B3 ) P( B B3 )
50% 1% 30% 2% 20% 5% 2,1%
b. Áp dụng công thức bayes, ta có:
P( B2 ) P( B B2 )
P (B2 B)
P( B)
30% 2%
28,57%
2,1%
1.5 XÁC SUẤT TRONG CHẨN ĐOÁN
Chẩn đoán: theo từ điển tiếng Việt thì chẩn đoán là xác
định bệnh dựa trên triệu chứng và kết quả xét nghiệm
(XN). Theo từ điển y khoa thì chẩn đoán là qui trình xác
định bản chất của một bệnh bằng cách xem xét các dấu
hiệu và triệu chứng của bệnh nhân và khi cần thiết, xem
xét kết quả các XN lâm sàng.
23
1.5.1 Phân biệt: bệnh trạng và kết quả xét nghiệm
Câu hỏi đặt ra, làm sao để biết một ngƣời có bệnh hay
không có bệnh, trạng thái bệnh và không bệnh là một hiện
tƣợng mà chúng ta khó quan sát đƣợc, cá biệt có trƣờng
hợp là không quan sát đƣợc. Vì khó quan sát (không quan
sát) trực tiếp đƣợc nên chúng ta phải dùng các phƣơng
pháp gián tiếp nhƣ X quang và XN bằng các phƣơng pháp
sinh hóa. Chẳng hạn nhƣ để biết một ngƣời có bệnh tiểu
đƣờng hay không thì có thể dùng XN phân tích máu và
phân tích nƣớc tiểu.
Kết quả XN cho hai kết quả âm tính và dƣơng tính, thực
tế dù phƣơng pháp XN có hoàn hảo và chính xác đến đâu
đi nữa thì vẫn có khả năng xảy ra sai sót. Chẳng hạn nhƣ
để chẩn đoán bệnh tiểu đƣờng, khi XN nƣớc tiểu có kết
quả dƣơng tính nhƣng thật sự ngƣời này không có bệnh
tiểu đƣờng, hay có kết quả âm tính nhƣng thật sự ngƣời
này có bệnh tiểu đƣờng.Tức là thực tế chúng ta có bốn khả
năng xảy ra: (1) có bệnh, kết quả XN dƣơng tính, đây là
dƣơng tính thật (sensitivity or true positive); (2) không có
bệnh, kết quả XN dƣơng tính, đây là dƣơng tính giả (false
positive); (3) không có bệnh, kết quả XN âm tính, đây là
âm tính thật (specificity or true negative); (4) có bệnh, kết
quả XN âm tính, đây là âm tính giả (false negative).
Kết quả XN Tình trạng “thật” của bệnh
Có bệnh Không có bệnh
Dƣơng tính Dƣơng tính thật Dƣơng tính giả
Âm tính Âm tính giả Âm tính thật
1.5.2 Độ nhạy (sensitivity), độ đặc hiệu (specificity), trị
số tiên đoán
24
Để đánh giá độ chính xác của một phƣơng pháp XN, thì
trong nghiên cứu thƣờng ƣớc tính tỉ lệ dƣơng tính thật, độ
nhạy (sensitivity probability) và tỉ lệ âm tính thật, độ đặc
hiệu (specificity probability).
Giả sử ta dùng phƣơng pháp XN T để chẩn đoán bệnh
B, gọi T+: kết quả XN dƣơng tính; T-: kết quả XN âm tính;
B: bệnh nhân mắc bệnh B.
Độ nhạy của XN: là xác suất XN T cho kết quả dƣơng
tính đối với ngƣời mắc bệnh: P(T B)
Độ đặc hiệu (hay còn gọi là độ chuyên) của XN: Là xác
suất XN T cho kết quả âm tính đối với ngƣời không mắc
bệnh: P(T B )
Độ nhạy và độ đặc hiệu của XN không cung cấp thông
tin về xác suất mà bệnh nhân mắc bệnh không mắc bệnh
này là bao nhiêu khi đã có kết quả XN là âm tính hay
dƣơng tính, nghĩa là chúng ta cần biết thêm về xác suất tiên
đoán dƣơng tính hay âm tính.
Xác suất tiên đoán: Là xác suất chẩn đoán ngƣời XN có
bệnh (không có bệnh) khi kết quả xét nghiệm T cho dƣơng
tính (âm tính ): P( B T ) ; P( B T ) .
P( B T ) : giá trị tiên đoán dương tính hay giá trị của
phản ứng dƣơng tính (positive predictive value – PPV).
Theo công thức Bayes thì
P( B T ) P( B) P(T B)
PPV P( B T )
P(T ) P( B) P(T B) P( B) P(T B)
P( B T ) : giá trị tiên đoán âm tính hay giá trị của phản
ứng âm tính (negative predictive value – NPV).
25
Theo công thức Bayes thì
P( B T ) P( B) P(T B)
NPV P( B T )
P(T ) P( B) P(T B) P( B) P(T B)
Hai chỉ số PPV và NPV phụ thuộc vào ba yếu tố là độ
nhạy, độ đặc hiệu và tỉ lệ hiện hành của bệnh (prevalence),
PPV là một chỉ số quan trọng trong chẩn đoán vì nó cung
cấp thông tin ta cần biết là khả năng bệnh nhân mắc bệnh
này khi đã có kết quả XN dƣơng tính là bao nhiêu? Tuy
nhiên, thực tế có thể chúng ta diễn giải nhầm là tỉ lệ dƣơng
tính thật là PPV, tức là nhầm lẫn giữa độ nhạy P(T B) và
xác suất bệnh nhân sẽ mắc bệnh khi XN dƣơng tính
P( B T ) .
Giá trị đúng của XN (phản ứng): là xác suất chẩn đoán
đúng sau khi xét nghiệm cho kết quả dƣơng tính hay âm
tính: P( B) P(T B) P( B) P(T B)
Tóm lại, giả sử ta có một nghiên cứu trên n đối tƣợng
đƣợc cho trong bảng sau:
Kết quả Tình trạng “thật” của bệnh Tổng
XN Có bệnh Không có bệnh
Dƣơng tính A B a+b
Âm tính C D c+d
Tổng a+c b+d n=a+b+c+d
Độ nhạy (sensitivity) - tỉ lệ dương tính thật:
a
P(T B)
ac
Độ đặc hiệu( specificity)- tỉ lệ âm tính thật:
26
d
P(T B )
bd
b
Tỉ lệ dương tính giả : P(T B) 1 P(T B)
bd
c
Tỉ lệ âm tính giả : P(T B) 1 P(T B)
ac
Giá trị tiên đoán dương tính (positive predictive value-PPV):
a
P( B T )
ab
Giá trị tiên đoán âm tính (negative predictive value – NPV):
d
P( B T )
cd
Giá trị đúng của XN (phản ứng):
ad
P( B) P(T B) P( B) P(T B)
n
Ví dụ 1.26: Phƣơng pháp chuẩn để chẩn đoán bệnh tiểu
đƣờng là phân tích máu. Nếu kết quả phân tích máu dƣơng
tính thì xem nhƣ bệnh nhân bệnh tiểu đƣờng và điều trị, kết
quả phân tích máu âm tính thì xem nhƣ bệnh nhân không
bệnh tiểu đƣờng. Ngƣời ta tiến hành nghiên cứu trên 1000
ngƣời XN bằng phƣơng pháp phân tích máu và phân tích
nƣớc tiểu, với số liệu nhƣ sau:
Kết quả XN Tình trạng “thật” của bệnh tiểu
phân tích đƣờng (kết quả XN phân tích máu) Tổng
nƣớc tiểu Có bệnh Không có bệnh
Dƣơng tính 10 30 40
Âm tính 160 800 960
Tổng 170 830 1000
Khi đó ta có các kết quả:
27
Độ nhạy - tỉ lệ dương tính thật :
a 10
P(T B) 0,059
a c 170
Độ đặc hiệu- tỉ lệ âm tính thật:
d 800
P(T B) 0,964
b d 830
Tỉ lệ dương tính giả :
P(T B) 1 P(T B) 1 0,964 0,036
Tỉ lệ âm tính giả :
c
P(T B) 1 0,059 0,941
ac
Giá trị tiên đoán dương tính PPV:
a 10
P( B T ) 0, 25
a b 40
Giá trị tiên đoán âm tính NPV:
d 800
P( B T ) 0,833
c d 960
Giá trị đúng của XN:
a d 10 800
P( B) P(T B) P( B) P(T B) 0,81
n 1000
Qua kết quả phân tích, ta thấy phƣơng pháp XN bằng
phân tích nƣớc tiểu chỉ phát hiện 5,9% trong số những
ngƣời thật sự mắc bệnh tiểu đƣờng, nghĩa là 94,1% bệnh
nhân bệnh tiểu đƣờng khi XN phân tích nƣớc tiểu có kết
quả âm tính. Nhƣng XN phân tích nƣớc tiểu khá chính xác
khi tuyên bố bệnh nhân không mắc bệnh tiểu đƣờng, vì tỉ
lệ âm tính thật là 96,4% trong số những ngƣời thật sự
không mắc bệnh tiểu đƣờng.
28
Ví dụ 1.27: (Minh họa sự nhầm lẫn giữa P(T B) và
P( B T ) ).
Để chẩn đoán bệnh ung thƣ vú ở phụ nữ đã sinh con,
ngƣời ta dùng phƣơng pháp sinh thiết vú, giả sử phƣơng
pháp sinh thiết vú có độ nhạy 90% và độ đặc hiệu là 95%.
Ở một địa phƣơng có 100000 phụ nữ đã sinh con và qua
nghiên cứu dịch tễ học, biết rằng có khoảng 1% trong số
này mắc bệnh ung thƣ vú.
Ta có tỉ lệ bệnh 1%, tức là trong tổng số 100000 phụ nữ
này thì có 1000 phụ nữ bị ung thƣ vú và 99000 không bị
ung thƣ vú. Phƣơng pháp sinh thiết vú có độ nhạy 90%
nên trong số 1000 phụ nữ bị ung thƣ vú thì sẽ có
1000 x 90% = 900 phụ nữ sinh thiết vú có kết quả dƣơng
tính. Phƣơng pháp sinh thiết vú có độ đặc hiệu là 95% nên
trong số 99000 phụ nữ không bị ung thƣ vú thì sẽ có
99000 x 95% = 94050 phụ nữ sinh thiết vú có kết quả
dƣơng tính và 99000 – 94050 = 4950 phụ nữ có kết quả
dƣơng tính. Từ kết quả phân tích này, ta có thể tóm lại
bằng bảng sau:
Kết quả Tình trạng “thật” của bệnh
sinh thiết vú ung thƣ vú Tổng
Có bệnh Không có bệnh
Dƣơng tính 900 4950 5850
Âm tính 100 94050 94150
Tổng 1000 99000 100000
Nhƣ vậy, ta có tất cả là 5850 phụ nữ có kết quả sinh
thiết vú dƣơng tính, nhƣng trong số này chỉ có 900 thật sự
900
có bệnh ung thƣ vú, PPV P( B T ) 15,3% . Nói
5850
29
cách khác xác suất mà phụ nữ này mắc bệnh ung thƣ vú là
15,3% ( chứ không phải là 90% = độ nhạy - tỉ lệ dƣơng
tính thật là 90%)
Ví dụ 1.28: Một bà 22 tuổi đến khám vì hồi hộp. Khám lâm
sàng không phát hiện đƣợc gì. Theo kinh nghiệm, trong
trƣờng hợp này bạn cho là khả năng 35% bị sa van tim
(MVP). Giả sử xét nghiệm (XN) T dùng để chẩn đoán
bệnh MVP có độ nhạy 80% và độ chuyên 90%. Cho bà này
làm XN T thì có kết quả dƣơng tính, khả năng bà này bị
MVP là bao nhiêu %?
Giải
Gọi B là biến cố ngƣời này mắc bệnh;
T là biến cố XN T có kết quả dƣơng tính;
T là biến cố XN T có kết quả âm tính;
Theo đề bài, ta có:
P( B T ) P( B) P(T B)
P( B T )
P (T ) P ( B ) P (T B ) P ( B ) P (T B )
0,35 0,8
0,812
0,35 0,8 0,65 0,1
Ví dụ 1.29: (hai XN nối tiếp nhau)
Có hai XN T1 và T2 dùng để chẩn đoán bệnh B; T1 có độ
nhạy 93% và độ đặc hiệu 95%; T2 có độ nhạy 97% và độ
đặc hiệu 90%. T1 dùng để sàn lọc những ngƣời có nguy cơ
bị bệnh B; T2 dùng để chẩn đoán bệnh này trên những
30
ngƣời mà T1 cho kết quả dƣơng tính. Một ngƣời đến từ khu
vực dân cƣ có tỉ lệ bệnh B là 0,1%. Cho ngƣời này làm XN
T1, kết quả XN T1 dƣơng tính. Cho ngƣời này làm tiếp xét
nghiệm T2, kết quả XN T2 cũng dƣơng tính. Tính xác suất
ngƣời này mắc bệnh B.
Giải
Xác suất ngƣời này mắc bệnh B sau khi kết quả XN T1
dƣơng tính:
P( B T1 ) P( B) P(T1 B)
P( B T )
P(T1 ) P( B) P(T1 B) P( B) P(T1 B)
1
0,1% 93%
1,83%
0,1% 93% (1 0,1%) (1 95%)
Xác suất ngƣời này mắc bệnh B sau khi kết quả XN T2
dƣơng tính:
P( B T2 ) P( B) P(T2 B)
P( B T2 )
P(T2 ) P( B) P(T2 B) P( B) P(T2 B)
1,83% 97%
15,31%
1,83% 97% (1 1,83%) (1 90%)
31
CHƢƠNG 2: BIẾN NGẪU NHIÊN VÀ LUẬT PHÂN
PHỐI XÁC SUẤT
Nội dung đƣợc trình bày trong chƣơng 2 bao gồm: Khái
niệm về biến ngẫu nhiên, phân loại biến ngẫu nhiên, các
tham số đặc trƣng của biến ngẫu nhiên và ý nghĩa của
chúng, quy luật phân phối xác suất của biến ngẫu nhiên.
Trình bày chi tiết một số dạng phân phối xác suất của biến
ngẫu nhiên rời rạc và liên tục. Đặc biệt, trình bày các ví dụ
vận dụng kiến thức về quy luật phân phối xác suất và các
tham số đặc trƣng của biến ngẫu nhiên trong lĩnh vực y
học.
2.1 KHÁI NIỆM BIẾN NGẪU NHIÊN (BNN)
BNN X là một hàm số xác định trên không gian biến cố sơ
cấp và nhận giá trị trong R, x R tồn tại biến cố ngẫu
nhiên A sao cho A = { : X ( ) < x}
BNN thƣờng kí hiệu: X, Y, Z,…
Tập giá trị của BNN X: là tập hợp tất cả các giá trị mà X
có thể nhận.
BNN rời rạc: BNN X đƣợc gọi là BNN rời rạc nếu tập giá
trị của X hữu hạn hoặc vô hạn đếm đƣợc.
BNN liên tục: BNN X đƣợc gọi là BNN liên tục nếu tập giá
trị của X dạng (a; b); [a; b); (a; b]; [a; b]
Chú ý: Nếu X, Y là các BNN thì X Y ; XY ; kX (k là
X
hằng số), cũng là các BNN. Hơn nữa, một đa thức của
Y
BNN X, hàm liên tục của BNN X cũng là BNN.
Ví dụ 2.1: Giả sử một gia đình sinh ba đứa con, gọi X là số
con trai, khi đó X đƣợc gọi là BNN.
32
Gọi T là biến cố gia đình sinh con trai
G là biến cố gia đình sinh con gái
Không gian mẫu = {TTT; TTG; TGT; GTT;
TGG; GTG; GGT; GGG}
Trên không gian ta xác định một hàm X lấy giá
trị trên R nhƣ sau:
X: R
X ( ) : là số con trai
Ta thấy : X (GGG) = 0
X (TGG) = X (GTG) = X (GGT) = 1
X( TTG) = X (TGT) = X(GTT) = 2
X (TTT) = 3
Nhƣ vậy tập giá trị của X ( ) là { 0, 1, 2, 3}
Trong ví dụ trên X, ta cũng có thể biểu diễn BNN X
nhận giá trị trong tập số thực R: x R luôn tồn tại biến cố
A : X ( ) x , cụ thể:
x0 A
0 x 1 A GGG
1 x 2 A GGG; TGG; GTG; GGT
2 x 3 A GGG;TGG; GTG; GGT ;TTG;TGT ; GTT
x 3 A
Ví dụ 2.2: Một bệnh nhân cần phải tiến hành truyền máu,
giả sử tại bệnh viện có đội tình nguyện sẵn sàng cho máu
và có tỉ lệ nhóm máu phù hợp để truyền cho bệnh nhân này
60%. Chọn ngẫu nhiên 3 ngƣời (có hoàn lại), gọi X là số
ngƣời có nhóm máu phù hợp để truyền cho bệnh nhân. Khi
đó X là BNN và có tập giá trị là {0,1,2,3}
Gọi A là biến cố ngƣời đƣợc chọn có nhóm máu phù
hợp để truyền cho bệnh nhân, khi đó ta có không gian mẫu
33
= A A A ; A AA ; AA A ; A A A ; AAA ; A AA ; AA A ;
AAA }
Theo công thức bernoulli:
P( X x) C3x 0,6 x (1 0,6)3 x , x 0,1, 2,3
P( X 0) 0,064; P( X 1) 0, 288
P( X 2) 0, 432; P( X 3) 0, 216
Ví dụ 2.3: Chiều cao; cân nặng; huyết áp; các kích thƣớc
đo đƣợc của cơ thể, của các cơ quan nội tạng … là các
BNN liên tục.
2.2 HÀM PHÂN PHỐI XÁC SUẤT VÀ HÀM MẬT
ĐỘ XÁC SUẤT
2.2.1 Bảng phân phối xác suất
Cho X là BNN rời rạc nhận các giá trị: x1 , x 2 ,..., x n ,... với
xác suất tƣơng ứng nhƣ sau:
X x1 x2 … xn
P(X = x i ) P1 P2 … Pn
Trong đó: P1 + P2 + … + Pn +… = 1
Bảng trên đƣợc gọi là bảng phân phối xác suất của
Ví dụ 2.4: Một gia đình có ba ngƣời con, giả sử xác suất
sinh con trai là 0,514.
Gọi X là số con trai của gia đình đó. Tìm bảng phân
phối xác suất của X.
Giải
Tập giá trị của X: {0; 1; 2; 3}
Áp dụng công thức bernoulli để tính xác suất, ta có:
P( X x) C3x 0,514 x (1 0,514)3 x , x 0,1, 2,3
Suy ra, P(X = 0) = 0,115; P(X = 1) = 0,364;
P(X = 2) = 0,385; P(X = 3) = 0,136
34
Bảng phân phối xác suất của X:
X 0 1 2 3
P 0,115 0,364 0,385 0,136
2.2.2 Hàm phân phối xác suất của BNN:
Định nghĩa: Cho X là BNN liên tục hoặc rời rạc, khi đó
luôn tồn tại P(X < x), x R và ta gọi F(x) = P(X < x) là
hàm phân phối xác suất của BNN X.
Nếu X là BNN rời rạc thì F ( x) P( X xi )
xi x
35
X 1 2 3
P 0,5 0,2 0,3
Tìm hàm phân phối xác suất F(x) của X.
Giải
Ta có:
P(), x 1
P( X 1), 1 x 2
F ( x) P( X x) P( X xi )
xi x P( X 1) P( X 2), 2 x 3
P( X 1) P( X 2) P( X 3), x 3
0, x 1
0,5, 1 x 2
F ( x)
0, 7, 2 x 3
1, x 3
Ví dụ 2.6: Cho BNN X có hàm phân phối xác suất
0 khi x 0
x2
khi 0 x 1
2
F(x) 2
x 2x 1 khi 1 x 2
2
1 khi x 2
và đồ thị của F(x):
36
(i) Hàm mật độ xác suất của BNN rời rạc: Cho X là
BNN rời rạc nhận các giá trị: x1 , x2 ,..., xn ,... , hàm số f(x)
đƣợc gọi là hàm mật độ xác suất của X đƣợc xác định:
P(X = x) = f(x), x = x1, x2, …,xn, …
(ii) Hàm mật độ xác suất của BNN liên tục: Cho X là
BNN liên tục có hàm phân phối xác suất F(x). Hàm
số f (x) đƣợc gọi là hàm mật độ xác suất của X nếu nó thỏa
mãn:
t
F(t)= f ( x)dx, t R
P( X x0 ) 0
P( X ) P( X ) f ( x)dx
P( X ) P( X ) f ( x)dx
f ( x)dx 1
a
37
hàng chọn ngẫu nhiên ra 30 chai thuốc để kiểm tra. Gọi X
là số chai thuốc không đạt tiêu chuẩn có trong 30 chai
thuốc lấy ra.
a. Tìm hàm mật độ xác suất cho X
b. Nếu trong 30 chai kiểm tra có không quá 5 chai thuốc
không đạt tiêu chuẩn thì khách hàng mua lô hàng đó. Tính
xác suất để lô hàng đƣợc mua
Giải
a. Hàm mật độ xác suất của X:
x 30 x
C20 .C180
f (x) P(X x)
C30
200
38
c 3x x 2 , x 0,3
f (x)
0 , x 0,3
a) Xác định hằng số c.
b) Tính P(1 X 2) .
Giải
a) Ta có:
0 3
0
1 f ( x).dx f (x)dx f (x)dx f (x)dx
3
0 3
9
0dx c(3x x )dx 3
2
0dx c
0
2
2
Vậy: c
9
b) Ta có:
2 2
2 13
P (1 < X < 2) f(x) dx = (3x x 2 ) dx .
1 1
9 27
2.3 CÁC THAM SỐ ĐẶC TRƢNG CỦA BIẾN NGẪU
NHIÊN
2.3.1 Kỳ vọng (trung bình)
Kỳ vọng là đặc trƣng cho giá trị trung tâm của BNN X và
đƣợc tính theo công thức:
xi P( X xi ), X rời rạc
k /h xi
E( X )
xf ( x)dx, X liên tục
Tính chất:
i) E(C) = C, (C hằng số)
ii) E(CX) = CE(X)
39
iii) Nếu X, Y có kỳ vọng thì E(X + Y) = E(X) + E(Y)
iv) Nếu X, Y độc lập và có kỳ vọng thì E(XY) = E(X)E(Y)
Ví dụ 2.9: Cho X là BNN rời rạc có bảng phân phối xác
suất sau:
X 5 6 7 8 9 10 11
P 1/12 2/12 3/12 2/12 2/12 1/12 1/12
Ta có:
7
1 2 3 2 2 1 1 93
E(X) x i pi 5 6 7 8 9 10 11 7,75
i 1 12 12 12 12 12 12 12 12
Ví dụ 2.10: Cho X là BNN rời rạc có luật phân phối:
X 0 1 3 4 7 8
1 3 12 8 4 2
P
30 30 30 30 30 30
Ta có:
6
1 3 12 8 4 2
E ( X ) xi pi 0 1 3 4 7 8
i 1 30 30 30 30 30 30
125 25
4.17
30 6
Ví dụ 2.11: Cho BNN liên tục X có hàm mật độ xác suất:
3
4x x , x 0, 4
2
f (x) 32
0 , x 0, 4
Ta có:
4
3
E(X) xf (x)dx x 32 (4x x )dx
2
0
4
3 4 3 x3 x 4
32 0
(4 x x )dx
2 3
4
32 3 4 0
40
3 44 44 3 4 44 3 44 44
2
32 3 4 2 42 3 4 2 43
2.3.2 Phƣơng sai
Phương sai là đại lƣợng đặc trƣng cho mức độ phân tán
của các giá trị của BNN X so với kỳ vọng và đƣợc tính
k /h
theo công thức: Var ( X ) 2 E ( X ) 2 E ( X 2 ) 2
xi2 P( X xi ), X rời rạc
xi
Trong đó E ( X 2 )
x 2 f ( x)dx, X liên tục
Tính chất:
i) Var(C) = 0, (C hằng số)
ii) Var(CX) = C2Var(X)
iii) Nếu X, Y độc lập thì Var(X + Y) = Var(X) + Var(Y)
Ví dụ 2.12: Cho X là BNN rời rạc có bảng phân phối xác
suất sau:
X 1 3 5
P 0,1 0,4 0,5
Ta có: E(X) = 3,8
E(X2 ) 12 0,1 32 0,4 52 0,5 16,2
Var(X) = E(X2) – [E(X)]2 = 16,2 – 3,82 = 1,76
Ví dụ 2.13: Cho X là BNN liên tục có hàm mật độ xác suất
sau:
cx 3 x 0,3
f (x)
0 x 0,3
Tìm hằng số c, E(X), Var(X)
41
Giải
3
x 4 81c
3
4
Ta có: 1 cx dx c 3
c
0 4 0 4 81
3
4 3
E(X) x x dx 2,4
0
81
3
4 3
E(X ) x 2
2
x dx 6
0
81
Var(X) = E(X2) – [E(X)]2 = 6 – 2,42 = 0,24
2.3.3 Mode
Mode của BNN X là giá trị của BNN X mà tại đó có
xác suất lớn nhất, kí hiệu xmod hay Mod(X). Đối với BNN
rời rạc, mod(X) là giá trị của X ứng với xác suất lớn nhất.
Còn đối với BNN liên tục thì mod(X) là giá trị của X tại đó
hàm mật độ đạt giá trị cực đại. Một BNN có thể có 1 mode
hoặc nhiều mode.
Ví dụ 2.14: X là BNN rời rạc có luật phân phối:
X 0 1 3 4 7 8
1 3 12 8 4 2
P
30 30 30 30 30 30
12
Ta thấy P(X 3) max => mod(X) = 3.
30
Ví dụ 2.15: Cho BNN liên tục có hàm mật độ xác suất
2
3x x , x 0,3
2
f (x) 9
0 , x 0,3
42
3
Khi đó Mod(X) X mod
2
2.3.4 Trung vị
Trung vị (Median) là giá trị của BNN X (kí hiệu Med(X)
1
hay xMed) sao cho: P( X xMed ) P( X xMed )
2
Ví dụ 2.16: Cho X có hàm phân phối xác suất
0, khi x 0
F(x) x, khi 0 x 1
1, khi x 1
0, khi x 0 hay x 1
f ( x)
1, khi 0 x 1
Khi đó:
E (X) 1
2
Var(X) 1
12
X Mod 0,1 ; X Med 1
2
2.3.5 Phân vị mức
Định nghĩa: Phân vị mức của BNN liên tục X là giá trị
X thỏa mãn P (X > X ) hay
X
f ( x)dx
f (x) 9
0 , x 0,3
Tìm X 20 .
27
Giải
43
Đặt X = X20 ; 0 < X 3 , ta có:
27
3
9 x 2 2 x3
3
9 3x x dx 27 27
2 20 20
2
X X
27
X
2
(9 2 X ) 20
1
27 27
X 1
2 X 9 X 7 0
3 2
X 7 105
4
X X20 1 .
27
44
ngƣợc lại nếu X xuất hiện mặt ngửa thì cho X = 0. Ta
1 1 1
có P( X 1) P( X 0) ; E ( X ) ; Var ( X ) .
2 2 4
2.4.2 Phân phối nhị thức, X ~ B(n,p)
Định nghĩa: Xét phép thử Bernoulli có hai kết quả xảy ra
đối lập nhau là A và A , xác suất xảy ra biến cố A là p,
P(A) = p (không thay đổi). Ta tiến hành thực hiện n phép
thử độc lập với nhau, gọi X là số lần xảy ra biến cố A trong
n lần thực hiện phép thử. Khi đó, BNN X đƣợc gọi là có
phân phối nhị thức và hàm mật độ xác suất có dạng:
f (x) P(X x) Cn x p x 1 p ; x 0;1; ;n
n x
Nhận xét: Trong phân phối nhị thức, nếu n khá lớn và xác
suất p không quá gần 0 và 1 thì ta có công thức xấp xỉ:
b np a np
P( a X b) =
np(1 p)
;
np(1 p)
tx 2
1
(x)
2 0
e 2 dt
Chú ý: Hàm (x) là hàm lẻ và giá trị của hàm (x) tra
bảng phụ lục 1.
Các tham số đặc trưng:
Nếu BNN X có phân phối nhị thức, X ~ B(n,p) thì
i) E(X) = np
ii) Var(X) = np(1-p)
iii) Mod(X) = [(n+1)p], (phần nguyên)
Ví dụ 2.19: Tỉ lệ viên thuốc không đạt tiêu chuẩn trong 1 lô
hàng là 3%. Lấy ngẫu nhiên lần lƣợt 100 viên thuốc ra để
kiểm tra (lấy có hoàn lại). Gọi X là số viên thuốc không
đạt tiêu chuẩn trong 100 viên thuốc lấy ra.
45
a) X có luật phân phối gì?
b) Tính P(0 X 3).
Giải
a) Mỗi lần kiểm tra một viên thuốc là thực hiện một phép
thử, lấy lần lƣợt 100 viên thuốc ra để kiểm tra, ta xem nhƣ
thực hiện 100 phép thử độc lập. Xác suất để viên thuốc lấy
ra là viên thuốc không đạt tiêu chuẩn là p = 3% . khi đó, ta
có X là BNN có phân phối nhị thức với n = 100 và p =3%,
tức là X~B(100; 0,03).
Đồ thị minh họa phân phối nhị thức trong ví dụ trên ( với
n = 100 và p =3%)
3
b) P(0 X 3) = PX x
xi 0
i
3
= C100
x
(0,03) x (0,97)100 x = 0,647
x 0
46
hơn nhƣng vẫn đảm bảo sàng lọc đƣợc tất cả ca bệnh. Theo
đó, thực hiện XNGM là phƣơng thức XN lấy một phần của
mỗi trong các mẫu để đƣa vào gộp và tách chiết, xét
nghiệm, phần còn lại của các mẫu đƣợc bảo quản để XN
riêng rẽ lại lần 2 nếu XNGM dƣơng tính. Nếu mẫu gộp cho
kết quả âm tính có nghĩa là các mẫu đơn trong mẫu gộp
đều âm tính, nếu mẫu gộp cho kết quả dƣơng tính thì có ít
nhất 1 mẫu đơn dƣơng tính và phải tiến hành làm lại XN
RT-PCR riêng rẽ từng mẫu đơn trong mẫu gộp đó để xác
định đâu là mẫu bệnh. Thực hiện XNGM có lợi hơn XN
mẫu đơn hay không? Cụ thể, giả định cần XN sàng lọc
SARS-CoV-2 cho 10000 ngƣời với tỉ lệ mắc bệnh là 2% và
cỡ gộp mẫu 10 ngƣời, số lần XN trung bình theo hình thức
XNGM và XN mẫu đơn là bao nhiêu?
Giải
Ta cần XN cho 10000 ngƣời, tỉ lệ mắc bệnh là 2%, cỡ
gộp mẫu 10 ngƣời. Gọi Y là số XN theo hình thức XNGM
(bao gồm cả XN lại đối với trƣờng hợp XNMG dƣơng
tính) , số lần XN Y đƣợc xác định bởi:
Y = 1000 + 10X, với X là số lần XN theo hình thức
XNGM có kết quả dƣơng tính.
Ta có X là BNN có phân phối nhị thức
X N(n,p); n 1000, p 1 0,9810 (1 - xác suất tất cả 10
ngƣời của mẫu gộp đều âm tính)
E(Y) E(1000 10X) 1000 10E(X)
1000 10 1000 (1 0,9810 ) 2830 (XN)
47
Đồ thị minh họa phân phối nhị thức trong ví dụ trên
(n = 1000 và p = 18,3%)
Ví dụ 2.20: Một máy sản xuất 200 dƣợc phẩm trong một
ngày, xác suất dƣợc phẩm sản xuất ra bị lỗi là 5%. Tìm số
dƣợc phẩm bị lỗi trung bình và số sản phẩm bị lỗi có khả
năng tin chắc do máy này sản xuất ra trong một ngày.
Giải
Gọi X là số dƣợc phẩm bị lỗi do máy này sản xuất ra trong
một ngày, X có phân phối nhị thức với n = 200 và p = 5%,
X ~ B(200; 0,05).
Số dƣợc phẩm bị lỗi trung bình do máy này sản xuất ra
trong một ngày là:
E(X) = np = 200 0,05 = 10
Số dƣợc phẩm bị lỗi tin chắc do máy này sản xuất ra trong
một ngày là mod(X). Ta có:
Mod(X) = [(n+1)p] = [(200 + 1) 0,05] = [10,5] = 10.
48
Đồ thị minh họa phân phối nhị thức trong ví dụ trên (với
n = 200 và p = 5%)
Ví dụ 2.21: Một nhà máy sản xuất thuốc với tỉ lệ thuốc loại
A là 20%. Nếu lấy ngẫu nhiên 400 vĩ thuốc.
a) Tính xác suất để đƣợc từ 60 đến 80 vĩ thuốc loại A.
b) Tính xem trung bình có bao nhiêu vĩ thuốc loại A
trong 400 vĩ thuốc lấy ra.
Giải
Gọi Y là số vĩ thuốc loại A có trong 400 vĩ thuốc lấy
ra, Y có phân phối nhị thức với n = 400 và p = 20%, Y ~
B(400 ;0,2)
a) Do n = 400, 0 << p = 0,2 << 1 nên ta có thể áp dụng
công thức xấp xỉ:
80 400 0, 2 60 400 0, 2
P(60 Y 80)
400 0, 2 0,8 400 0, 2 0,8
0 2,5 0 2,5 0 0, 4938 0, 4938
b) E(Y) = np = 400 0,2 = 80
Vậy trung bình có 80 vĩ thuốc loại A trong 400 vĩ
thuốc lấy ra.
49
Đồ thị minh họa phân phối nhị thức trong ví dụ trên (với
n = 400; p = 20%)
2.4.3 Phân phối Poison, X ~ P( )
Định nghĩa: Cho X là BNN có phân phối nhị thức với
tham số n và p. Nếu số phép thử n khá lớn, xác suất p khá
nhỏ và np = (hằng số) thì
x
P(X x) Cn x p x (1 p) n x e .
x!
Khi đó BNN X đƣợc gọi là có phân phối Poison với hàm
mật độ xác suất có dạng:
x
f (x) P(X x) e , x 1;2; ;n
x!
Mối liên hệ giữa phân phối nhị thức và phân phối Poisson:
Cho X là BNN có phân phối nhị thức B(n,p), nếu n khá lớn
và p khá nhỏ, np = (hằng số) thì
x
Cn p (1 p)
x x n x
e , tức là:
x!
n x
Nếu np n , p n 0 thì P( X x) Cnx p x (1 p)n x e
x!
50
Các tham số đặc trưng:
Nếu BNN X có phân phối posion, X ~ P( ) thì
i) E(X) = Var(X) =
ii) – 1 mod(X) hay mod(X) = [ – 1]
Ví dụ 2.22: Một đợt tiêm chủng cho 1000 trẻ, xác suất trẻ
tiêm chủng bị phản ứng thuốc là 0,2%. Tính xác suất để
trong 1000 trẻ đƣợc tiêm chủng có không quá 2 trẻ bị phản
ứng thuốc.
Giải
Vì n khá lớn, n =1000; p = 0,2% np = 1000 0,2% = 2
Mỗi trẻ đƣợc tiêm chủng xem nhƣ là một phép thử, ta
có 1000 phép thử độc lập.
Gọi X là trẻ bị phản ứng thuốc trong 1000 trẻ đƣợc
tiêm chủng thì X có phân phối nhị thức với n = 1000 và p
= 0,2%, X ~ B(1000; 0,2%). Nhƣng vì n khá lớn và np = 2
(hằng số) nên X có phân phối phối possion, X P(2)
Ta có: P(0 X 2) = P(X = 0) + P(X = 1) + P(X = 2)
20 2 21 2 22 2
= e + e + e = 0,677
0! 1! 2!
51
Đồ thị minh họa phân phối possion trong ví dụ trên ( với
λ = 2)
2.4.4 Phân phối siêu bội, X ~ H(N, M, n)
Định nghĩa: Cho tập hợp có N phần tử trong đó có M phần
tử có tính chất T, lấy ngẫu nhiên ra n phần tử. Gọi X là số
phần tử có tính chất T có trong n phần tử lấy ra. Khi đó,
BNN đƣợc gọi là có phân phối siêu bội và có hàm mật độ
xác suất có dạng:
x
CM CnNxM
f (x) P(X x) ; x 0;1;2; ;n
CnN
Mối liên hệ giữa phân phối nhị thức và phân phối siêu bội:
Nếu n << N (số phần tử lấy ra nhỏ hơn rất nhiều so với
tổng số phần tử) thì
x
CM .C nNxM n x M
C n p (1 p)
x x
n
với p =
CN N
Đồ thị minh họa phân phối nhị thức với n = 3; p = 60% (bên trái)
và phân phối siêu bội với N = 100; M = 60; n = 3 (bên phải)
Các tham số đặc trưng:
Nếu BNN X có phân phối siêu bội, X ~ H(N;M;n) thì
i) E(X) = np và
52
N n M
ii) Var ( X ) np(1 p) với p
N 1 N
Ví dụ 2.23: Một lô hàng gồm có 10 thùng thuốc, trong đó
có 4 thùng thuốc nhóm A. Lấy ngẫu nhiên 4 thùng thuốc từ
lô hàng, tính xác suất để có 2 thùng thuốc nhóm A.
Giải
Gọi X là số thùng thuốc nhóm A trong 4 thùng thuốc lấy
ra, khi đó X là BNN có phân phối siêu bội với tham số N =
10, M = 4 và n = 4.
C24C62
P(X 2) 4
0, 4286
C10
53
Gọi X là số sinh viên có điểm trung bình tích lũy không
đạt trong 100 sinh viên đƣợc chọn ra. Ta có: X ~ H(10000;
20 80
C1000C 9000
1000; 100) P( X 20) 100
C10000
Vì N = 10000 rất lớn, n = 100 << 10000 = N nên X xấp
xỉ phân phối nhị thức: X ~ B(100; 0,1) với
0,1 P( X 20) C100 0,1 1 0,1
M 1000 20 80
p
20
N 10000
Ví dụ 2.25: Một hộp thuốc có 52 viên thuốc, trong đó có 4
viên thuốc trị bệnh B. Từ hộp lấy ngẫu nhiên 3 viên thuốc,
gọi X là số viên thuốc trị bệnh B trong 3 viên thuốc lấy ra,
tính E(X) và Var(X).
Giải
M 4 1
Ta có: X H(52, 4, 3) p =
N 25 13
1 12
q=1–p=1–
13 13
1
Ta đƣợc: E(X) = np = 3 0, 231 .
13
Nn 1 12 52 3
Var(X) = npq 3 0,051 .
N 1 13 13 52 1
54
Đồ thị minh họa phân phối siêu bội trong ví dụ trên
(với N = 52; M = 4; n = 3)
2.5 MỘT SỐ PHÂN PHỐI XÁC SUẤT CỦA BIẾN
NGẪU NHIÊN LIÊN TỤC
2.5.1 Phân phối chuẩn, X ~ N(μ; 2 )
Định nghĩa: BNN X đƣợc gọi là có phân phối chuẩn nếu
( x )2
1
hàm mật độ xác suất có dạng: f (x) e 2 2
với
2
μ là hằng số, hằng số dương
Nếu μ = 0 và = 1 thì BNN liên tục X đƣợc gọi là có phân
phối chuẩn tắc.
Lưu ý: Nếu BNN X có phân phối chuẩn, X ~ N(μ, 2 ) thì
X
BNN Z = có phân phối chuẩn tắc, Z ~ N(0,1).
55
Đồ thị minh họa phân phối chuẩn tắc với μ = 0 và = 1
x
c. P(X x) 0,5
x
d. P(X x) 0,5
Ví dụ 2.26: Trọng lƣợng của trẻ sơ sinh là BNN X(kg) có
phân phối chuẩn, với trọng lƣợng trung bình là 3,3kg và độ
lệch chuẩn 0,3kg.
a) Tìm tỉ lệ trẻ sơ sinh trong dân số có trọng lƣợng từ
2,5kg đến 3,9kg.
b) Tìm tỉ lệ trẻ sơ sinh trong dân số có trọng lƣợng nhỏ
hơn 2,5kg.
Giải
Theo đề bài BNN X có phân phối chuẩn, X ~ N(μ , 2 )
với μ = 3,3kg và 0,3 kg
a) Áp dụng công thức:
x x1
P(x1 X x 2 ) 2
3,9 3,3 2,5 3,3
P(2,5 X 3,9)
0,3 0,3
2 2,67 0,4772 (0,4962) 0,9734
Vậy tỉ lệ trẻ sơ sinh trong dân số có trọng lƣợng từ 2,5kg
đến 3,9kg là 97,34%
57
b) Áp dụng công thức: P(X x) 0,5 x
2,5 3,3
P(X 2,5) 0,5
0,3
0,5 2,67 0,5 (0,4962) 0,0038
Vậy tỉ lệ trẻ sơ sinh trong dân số có trọng lƣợng nhỏ hơn
2,5kg là 0,38%
58
20
P Y 20 1 P Y 20 0.5 0.2
0.84 20 (2)
Giải hệ (1) và (2): 16; 4.7
14 16
b) P Y 14 1 P Y 14 0.5 0.67
4.7
59
Ví dụ 2.28: Giả sử tuổi thọ (năm) của một thiết bị y tế là
BNN có phân phối mũ với tuổi thọ trung bình là 6,25
1
( 6, 25 ). Thời gian bảo hành của thiết bị y tế này là 5
năm. Tính xác suất để thiết bị y tế này bán ra bị lỗi trong
thời gian bảo hành?
Giải
Gọi X là tuổi thọ của thiết bị y tế này.
5 1
1 6,25 x
P(X 5) = e dx
0
6, 25
1 5 1
x 5
= e 6,25
= (e 6,25
1) 50,07%
0
60
2.5.3 Phân phối đều, X ~ U[a;b]
Định nghĩa: BNN X đƣợc gọi là có phân phối đều (liên
tục) trên đoạn [a; b] nếu có hàm mật độ xác suất:
1
f (x) , x a,b .
ba
Các tham số đặc trưng:
ab (b a) 2
Nếu X ~ U[a;b] thì E(X) = và Var(X) =
2 12
Ví dụ 2.29: Một loại dƣợc phẩm do một nhà máy đƣợc
đóng thành từng hộp. Trọng lƣợng của hộp là BNN X. Cho
biết X ~ U(19,9; 20,1) (đơn vị tính là gram). Tính trọng
lƣợng trung bình của một hộp và tỉ lệ hộp có trọng lƣợng
nhỏ hơn 19,95g.
Giải
Trọng lƣợng trung bình của một hộp thuốc chính là:
19,9 20,1
E( X ) 20 g
2
Tỉ lệ hộp có trọng lƣợng nhỏ hơn 19,95g là:
19,95 19,95
1
P( X 19,95) dx 5dx 5 x 19,9 0,25
19,95
19,9
20,1 19,9 19,9
61
Đồ thị minh họa phân phối đều trong ví dụ trên
U[19,9; 20,1]
2.5.4 Phân phối Student, T T(n)
Định nghĩa: Cho BNN U N(0,1), 2 2 (n) , trong đó
U và 2 độc lập nhau. Khi đó biến ngẫu nhiên:
U U n
T đƣợc gọi là có luật phân phối
X2 X2
n
Student bậc tự do n.
Các tham số đặc trưng:
n
Nếu T T(n) thì E(T) = 0 và Var(T ) .
n2
62
Đồ thị minh họa phân phối student với bậc tự do n = 5
63
đƣợc gọi là có phân phối khi bình phƣơng, bậc tự do n với
x n
1
e 2x2
hàm mật độ xác suấ là: f (x) , x 0
2 2 n2
n
Trong đó hàm (u ) t u 1.e t dt gọi là hàm Gamma,
0
Đồ thi minh họa phân phối chi bình phương với bậc tự do
n = 10; n = 30; n = 50
2.5.6 Phân phối Fisher, X ~ F(m,n)
Định nghĩa: Cho hai BNN độc lập X~ 2 (m) , Y~ 2 (n) ,
X n
khi đó phân phối của BNN F= . đƣợc gọi là phân
m Y
phối Fisher và có hàm mật độ xác suất
64
mn
(
n
) n 1
2 n 2 x2
f ( x) .( ) . m n
, x >0
m n m n
( ).( ) (1 ) 2
2 2 m
với m, n là hai tham số (bậc tự do) của phân phối Fisher
Đồ thi minh họa phân phối Fisher với bậc tự do (5;8) và (5;10)
Các tham số đặc trưng:
n2
Nếu X ~ F(m,n) thì E(X) = và
n2 2
2n22 n1 n22 2
Var(X) =
n1 n2 2 n2 4
2
x
t 1 x
Trong đó: (t ) e dx , với t > 0 là hàm Gamma
0
65
, gọi là hai tham số của phân phối Gamma
Áp dụng phƣơng pháp tích phân từng phần ta có:
(t 1) t.(t ) , với t >0
Chú ý: Hàm Gamma có mối liên hệ với giai thừa trong
điều kiện tham số của nó là số nguyên, (n) n 1!
Các tham số đặc trưng: Nếu X ~ G ( , ) thì E(X) = ;
Var(X) = 2 .
và Var ( X ) .
1
2
66
Đồ thi minh họa phân phối Beta
2.5.9 Hàm phân phối Weibull, X ~ W ( , )
Định nghĩa: Hàm phân phối Weibull là hàm phân phối liên
tục đƣợc xác định bởi hàm mật độ xác suất:
1 x
x
f ( x)
e
Nội dung đƣợc trình bày trong chƣơng 3 bao gồm: Một
số khái niệm cơ bản về thống kê; những vấn đề liên quan
đến tổng thể và mẫu, bài toán ƣớc lƣợng tham số thống kê
của tổng thể bằng phƣơng pháp ƣớc lƣợng điểm và ƣớc
lƣợng khoảng; đƣa ra phƣơng pháp tìm khoảng ƣớc lƣợng
(hay khoảng tin cậy) đối với một số tham số thống kê
thƣờng gặp nhƣ kỳ vọng, phƣơng sai và tỉ lệ. Đặc biệt,
trình bày các ví dụ vận dụng phƣơng pháp ƣớc lƣợng
khoảng để tìm khoảng tin cậy cho một số chỉ số y học.
3.1 TỔNG THỂ VÀ MẪU
Chúng ta cần nghiên cứu tính chất định tính hoặc định
lƣợng của các phần tử trong một tập hợp nào đó. Khi đó ta
có hai phƣơng pháp thực hiện nghiên cứu:
Thứ nhất, nghiên cứu toàn bộ các phần tử của tập hợp
và ghi lại các đặc tính cần quan tâm. Khi thực hiện nghiên
cứu toàn bộ ta gặp phải những hạn chế nhƣ: (i) Tốn kém
nguồn lực lớn về tài chính, con ngƣời và phƣơng tiện do số
lƣợng các phần tử trong tập toàn bộ quá lớn. (ii) Có thể dẫn
tới phá huỷ toàn bộ tập hợp cần nghiên cứu. Ví dụ nghiên
cứu thời gian hoạt động của các thiết bị y tế, khi áp dụng
phƣơng pháp này sẽ dẫn tới phá huỷ toàn bộ các thiết bị.
(iii) Có những tập hợp mà ta không thể nghiên cứu đƣợc
toàn bộ. Ví dụ nhƣ trong lĩnh vực khảo cổ học. Vậy ta thấy
trong đa số các trƣờng hợp nghiên cứu toàn bộ tập hợp là
không khả thi.
68
Thứ hai, nghiên cứu bộ phận, từ tập hợp nghiên cứu ta
lấy ra một tập con và nghiên cứu toàn bộ các phần tử trong
tập con đó và từ đó đƣa ra kết luận cho các phần tử trong
tập hợp nghiên cứu. Phƣơng pháp nghiên cứu thứ hai gọi là
phƣơng pháp nghiên cứu mẫu.
3.1.1 Tổng thể (Đám đông hay Dân số) và mẫu
Tổng thể (population) là tập hợp các phần tử cần nghiên
cứu đặc tính nào đó, số phần tử trong tổng thể gọi là cỡ của
tổng thể, ký hiệu là N. Khi nghiên cứu tổng thể thì đặc tính
của các phần tử có thể có hai loại tính chất định tính hoặc
định lƣợng cần quan tâm.
Ví dụ 3.1: Giới tính, dân tộc, tôn giáo,… của toàn bộ dân
số ở một quốc gia hay khu vực dân cƣ nào đó (tính chất
định tính). Cân nặng, chiều cao, tuổi,… của toàn bộ dân số
ở một quốc gia hay khu vực dân cƣ nào đó (tính chất định
lƣợng).
Mẫu: Từ tổng thể, ta lấy ra n phần tử để nghiên cứu tính
chất định tính hoặc định lƣợng của nó. Khi đó tập hợp n
phần tử này đƣợc gọi là một mẫu và số phần tử của mẫu
đƣợc gọi là kích thƣớc của mẫu. Vì từ mẫu, ta kết luận cho
tổng thể nên mẫu phải đƣợc chọn đại diện tốt cho tổng thể.
Ví dụ 3.2: Chọn ngẫu nhiên 100 ngƣời bị bệnh B trong
tổng thể bệnh nhân.
3.1.2 Mẫu ngẫu nhiên và mẫu cụ thể (Mẫu lý thuyết và
mẫu thực nghiệm)
Mẫu ngẫu nhiên: Lấy n phần tử của tổng thể theo phƣơng
pháp có hoàn lại để quan sát. Gọi X i là giá trị của đặc tính
X (dấu hiệu khảo sát) trên phần tử thứ i với i 1, 2, ,n
thì X 1 , X 2 , , X n cũng là các BNN có cùng phân phối xác
69
suất nhƣ BNN gốc X. Khi đó, bộ ( X 1 , X 2 , , X n ) đƣợc gọi
là mẫu ngẫu nhiên hay mẫu lý thuyết với cỡ mẫu n đƣợc
tạo nên từ BNN gốc X và kí hiệu WX ( X 1 , X 2 , , X n ) .
Mẫu cụ thể: Nếu giả sử Xi nhận giá trị xi thì ( x1 , x2 , , xn )
đƣợc gọi là một mẫu cụ thể hay mẫu thực nghiệm của mẫu
ngẫu nhiên WX , kí hiệu: wx ( x1 , x2 , , xn )
Ví dụ 3.3: Kết quả điểm môn Xác suất thống kê y học của
một lớp y khoa gồm 100 sinh viên cho bởi bảng sau:
Điểm 3 4 5 6 7
Số sinh viên 25 20 40 10 5
Gọi X là điểm môn Xác suất thống kê y học của một sinh
viên đƣợc chọn ngẫu nhiên trong danh sách lớp y khoa này
thì X là BNN có phân phối xác suất:
X 3 4 5 6 7
P 0,25 0,2 0,4 0,1 0,05
Chọn ngẫu nhiên 5 sinh viên trong danh sách lớp để xem
điểm. Gọi X i là điểm của sinh viên thứ i với i 1,2,3,4,5 .
Ta có mẫu ngẫu nhiên WX ( X 1 , X 2 , X 3 , X 4 , X 5 ) và các
BNN X i có cùng phân phối xác suất với BNN X.
Khi tiến hành khảo sát điểm thi cụ thể của 5 sinh viên đã
chọn mẫu, giả sử sinh viên thứ nhất đƣợc 4 điểm, thứ hai
đƣợc 3 điểm, thứ ba đƣợc 6 điểm, thứ tƣ đƣợc 7 điểm và
thứ năm đƣợc 5 điểm thì ta đƣợc mẫu cụ thể: wx = (4, 3, 6,
7, 5)
3.1.3 Phƣơng pháp chọn mẫu ngẫu nhiên
Có rất nhiều phƣơng pháp chọn mẫu ngẫu nhiên để thoả
mãn tính đại diện tốt nhất cho tổng thể và phù hợp với mục
tiêu nghiên cứu nhƣ: Chọn mẫu theo xác suất (random
70
sampling) gồm: Ngẫu nhiên đơn giản (simple random
sampling); Hệ thống (systematic sampling); Phân tầng
(stratified sampling); theo nhóm (cluster sampling). Chọn
mẫu không theo xác suất (Non-probability sampling) gồm:
Thuận tiện (convenience sampling); Phán đoán (judgment
sampling); Phát triển mầm (snowball sampling); Định
mức/Hạn ngạch (quota sampling). Cụ thể, một số phƣơng
pháp chọn mẫu chủ yếu:
Cách chọn mẫu ngẫu nhiên đơn giản: (i) Chọn mẫu ngẫu
nhiên có hoàn lại: Từ tổng thể ta rút ngẫu nhiên một phần
tử và ghi lại các đặc trƣng cần quan tâm, sau đó trả lại
phần tử đó về tổng thể và làm tƣơng tự ở các lần tiếp theo
cho tới khi ta đƣợc một mẫu cỡ n. (ii) Chọn mẫu ngẫu
nhiên không hoàn lại: Làm tƣơng tự nhƣ trên, chỉ khác là
sau mỗi lần rút các phần tử ta loại phần tử đó ra khỏi tổng
thể.
Chọn mẫu phân tầng: Ở những tổng thể lớn có thể có
những yêu cầu phải chọn một mẫu phân tầng chẳng hạn
nhƣ điều tra phân tích chi phí y tế của ngƣời dân thƣờng có
những yêu cầu kết luận cho các vùng, miền. Mẫu phân
tầng đơn giản có thể đƣợc thành lập nhƣ sau: Chia tổng thể
ra thành k tổng thể thành phần và ta thực hiện cách lấy
mẫu ngẫu nhiên đơn giản trên mỗi tổng thể thành phần rồi
tổng hợp lại để có mẫu của toàn bộ tổng thể. Khi cần thiết,
có thể chọn mẫu phân tầng tạp hơn nhƣ: sau khi chia tổng
thể ra thành k tổng thể thành phần, ta chọn ngẫu nhiên
trong số k tổng thể thành phần đó ra m tổng thể rồi tiếp tục
thực hiện lấy mẫu ngẫu nhiên trên từng tổng thể đƣợc chọn
để tổng hợp thành mẫu của toàn bộ tổng thể.
3.1.4 Cách ghi số liệu của mẫu quan sát (mẫu cụ thể)
71
Sau khi tiến hành quan sát đặc tính X trên n phần tử của
tổng thể, ta có đƣợc số liệu (mẫu quan sát) đƣợc ghi lại
dƣới 3 hình thức:
a. Nếu cỡ mẫu nhỏ thì số liệu đƣợc ghi: x1 x2 … x n
b. Nếu cỡ mẫu lớn thì số liệu đƣợc ghi dƣới dạng bảng tần
số:
X x1 x2 … xk
Số phần tử n1 n2 … nk
Trong đó: ni là tần số của giá trị xi và n1 + n2 +…+ nk = n.
c. Khi kích thƣớc mẫu lớn, các giá trị của mẫu gần nhau,
khi đó số liệu mẫu đƣợc ghi theo khoảng
X x1 - x2 x2 – x3 … xk - xk+1
Số phần tử n1 n2 … nk
Chú ý: n1 + n2 +…+ nk = n
Về lý thuyết, có nhiều cách xác định số khoảng k, có thể
tính số khoảng k là số nhỏ nhất sao cho 2k > n. Thông
thƣờng có thể chia khoảng theo khoảng cách đều:
x xmin
d = max
k
Ví dụ 3.4:
(i) Đo chiều cao của 10 ngƣời (cm), kết quả:
160 155 147 155 168 181 150 163 168 155
(ii) Khảo sát điểm của 50 bài thi môn Xác suất thống
kê y học, kết quả:
Điểm thi 4,0 4,5 5,0 5,5 6,0 6,5 7,0
Số bài thi 14 12 8 6 4 4 2
(iii) Khảo sát thu nhập (triệu đồng/tháng) của 81 nhân
viên y tế mới ra trƣờng
Thu nhập 3,8 – 4,2 4,2 – 4,6 4,6 – 5,0 5,0 – 5,4 5,4 – 5,8
72
Số nhân viên 10 16 25 18 12
3.1.5 Các tham số thống kê của mẫu
a) Trung bình mẫu: Giả sử (X1, X2, …, Xn) là mẫu ngẫu
nhiên của đặc tính X trên không gian .
1 n
Trung bình của mẫu ngẫu nhiên: X X i
n i 1
Trung bình mẫu quan sát (thực nghiệm):
1 n 1 k
x xi hoặc x ni xi với n1 n2 ... nk n
n i 1 n i 1
b) Phương sai mẫu: Phƣơng sai mẫu là đại lƣợng đặc
trƣng cho mức độ phân tán các giá trị của X so với X . Với
(X1, X2, …, Xn) là mẫu ngẫu nhiên của X, khi đó phƣơng
sai mẫu đƣợc xác định
Phƣơng sai mẫu đã điều chỉnh của mẫu ngẫu nhiên
1 n
(hiệu chỉnh): S 2
n 1 i 1
( X i X )2
với n1 n2 ... nk n
Ghi chú: Phƣơng sai mẫu chƣa điều chỉnh:
1 n
S *2 ( X i X ) 2 . Trong phân tích và xử lý thống kê
n i 1
với mẫu số liệu cụ thể thì ta thƣờng sử dụng phƣơng sai đã
điều chỉnh nên ta có thể sử dụng ngắn gọn là phƣơng sai.
74
Đồ thị minh họa Kurtosis = 3 (Phân phối chuẩn tắc N(0;1)),
Kurtosis l= 4 và Kurtosis = 2,7
h) Độ lệch về bên trái, phải của phân phối xác suất
(Skewness)
Skewness của một phân phối xác suất đo lƣờng sự đối xứng
của phân phối đó. Giá trị tuyệt đối của độ lệch càng cao thì
phân phối đó càng bất đối xứng. Một phân phối đối xứng
sẽ có skewness bằng 0. Một phân phối không đối xứng, đồ
thị có đuôi lệch về phía bên phải sẽ có skewness dƣơng, đồ
thị có đuôi lệch về phía bên trái sẽ có skewness âm.
3
n
n xi x
Skewness
(n 1)(n 2) i 1 s
75
Đồ thị minh họa của một phân phối liên tục với Skewness dương
Đồ thị minh họa của một phân phối liên tục với Skewness âm
Ví dụ 3.5: Đo chiều cao của 10 ngƣời (cm), kết quả:
76
160 155 147 155 168 181 150 163 168 155
Ta có các tham số thống kê của mẫu:
1 n 1
Trung bình mẫu: x x i 1602 160, 2
n i 1 10
Phƣơng sai mẫu (có điều chỉnh):
1 n
2
s2 xi x
n 1 i 1
1
s2 (160 160, 2) 2 (155 160, 2) 2 (155 160, 2) 2
10 1
1
s2 921,6 102, 4
10 1
Độ lệch chuẩn mẫu (có điều chỉnh):
s s 2 102, 4 10,119
s 10,119
Sai số chuẩn: sx 3, 200
n 10
Mode = 155
Median = 157,5
4
n
n(n 1) xi x 3(n 1) 2
Kurtosis
(n 1)(n 2)(n 3) i 1 s (n 2)(n 3)
0,615
3
n
n xi x
Skewness
(n 1)(n 2) i 1 s
0,829
Statistics
N 10
Mean 160,20
Std. Error of Mean 3,200
Median 157,50
Mode 155
Std. Deviation 10,119
77
Variance 102,400
Skewness 0,829
Kurtosis 0,615
Bảng kết quả các tham số thống kê ví dụ 3.5 từ SPSS
Ví dụ 3.6: Khảo sát điểm của 50 bài thi môn Xác suất
thống kê y học, kết quả:
Điểm thi 4,0 4,5 5,0 5,5 6,0 6,5 7,0
Số bài thi 14 12 8 6 4 4 2
Ta có các tham số thống kê của mẫu:
Trung bình mẫu:
1 k 1
x n i x i 247 4,94
n i 1 50
Phƣơng sai mẫu (có điều chỉnh):
1 k
1
2
s
2
ni xi x 39,32 0,802
n 1 i 1 50 1
Độ lệch chuẩn mẫu (có điều chỉnh):
s s 2 0,802 0,896
Sai số chuẩn:
s 0,896
sx 0,127
n 50
Mode = 4,0
Median = 4,5
4
n
n(n 1) xi x 3(n 1) 2
Kurtosis
(n 1)(n 2)(n 3) i 1 s (n 2)(n 3)
0, 444
3
n
n xi x
Skewness
(n 1)(n 2) i 1 s
0,764
78
Statistics
N 50
Mean 4,940
Std. Error of Mean 0,1267
Median 4,500
Mode 4,0
Std. Deviation 0,8958
Variance 0,802
Skewness 0,764
Kurtosis -0,444
Bảng kết quả các tham số thống kê ví dụ 3.6 từ SPSS
Ví dụ 3.7: Khảo sát thu nhập (triệu đồng/tháng) của 81
nhân viên y tế mới ra trƣờng
Thu nhập 3,8 – 4,2 4,2 – 4,6 4,6 – 5,0 5,0 – 5,4 5,4 – 5,8
Số nhân
10 16 25 18 12
viên
Ta có các tham số thống kê của mẫu:
Trung bình mẫu:
1 k 1
x n i x i 391, 2 4,83
n i 1 81
Phƣơng sai mẫu (có điều chỉnh):
1 k
1
2
s2 n x x 19, 449 0, 243
n 1 i 1 81 1
i i
79
s 0, 493
sx 0,055
n 81
Mode = 4,8
Median = 4,8
4
n
n(n 1) xi x 3(n 1) 2
Kurtosis
(n 1)(n 2)(n 3) i 1 s (n 2)(n 3)
0,871
3
n
n xi x
Skewness
(n 1)(n 2) i 1 s
0,062
Statistics
N 81
Mean 4,830
Std. Error of Mean 0,0548
Median 4,800
Mode 4,8
Std. Deviation 0,4931
Variance 0,243
Skewness -0,062
Kurtosis -0,871
Bảng kết quả các tham số thống kê ví dụ 3.7 từ SPSS
3.1.6 Một số luật phân phối các đại lƣợng thống kê mẫu
a) Nếu X ~ N( , 2 ), WX ( X 1 , X 2 , , X n ) là mẫu
X
ngẫu nhiên độc lập của X thì Z n ~ N (0;1) và
2
E( X ) = , Var( X ) = với E(X)= , Var(X)= 2 .
n
80
b) Nếu X ~ N( , 2 ), (X1, X2, …, Xn) là mẫu ngẫu
2
nhiên độc lập của X thì X ~N( , ) và E(S2) = 2 , Var(S2)
n
2 4
= với E(X)= , Var(X)= 2 .
n
c) Nếu X ~ N( , 2 ), WX ( X 1 , X 2 , , X n ) là mẫu
(n 1) S 2
ngẫu nhiên độc lập của X thì 2 ~ 2 (n 1) .
2
d) Nếu X ~ N( , ), WX ( X 1 , X 2 ,
2
, X n ) là mẫu
ngẫu nhiên của X thì T X
n ~ T (n 1)
S
e) Cho X ~ N( X , X2 ), Y ~ N( Y , Y2 ), X, Y cùng đặc
tính. WX ( X 1 , X 2 , , X n ) , WY (Y1 , Y2 , , Ym ) là hai mẫu
ngẫu nhiên độc lập của X, Y trên hai tổng thể khác nhau
i. Trƣờng hợp cỡ mẫu lớn (n, m 30)
2 2
X Y ~N( X Y , X Y )
n m
( X Y ) ( X Y )
hay Z = ~ N (0;1)
X2 Y2
n m
ii. Trƣờng hợp cỡ mẫu nhỏ (n, m < 30)
Biết X2 , Y2
X2 Y2
X Y ~N( X Y ,
n
m
)
( X Y ) ( X Y )
hay Z = ~ N (0;1)
X2 Y2
n m
Chƣa biết , 2
X
2
Y
81
(X Y) ( X )
Nếu X2 = Y2 : T = Y
~ T (n m 2) ,
1 1
0
n m
(n 1)S X2 (m 1)SY2
với 02
nm2
( X Y ) ( X Y )
Nếu X2 Y2 : T = ~ T ( ) ,
S X2 SY2
n m
S X2 SY2 2
( )
với n m 2
2 2 2 2
S X SY
n m
n 1 m 1
f) Cho X ~ N( X , 2 ), Y ~ N( Y , 2 ), X, Y cùng đặc
tính. WX ( X 1 , X 2 , , X n ) , WY (Y1 , Y2 , , Ym ) là hai mẫu
ngẫu nhiên độc lập của X, Y trên hai tổng thể khác nhau, ta
có:
S X2
F 2 ~ F (n 1; m 1)
SY
Chú ý: Trong thống kê F tử thức lớn hơn mẫu thức, nếu
S SY2 thì ta đổi vai trò S X2 và S Y2 cho nhau.
2
X
82
và đáng tin cậy cho tham số đặc trƣng thì đại lƣợng
thống kê đó gọi là ƣớc lƣợng điểm của tham số đó.
Mô tả phương pháp: Giả sử cần ƣớc lƣợng tham số của
đại lƣợng ngẫu nhiên X. Từ X ta lập mẫu ngẫu nhiên
WX ( X 1 , X 2 , , X n ) .
^
Chọn f ( X1 , X 2 , , Xn)
^
là hàm của các đại lƣợng ngẫu nhiên X1, X2, .. , Xn nên
^
nó là một đại lƣợng ngẫu nhiên, đƣợc gọi là hàm ƣớc
lƣợng của .
Ví dụ 3.8: Trong thực tế ngƣời ta thƣờng chọn hàm ƣớc
lƣợng
^ 1 n
Chọn X X i làm ƣớc lƣợng trung bình
n i 1
của tổng thể
1 n
^
Xi X
2
Chọn S 2 làm ƣớc lƣợng
n 1 i 1
phƣơng sai của tổng thể
^ 1 n
Chọn F Fi , với Fi có dạng phân phối
n i 1
Bernoulli, làm ƣớc lƣợng tỉ lệ của tổng thể
^*
Từ mẫu cụ thể wx ( x1 , x2 , , xn ) , ta tính giá trị của ,
^*
tức là f ( x1 , x2 , , xn )
^*
Ƣớc lƣợng điểm của cần tìm chính là giá trị vừa tính
đƣợc.
Các tiêu chuẩn lựa chọn hàm ước lượng
83
Ta thấy có vô số cách chọn dạng hàm f, tức có vô số đại
^
lƣợng ngẫu nhiên có thể dùng làm hàm ƣớc lƣợng của .
Vì vậy, cần đƣa ra một tiêu chuẩn để đánh giá chất lƣợng
của ƣớc lƣợng. Từ đó lựa chọn đƣợc một hàm ƣớc lƣợng
“tốt hơn” theo một nghĩa nào đó. Dƣới đây ta sẽ xét một số
tiêu chuẩn đó.
Ước lượng không chệch
^
Định nghĩa: đƣợc gọi là ƣớc lƣợng không chệch của
^
tham số nếu: E ( )
^ ^
Ngƣợc lại, nếu E ( ) thì đƣợc gọi là ƣớc lƣợng
chệch của .
^
Ý nghĩa: Ta thấy ( ) là đại lƣợng ngẫu nhiên biểu thị
sai số của ƣớc lƣợng. nếu là ƣớc lƣợng không chệch, theo
tính chất của kỳ vọng toán, ta có:
^ ^
E ( ) E ( ) E ( ) 0 .
Nhƣ vậy, ƣớc lƣợng không chệch là ƣớc lƣợng có sai số
trung bình băng 0. Tức là giá trị của không bị lệch về
^
một phía, nếu dùng để ƣớc lƣợng thì không mắc phải
sai số hệ thống.
^
Chú ý rằng, là ƣớc lƣợng không chệch của không có
^
nghĩa là mọi giá trị của đều trùng khít với mà chỉ có
^
nghĩa là: Trung bình các giá trị của bằng , một giá trị
^
của có thể sai khác nhiều so với .
Ví dụ 3.9:
84
^ 1 n
X X i là ƣớc lƣợng không của trung bình
n i 1
tổng thể
1 n
^
Xi X
2
S2 là ƣớc lƣợng không
n 1 i 1
chệch của phƣơng sai tổng thể
^ 1 n
F Fi là ƣớc lƣợng không chệch của tỉ lệ
n i 1
tổng thể
Ước lượng hiệu quả
^
Giả sử là ƣớc lƣợng không chệch của . Áp dụng bất
^
đẳng thức Chebyshev cho đại lƣợng ngẫu nhiên , ta có:
^
^ ^
Var ( )
P E ( ) 1
2
^
Vì E ( ) nên bất đẳng thức Chebyshev trở
^
^ Var ( )
thành: P 1
2
^
Nhƣ vậy, nếu phƣơng sai Var ( ) càng nhỏ thì xác suất
^
để nhận giá trị gần bao nhiêu cũng đƣợc, sẽ càng lớn.
^
Do đó phƣơng sai của là một chỉ tiêu quan trọng phản
^
ánh chất lƣợng của hàm ƣớc lƣợng f ( X1 , X 2 , , Xn) .
Tất nhiên một cách hợp lý là cần chọn những hàm ƣớc
lƣợng không chệch và phƣơng sai nhỏ nhất.
85
^
Định nghĩa: f ( X1 , X 2 , , X n ) là ƣớc lƣợng không
^
chệch của và phƣơng sai Var ( ) bằng cận dƣới các
phƣơng sai của các hàm ƣớc lƣợng đƣợc xây dựng từ mẫu
^
ngẫu nhiên WX ( X 1 , X 2 , , X n ) thì đƣợc gọi là ƣớc
lƣợng hiệu quả của .
Để tìm cận dƣới của phƣơng sai các hàm ƣớc lƣợng ta
dựa vào bất đẳng thức Crame-Rao nhƣ sau: Cho mẫu ngẫu
nhiên WX ( X 1 , X 2 , , X n ) đƣợc xây dựng từ đại lƣợng
ngẫu nhiên X có hàm mật độ xác suất f ( x, ) . Thỏa mãn
một số điều kiện nhất định (thƣờng đƣợc thỏa mãn trong
^
thực tế) và là ƣớc lƣợng không chệch bất kỳ của thì:
^ 1
Var ( )
ln x,
2
n E
Ước lượng vững
Một hàm ƣớc lƣợng đƣợc coi là hợp lý nếu nhƣ kích
thƣớc của mẫu tăng lên khá lớn thì giá trị của nó phải gần
tham số cần ƣớc lƣợng.
Định nghĩa: Cho mẫu WX ( X 1 , X 2 , , X n ) xây dựng từ
đại lƣợng ngẫu nhiên X. Hàm ƣớc
^
lƣợng f ( X1 , X 2 , , X n ) của đƣợc gọi là vững nếu
mọi ε > 0 bé tùy ý cho trƣớc ta đều có:
Lim P f X1 , X 2 ,
, X n 1
n
Điều kiện đủ của ƣớc lƣợng vững đƣợc phát biểu dƣới
dạng định lý nhƣ sau:
86
^
Nếu là ƣớc lƣợng không chệch
^ ^
của và LimVar ( ) 0 thì là ƣớc lƣợng vững của .
n
87
điểm làm cho lnL cực đại thì L cũng cực đại. Do đó các
1 ,..., r là nghiệm của hệ phƣơng trình (**)
Ví dụ 3.10:
x
1
1. Cho đặc tính X có phân phối mũ : f ( x, ) e
,
x 0; 0 , với (x1, x2, …, xn): mẫu quan sát, độc lập của
đặc tính X. Tìm ƣớc lƣợng hợp lý cực đại cho ?
2. Cho đặc tính X có phân phối chuẩn N( , 2 ), với (X1,
X2, …, Xn) là mẫu ngẫu nhiên, độc lập của đặc tính X.Tìm
ƣớc lƣợng hợp lý cực đại cho , 2
Hƣớng dẫn
n
1. * Xác định hàm hợp lý: L( x1 ,...xn , ) f ( xi , )
i 1
88
phƣơng pháp tìm (1, 2) đƣợc trình bày chi tiết cho các tham
số thống kê.
Nếu (1, 2) là khoảng ƣớc lƣợng đối xứng của thì
đại lƣợng 2 1
dùng để đo độ chính xác (gọi là sai số)
2
của ƣớc lƣợng. Đại lƣợng càng nhỏ thì ta nói ƣớc lƣợng
càng chính xác. Nếu độ tin cậy càng lớn thì khoảng (1,
2) càng rộng, sai số càng lớn. Trong thống kê, khoảng
ƣớc lƣợng có độ tin cậy càng cao càng tốt, khi tìm khoảng
ƣớc lƣợng ta cần xác định độ tin cậy , sau đó tìm phƣơng
pháp ƣớc lƣợng sao cho là nhỏ nhất.
a) Khoảng ước lượng trung bình của tổng thể
Nếu biết phương sai 2 hoặc cỡ mẫu lớn (n 30)
Giả sử (X1, X2, …, Xn) là mẫu ngẫu nhiên, độc lập của X ,
với là trung bình cần ƣớc lƣợng.
x x
Ta có: Z N (0,1) hay Z N (0,1)
s
P ( z Z z ) , với z là phân vị chuẩn
2 2 2
( 1 ).
Ta xác định đƣợc khoảng ƣớc lƣợng cho trung bình với
s
độ tin cậy là: ( x ; x ) , z hay z
2 n 2 n
Trong đó:
* x là trung bình mẫu ; là độ lệch chuẩn của tổng
thể; s là độ lệch chuẩn của mẫu.
89
* z là phân vị chuẩn, tra bảng phụ lục 1, với
2
( z ) 0,5
2 2
* z : Độ chính xác (sai số) của ƣớc lƣợng trung
2 n
bình
Cách tra phân vị chuẩn z :
2
Cho Z là BNN có luật phân phối N(0; 1). Khi đó, với
cho trƣớc thì luôn tồn tại giá trị z sao cho
P(Z z ) 0,5 (z ) (z ) 0,5 . Xác
định phân vị chuẩn z bằng cách tra bảng phụ lục 1.
Ví dụ 3.11:
Với = 5% (z ) 0, 45 z 1,65 (tra dòng
1,6 và cột 0,05) và (z ) 0, 475 z 1,96 (tra dòng
2 2
90
Cho T là BNN có phân phối Student với n bậc tự do n .
Khi đó, với cho trƣớc luôn tồn tại giá trị t ;n sao cho
P(T t ;n ) ,. Xác định phân vị Student t ;n bằng cách
tra bảng phụ lục 2.
Ví dụ 3.12:
Với = 5% t ;9 1,383 (tra dòng df = 9 và cột
0,05) và t 2,262 (tra dòng df = 9 và cột 0,025)
;9
2
s 0, 457
z 1,96 0,111 (kg)
2 n 65
( x ; x ) 2,698 0,111; 2,698 0,111 2,587; 2,809
91
Vậy khoảng tin cậy cho trọng lƣợng trung bình của bé
gái sơ sinh trong dân số với độ tin cậy 95% từ 2,587kg
đến 2,809kg.
Ví dụ 3.14: Trọng lƣợng của viên thuốc là BNN X có luật
phân phối chuẩn, khảo sát 25 viên thuốc tính đƣợc trung
bình mẫu x = 50,052mg, độ lệch tiêu chuẩn s = 0,825mg.
Hãy ƣớc lƣợng trọng lƣợng trung bình của viên thuốc do xí
nghiệp sản xuất ra với độ tin cậy 95%.
Giải
Khoảng ƣớc lƣợng trọng lƣợng trung bình μ của viên
thuốc do xí nghiệp sản xuất ra với độ tin cậy 95% là:
x ; x với t
; n 1
s
n
2
s 0,825
t 2,064 0,341 (mg)
; n 1 n 25
2
92
* Khoảng ƣớc lƣợng cho p với độ tin cậy là:
f (1 f )
( f ; f ) , với z
2 n
Trong đó:
m
* f , m số phần tử của mẫu quan sát có dấu hiệu T
n
* z là phân vị chuẩn.
2
f (1 f )
* z : Độ chính xác (sai số) của ƣớc
2 n
lƣợng tỉ lệ.
Ví dụ 3.15: Cân trọng lƣợng của 1000 bé gái sơ sinh thì có
308 bé gái sơ sinh có trọng lƣợng từ 3,2kg trở lên. Hãy ƣớc
lƣợng tỉ lệ bé gái sơ sinh có trọng lƣợng từ 3,2kg trở lên
trong dân số với độ tin cậy 99%.
Giải
Khoảng ƣớc lƣợng 99% cho tỉ lệ (p) bé gái sơ sinh có
trọng lƣợng từ 3,2kg trở lên trong dân số.
f (1 f )
( f ; f ) , với z
2 n
Theo mẫu ta có:
308
n 1000; f 0,308; z 2,58
1000 2
f (1 f )
z 0,0377
2 n
( f ; f ) 0,308 0,0377; 0,308 0,0377
= ( 27,03% ; 34,57% )
93
Vậy tỉ lệ bé bé gái sơ sinh có trọng lƣợng từ 3,2kg trở lên
trong dân số từ 27,03% đến 34,57%.
c) Khoảng ước lượng phương sai 2 của tổng thể
Giả sử (x1, x2, …, xn) là mẫu quan sát, độc lập của đặc tính
X.
(n 1) S 2
* 2 ~ 2 (n 1) , với hai phân vị là: 2 ;
2 1 ;n 1
2
2 , 1
;n 1
2
94
Cho 2 là BNN có phân phối chi bình phƣơng với n bậc
tự do n . Khi đó, luôn với cho trƣớc luôn tồn tại giá trị
; n sao cho P(
2 2 2
;n ) . Xác định phân vị chi bình
phƣơng 2 ; n bằng cách tra bảng phụ lục 3.
Ví dụ 3.16:
Với = 5% 2 19,023 (tra dòng df = 9 và cột
;9
2
0,005) và 2
9,886 (tra dòng df = 24 và cột 0,995)
1 ; 24
2
95
Với 1 - = 90% 2 37,652 và 2 14,611
;n 1 ; n
2 2
n
175
n
xi
2
175
i 1 2 4,65
37,652
;n
n 2
x 2
i
175
i 1
11,98
2
14,611
1 ; n
2
n 1 s 2
24 2,6302
4, 22
2 39,364
; n 1
2
và
n 1 s 2 = 24 2,6302 13,39
2 12, 401
1 ; n 1
2
96
CHƢƠNG 4: KIỂM ĐỊNH GIẢ THIẾT
THỐNG KÊ
Nội dung đƣợc trình bày trong chƣơng 4 bao gồm: Một
số khái niệm cơ bản về kiểm định giả thiết thống kê; Giới
thiệu bài toán kiểm định giả thiết thống kê và xây dựng các
mô hình kiểm định giả thiết cho các tham số của tổng thể,
nhƣ: Phƣơng pháp kiểm định giả thiết cho tham số trung
bình, tỉ lệ, phƣơng sai của tổng thể; Kiểm định giả thuyết
về phân phối của biến ngẫu nhiên (BNN), kiểm định về
tính độc lập của hai BNN; Phƣơng pháp kiểm định phi
tham số. Đặc biệt, trình bày các ví dụ vận dụng phƣơng
pháp kiểm định giả thiết thống kê trong lĩnh vực y học.
4.1 MỘT SỐ KHÁI NIỆM VỀ KIỂM ĐỊNH GIẢ
THIẾT THỐNG KÊ
4.1.1 Khái niệm về giả thiết thống kê
Giả thiết thống kê là một mệnh đề nhận định về tham số
của tổng thể. Khi ta đồng nhất tổng thể với một BNN thì
giả thiết thống kê cũng có thể là nhận định về phân phối
xác suất của BNN hoặc tính độc lập của các BNN: Về
Tham số đặc trƣng của biến ngẫu nhiên, nhƣ: giả thiết về
trung bình, phƣơng sai, tỉ lệ; về luật phân phối xác suất của
BNN chẳng hạn, giả thiết BNN có luật phân phối chuẩn;
về tính độc lập của hai BNN, chẳng hạn, giả thiết BNN X
độc lập với BNN Y.
Khi ta tiến hành khảo sát đặc tính X trên tổng thể nào
đó, là tham số của X, còn gọi là tham số của tổng thể (
có thể là trung bình, tỉ lệ, phƣơng sai,…), hoặc khảo sát
đặc tính X trên nhiều tổng thể sẽ có nhiều tham số tƣơng
97
ứng với các tổng thể nhƣ 1,2 , Các mệnh đề giả thiết
ta kí hiệu H0, Các mệnh đề đối lập với giả thiết gọi là đối
thiết, kí hiệu H1. Giả thiết về đƣợc phát biểu:
H 0 : 0 H : 2
(1) hoặc 0 1
H1 : 0 H1 : 1 2
H : 0 H : 2
(2) 0 hoặc 0 1
H1 : 0 H1 : 1 2
H : 0 H : 2
(3) 0 hoặc 0 1
H1 : 0 H1 : 1 2
Kiểm định giả thiết thống kê là kết luận giả thiết (đối
thiết) đúng hay sai dựa trên số liệu thống kê. Kết luận nói
trên thƣờng đúng với xác suất khá lớn và có thể sai với xác
suất khá nhỏ. Trong nội dung chƣơng này ta chỉ giới hạn
kiểm định giả thiết thống kê về tham số của tổng thể có
dạng (1); (2); (3). Giả thiết kiểm định dạng (1), (2) gọi là
kiểm định một phía, kiểm định dạng (3) gọi là kiểm định
hai phía.
4.1.2 Sai lầm loại I và sai lầm loại II:
Kiểm định giả thiết thống kê là từ tổng thể lấy mẫu quan
sát (x1, x2, …, xn) của X, sau đó dựa vào các mô hình kiểm
định ta đƣa ra quyết định chấp nhận hay bác bỏ giả thiết về
giá trị tham số của tổng thể. Tuy nhiên, một điều đáng lƣu
ý là: Chỉ dựa vào một mẫu quan sát mà ta đƣa ra quyết
định chấp nhận hay bác bỏ cho giá trị tham số của tổng thể,
vậy liệu quyết định đó có khả năng mắc sai lầm không?
Trong thực tế không có mô hình kiểm định nào mà không
tồn tại khả năng mắc sai lầm. Trong các mô hình kiểm định
giả thiết luôn tồn tại hai loại sai lầm:
98
Sai lầm loại I: Ta quyết định bác bỏ giả thiết H0
trong khi giả thiết thực sự đúng, với khả năng (xác
suất) mắc sai lầm loại I là , tức là:
P (Bác bỏ H0 /H0 đúng) =
Sai lầm loại II: Ta quyết định chấp nhận giả thiết
H0 trong khi giả thiết thực sự là sai, với khả năng
(xác suất) mắc sai lầm loại II là , tức:
P (Chấp nhận H0 /H0 sai) =
Hai loại sai lầm này có tính chất đối kháng, tức là muốn
hạn chế khả năng phạm sai lầm loại I, ta có xu hƣớng làm
tăng khả năng phạm sai lầm loại II và ngƣợc lại. Vì muốn
hạn chế sai lầm loại I ta có xu hƣớng dè dặt trong việc bác
bỏ và sẽ có khuynh hƣớng dễ dãi trong việc chấp nhận. Khi
đó lại dễ phạm sai lầm loại II. Còn muốn giảm sai lầm loại
II, ta dè dặt trong việc chấp nhận và dẫn đến dễ dãi trong
việc bác bỏ. Điều này làm cho nguy cơ phạm sai lầm loại I
tăng lên! Tức là:
P(sai lầm loại I) P(sai lầm loại II)
P(sai lầm loại II) P(sai lầm loại I).
Tất nhiên có một cách làm giảm cả hai xác suất sai lầm
nếu tăng kích thƣớc mẫu n lên. Nhƣng khi đó chi phí cũng
tăng lên và đôi khi ta không phải trực tiếp làm ra đƣợc số
liệu.
Giải quyết mâu thuẫn này bằng cách nào?
Thực ra sai lầm loại I và loại II rất tƣơng đối, nó
không có sẵn từ đầu, mà chỉ xác định khi ta đã đặt giả
thuyết. Chẳng hạn đối với một bác sĩ khám bệnh, ông ta có
thể đƣa ra chẩn đoán sai rơi vào một trong hai tình huống
sai lầm sau:
99
i/. Ngƣời có bệnh, sau khi khám dựa trên kết quả lâm
sàng, bác sỹ chẩn đoán không có bệnh.
ii/.Ngƣời không bệnh, sau khi khám dựa trên kết quả
lâm sàng, bác sỹ chẩn đoán có bệnh và tiến hành điều trị.
Vậy bác sỹ này rơi vào sai lầm nào là loại I hay sai lầm
nào là loại II? Tất nhiên là chưa thể nói được.
Nếu bác sỹ đặt giả thuyết H0: “ngƣời này có bệnh” thì
trƣờng hợp i) là sai lầm loại I còn ii) là sai lầm loại II. Còn
nếu bác sỹ đặt giả thuyết H0: “ngƣời này không bệnh” thì
trƣờng hợp i) là sai lầm loại II còn ii) là sai lầm loại I.
Nên đặt giả thuyết thế nào?
Muốn vậy ngƣời ta phải xem xét sai lầm nào quan trọng
hơn, tức là khi phạm phải sẽ chịu tổn thất lớn hơn, thì ta sẽ
đặt bài toán để sai lầm đó là loại I.
Chẳng hạn bác sỹ điều trị bệnh lao phổi. Đó là bệnh mà
nếu phát hiện để điều trị gần nhƣ chắc chắn sẽ khỏi, còn
nếu không đƣợc phát hiện kịp thời để điều trị thì bệnh sẽ
nặng dần và dẫn đến tử vong. Khi đó sai lầm i) "có bệnh
bảo không" là quan trọng hơn, nó có thể dẫn đến tử vong,
còn sai lầm ii) "không bệnh bảo có" cũng gây tổn hại,
nhƣng ít tổn hại hơn sai lầm i). Vì vậy với trƣờng hợp này
ta nên đặt giả thuyết H0: “ngƣời này có bệnh”.
Tóm lại, khi làm thống kê ngƣời ta luôn mong muốn
xây dựng mô hình kiểm định sao cho khả năng mắc hai
loại sai lầm càng nhỏ càng tốt. Tuy nhiên việc làm đó
không thể thực hiện đƣợc. Vì vậy khi xây dựng mô hình
kiểm định ngƣời ta chấp nhận xác suất mắc sai lầm loại I ở
mức (cho trƣớc), và tiến hành xây dựng các mô hình
kiểm định đảm bảo xác suất mắc sai lầm loại II là nhỏ
100
nhất. Các mô hình kiểm định sau đây đƣợc xây dựng trên
quan điểm đó.
4.1.3 Phƣơng pháp kiểm định giả thuyết thống kê:
Các bƣớc kiểm định một giả thiết thống kê với mức ý
nghĩa khá nhỏ đƣợc tiến hành nhƣ sau:
i/. Thành lập giả thiết H0 và đối thiết H1 căn cứ vào
yêu cầu thực tế.
ii/. Tính giá trị kiểm định theo tiêu chuẩn kiểm định:
iii/.Tìm miền bác bỏ của giả thiết H0 là W (hay còn
gọi điều kiện hoặc quy tắc bác bỏ giả thiết H0 )
iv/. Kết luận về giả thiết H0 và đối thiết H1 :
Nếu G W thì giả thiết H0 bị bác bỏ, đối thiết
H1 đƣợc chấp nhận.
Nếu G W thì chấp nhận giả thiết H0, khi đó
đối thiết H1 bị bác bỏ.
4.1.4 P-value
P-value là viết tắt của từ probability value. Đây là một
con số xác suất và đƣợc gọi là trị số P. Hiểu một cách đơn
giản, đây là trị giá xác suất và nó là một đại lƣợng giúp các
nhà khoa học hay các chuyên gia quyết định giả thuyết của
họ đúng hay sai. P-value Là mức ý nghĩa nhỏ nhất mà ta
vẫn bác bỏ đƣợc giả thuyết H0.
P-value trong SPSS: SPSS là một phần mềm thống kê
đƣợc sử dụng phổ biến hiện nay. Trong SPSS, P-value
đƣợc hiểu là xác suất phạm sai lầm khi bác bỏ giả thiết Ho.
P-value càng cao thì hậu quả của việc phạm sai lầm khi
bác bỏ giả thiết càng nghiêm trọng, P-value chính là giá trị
Sig trong SPSS.
101
4.2 KIỂM ĐỊNH GIẢ THIẾT VỀ TRUNG BÌNH ( )
CỦA TỔNG THỂ
4.2.1 Kiểm định giả thiết thống kê so sánh trung bình
( ) của tổng thể với giá trị cho trƣớc.(so sánh trung
bình thực nghiệm và trung bình lý thuyết)
Tiêu chuẩn đƣợc sử dụng để kiểm định trung bình
của tông thể hàm thống kê có phân phối N(0; 1) hoặc phân
phối Student T(n). Cho X là đặc tính của tổng thể,
X~N( ; 2 ). Để kiểm định những thông tin về giá trị
của , ta tiến hành lấy mẫu. Giả sử (X1, X2, …,Xn) là mẫu
ngẫu nhiên độc lập của X.
Các cặp giả thiết, đối thiết có thể đƣợc kiểm định:
H : 0
(1) 0
H1 : 0
H : 0
(2) 0
H1 : 0
H : 0
(3) 0 (μ0 là giá trị đã biết)
H1 : 0
Trường hợp biết phương sai 2 của tổng thể hoặc cỡ
mẫu lớn ( n 30 ).
X 0
Tiêu chuẩn kiểm định: Z n hoặc
X 0
Z n , (nếu chƣa biết thì dùng S thế cho )
S
102
X 0
Nếu giả thiết H0 đúng thì Z n ~ N (0;1) hoặc
X 0
Z n ~ N (0;1) . Khi đó, ta chứng minh đƣợc:
S
Khi cho trƣớc xác suất sai lầm loại I là , dựa vào luật
phân phối chuẩn tắc N(0,1), ta luôn xác định đƣợc phân vị
chuẩn z hoặc z sao cho:
2
Thứ nhất, với kiểm định một phía, giả thiết dạng (1) và (2):
P( Z z H 0 đúng) = P( Z z H 0 đúng) = 1
Hoặc
P( Z z H 0 đúng) = P( Z z H 0 đúng) = 1
Thông thƣờng xác suất sai lầm đƣợc chọn khá bé, theo
quy tắc xác suất bé thì khả năng Z z ( hoặc Z z ) sẽ
không xảy ra nếu giả thiết H0: = 0 là đúng . Do đó, với
một mẫu quan sát mà cho kết quả Z z ( hoặc Z z )
thì ta bác bỏ H0, chấp nhận H1: > 0 ( hoặc chấp nhận
H1: < 0 ). Ngƣợc lại, nếu Z z thì chấp nhận giả thiết
H0 : = 0 .
Thứ nhất, với kiểm định hai phía, giả thiết dạng (3):
P ( Z z H 0 đúng) = P ( Z z H 0 đúng) = 1 .
2 2
103
Tóm lại, phương pháp thực hành kiểm định cho trường
hợp này như sau:
(i) Đặt giả thiết dạng (1) hoặc dạng (2) hoặc dạng (3)
(ii) Chọn tiêu chuẩn kiểm định:
X 0 X 0
Z n hoặc Z n
S
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm
định, suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị chuẩn z (kiểm
định 1 phía, H1: 0 ; H1 : 0 ) hay z
2
104
n n
P( Z z ( 0 1 ) ) 0,5 ( z ( 0 1 ) )
= 0 .
Nếu T t ; n1 thì ta chấp nhận H1: 0 .
Ngƣợc lại nếu T t ; n1 thì ta chấp nhận H0:
= 0 .
Nếu T t ; n1 thì ta chấp nhận H1: 0 .
Ngƣợc lại nếu T t ; n1 thì ta chấp nhận H0:
= 0 .
Chú ý: Xác suất sai lầm loại II ( ):
105
n
Với H1: 1 0 : 1 P(T t ;n 1 ( 0 1 ) )
s
n
Với H1: 1 0 : P(T t ;n1 ( 0 1 ) )
Ví dụ 4.1: Khối lƣợng một loại dƣợc phẩm là BNN có
khối lƣợng trung bình là 100g, độ lệch chuẩn là 0,8g.
Sau một thời gian sản xuất, ngƣời ta nghi ngờ khối lƣợng
của loại dƣợc phẩm này có xu hƣớng tăng lên. Kiểm tra 60
dƣợc phẩm tính đƣợc trung bình mẫu x = 100,2g.
a) Với mức ý nghĩa 5%, hãy kết luận về nghi ngờ
trên.
b) Câu hỏi tƣơng tự với mức ý nghĩa 1%.
c) Tìm P – Value ?
Giải
a) Gọi X khối lƣợng của loại dƣợc phẩm này (hiện tại)
E(X), 2 Var(X)
H : 100g
* Ta có giả thiết: 0
H1 : 100g
Z
x
0 n
100, 2 100 60
1,93
0,8
* Với 5% z 1,65 , ta có: Z 1,93 z 1,65
nên chấp nhận đối thiết H1 , tức là điều nghi ngờ khối
lƣợng sản phẩm tăng lên là đúng.
b) Lời giải tƣơng tự câu a)
Với 1% z 2,33
106
Kết luận: Chấp nhận giả thiết H0, bác bỏ đối thiết H1 .
Vậy, điều nghi ngờ khối lƣợng của loại dƣợc phẩm này
tăng lên là không chấp nhận.
c) Ta tìm sao cho z < 1,93, tra phân vị chuẩn
(phụ lục 1), ta có khi mức ý nghĩa 2,7% thì thì ta
vẫn bác bỏ giả thiết H0, tức là P – Value = 2,7%.
Ví dụ 4.2: Một nhóm ngƣời nghiên cứu tuyên bố rằng, tại
một khu vực dân cƣ trung bình một ngƣời chi tiêu mua
thuốc là 140 nghìn đồng/năm. Khảo sát ngẫu nhiên 50
ngƣời ở khu vực dân cƣ này, tính đƣợc số tiền trung bình
họ chi tiêu mua thuốc là 154 nghìn đồng/năm và độ lệch
chuẩn điều chỉnh của mẫu là s = 62 nghìn đồng. Với mức ý
nghĩa 5% hãy kiểm định xem tuyên bố của nhóm ngƣời
nghiên cứu có đúng hay không?
Giải
Gọi X số tiền mua mua thuốc của ngƣời dân ở khu
vực dân cƣ này, E(X), 2 Var(X)
H : 140
* Ta có giả thiết 0
H1 : 140
Z
x
0 n
154 140 50
1,597
s 62
* Với 5% z 1,96 , ta có: Z 1,597 z 1,96
2 2
nên chấp nhận H0: 140 , tức là tại khu vực dân cƣ trung
bình một ngƣời chi tiêu mua thuốc là 140 nghìn đồng/năm.
107
Ví dụ 4.3: Đƣờng kính của viên thuốc là BNN X có luật
phân phối chuẩn. Kiểm tra 28 viên thuốc thu đƣợc số liệu
nhƣ sau: (đơn vị tính mm)
20,10 20,05 20,03 19,98 20,00 20,02 20,01
20,00 20,02 19,99 19,97 20,02 19,99 19,96
19,97 20,00 20,00 20,02 20,03 19,97 20,00
20,01 20,04 19,99 20,03 20,02 20,00 20,04
Với mức ý nghĩa 5%, có thể cho rằng đƣờng kính trung
bình của viên thuốc loại này là 20mm hay không?
Giải
Gọi X là đƣờng kính viên thuốc và E(X), 2 Var(X)
H : 20
* Ta có giả thiết 0
H1 : 20
T
x 0 n
20,0093 20 28
1,679
s 0,0293
* Với 5% và n = 28 t ; n 1 2,052 , ta có:
2
đƣờng kính trung bình của viên thuốc loại này bằng 20mm.
One-Sample Test (Test Value = 20)
95% Confidence
Interval of the
Sig. (2- Mean Difference
T df tailed) Difference Lower Upper
108
ĐK viên
1,677 27 0,105 0,00929 -0,0021 0,0206
thuốc
Bảng kết quả kiểm định ví dụ 4.3 từ SPSS
4.2.2 Kiểm định giả thiết thống kê so sánh hai trung
bình của hai tổng thể độc lập
Gọi X là trung bình của X trên tổng thể 1, Y là trung
bình của X trên tổng thể 2. Để so sánh về hai giá trị trung
bình X , Y ta tiến hành khảo sát hai mẫu trên hai tổng thể
đƣợc số liệu quan sát: (x1, x2, …, xn1) là mẫu quan sát trên
tổng thể 1, (y1, y2, …, yn2) là mẫu quan sát trên tổng thể 2.
Các cặp giả thiết, đối thiết có thể đƣợc kiểm định:
H : Y
(1) 0 X
H1 : X Y
H : Y
(2) 0 X
H1 : X Y
H : Y
(3) 0 X
H1 : X Y
Trường hợp biết 2
X ; 2
Y hoặc cỡ mẫu lớn (n1,
n2 30 ). Mô hình kiểm định z-test
Phương pháp thực hành kiểm định cho trường hợp
này như sau:
(i) Đặt giả thiết dạng (1) hoặc dạng (2) hoặc dạng
(3)
(ii) Chọn tiêu chuẩn kiểm định:
X Y X Y
Z hoặc Z
x2 y2 2
sx2 s y
nx ny nx n y
109
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm
định, suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị chuẩn z .
Quy tắc bác bỏ giả thiết H0 (dạng phân phối chuẩn
Z ~ N (0;1) :
Nếu Z z thì ta chấp nhận H1: X Y . Ngƣợc
2
110
2
S X2 SY2
Nếu
2 2
thì T ~ t( ) với (bậc
X Y
n1 n2
2
2 2
S X2 SY2
n1 n2
n1 1 n2 1
tự do df )
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm
định, suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị Student t ; n 1 .
Quy tắc bác bỏ giả thiết H0 (dạng phân phối
Student với bậc tự do (nx + ny – 2) hoặc bậc tự do nhƣ
trên):
Nếu T t (hoặc T t ) thì ta chấp
; nx n y 2 ;
2 2
X Y .
Nếu T t ; nx ny 2 (hoặc T t ; ) thì ta chấp nhận
H1 : X Y . Ngƣợc lại nếu T t ; nx ny 2 (hoặc
T t ; ) thì ta chấp nhận H0: X Y .
Nếu T t ; nx ny 2 (hoặc T t ; ) thì ta chấp
nhận H1: X Y . Ngƣợc lại nếu T t ; nx ny 2
(hoặc T t ; ) thì ta chấp nhận H0: X Y .
Ví dụ 4.4: Định lƣợng protein (mg%) toàn phần của hai nhóm
trẻ:
Nhóm I: nx = 36 ; x 47,3; sx 11, 25
111
Nhóm II: ny = 31; y 53,5; s y 10, 49
Protein trung bình của hai nhóm có nhƣ nhau không, với
mức ý nghĩa = 5%?
Giải
H : Y
* Ta có giả thiết: 0 X
H1 : X Y
x y
* Tiêu chuẩn kiểm định: Z
2
sx2 s y
nx n y
Với hai mẫu số liệu thực nghiệm ở hai nhóm trẻ:
Nhóm I: nx = 36 ; x 47,3; sx 11, 25
Nhóm II: ny = 31; y 53,5; s y 10, 49
x y 47,3 53,5
Z 2,33
2 2 2 2
s s 11, 25 10, 49
x
y
nx n y 36 31
* Với 5% z 1,96 , ta có: Z = 2,33 z 1,96
2 2
112
Đánh giá hiệu quả của hai loại thuốc trên với mức ý nghĩa
5%. Biết rằng phƣơng sai của FEV khi dùng hai loại thuốc
A, B là nhƣ nhau.
(FEV - Forced Expiratory Volume là thể tích khí thở ra tối
đa trong 1 giây đầu tiên sau khi hít vào hết sức. FEV đánh
giá mức độ thông thoáng của đƣờng dẫn khí và khả năng
giãn nở của phổi, FEV giảm trong một số bệnh gây thắt hẹp
đƣờng dẫn khí đặc biệt trong bệnh hen phế quản.
Giải
H : Y
* Ta có giả thiết: 0 X
H1 : X Y
x y
* Tiêu chuẩn kiểm định: T 2
s x2 s y
nx n y
Với hai mẫu số liệu thực nghiệm thuốc A và thuốc B, ta có:
nx 10; x 0,0340; sx 0,0344
n y 10; y 0,1820; s y 0,0605
x y
T 6,724
s2
s y2
x
nx n y
* Với 5% t 2,101 , ta có:
; nx ny 2
2
là hàm lƣợng FEV của ngƣời bệnh sau khi uống thuốc A, B
là khác nhau.
113
Levene's Test
for Equality Independent Samples Test
of Variances t-test for Equality of Means
95% Confidence
Sig. Interval of the
(2- Mean Std. Error Difference
F Sig. T Df tailed) Difference Difference Lower Upper
Equal
variances
3,721 0,070 -6,724 18 0,000 -0,14800 0,02201 -0,194 -0,102
assumed
Equal
variances
-6,724 14,26 0,000 -0,14800 0,02201 -0,195 -0,101
not
assumed
Bảng kết quả kiểm định ví dụ 4.5 từ SPSS
4.2.3 Kiểm định giả thiết thống kê so sánh hai trung
bình của tổng thể với số liệu cặp.
Xét đặc tính X , Y( cùng đặc tính) trên cùng tổng thể.
X là trung bình của X, Y là trung bình của Y. Để so
sánh hai giá trị trung bình X và Y ta tiến hành khảo sát
hai mẫu với số liệu quan sát đƣợc lấy theo cặp nhƣ sau:
X x1 x2 … xn
Y y1 y2 … yn
Các cặp giả thiết, đối thiết có thể đƣợc kiểm định:
H : Y
(1) 0 X
H1 : X Y
H : Y
(2) 0 X
H1 : X Y
H : Y
(3) 0 X
H1 : X Y
114
Đặt D X Y D X Y với Di X i Yi , i 1, 2,3,..., n
Khi đó, các cặp giả thiết, đối thiết có thể đƣợc kiểm định
tƣơng đƣơng là:
H : 0
(1) 0 D
H1 : D 0
H : 0
(2) 0 D
H1 : D 0
H : 0
(3) 0 D
H1 : D 0
Phương pháp thực hành kiểm định cho trường hợp này
như sau:
(i) Đặt giả thiết dạng (1) hoặc dạng (2) hoặc dạng
(3)
(ii) Chọn tiêu chuẩn kiểm định:
D n
T với D = X – Y
SD
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm
định, suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị Student t ; n 1 .
Quy tắc bác bỏ giả thiết H0 (dạng phân phối
Student T(n – 1) với bậc tự do (n – 1):
Nếu T t thì ta chấp nhận H1: D 0 . Ngƣợc
; n 1
2
115
Nếu T t ; n1 thì ta chấp nhận H1: D 0.
Ngƣợc lại nếu T t ; n1 thì ta chấp nhận H0:
D 0.
Ví dụ 4.6: Để đánh giá hiệu quả của một loại nƣớc uống
tăng lực, ngƣời ta làm thực nghiệm bằng cách cho 10
ngƣời chạy trên một đoạn đƣờng (đơn vị là giây) trƣớc và
sau khi uống thuốc tăng lực (có thời gian nghỉ ngơi để hồi
phục thể lực), ngƣời ta ghi lại kết quả nhƣ sau:
Trƣớc khi uống thuốc tăng lực (X):
58 58 56 38 70 38 42 75 68 67
Sau khi khi uống thuốc tăng lực (Y):
57 55 63 24 67 43 33 68 56 54
Với mức ý nghĩa 5% cho kết luận về hiệu quả của việc
uống thuốc tăng lực (thời gian chạy trên cùng đoạn đƣờng
có giảm hay không).
Giải
H : Y
*Ta có giả thiết: 0 X
H1 : X Y
H : 0
hay giả thiết tƣơng đƣơng 0 D
H1 : D 0
d n
*Tiêu chuẩn kiểm định: T với D = X – Y
sd
Trƣớc khi uống thuốc tăng lực (X):
58 58 56 38 70 38 42 75 68 67
Sau khi khi uống thuốc tăng lực (Y):
57 55 63 24 67 43 33 68 56 54
Với D = X – Y, ta có mẫu số liệu:
1 3 –7 14 3 –5 9 7 12 13
116
Với mẫu số liệu, ta có: n 10; d 5; sd 7,318
d n 5 10
T 2,161
sd 7,318
* Với mức ý nghĩa 5% t ; n 1 1,833
Ta có: T 2,161 t ; n 1 1,833 nên Bác bỏ giả thiết H0 và
chấp nhận H1: X > Y . Vậy uống thuốc tăng lực mang lại
hiệu quả.
Paired Samples Test
Paired Differences
95%
Confidence
Std. Interval of the Sig.
Std. Error Difference D (2-
Mean Deviation Mean Lower Upper t f tailed)
5.000 7,318 2,314 -0,235 10,235 2,161 9 0,059
Bảng kết quả kiểm định ví dụ 4.6 từ SPSS
4.2.4 Kiểm định giả thiết thống kê so sánh nhiều giá trị
trung bình của nhiều tổng thể
Giả sử X là đặc tính cần nghiên cứu, ta quan tâm đến
một yếu tố A nào đó. Vấn đề đặt ra là yếu tố A có ảnh
hƣởng đến đặc tính X không. Chẳng hạn: X là năng suất
của dƣợc liệu, ta cần khảo sát xem yếu tố địa lý có ảnh
hƣởng đến năng suất của dƣợc liệu hay không; X là thời
gian điều trị khỏi bệnh, ta quan tâm đến các phƣơng pháp
điều trị có ảnh hƣởng đến gian điều trị khỏi bệnh hay
không;…Ta tiến hành khảo sát đặc tính X trên k tổng thể
của yếu tố A, trên mỗi vùng ta khảo sát một mẫu, đƣợc
bảng số liệu quan sát:
117
Các tổng thể Các mẫu quan sát của X
của yếu tố A
1 x11 x12 … x1n1 x1
2 x21 x22 … x2n2 x2
. . . . . .
. . . . . .
. . . . . .
K xk1 xk2 … xknk xk
Giả thiết H0: 1 2 ... k : Yếu tố A không ảnh
hƣởng đến đặc tính X
Đối thiết H1: Tồn tại cặp i j ; i j : Yếu tố A có ảnh
hƣởng đến đặc tính X
Ta sử dụng phương pháp phân tích phương sai một yếu tố (One
way ANOVA) với điều kiện các tổng thể của đặc tính X là các tổng
thể độc lập, có phân phối chuẩn và có các phương sai bằng nhau.
Phương pháp thực hành kiểm định cho trường hợp này như sau:
(i) Ta có giả thiết H0: Yếu tố A không ảnh hƣởng đến
đặc tính X
SSB
(ii) Tiêu chuẩn kiểm định: F MSB k 1
MSW SSW
n k
Trong đó:
n n1 n2 nk là tổng số phần tử khảo sát.
Trung bình mẫu thứ i (dòng i), i=1, 2,… k
118
1 ni
xi xij
n j 1
1 k ni
Trung bình chung của các mẫu gộp lại: x xij
n i 1 j 1
Tổng bình phƣơng độ lệch trong nội bộ nhóm.
k ni k ni k
SSW ( xij xi ) 2 xij2 ni x i
2
i 1 j 1 i 1 j 1 i 1
Hoặc
k
SSW SSi (n1 1)S12 (n 2 1)S22 (n k 1)Sk2
i 1
k
SSB ni xi x
i 1
i 1 j 1 i 1 j 1
119
sao cho P( F F ; k 1; n k ) . Xác định phân vị Fisher
F ; k 1; n k bằng cách tra bảng phụ lục 4.
Ví dụ 4.7:
Với = 5%, ta có:
F ; 2; 21 19,023 (tra cột n1 = 2 và dòng n2 = 21) và
F ; 5; 30 2,53 (tra cột n1 = 5 và dòng n2 = 30)
ANOVA
Sum of Squares Df Mean Square F Sig.
Between Groups SSB k -1 MSB F p-value
Within Groups SSW n – k MSW
Total SST n -1
Bảng phân tích phương sai một yếu tố (ANOVA)
từ phần mềm SPSS
Ví dụ 4.8: Điều trị sốt rét bằng 3 cách (dùng thuốc nhóm
1, dùng thuốc nhóm 2 và dùng thuốc nhóm 3). Theo dõi
thời gian hết ký sinh trùng sốt rét trong máu (X; giờ) của
từng bệnh nhân (mỗi bệnh nhân đƣợc điều trị theo 1 cách)
thu đƣợc số liệu:
Cách 1 18 37 46 46 46 50,5 61,5 78 84,5 90
Cách 2 38 41 41,1 42 43,1 44,1 45,2 50 50 52
Cách 3 36 38 40 42 48 60 62 70 72 72
Với 5% , hãy cho biết hiệu quả điều trị của 3 cách
trên có khác nhau không (thời gian hết ký sinh trùng sốt rét
trong máu có nhƣ nhau không)?
Giải
* Ta có giả thiết H0: Hiệu quả điều trị của 3 cách trên khác
nhau là không ý nghĩa
120
SSB
* Tiêu chuẩn kiểm định: F MSB k 1
MSW SSW
n k
Với các mẫu số liệu, ta có:
n1 10; x1 55,750; s1 22,6498 ss1 4617,121
n2 10; x 2 44,650; s2 4,6121 ss2 191,443
n3 10; x 3 54; s3 14,7573 ss3 1960,001
n1 x 1 n 2 x 2 n 3 x 3
x 51, 467
n1 n 2 n 3
SSW ss1 ss 2 ss3
(n1 1)s12 (n 2 1)s 22 (n 3 1)s32
9 22,64982 9 4,61212 9 14,75732
4617,121 191, 443 1960,001 6768,565
SSB n1 (x1 x) 2 n 2 (x 2 x) 2 n 3 (x 3 x) 2
10(55,750 51, 467) 2 10(44,650 51, 467) 2 10(54 51, 467) 2
712,317
SSB 712,317
MSB k 1 3 1
F 1, 421
MSW SSW 6768,565
n k 30 3
* Với 5% F ; k 1; n k =F0,05; 2; 27 3,354 , ta có:
F=1,421<F ; k 1; n k 3,354 nên chấp nhận H0, tức là hiệu
quả điều trị của 3 cách trên khác nhau không có ý nghĩa
(thời gian hết ký sinh trùng sốt rét trong máu bằng nhau).
ANOVA
Sum of Squares Df Mean Square F Sig.
Between Groups 712,317 2 356,158 1,421 0,259
Within Groups 6768,570 27 250,688
121
Total 7480,887 29
Bảng kết quả phân tích ANOVA ví dụ 4.8 từ SPSS
4.3 KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ VỀ TỈ LỆ
(P) CỦA TỔNG THỂ
4.3.1 Kiểm định giả thiết thống kê về so sánh trị tỉ lệ (p)
của tổng thể với một giá trị cho trƣớc (so sánh tỉ lệ thực
nghiệm với tỉ lệ lý thuyết)
Xét đặc tính X trên tổng thể nghiên cứu, tham số p là tỉ
lệ các phần tử có dấu hiệu T. Chẳng hạn: p là tỉ bệnh trong
dân số; p là tỉ lệ điều trị khỏi bệnh của một loại thuốc,…
Phương pháp thực hành kiểm định cho trường hợp này
như sau:
(i) Ta có giả thiết kiểm định:
H 0 : p p 0 H : p p 0 H : p p 0
hoặc 0 hoặc 0
H1 : p p0 H1 : p p0 H1 : p p0
(f p 0 ) n
(ii) Tiêu chuẩn kiểm định: Z ,
p 0 1 p0
m
với f là tỷ lệ mẫu, n kích thƣớc mẫu
n
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm định,
suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị chuẩn z .
Nếu Z z thì ta chấp nhận H1: p p 0 . Ngƣợc
2
122
Nếu Z z thì ta chấp nhận H1: p p0 . Ngƣợc
lại nếu Z z thì ta chấp nhận H0: p p 0 .
Ví dụ 4.9: Điều tra ở tỉnh H 200000 ngƣời đƣợc chọn ngẫu
nhiên thấy có 67 ngƣời bị lao. Theo báo cáo, tỉ lệ bị lao ở
địa phƣơng này bằng 0,0005. Với mức ý nghĩa 5%, hãy
cho biết báo cáo đáng tin cậy không?
Giải
* Gọi p là tỉ lệ bị lao ở tỉnh H
H : p 0,0005
Ta có giả thiết kiểm định: 0
H1 : p 0,0005
(f p 0 ) n
* Tiêu chuẩn kiểm định: Z
p 0 1 p0
m 67
Với n 200000 f 0,000335
n 200000
0,000335 0,0005
Z 200000 3,3
0,0005 0,9995
* Với 5% z 1,96 , ta thấy: Z 3,3 z 1,96
2 2
nên chấp nhận H1, tức là báo cáo không đáng tin cậy (tỉ lệ
bị lao ở địa phƣơng này không bằng 0,0005)
4.3.2 Kiểm định giả thiết thống kê so sánh hai tỉ lệ của
hai tổng thể.
Xét đặc tính X trên hai tổng, px là tỉ lệ của các phần tử có
dấu hiệu T trên tổng thể thứ nhất và py là tỉ lệ của các phần
tử có dấu hiệu T trên tổng thể thứ hai. Phương pháp thực
hành kiểm định cho trường hợp này như sau:
(i) Ta có giả thiết kiểm định:
123
H 0 : p X p Y H : p p Y H 0 : p X p Y
hoặc 0 X hoặc
H1 : p X p Y H1 : p X p Y H1 : p X p Y
(ii) Tiêu chuẩn kiểm định:
fX fY
Z
1 1
p* 1 p*
nX nY
mX mY n Xf X n Yf Y
Với p*
nX nY nX nY
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm định,
suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị chuẩn z (kiểm
định 1 phía, H1: px p y ; H1: px p y ) hay z (kiểm
2
124
Cho ăn đƣờng có ảnh hƣởng đến tỉ lệ đột biến của ruồi
giấm không, với mức ý nghĩa 5%?
Giải
kiểm định cho trường hợp này như sau:
H : p p Y
* Ta có giả thiết kiểm định: 0 X
H1 : p X p Y
* Tiêu chuẩn kiểm định:
fX fY m mY
Z với p* X
1 1 nX nY
p* 1 p*
nX nY
Với mẫu số liệu, ta có:
mx 80
nx 805; fx 0, 0994
nx 805
my 357
ny 2756; fy 0,1295
ny 2756
mx my 80 357
p* 0,1227
nx n y 805 2756
0, 0994 0,1295
Z 2, 290
1 1
0,1227(1 0,1227)
805 2756
* Với 5% z 1,96 , ta thấy:
2
125
Xét đặc tính X trên k tổng thể và T1, T2, …, Tn là các
dấu hiệu cần quan tâm trên mỗi tổng thể. Vấn đề cần kiểm
định là: tỉ lệ của các dấu hiệu T1, T2, …, Tn trên các tổng
thể tƣơng ứng có nhƣ nhau không? Thực ra đây chính là
bài toán kiểm định tính độc lập của hai BNN. Bảng số liệu
mẫu đƣợc mô tả:
T1 T2 … Tn Tổng
Mẫu trên tổng thể thứ 1 n11 n12 … n1n r1
Mẫu trên tổng thể thứ 2 n21 n22 … n2n r2
… ... … … … …
Mẫu trên tổng thể thứ k nk1 nk2 … nkn rm
Tổng c1 c2 … cn N
Ta sử dụng kiểm định Chi-test để kiểm định giả thiết các tỉ
lệ bằng nhau. Phương pháp thực hành kiểm định cho
trường hợp này như sau:
(i) Ta có giả thiết H0: Các tỉ lệ tƣơng ứng khác nhau
không ý nghĩa (Các tỉ lệ tƣơng ứng bằng nhau)
(ii) Tiêu chuẩn kiểm định:
k n (nij nij )2 r c
2 với nij i j
i 1 j 1 nij n
với r i là tổng theo dòng thứ i và c j là tổng theo cột thứ j
(nij : tần số thực nghiệm; nij : tần số lý thuyết)
(iii) Quy tắc quyết định: Nếu 2 2 ;(k 1)( n1) thì ta
chấp nhận H1 ; ngƣợc lại, thì ta chấp nhận H0.
Ví dụ 4.11: Bốn loại thuốc chữa cùng một loại bệnh B, khảo
sát trên bốn nhóm bệnh nhân (mỗi nhóm dùng một loại
thuốc), đƣợc kết quả:
Thuốc 1 Thuốc 2 Thuốc 3 Thuốc 4
126
Khỏi bệnh 123 95 152 132
Không khỏi bệnh 28 19 63 53
Hiệu quả của 4 loại thuốc có nhƣ nhau không? với mức ý
nghĩa 5%
Giải
*Ta có giả thiết kiểm định H0: Hiệu quả của các loại thuốc
khác nhau là không có ý nghĩa.
(nij nij ) 2
k n
* Tiêu chuẩn kiểm định: 2
i 1 j 1 nij
Thuốc Thuốc Thuốc Thuốc
1 2 3 4 Tổng
Khỏi bệnh nij 123 95 152 132 502
nij (tần số lý
thuyết) 113,988 86,057 162,301 139,654 502
Không Khỏi
bệnh nij 28 19 63 53 163
nij (tần số lý
thuyết) 37,012 27,943 52,699 45,346 163
i 1 j 1 nij
127
(123 113,988)2 (95 86, 057)2 (53 45,346)2
2 11, 077
113,988 86, 057 45, 346
( n 1) S 2
(ii) Tiêu chuẩn kiểm định: 2
02
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm
định, suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị chi bình phƣơng
2
;n 1
128
Nếu 2 2 hoặc 2 2
thì ta chấp nhận
1 ;n 1 ;n 1
2 2
H1 : . 2 2
0 Ngƣợc lại, nếu 2 >
2 2 2 hoặc thì ta chấp nhận H0:
1 ;n 1 ;n 1
2 2
2 02 .
kNếu 2 2
;n 1 thì ta chấp nhận H1: 2 02 .
Ngƣợc lại nếu 2 2
;n 1 thì ta chấp nhận H0:
2 02 .
Nếu 2 2
1 ;n 1 thì ta chấp nhận H1: 2 02 .
Ngƣợc lại nếu 2 2
1 ;n 1 thì ta chấp nhận H0:
2 02 .
Ví dụ 4.12: Khối lƣợng của một loại dƣợc phẩm do hệ
thống máy sản xuất là BNN X có luật phân phối chuẩn, với
tiêu chuẩn phƣơng sai quy định là 2 = 15 g2 . Sau một thời
gian sản xuất, ngƣời ta nghi ngờ rằng khối lƣợng của dƣợc
phẩm đƣợc sản xuất ra không ổn định. Kiểm tra 25 dƣợc
phẩm, tính đƣợc phƣơng sai điều chỉnh mẫu s 2 26g 2 .
Với mức ý nghĩa 1%, hãy kết luận về nghi ngờ trên.
Giải
H 0 : 2 15g 2
* Ta có giả thiết kiểm định:
H1 : 15g
2 2
129
2 n 1 s 2 25 1 26
41,6
0
2
15
* Với 1% 2 ; n 1 20,01; 24 42,980 , ta thấy
2 41, 6 2 ; n1 42,980 nên chấp nhận H0, tức là điều
nghi ngờ là sai (khối lƣợng của dƣợc phẩm đƣợc sản xuất
ra vẫn ổn định theo quy định)
4.4.2 Kiểm định giả thiết thống kê so sánh hai phƣơng
sai của tổng thể
Xét đặc tính X trên tổng thể thứ nhất với phƣơng sai X2 ,
đặc tính Y trên tổng thể thứ hai với phƣơng sai Y2 . Để so
sánh hai phƣơng sai X2 , Y2 ta tiến hành khảo sát hai mẫu
đƣợc số liệu mẫu là: (x1, x2,…,xn) trên tổng thể thứ nhất;
(y1, y2,…,ym) trên tổng thể thứ hai. Ta sử dụng kiểm định
Fisher (F-test) để kiểm định, phương pháp thực hành kiểm
định cho trường hợp này như sau:
S x2
(ii) Tiêu chuẩn kiểm định: F
S y2
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm định,
suy ra giá trị kiểm định.
(iii) Tra bảng xác định giá trị phân vị Fisher
F ; nx 1;n y 1
Quy tắc bác bỏ giả thiết H0 :
130
Nếu F F ; nx 1;n y 1 thì ta chấp nhận H1: X2 Y2 .
Ngƣợc lại, nếu F F ; nx 1;n y 1 thì ta chấp nhận H0:
X2 Y2 .
Nếu F F1 ; nx 1;n y 1 thì ta chấp nhận H1: X2 Y2 .
Ngƣợc lại, nếu F F1 ; nx 1;n y 1 thì ta chấp nhận H0:
X2 Y2 .
Nếu F F hoặc F F thì ta
; nx 1;n y 1 1 ; nx 1;n y 1
2 2
chấp nhận H1 : .
2
X
2
Y Ngƣợc lại, nếu
F F F thì ta chấp nhận H0:
1 ; nx 1;n y 1 ; nx 1;n y 1
2 2
X2 Y2 .
Ví dụ 4.13: Tiến hành cho 20 ngƣời bị bệnh suyễn tham
gia thực nghiệm để đánh giá hiệu quả của 2 loại thuốc A, B
bằng cách đo FEV (lít/s) sau 2 giờ uống thuốc:
A 0 0,04 0,02 0,04 0,03 0,05 0,02 0 0,02 0,12
B 0,13 0,17 0,2 0,27 0,11 0,18 0,21 0,23 0,24 0,08
Với mức ý nghĩa 10%, phƣơng sai của FEV khi dùng
hai loại thuốc A, B có bằng nhau hay không?
Giải
H 0 : X2 Y2
* Ta có giả thiết:
H1 : X Y
2 2
S x2
* Tiêu chuẩn kiểm định: F 2
Sy
Với hai mẫu số liệu thực nghiệm thuốc A và thuốc B, ta có:
131
nx 10; x 0,0340; sx 0,0344
n y 10; y 0,1820; s y 0,0605
s y2 0,06052
F 3,093
sx2 0,03442
* Với 10% F F0,05; 9;9 3,179 , ta có:
; nx 1;n y 1
2
i 1 npi
Trong đó:
k
ni là tần số của giá trị xi và n ni
i 1
132
P( X xi ) f * ( xi ), X rời rạc
xi
pi 1
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm định,
suy ra giá trị kiểm định.
(iii) Quy tắc quyết định: Nếu 2 2 ; k r 1 , (r là số
tham số của phân phối cần kiểm định) thì ta chấp nhận H1.
Ngƣợc lại, thì ta chấp nhận H0.
Ví dụ 4.14: Quan sát một chất phóng xạ trong 2608 khoảng
thời gian bằng nhau mỗi khoảng 7,5s. trong mỗi khoảng
thời gian đó ta ghi lại số hạt rơi vào trong máy đếm, đƣợc
bảng số liệu:
x 0 1 2 3 4 5 6 7 8 9 10
ni 57 203 383 525 532 408 273 139 45 27 16
Có thể kết luận “số hạt phóng xạ đƣợc phóng ra trong mỗi
khoảng thời gian có phân phối Poisson”, chấp nhận đƣợc
không, với mức ý nghĩa 5% .
Giải
x
(i) Ta có giả thiết H0: f ( x) e có phân phối
x!
Poisson.
(n i npi ) 2 k
(ii) Tiêu chuẩn kiểm định: 2
i 1 npi
Với mẫu số liệu, ta có:
x
n = 2608; r =1; k =11; f ( x) e , x 3,867
x!
3,867 3,867i
pi P( X i) e ; i 1, 2, ,10
i!
133
3,8670
p0 P( X i) e3,867 0,021
0!
1
3,867 3,867
p1 P( X 1) e 0,081
1!
Tƣơng tự ta có: p2 = 0,156; p3 =0,202; p4 =0,195;
p5 = 0,151; p6 = 0,097, p7 = 0,054; p8 = 0,026; p9 = 0,011;
p10 = 0,004
(n i npi )2
k
2
i 1 npi
(57 2608 0,021)2 (16 2608 0,004)2
15,761
2608 0,021 2608 0,004
iii) Với 5% 2 ; k r 1 2 0,05; 1111 20,05; 9 16,919
(r = 1 vì phân phối Poisson có tham số là số tham số nên
x ).
Ta thấy 2 2 ; k r 1 , (r là số tham số của phân phối cần
kiểm định) nên chấp nhận H0, tức là số hạt phóng xạ đƣợc
phóng ra trong mỗi khoảng thời gian tuân theo phân phối
Poisson.
4.6 KIỂM ĐỊNH SỰ ĐỘC LẬP CỦA HAI ĐẶC TÍNH
Để kiểm định tính độc lập của hai BNN X,Y (biến định
tính) ta tiến hành quan sát mẫu và lập thành bảng số liệu:
X x1 x2 … xc Tổng
Y
y1 n11 n12 … n1c r1
y2 n21 n22 … n2c r2
. . . . . .
. . . . . .
. . . . . .
134
yr nc1 nc2 … ncc rk
Tổng c1 c2 … cc N
Ta sử dụng kiểm định Chi-test để kiểm định giả
thiết các tỉ lệ bằng nhau. Phương pháp thực hành kiểm
định cho trường hợp này như sau:
(i) Ta có giả thiết H0: X, Y độc lập (Đối thiết H1: X, Y
không độc lập)
(ii) Tiêu chuẩn kiểm định:
c r (nij nij )2 r c
2
với nij i j
i 1 j 1 nij n
với r i là tổng theo dòng thứ i và c j là tổng theo cột thứ j
(nij : tần số thực nghiệm; nij : tần số lý thuyết)
(iii) Quy tắc quyết định: Nếu 2 2 ; (c 1)(r 1) thì ta
chấp nhận H1 ; ngƣợc lại, thì ta chấp nhận H0.
Ví dụ 4.15: Trong một nghiên cứu về mối liên hệ giữa
loãng xƣơng và thoái hóa khớp, các nhà nghiên cứu đã
quan sát mẫu thực nghiệm ở những ngƣời từ 60 tuổi trở
lên, kết quả nhƣ sau:
Thoái hóa Không thoái
khớp hóa khớp
Loãng xƣơng 108 45
Không loãng xƣơng 392 355
Với mức ý nghĩa 5%, có thể cho rằng có mối liên hệ giữa
loãng xƣơng và thoái hóa khớp hay không?
Giải
* Ta có giả thiết H0: Giữa loãng xƣơng và thoái hóa khớp
không có mối liên hệ.
* Tiêu chuẩn kiểm định:
135
c (nij nij )2
r r c
2
với nij i j
i 1 j 1 nij n
Không
Thoái hóa
thoái hóa
khớp
khớp Tổng
Loãng xƣơng nij 108 45 153
nij (tần số lý
85 68
thuyết) 153
Không loãng
xƣơng nij 392 355
747
nij (tần số lý
thuyết) 415 332 747
Tổng 500 400 900
r c 747 400
332 vì nij i j
(Ta tính n22 332 , lấy tổng
n 900
dòng 2 là 747 nhân với tổng cột 2 là 400 và chia cho tổng
số khảo sát là 900)
c (nij nij )2
r
2
i 1 j 1 nij
(108 85)2 (45 68)2 (392 415)2 (355 332)2
2 16,871
85 68 415 332
* Với 5% 2 ; ( k 1)( n1) 20,05; (21)(21) 20,05;1 3,841 ,
ta thấy 2 16,871 2 ; ( k 1)( n 1) 3,841 nên chấp nhận H1,
tức là, có thể cho rằng có mối liên hệ giữa loãng xƣơng và
thoái hóa khớp, với mức ý nghĩa 5%.
4.7 KIỂM ĐỊNH PHI THAM SỐ (NONPARAMETRIC
TESTS)
Kiểm định phi tham số đƣợc sử dụng trong những trƣờng
hợp dữ liệu không có phân phối chuẩn, hoặc cho các mẫu
136
nhỏ có ít đối tƣợng. Kiểm định phi tham số cũng đƣợc
dùng cho các dữ liệu định danh (nominal), dữ liệu thứ bậc
(ordinal) hoặc dữ liệu khoảng cách (interval) không có
phân phối chuẩn. Nhƣợc điểm của kiểm định phi tham số
là khả năng tìm ra đƣợc sự sai biệt kém, không mạnh nhƣ
các phép kiểm có tham số t – test, One way ANOVA,….
So sánh một số dạng giữa kiểm định phi tham số và có
tham số
Kiểm định Kiểm định phi Kiểm định có tham số
tham số
Hai mẫu bắt Kiểm định dấu Phép kiểm T với mẫu
cặp (Sign test) hoặc phối hợp từng cặp
kiểm định dấu và (Paired-Samples t test)
hạng (Wilcoxon
test)
137
Kiểm định dấu và hạng Wilconxon cho phép kiểm định sự
sai khác trung bình trên hai tổng thể đối với mẫu cặp khi giả
thiết về phân phối chuẩn, phƣơng sai bằng nhau của hai tổng
thể đó không thỏa mãn. Phương pháp thực hành kiểm định
Wilconxon cho trường hợp này như sau:
(i) Ta có giả thiết kiểm định:
H 0 : X Y H : Y H : Y
hoặc 0 X hoặc 0 X
H1 : X Y H1 : X Y H1 : X Y
(ii) Chọn tiêu chuẩn kiểm định:
n(n 1)
W-
Z 4 , với W là tổng hạng của
n(n+1)(2n+1)
24
nhóm có chêch lệch dƣơng.
n1 (n1 n2 1)
R1
Z 2
n1n2 (n1 n2 1)
12
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm
định, suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị chuẩn z
Quy tắc bác bỏ giả thiết H0 (dạng phân phối chuẩn
Z ~ N (0;1) :
Nếu Z z thì ta chấp nhận H1: X Y . Ngƣợc
2
138
Nếu Z z thì ta chấp nhận H1: X Y . Ngƣợc
lại nếu Z z thì ta chấp nhận H0: X Y .
Ví dụ 4.16: Điều trị 10 bệnh nhân có ferritin máu cao,
lƣợng ferritin máu trƣớc và sau điều trị đƣợc ghi nhận là:
139
n(n 1)
W-
Z 4 , với R là tổng hạng của mẫu 1
1
n(n+1)(2n+1)
24
Với số liệu mẫu, ta có:
Lƣợng ferritin Trƣớc Hạng (theo độ lớn của
Thứ tự máu (ng/ml) điều trị – chệnh lệch), thống kê
bệnh Sau điều hạng theo nhóm có
nhân Trƣớc Sau
trị chênh lệch dƣơng và âm
điều trị điều trị
1 1800 800 1000 9
2 1200 500 700 8
3 1000 400 600 7
4 900 1000 -100 2
5 800 950 -150 1
6 700 450 250 4
7 600 400 200 3
8 500 200 300 5,5
9 550 550 0
10 400 100 300 5,5
Tổng hạng 42
n(n 1) 9(9 1)
W- 42-
Z 4
4
2,3102
n(n+1)(2n+1) 9(9+1)(18+1)
24 24
140
* Với 5% z 1,96 , ta thấy
2
lƣợng ferritin trong máu của bệnh nhân trƣớc và sau điều
trị không bằng nhau, với mức ý nghĩa 5%.
Ranks
Mean Sum of
N Rank Ranks
ferritin.sau - Negative
7a 6,00 42,00
ferritin.truoc Ranks
Positive
2b 1,50 3,00
Ranks
Ties 1c
Total 10
a. ferritin.sau < ferritin.truoc
b. ferritin.sau > ferritin.truoc
c. ferritin.sau = ferritin.truoc
Test Statisticsa
ferritin.sau - ferritin.truoc
Z -2,312b
Asymp. Sig. (2-
0,021
tailed)
a. Wilcoxon Signed Ranks Test
b. Based on positive ranks.
Bảng kết quả kiểm định Wilcoxon ví dụ 4.16 từ SPSS
4.7.2 Kiểm định Mann- Whitney
Giống nhƣ kiểm định Wilconxon, kiểm định Mann-
Whitney kiểm định giả thiết về sự bằng nhau của trung bình
141
hai tổng thể, song nó đƣợc thực hiện dựa trên hai mẫu độc lập.
Phương pháp thực hành kiểm định Mann-Whitney cho
trường hợp này như sau:
(i) Ta có giả thiết kiểm định:
H 0 : X Y H : Y H : Y
hoặc 0 X hoặc 0 X
H1 : X Y H1 : X Y H1 : X Y
(ii) Chọn tiêu chuẩn kiểm định:
n1n 2
U-
Z 2
n1n 2 (n1 +n 2 +1)
12
n 2 (n 2 1) n 2
với U n1n 2 Ri
2 i n1 1
142
Ví dụ 4.17: So sánh lƣợng ferritin máu giữa 2 nhóm bệnh
nhân có và không uống rƣợu.
143
Lƣợng ferritin máu (ng/ml) Hạng
Thứ tự
bệnh nhân Không uống Có uống Không Có uống
rƣợu rƣợu uống rƣợu rƣợu
1 400 4500 11,5 16
2 360 1200 10 15
3 300 900 8 14
4 100 700 7 13
5 80 400 5 11,5
6 70 350 4 9
7 50 90 2 6
8 30 60 1 3
Tổng hạng 48,5 87,5
n 2 (n 2 1) n 2 8(8 1)
U n1n 2 Ri 8 8 87,5 12,5
2 i n1 1 2
n1n 2 88
U- 12,5
và Z 2
2 2,0479
n1n 2 (n1 +n 2 +1) 8 8(8+8+1)
12 12
* Với 5% z 1,96 , ta thấy
2
lƣợng ferritin trong máu của hai nhóm bệnh nhân có uống
rƣợu và không uống rƣợu là không bằng nhau, với mức ý
nghĩa 5%.
144
Ranks
Mean Sum of
Ma.ferritin.ruou N Rank Ranks
ferritin.ruou 1 8 6.06 48.50
2 8 10.94 87.50
Total 16
Test Statisticsa
ferritin.ru
ou
Mann-Whitney U 12,500
Wilcoxon W 48,500
Z -2,049
Asymp. Sig. (2-tailed) 0,040
Exact Sig. [2*(1-tailed Sig.)] 0,038b
a. Grouping Variable: Ma.ferritin.ruou
b. Not corrected for ties.
Bảng kết quả kiểm định Wilcoxon ví dụ 4.17 từ SPSS
4.7.3 Kiểm định Kruskal-Wallis
Ta áp dụng kiểm định Kruskal-Wallis để kiểm định giả
thiết thống kê so sánh nhiều giá trị trung bình của nhiều
tổng thể trong trường hợp số liệu không thỏa điều kiện
phân tích phương tích phương sai –ANOVA
Ta cũng xét bảng số liệu quan sát nhƣ sau:
145
Các tổng thể Các mẫu quan sát của X
của yếu tố A
1 x11 x12 … x1n1 x1
2 x21 x22 … x2n2 x2
. . . . . .
. . . . . .
k . . . . .
xk1 xk2 … xknk xk
Giả thiết H0: 1 2 ... k : Yếu tố A không ảnh
hƣởng đến đặc tính X
Đối thiết H1: Tồn tại cặp i j ; i j : Yếu tố A có ảnh
hƣởng đến đặc tính X
Ta sử dụng phương pháp kiểm định Kruskal-Wallis để kiểm
định giả thiết H0: 1 2 ... k . Phương pháp thực hành
kiểm định cho trường hợp này như sau:
(i) Ta có giả thiết kiểm định H0: 1 2 ... k .
12 k
Ri2
(ii) Tiêu chuẩn kiểm định: KW 3(n 1)
n(n 1) i 1 ni
Trong đó:
n là tổng số phần tử điều tra; ni (i=1,2,…,m) là số phần tử
của vùng i
Ri (i =1, 2,…,k) là tổng hạng của các phần tử thuộc nhóm i
Hạng của phần tử xi đƣợc tính bằng cách: Trƣớc hết ta gộp
các phần tử của k nhóm lại thành một mẫu chung. Tiếp
theo, sắp xếp các phần tử mẫu chung theo thứ tự tăng dần.
Hạng của phần tử xi là số thứ tự của phần tử xi, trong
trƣờng có các phần tử xi có giá trị bằng nhau thì ta tính
146
hạng của các phần tử xi này là trung bình cộng của các số
1 ni 1
thứ tự đó. Tức là Rank(xi ) = (i j ) , ni tần số của xi.
k j 0
(iii) Quy tắc quyết định: Nếu 2 2 ; k 1 , thì ta chấp
nhận H1. Ngƣợc lại, thì ta chấp nhận H0.
Ví dụ 4.18: Điều trị sốt rét bằng 3 cách (dùng thuốc nhóm
1, dùng thuốc nhóm 2 và dùng thuốc nhóm 3). Theo dõi
thời gian hết ký sinh trùng sốt rét trong máu (X; giờ) của
từng bệnh nhân (mỗi bệnh nhân đƣợc điều trị theo 1 cách)
thu đƣợc số liệu:
Cách 1 18 37 46 46 46 50,5 61,5 78 84,5 90
Cách 2 38 41 41,1 42 43,1 44,1 45,2 50 50 52
Cách 3 36 38 40 42 48 60 62 70 72 72
Với 5% , hãy cho biết hiệu quả điều trị của 3 cách
trên có khác nhau không (thời gian hết ký sinh trùng sốt rét
trong máu có nhƣ nhau không)?
Giải
* Ta có giả thiết H0: Hiệu quả điều trị của 3 cách trên khác
nhau không ý nghĩa
12 k
Ri2
* Tiêu chuẩn kiểm định: KW 3(n 1)
n(n 1) i 1 ni
Với các mẫu số liệu, ta tiến hành xếp hạng đối với mẫu
chung của 3 nhóm gộp lại, ta có kết quả xếp hạng nhƣ sau:
(chú ý có những hạng bằng nhau thì tính trung bình cộng
của các hạng bằng nhau đó).
147
Hạng
Cách 1 Cách 2 Cách 3
Cách 1 Cách 2 Cách 3
18 38 36 1 4,5 2
37 41 38 3 7 4,5
4641,1 40 15 8 6
46 42 42 15 9.5 9.5
4643,1 48 15 11 17
50,544,1 60 20 12 22
61,545,2 62 23 13 24
78 50 70 28 18,5 25
84,5 50 72 29 18,5 26,5
90 52 72 30 21 26,5
Tổng hạng 179 123 163
12 k
Ri2
KW 3(n 1)
n(n 1) i 1 ni
12 1792 1232 1632
3(30 1) 2,147
30(30 1) 10 10 10
* Với 5% 2 ; k 1 2 0,05; 31 5,991 , ta có:
2 2,147 2 ; k 1 5,991 nên chấp nhận H1, tức là
hiệu quả điều trị của 3 cách trên khác nhau có ý nghĩa
(thời gian hết ký sinh trùng sốt rét trong máu không
bằng nhau).
Ranks
Mean
PPTriSotRet N Rank
Thoigian PP A 10 17,90
PP B 10 12,30
PP C 10 16,30
Total 30
148
Test Statisticsa,b
Thoigian
Chi-Square 2,151
Df 2
Asymp. Sig. 0,341
a. Kruskal Wallis Test
b. Grouping Variable: PPTriSotRet
Bảng kết quả kiểm định Kruskal Wallis ví dụ 4.18 từ SPSS
Khi bác bỏ giả thiết H0, chấp nhận đối thiết H1, nghĩa là
Tồn tại cặp i j ; i j . So sánh từng cặp trung bình i
và j theo Tiêu chuẩn Duncan.
Giả sử sau khi kiểm định giả thiết H:
1 2 ... m , ta bác bỏ giả thiết. Vậy vấn đề đặt ra là:
các cặp trung bình nào thật sự khác nhau có ý nghĩa.
Để xác định các cặp trung bình khác nhau có ý
nghĩa ta sử dụng phép kiểm định của Duncan đây là tiêu
chuẩn hay sử dụng nhất), đƣợc tiến hành nhƣ sau;
* Ta sắp xếp các giá trị trung bình xi theo thứ tự tăng
dần.
MSE
* Tính phƣơng sai trung bình: S
n
* Xác định phân vị Duncan (từ bảng Duncan):
r ( p; n k ) , p = 2, 3, …,k
* Tính phân vị: Rp r ( p;n k ).S , p = 2, 3, …,k
* Tính hiệu giữa trung bình lớn nhất và nhỏ nhất, rồi so
sánh với Rk ; tính hiệu giữa trung bình lớn nhất và nhỏ thứ
nhì, rồi so sánh với Rk 1 ; …. Tiếp tục tính hiệu giữa trung
149
bình lớn thứ nhì và nhỏ nhất, rồi so sánh với Rk 2 ; …, tiến
trình này đƣợc thực hiện đến cặp cuối cùng là cặp thứ
k(k 1)
.
2
* Kết luận: Cặp nào có hiệu lớn hơn R p tƣơng ứng thì
cặp đó khác nhau có ý nghĩa.
150
CHƢƠNG 5: TƢƠNG QUAN VÀ HỒI QUY
Nội dung đƣợc trình bày trong chƣơng 5 bao gồm: Các
khái niệm về hệ số tƣơng quan giữa hai biến định lƣợng và
ý nghĩa, các tính chất của hệ số tƣơng quan, cách dùng hệ
số tƣơng quan để đánh giá mối quan hệ giữa hai đại lƣợng.
Phƣơng trình hồi quy tuyến tính đơn và ý nghĩa của
phƣơng trình hồi quy và các hệ số hồi quy. Phƣơng pháp
sai số bình phƣơng bé nhất, cách tính các hệ số hồi quy,
cách dùng phƣơng trình hồi quy để dự báo giá trị của biến
phụ thuộc theo giá trị mới của biến giải thích. Đặc biệt,
trình bày các ví dụ vận dụng phƣơng pháp phân tích tƣơng
quan và hồi quy trong lĩnh vực y học.
5.1 HỆ SỐ TƢƠNG QUAN VÀ PHƢƠNG TRÌNH
HỒI QUY
Xét trên tổng thể, mỗi phần tử ta khảo sát nhiều đặc
tính ngẫu nhiên X, Y, Z,…. Chẳng hạn, khi nghiên cứu về
giống dƣợc liệu ta có thể nghiên cứu về các đặc tính: năng
suất (X), độ ẩm môi trƣờng (Y), chế độ tƣới nƣớc (Z),…;
Khi nghiên cứu về một phản ứng hóa học nào đó ta có thể
xác định các đặc tính nghiên cứu: Hiệu suất phản ứng (X),
nhiệt độ (Y), dung môi (Z), áp suất (T),…
Vấn đề đặt ra là liệu các đặc tính đó có ảnh hƣởng, tác
động lẫn nhau không? Nếu chúng có ảnh hƣởng, tác động
lẫn nhau ta nói chúng có tƣơng quan với nhau. Nếu chúng
có tƣơng quan với nhau, phƣơng trình thể hiện mối tƣơng
quan đó gọi là phƣơng trình hồi quy và đồ thị của nó gọi là
đƣờng hồi quy.
5.1.1 Hệ số tƣơng quan
151
Giả sử X, Y là hai đặc tính cần nghiên cứu của tổng
thể, hệ số tƣơng quan của X và Y đƣợc xác định:
COV ( X , Y )
( X ,Y )
XY
Tuy nhiên trong thực tế giá trị của ( X , Y ) đƣợc xác
định nhờ vào giá trị ƣớc lƣợng, gọi là hệ số tƣơng quan
mẫu.
Với mẫu quan sát: (x1; y1), (x2; y2),…,(xn; yn). Khi đó,
hệ số tƣơng quan mẫu đƣợc xác định:
x y n x y
n n
COV ( X , Y ) ( xi x)( yi y) i i
r i 1
i 1
(n 1) S X SY (n 1) s X sY (n 1) s X sY
n
n n
n xi yi xi yi
Hoặc r i 1 i 1 i 1
2 2
n 2 n n 2 n
n xi xi n yi yi
i 1 i 1 i 1 i 1
i. Đánh giá mức độ tương quan
r 0; 0,3 : X, Y tƣơng quan yếu, nếu r 0 thì X,
Y không tƣơng quan.
r 0,3; 0,5 : X, Y tƣơng quan vừa
r 0,5; 0,7 : X, Y tƣơng quan tƣơng đối chặt.
r 0,7; 0,9 X, Y tƣơng quan chặt.
r 0,9; 1,0 : X, Y tƣơng quan rất chặt.
ii. Dự đoán khuynh hướng tương quan
Sau khi quan sát mẫu, ta có mẫu thực nghiệm (x1;
y1), (x2; y2),…,(xn; yn). Ta mô tả các điểm này lên mặt
phẳng tọa độ:
152
Nếu các điểm (x1; y1), (x2; y2),…,(xn; yn) có dạng
phân bố quanh một đƣờng thẳng thì ta nói X, Y có
khuynh hƣớng tƣơng quan theo đƣờng thẳng (tƣơng
quan tuyến tính) và đƣờng thẳng đó gọi là đƣờng
hồi quy.
Nếu các điểm (x1; y1), (x2; y2),…,(xn; yn) có dạng
phân bố quanh một đƣờng cong thì ta nói X, Y có
khuynh hƣớng tƣơng quan không tuyến tính (tƣơng
quan phi tuyến tính)
Nếu các điểm (x1; y1), (x2; y2),…,(xn; yn) có dạng
phân bố hình đa giác, hình tròn thì ta nói X, Y có
khuynh hƣớng không tƣơng quan.
Chú ý: Giả sử X, Y có tƣơng quan tuyến tính
Nếu r < 0 : X, Y tƣơng quan nghịch
Nếu r > 0 : X, Y tƣơng quan thuận
5.1.2 Phƣơng trình hồi quy tuyến tính
Nếu X, Y là hai đặc tính có tƣơng quan tuyến tính, khi
đó đƣờng hồi quy của nó là đƣờng thẳng và phƣơng trình
hồi quy có dạng: E (Y X x) ax b )
Có thể viết gọn của phƣơng trên là y = ax + b nhƣng
về bản chất y là giá trị của E(Y X ) và x là giá trị của X,
tức là không đƣợc hiểu là đồng nhất giống nhƣ phƣơng
trình đƣờng thẳng y = ax + b
Hệ số a gọi là độ dốc; hệ số b gọi là tung độ gốc.
Các hệ số a, b đƣợc ƣớc lƣợng bởi mẫu quan sát
(x1; y1), (x2; y2),…,(xn; yn) và sử dụng phƣơng pháp hợp lý
cực đại ta xác định đƣợc công thức ƣớc lƣợng của phƣơng
trình hồi quy tuyến tính: y = ax + b
153
n
n n
n xi yi xi yi
với a i 1 i 1 i 1 và b y ax
2
n 2 n
n xi xi
i 1 i 1
Ví dụ 5.1: Đo chiều cao X(cm) và chiều dài chi dƣới Y(cm)
của 8 học sinh tại một trƣờng, ta có số liệu:
X 156 158 160 162 164 166 168 170
Y 72 74 77 78 79 82 83 85
a. Tìm hệ số tƣơng quan của X và Y
b. Viết phƣơng trình hồi quy tuyến tính mẫu của Y
theo X
c. Nếu một học sinh có chiều cao 165cm thì chiều dài
trung bình chi dƣới là bao nhiêu?
Giải
n n
a. n 8; xi 1304;
i 1
y
i 1
i 630
n n n
x
i 1
2
i 212720; y
i 1
2
i 49752; x y
i 1
i i 102842
154
n
n n
n xi yi xi yi
với a i 1 i 1 i 1 8 102842 1304 630 0,9048
8 212720 1304
2 2
n
2
n
n xi xi
i 1 i 1
630 1304
và b y ax 0,9048 68,7324
8 8
y 0,9048 x 68,7324
c. Với học sinh có chiều cao x = 165cm
y 0,9048 165 68,7324 80,56 cm, tức là chiều dài
trung bình chi dƣới là 80,56cm
Model Summary
R Adjusted R Std. Error of
Model R Square Square the Estimate
a
1 0,993 0,986 0,983 0,57390
a. Predictors: (Constant), X.chieucao
ANOVAa
Sum of Mean
Model Squares df Square F Sig.
1 Regression 137,524 1 137,524 417,542 0,000b
Residual 1,976 6 0,329
Total 139,500 7
a. Dependent Variable: Y.Chiduoi
b. Predictors: (Constant), X.chieucao
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta T Sig.
1 (Constant) -68,726 7,220 -9,519 0,000
X.chieucao 0,905 0,044 0,993 20,434 0,000
a. Dependent Variable: Y.Chiduoi
Bảng kết quả phân tích tương quan và hồi quy ví dụ 5.1 từ SPSS
155
5.2 KIỂM ĐỊNH HỆ SỐ TƢƠNG QUAN VÀ SỰ PHÙ
HỢP CỦA PHƢƠNG TRÌNH HỒI QUY
5.2.1 Kiểm định hệ số tƣơng quan
Giả sử X, Y là hai đặc tính cần nghiên cứu của tổng thể
, để đánh giá những thông tin về hệ số tƣơng quan , ta
tiến hành khảo sát mẫu, với số liệu quan sát đƣợc (x1, y1),
(x2, y2),…,(xn, yn)
Khi đó, các cặp giả thiết, đối thiết có thể đƣợc kiểm định
tƣơng đƣơng là:
Phương pháp thực hành kiểm định cho trường hợp này
như sau:
Kiểm định sự tương quan của hai biến X và Y
(i) Ta có giả thiết kiểm định:
H 0 : 0 H : 0 H : 0
hoặc 0 hoặc 0
H1 : 0 H1 : 0 H1 : 0
(ii) Chọn tiêu chuẩn kiểm định:
r
T n2
1 r2
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm
định, suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị Student t ; n 2
Quy tắc bác bỏ giả thiết H0 (dạng phân phối
Student T(n – 2) với bậc tự do (n – 2):
Nếu T t thì ta chấp nhận H1: 0 . Ngƣợc
; n2
2
156
Nếu T t ; n2 thì ta chấp nhận H1: 0 . Ngƣợc
lại nếu T t ; n2 thì ta chấp nhận H0: 0 .
Kiểm định giả thiết thống kê so sánh hệ số tương
quan với một giá trị cho trước.
(i) Ta có giả thiết kiểm định:
H 0 : 0 H : 0 H : 0
hoặc 0 hoặc 0
H1 : 0 H1 : 0 H1 : 0
(ii) Chọn tiêu chuẩn kiểm định: Z (Z R Z ) n 3
0
1 1 r 1 1
Với Z R ln và Z ln 0
2 1 r 0
2 1 0
157
Ta sử dụng mô hình kiểm định Fisher (F-test) để kiểm định.
Phương pháp thực hành kiểm định cho trường hợp này như sau:
(i) Ta có giả thiết H0: Phƣơng trình hồi quy tuyến tính
không phù hợp
SSR
MSR
(ii) Tiêu chuẩn kiểm định: F 1
MSE SSE
n2
Trong đó:
n
Tổng bình phƣơng độ lệch chung: SST = ( y y)
i 1
i
2
Tổng bình phƣơng độ lệch phƣơng trình hồi quy gây ra:
n
SSR ( yˆi y )2
i 1
Hoặc ta có: SST = SSR + SSE SSR = SST – SSE
158
(iii) Tra bảng xác định giá trị phân vị Fisher F ;1;n 2
Quy tắc bác bỏ giả thiết H0 : Nếu F > F ;1;n 2 thì ta
bác bỏ H0 (Phƣơng trình hồi quy tuyến tính là phù hợp).
Ngƣợc lại, nếu F < F ;1;n 2 thì ta chấp nhận H0 (Phƣơng
trình hồi quy tuyến tính không phù hợp).
SSR
Chú ý: R 2 gọi là hệ số xác định (cũng có thể
SST
gọi là hệ số tƣơng quan), vì nó có khả năng đánh giá mức
độ phụ thuộc của Y vào X.
5.2.3 Kiểm định hệ số của phƣơng trình hồi quy
Kiểm định hệ số a của phương trình hồi quy y = ax + b
(i) Ta có giả thiết kiểm định:
H 0 : a a 0 H : a a 0 H : a a 0
hoặc 0 hoặc 0
H1 : a a 0 H1 : a a 0 H1 : a a 0
a a0
(ii) Chọn tiêu chuẩn kiểm định: T
Sa
2
n ^
i
y y i
Se2 i 1 ; y^ ax b
n2
i i
với
Se2
Sa n
2
;
xi n x
2
2
i 1
159
Nếu T t thì ta chấp nhận H1: a a 0 . Ngƣợc
; n2
2
160
Nếu T t ; n2 thì ta chấp nhận H1: b b0 . Ngƣợc
lại nếu T t ; n2 thì ta chấp nhận H0: b b 0 .
Ví dụ 5.2: Nghiên cứu về sự thảy trừ thuốc sau khi uống
thuốc một thời gian. Gọi X là thời gian uống thuốc(giờ); Y
là nồng độ thuốc trong cơ thể( g / ml ). Ta có kết quả sau:
X 1 2 3 5 8 10
Y 0,9 0,8 0,75 0,7 0,5 0,5
a. Tìm hệ số tƣơng quan R
b. Tính R2, và cho biết ý nghĩa của nó.
c. Viết phƣơng trình hồi quy tuyến tính của Y theo
X. Kiểm định sự phù hợp phƣơng trình. Với mức ý nghĩa
5%.
Giải
a. R = 0,975, nghĩa là thời gian và nồng độ thuốc trong
cơ thể có mối tƣơng quan rất tốt, cụ thể là nếu thời gian
càng tăng thì nồng độ thuốc trong cơ thể càng giảm
b. R2 = 0,950, nghĩa là có 95% nồng độ thuốc trong cơ
thể biến động giảm là do thời gian và 5% còn lại là do ảnh
hƣởng của các yếu tố khác.
c. a = - 0,045; b = 0,908 . Phƣơng trình hồi quy có
dạng: y = - 0,045x + 0,908
Giả thiết H0: phƣơng trình hồi quy tt không phù hợp
Giá trị tiêu chuẩn kiểm định : F =76,477
F0,05;1;4 7,71
F F0,05;1;4 Chấp nhận H1.
Vậy phƣơng trình hồi quy tuyến tính phù hợp trong
trƣờng hợp này.
Model Summary
161
Adjusted Std. Error of
Model R R Square R Square the Estimate
a
1 0,975 0,950 0,938 0,04051
a. Predictors: (Constant), X.Tguongthuoc
ANOVAa
Sum of Mean
Model Squares df Square F Sig.
1 Regression 0,126 1 0,126 76,477 0,001b
Residual 0,007 4 0,002
Total 0,132 5
a. Dependent Variable: Y.Nongdothuoc
b. Predictors: (Constant), X.TGuongthuoc
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta T Sig.
1 (Constant) 0,908 0,030 30,533 0,000
X.TGuong
-0,045 0,005 -0,975 -8,745 0,001
thuoc
a. Dependent Variable: Y.Nongdothuoc
Bảng kết quả phân tích tương quan và hồi quy ví dụ 5.2 từ SPSS
Ví dụ 5.3: Nghiên cứu về sự thảy trừ thuốc sau khi
uống thuốc một thời gian. Gọi X thời gian uống thuốc
(giờ); Y là nồng độ thuốc trong cơ thể( g / ml ). Ta có:
X 1 2 3 5 8 10
Y 0,9 0,8 0,75 0,7 0,5 0,5
Có tài liệu cho biết phƣơng trình hồi quy của nồng độ
thuốc là: y = - 0,6x + 0,9. Với số liệu quan sát này hãy cho
biết phƣơng trình hồi quy trên còn phù hợp không? Với
mức ý nghĩa 5%
162
5.3 ƢỚC LƢỢNG HỆ SỐ VÀ GIÁ TRỊ CỦA
PHƢƠNG TRÌNH HỒI QUY
5.3.1 Khoảng ƣớc lƣợng cho hệ số tƣơng quan .
a 1 b 1
a 1 b 1
Trong đó:
2 2
z
1 r 1 r z2 n 3
n 3
a e ; b 2
e
1 r 1 r
5.3.2 Khoảng ƣớc lƣợng cho hệ số của phƣơng trình hồi
quy tổng thể y x
a sa t a sa t
; n2 ; n2
2 2
và b sb t b sb t
; n2 ; n2
2 2
5.3.3 Khoảng ƣớc lƣợng cho giá trị của phƣơng trình
hồi quy
Giả sử X và Y có tƣơng quan với phƣơng trình hồi quy
tuyến tính là: y = ax + b. Với x = x0 , khoảng ƣớc lƣợng
cho giá trị dự báo y0 là:
( yˆ0 t se 1 h ; yˆ0 t se 1 h )
,n2 ,n2
2 2
Trong đó:
2
n ^
i
y yi
( x0 x) 2
Se2 i 1 và h 1
n2 n n
1 n
2
i 1
x xi
2
i
n i 1
163
PHỤ LỤC: CÁC BẢNG TRA
2
t x
1
Bảng 1: Bảng giá trị của hàm Laplace ( x)
2 0
e 2 dt
X 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,1291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
164
X 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
165
Bảng 2: Bảng giá trị phân vị t ;n của phân phối Student:
P(T > t ;n ) =
df 0,1 0,095 0,09 0,085 0,08 0,075 0,07 0,065 0,06 0,055
1 3,078 3,251 3,442 3,655 3,895 4,165 4,474 4,829 5,242 5,730
2 1,886 1,953 2,026 2,104 2,189 2,282 2,383 2,495 2,620 2,760
3 1,638 1,688 1,741 1,798 1,859 1,924 1,995 2,072 2,156 2,249
4 1,533 1,577 1,623 1,671 1,723 1,778 1,838 1,902 1,971 2,048
5 1,476 1,516 1,558 1,602 1,649 1,699 1,753 1,810 1,873 1,941
6 1,440 1,478 1,517 1,559 1,603 1,650 1,700 1,754 1,812 1,874
7 1,415 1,451 1,489 1,529 1,572 1,617 1,664 1,715 1,770 1,830
8 1,397 1,432 1,469 1,508 1,549 1,592 1,638 1,687 1,740 1,797
9 1,383 1,418 1,454 1,492 1,532 1,574 1,619 1,666 1,718 1,773
10 1,372 1,406 1,442 1,479 1,518 1,559 1,603 1,650 1,700 1,754
11 1,363 1,397 1,432 1,468 1,507 1,548 1,591 1,636 1,686 1,738
12 1,356 1,389 1,424 1,460 1,498 1,538 1,580 1,626 1,674 1,726
13 1,350 1,383 1,417 1,453 1,490 1,530 1,572 1,616 1,664 1,715
14 1,345 1,377 1,411 1,447 1,484 1,523 1,565 1,609 1,656 1,706
15 1,341 1,373 1,406 1,441 1,478 1,517 1,558 1,602 1,649 1,699
16 1,337 1,369 1,402 1,437 1,474 1,512 1,553 1,596 1,642 1,692
17 1,333 1,365 1,398 1,433 1,469 1,508 1,548 1,591 1,637 1,686
18 1,330 1,362 1,395 1,429 1,466 1,504 1,544 1,587 1,632 1,681
19 1,328 1,359 1,392 1,326 1,462 1,500 1,540 1,583 1,628 1,677
20 1,325 1,357 1,389 1,424 1,459 1,497 1,537 1,579 1,624 1,672
21 1,323 1,354 1,387 1,421 1,457 1,494 1,534 1,576 1,621 1,669
22 1,321 1,352 1,385 1,419 1,454 1,492 1,531 1,573 1,618 1,665
23 1,319 1,350 1,383 1,417 1,452 1,489 1,529 1,570 1,615 1,662
24 1,318 1,349 1,381 1,415 1,450 1,487 1,526 1,568 1,612 1,660
25 1,316 1,347 1,379 1,413 1,448 1,485 1,524 1,566 1,610 1,657
26 1,315 1,346 1,378 1,411 1,446 1,483 1,522 1,564 1,608 1,655
27 1,314 1,344 1,376 1,410 1,445 1,482 1,521 1,562 1,606 1,653
28 1,313 1,343 1,375 1,408 1,443 1,480 1,519 1,560 1,604 1,651
29 1,311 1,342 1,374 1,407 1,442 1,479 1,517 1,558 1,602 1,649
30 1,310 1,341 1,373 1,406 1,441 1,477 1,516 1,557 1,600 1,647
40 1,303 1.333 1,365 1,397 1,432 1,468 1,506 1,546 1,589 1,635
50 1,299 1,329 1,360 1,392 1,426 1,462 1,500 1,539 1,582 1,627
60 1,296 1,326 1,357 1,389 1,423 1,458 1,496 1,535 1,577 1,622
166
70 1,294 1,323 1,354 1,386 1,420 1,456 1,493 1,532 1,574 1,619
80 1,292 1,322 1,353 1,385 1,418 1,453 1,491 1,530 1,572 1,616
90 1,291 1,321 1,351 1,383 1,417 1,452 1,489 1,528 1,570 1,614
100 1,290 1,320 1,350 1,382 1,416 1,451 1,488 1,527 1,568 1,613
200 1,286 1,315 1,345 1,377 1,410 1,445 1,482 1,520 1,561 1,605
300 1,284 1,314 1,344 1,376 1,409 1,443 1,480 1,518 1,559 1,603
400 1,284 1,313 1,343 1,375 1,408 1,442 1,479 1,517 1,558 1,602
df 0,05 0,045 0,04 0,035 0,03 0,025 0,02 0,015 0,01 0,005
1 6,314 7,026 7,916 9,058 10,579 12,706 15,895 21,205 31,821 63,657
2 2,920 3,104 3,320 3,578 3,896 4,303 4,849 5,643 6,965 9,925
3 2,353 2,471 2,605 2,763 2,951 3,182 3,482 3,896 4,541 5,841
4 2,132 2,226 2,333 2,456 2,601 2,776 2,999 3,298 3,747 4,604
5 2,015 2,098 2,191 2,297 2,422 2,571 2,757 3,003 3,365 4,032
6 1,943 2,019 2,104 2,201 2,313 2,447 2,612 2,829 3,143 3,707
7 1,895 1,966 2,046 2,136 2,241 2,365 2,517 2,715 2,998 3,499
8 1,860 1,928 2,004 2,090 2,189 2,306 2,449 2,634 2,896 3,355
9 1,833 1,899 1,973 2,055 2,150 2,262 2,398 2,574 2,821 3,250
10 1,812 1,877 1,948 2,028 2,120 2,228 2,359 2,527 2,764 3,169
11 1,796 1,859 1,928 2,007 2,096 2,201 2,328 2,491 2,718 3,106
12 1,782 1,844 1,912 1,989 2,076 2,179 2,303 2,461 2,681 3,055
13 1,771 1,832 1,899 1,974 2,060 2,160 2,282 2,436 2,650 3,012
14 1,761 1,821 1,887 1,962 2,046 2,145 2,264 2,415 2,624 2,977
15 1,753 1,812 1,878 1,951 2,034 2,131 2,249 2,397 2,602 2,947
16 1,746 1,805 1,869 1,942 2,024 2,120 2,235 2,382 2,583 2,921
17 1,740 1,798 1,862 1,934 2,015 2,110 2,224 2,368 2,567 2,898
18 1,734 1,792 1,855 1,926 2,007 2,101 2,214 2,356 2,552 2,878
19 1,729 1,786 1,850 1,920 2,000 2,093 2,205 2,346 2,539 2,861
20 1,725 1,782 1,844 1,914 1,994 2,086 2,197 2,336 2,528 2,845
21 1,721 1,777 1,840 1,909 1,988 2,080 2,189 2,328 2,518 2,831
22 1,717 1,773 1,835 1,905 1,983 2,074 2,183 2,320 2,508 2,819
23 1,714 1,770 1,832 1,900 1,978 2,069 2,177 2,313 2,500 2,807
24 1,711 1,767 1,828 1,896 1,974 2,064 2,172 2,307 2,492 2,797
25 1,708 1,764 1,825 1,893 1,970 2,060 2,167 2,301 2,485 2,787
26 1,706 1,761 1,822 1,890 1,967 2,056 2,162 2,296 2,479 2,779
27 1,703 1,758 1,819 1,887 1,963 2,052 2,158 2,291 2,473 2,771
28 1,701 1,756 1,817 1,884 1,960 2,048 2,154 2,286 2,467 2,763
29 1,699 1,754 1,814 1,881 1,957 2,045 2,150 2,282 2,462 2,756
30 1,697 1,752 1,812 1,879 1,955 2,042 2,147 2,278 2,457 2,750
40 1,684 1,737 1,796 1,862 1,936 2,021 2,123 2,250 2,423 2,704
50 1,676 1,729 1,787 1,852 1,924 2,009 2,109 2,234 2,403 2,678
60 1,671 1,723 1,781 1,845 1,917 2,000 2,099 2,223 2,390 2,660
70 1,667 1,719 1,776 1,840 1,912 1,994 2,093 2,215 2,381 2,648
80 1,664 1,716 1,773 1,836 1,908 1,990 2,088 2,209 2,374 2,639
167
90 1,662 1,714 1,771 1,834 1,905 1,987 2,084 2,205 2,368 2,632
100 1,660 1,712 1,769 1,832 1,902 1,984 2,081 2,201 2,364 2,626
200 1,653 1,704 1,760 1,822 1,892 1,972 2,067 2,186 2,345 2,601
300 1,650 1,701 1,757 1,818 1,888 1,968 2,063 2,180 2,339 2,592
400 1,649 1,700 1,755 1,817 1,886 1,966 2,060 2,178 2,336 2,588
168
Bảng 3: Bảng giá trị phân vị 2 ;n của phân phối chi bình
phƣơng: P( 2 2 ;n ) =
Df 0.950 0.955 0.960 0.965 0.970 0.975 0.980 0.985 0.990 0.995
1 0.004 0.003 0.003 0.002 0.001 0.001 0.001 0.000 0.000 0.000
2 0.103 0.092 0.082 0.071 0.061 0.051 0.040 0.030 0.020 0.010
3 0.352 0.326 0.300 0.273 0.245 0.216 0.185 0.152 0.115 0.072
4 0.711 0.670 0.627 0.582 0.535 0.484 0.429 0.368 0.297 0.207
5 1.145 1.090 1.031 0.969 0.903 0.831 0.752 0.662 0.554 0.412
6 1.635 1.566 1.492 1.414 1.330 1.237 1.134 1.016 0.872 0.676
7 2.167 2.085 1.997 1.903 1.802 1.690 1.564 1.418 1.239 0.989
8 2.733 2.638 2.537 2.428 2.310 2.180 2.032 1.860 1.646 1.344
9 3.325 3.218 3.105 2.982 2.848 2.700 2.532 2.335 2.088 1.735
10 3.940 3.822 3.697 3.561 3.412 3.247 3.059 2.837 2.558 2.156
11 4.575 4.446 4.309 4.160 3.997 3.816 3.609 3.363 3.053 2.603
12 5.226 5.087 4.939 4.778 4.601 4.404 4.178 3.910 3.571 3.074
13 5.892 5.743 5.584 5.411 5.221 5.009 4.765 4.476 4.107 3.565
14 6.571 6.412 6.243 6.058 5.856 5.629 5.368 5.057 4.660 4.075
15 7.261 7.094 6.914 6.718 6.503 6.262 5.985 5.653 5.229 4.601
16 7.962 7.785 7.596 7.390 7.163 6.908 6.614 6.263 5.812 5.142
17 8.672 8.487 8.288 8.071 7.832 7.564 7.255 6.884 6.408 5.697
18 9.390 9.197 8.989 8.762 8.512 8.231 7.906 7.516 7.015 6.265
19 10.117 9.915 9.698 9.462 9.200 8.907 8.567 8.159 7.633 6.844
20 10.851 10.641 10.415 10.169 9.897 9.591 9.237 8.810 8.260 7.434
21 11.591 11.374 11.140 10.884 10.601 10.283 9.915 9.471 8.897 8.034
22 12.338 12.113 11.870 11.605 11.313 10.982 10.600 10.139 9.542 8.643
23 13.091 12.858 12.607 12.333 12.030 11.689 11.293 10.815 10.196 9.260
24 13.848 13.609 13.350 13.067 12.754 12.401 11.992 11.497 10.856 9.886
25 14.611 14.365 14.098 13.807 13.484 13.120 12.697 12.187 11.524 10.520
26 15.379 15.125 14.851 14.551 14.219 13.844 13.409 12.882 12.198 11.160
27 16.151 15.891 15.609 15.301 14.959 14.573 14.125 13.583 12.879 11.808
28 16.928 16.660 16.371 16.055 15.704 15.308 14.847 14.290 13.565 12.461
29 17.708 17.434 17.138 16.813 16.454 16.047 15.574 15.002 14.256 13.121
30 18.493 18.212 17.908 17.576 17.208 16.791 16.306 15.719 14.953 13.787
40 26.509 26.168 25.799 25.394 24.944 24.433 23.838 23.113 22.164 20.707
50 34.764 34.370 33.943 33.473 32.951 32.357 31.664 30.818 29.707 27.991
60 43.188 42.746 42.266 41.738 41.150 40.482 39.699 38.744 37.485 35.534
70 51.739 51.253 50.724 50.143 49.495 48.758 47.893 46.836 45.442 43.275
80 60.391 59.864 59.290 58.659 57.955 57.153 56.213 55.061 53.540 51.172
90 69.126 68.560 67.944 67.266 66.509 65.647 64.635 63.394 61.754 59.196
100 77.929 77.326 76.671 75.949 75.142 74.222 73.142 71.818 70.065 67.328
200 168.279 167.380 166.400 165.320 164.111 162.728 161.100 159.096 156.432 152.241
300 260.878 259.752 258.524 257.169 255.650 253.912 251.864 249.338 245.972 240.663
400 354.641 353.324 351.886 350.299 348.520 346.482 344.078 341.112 337.155 330.903
169
df 0.050 0.045 0.040 0.035 0.030 0.025 0.020 0.015 0.010 0.005
1 3.841 4.019 4.218 4.445 4.709 5.024 5.412 5.916 6.635 7.879
2 5.991 6.202 6.438 6.705 7.013 7.378 7.824 8.399 9.210 10.597
3 7.815 8.049 8.311 8.607 8.947 9.348 9.837 10.465 11.345 12.838
4 9.488 9.742 10.026 10.345 10.712 11.143 11.668 12.339 13.277 14.860
5 11.070 11.342 11.644 11.985 12.375 12.833 13.388 14.098 15.086 16.750
6 12.592 12.879 13.198 13.557 13.968 14.449 15.033 15.777 16.812 18.548
7 14.067 14.369 14.703 15.079 15.509 16.013 16.622 17.398 18.475 20.278
8 15.507 15.822 16.171 16.563 17.010 17.535 18.168 18.974 20.090 21.955
9 16.919 17.246 17.608 18.015 18.480 19.023 19.679 20.513 21.666 23.589
10 18.307 18.646 19.021 19.442 19.922 20.483 21.161 22.021 23.209 25.188
11 19.675 20.025 20.412 20.846 21.342 21.920 22.618 23.503 24.725 26.757
12 21.026 21.386 21.785 22.232 22.742 23.337 24.054 24.963 26.217 28.300
13 22.362 22.733 23.142 23.601 24.125 24.736 25.472 26.403 27.688 29.819
14 23.685 24.065 24.485 24.956 25.493 26.119 26.873 27.827 29.141 31.319
15 24.996 25.385 25.816 26.298 26.848 27.488 28.259 29.235 30.578 32.801
16 26.296 26.695 27.136 27.629 28.191 28.845 29.633 30.629 32.000 34.267
17 27.587 27.995 28.445 28.949 29.523 30.191 30.995 32.011 33.409 35.718
18 28.869 29.285 29.745 30.259 30.845 31.526 32.346 33.382 34.805 37.156
19 30.144 30.568 31.037 31.561 32.158 32.852 33.687 34.742 36.191 38.582
20 31.410 31.843 32.321 32.855 33.462 34.170 35.020 36.093 37.566 39.997
21 32.671 33.111 33.597 34.141 34.759 35.479 36.343 37.434 38.932 41.401
22 33.924 34.373 34.867 35.420 36.049 36.781 37.659 38.768 40.289 42.796
23 35.172 35.628 36.131 36.693 37.332 38.076 38.968 40.094 41.638 44.181
24 36.415 36.878 37.389 37.960 38.609 39.364 40.270 41.413 42.980 45.559
25 37.652 38.123 38.642 39.221 39.880 40.646 41.566 42.725 44.314 46.928
26 38.885 39.363 39.889 40.477 41.146 41.923 42.856 44.031 45.642 48.290
27 40.113 40.598 41.132 41.729 42.407 43.195 44.140 45.331 46.963 49.645
28 41.337 41.828 42.370 42.975 43.662 44.461 45.419 46.626 48.278 50.993
29 42.557 43.055 43.604 44.217 44.913 45.722 46.693 47.915 49.588 52.336
30 43.773 44.277 44.834 45.455 46.160 46.979 47.962 49.199 50.892 53.672
40 55.758 56.324 56.946 57.640 58.428 59.342 60.436 61.812 63.691 66.766
50 67.505 68.123 68.804 69.563 70.423 71.420 72.613 74.111 76.154 79.490
60 79.082 79.749 80.482 81.299 82.225 83.298 84.580 86.188 88.379 91.952
70 90.531 91.242 92.024 92.895 93.881 95.023 96.388 98.098 100.425 104.215
80 101.879 102.632 103.459 104.380 105.422 106.629 108.069 109.874 112.329 116.321
90 113.145 113.936 114.806 115.774 116.869 118.136 119.648 121.542 124.116 128.299
100 124.342 125.170 126.079 127.092 128.237 129.561 131.142 133.120 135.807 140.169
200 233.994 235.118 236.351 237.722 239.270 241.058 243.187 245.845 249.445 255.264
300 341.395 342.746 344.228 345.873 347.731 349.874 352.425 355.605 359.906 366.844
400 447.632 449.175 450.866 452.744 454.862 457.305 460.211 463.832 468.724 476.606
170
Bảng 4: Bảng giá trị phân vị F ;n ;n của phân phối Fiser :
1 2
P( F F ;n ;n )=0.05
1 2
df 1 2 3 4 5 6 7 8 9 10
1 161.448 199.500 215.707 224.583 230.162 233.986 236.768 238.883 240.543 241.882
2 18.513 19.000 19.164 19.247 19.296 19.330 19.353 19.371 19.385 19.396
3 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.845 8.812 8.786
4 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041 5.999 5.964
5 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818 4.772 4.735
6 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147 4.099 4.060
7 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726 3.677 3.637
8 5.318 4.459 4.066 3.838 3.687 3.581 3.500 3.438 3.388 3.347
9 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230 3.179 3.137
10 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072 3.020 2.978
11 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948 2.896 2.854
12 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849 2.796 2.753
13 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767 2.714 2.671
14 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699 2.646 2.602
15 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641 2.588 2.544
16 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591 2.538 2.494
17 4.451 3.592 3.197 2.965 2.810 2.699 2.614 2.548 2.494 2.450
18 4.414 3.555 3.160 2.928 2.773 2.661 2.577 2.510 2.456 2.412
19 4.381 3.522 3.127 2.895 2.740 2.628 2.544 2.477 2.423 2.378
20 4.351 3.493 3.098 2.866 2.711 2.599 2.514 2.447 2.393 2.348
21 4.325 3.467 3.072 2.840 2.685 2.573 2.488 2.420 2.366 2.321
22 4.301 3.443 3.049 2.817 2.661 2.549 2.464 2.397 2.342 2.297
23 4.279 3.422 3.028 2.796 2.640 2.528 2.442 2.375 2.320 2.275
24 4.260 3.403 3.009 2.776 2.621 2.508 2.423 2.355 2.300 2.255
25 4.242 3.385 2.991 2.759 2.603 2.490 2.405 2.337 2.282 2.236
26 4.225 3.369 2.975 2.743 2.587 2.474 2.388 2.321 2.265 2.220
27 4.210 3.354 2.960 2.728 2.572 2.459 2.373 2.305 2.250 2.204
28 4.196 3.340 2.947 2.714 2.558 2.445 2.359 2.291 2.236 2.190
29 4.183 3.328 2.934 2.701 2.545 2.432 2.346 2.278 2.223 2.177
171
30 4.171 3.316 2.922 2.690 2.534 2.421 2.334 2.266 2.211 2.165
40 4.085 3.232 2.839 2.606 2.449 2.336 2.249 2.180 2.124 2.077
50 4.034 3.183 2.790 2.557 2.400 2.286 2.199 2.130 2.073 2.026
60 4.001 3.150 2.758 2.525 2.368 2.254 2.167 2.097 2.040 1.993
70 3.978 3.128 2.736 2.503 2.346 2.231 2.143 2.074 2.017 1.969
80 3.960 3.111 2.719 2.486 2.329 2.214 2.126 2.056 1.999 1.951
90 3.947 3.098 2.706 2.473 2.316 2.201 2.113 2.043 1.986 1.938
100 3.936 3.087 2.696 2.463 2.305 2.191 2.103 2.032 1.975 1.927
200 3.888 3.041 2.650 2.417 2.259 2.144 2.056 1.985 1.927 1.878
300 3.873 3.026 2.635 2.402 2.244 2.129 2.040 1.969 1.911 1.862
F0
(
.
1
9
0
5
,10 )
400 3.865 3.018 2.627 2.394 2.237 2.121 2.032 1.962 1.903 1.854
df 11 12 13 14 15 16 17 18 19 20
1 242.983 243.906 244.690 245.364 245.950 246.464 246.918 247.323 247.686 248.013
2 19.405 19.413 19.419 19.424 19.429 19.433 19.437 19.440 19.443 19.446
3 8.763 8.745 8.729 8.715 8.703 8.692 8.683 8.675 8.667 8.660
4 5.936 5.912 5.891 5.873 5.858 5.844 5.832 5.821 5.811 5.803
5 4.704 4.678 4.655 4.636 4.619 4.604 4.590 4.579 4.568 4.558
6 4.027 4.000 3.976 3.956 3.938 3.922 3.908 3.896 3.884 3.874
7 3.603 3.575 3.550 3.529 3.511 3.494 3.480 3.467 3.455 3.445
8 3.313 3.284 3.259 3.237 3.218 3.202 3.187 3.173 3.161 3.150
9 3.102 3.073 3.048 3.025 3.006 2.989 2.974 2.960 2.948 2.936
10 2.943 2.913 2.887 2.865 2.845 2.828 2.812 2.798 2.785 2.774
11 2.818 2.788 2.761 2.739 2.719 2.701 2.685 2.671 2.658 2.646
12 2.717 2.687 2.660 2.637 2.617 2.599 2.583 2.568 2.555 2.544
13 2.635 2.604 2.577 2.554 2.533 2.515 2.499 2.484 2.471 2.459
14 2.565 2.534 2.507 2.484 2.463 2.445 2.428 2.413 2.400 2.388
15 2.507 2.475 2.448 2.424 2.403 2.385 2.368 2.353 2.340 2.328
16 2.456 2.425 2.397 2.373 2.352 2.333 2.317 2.302 2.288 2.276
17 2.413 2.381 2.353 2.329 2.308 2.289 2.272 2.257 2.243 2.230
18 2.374 2.342 2.314 2.290 2.269 2.250 2.233 2.217 2.203 2.191
19 2.340 2.308 2.280 2.256 2.234 2.215 2.198 2.182 2.168 2.155
20 2.310 2.278 2.250 2.225 2.203 2.184 2.167 2.151 2.137 2.124
172
21 2.283 2.250 2.222 2.197 2.176 2.156 2.139 2.123 2.109 2.096
22 2.259 2.226 2.198 2.173 2.151 2.131 2.114 2.098 2.084 2.071
23 2.236 2.204 2.175 2.150 2.128 2.109 2.091 2.075 2.061 2.048
24 2.216 2.183 2.155 2.130 2.108 2.088 2.070 2.054 2.040 2.027
25 2.198 2.165 2.136 2.111 2.089 2.069 2.051 2.035 2.021 2.007
26 2.181 2.148 2.119 2.094 2.072 2.052 2.034 2.018 2.003 1.990
27 2.166 2.132 2.103 2.078 2.056 2.036 2.018 2.002 1.987 1.974
28 2.151 2.118 2.089 2.064 2.041 2.021 2.003 1.987 1.972 1.959
29 2.138 2.104 2.075 2.050 2.027 2.007 1.989 1.973 1.958 1.945
30 2.126 2.092 2.063 2.037 2.015 1.995 1.976 1.960 1.945 1.932
40 2.038 2.003 1.974 1.948 1.924 1.904 1.885 1.868 1.853 1.839
50 1.986 1.952 1.921 1.895 1.871 1.850 1.831 1.814 1.798 1.784
60 1.952 1.917 1.887 1.860 1.836 1.815 1.796 1.778 1.763 1.748
70 1.928 1.893 1.863 1.836 1.812 1.790 1.771 1.753 1.737 1.722
80 1.910 1.875 1.845 1.817 1.793 1.772 1.752 1.734 1.718 1.703
90 1.897 1.861 1.830 1.803 1.779 1.757 1.737 1.720 1.703 1.688
100 1.886 1.850 1.819 1.792 1.768 1.746 1.726 1.708 1.691 1.676
200 1.837 1.801 1.769 1.742 1.717 1.694 1.674 1.656 1.639 1.623
300 1.821 1.785 1.753 1.725 1.700 1.677 1.657 1.638 1.621 1.606
400 1.813 1.776 1.745 1.717 1.691 1.669 1.648 1.630 1.613 1.597
df 21 22 23 24 25 26 27 28 29 30
1 248.309 248.579 248.826 249.052 249.260 249.453 249.631 249.797 249.951 250.095
2 19.448 19.450 19.452 19.454 19.456 19.457 19.459 19.460 19.461 19.462
3 8.654 8.648 8.643 8.639 8.634 8.630 8.626 8.623 8.620 8.617
4 5.795 5.787 5.781 5.774 5.769 5.763 5.759 5.754 5.750 5.746
5 4.549 4.541 4.534 4.527 4.521 4.515 4.510 4.505 4.500 4.496
6 3.865 3.856 3.849 3.841 3.835 3.829 3.823 3.818 3.813 3.808
7 3.435 3.426 3.418 3.410 3.404 3.397 3.391 3.386 3.381 3.376
8 3.140 3.131 3.123 3.115 3.108 3.102 3.095 3.090 3.084 3.079
9 2.926 2.917 2.908 2.900 2.893 2.886 2.880 2.874 2.869 2.864
10 2.764 2.754 2.745 2.737 2.730 2.723 2.716 2.710 2.705 2.700
11 2.636 2.626 2.617 2.609 2.601 2.594 2.588 2.582 2.576 2.570
173
12 2.533 2.523 2.514 2.505 2.498 2.491 2.484 2.478 2.472 2.466
13 2.448 2.438 2.429 2.420 2.412 2.405 2.398 2.392 2.386 2.380
14 2.377 2.367 2.357 2.349 2.341 2.333 2.326 2.320 2.314 2.308
15 2.316 2.306 2.297 2.288 2.280 2.272 2.265 2.259 2.253 2.247
16 2.264 2.254 2.244 2.235 2.227 2.220 2.212 2.206 2.200 2.194
17 2.219 2.208 2.199 2.190 2.181 2.174 2.167 2.160 2.154 2.148
18 2.179 2.168 2.159 2.150 2.141 2.134 2.126 2.119 2.113 2.107
19 2.144 2.133 2.123 2.114 2.106 2.098 2.090 2.084 2.077 2.071
20 2.112 2.102 2.092 2.082 2.074 2.066 2.059 2.052 2.045 2.039
21 2.084 2.073 2.063 2.054 2.045 2.037 2.030 2.023 2.016 2.010
22 2.059 2.048 2.038 2.028 2.020 2.012 2.004 1.997 1.990 1.984
23 2.036 2.025 2.014 2.005 1.996 1.988 1.981 1.973 1.967 1.961
24 2.015 2.003 1.993 1.984 1.975 1.967 1.959 1.952 1.945 1.939
25 1.995 1.984 1.974 1.964 1.955 1.947 1.939 1.932 1.926 1.919
26 1.978 1.966 1.956 1.946 1.938 1.929 1.921 1.914 1.907 1.901
27 1.961 1.950 1.940 1.930 1.921 1.913 1.905 1.898 1.891 1.884
28 1.946 1.935 1.924 1.915 1.906 1.897 1.889 1.882 1.875 1.869
29 1.932 1.921 1.910 1.901 1.891 1.883 1.875 1.868 1.861 1.854
30 1.919 1.908 1.897 1.887 1.878 1.870 1.862 1.854 1.847 1.841
40 1.826 1.814 1.803 1.793 1.783 1.775 1.766 1.759 1.751 1.744
50 1.771 1.759 1.748 1.737 1.727 1.718 1.710 1.702 1.694 1.687
60 1.735 1.722 1.711 1.700 1.690 1.681 1.672 1.664 1.656 1.649
70 1.709 1.696 1.685 1.674 1.664 1.654 1.646 1.637 1.629 1.622
80 1.689 1.677 1.665 1.654 1.644 1.634 1.626 1.617 1.609 1.602
90 1.675 1.662 1.650 1.639 1.629 1.619 1.610 1.601 1.593 1.586
100 1.663 1.650 1.638 1.627 1.616 1.607 1.598 1.589 1.581 1.573
200 1.609 1.596 1.583 1.572 1.561 1.551 1.542 1.533 1.524 1.516
300 1.591 1.578 1.565 1.554 1.543 1.533 1.523 1.514 1.505 1.497
400 1.582 1.569 1.556 1.545 1.534 1.523 1.514 1.505 1.496 1.488
1 251.143 251.774 252.196 252.497 252.724 252.900 253.041 253.677 253.889 253.996
2 19.471 19.476 19.479 19.481 19.483 19.485 19.486 19.491 19.492 19.493
174
3 8.594 8.581 8.572 8.566 8.561 8.557 8.554 8.540 8.536 8.533
4 5.717 5.699 5.688 5.679 5.673 5.668 5.664 5.646 5.640 5.637
5 4.464 4.444 4.431 4.422 4.415 4.409 4.405 4.385 4.378 4.375
6 3.774 3.754 3.740 3.730 3.722 3.716 3.712 3.690 3.683 3.680
7 3.340 3.319 3.304 3.294 3.286 3.280 3.275 3.252 3.245 3.241
8 3.043 3.020 3.005 2.994 2.986 2.980 2.975 2.951 2.943 2.939
9 2.826 2.803 2.787 2.776 2.768 2.761 2.756 2.731 2.723 2.719
10 2.661 2.637 2.621 2.610 2.601 2.594 2.588 2.563 2.555 2.551
11 2.531 2.507 2.490 2.478 2.469 2.462 2.457 2.431 2.422 2.418
12 2.426 2.401 2.384 2.372 2.363 2.356 2.350 2.323 2.314 2.310
13 2.339 2.314 2.297 2.284 2.275 2.267 2.261 2.234 2.225 2.220
14 2.266 2.241 2.223 2.210 2.201 2.193 2.187 2.159 2.150 2.145
15 2.204 2.178 2.160 2.147 2.137 2.130 2.123 2.095 2.085 2.081
16 2.151 2.124 2.106 2.093 2.083 2.075 2.068 2.039 2.030 2.025
17 2.104 2.077 2.058 2.045 2.035 2.027 2.020 1.991 1.981 1.976
18 2.063 2.035 2.017 2.003 1.993 1.985 1.978 1.948 1.938 1.933
19 2.026 1.999 1.980 1.966 1.955 1.947 1.940 1.910 1.899 1.894
20 1.994 1.966 1.946 1.932 1.922 1.913 1.907 1.875 1.865 1.859
21 1.965 1.936 1.916 1.902 1.891 1.883 1.876 1.845 1.834 1.828
22 1.938 1.909 1.889 1.875 1.864 1.856 1.849 1.817 1.806 1.800
23 1.914 1.885 1.865 1.850 1.839 1.830 1.823 1.791 1.780 1.774
24 1.892 1.863 1.842 1.828 1.816 1.808 1.800 1.768 1.756 1.750
25 1.872 1.842 1.822 1.807 1.796 1.787 1.779 1.746 1.735 1.729
26 1.853 1.823 1.803 1.788 1.776 1.767 1.760 1.726 1.714 1.709
27 1.836 1.806 1.785 1.770 1.758 1.749 1.742 1.708 1.696 1.690
28 1.820 1.790 1.769 1.754 1.742 1.733 1.725 1.691 1.679 1.673
29 1.806 1.775 1.754 1.738 1.726 1.717 1.710 1.675 1.663 1.656
30 1.792 1.761 1.740 1.724 1.712 1.703 1.695 1.660 1.647 1.641
40 1.693 1.660 1.637 1.621 1.608 1.597 1.589 1.551 1.537 1.530
50 1.634 1.599 1.576 1.558 1.544 1.534 1.525 1.484 1.469 1.461
60 1.594 1.559 1.534 1.516 1.502 1.491 1.481 1.438 1.422 1.414
70 1.566 1.530 1.505 1.486 1.471 1.459 1.450 1.404 1.388 1.379
80 1.545 1.508 1.482 1.463 1.448 1.436 1.426 1.379 1.361 1.353
175
90 1.528 1.491 1.465 1.445 1.429 1.417 1.407 1.358 1.340 1.331
100 1.515 1.477 1.450 1.430 1.415 1.402 1.392 1.342 1.323 1.314
200 1.455 1.415 1.386 1.364 1.346 1.332 1.321 1.263 1.240 1.228
300 1.435 1.393 1.363 1.341 1.323 1.308 1.296 1.234 1.210 1.196
400 1.425 1.383 1.352 1.329 1.311 1.296 1.283 1.219 1.193 1.179
176
Bảng 5: Bảng giá trị phân vị Rp của tiêu chuẩn hạng bội
Duncan với = 0.05
N- P
m 2 3 4 5 6 7 8 9 10 12
1 18.00 18.00 18.00 18.00 18.00 18.00 18.00 18.00 18.00 18.00
2 6.09 6.09 6.09 6.09 6.09 6.09 6.09 6.09 6.09 6.09
3 4.50 4.50 4.50 4.50 4.50 4.50 4.50 4.50 4.50 4.50
4 3.98 4.01 4.01 4.02 4.02 4.02 4.02 4.02 4.02 4.02
5 3.46 3.74 3.79 3.83 3.83 3.83 3.83 3.83 3.83 3.83
6 3.64 3.58 3.64 3.68 3.83 3.83 3.83 3.83 3.83 3.83
7 3.35 3.47 3.54 3.58 3.61 3.61 3.61 3.61 3.61 3.61
8 3.26 3.39 3.47 3.55 3.56 3.56 3.56 3.56 3.56 3.56
9 3.20 3.34 3.41 3.47 3.50 3.52 3.52 3.52 3.52 3.52
10 3.15 3.30 3.37 3.42 3.46 3.47 3.47 3.47 3.47 3.47
11 3.11 3.27 3.35 3.39 3.43 3.44 3.45 3.46 3.46 3.46
12 3.08 3.23 3.33 3.36 3.40 3.42 3.44 3.44 3.46 3.46
13 3.06 3.21 3.30 3.035 3.38 3.41 3.42 3.44 3.45 3.46
14 3.03 3.18 3.27 3.33 3.37 3.39 3.41 3.42 3.44 3.45
15 3.01 3.16 3.25 3.31 3.26 3.38 3.40 3.42 3.43 3.44
16 3.00 3.15 3.23 3.30 3.34 3.37 3.39 3.41 3.44 3.44
17 3.98 3.13 3.22 3.28 3.33 3.36 3.38 3.40 3.42 3.44
18 2.97 3.12 3.21 3.27 3.32 3.35 3.37 3.39 3.41 3.43
19 2.96 3.11 3.19 3.26 3.31 3.35 3.37 3.39 3.41 3.43
20 2.95 3.10 3.18 3.25 3.30 3.34 3.36 3.38 3.40 3.43
22 2.93 3.08 3.17 3.24 3.29 3.32 3.35 3.37 3.39 3.42
24 2.92 3.07 3.15 3.22 3.28 3.31 3.34 3.37 3.38 3.41
26 2.91 3.06 3.14 3.21 3.27 3.30 3.34 3.37 3.38 3.41
28 2.90 3.04 3.13 3.20 3.26 3.30 3.33 3.35 3.37 3.40
30 2.89 3.04 3.12 3.20 3.25 3.29 3.32 3.35 3.36 3.40
40 2.86 3.01 3.10 3.17 3.22 3.27 3.30 3.33 3.35 3.39
60 2.83 2.98 3.08 3.14 3.20 3.24 3.28 3.31 3.33 3.37
100 2.80 2.95 3.05 3.05 3.18 3.22 3.26 3.29 3.32 3.36
>100 37.7 2.92 3.02 3.09 3.15 3.19 3.23 3.26 3.29 3.34
177
TÀI LIỆU THAM KHẢO:
1. Lƣu Ngọc Hoạt, Nghiên cứu khoa học y học – Phân
tích và trình bày kết quả nghiên cứu, NXB Y học,
2017.
2. Nguyễn Văn Tuấn, y học thực chứng, NXB Y học,
2015.
3. Đỗ Trung Đàm, Đánh giá về lƣợng các kết quả
nghiên cứu y dƣợc sinh học, NXB Y học, 2015.
4. Chu Văn Thọ, Xác suất thống kê, Đại học y dƣợc
TP. HCM, 2012.
5. Hoàng Ngọc Nhậm, Xác suất thống kê, ĐH kinh tế
TP.HCM, 2012.
6. Đặng Đức Hậu, Bài tập xác suất thống kê, NXB
Giáo dục Việt Nam, 2011.
7. Đặng Hùng Thắng, Xác suất và các ứng dụng, NXB
Giáo dục Việt Nam,2011.
8. Phạm Việt Cƣờng, Thống kê y tế công cộng (phần
phân tích số liệu), NXB Y học, 2009.
9. Đặng Đức Hậu (chủ biên), xác suất thống kê, NXB
Giáo dục Việt Nam, 2008.
10. Nguyễn Văn Hữu, Thống kê Toán học, NXB Đại
học Quốc Gia Hà Nội, 2004.
11. Đặng Văn Giáp, Phân tích dữ liệu khoa học bằng
chƣơng trình MS Excel, NXB Giáo dục, 2004.
12. Lê Sỹ Đồng, Xác suất thống kê và ứng dụng, NXB
Giáo dục, 2004.
178