You are on page 1of 178

MỤC LỤC

Nội dung Trang


Mục lục……………………………………………… 1
Lời nói đầu…………………………………………... 3
PHẦN THỨ NHẤT: TÓM TẮT LÝ THUYẾT VÀ 5
VÍ DỤ MINH HỌA………………………………….
CHƢƠNG 1: XÁC SUẤT VÀ CÔNG THỨC TÍNH
XÁC SUẤT................................................................. 5
1.1 Sơ lƣợc về lý thuyết tập hợp, tổ hợp.…………… 5
1.2 Phép thử, không gian mẫu và biến cố…………… 10
1.3 Định nghĩa xác suất……………………………... 14
1.4 Công thức tính xác suất…………………………. 17
1.5 Xác suất trong chẩn đoán……………………….. 23
CHƢƠNG 2: BIẾN NGẪU NHIÊN VÀ LUẬT
PHÂN PHỐI XÁC SUẤT…………………………... 32
2.1 Khái niệm biến ngẫu nhiên……………………… 32
2.2 Hàm phân phối xác suất và hàm mật độ xác suất.. 34
2.3 Các tham số đặc trƣng của biến ngẫu nhiên…….. 40
2.4 Một số phân phối xác suất của biến ngẫu nhiên
rời rạc ……………………………………………….. 44
2.5 Một số phân phối xác suất của biến ngẫu nhiên
liên tục………………………………………………. 55
CHƢƠNG 3: ƢỚC LƢỢNG THAM SỐ THỐNG
KÊ…………………………………………………… 68
3.1 Tổng thể và mẫu…………………………………. 68
3.2 Ƣớc lƣợng tham số thống kê của tổng thể………. 82
CHƢƠNG 4: KIỂM ĐỊNH GIẢ THIẾT THỐNG
KÊ…………………………………………………… 97
4.1 Một số khái niệm về kiểm định giả thiết thống kê 97
4.2 Kiểm định giả thiết thống kê về tham số trung

1
bình của tổng thể……………………………………. 102
4.3 Kiểm định giả thiết thống kê về tham số tỉ lệ của
tổng thể……………………………………………… 121
4.4 Kiểm định giả thiết thống kê về tham số phƣơng
sai của tổng thể……………………………………… 127
4.5 Kiểm định giả thiết thống kê về sự phù hợp của
luật phân phối……………………………………….. 131
4.6 Kiểm định giả thiết thống kê về tính độc lập của
hai đặc tính……………………………………. 134
4.7 Kiểm định giả thiết thống kê phi tham số……….. 136
CHƢƠNG 5: TƢƠNG QUAN VÀ HỒI QUY……... 151
5.1 Hệ số tƣơng quan và phƣơng trình hồi quy……... 151
5.2 Kiểm định sự phù hợp của phƣơng trình hồi quy.. 156
5.3 Ƣớc lƣợng hệ số và giá trị của phƣơng trình hồi
quy…………………………………………………... 163
PHẦN THỨ HAI: CÂU HỎI TRẮC NGHIỆM VÀ
HƢỚNG DẪN GIẢI………………………………...
Chƣơng 1: Xác suất- công thức tính xác suất………..
Chƣơng 2: Biến ngẫu nhiên và luật phân phối xác
suất…………………………………………………...
Chƣơng 3: Ƣớc lƣợng tham số thống kê…………….
Chƣơng 4: Kiểm định giả thiết thống kê…………….
Chƣơng 5: Tƣơng quan và hồi quy…………………..
PHỤ LỤC: CÁC BẢNG TRA……………………

2
LỜI NÓI ĐẦU
Sách xác suất thống kê y học đƣợc viết theo chƣơng
trình đào tạo bậc Đại học khối ngành khoa học sức khỏe.
Quyển sách không những cung cấp các kiến thức cơ bản về
xác suất thống kê mà còn đƣa ra một số ví dụ ứng dụng
kiến thức xác suất thống kê trong lĩnh vực y học. Nội dung
của cuốn sách là tài liệu học tập cho sinh viên khối ngành
khoa học sức khỏe, đồng thời cũng có thể là tài liệu tham
khảo cho các cán bộ giảng dạy xác suất thống kê y học
trong khối ngành khỏa học sức khỏe và những nhà nghiên
cứu cần phân tích và xử lý số liệu trong các nghiên cứu y
học. Nghiên cứu về xác suất làm cho ta hiểu rõ hơn về khả
năng xảy ra của các hiện tƣợng ngẫu nhiên cũng nhƣ các
quy luật xác suất của chúng, nhờ đó giúp ta đánh giá đúng,
phán đoán đúng hơn về các hiện tƣợng ngẫu nhiên. Nghiên
cứu về thống kê để phân tích và xử lý số liệu từ đó có thể
so sánh đánh giá đúng về hiệu quả của phƣơng pháp chẩn
đoán và điều trị, góp phần đƣa ra các khuyến cáo về chẩn
đoán và điều trị. Ứng dụng xác suất thống kê vào thực tiễn,
đặc biệt là trong lĩnh vực y học, là việc làm rất quan trọng
và cần thiết. Nhƣng việc đƣa lý thuyết toán học vào ứng
dụng trong lĩnh vực y học là việc làm còn rất nhiều khó
khăn, nó đòi hỏi sự tìm tòi, học hỏi và đầu tƣ nghiên cứu
một cách thỏa đáng. Sách này, với mong mỏi sẽ góp một
phần nhỏ nhằm đáp ứng yêu cầu trên của bạn đọc.
Nội dung quyển sách đƣợc thiết kê gồm hai phần.
Phần 1 trình bày tóm tắt lý thuyết xác suất thống kê và các
ví dụ minh họa có liên hệ vận dụng kiến thức xác suất
thống kê trong lĩnh vực y học. Đặc biệt, tác giả đã sử sụng

3
một số phần mềm nhƣ Crystal Ball, SPSS để minh họa
phân phối xác suất và xử lý số liệu thống kê. Nội dung
phần 1 gồm có 5 chƣơng.
Chƣơng 1: Xác suất- công thức tính xác suất.
Chƣơng 2: Biến ngẫu nhiên và luật phân phối xác suất.
Chƣơng 3: Ƣớc lƣợng tham số thống kê.
Chƣơng 4: Kiểm định giả thiết thống kê.
Chƣơng 5: Tƣơng quan và hồi quy.
Phần 2 trình bày 300 câu hỏi trắc nghiệm có hƣớng dẫn
giải chi tiết nhằm hỗ trợ sinh viên ôn tập củng cố kiến thức
của môn học xác suất thống kê y học.
Với thời gian và khả năng có hạn, chắc chắn quyển sách
xác suất thống kê y học do tác giả biên soạn khó tránh khỏi
những hạn chế và thiếu sót. Tác giả rất mong nhận đƣợc sự
đóng góp ý kiến của bạn đọc.

TÁC GIẢ

Trần Minh Tâm

4
PHẦN THỨ NHẤT
TÓM TẮT LÝ THUYẾT
VÀ VÍ DỤ MINH HỌA

CHƢƠNG 1: XÁC SUẤT VÀ CÔNG THỨC TÍNH


XÁC SUẤT

Nội dung đƣợc trình bày trong chƣơng 1 bao gồm: Các
khái niệm cơ bản nhƣ phép thử, kết cục, biến cố, xác suất.
Tính xác suất theo định nghĩa cổ điển (phƣơng pháp liệt
kê, phƣơng pháp sử dụng đại số tổ hợp), theo định nghĩa
thống kê. Mối quan hệ giữa các biến cố: tổng, tích, độc lập,
xung khắc, nhóm đầy đủ, đối lập. Các công thức tính xác
suất nhƣ công thức cộng xác suất, công thức nhân xác suất;
công thức Bernoulli, Công thức xác suất đầy đủ và công
thức Bayes. Đặc biệt, trình bày nội dung ứng dụng xác suất
trong chẩn đoán nhƣ phân biệt giữa bệnh trạng và kết quả
xét nghiệm; giá trị dƣơng tính hay âm tính thật, giá trị tiên
đoán dƣơng tính hay âm tính của xét nghiệm.
1.1 SƠ LƢỢC VỀ LÝ THUYẾT TẬP HỢP, TỔ HỢP
1.1.1 Các phép toán trên tập hợp
Phép hợp: Hợp của hai tập hợp A và B (ký hiệu: A  B ) là
tập hợp mà mỗi phần tử của nó thuộc tập hợp A hoặc thuộc
tập hợp B.
Phép giao: Giao của hai tập hợp A và B (ký hiệu: A  B )
là tập hợp mà mỗi phần tử của nó thuộc đồng thời cả hai
tập hợp A và B.

5
Phép hiệu: Hiệu của hai tập hợp A và B (ký hiệu: A \ B ) là
tập hợp mà mỗi phần tử của nó thuộc tập hợp A mà không
thuộc tập hợp B.
Tập con: Tập hợp A gọi là tập con của tập hợp B (kí hiệu
A  B) nếu mọi phần tử của A đều thuộc B.
Phần bù: Nếu A  X thì X\A gọi là phần bù của tập hợp A
đối với tập hợp X. Khi đó ta kí hiệu Ac  X \ A hay kí hiệu
A X \ A .
Ví dụ 1.1: Cho các tập hợp: X  1;2;3;4;5;6
A  2;4;6 ; A  4;5;6
Khi đó ta có:
A  B  2;4;5;6
A  B  4;6
A  X; B  X
A \ B  2 ; B \ A  5
A  1;3;5 ; B  1; 2,3
1.1.2 Giải tích tổ hợp: Cho tập hợp gồm n phần tử (n > 0),
khi đó:
Hoán vị: Cho tập hợp gồm n phần tử (n > 0), sắp xếp n
phần tử vào n vị trí. Mỗi một cách sắp xếp gọi là một hoán
vị. Số hoán vị (số kết quả sắp xếp) đƣợc tính theo công
thức:
Pn  n!
Ví dụ 1.2: Có 5 bác sỹ cùng ngồi vào bàn để tham gia
buổi hội chẩn, hỏi có bao nhiêu cách bố trí bảng tên của
5 bác sỹ này vào bàn?
Giải:

6
Số cách bố trí bảng tên của 5 bác sỹ này vào bàn tham
gia hội chẩn là
P5  5!  120 cách
Tổ hợp: Cho tập hợp gồm n phần tử (n > 0), từ tập hợp này
lấy ngẫu nhiên ra k phần tử (0 <k  n). Mỗi một cách lấy ra
gọi là một tổ hợp chập k của n phần tử. Nói cách khác:
Chọn ngẫu nhiên k phần tử từ n phần tử (k n) sao cho k
phần tử đó không lặp và không có phân biệt thứ tự. Số tổ
hợp (số cách chọn) đƣợc tính theo công thức.
n!
C nk 
k!(n  k )!
Ví dụ 1.3: Khoa sản nhi có 10 bác sỹ, hỏi có bao nhiêu
cách chọn ngẫu nhiên 3 bác sỹ để bố trí lịch trực?
Giải:
Số cách chọn ngẫu nhiên 3 bác sỹ trong tổng số 10 bác
sỹ để bố trí lịch trực là: C103  120 cách
Chỉnh hợp không lặp: Từ tập hợp gồm n phần tử (n > 0),
sắp xếp n phần tử của tập hợp này vào k vị trí (0 <k  n)
(Mỗi vị trí chứa một phần tử, mỗi phần tử chỉ xuất hiện
một lần trong mỗi cách sắp xếp). Mỗi một cách sắp xếp gọi
là một chỉnh hợp không lặp chập k của n phần tử. Nói cách
khác: Chọn ngẫu nhiên k phần tử từ n phần tử (k n) sao
cho k phần tử đó không lặp và có phân biệt thứ tự. Số
chỉnh hợp (số cách chọn) đƣợc tính theo công thức:
n!
Ank 
(n  k )!
Ví dụ 1.4: Khoa ngoại có 10 bác sỹ, hỏi có bao nhiêu
cách chọn ngẫu nhiên 3 bác sỹ để cử tham gia 3 tổ công

7
tác theo yêu cầu của Ban Giám đốc bệnh viện?
Giải:
Số cách chọn ngẫu nhiên 3 bác sỹ trong tổng số 10 bác
sỹ để cử tham gia 3 tổ công tác theo yêu cầu của Ban
Giám đốc bệnh viện là: A103  720 cách
Chỉnh hợp lặp: Từ tập hợp gồm n phần tử (n > 0), sắp xếp
n phần tử của tập hợp này vào k vị trí (0 < k) (Mỗi vị trí
chứa một phần tử, mỗi phần tử có thể xuất hiện nhiều lần
trong mỗi cách sắp xếp). Mỗi một cách sắp xếp gọi là một
chỉnh hợp lặp chập k của n phần tử. Nói cách khác: Số
cách chọn ngẫu nhiên k phần tử từ n phần tử sao cho k
phần tử đó có thể lặp lại và có phân biệt thứ tự. Số chỉnh
hợp (số cách chọn) đƣợc tính theo công thức:
k
An  nk
Ví dụ 1.5: Mỗi vé số của mỗi tỉnh gồm có 6 chữ số. Hỏi
mỗi tỉnh khi phát hành mỗi đợt sẽ phát hành được bao
nhiêu vé số khác nhau?
Giải:
Ta có mỗi vé số gồm có 6 chữ số, nên ta có thể xem
việc phát hành ra một vé số là việc chọn ra 6 số bất kỳ có
thứ tự có thể trùng nhau từ 10 số từ 0 đến 9. Do đó mỗi
vé số đƣợc phát hành có thể đƣợc xem là một chỉnh hợp
lặp chập 6 của 10. Vậy số vé số có thể phát hành mỗi đợt
của mỗi tỉnh là số chỉnh hợp lặp chập 6 của 10:
6
A10  106  1000000 (vé số)
Quy tắc nhân: Giả sử một công việc có k giai đoạn thực
hiện hay ta sắp xếp các phần tử của tập hợp vào k vị trí.
Giai đoạn thứ 1 hay vị trí thứ 1 có n1 cách chọn phần tử
sắp xếp

8
Giai đoạn thứ 2 hay vị trí thứ 2 có n2 cách chọn phần tử
sắp xếp

Giai đoạn thứ k hay vị trí thứ k có nk cách chọn phần tử


sắp xếp
Khi đó tổng số cách sắp xếp là: n1  n 2   n k
Ví dụ 1.6: Một tổ sinh viên có 8 nam, 7 nữ. Chia thành 3
nhóm trực đồng thời tại 3 bệnh viện A, B, C. Hỏi có
bao nhiêu cách phân công nếu: bệnh viện A cần 3 nam
và 2 nữ, bệnh viện B cần 4 nam và 1 nữ, số còn lại đến
bệnh viện C?
Giải:
Số cách phân công 3 nam và 2 nữ đi bệnh viện A là:
C83.C72  1176 cách
Số cách phân công 4 nam và 1 nữ đi bệnh viện B là:
C54 .C51  25 cách
5 sinh viên còn lại đi bệnh viện C là: 1 cách
Vậy, số cách phân công 15 sinh viên này đi các bệnh
viện A, B, C là: 1176  25 1  29400 cách
Quy tắc cộng: Giả sử một công việc có k trƣờng hợp thực
hiện khác nhau đều thỏa yêu cầu. Trƣờng hợp 1 có n1 cách
thực hiện, trƣờng hợp 2 có n2 cách thực hiện,..., trƣờng hợp
k có nk cách thực hiện. Khi đó, số cách thực hiện công việc
là: n1  n 2   n k
Ví dụ 1.7: Khoa nội có 6 bác sỹ nữ, 4 bác sỹ nam. Lập tổ
công tác 3 bác sỹ sao cho phải có bác sỹ nam và bác sỹ
nữ, hỏi có bao nhiêu cách?
Giải:
Do tổ công tác có 3 bác sỹ sao cho phải có bác sỹ nam

9
và bác sỹ nữ nên có 2 trƣờng hợp xảy ra:
Trƣờng hợp 1: Có 2 bác sỹ nam và 1 bác sỹ nữ, số
cách là: C62 .C41  60 cách
Trƣờng hợp 2: Có 1 bác sỹ nam và 2 bác sỹ nữ, số
cách là: C61.C42  36 cách
Vậy, số cách lập tổ công tác 3 bác sỹ sao cho phải có
bác sỹ nam và bác sỹ nữ là: 60  36  96 cách
1.2 PHÉP THỬ, KHÔNG GIAN MẪU VÀ BIẾN CỐ
1.2.1 Phép thử ngẫu nhiên (Hiện tƣợng ngẫu nhiên)
Phép thử ngẫu nhiên là một thí nghiệm hay hành động mà
kết quả của nó không đoán trƣớc đƣợc nhƣng có thể xác
định đƣợc tập hợp tất cả các kết quả có thể xảy ra của phép
thử đó
Trong thực tế cho thấy có rất nhiều thí nghiệm khi tiến
hành nhiều lần trong cùng điều kiện ban đầu nhƣng không
dẫn đến cùng kết quả. Chẳng hạn khi tung một con xúc xắc
xem nhƣ thực hiện một thí nghiệm, khi đó ta không thể
đoán trƣớc đƣợc chắc chắn kết quả xuất hiện là mặt mấy
chấm.
Ví dụ 1.8: Lƣợng mƣa trong năm; đầu tƣ vào một dự án;
tham gia một kỳ thi tuyển sinh; kinh doanh một mặt hàng
nào đó; điều trị cho một bệnh nhân;… là các hiện tƣợng
ngẫu nhiên.
1.2.2 Không gian mẫu và biến cố
a) Biến cố sơ cấp, không gian mẫu
Biến cố sơ cấp: mỗi kết quả có thể xảy ra của một phép thử
ngẫu nhiên đƣợc gọi là biến cố sơ cấp.

10
Không gian mẫu (không gian các biến cố sơ cấp) là tập
hợp tất cả các kết quả có thể xảy ra của phép thử. Ký hiệu
là , số phần tử của không gian mẫu ký hiệu là n()
Ví dụ 1.9: Điều trị bệnh cho một ngƣời. Gọi A là sự kiện
ngƣời này đƣợc điều trị khỏi bệnh; B là sự kiện ngƣời này
không đƣợc điều trị khỏi bệnh, khi đó:
Phép thử này có 2 biến cố sơ cấp : A; B.
Không gian mẫu  ={A; B}
Ví dụ 1.10: Từ một hộp đựng 10 lá phiếu có 3 phiếu ƣu
tiên, rút ngẫu nhiên ra 1 thăm. Khi đó: Phép thử này có 10
biến cố sơ cấp (kết quả có thể xảy ra), trong đó có 3 biến
cố sơ cấp (kết quả) là phiếu ƣu tiên và 7 biến cố sơ cấp (kết
quả) là phiếu không ƣu tiên. Không gian mẫu gồm 10 phần
tử.
b) Biến cố ngẫu nhiên (gọi tắt là biến cố)
Với một phép thử ngẫu nhiên, mỗi sự kiện mà ta không thể
khẳng định chắc chắn nó xảy ra hay không xảy ra gọi là
biến cố ngẫu nhiên. Biến cố ngẫu nhiên là tập hợp gồm
một số biến cố sơ cấp, do đó biến cố ngẫu nhiên là tập hợp
con của không gian mẫu  . Biến cố ngẫu nhiên thƣờng kí
hiệu: A, B, C, D, …
Ví dụ 1.11: Một hộp đựng 8 dƣợc phẩm loại A và 2 dƣợc
phẩm loại B. Từ hộp này, lấy ngẫu nhiên ra 1 dƣợc phẩm.
Gọi A là biến cố lấy đƣợc dƣợc phẩm loại A; B là biến
cố lấy đƣợc dƣợc phẩm loại B.
a. Không gian mẫu  gồm 10 biến cố sơ cấp (10
phần tử).
b. Biến cố ngẫu nhiên A gồm 8 biến cố sơ cấp (8
phần tử)

11
c. Biến cố ngẫu nhiên B gồm 2 biến cố sơ cấp (2
phần tử)
Ví dụ 1.12: Một hộp đựng 8 dƣợc phẩm loại A và 2 dƣợc
phẩm loại B. Từ hộp này, lấy ngẫu nhiên ra 2 dƣợc phẩm.
Gọi A là biến cố lấy đƣợc hai dƣợc phẩm loại A;
B là biến cố lấy đƣợc hai dƣợc phẩm loại B.
C là biến cố lấy đƣợc 1 dƣợc phẩm loại A, 1
dƣợc phẩm loại B
a. Không gian mẫu  gồm C10
2
 45 biến cố sơ cấp
(45 phần tử).
b. Biến cố ngẫu nhiên A gồm C82  28 biến cố sơ cấp
(28 phần tử)
c. Biến cố ngẫu nhiên B gồm C 22  1 biến cố sơ cấp
(1 phần tử)
d. Biến cố ngẫu nhiên C gồm C18 .C12  16 biến cố
sơ cấp (16 phần tử)
2.2.3. Biến cố chắc chắn, biến cố không thể.
Biến cố chắc chắn là biến cố nào mà luôn chắc chắn xảy ra
trong phép thử là, kí hiệu: 
Biến cố không thể là biến cố nào mà không thể xảy ra trong
phép thử, kí hiệu: 
1.2.3 Phép toán trên biến cố
a) Quan hệ giữa các biến cố
Biến cố A đƣợc gọi là kéo theo biến cố B (kí hiệu A 
B) nếu A xảy ra kéo theo B cũng xảy ra.
Biến cố A và B đƣợc gọi là bằng nhau (kí hiệu A  B)
nếu A kéo theo B và B kéo theo A.

12
Ví dụ 1.13: Hộp thứ nhất đựng 10 chai thuốc, trong đó có 4
chai thuốc loại I và 6 chai thuốc loại II; hộp thứ hai đựng 8
chai thuốc, trong đó có 3 chai thuốc loại I và 5 chai thuốc
loại II. Lấy ngẫu nhiên mỗi hộp ra 1 chai thuốc.
Xét các biến cố:
A là biến cố lấy đƣợc 1 chai thuốc loại I ở hộp thứ nhất
và 1 chai thuốc loại II ở hộp thứ hai;
B là biến cố lấy đƣợc hai chai thuốc loại I;
C là biến cố lấy đƣợc hai chai thuốc cùng một loại;
D là biến cố lấy đƣợc hai chai thuốc khác loại.
Các kết quả sau, kết quả nào đúng:
a. Nếu A xảy ra thì D xảy ra
b. Nếu D xảy ra thì A xảy ra
c. Nếu B xảy ra thì C xảy ra
d. Nếu C xảy ra thì B xảy ra
e. Số phần tử của  bằng 80
f. Số phần tử của A bằng 20
g. Số phần tử của B bằng 12
h. Số phần tử của C bằng 42
i. Số phần tử của D bằng 38
b) Các phép toán trên biến cố
a. Phép cộng (hợp): Tổng của hai biến cố A và B, kí
hiệu A  B là biến cố xảy ra khi và chỉ khi ít nhất một
trong hai biến cố A, B xảy ra.
b. Phép nhân (giao): Tích của hai biến cố A và B, kí
hiệu A  B là biến cố xảy ra khi và chỉ khi cả hai biến cố
A, B đồng thời xảy ra.
c. Phép trừ: Hiệu của hai biến cố A và B, kí hiệu A\B là
biến cố xảy ra khi và chỉ khi biến cố A xảy ra mà biến cố
B không xảy ra.

13
d. Biến cố đối lập, biến cố xung khắc:
Ta gọi A =  \A là biến cố đối lập của biến cố A
Hai biến cố A, B gọi là xung khắc nếu A  B  
(A, B không đồng thời xảy ra)
Chú ý: Những tính chất của phép cộng, nhân và trừ
giống nhƣ các tính chất của phép hợp, giao và hiệu của lý
thuyết tập hợp.
Ví dụ 1.14: Hộp 1 đựng 10 lọ thuốc, trong đó có 2 lọ không
đạt chuẩn, 8 lọ đạt chuẩn; hộp 2 gồm 10 lọ thuốc, trong đó
có 1 lọ không đạt chuẩn, 9 lọ đạt chuẩn. Lấy ngẫu nhiên
mỗi hộp ra 1 lọ thuốc
Xét các biến cố:
A1 là biến cố lấy đƣợc lọ đạt chuẩn ở hộp 1
A2 là biến cố lấy đƣợc lọ đạt chuẩn ở hộp 2
A là biến cố lấy đƣợc 2 lọ đạt chuẩn
B là biến cố lấy đƣợc 1 lọ đạt chuẩn và 1 lọ không đạt
chuẩn.
Khi đó, đáp án nào đúng, đáp án nào sai:
a. A = A1  A2
b. Số phần tử của là 100
c. A, B xung khắc
d. Số phần tử của A là 72
1.3 ĐỊNH NGHĨA XÁC SUẤT
1.3.1 Định nghĩa xác suất cổ điển
Định nghĩa: Với không gian biến cố sơ cấp  hữu hạn
phần tử, các biến cố sơ cấp đồng khả năng. A là một biến
cố trong không gian  . Khi đó xác suất (khả năng) biến cố
n(A)
A xảy ra đƣợc xác định: P(A) 
n ( )

14
Trong đó:
n(A) số biến cố sơ cấp (phần tử) có trong A (Số trƣờng
hợp để A xảy ra)
n() là số biến cố sơ cấp (phần tử) của không gian 
(Tổng số trƣờng hợp có thể xảy ra của phép thử).
Ví dụ 1.15: Một lớp y khoa có 30 sinh viên và 20 sinh viên
nữ. Chọn ngẫu nhiên một sinh viên trong lớp này.
Ta thấy, khi chọn ngẫu nhiên một sinh viên trong lớp thì
mỗi sinh viên đều có khả năng đƣợc chọn là nhƣ nhau nên
không gian mẫu  có 50 kết quả (biến cố sơ cấp) đồng khả
năng có thể xảy ra.
Gọi A là biến cố sinh viên chọn ra là sinh viên nam, ta
có:
n( A) 30
P( A)    0,6
n() 50
n(A) 20
P(A)    0, 4
n() 50
Ví dụ 1.16: Một hộp đựng 6 vĩ thuốc nhóm I và 4 vĩ thuốc
nhóm II, lấy ngẫu nhiên từ hộp ra 3 vĩ thuốc. Khi đó:
a. Không gian biến cố sơ cấp có bao nhiêu phần tử.
b. Gọi B là biến cố lấy đƣợc 3 vĩ thuốc nhóm II. Tìm
P(B)
c. Gọi C là biến cố lấy đƣợc 3 vĩ thuốc cùng một nhóm.
Tìm P(C)
d. Gọi D là biến cố lấy đƣợc 3 vĩ thuốc không cùng một
nhóm. Tìm P(D)
Giải
a. Số phần tử của không gian biến cố sơ cấp là
n()  C103  120

15
n(B) C43
b. P ( B )    0,033
n() C103
n(C) C63  C43
c. P (C)    0, 2
n ( ) C103
n(D) C61C42  C62C41
d. P(D)    0,8
n () C103
1.3.2 Định nghĩa xác suất theo tần suất
Định nghĩa: Giả sử một phép thử có thể lặp lại n lần độc
lập, trong đó biến cố A xuất hiện m lần trong n lần thực
m
hiện phép thử. Khi đó ta gọi f  là tần suất xuất hiện
n
biến cố A. Khi số lần lặp n của phép thử càng lớn, tần suất
m
của biến cố A tiến về một số cố định p, ta nói biến cố A
n
ổn định ngẫu nhiên và p chính là xác xuất của biến cố A.
m
Và nhƣ vậy khi n đủ lớn ta có thể xấp xĩ p  , nghĩa là:
n
m
P( A) 
n
Ví dụ 1.17: Thống kê kết quả xổ số kiến thiết của một Tỉnh
với tổng số lần quay lòng cầu là 12715 lần, kết quả nhƣ sau
Số bóng Số lần Tỷ lệ
0 1266 9.96%
1 1305 10.26%
2 1224 9.63%
3 1276 10.04%
4 1251 9.84%
5 1289 10.14%
6 1262 9.93%
7 1298 10.21%

16
8 1253 9.85%
9 1291 10.15%
Tổng 12715 100%
Bảng thực nghiệm, cho thấy xác suất để một chữ số xuất
hiện xấp xỉ p = 10%. Theo công thức xác suất cổ điển, xác
suất để mỗi quả bóng rơi xuống lòng cầu trong một lần
quay lòng cầu là 10%. Bảng thống kê trên cho thấy tỷ lệ
xuất hiện của mỗi quả bóng cũng giao động quanh 10%.
Ví dụ 1.18: Để biết xác suất (khả năng) áp dụng một phác
đổ điều trị sẽ điều trị khỏi bệnh là bao nhiêu, ngƣời ta tiến
hành áp dụng phác đồ điều trị để điều trị cho n ngƣời bệnh,
với n đủ lớn (mỗi lần điều trị xem nhƣ thực hiện một phép
thử), sau đó ghi nhận số lần điều trị khỏi bệnh (giả sử có m
lần điều trị khỏi bệnh).
m
Khi đó: f  đƣợc xem là xác suất (khả năng) điều trị
n
khỏi bệnh của phác đồ điều trị này.
1.4 CÔNG THỨC TÍNH XÁC SUẤT
1.4.1 Công thức cộng
Xét trƣờng hợp có 2 biến cố A, B:
P(A  B) = P(A) + P(B) – P(A  B)
P(A  B) = P(A) + P(B), (nếu A, B xung khắc)
Xét trƣờng hợp có 3 biến cố A, B, C:
P(A  B  C) = P(A) + P(B) + P(C) – P(A  B) –
P(A  C) – P (B  C) + P(A  B  C)
Nếu A, B, C đôi một xung khắc thì
P(A  B  C) = P(A)+P(B)+P(C)
Tổng quát: Cho n biến cố ngẫu nhiên A1, A2,…, An trên
cùng không gian biến cố sơ cấp  . Khi đó:

17
n n
P( Ak )   P( Ak )   P( A  A )   P( A  A  A )  ...  (1)
k j k j l
n 1
P( A1  A2  ...  An )
k 1 k 1 1 k  j  n 1 k  j l  n

Nếu các biến cố A1, A2,…, An đôi một xung khắc thì
n n
P( Ak )   P( Ak )
k 1 k 1

Chú ý: Ta có thể sử dụng kí hiệu A + B thay cho A  B.


Ví dụ 1.19: Một hộp đựng 3 chai thuốc nhóm I và 5 chai
thuốc nhóm II, lấy ngẫu nhiên ra 3 chai thuốc.
Gọi A là biến cố lấy đƣợc 2 chai thuốc nhóm I và 1 chai
thuốc nhóm II;
B là biến cố lấy đƣợc 1 chai thuốc nhóm I và 2 chai
thuốc nhóm II
Tìm P(A), P(B), P(A  B)
Giải
C32 .C51
P( A)   0,2679
C83
C31.C52
P(B)   0,5357
C83
P(A  B) = P(A) + P(B) = 0,8036 (A, B xung khắc)
Ví dụ 1.20: Một công ty dƣợc chọn hai hình thức
quảng cáo: trên báo và trên truyền hình. Giả sử khách
hàng biết đƣợc thông tin quảng cáo của công ty trên
truyền hình là 35%; trên báo là 20%; cả hai hình thức
là 10%. Xác suất để chọn ngẫu nhiên một khách hàng
thì ngƣời đó biết đƣợc thông tin quảng cáo của công
ty.
Giải

18
Gọi A là biến cố khách hàng biết đƣợc thông tin
quảng cáo của công ty trên truyền hình.
B là biến cố khách hàng biết đƣợc thông tin quảng
cáo của công ty trên báo.
Khi đó ta có:
P( A  B)  P(A)  P(B)  P(A B)
= 35% + 20% -10% = 45%
1.4.2 Xác suất có điều kiện
Ta gọi P( A B) là xác suất của biến cố A với điều kiện biến
cố B đã xảy ra (hay còn gọi P( A B ) là xác suất của biến cố
A trên không gian điều kiện B) và nó đƣợc tính bởi công
n( A  B ) P ( A  B )
thức P( A B)  
n( B ) P( B)
Hai biến cố A và B gọi là độc lập nếu P ( A B )  P ( A) ;
P( B A)  P( B)
Ví dụ 1.21: Một xét nghiệm (XN) T dùng để chẩn đoán
bệnh B. Qua thống kê cho thấy, trong 20 ngƣời mắc bệnh,
XN T chẩn đoán đúng 18 ngƣời; trong 30 ngƣời không
mắc bệnh, XN T chẩn đoán đúng 27 ngƣời.
Gọi T+ là biến cố xét nghiệm T cho dƣơng tính; T- là
biến cố XN T cho âm tính.
B là biến cố mắc bệnh; B là biến cố không mắc bệnh

a. Tìm P(T+); P(T B) : là XS T cho dƣơng tính của


nhóm mắc bệnh
b. Tính P(B T ) : là XS mắc bệnh của nhóm có kết quả
XN dƣơng tính.

19
Giải
18 3 21
a. P(T ) 0, 42
50 50
18 9
P(T B) 0,9
20 10
18
b. P(B T ) 0,8571
21
1.4.3 Công thức nhân
Xét trƣờng hợp 2 biến cố A và B, từ công thức xác suất
điều:
P( A  B)  P( B) P( A B)  P( A) P( B A)
P( A B) P( A) P( B) (nếu A, B độc lập)
Tổng quát:

n
P( Ak )  P( A1 ) P( A2 A1 ) P( A3 A1  A2 )...P( An A1  ...  An 1 )
k 1
Nếu A1, A2,…, An là các biến cố độc lập thì:
n n
P( Ak )   P( Ak )
k 1 k 1

Chú ý: Ta có thể sử dụng kí hiệu A.B thay cho A  B


Ví dụ 1.22: Có hai lô dƣợc phẩm, lô 1 có 100 dƣợc phẩm
trong đó có 10 dƣợc phẩm không đạt tiêu chuẩn; lô 2 có 90
dƣợc phẩm trong đó có 5 dƣợc phẩm không đạt tiêu chuẩn.
a. Lấy ngẫu nhiên mỗi lô 1 dƣợc phẩm. Tìm xác suất
trong 2 dƣợc phẩm lấy ra có 1 dƣợc phẩm không đạt tiêu
chuẩn.
b. Lấy ngẫu nhiên 1 lô, rồi từ lô đó lấy ngẫu nhiên ra 2
dƣợc phẩm. Tìm xác suất trong 2 dƣợc phẩm lấy ra có 1
dƣợc phẩm không đạt tiêu chuẩn.

20
Giải
a. Gọi A là biến cố lấy đƣợc 1 dƣợc phẩm không đạt
tiêu chuẩn trong 2 dƣợc phẩm lấy ra
A1, A2 lần lƣợt là biến cố lấy đƣợc dƣợc phẩm không
đạt tiêu chuẩn từ lô thứ nhất và lô thứ hai
P( A)  P( A1 A2  A1 A2 )  P( A1 ) P( A2 )  P( A1 ) P( A2 )
10 85 90 5
     0,144
100 90 100 90
b. Gọi B là biến cố lấy đƣợc 1 dƣợc phẩm không đạt
tiêu chuẩn trong 2 dƣợc phẩm lấy ra
B1, B2 lần lƣợt là là biến cố chọn đƣợc lô thứ nhất và lô
thứ hai
P(B)  P( B1 ) P( B B1 )  P( B2 ) P( B B2 )
1 C101 C90
1
1 C51C85
1
  2   2  0,144
2 C100 2 C90
1.4.4 Công thức xác suất nhị thức (công thức Bernoulli)
Xét n phép thử độc lập (kết quả xảy ra hay không xảy ra
phép thử này không ảnh hƣởng đến kết quả xảy ra hay
không xảy ra của phép thử khác), mỗi phép thử ta chỉ quan
tâm đến hai biến cố A và A và P(A) = p (không đổi với
mỗi phép thử)
Xác suất để biến cố A xuất hiện k lần trong n phép thử
đƣợc xác định:
nk
P = P (n; k; A)= Cn p (1  p) , k = 0, 1, 2, …,n
k k

Ví dụ 1.23: Xác suất trị khỏi bệnh của một loại thuốc là
0,8. Dùng loại thuốc này điều trị cho 5 bệnh nhân. Tính
xác suất
a. Có 3 bệnh nhân khỏi bệnh.

21
A: biến cố khỏi bệnh với P(A) = 0,8
3 3 5 3
P(3; A) C 0,8 (1 0,8)
5 0, 2048
b. Có ít nhất 1 bệnh nhân khỏi bệnh.
C: biến cố có ít nhất 1 bệnh nhân khỏi
bệnh
P(C ) 1 P(C ) 1 C50 0,80 (1 0,8)5 0
0,99968
1.4.5 Công thức xác suất đầy đủ và công thức Bayes
a. Hệ đầy đủ các biến cố: Dãy n biến cố A1, A2,…, An lập
thành hệ đầy đủ nếu thỏa mãn 2 điều kiện sau:
i. A1  A2  …  An = 
ii. Ai  Aj = , i  j
Ví dụ 1.24: Ở một bệnh viện, bệnh nhân điều trị thuộc
nhóm bệnh A là 50%, nhóm bệnh B là 30% và nhóm bệnh
C là 20%. Rút ngẫu nhiên hồ sơ bệnh án của một bệnh
nhân đã điều trị tại bệnh viện.
Xét các biến cố:
A là biến cố rút ngẫu nhiên hồ sơ bệnh án của một bệnh
nhân nhóm bệnh A.
B là biến cố rút ngẫu nhiên hồ sơ bệnh án của một bệnh
nhân nhóm bệnh B.
C là biến cố rút ngẫu nhiên hồ sơ bệnh án của một bệnh
nhân nhóm bệnh C.
Khi đó  A, B, C là hệ đầy đủ các biến cố.
b. Công thức xác suất đầy đủ
Trong không gian  cho hệ đầy đủ các biến cố A1, A2,…,
An , A là một biến cố bất kỳ của  , Khi đó ta có:
P( A) P( A1 ) P( A A1 ) P( A2 ) P( A A 2 ) ... P( An ) P( A An )
c. Công thúc Bayes

22
Nếu P( A)  0 thì P( Ak A)  P( Ak ) P( A Ak ) , k = 1,2,…,n,
P ( A)
Ví dụ 1.25: Ở một bệnh viện, bệnh nhân điều trị thuộc
nhóm bệnh A là 50%, nhóm bệnh B là 30% và nhóm bệnh
C là 20%. Tỉ lệ bệnh nhân điều trị có phẫu thuật tƣơng ứng
là 1%, 2% và 5%. Rút ngẫu nhiên hồ sơ bệnh án của một
bệnh nhân đã điều trị tại bệnh viện.
a. Tính xác suất để hồ sơ này có phẫu thuật.
b. Nếu hồ sơ rút đƣợc là hồ sơ có phẫu thuật thì xác
suất hồ sơ này thuộc nhóm bệnh B là bao nhiêu?
Giải
Gọi B là biến cố rút hồ sơ bệnh án có phẫu thuật
B1, B2 , B2lần lƣợt là là biến cố rút hồ sơ bệnh án thuộc
nhóm bệnh A, B, C.
a. Áp dụng công thức xác suất đầy đủ, ta có:
P(B)  P( B1 ) P( B B1 )  P( B2 ) P( B B2 )  P( B3 ) P( B B3 )
 50% 1%  30%  2%  20%  5%  2,1%
b. Áp dụng công thức bayes, ta có:
P( B2 ) P( B B2 )
P (B2 B) 
P( B)
30%  2%
  28,57%
2,1%
1.5 XÁC SUẤT TRONG CHẨN ĐOÁN
Chẩn đoán: theo từ điển tiếng Việt thì chẩn đoán là xác
định bệnh dựa trên triệu chứng và kết quả xét nghiệm
(XN). Theo từ điển y khoa thì chẩn đoán là qui trình xác
định bản chất của một bệnh bằng cách xem xét các dấu
hiệu và triệu chứng của bệnh nhân và khi cần thiết, xem
xét kết quả các XN lâm sàng.

23
1.5.1 Phân biệt: bệnh trạng và kết quả xét nghiệm
Câu hỏi đặt ra, làm sao để biết một ngƣời có bệnh hay
không có bệnh, trạng thái bệnh và không bệnh là một hiện
tƣợng mà chúng ta khó quan sát đƣợc, cá biệt có trƣờng
hợp là không quan sát đƣợc. Vì khó quan sát (không quan
sát) trực tiếp đƣợc nên chúng ta phải dùng các phƣơng
pháp gián tiếp nhƣ X quang và XN bằng các phƣơng pháp
sinh hóa. Chẳng hạn nhƣ để biết một ngƣời có bệnh tiểu
đƣờng hay không thì có thể dùng XN phân tích máu và
phân tích nƣớc tiểu.
Kết quả XN cho hai kết quả âm tính và dƣơng tính, thực
tế dù phƣơng pháp XN có hoàn hảo và chính xác đến đâu
đi nữa thì vẫn có khả năng xảy ra sai sót. Chẳng hạn nhƣ
để chẩn đoán bệnh tiểu đƣờng, khi XN nƣớc tiểu có kết
quả dƣơng tính nhƣng thật sự ngƣời này không có bệnh
tiểu đƣờng, hay có kết quả âm tính nhƣng thật sự ngƣời
này có bệnh tiểu đƣờng.Tức là thực tế chúng ta có bốn khả
năng xảy ra: (1) có bệnh, kết quả XN dƣơng tính, đây là
dƣơng tính thật (sensitivity or true positive); (2) không có
bệnh, kết quả XN dƣơng tính, đây là dƣơng tính giả (false
positive); (3) không có bệnh, kết quả XN âm tính, đây là
âm tính thật (specificity or true negative); (4) có bệnh, kết
quả XN âm tính, đây là âm tính giả (false negative).
Kết quả XN Tình trạng “thật” của bệnh
Có bệnh Không có bệnh
Dƣơng tính Dƣơng tính thật Dƣơng tính giả
Âm tính Âm tính giả Âm tính thật
1.5.2 Độ nhạy (sensitivity), độ đặc hiệu (specificity), trị
số tiên đoán

24
Để đánh giá độ chính xác của một phƣơng pháp XN, thì
trong nghiên cứu thƣờng ƣớc tính tỉ lệ dƣơng tính thật, độ
nhạy (sensitivity probability) và tỉ lệ âm tính thật, độ đặc
hiệu (specificity probability).
Giả sử ta dùng phƣơng pháp XN T để chẩn đoán bệnh
B, gọi T+: kết quả XN dƣơng tính; T-: kết quả XN âm tính;
B: bệnh nhân mắc bệnh B.
Độ nhạy của XN: là xác suất XN T cho kết quả dƣơng
tính đối với ngƣời mắc bệnh: P(T  B)
Độ đặc hiệu (hay còn gọi là độ chuyên) của XN: Là xác
suất XN T cho kết quả âm tính đối với ngƣời không mắc
bệnh: P(T  B )
Độ nhạy và độ đặc hiệu của XN không cung cấp thông
tin về xác suất mà bệnh nhân mắc bệnh không mắc bệnh
này là bao nhiêu khi đã có kết quả XN là âm tính hay
dƣơng tính, nghĩa là chúng ta cần biết thêm về xác suất tiên
đoán dƣơng tính hay âm tính.
Xác suất tiên đoán: Là xác suất chẩn đoán ngƣời XN có
bệnh (không có bệnh) khi kết quả xét nghiệm T cho dƣơng
tính (âm tính ): P( B T  ) ; P( B T  ) .

P( B T  ) : giá trị tiên đoán dương tính hay giá trị của
phản ứng dƣơng tính (positive predictive value – PPV).
Theo công thức Bayes thì

 P( B  T  ) P( B) P(T  B)
PPV  P( B T )  
P(T  ) P( B) P(T  B)  P( B) P(T  B)
P( B T  ) : giá trị tiên đoán âm tính hay giá trị của phản
ứng âm tính (negative predictive value – NPV).

25
Theo công thức Bayes thì

 P( B  T  ) P( B) P(T  B)
NPV  P( B T )  
P(T  ) P( B) P(T  B)  P( B) P(T  B)
Hai chỉ số PPV và NPV phụ thuộc vào ba yếu tố là độ
nhạy, độ đặc hiệu và tỉ lệ hiện hành của bệnh (prevalence),
PPV là một chỉ số quan trọng trong chẩn đoán vì nó cung
cấp thông tin ta cần biết là khả năng bệnh nhân mắc bệnh
này khi đã có kết quả XN dƣơng tính là bao nhiêu? Tuy
nhiên, thực tế có thể chúng ta diễn giải nhầm là tỉ lệ dƣơng
tính thật là PPV, tức là nhầm lẫn giữa độ nhạy P(T  B) và
xác suất bệnh nhân sẽ mắc bệnh khi XN dƣơng tính
P( B T  ) .
Giá trị đúng của XN (phản ứng): là xác suất chẩn đoán
đúng sau khi xét nghiệm cho kết quả dƣơng tính hay âm
tính: P( B) P(T  B)  P( B) P(T  B)
Tóm lại, giả sử ta có một nghiên cứu trên n đối tƣợng
đƣợc cho trong bảng sau:
Kết quả Tình trạng “thật” của bệnh Tổng
XN Có bệnh Không có bệnh
Dƣơng tính A B a+b
Âm tính C D c+d
Tổng a+c b+d n=a+b+c+d
Độ nhạy (sensitivity) - tỉ lệ dương tính thật:
a
P(T  B) 
ac
Độ đặc hiệu( specificity)- tỉ lệ âm tính thật:

26
d
P(T  B ) 
bd
b
Tỉ lệ dương tính giả : P(T  B)   1  P(T  B)
bd
c
Tỉ lệ âm tính giả : P(T  B)   1  P(T  B)
ac
Giá trị tiên đoán dương tính (positive predictive value-PPV):
a
P( B T  ) 
ab
Giá trị tiên đoán âm tính (negative predictive value – NPV):
d
P( B T  ) 
cd
Giá trị đúng của XN (phản ứng):
ad
P( B) P(T  B)  P( B) P(T  B) 
n
Ví dụ 1.26: Phƣơng pháp chuẩn để chẩn đoán bệnh tiểu
đƣờng là phân tích máu. Nếu kết quả phân tích máu dƣơng
tính thì xem nhƣ bệnh nhân bệnh tiểu đƣờng và điều trị, kết
quả phân tích máu âm tính thì xem nhƣ bệnh nhân không
bệnh tiểu đƣờng. Ngƣời ta tiến hành nghiên cứu trên 1000
ngƣời XN bằng phƣơng pháp phân tích máu và phân tích
nƣớc tiểu, với số liệu nhƣ sau:
Kết quả XN Tình trạng “thật” của bệnh tiểu
phân tích đƣờng (kết quả XN phân tích máu) Tổng
nƣớc tiểu Có bệnh Không có bệnh
Dƣơng tính 10 30 40
Âm tính 160 800 960
Tổng 170 830 1000
Khi đó ta có các kết quả:

27
Độ nhạy - tỉ lệ dương tính thật :
a 10
P(T  B)    0,059
a  c 170
Độ đặc hiệu- tỉ lệ âm tính thật:
d 800
P(T  B)    0,964
b  d 830
Tỉ lệ dương tính giả :
P(T  B)  1  P(T  B)  1  0,964  0,036
Tỉ lệ âm tính giả :
c
P(T  B)   1  0,059  0,941
ac
Giá trị tiên đoán dương tính PPV:
a 10
P( B T  )    0, 25
a  b 40
Giá trị tiên đoán âm tính NPV:
d 800
P( B T  )    0,833
c  d 960
Giá trị đúng của XN:
a  d 10  800
P( B) P(T  B)  P( B) P(T  B)    0,81
n 1000
Qua kết quả phân tích, ta thấy phƣơng pháp XN bằng
phân tích nƣớc tiểu chỉ phát hiện 5,9% trong số những
ngƣời thật sự mắc bệnh tiểu đƣờng, nghĩa là 94,1% bệnh
nhân bệnh tiểu đƣờng khi XN phân tích nƣớc tiểu có kết
quả âm tính. Nhƣng XN phân tích nƣớc tiểu khá chính xác
khi tuyên bố bệnh nhân không mắc bệnh tiểu đƣờng, vì tỉ
lệ âm tính thật là 96,4% trong số những ngƣời thật sự
không mắc bệnh tiểu đƣờng.

28
Ví dụ 1.27: (Minh họa sự nhầm lẫn giữa P(T  B) và
P( B T  ) ).
Để chẩn đoán bệnh ung thƣ vú ở phụ nữ đã sinh con,
ngƣời ta dùng phƣơng pháp sinh thiết vú, giả sử phƣơng
pháp sinh thiết vú có độ nhạy 90% và độ đặc hiệu là 95%.
Ở một địa phƣơng có 100000 phụ nữ đã sinh con và qua
nghiên cứu dịch tễ học, biết rằng có khoảng 1% trong số
này mắc bệnh ung thƣ vú.
Ta có tỉ lệ bệnh 1%, tức là trong tổng số 100000 phụ nữ
này thì có 1000 phụ nữ bị ung thƣ vú và 99000 không bị
ung thƣ vú. Phƣơng pháp sinh thiết vú có độ nhạy 90%
nên trong số 1000 phụ nữ bị ung thƣ vú thì sẽ có
1000 x 90% = 900 phụ nữ sinh thiết vú có kết quả dƣơng
tính. Phƣơng pháp sinh thiết vú có độ đặc hiệu là 95% nên
trong số 99000 phụ nữ không bị ung thƣ vú thì sẽ có
99000 x 95% = 94050 phụ nữ sinh thiết vú có kết quả
dƣơng tính và 99000 – 94050 = 4950 phụ nữ có kết quả
dƣơng tính. Từ kết quả phân tích này, ta có thể tóm lại
bằng bảng sau:
Kết quả Tình trạng “thật” của bệnh
sinh thiết vú ung thƣ vú Tổng
Có bệnh Không có bệnh
Dƣơng tính 900 4950 5850
Âm tính 100 94050 94150
Tổng 1000 99000 100000
Nhƣ vậy, ta có tất cả là 5850 phụ nữ có kết quả sinh
thiết vú dƣơng tính, nhƣng trong số này chỉ có 900 thật sự
900
có bệnh ung thƣ vú, PPV  P( B T  )   15,3% . Nói
5850

29
cách khác xác suất mà phụ nữ này mắc bệnh ung thƣ vú là
15,3% ( chứ không phải là 90% = độ nhạy - tỉ lệ dƣơng
tính thật là 90%)
Ví dụ 1.28: Một bà 22 tuổi đến khám vì hồi hộp. Khám lâm
sàng không phát hiện đƣợc gì. Theo kinh nghiệm, trong
trƣờng hợp này bạn cho là khả năng 35% bị sa van tim
(MVP). Giả sử xét nghiệm (XN) T dùng để chẩn đoán
bệnh MVP có độ nhạy 80% và độ chuyên 90%. Cho bà này
làm XN T thì có kết quả dƣơng tính, khả năng bà này bị
MVP là bao nhiêu %?
Giải
Gọi B là biến cố ngƣời này mắc bệnh;
T  là biến cố XN T có kết quả dƣơng tính;
T  là biến cố XN T có kết quả âm tính;
Theo đề bài, ta có:

P( B)  0,35  P( B)  1  P( B)  1  0,35  0,65


P(T  B)  0,8
P(T  B)  0,9  P(T  B)  1  P(T  B)  1  0,9  0,1

 P( B  T  ) P( B) P(T  B)
P( B T )  
P (T  ) P ( B ) P (T  B )  P ( B ) P (T  B )
0,35  0,8
  0,812
0,35  0,8  0,65  0,1
Ví dụ 1.29: (hai XN nối tiếp nhau)
Có hai XN T1 và T2 dùng để chẩn đoán bệnh B; T1 có độ
nhạy 93% và độ đặc hiệu 95%; T2 có độ nhạy 97% và độ
đặc hiệu 90%. T1 dùng để sàn lọc những ngƣời có nguy cơ
bị bệnh B; T2 dùng để chẩn đoán bệnh này trên những

30
ngƣời mà T1 cho kết quả dƣơng tính. Một ngƣời đến từ khu
vực dân cƣ có tỉ lệ bệnh B là 0,1%. Cho ngƣời này làm XN
T1, kết quả XN T1 dƣơng tính. Cho ngƣời này làm tiếp xét
nghiệm T2, kết quả XN T2 cũng dƣơng tính. Tính xác suất
ngƣời này mắc bệnh B.
Giải
Xác suất ngƣời này mắc bệnh B sau khi kết quả XN T1
dƣơng tính:

 P( B  T1 ) P( B) P(T1 B)
P( B T )  
P(T1 ) P( B) P(T1 B)  P( B) P(T1 B)
1

0,1%  93%
  1,83%
0,1%  93%  (1  0,1%)  (1  95%)
Xác suất ngƣời này mắc bệnh B sau khi kết quả XN T2
dƣơng tính:

 P( B  T2  ) P( B) P(T2  B)
P( B T2 )  
P(T2  ) P( B) P(T2  B)  P( B) P(T2  B)
1,83%  97%
  15,31%
1,83%  97%  (1  1,83%)  (1  90%)

31
CHƢƠNG 2: BIẾN NGẪU NHIÊN VÀ LUẬT PHÂN
PHỐI XÁC SUẤT

Nội dung đƣợc trình bày trong chƣơng 2 bao gồm: Khái
niệm về biến ngẫu nhiên, phân loại biến ngẫu nhiên, các
tham số đặc trƣng của biến ngẫu nhiên và ý nghĩa của
chúng, quy luật phân phối xác suất của biến ngẫu nhiên.
Trình bày chi tiết một số dạng phân phối xác suất của biến
ngẫu nhiên rời rạc và liên tục. Đặc biệt, trình bày các ví dụ
vận dụng kiến thức về quy luật phân phối xác suất và các
tham số đặc trƣng của biến ngẫu nhiên trong lĩnh vực y
học.
2.1 KHÁI NIỆM BIẾN NGẪU NHIÊN (BNN)
BNN X là một hàm số xác định trên không gian biến cố sơ
cấp  và nhận giá trị trong R, x R tồn tại biến cố ngẫu
nhiên A sao cho A = {  : X (  ) < x}
BNN thƣờng kí hiệu: X, Y, Z,…
Tập giá trị của BNN X: là tập hợp tất cả các giá trị mà X
có thể nhận.
BNN rời rạc: BNN X đƣợc gọi là BNN rời rạc nếu tập giá
trị của X hữu hạn hoặc vô hạn đếm đƣợc.
BNN liên tục: BNN X đƣợc gọi là BNN liên tục nếu tập giá
trị của X dạng (a; b); [a; b); (a; b]; [a; b]
Chú ý: Nếu X, Y là các BNN thì  X  Y  ;  XY  ;  kX  (k là
X
hằng số), cũng là các BNN. Hơn nữa, một đa thức của
Y
BNN X, hàm liên tục của BNN X cũng là BNN.
Ví dụ 2.1: Giả sử một gia đình sinh ba đứa con, gọi X là số
con trai, khi đó X đƣợc gọi là BNN.

32
Gọi T là biến cố gia đình sinh con trai
G là biến cố gia đình sinh con gái
Không gian mẫu  = {TTT; TTG; TGT; GTT;
TGG; GTG; GGT; GGG}
Trên không gian  ta xác định một hàm X lấy giá
trị trên R nhƣ sau:
X:   R
  X (  ) : là số con trai
Ta thấy : X (GGG) = 0
X (TGG) = X (GTG) = X (GGT) = 1
X( TTG) = X (TGT) = X(GTT) = 2
X (TTT) = 3
Nhƣ vậy tập giá trị của X (  ) là { 0, 1, 2, 3}
Trong ví dụ trên X, ta cũng có thể biểu diễn BNN X
nhận giá trị trong tập số thực R: x R luôn tồn tại biến cố
A   : X ( )  x , cụ thể:
 x0 A
 0  x  1  A  GGG
 1  x  2  A  GGG; TGG; GTG; GGT 
 2  x  3  A  GGG;TGG; GTG; GGT ;TTG;TGT ; GTT 
 x  3 A 
Ví dụ 2.2: Một bệnh nhân cần phải tiến hành truyền máu,
giả sử tại bệnh viện có đội tình nguyện sẵn sàng cho máu
và có tỉ lệ nhóm máu phù hợp để truyền cho bệnh nhân này
60%. Chọn ngẫu nhiên 3 ngƣời (có hoàn lại), gọi X là số
ngƣời có nhóm máu phù hợp để truyền cho bệnh nhân. Khi
đó X là BNN và có tập giá trị là {0,1,2,3}
Gọi A là biến cố ngƣời đƣợc chọn có nhóm máu phù
hợp để truyền cho bệnh nhân, khi đó ta có không gian mẫu
33
 =  A A A ; A AA ; AA A ; A A A ; AAA ; A AA ; AA A ;
AAA }
Theo công thức bernoulli:
P( X  x)  C3x 0,6 x (1  0,6)3 x , x  0,1, 2,3
 P( X  0)  0,064; P( X  1)  0, 288
P( X  2)  0, 432; P( X  3)  0, 216
Ví dụ 2.3: Chiều cao; cân nặng; huyết áp; các kích thƣớc
đo đƣợc của cơ thể, của các cơ quan nội tạng … là các
BNN liên tục.
2.2 HÀM PHÂN PHỐI XÁC SUẤT VÀ HÀM MẬT
ĐỘ XÁC SUẤT
2.2.1 Bảng phân phối xác suất
Cho X là BNN rời rạc nhận các giá trị: x1 , x 2 ,..., x n ,... với
xác suất tƣơng ứng nhƣ sau:
X x1 x2 … xn
P(X = x i ) P1 P2 … Pn
Trong đó: P1 + P2 + … + Pn +… = 1
Bảng trên đƣợc gọi là bảng phân phối xác suất của
Ví dụ 2.4: Một gia đình có ba ngƣời con, giả sử xác suất
sinh con trai là 0,514.
Gọi X là số con trai của gia đình đó. Tìm bảng phân
phối xác suất của X.
Giải
Tập giá trị của X: {0; 1; 2; 3}
Áp dụng công thức bernoulli để tính xác suất, ta có:
P( X  x)  C3x 0,514 x (1  0,514)3 x , x  0,1, 2,3
Suy ra, P(X = 0) = 0,115; P(X = 1) = 0,364;
P(X = 2) = 0,385; P(X = 3) = 0,136

34
Bảng phân phối xác suất của X:
X 0 1 2 3
P 0,115 0,364 0,385 0,136
2.2.2 Hàm phân phối xác suất của BNN:
Định nghĩa: Cho X là BNN liên tục hoặc rời rạc, khi đó
luôn tồn tại P(X < x), x R và ta gọi F(x) = P(X < x) là
hàm phân phối xác suất của BNN X.
Nếu X là BNN rời rạc thì F ( x)   P( X  xi )
xi  x

Nếu X là BNN liên tục thì F ( x)   f ( x)dx




Đồ thị minh họa hàm phân phối xác suất


Tính chất của hàm phân phối xác suất:
i) 0  F ( x)  1 , x
ii) F(x) là hàm không giảm
iii) F(-) = 0 F(+) = 1
iv) P(a  X < b) = F(b) - F(a)
v) Nếu X là ĐLNN rời rạc thì F(x) có dạng bậc thang
vi) Nếu X là ĐLNN liên tục có hàm mật độ xác suất
f(x) thì F/(x) = f(x)
Ý nghĩa: Hàm phân phối xác suất F(x) phản ánh mức độ
tập trung xác suất về phía bên trái của điểm x.
Ví dụ 2. 5: Cho BNN X có bảng phân phối xác suất

35
X 1 2 3
P 0,5 0,2 0,3
Tìm hàm phân phối xác suất F(x) của X.
Giải
Ta có:
 P(), x  1
 P( X  1), 1  x  2

F ( x)  P( X  x)   P( X  xi )  
xi  x  P( X  1)  P( X  2), 2  x  3
 P( X  1)  P( X  2)  P( X  3), x  3

0, x 1
0,5, 1 x 2
F ( x)
0, 7, 2 x 3
1, x 3
Ví dụ 2.6: Cho BNN X có hàm phân phối xác suất
 0 khi x  0

 x2
khi 0  x  1
 2
F(x)   2
 x  2x  1 khi 1  x  2
 2

 1 khi x  2
và đồ thị của F(x):

2.2.3 Hàm mật độ xác suất của BNN:


Định nghĩa:

36
(i) Hàm mật độ xác suất của BNN rời rạc: Cho X là
BNN rời rạc nhận các giá trị: x1 , x2 ,..., xn ,... , hàm số f(x)
đƣợc gọi là hàm mật độ xác suất của X đƣợc xác định:
P(X = x) = f(x), x = x1, x2, …,xn, …
(ii) Hàm mật độ xác suất của BNN liên tục: Cho X là
BNN liên tục có hàm phân phối xác suất F(x). Hàm
số f (x) đƣợc gọi là hàm mật độ xác suất của X nếu nó thỏa
mãn:


t
F(t)= f ( x)dx, t  R


Tính chất của hàm mật độ xác suất:


i) Tại những điểm x làm cho f(x) liên tục thì F’(x)=f(x)

ii) 0  f ( x)  1, x và 

f ( x)dx  1

iii) P(a  X  b)  P(a  X  b)  P(a  X  b)


b
 P ( a  X  b)   f ( x)dx
a

 P( X  x0 )  0

 P( X   )  P(  X   )   f ( x)dx


 P( X   )  P(  X  )   f ( x)dx

 Nếu f(x) chỉ nhận giá trị trên [a; b] thì:


b

 f ( x)dx  1
a

Ví dụ 2.7: Trong một lô hàng có 200 chai thuốc, trong đó


có 20 chai thuốc không đạt tiêu chuẩn. Từ lô hàng, khách

37
hàng chọn ngẫu nhiên ra 30 chai thuốc để kiểm tra. Gọi X
là số chai thuốc không đạt tiêu chuẩn có trong 30 chai
thuốc lấy ra.
a. Tìm hàm mật độ xác suất cho X
b. Nếu trong 30 chai kiểm tra có không quá 5 chai thuốc
không đạt tiêu chuẩn thì khách hàng mua lô hàng đó. Tính
xác suất để lô hàng đƣợc mua
Giải
a. Hàm mật độ xác suất của X:
x 30 x
C20 .C180
f (x) P(X x)
C30
200

b. Xác suất lô hàng đƣợc mua:


x 30 x
5 C20 .C180
P(X 5) 0,9429
x 0
C30
200

Đồ thị minh họa phân phối BNN X trong ví dụ trên.


Ví dụ 2.8: Cho BNN liên tục có hàm mật độ xác suất

38
c  3x  x 2  , x  0,3
f (x)  
 0 , x   0,3
a) Xác định hằng số c.
b) Tính P(1  X  2) .

Giải
a) Ta có:
 0 3 

  0

1   f ( x).dx  f (x)dx  f (x)dx  f (x)dx
3
 
0 3 
9
  0dx   c(3x  x )dx  3 
2
0dx c
 0
2
2
Vậy: c 
9
b) Ta có:
2 2
2 13
P (1 < X < 2)   f(x) dx =  (3x  x 2 ) dx  .
1 1
9 27
2.3 CÁC THAM SỐ ĐẶC TRƢNG CỦA BIẾN NGẪU
NHIÊN
2.3.1 Kỳ vọng (trung bình)
Kỳ vọng là đặc trƣng cho giá trị trung tâm của BNN X và
đƣợc tính theo công thức:
xi P( X xi ), X rời rạc
k /h xi
E( X )
xf ( x)dx, X liên tục

Tính chất:
i) E(C) = C, (C hằng số)
ii) E(CX) = CE(X)

39
iii) Nếu X, Y có kỳ vọng thì E(X + Y) = E(X) + E(Y)
iv) Nếu X, Y độc lập và có kỳ vọng thì E(XY) = E(X)E(Y)
Ví dụ 2.9: Cho X là BNN rời rạc có bảng phân phối xác
suất sau:
X 5 6 7 8 9 10 11
P 1/12 2/12 3/12 2/12 2/12 1/12 1/12
Ta có:
7
1 2 3 2 2 1 1 93
E(X)   x i pi  5   6   7   8   9   10   11   7,75
i 1 12 12 12 12 12 12 12 12
Ví dụ 2.10: Cho X là BNN rời rạc có luật phân phối:
X 0 1 3 4 7 8
1 3 12 8 4 2
P
30 30 30 30 30 30
Ta có:
6
1 3 12 8 4 2
E ( X )   xi pi  0   1  3   4   7   8 
i 1 30 30 30 30 30 30
125 25
   4.17
30 6
Ví dụ 2.11: Cho BNN liên tục X có hàm mật độ xác suất:
3
  4x  x  , x   0, 4
2

f (x)   32

 0 , x   0, 4
Ta có:
 4
3
E(X)   xf (x)dx   x 32 (4x  x )dx
2

 0
4
3 4 3  x3 x 4 
32 0
 (4 x  x )dx 
2 3
4  
32  3 4 0

40
3  44 44  3 4  44  3  44 44
    2
32  3 4  2  42 3 4 2  43
2.3.2 Phƣơng sai
Phương sai là đại lƣợng đặc trƣng cho mức độ phân tán
của các giá trị của BNN X so với kỳ vọng và đƣợc tính
k /h
theo công thức: Var ( X )   2  E ( X   ) 2  E ( X 2 )   2
xi2 P( X xi ), X rời rạc
xi
Trong đó E ( X 2 )
x 2 f ( x)dx, X liên tục

Tính chất:
i) Var(C) = 0, (C hằng số)
ii) Var(CX) = C2Var(X)
iii) Nếu X, Y độc lập thì Var(X + Y) = Var(X) + Var(Y)
Ví dụ 2.12: Cho X là BNN rời rạc có bảng phân phối xác
suất sau:
X 1 3 5
P 0,1 0,4 0,5
Ta có: E(X) = 3,8
E(X2 )  12  0,1  32  0,4  52  0,5  16,2
Var(X) = E(X2) – [E(X)]2 = 16,2 – 3,82 = 1,76
Ví dụ 2.13: Cho X là BNN liên tục có hàm mật độ xác suất
sau:
cx 3 x   0,3
f (x)  
0 x   0,3
Tìm hằng số c, E(X), Var(X)

41
Giải
3
 x 4  81c
3
4
Ta có: 1   cx dx  c    3
c
0  4 0 4 81
3
4 3
E(X)   x x dx  2,4
0
81
3
4 3
E(X )   x 2
2
x dx 6
0
81
Var(X) = E(X2) – [E(X)]2 = 6 – 2,42 = 0,24
2.3.3 Mode
Mode của BNN X là giá trị của BNN X mà tại đó có
xác suất lớn nhất, kí hiệu xmod hay Mod(X). Đối với BNN
rời rạc, mod(X) là giá trị của X ứng với xác suất lớn nhất.
Còn đối với BNN liên tục thì mod(X) là giá trị của X tại đó
hàm mật độ đạt giá trị cực đại. Một BNN có thể có 1 mode
hoặc nhiều mode.
Ví dụ 2.14: X là BNN rời rạc có luật phân phối:
X 0 1 3 4 7 8
1 3 12 8 4 2
P
30 30 30 30 30 30
12
Ta thấy P(X  3)   max => mod(X) = 3.
30
Ví dụ 2.15: Cho BNN liên tục có hàm mật độ xác suất

2
  3x  x  , x   0,3
2

f (x)   9

 0 , x   0,3

42
3
Khi đó Mod(X)  X mod 
2
2.3.4 Trung vị
Trung vị (Median) là giá trị của BNN X (kí hiệu Med(X)
1
hay xMed) sao cho: P( X xMed ) P( X xMed )
2
Ví dụ 2.16: Cho X có hàm phân phối xác suất
0, khi x 0
F(x) x, khi 0 x 1
1, khi x 1
0, khi x 0 hay x 1
f ( x)
1, khi 0 x 1
Khi đó:
E (X) 1
2
Var(X) 1
12
X Mod 0,1 ; X Med 1
2
2.3.5 Phân vị mức 
Định nghĩa: Phân vị mức  của BNN liên tục X là giá trị

X  thỏa mãn P (X > X  )   hay 
X
f ( x)dx  

Ví dụ 2.17: Cho BNN X liên tục có hàm mật độ xác suất:


2
  3x  x  , x   0,3
2

f (x)   9

 0 , x   0,3
Tìm X 20 .
27

Giải

43
Đặt X = X20 ;  0 < X  3 , ta có:
27

3
9 x 2  2 x3
3

 9 3x  x  dx  27  27
2 20 20
2

X X
27

X 
2
(9  2 X  ) 20
1  
27 27
 X  1
 2  X   9  X   7  0  
3 2

 X  7  105
  4
 X   X20  1 .
27

2.4 MỘT SỐ PHÂN PHỐI XÁC SUẤT CỦA BIẾN


NGẪU NHIÊN RỜI RẠC
2.4.1 Phân phối Bernoulli, X ~ Ber(p)
Một phép thử Bernoulli có kết quả nhận đƣợc là một trong
hai giá trị hoặc "thành công" hoặc "thất bại". "Thành công"
xảy ra với xác suất là p, "thất bại" với xác suất là q = 1 – p.
Tham số p là số thực nằm giữa 0 và 1. Một BNN X có
phân phối Bernoulli nhận một trong 2 giá trị: 1 (thành
công) hoặc 0 (thất bại). Xác suất thành
công P( X  1)  p , và xác suất thất bại P( X  0)  1  p .
Các tham số đặc trưng:
Nếu BNN X có phân phối nhị thức, X ~ Ber(p) thì
i) E(X) = p
ii) Var(X) = p(1 – p)
Ví dụ 2.18: Gọi X là kết quả từ thí nghiệm tung đồng xu
cân đối, nếu đồng xu xuất hiện mặt sấp ta cho X = 1,

44
ngƣợc lại nếu X xuất hiện mặt ngửa thì cho X = 0. Ta
1 1 1
có P( X  1)  P( X  0)  ; E ( X )  ; Var ( X )  .
2 2 4
2.4.2 Phân phối nhị thức, X ~ B(n,p)
Định nghĩa: Xét phép thử Bernoulli có hai kết quả xảy ra
đối lập nhau là A và A , xác suất xảy ra biến cố A là p,
P(A) = p (không thay đổi). Ta tiến hành thực hiện n phép
thử độc lập với nhau, gọi X là số lần xảy ra biến cố A trong
n lần thực hiện phép thử. Khi đó, BNN X đƣợc gọi là có
phân phối nhị thức và hàm mật độ xác suất có dạng:
f (x)  P(X  x)  Cn x p x 1  p  ; x  0;1; ;n
n x

Nhận xét: Trong phân phối nhị thức, nếu n khá lớn và xác
suất p không quá gần 0 và 1 thì ta có công thức xấp xỉ:
 b  np   a  np 
P( a  X  b) =     
 np(1  p) 
;
 np(1  p) 
   
tx 2
1
 (x)  
2 0
e 2 dt

Chú ý: Hàm  (x) là hàm lẻ và giá trị của hàm (x) tra
bảng phụ lục 1.
Các tham số đặc trưng:
Nếu BNN X có phân phối nhị thức, X ~ B(n,p) thì
i) E(X) = np
ii) Var(X) = np(1-p)
iii) Mod(X) = [(n+1)p], (phần nguyên)
Ví dụ 2.19: Tỉ lệ viên thuốc không đạt tiêu chuẩn trong 1 lô
hàng là 3%. Lấy ngẫu nhiên lần lƣợt 100 viên thuốc ra để
kiểm tra (lấy có hoàn lại). Gọi X là số viên thuốc không
đạt tiêu chuẩn trong 100 viên thuốc lấy ra.

45
a) X có luật phân phối gì?
b) Tính P(0  X  3).
Giải
a) Mỗi lần kiểm tra một viên thuốc là thực hiện một phép
thử, lấy lần lƣợt 100 viên thuốc ra để kiểm tra, ta xem nhƣ
thực hiện 100 phép thử độc lập. Xác suất để viên thuốc lấy
ra là viên thuốc không đạt tiêu chuẩn là p = 3% . khi đó, ta
có X là BNN có phân phối nhị thức với n = 100 và p =3%,
tức là X~B(100; 0,03).

Đồ thị minh họa phân phối nhị thức trong ví dụ trên ( với
n = 100 và p =3%)
3
b) P(0  X  3) =  PX  x 
xi 0
i

3
=  C100
x
(0,03) x (0,97)100 x = 0,647
x 0

Ví dụ 1.20: Bài toán xét nghiệm gộp mẫu (XNGM)


Tại nhiều quốc gia trên thế giới phƣơng pháp XNGM
trong xét nghiệm (XN) sàng lọc SARS-CoV-2 hiện đang
đƣợc áp dụng nhằm đạt đƣợc mong muốn thực hiện ít XN

46
hơn nhƣng vẫn đảm bảo sàng lọc đƣợc tất cả ca bệnh. Theo
đó, thực hiện XNGM là phƣơng thức XN lấy một phần của
mỗi trong các mẫu để đƣa vào gộp và tách chiết, xét
nghiệm, phần còn lại của các mẫu đƣợc bảo quản để XN
riêng rẽ lại lần 2 nếu XNGM dƣơng tính. Nếu mẫu gộp cho
kết quả âm tính có nghĩa là các mẫu đơn trong mẫu gộp
đều âm tính, nếu mẫu gộp cho kết quả dƣơng tính thì có ít
nhất 1 mẫu đơn dƣơng tính và phải tiến hành làm lại XN
RT-PCR riêng rẽ từng mẫu đơn trong mẫu gộp đó để xác
định đâu là mẫu bệnh. Thực hiện XNGM có lợi hơn XN
mẫu đơn hay không? Cụ thể, giả định cần XN sàng lọc
SARS-CoV-2 cho 10000 ngƣời với tỉ lệ mắc bệnh là 2% và
cỡ gộp mẫu 10 ngƣời, số lần XN trung bình theo hình thức
XNGM và XN mẫu đơn là bao nhiêu?
Giải
Ta cần XN cho 10000 ngƣời, tỉ lệ mắc bệnh là 2%, cỡ
gộp mẫu 10 ngƣời. Gọi Y là số XN theo hình thức XNGM
(bao gồm cả XN lại đối với trƣờng hợp XNMG dƣơng
tính) , số lần XN Y đƣợc xác định bởi:
Y = 1000 + 10X, với X là số lần XN theo hình thức
XNGM có kết quả dƣơng tính.
Ta có X là BNN có phân phối nhị thức
X N(n,p); n  1000, p  1  0,9810 (1 - xác suất tất cả 10
ngƣời của mẫu gộp đều âm tính)
E(Y)  E(1000  10X)  1000  10E(X)
 1000  10  1000  (1  0,9810 )  2830 (XN)

47
Đồ thị minh họa phân phối nhị thức trong ví dụ trên
(n = 1000 và p = 18,3%)
Ví dụ 2.20: Một máy sản xuất 200 dƣợc phẩm trong một
ngày, xác suất dƣợc phẩm sản xuất ra bị lỗi là 5%. Tìm số
dƣợc phẩm bị lỗi trung bình và số sản phẩm bị lỗi có khả
năng tin chắc do máy này sản xuất ra trong một ngày.
Giải
Gọi X là số dƣợc phẩm bị lỗi do máy này sản xuất ra trong
một ngày, X có phân phối nhị thức với n = 200 và p = 5%,
X ~ B(200; 0,05).
Số dƣợc phẩm bị lỗi trung bình do máy này sản xuất ra
trong một ngày là:
E(X) = np = 200  0,05 = 10
Số dƣợc phẩm bị lỗi tin chắc do máy này sản xuất ra trong
một ngày là mod(X). Ta có:
Mod(X) = [(n+1)p] = [(200 + 1)  0,05] = [10,5] = 10.

48
Đồ thị minh họa phân phối nhị thức trong ví dụ trên (với
n = 200 và p = 5%)
Ví dụ 2.21: Một nhà máy sản xuất thuốc với tỉ lệ thuốc loại
A là 20%. Nếu lấy ngẫu nhiên 400 vĩ thuốc.
a) Tính xác suất để đƣợc từ 60 đến 80 vĩ thuốc loại A.
b) Tính xem trung bình có bao nhiêu vĩ thuốc loại A
trong 400 vĩ thuốc lấy ra.
Giải
Gọi Y là số vĩ thuốc loại A có trong 400 vĩ thuốc lấy
ra, Y có phân phối nhị thức với n = 400 và p = 20%, Y ~
B(400 ;0,2)
a) Do n = 400, 0 << p = 0,2 << 1 nên ta có thể áp dụng
công thức xấp xỉ:
 80  400  0, 2   60  400  0, 2 
P(60  Y  80)       
 400  0, 2  0,8   400  0, 2  0,8 
   0     2,5     0     2,5   0  0, 4938  0, 4938
b) E(Y) = np = 400  0,2 = 80
Vậy trung bình có 80 vĩ thuốc loại A trong 400 vĩ
thuốc lấy ra.

49
Đồ thị minh họa phân phối nhị thức trong ví dụ trên (với
n = 400; p = 20%)
2.4.3 Phân phối Poison, X ~ P(  )
Định nghĩa: Cho X là BNN có phân phối nhị thức với
tham số n và p. Nếu số phép thử n khá lớn, xác suất p khá
nhỏ và np =  (hằng số) thì
x
P(X  x)  Cn x p x (1  p) n x  e .
x!
Khi đó BNN X đƣợc gọi là có phân phối Poison với hàm
mật độ xác suất có dạng:
x
f (x)  P(X  x)  e   , x  1;2; ;n
x!
Mối liên hệ giữa phân phối nhị thức và phân phối Poisson:
Cho X là BNN có phân phối nhị thức B(n,p), nếu n khá lớn
và p khá nhỏ, np =  (hằng số) thì
x
Cn p (1  p)
x x n x
 e   , tức là:
x!
n x
Nếu np n  , p n 0 thì P( X  x)  Cnx p x (1  p)n x   e 
x!

50
Các tham số đặc trưng:
Nếu BNN X có phân phối posion, X ~ P(  ) thì
i) E(X) = Var(X) = 
ii)  – 1  mod(X)   hay mod(X) = [  – 1]
Ví dụ 2.22: Một đợt tiêm chủng cho 1000 trẻ, xác suất trẻ
tiêm chủng bị phản ứng thuốc là 0,2%. Tính xác suất để
trong 1000 trẻ đƣợc tiêm chủng có không quá 2 trẻ bị phản
ứng thuốc.
Giải
Vì n khá lớn, n =1000; p = 0,2%  np = 1000  0,2% = 2
Mỗi trẻ đƣợc tiêm chủng xem nhƣ là một phép thử, ta
có 1000 phép thử độc lập.
Gọi X là trẻ bị phản ứng thuốc trong 1000 trẻ đƣợc
tiêm chủng thì X có phân phối nhị thức với n = 1000 và p
= 0,2%, X ~ B(1000; 0,2%). Nhƣng vì n khá lớn và np = 2
(hằng số) nên X có phân phối phối possion, X  P(2)
Ta có: P(0  X  2) = P(X = 0) + P(X = 1) + P(X = 2)
20 2 21 2 22 2
= e + e + e = 0,677
0! 1! 2!

51
Đồ thị minh họa phân phối possion trong ví dụ trên ( với
λ = 2)
2.4.4 Phân phối siêu bội, X ~ H(N, M, n)
Định nghĩa: Cho tập hợp có N phần tử trong đó có M phần
tử có tính chất T, lấy ngẫu nhiên ra n phần tử. Gọi X là số
phần tử có tính chất T có trong n phần tử lấy ra. Khi đó,
BNN đƣợc gọi là có phân phối siêu bội và có hàm mật độ
xác suất có dạng:
x
CM CnNxM
f (x)  P(X  x)  ; x  0;1;2; ;n
CnN
Mối liên hệ giữa phân phối nhị thức và phân phối siêu bội:
Nếu n << N (số phần tử lấy ra nhỏ hơn rất nhiều so với
tổng số phần tử) thì
x
CM .C nNxM n x M
 C n p (1  p)
x x
n
với p =
CN N

Đồ thị minh họa phân phối nhị thức với n = 3; p = 60% (bên trái)
và phân phối siêu bội với N = 100; M = 60; n = 3 (bên phải)
Các tham số đặc trưng:
Nếu BNN X có phân phối siêu bội, X ~ H(N;M;n) thì
i) E(X) = np và

52
N n  M
ii) Var ( X )  np(1  p) với  p  
N 1  N
Ví dụ 2.23: Một lô hàng gồm có 10 thùng thuốc, trong đó
có 4 thùng thuốc nhóm A. Lấy ngẫu nhiên 4 thùng thuốc từ
lô hàng, tính xác suất để có 2 thùng thuốc nhóm A.
Giải
Gọi X là số thùng thuốc nhóm A trong 4 thùng thuốc lấy
ra, khi đó X là BNN có phân phối siêu bội với tham số N =
10, M = 4 và n = 4.
C24C62
P(X  2)  4
 0, 4286
C10

Đồ thị minh họa phân phối siêu bội trong ví dụ trên


(với N = 10; M = 4; n = 4)
Ví dụ 2.24: Một trƣờng Đại học Y dƣợc có 10000 sinh
viên, trong đó có 1000 sinh viên có điểm trung bình tích
lũy không đạt. Một Đoàn thanh tra đến trƣờng, chọn ngẫu
nhiên 100 sinh viên để kiểm tra. Tính xác suất để có 20
sinh viên có điểm trung bình tích lũy không đạt.

53
Gọi X là số sinh viên có điểm trung bình tích lũy không
đạt trong 100 sinh viên đƣợc chọn ra. Ta có: X ~ H(10000;
20 80
C1000C 9000
1000; 100)  P( X  20)  100
C10000
Vì N = 10000 rất lớn, n = 100 << 10000 = N nên X xấp
xỉ phân phối nhị thức: X ~ B(100; 0,1) với
 0,1  P( X  20)  C100  0,1 1  0,1
M 1000 20 80
p 
20

N 10000
Ví dụ 2.25: Một hộp thuốc có 52 viên thuốc, trong đó có 4
viên thuốc trị bệnh B. Từ hộp lấy ngẫu nhiên 3 viên thuốc,
gọi X là số viên thuốc trị bệnh B trong 3 viên thuốc lấy ra,
tính E(X) và Var(X).
Giải
M 4 1
Ta có: X  H(52, 4, 3)  p =  
N 25 13
1 12
 q=1–p=1– 
13 13
1
Ta đƣợc: E(X) = np = 3  0, 231 .
13
Nn 1 12 52  3
Var(X) = npq 3    0,051 .
N 1 13 13 52  1

54
Đồ thị minh họa phân phối siêu bội trong ví dụ trên
(với N = 52; M = 4; n = 3)
2.5 MỘT SỐ PHÂN PHỐI XÁC SUẤT CỦA BIẾN
NGẪU NHIÊN LIÊN TỤC
2.5.1 Phân phối chuẩn, X ~ N(μ;  2 )
Định nghĩa: BNN X đƣợc gọi là có phân phối chuẩn nếu
( x  )2
1 
hàm mật độ xác suất có dạng: f (x)  e 2 2
với
 2
μ là hằng số,  hằng số dương
Nếu μ = 0 và  = 1 thì BNN liên tục X đƣợc gọi là có phân
phối chuẩn tắc.
Lưu ý: Nếu BNN X có phân phối chuẩn, X ~ N(μ,  2 ) thì
X
BNN Z = có phân phối chuẩn tắc, Z ~ N(0,1).

55
Đồ thị minh họa phân phối chuẩn tắc với μ = 0 và  = 1

Đồ thị minh họa phân phối chuẩn với μ = 50 và  = 5


Các tham số đặc trưng:
Nếu BNN X có phân phối chuẩn X ~ N(μ; 2) thì
E(X) = Mod(X) = μ và Var(X) =  2 .
Một số công thức tính xác suất:
Cho BNN X có phân phối chuẩn, X ~ N(μ ,  2 ), ta có:
x   x1   
a. P(x1  X  x 2 )    2    
     
56
 
b. P  X       2  
 
Suy ra:
P  X       68%; P  X    2   95%; P  X    3   99.99%

x
c. P(X  x)  0,5    
  
x
d. P(X  x)  0,5    
  
Ví dụ 2.26: Trọng lƣợng của trẻ sơ sinh là BNN X(kg) có
phân phối chuẩn, với trọng lƣợng trung bình là 3,3kg và độ
lệch chuẩn 0,3kg.
a) Tìm tỉ lệ trẻ sơ sinh trong dân số có trọng lƣợng từ
2,5kg đến 3,9kg.
b) Tìm tỉ lệ trẻ sơ sinh trong dân số có trọng lƣợng nhỏ
hơn 2,5kg.
Giải
Theo đề bài BNN X có phân phối chuẩn, X ~ N(μ ,  2 )
với μ = 3,3kg và   0,3 kg
a) Áp dụng công thức:
x   x1   
P(x1  X  x 2 )    2    
     
 3,9  3,3   2,5  3,3 
 P(2,5  X  3,9)       
 0,3   0,3 
   2    2,67   0,4772  (0,4962)  0,9734
Vậy tỉ lệ trẻ sơ sinh trong dân số có trọng lƣợng từ 2,5kg
đến 3,9kg là 97,34%

57
b) Áp dụng công thức: P(X  x)  0,5    x   
  
 2,5  3,3 
 P(X  2,5)  0,5    
 0,3 
 0,5    2,67   0,5  (0,4962)  0,0038
Vậy tỉ lệ trẻ sơ sinh trong dân số có trọng lƣợng nhỏ hơn
2,5kg là 0,38%

Đồ thị minh họa phân phối chuẩn trong ví trên


(với μ = 3,3 và  = 0,3)
Ví dụ 2.27: Lãi suất đầu tƣ vào một Công ty dƣợc là BNN
có phân phối chuẩn N( , 2 ) , biết xác suất để đạt đƣợc lãi
suất trên 20%/ 1 năm là 0.2 và dƣới 10%/ 1 năm là 0.1.
a) Tìm kỳ vọng μ và phƣơng sai  2 .
b) Tính xác suất để khi đầu tƣ vào công ty dƣợc đó
đƣợc lãi suất ít nhất 14%/1 năm.
Giải:
 10   
a) Ta có: P  Y  10   0.5      0.1
  
   1.28  10 (1)

58
 20   
P  Y  20   1  P  Y  20   0.5      0.2
  
   0.84  20 (2)
Giải hệ (1) và (2):   16;   4.7
 14  16 
b) P  Y  14   1  P  Y  14   0.5      0.67
 4.7 

Đồ thị minh họa phân phối chuẩn trong ví dụ trên


(với μ = 16 và  = 4,7)
2.5.2 Phân phối mũ, X ~ Exp(  )
Định nghĩa: BNN X được gọi là có phân phối mũ nếu hàm
mật độ xác suất dạng:
f (x)   e   x ; ( x  0,   0 )
Các tham số đặc trưng:
Nếu BNN X có phân phối mũ, X ~ Exp(  ) thì
1
i) E(X) =

1
ii) Var(X) = .
2

59
Ví dụ 2.28: Giả sử tuổi thọ (năm) của một thiết bị y tế là
BNN có phân phối mũ với tuổi thọ trung bình là 6,25
1
(  6, 25 ). Thời gian bảo hành của thiết bị y tế này là 5

năm. Tính xác suất để thiết bị y tế này bán ra bị lỗi trong
thời gian bảo hành?
Giải
Gọi X là tuổi thọ của thiết bị y tế này.
5 1
1  6,25 x
 P(X  5) =  e dx
0
6, 25
1 5 1
 x  5
= e 6,25
= (e 6,25
 1)  50,07%
0

Vậy có khoảng 55,1% thiết bị y tế bán ra bị lỗi trong thời


gian bảo hành.

Đồ thị minh họa phân phối mũ trong ví dụ trên


(với λ = 0,16)

60
2.5.3 Phân phối đều, X ~ U[a;b]
Định nghĩa: BNN X đƣợc gọi là có phân phối đều (liên
tục) trên đoạn [a; b] nếu có hàm mật độ xác suất:
1
f (x)  , x   a,b  .
ba
Các tham số đặc trưng:
ab (b  a) 2
Nếu X ~ U[a;b] thì E(X) = và Var(X) =
2 12
Ví dụ 2.29: Một loại dƣợc phẩm do một nhà máy đƣợc
đóng thành từng hộp. Trọng lƣợng của hộp là BNN X. Cho
biết X ~ U(19,9; 20,1) (đơn vị tính là gram). Tính trọng
lƣợng trung bình của một hộp và tỉ lệ hộp có trọng lƣợng
nhỏ hơn 19,95g.
Giải
Trọng lƣợng trung bình của một hộp thuốc chính là:
19,9  20,1
E( X )   20 g
2
Tỉ lệ hộp có trọng lƣợng nhỏ hơn 19,95g là:
19,95 19,95
1
P( X  19,95)   dx   5dx  5 x 19,9  0,25
19,95

19,9
20,1  19,9 19,9

Vậy tỉ lệ hộp có trọng lƣợng nhỏ hơn 19,95g là 25%

61
Đồ thị minh họa phân phối đều trong ví dụ trên
U[19,9; 20,1]
2.5.4 Phân phối Student, T  T(n)
Định nghĩa: Cho BNN U  N(0,1),  2   2 (n) , trong đó
U và  2 độc lập nhau. Khi đó biến ngẫu nhiên:
U U n
T  đƣợc gọi là có luật phân phối
X2 X2
n
Student bậc tự do n.
Các tham số đặc trưng:
n
Nếu T  T(n) thì E(T) = 0 và Var(T )  .
n2

62
Đồ thị minh họa phân phối student với bậc tự do n = 5

Đồ thị minh họa phân phối student với bậc tự do n = 29


2.5.5 Phân phối chi binh phƣơng,  2 ~  2 (n)
Định nghĩa: Cho các BNN X i , i = 1;2; ;n độc lập và
n
cùng có phân phối chuẩn tắc. Khi đó BNN  2   X i2
i 1

63
đƣợc gọi là có phân phối khi bình phƣơng, bậc tự do n với
x n
1
e 2x2
hàm mật độ xác suấ là: f (x)  , x 0
2 2   n2 
n


Trong đó hàm (u )   t u 1.e  t dt gọi là hàm Gamma,
0

(1) = 1,  (u+1) = u. (u)


Các tham số đặc trưng: Nếu  2   2 (n) thì E (  2 )  n và
Var(  2 )  2n .

Đồ thi minh họa phân phối chi bình phương với bậc tự do
n = 10; n = 30; n = 50
2.5.6 Phân phối Fisher, X ~ F(m,n)
Định nghĩa: Cho hai BNN độc lập X~  2 (m) , Y~  2 (n) ,
X n
khi đó phân phối của BNN F= . đƣợc gọi là phân
m Y
phối Fisher và có hàm mật độ xác suất

64
mn
(
n
) n 1
2 n 2 x2
f ( x)  .( ) . m n
, x >0
m n m n
( ).( ) (1  ) 2
2 2 m
với m, n là hai tham số (bậc tự do) của phân phối Fisher

Đồ thi minh họa phân phối Fisher với bậc tự do (5;8) và (5;10)
Các tham số đặc trưng:
n2
Nếu X ~ F(m,n) thì E(X) = và
n2  2
2n22  n1  n22  2 
Var(X) =
n1  n2  2   n2  4 
2

2.5.7 Phân phối Gamma, X ~ G ( ,  )


Định nghĩa: BNN X đƣợc gọi là có phân phối Gamma nếu
hàm mật độ xác suất của nó có dạng:
x
1 
 1 
f ( x)  x e , với x >0
( )  


x
t 1  x
Trong đó: (t )  e dx , với t > 0 là hàm Gamma
0

65
 ,  gọi là hai tham số của phân phối Gamma
Áp dụng phƣơng pháp tích phân từng phần ta có:
(t  1)  t.(t ) , với t >0
Chú ý: Hàm Gamma có mối liên hệ với giai thừa trong
điều kiện tham số của nó là số nguyên, (n)   n  1!
Các tham số đặc trưng: Nếu X ~ G ( ,  ) thì E(X) =  ;
Var(X) =  2 .

Đồ thi minh họa phân phối Gamma


2.5.8 Phân phối Beta, X ~ B ( ,  )
Định nghĩa: Phân phối beta là một phân phối liên tục đƣợc
xác định bởi hàm mật độ xác xuất:
(   )  1
f ( x)  x (1  x)  1
( )(  )
Với  ,  là hai tham số (không âm) của phân phối Beta
Các tham số đặc trưng: Nếu X ~ B ( ,  ) thì E ( X )  
 

và Var ( X )   .
        1
2

66
Đồ thi minh họa phân phối Beta
2.5.9 Hàm phân phối Weibull, X ~ W ( ,  )
Định nghĩa: Hàm phân phối Weibull là hàm phân phối liên
tục đƣợc xác định bởi hàm mật độ xác suất:

 1 x
x  
 
f ( x) 
   
e

Với  ,  gọi là hai tham số (không âm) của


phân phối Weibull
Các tham số đặc trưng: Nếu X ~ W ( ,  ) thì
2
 1  2   1 
E ( X )    1   và Var ( X )    1       1    .
       

Đồ thi minh họa phân phối Weibull


67
CHƢƠNG 3: ƢỚC LƢỢNG THAM SỐ
THỐNG KÊ

Nội dung đƣợc trình bày trong chƣơng 3 bao gồm: Một
số khái niệm cơ bản về thống kê; những vấn đề liên quan
đến tổng thể và mẫu, bài toán ƣớc lƣợng tham số thống kê
của tổng thể bằng phƣơng pháp ƣớc lƣợng điểm và ƣớc
lƣợng khoảng; đƣa ra phƣơng pháp tìm khoảng ƣớc lƣợng
(hay khoảng tin cậy) đối với một số tham số thống kê
thƣờng gặp nhƣ kỳ vọng, phƣơng sai và tỉ lệ. Đặc biệt,
trình bày các ví dụ vận dụng phƣơng pháp ƣớc lƣợng
khoảng để tìm khoảng tin cậy cho một số chỉ số y học.
3.1 TỔNG THỂ VÀ MẪU
Chúng ta cần nghiên cứu tính chất định tính hoặc định
lƣợng của các phần tử trong một tập hợp nào đó. Khi đó ta
có hai phƣơng pháp thực hiện nghiên cứu:
Thứ nhất, nghiên cứu toàn bộ các phần tử của tập hợp
và ghi lại các đặc tính cần quan tâm. Khi thực hiện nghiên
cứu toàn bộ ta gặp phải những hạn chế nhƣ: (i) Tốn kém
nguồn lực lớn về tài chính, con ngƣời và phƣơng tiện do số
lƣợng các phần tử trong tập toàn bộ quá lớn. (ii) Có thể dẫn
tới phá huỷ toàn bộ tập hợp cần nghiên cứu. Ví dụ nghiên
cứu thời gian hoạt động của các thiết bị y tế, khi áp dụng
phƣơng pháp này sẽ dẫn tới phá huỷ toàn bộ các thiết bị.
(iii) Có những tập hợp mà ta không thể nghiên cứu đƣợc
toàn bộ. Ví dụ nhƣ trong lĩnh vực khảo cổ học. Vậy ta thấy
trong đa số các trƣờng hợp nghiên cứu toàn bộ tập hợp là
không khả thi.

68
Thứ hai, nghiên cứu bộ phận, từ tập hợp nghiên cứu ta
lấy ra một tập con và nghiên cứu toàn bộ các phần tử trong
tập con đó và từ đó đƣa ra kết luận cho các phần tử trong
tập hợp nghiên cứu. Phƣơng pháp nghiên cứu thứ hai gọi là
phƣơng pháp nghiên cứu mẫu.
3.1.1 Tổng thể (Đám đông hay Dân số) và mẫu
Tổng thể (population) là tập hợp các phần tử cần nghiên
cứu đặc tính nào đó, số phần tử trong tổng thể gọi là cỡ của
tổng thể, ký hiệu là N. Khi nghiên cứu tổng thể thì đặc tính
của các phần tử có thể có hai loại tính chất định tính hoặc
định lƣợng cần quan tâm.
Ví dụ 3.1: Giới tính, dân tộc, tôn giáo,… của toàn bộ dân
số ở một quốc gia hay khu vực dân cƣ nào đó (tính chất
định tính). Cân nặng, chiều cao, tuổi,… của toàn bộ dân số
ở một quốc gia hay khu vực dân cƣ nào đó (tính chất định
lƣợng).
Mẫu: Từ tổng thể, ta lấy ra n phần tử để nghiên cứu tính
chất định tính hoặc định lƣợng của nó. Khi đó tập hợp n
phần tử này đƣợc gọi là một mẫu và số phần tử của mẫu
đƣợc gọi là kích thƣớc của mẫu. Vì từ mẫu, ta kết luận cho
tổng thể nên mẫu phải đƣợc chọn đại diện tốt cho tổng thể.
Ví dụ 3.2: Chọn ngẫu nhiên 100 ngƣời bị bệnh B trong
tổng thể bệnh nhân.
3.1.2 Mẫu ngẫu nhiên và mẫu cụ thể (Mẫu lý thuyết và
mẫu thực nghiệm)
Mẫu ngẫu nhiên: Lấy n phần tử của tổng thể theo phƣơng
pháp có hoàn lại để quan sát. Gọi X i là giá trị của đặc tính
X (dấu hiệu khảo sát) trên phần tử thứ i với i  1, 2, ,n
thì X 1 , X 2 , , X n cũng là các BNN có cùng phân phối xác

69
suất nhƣ BNN gốc X. Khi đó, bộ ( X 1 , X 2 , , X n ) đƣợc gọi
là mẫu ngẫu nhiên hay mẫu lý thuyết với cỡ mẫu n đƣợc
tạo nên từ BNN gốc X và kí hiệu WX  ( X 1 , X 2 , , X n ) .
Mẫu cụ thể: Nếu giả sử Xi nhận giá trị xi thì ( x1 , x2 , , xn )
đƣợc gọi là một mẫu cụ thể hay mẫu thực nghiệm của mẫu
ngẫu nhiên WX , kí hiệu: wx  ( x1 , x2 , , xn )
Ví dụ 3.3: Kết quả điểm môn Xác suất thống kê y học của
một lớp y khoa gồm 100 sinh viên cho bởi bảng sau:
Điểm 3 4 5 6 7
Số sinh viên 25 20 40 10 5
Gọi X là điểm môn Xác suất thống kê y học của một sinh
viên đƣợc chọn ngẫu nhiên trong danh sách lớp y khoa này
thì X là BNN có phân phối xác suất:
X 3 4 5 6 7
P 0,25 0,2 0,4 0,1 0,05
Chọn ngẫu nhiên 5 sinh viên trong danh sách lớp để xem
điểm. Gọi X i là điểm của sinh viên thứ i với i  1,2,3,4,5 .
Ta có mẫu ngẫu nhiên WX  ( X 1 , X 2 , X 3 , X 4 , X 5 ) và các
BNN X i có cùng phân phối xác suất với BNN X.
Khi tiến hành khảo sát điểm thi cụ thể của 5 sinh viên đã
chọn mẫu, giả sử sinh viên thứ nhất đƣợc 4 điểm, thứ hai
đƣợc 3 điểm, thứ ba đƣợc 6 điểm, thứ tƣ đƣợc 7 điểm và
thứ năm đƣợc 5 điểm thì ta đƣợc mẫu cụ thể: wx = (4, 3, 6,
7, 5)
3.1.3 Phƣơng pháp chọn mẫu ngẫu nhiên
Có rất nhiều phƣơng pháp chọn mẫu ngẫu nhiên để thoả
mãn tính đại diện tốt nhất cho tổng thể và phù hợp với mục
tiêu nghiên cứu nhƣ: Chọn mẫu theo xác suất (random

70
sampling) gồm: Ngẫu nhiên đơn giản (simple random
sampling); Hệ thống (systematic sampling); Phân tầng
(stratified sampling); theo nhóm (cluster sampling). Chọn
mẫu không theo xác suất (Non-probability sampling) gồm:
Thuận tiện (convenience sampling); Phán đoán (judgment
sampling); Phát triển mầm (snowball sampling); Định
mức/Hạn ngạch (quota sampling). Cụ thể, một số phƣơng
pháp chọn mẫu chủ yếu:
Cách chọn mẫu ngẫu nhiên đơn giản: (i) Chọn mẫu ngẫu
nhiên có hoàn lại: Từ tổng thể ta rút ngẫu nhiên một phần
tử và ghi lại các đặc trƣng cần quan tâm, sau đó trả lại
phần tử đó về tổng thể và làm tƣơng tự ở các lần tiếp theo
cho tới khi ta đƣợc một mẫu cỡ n. (ii) Chọn mẫu ngẫu
nhiên không hoàn lại: Làm tƣơng tự nhƣ trên, chỉ khác là
sau mỗi lần rút các phần tử ta loại phần tử đó ra khỏi tổng
thể.
Chọn mẫu phân tầng: Ở những tổng thể lớn có thể có
những yêu cầu phải chọn một mẫu phân tầng chẳng hạn
nhƣ điều tra phân tích chi phí y tế của ngƣời dân thƣờng có
những yêu cầu kết luận cho các vùng, miền. Mẫu phân
tầng đơn giản có thể đƣợc thành lập nhƣ sau: Chia tổng thể
ra thành k tổng thể thành phần và ta thực hiện cách lấy
mẫu ngẫu nhiên đơn giản trên mỗi tổng thể thành phần rồi
tổng hợp lại để có mẫu của toàn bộ tổng thể. Khi cần thiết,
có thể chọn mẫu phân tầng tạp hơn nhƣ: sau khi chia tổng
thể ra thành k tổng thể thành phần, ta chọn ngẫu nhiên
trong số k tổng thể thành phần đó ra m tổng thể rồi tiếp tục
thực hiện lấy mẫu ngẫu nhiên trên từng tổng thể đƣợc chọn
để tổng hợp thành mẫu của toàn bộ tổng thể.
3.1.4 Cách ghi số liệu của mẫu quan sát (mẫu cụ thể)

71
Sau khi tiến hành quan sát đặc tính X trên n phần tử của
tổng thể, ta có đƣợc số liệu (mẫu quan sát) đƣợc ghi lại
dƣới 3 hình thức:
a. Nếu cỡ mẫu nhỏ thì số liệu đƣợc ghi: x1 x2 … x n
b. Nếu cỡ mẫu lớn thì số liệu đƣợc ghi dƣới dạng bảng tần
số:
X x1 x2 … xk
Số phần tử n1 n2 … nk
Trong đó: ni là tần số của giá trị xi và n1 + n2 +…+ nk = n.
c. Khi kích thƣớc mẫu lớn, các giá trị của mẫu gần nhau,
khi đó số liệu mẫu đƣợc ghi theo khoảng
X x1 - x2 x2 – x3 … xk - xk+1
Số phần tử n1 n2 … nk
Chú ý: n1 + n2 +…+ nk = n
Về lý thuyết, có nhiều cách xác định số khoảng k, có thể
tính số khoảng k là số nhỏ nhất sao cho 2k > n. Thông
thƣờng có thể chia khoảng theo khoảng cách đều:
x xmin
d = max
k
Ví dụ 3.4:
(i) Đo chiều cao của 10 ngƣời (cm), kết quả:
160 155 147 155 168 181 150 163 168 155
(ii) Khảo sát điểm của 50 bài thi môn Xác suất thống
kê y học, kết quả:
Điểm thi 4,0 4,5 5,0 5,5 6,0 6,5 7,0
Số bài thi 14 12 8 6 4 4 2
(iii) Khảo sát thu nhập (triệu đồng/tháng) của 81 nhân
viên y tế mới ra trƣờng
Thu nhập 3,8 – 4,2 4,2 – 4,6 4,6 – 5,0 5,0 – 5,4 5,4 – 5,8

72
Số nhân viên 10 16 25 18 12
3.1.5 Các tham số thống kê của mẫu
a) Trung bình mẫu: Giả sử (X1, X2, …, Xn) là mẫu ngẫu
nhiên của đặc tính X trên không gian  .
1 n
 Trung bình của mẫu ngẫu nhiên: X   X i
n i 1
 Trung bình mẫu quan sát (thực nghiệm):
1 n 1 k
x   xi hoặc x   ni xi với n1 n2 ... nk n
n i 1 n i 1
b) Phương sai mẫu: Phƣơng sai mẫu là đại lƣợng đặc
trƣng cho mức độ phân tán các giá trị của X so với X . Với
(X1, X2, …, Xn) là mẫu ngẫu nhiên của X, khi đó phƣơng
sai mẫu đƣợc xác định
 Phƣơng sai mẫu đã điều chỉnh của mẫu ngẫu nhiên
1 n
(hiệu chỉnh): S 2  
n  1 i 1
( X i  X )2

 Phƣơng sai mẫu quan sát (thực nghiệm):


1 n 1 k
s2  
n  1 i 1
( xi  x ) 2
hoặc s 2
 
n  1 i 1
ni ( xi  x) 2

với n1 n2 ... nk n
Ghi chú: Phƣơng sai mẫu chƣa điều chỉnh:
1 n
S *2   ( X i  X ) 2 . Trong phân tích và xử lý thống kê
n i 1
với mẫu số liệu cụ thể thì ta thƣờng sử dụng phƣơng sai đã
điều chỉnh nên ta có thể sử dụng ngắn gọn là phƣơng sai.

c) Độ lệch chuẩn của mẫu: s  s2


s
d) Sai số chuẩn (sai số của giá trị trung bình): s x 
n
73
e) Mode (giá trị tin chắc): là giá trị quan sát xuất hiện
nhiều lần nhất của mẫu số liệu cụ thể, trong trƣờng hợp có
nhiều giá trị quan sát có số lần xuất hiện bằng nhau thì các
giá trị quan sát đó đều là mode (có nhiều hơn một mode).
f) Median (trung vị): Sau khi xếp thứ tự các giá trị quan sát
của mẫu cụ thể từ giá trị nhỏ nhất đến giá trị lớn nhất. Med
n 1
bằng giá trị x n 1 (quan sát thứ ) nếu n lẻ và bằng giá
2 2
 xn  xn 
 1 2 1  nếu n chẵn.
trị  2 
 2 
 
g) Độ nhọn của phân phối xác suất (Kurtosis)
Kurtosis là một chỉ số để đo lƣờng về đặc điểm hình dáng
của một phân phối xác suất. Kurtosis so sánh độ cao phần
trung tâm của một phân phối so sánh với một phân phối
chuẩn. Phần trung tâm càng cao và nhọn, chỉ số Kurtosis
của phân phối đó càng lớn.
4
n 
n(n  1) xi  x  3(n  1) 2
Kurtosis    
(n  1)(n  2)(n  3) i 1  s  (n  2)(n  3)

74
Đồ thị minh họa Kurtosis = 3 (Phân phối chuẩn tắc N(0;1)),
Kurtosis l= 4 và Kurtosis = 2,7
h) Độ lệch về bên trái, phải của phân phối xác suất
(Skewness)
Skewness của một phân phối xác suất đo lƣờng sự đối xứng
của phân phối đó. Giá trị tuyệt đối của độ lệch càng cao thì
phân phối đó càng bất đối xứng. Một phân phối đối xứng
sẽ có skewness bằng 0. Một phân phối không đối xứng, đồ
thị có đuôi lệch về phía bên phải sẽ có skewness dƣơng, đồ
thị có đuôi lệch về phía bên trái sẽ có skewness âm.
3
n 
n xi  x 
Skewness   
(n  1)(n  2) i 1  s 

75
Đồ thị minh họa của một phân phối liên tục với Skewness dương

Đồ thị minh họa của một phân phối liên tục với Skewness âm
Ví dụ 3.5: Đo chiều cao của 10 ngƣời (cm), kết quả:

76
160 155 147 155 168 181 150 163 168 155
Ta có các tham số thống kê của mẫu:
1 n 1
Trung bình mẫu: x   x i   1602  160, 2
n i 1 10
Phƣơng sai mẫu (có điều chỉnh):
1 n
  
2
s2  xi  x
n  1 i 1
1
 s2  (160  160, 2) 2  (155  160, 2) 2   (155  160, 2) 2 
10  1
1
 s2   921,6  102, 4
10  1
Độ lệch chuẩn mẫu (có điều chỉnh):
s  s 2  102, 4  10,119
s 10,119
Sai số chuẩn: sx    3, 200
n 10
Mode = 155
Median = 157,5
4
n 
n(n  1) xi  x  3(n  1) 2
Kurtosis     
(n  1)(n  2)(n  3) i 1  s  (n  2)(n  3)
 0,615

3
n 
n xi  x 
Skewness   
(n  1)(n  2) i 1  s 
  0,829

Statistics
N 10
Mean 160,20
Std. Error of Mean 3,200
Median 157,50
Mode 155
Std. Deviation 10,119

77
Variance 102,400
Skewness 0,829
Kurtosis 0,615
Bảng kết quả các tham số thống kê ví dụ 3.5 từ SPSS
Ví dụ 3.6: Khảo sát điểm của 50 bài thi môn Xác suất
thống kê y học, kết quả:
Điểm thi 4,0 4,5 5,0 5,5 6,0 6,5 7,0
Số bài thi 14 12 8 6 4 4 2
Ta có các tham số thống kê của mẫu:
Trung bình mẫu:
1 k 1
x   n i x i   247  4,94
n i 1 50
Phƣơng sai mẫu (có điều chỉnh):
1 k
   1
2
s 
2
ni xi  x   39,32  0,802
n  1 i 1 50  1
Độ lệch chuẩn mẫu (có điều chỉnh):
s  s 2  0,802  0,896
Sai số chuẩn:
s 0,896
sx    0,127
n 50
Mode = 4,0
Median = 4,5
4
n 
n(n  1) xi  x  3(n  1) 2
Kurtosis     
(n  1)(n  2)(n  3) i 1  s  (n  2)(n  3)
 0, 444

3
n 
n xi  x 
Skewness   
(n  1)(n  2) i 1  s 
  0,764

78
Statistics
N 50
Mean 4,940
Std. Error of Mean 0,1267
Median 4,500
Mode 4,0
Std. Deviation 0,8958
Variance 0,802
Skewness 0,764
Kurtosis -0,444
Bảng kết quả các tham số thống kê ví dụ 3.6 từ SPSS
Ví dụ 3.7: Khảo sát thu nhập (triệu đồng/tháng) của 81
nhân viên y tế mới ra trƣờng
Thu nhập 3,8 – 4,2 4,2 – 4,6 4,6 – 5,0 5,0 – 5,4 5,4 – 5,8
Số nhân
10 16 25 18 12
viên
Ta có các tham số thống kê của mẫu:
Trung bình mẫu:
1 k 1
x   n i x i   391, 2  4,83
n i 1 81
Phƣơng sai mẫu (có điều chỉnh):
1 k
   1
2
s2  n x  x   19, 449  0, 243
n  1 i 1 81  1
i i

Độ lệch chuẩn mẫu (có điều chỉnh):


s  s 2  0, 243  0, 493
Sai số chuẩn:

79
s 0, 493
sx    0,055
n 81
Mode = 4,8
Median = 4,8
4
n 
n(n  1) xi  x  3(n  1) 2
Kurtosis     
(n  1)(n  2)(n  3) i 1  s  (n  2)(n  3)
 0,871

3
n 
n xi  x 
Skewness   
(n  1)(n  2) i 1  s 
  0,062

Statistics
N 81
Mean 4,830
Std. Error of Mean 0,0548
Median 4,800
Mode 4,8
Std. Deviation 0,4931
Variance 0,243
Skewness -0,062
Kurtosis -0,871
Bảng kết quả các tham số thống kê ví dụ 3.7 từ SPSS
3.1.6 Một số luật phân phối các đại lƣợng thống kê mẫu
a) Nếu X ~ N(  ,  2 ), WX  ( X 1 , X 2 , , X n ) là mẫu
X 
ngẫu nhiên độc lập của X thì Z  n ~ N (0;1) và

2
E( X ) =  , Var( X ) = với E(X)=  , Var(X)=  2 .
n

80
b) Nếu X ~ N(  ,  2 ), (X1, X2, …, Xn) là mẫu ngẫu
2
nhiên độc lập của X thì X ~N(  , ) và E(S2) =  2 , Var(S2)
n
2 4
=  với E(X)=  , Var(X)=  2 .
n
c) Nếu X ~ N(  ,  2 ), WX  ( X 1 , X 2 , , X n ) là mẫu
(n  1) S 2
ngẫu nhiên độc lập của X thì  2  ~  2 (n  1) .
 2

d) Nếu X ~ N(  ,  ), WX  ( X 1 , X 2 ,
2
, X n ) là mẫu
ngẫu nhiên của X thì T X
n ~ T (n 1)
S
e) Cho X ~ N(  X ,  X2 ), Y ~ N( Y ,  Y2 ), X, Y cùng đặc
tính. WX  ( X 1 , X 2 , , X n ) , WY  (Y1 , Y2 , , Ym ) là hai mẫu
ngẫu nhiên độc lập của X, Y trên hai tổng thể khác nhau
i. Trƣờng hợp cỡ mẫu lớn (n, m  30)
2 2
 
X  Y ~N(  X  Y , X  Y )
n m
( X  Y )  (  X  Y )
hay Z = ~ N (0;1)
 X2  Y2

n m
ii. Trƣờng hợp cỡ mẫu nhỏ (n, m < 30)
Biết  X2 ,  Y2
 X2  Y2
 
X  Y ~N(  X  Y ,
n

m
)

( X  Y )  (  X  Y )
hay Z = ~ N (0;1)
 X2  Y2

n m
Chƣa biết  ,  2
X
2
Y

81
(X Y) ( X )
Nếu  X2 =  Y2 : T = Y
~ T (n m 2) ,
1 1
0
n m
(n  1)S X2  (m  1)SY2
với  02 
nm2
( X  Y )  (  X  Y )
Nếu  X2   Y2 : T = ~ T ( ) ,
S X2 SY2

n m
S X2 SY2 2
(  )
với   n m 2
2 2 2 2
 S X   SY 
   
 n   m 
n 1 m 1
f) Cho X ~ N(  X ,  2 ), Y ~ N( Y ,  2 ), X, Y cùng đặc
tính. WX  ( X 1 , X 2 , , X n ) , WY  (Y1 , Y2 , , Ym ) là hai mẫu
ngẫu nhiên độc lập của X, Y trên hai tổng thể khác nhau, ta
có:
S X2
F  2 ~ F (n  1; m  1)
SY
Chú ý: Trong thống kê F tử thức lớn hơn mẫu thức, nếu
S  SY2 thì ta đổi vai trò S X2 và S Y2 cho nhau.
2
X

3.2 ƢỚC LƢỢNG THAM SỐ THỐNG KÊ CỦA


TỔNG THỂ
3.2.1 Ƣớc lƣợng điểm
Giả sử BNN X có tham số đặc trƣng  chƣa biết, nếu thông
qua một số đại lƣợng thống kê mô tả nào đó mà ta có thể
tìm hiểu đƣợc các thông tin đó một cách tƣơng đối đầy đủ

82
và đáng tin cậy cho tham số đặc trƣng  thì đại lƣợng
thống kê đó gọi là ƣớc lƣợng điểm của tham số đó.
Mô tả phương pháp: Giả sử cần ƣớc lƣợng tham số  của
đại lƣợng ngẫu nhiên X. Từ X ta lập mẫu ngẫu nhiên
WX  ( X 1 , X 2 , , X n ) .
^
Chọn   f ( X1 , X 2 , , Xn)
^
 là hàm của các đại lƣợng ngẫu nhiên X1, X2, .. , Xn nên
^
nó là một đại lƣợng ngẫu nhiên,  đƣợc gọi là hàm ƣớc
lƣợng của .
Ví dụ 3.8: Trong thực tế ngƣời ta thƣờng chọn hàm ƣớc
lƣợng
^ 1 n
 Chọn   X   X i làm ƣớc lƣợng trung bình
n i 1
của tổng thể
1 n
 
^
 Xi  X
2
 Chọn   S 2  làm ƣớc lƣợng
n  1 i 1
phƣơng sai của tổng thể
^ 1 n
 Chọn   F   Fi , với Fi có dạng phân phối
n i 1
Bernoulli, làm ƣớc lƣợng tỉ lệ của tổng thể
^*
Từ mẫu cụ thể wx  ( x1 , x2 , , xn ) , ta tính giá trị của  ,
^*
tức là   f ( x1 , x2 , , xn )
^*
Ƣớc lƣợng điểm của  cần tìm chính là giá trị  vừa tính
đƣợc.
Các tiêu chuẩn lựa chọn hàm ước lượng

83
Ta thấy có vô số cách chọn dạng hàm f, tức có vô số đại
^
lƣợng ngẫu nhiên  có thể dùng làm hàm ƣớc lƣợng của .
Vì vậy, cần đƣa ra một tiêu chuẩn để đánh giá chất lƣợng
của ƣớc lƣợng. Từ đó lựa chọn đƣợc một hàm ƣớc lƣợng
“tốt hơn” theo một nghĩa nào đó. Dƣới đây ta sẽ xét một số
tiêu chuẩn đó.
Ước lượng không chệch
^
Định nghĩa:  đƣợc gọi là ƣớc lƣợng không chệch của
^
tham số  nếu: E ( )  
^ ^
Ngƣợc lại, nếu E ( )   thì  đƣợc gọi là ƣớc lƣợng
chệch của .
^
Ý nghĩa: Ta thấy (    ) là đại lƣợng ngẫu nhiên biểu thị
sai số của ƣớc lƣợng. nếu là ƣớc lƣợng không chệch, theo
tính chất của kỳ vọng toán, ta có:
^ ^
E (   )  E ( )  E ( )      0 .
Nhƣ vậy, ƣớc lƣợng không chệch là ƣớc lƣợng có sai số
trung bình băng 0. Tức là giá trị của  không bị lệch về
^
một phía, nếu dùng  để ƣớc lƣợng  thì không mắc phải
sai số hệ thống.
^
Chú ý rằng,  là ƣớc lƣợng không chệch của  không có
^
nghĩa là mọi giá trị của  đều trùng khít với  mà chỉ có
^
nghĩa là: Trung bình các giá trị của  bằng , một giá trị
^
của  có thể sai khác nhiều so với .
Ví dụ 3.9:

84
^ 1 n
 X  X i là ƣớc lƣợng không của trung bình
n i 1
tổng thể
1 n
 
^
 Xi  X
2
   S2  là ƣớc lƣợng không
n  1 i 1
chệch của phƣơng sai tổng thể
^ 1 n
   F   Fi là ƣớc lƣợng không chệch của tỉ lệ
n i 1
tổng thể
Ước lượng hiệu quả
^
Giả sử  là ƣớc lƣợng không chệch của . Áp dụng bất
^
đẳng thức Chebyshev cho đại lƣợng ngẫu nhiên  , ta có:
^
 ^ ^
 Var ( )
P    E ( )     1 
  2
^
Vì E ( )   nên bất đẳng thức Chebyshev trở
^
 ^  Var ( )
thành: P         1 
  2
^
Nhƣ vậy, nếu phƣơng sai Var ( ) càng nhỏ thì xác suất
^
để  nhận giá trị gần  bao nhiêu cũng đƣợc, sẽ càng lớn.
^
Do đó phƣơng sai của  là một chỉ tiêu quan trọng phản
^
ánh chất lƣợng của hàm ƣớc lƣợng   f ( X1 , X 2 , , Xn) .
Tất nhiên một cách hợp lý là cần chọn những hàm ƣớc
lƣợng không chệch và phƣơng sai nhỏ nhất.

85
^
Định nghĩa:   f ( X1 , X 2 , , X n ) là ƣớc lƣợng không
^
chệch của  và phƣơng sai Var ( ) bằng cận dƣới các
phƣơng sai của các hàm ƣớc lƣợng đƣợc xây dựng từ mẫu
^
ngẫu nhiên WX  ( X 1 , X 2 , , X n ) thì  đƣợc gọi là ƣớc
lƣợng hiệu quả của .
Để tìm cận dƣới của phƣơng sai các hàm ƣớc lƣợng ta
dựa vào bất đẳng thức Crame-Rao nhƣ sau: Cho mẫu ngẫu
nhiên WX  ( X 1 , X 2 , , X n ) đƣợc xây dựng từ đại lƣợng
ngẫu nhiên X có hàm mật độ xác suất f ( x, ) . Thỏa mãn
một số điều kiện nhất định (thƣờng đƣợc thỏa mãn trong
^
thực tế) và  là ƣớc lƣợng không chệch bất kỳ của  thì:
^ 1
Var ( ) 
 ln  x,  
2

n E 
  
Ước lượng vững
Một hàm ƣớc lƣợng đƣợc coi là hợp lý nếu nhƣ kích
thƣớc của mẫu tăng lên khá lớn thì giá trị của nó phải gần
tham số cần ƣớc lƣợng.
Định nghĩa: Cho mẫu WX  ( X 1 , X 2 , , X n ) xây dựng từ
đại lƣợng ngẫu nhiên X. Hàm ƣớc
^
lƣợng   f ( X1 , X 2 , , X n ) của  đƣợc gọi là vững nếu
mọi ε > 0 bé tùy ý cho trƣớc ta đều có:
Lim P  f  X1 , X 2 ,
, X n        1
n

Điều kiện đủ của ƣớc lƣợng vững đƣợc phát biểu dƣới
dạng định lý nhƣ sau:

86
^
Nếu  là ƣớc lƣợng không chệch
^ ^
của  và LimVar ( )  0 thì  là ƣớc lƣợng vững của .
n

Phương pháp ước lượng hợp lý cực đại


Trong thống kê có rất nhiều phƣơng pháp ƣớc lƣợng
điểm cho tham số, trong đó phƣơng pháp ƣớc lƣợng hợp lý
cực đại là phƣơng pháp thƣờng sử dụng và khá đơn giản và
nó đƣợc mô tả nhƣ sau:
Giả sử (X1, X2, …, Xn) là mẫu ngẫu nhiên, độc lập của
đặc tính X, có phân phối f ( x,1 ,..., r ) .
n
+ Đặt L( x1 ,...xn ,1 ,..., r )   f ( xi ,1 ,..., r ) (*) :
i 1

gọi là hàm hợp lí


+ Nếu 1 ,..., r tƣơng ứng là các giá trị của tham số
1 ,..., r làm hàm hợp lí đạt cực đại thì 1 ,..., r đƣợc gọi là
ƣớc lƣợng hợp lí cực đại của 1 ,..., r
Để tìm 1 ,..., r ta tiến hành nhƣ sau:
+ Lấy ln hai vế của phƣơng trình (*)
+ Lấy đạo hàm riêng và giải hệ phƣơng trình:

 ln L( x1 ,..., xn ,1 ,..., r )


 0, i  1, 2,..., r (**)
i
r
 ln f ( x1 ,..., xn ,1 ,..., r )
  0, i  1, 2,..., r
i 1 i
Vì Tính đơn điệu của hàm lnL phụ thuộc vào tính đơn
điệu của hàm hợp lí L, nghĩa là nếu L tăng thì lnL cũng
tăng và ngƣợc lại, nếu L giảm thì lnL cũng giảm. Vì vậy tại

87
điểm làm cho lnL cực đại thì L cũng cực đại. Do đó các
1 ,..., r là nghiệm của hệ phƣơng trình (**)
Ví dụ 3.10:
x
1 
1. Cho đặc tính X có phân phối mũ : f ( x, )  e 
,

x  0;  0 , với (x1, x2, …, xn): mẫu quan sát, độc lập của
đặc tính X. Tìm ƣớc lƣợng hợp lý cực đại cho  ?
2. Cho đặc tính X có phân phối chuẩn N(  ,  2 ), với (X1,
X2, …, Xn) là mẫu ngẫu nhiên, độc lập của đặc tính X.Tìm
ƣớc lƣợng hợp lý cực đại cho  ,  2
Hƣớng dẫn
n
1. * Xác định hàm hợp lý: L( x1 ,...xn , )   f ( xi , )
i 1

* Xác định hàm: lnL


* Xác định đạo hàm riêng của hàm lnL theo 
* Giải phƣơng trình đạo hàm riêng tìm  .(Kết thúc)
n
2. * Xác định hàm hợp lý: L( x1 ,...xn ,  ,  2 )   f ( xi ,  , 2 )
i 1

* Xác định hàm: lnL


* Xác định đạo hàm riêng của hàm lnL theo  ,  2
* Giải hệ hai phƣơng trình đạo hàm riêng tìm  ,  2 .(Kết thúc)
3.2.2 Khoảng ƣớc lƣợng (khoảng tin cậy) cho tham số
thống kê của tổng thể.
Định nghĩa: Giả sử BNN X có tham số đặc trƣng  chƣa biết.
Phƣơng pháp ƣớc lƣợng khoảng là chỉ ra khoảng (1, 2) chứa 
sao cho P(1 <  < 2) =  , với 0<  <1, (  gọi là độ tin cậy).
Khoảng (1, 2) gọi là khoảng ƣớc lƣợng cho tham số  ,

88
phƣơng pháp tìm (1, 2) đƣợc trình bày chi tiết cho các tham
số thống kê.
Nếu (1, 2) là khoảng ƣớc lƣợng đối xứng của  thì
đại lƣợng 2 1
dùng để đo độ chính xác (gọi là sai số)
2
của ƣớc lƣợng. Đại lƣợng  càng nhỏ thì ta nói ƣớc lƣợng
càng chính xác. Nếu độ tin cậy  càng lớn thì khoảng (1,
2) càng rộng, sai số  càng lớn. Trong thống kê, khoảng
ƣớc lƣợng có độ tin cậy càng cao càng tốt, khi tìm khoảng
ƣớc lƣợng ta cần xác định độ tin cậy  , sau đó tìm phƣơng
pháp ƣớc lƣợng sao cho  là nhỏ nhất.
a) Khoảng ước lượng trung bình  của tổng thể
 Nếu biết phương sai  2 hoặc cỡ mẫu lớn (n  30)
Giả sử (X1, X2, …, Xn) là mẫu ngẫu nhiên, độc lập của X ,
với  là trung bình cần ƣớc lƣợng.
x x
Ta có: Z  N (0,1) hay Z  N (0,1)
 s
 P (  z  Z  z )   , với z là phân vị chuẩn
2 2 2

(   1   ).
Ta xác định đƣợc khoảng ƣớc lƣợng cho trung bình  với
 s
độ tin cậy  là: ( x   ; x   ) ,   z hay   z
2 n 2 n
Trong đó:
* x là trung bình mẫu ;  là độ lệch chuẩn của tổng
thể; s là độ lệch chuẩn của mẫu.

89
* z là phân vị chuẩn, tra bảng phụ lục 1, với
2


( z )  0,5 
2 2

*   z : Độ chính xác (sai số) của ƣớc lƣợng trung
2 n
bình
Cách tra phân vị chuẩn z :
2

Cho Z là BNN có luật phân phối N(0; 1). Khi đó, với
cho trƣớc thì luôn tồn tại giá trị z sao cho
P(Z z ) 0,5 (z ) (z ) 0,5 . Xác
định phân vị chuẩn z bằng cách tra bảng phụ lục 1.
Ví dụ 3.11:
 Với = 5% (z ) 0, 45 z 1,65 (tra dòng
1,6 và cột 0,05) và (z ) 0, 475 z 1,96 (tra dòng
2 2

1,9 và cột 0,06)


 Với = 1% (z ) 0, 49 z 2,33 (tra dòng
2,3 và cột 0,03) và (z ) 0, 495 z 2,58 (tra dòng
2 2

2,5 và cột 0,08)


 Nếu chưa biết phương sai  2 và cỡ mẫu nhỏ (n < 30)
X 
T T (n  1) , với phân vị Student t ,  1  
s 2
;n 1

Khoảng ƣớc lƣợng cho  với độ tin cậy  là:


s
( x   ; x   ) ,   t
, n 1 n
2

Cách tra phân vị Student t , n :

90
Cho T là BNN có phân phối Student với n bậc tự do n .
Khi đó, với cho trƣớc luôn tồn tại giá trị t ;n sao cho
P(T t ;n ) ,. Xác định phân vị Student t ;n bằng cách
tra bảng phụ lục 2.
Ví dụ 3.12:
 Với = 5% t ;9 1,383 (tra dòng df = 9 và cột
0,05) và t 2,262 (tra dòng df = 9 và cột 0,025)
;9
2

 Với = 1% t ; 24 2, 492 (tra dòng df = 24 và


cột 0,01) và t 2,797 (tra dòng df = 24 và cột 0,005)
; 24
2

Ví dụ 3.13: Để đánh giá sức khỏe các bé gái sơ sinh, ngƣời


ta cân trọng lƣợng X (kg) các bé gái sơ sinh trong một bệnh
viện và có kết quả thống kê sau:
Trọng lƣợng 1,7–2,1 2,1–2,5 2,5–2,9 2,9–3,3 3,3–3,7 3,7– 4,0
Số bé 4 20 21 15 2 3
Hãy tìm khoảng tin cậy cho trọng lƣợng trung bình của bé
gái sơ sinh trong dân số với độ tin cậy 95%.
Giải
Khoảng ƣớc lƣợng 95% cho trọng lƣợng trung bình (  )
s
của bé gái sơ sinh: ( x   ; x   ) với   z
2 n
Ta có: n = 65, x = 2,698kg, s = 0,457kg và
1    95%    5%  z   1,96
2

s 0, 457
   z  1,96   0,111 (kg)
2 n 65
 ( x   ; x   )   2,698  0,111; 2,698  0,111   2,587; 2,809 

91
Vậy khoảng tin cậy cho trọng lƣợng trung bình của bé
gái sơ sinh trong dân số với độ tin cậy 95% từ 2,587kg
đến 2,809kg.
Ví dụ 3.14: Trọng lƣợng của viên thuốc là BNN X có luật
phân phối chuẩn, khảo sát 25 viên thuốc tính đƣợc trung
bình mẫu x = 50,052mg, độ lệch tiêu chuẩn s = 0,825mg.
Hãy ƣớc lƣợng trọng lƣợng trung bình của viên thuốc do xí
nghiệp sản xuất ra với độ tin cậy 95%.
Giải
Khoảng ƣớc lƣợng trọng lƣợng trung bình μ của viên
thuốc do xí nghiệp sản xuất ra với độ tin cậy 95% là:


x  ; x   với    t
; n 1
s
n
2

Ta có: n = 25, x = 50,052mg, s = 0,825mg và


1    95%    5%  t   2,064
; n 1
2

s 0,825
   t  2,064   0,341 (mg)
; n 1 n 25
2

 ( x   ; x   )   50,052  0,341; 50,052  0,341   49,711; 50,393


Vậy khoảng ƣớc lƣợng trọng lƣợng trung bình μ của viên
thuốc do xí nghiệp sản xuất ra với độ tin cậy 95% từ
49,711mg đến 50,393mg.
b) Khoảng ước lượng tỉ lệ p của tổng thể
Giả sử (x1, x2, …, xn) là mẫu quan sát, độc lập của đặc
tính X. T là dấu hiệu cần quan tâm của X. Gọi p là tỉ lệ
phần tử mang dấu hiệu T của tổng thể.
f p
* Ta có: Z n ~ N (0;1) , với phân vị là z
f (1 f ) 2

92
* Khoảng ƣớc lƣợng cho p với độ tin cậy  là:
f (1  f )
( f   ; f   ) , với   z
2 n
Trong đó:
m
* f  , m số phần tử của mẫu quan sát có dấu hiệu T
n
* z là phân vị chuẩn.
2

f (1  f )
*   z : Độ chính xác (sai số) của ƣớc
2 n
lƣợng tỉ lệ.
Ví dụ 3.15: Cân trọng lƣợng của 1000 bé gái sơ sinh thì có
308 bé gái sơ sinh có trọng lƣợng từ 3,2kg trở lên. Hãy ƣớc
lƣợng tỉ lệ bé gái sơ sinh có trọng lƣợng từ 3,2kg trở lên
trong dân số với độ tin cậy 99%.
Giải
Khoảng ƣớc lƣợng 99% cho tỉ lệ (p) bé gái sơ sinh có
trọng lƣợng từ 3,2kg trở lên trong dân số.
f (1  f )
( f   ; f   ) , với   z
2 n
Theo mẫu ta có:
308
n  1000; f   0,308; z  2,58
1000 2

f (1  f )
   z  0,0377
2 n
 ( f   ; f   )   0,308  0,0377; 0,308  0,0377 
= ( 27,03% ; 34,57% )

93
Vậy tỉ lệ bé bé gái sơ sinh có trọng lƣợng từ 3,2kg trở lên
trong dân số từ 27,03% đến 34,57%.
c) Khoảng ước lượng phương sai  2 của tổng thể
Giả sử (x1, x2, …, xn) là mẫu quan sát, độc lập của đặc tính
X.
(n  1) S 2
* 2  ~  2 (n  1) , với hai phân vị là:  2  ;
 2 1 ;n 1
2

 2 ,   1 
;n 1
2

* Khoảng ƣớc lƣợng cho  2 với độ tin cậy  là:


 
 (n  1) s 2 (n  1) s 2 
 2 ; 2 
  
1 ;n 1 

;n 1
 2 2 
 n n
2 
  i      xi    
2
x
Hoặc  i 1 2 ; i 1 2  nếu  trung bình của
     
 ;n 1 ; n 
 2 2

tổng thể đã biết.
Trong đó:
*  2 đƣợc xác định từ bảng phân vị khi bình phƣơng
;n 1
2

ở bậc tự do n-1, và mức


2
*  2
 đƣợc xác định từ bảng phân vị chi bình
1 ;n 1
2

phƣơng ở bậc tự do n-1, và mức 1


2
Cách tra phân vị chi bình phương 2 ; n :

94
Cho  2 là BNN có phân phối chi bình phƣơng với n bậc
tự do n . Khi đó, luôn với cho trƣớc luôn tồn tại giá trị
 ; n sao cho P(
2 2 2
;n ) . Xác định phân vị chi bình
phƣơng 2 ; n bằng cách tra bảng phụ lục 3.
Ví dụ 3.16:
 Với = 5%   2  19,023 (tra dòng df = 9 và cột
;9
2

0,025) và  2   2,700 (tra dòng df = 9 và cột 0,975)


1 ; 9
2

 Với = 1%   2  45,559 (tra dòng df = 24 và cột


; 24
2

0,005) và  2
  9,886 (tra dòng df = 24 và cột 0,995)
1 ; 24
2

Ví dụ 3.17: Kiểm tra 25 dƣợc phẩm của một công ty sản


xuất dƣợc phẩm đóng chai tự động ta đƣợc kết quả sau:
Trọng lƣợng (mg) 195 200 205
Số dƣợc phẩm 5 18 2
a. Cho biết trọng lƣợng trung bình μ = 200mg, hãy ƣớc
lƣợng phƣơng sai của trọng lƣợng các dƣợc phẩm với độ
tin cậy 90%.
b. Hãy ƣớc lƣợng phƣơng sai  2 trọng lƣợng của dƣợc
phẩm với độ tin cậy 95%.
Giải
a. Khoảng ƣớc lƣợng cho  2 trọng lƣợng của dƣợc phẩm
với độ tin cậy  = 90% là:
 n n
2 
  i      xi    
2
x
 i 1 2 ; i 1 2 
    
 ;n 1 ; n 
 2 2

95
Với 1 -  = 90%   2  37,652 và  2   14,611
;n 1 ; n
2 2
n

 x     5  195  200   18   200  200   2   205  200 


2 2 2 2
i
i 1

 175
 n

   xi   
2

175
 i 1 2   4,65
  37,652
 ;n
 n 2
  x   2
 i
175

i 1
  11,98
  2
 14,611
1 ; n
 2

Vậy khoảng ƣớc lƣợng cho  2 trọng lƣợng của dƣợc


phẩm với độ tin cậy 90% là: (4,65m g2 ; 11,98m g2 )
b. Khoảng ƣớc lƣợng cho phƣơng sai  2 là:
 
 (n  1) s 2 (n  1) s 2 
 2 ; 2 
  
1 ;n 1 

;n 1
 2 2 
Ta có: n = 25; s = 2,630; 1 -  = 95%
  2
 39,364 và  2
  12, 401
; n 1 1 ; n 1
2 2


 n  1 s 2

24  2,6302
 4, 22
 2 39,364
; n 1
2


 n  1 s 2 = 24  2,6302  13,39
2  12, 401
1 ; n 1
2

Vậy khoảng ƣớc lƣợng cho  2 trọng lƣợng của dƣợc


phẩm với độ tin cậy 95% là (4,22mg2;13,39mg2).

96
CHƢƠNG 4: KIỂM ĐỊNH GIẢ THIẾT
THỐNG KÊ

Nội dung đƣợc trình bày trong chƣơng 4 bao gồm: Một
số khái niệm cơ bản về kiểm định giả thiết thống kê; Giới
thiệu bài toán kiểm định giả thiết thống kê và xây dựng các
mô hình kiểm định giả thiết cho các tham số của tổng thể,
nhƣ: Phƣơng pháp kiểm định giả thiết cho tham số trung
bình, tỉ lệ, phƣơng sai của tổng thể; Kiểm định giả thuyết
về phân phối của biến ngẫu nhiên (BNN), kiểm định về
tính độc lập của hai BNN; Phƣơng pháp kiểm định phi
tham số. Đặc biệt, trình bày các ví dụ vận dụng phƣơng
pháp kiểm định giả thiết thống kê trong lĩnh vực y học.
4.1 MỘT SỐ KHÁI NIỆM VỀ KIỂM ĐỊNH GIẢ
THIẾT THỐNG KÊ
4.1.1 Khái niệm về giả thiết thống kê
Giả thiết thống kê là một mệnh đề nhận định về tham số
của tổng thể. Khi ta đồng nhất tổng thể với một BNN thì
giả thiết thống kê cũng có thể là nhận định về phân phối
xác suất của BNN hoặc tính độc lập của các BNN: Về
Tham số đặc trƣng của biến ngẫu nhiên, nhƣ: giả thiết về
trung bình, phƣơng sai, tỉ lệ; về luật phân phối xác suất của
BNN chẳng hạn, giả thiết BNN có luật phân phối chuẩn;
về tính độc lập của hai BNN, chẳng hạn, giả thiết BNN X
độc lập với BNN Y.
Khi ta tiến hành khảo sát đặc tính X trên tổng thể nào
đó,  là tham số của X, còn gọi là tham số của tổng thể ( 
có thể là trung bình, tỉ lệ, phƣơng sai,…), hoặc khảo sát
đặc tính X trên nhiều tổng thể sẽ có nhiều tham số tƣơng

97
ứng với các tổng thể nhƣ 1,2 , Các mệnh đề giả thiết
ta kí hiệu H0, Các mệnh đề đối lập với giả thiết gọi là đối
thiết, kí hiệu H1. Giả thiết về  đƣợc phát biểu:
H 0 :    0 H :    2
(1)  hoặc  0 1
H1 :   0 H1 : 1   2
H :    0 H :    2
(2)  0 hoặc  0 1
H1 :   0 H1 : 1   2
H :    0 H :    2
(3)  0 hoặc  0 1
H1 :   0 H1 : 1   2
Kiểm định giả thiết thống kê là kết luận giả thiết (đối
thiết) đúng hay sai dựa trên số liệu thống kê. Kết luận nói
trên thƣờng đúng với xác suất khá lớn và có thể sai với xác
suất khá nhỏ. Trong nội dung chƣơng này ta chỉ giới hạn
kiểm định giả thiết thống kê về tham số của tổng thể có
dạng (1); (2); (3). Giả thiết kiểm định dạng (1), (2) gọi là
kiểm định một phía, kiểm định dạng (3) gọi là kiểm định
hai phía.
4.1.2 Sai lầm loại I và sai lầm loại II:
Kiểm định giả thiết thống kê là từ tổng thể lấy mẫu quan
sát (x1, x2, …, xn) của X, sau đó dựa vào các mô hình kiểm
định ta đƣa ra quyết định chấp nhận hay bác bỏ giả thiết về
giá trị tham số của tổng thể. Tuy nhiên, một điều đáng lƣu
ý là: Chỉ dựa vào một mẫu quan sát mà ta đƣa ra quyết
định chấp nhận hay bác bỏ cho giá trị tham số của tổng thể,
vậy liệu quyết định đó có khả năng mắc sai lầm không?
Trong thực tế không có mô hình kiểm định nào mà không
tồn tại khả năng mắc sai lầm. Trong các mô hình kiểm định
giả thiết luôn tồn tại hai loại sai lầm:

98
 Sai lầm loại I: Ta quyết định bác bỏ giả thiết H0
trong khi giả thiết thực sự đúng, với khả năng (xác
suất) mắc sai lầm loại I là  , tức là:
P (Bác bỏ H0 /H0 đúng) = 
 Sai lầm loại II: Ta quyết định chấp nhận giả thiết
H0 trong khi giả thiết thực sự là sai, với khả năng
(xác suất) mắc sai lầm loại II là  , tức:
P (Chấp nhận H0 /H0 sai) = 
Hai loại sai lầm này có tính chất đối kháng, tức là muốn
hạn chế khả năng phạm sai lầm loại I, ta có xu hƣớng làm
tăng khả năng phạm sai lầm loại II và ngƣợc lại. Vì muốn
hạn chế sai lầm loại I ta có xu hƣớng dè dặt trong việc bác
bỏ và sẽ có khuynh hƣớng dễ dãi trong việc chấp nhận. Khi
đó lại dễ phạm sai lầm loại II. Còn muốn giảm sai lầm loại
II, ta dè dặt trong việc chấp nhận và dẫn đến dễ dãi trong
việc bác bỏ. Điều này làm cho nguy cơ phạm sai lầm loại I
tăng lên! Tức là:
P(sai lầm loại I)   P(sai lầm loại II)
P(sai lầm loại II)   P(sai lầm loại I).
Tất nhiên có một cách làm giảm cả hai xác suất sai lầm
nếu tăng kích thƣớc mẫu n lên. Nhƣng khi đó chi phí cũng
tăng lên và đôi khi ta không phải trực tiếp làm ra đƣợc số
liệu.
Giải quyết mâu thuẫn này bằng cách nào?
Thực ra sai lầm loại I và loại II rất tƣơng đối, nó
không có sẵn từ đầu, mà chỉ xác định khi ta đã đặt giả
thuyết. Chẳng hạn đối với một bác sĩ khám bệnh, ông ta có
thể đƣa ra chẩn đoán sai rơi vào một trong hai tình huống
sai lầm sau:

99
i/. Ngƣời có bệnh, sau khi khám dựa trên kết quả lâm
sàng, bác sỹ chẩn đoán không có bệnh.
ii/.Ngƣời không bệnh, sau khi khám dựa trên kết quả
lâm sàng, bác sỹ chẩn đoán có bệnh và tiến hành điều trị.
Vậy bác sỹ này rơi vào sai lầm nào là loại I hay sai lầm
nào là loại II? Tất nhiên là chưa thể nói được.
Nếu bác sỹ đặt giả thuyết H0: “ngƣời này có bệnh” thì
trƣờng hợp i) là sai lầm loại I còn ii) là sai lầm loại II. Còn
nếu bác sỹ đặt giả thuyết H0: “ngƣời này không bệnh” thì
trƣờng hợp i) là sai lầm loại II còn ii) là sai lầm loại I.
Nên đặt giả thuyết thế nào?
Muốn vậy ngƣời ta phải xem xét sai lầm nào quan trọng
hơn, tức là khi phạm phải sẽ chịu tổn thất lớn hơn, thì ta sẽ
đặt bài toán để sai lầm đó là loại I.
Chẳng hạn bác sỹ điều trị bệnh lao phổi. Đó là bệnh mà
nếu phát hiện để điều trị gần nhƣ chắc chắn sẽ khỏi, còn
nếu không đƣợc phát hiện kịp thời để điều trị thì bệnh sẽ
nặng dần và dẫn đến tử vong. Khi đó sai lầm i) "có bệnh
bảo không" là quan trọng hơn, nó có thể dẫn đến tử vong,
còn sai lầm ii) "không bệnh bảo có" cũng gây tổn hại,
nhƣng ít tổn hại hơn sai lầm i). Vì vậy với trƣờng hợp này
ta nên đặt giả thuyết H0: “ngƣời này có bệnh”.
Tóm lại, khi làm thống kê ngƣời ta luôn mong muốn
xây dựng mô hình kiểm định sao cho khả năng mắc hai
loại sai lầm càng nhỏ càng tốt. Tuy nhiên việc làm đó
không thể thực hiện đƣợc. Vì vậy khi xây dựng mô hình
kiểm định ngƣời ta chấp nhận xác suất mắc sai lầm loại I ở
mức  (cho trƣớc), và tiến hành xây dựng các mô hình
kiểm định đảm bảo xác suất mắc sai lầm loại II là  nhỏ

100
nhất. Các mô hình kiểm định sau đây đƣợc xây dựng trên
quan điểm đó.
4.1.3 Phƣơng pháp kiểm định giả thuyết thống kê:
Các bƣớc kiểm định một giả thiết thống kê với mức ý
nghĩa  khá nhỏ đƣợc tiến hành nhƣ sau:
i/. Thành lập giả thiết H0 và đối thiết H1 căn cứ vào
yêu cầu thực tế.
ii/. Tính giá trị kiểm định theo tiêu chuẩn kiểm định:
iii/.Tìm miền bác bỏ của giả thiết H0 là W (hay còn
gọi điều kiện hoặc quy tắc bác bỏ giả thiết H0 )
iv/. Kết luận về giả thiết H0 và đối thiết H1 :
 Nếu G  W thì giả thiết H0 bị bác bỏ, đối thiết
H1 đƣợc chấp nhận.
 Nếu G  W thì chấp nhận giả thiết H0, khi đó
đối thiết H1 bị bác bỏ.
4.1.4 P-value
P-value là viết tắt của từ probability value. Đây là một
con số xác suất và đƣợc gọi là trị số P. Hiểu một cách đơn
giản, đây là trị giá xác suất và nó là một đại lƣợng giúp các
nhà khoa học hay các chuyên gia quyết định giả thuyết của
họ đúng hay sai. P-value Là mức ý nghĩa nhỏ nhất mà ta
vẫn bác bỏ đƣợc giả thuyết H0.
P-value trong SPSS: SPSS là một phần mềm thống kê
đƣợc sử dụng phổ biến hiện nay. Trong SPSS, P-value
đƣợc hiểu là xác suất phạm sai lầm khi bác bỏ giả thiết Ho.
P-value càng cao thì hậu quả của việc phạm sai lầm khi
bác bỏ giả thiết càng nghiêm trọng, P-value chính là giá trị
Sig trong SPSS.

101
4.2 KIỂM ĐỊNH GIẢ THIẾT VỀ TRUNG BÌNH (  )
CỦA TỔNG THỂ
4.2.1 Kiểm định giả thiết thống kê so sánh trung bình
(  ) của tổng thể với giá trị cho trƣớc.(so sánh trung
bình thực nghiệm và trung bình lý thuyết)
Tiêu chuẩn đƣợc sử dụng để kiểm định trung bình 
của tông thể hàm thống kê có phân phối N(0; 1) hoặc phân
phối Student T(n). Cho X là đặc tính của tổng thể,
X~N(  ; 2 ). Để kiểm định những thông tin về giá trị
của  , ta tiến hành lấy mẫu. Giả sử (X1, X2, …,Xn) là mẫu
ngẫu nhiên độc lập của X.
Các cặp giả thiết, đối thiết có thể đƣợc kiểm định:
 H :   0
(1)  0
H1 :   0
 H :   0
(2)  0
H1 :   0
 H :   0
(3)  0 (μ0 là giá trị đã biết)
H1 :   0
 Trường hợp biết phương sai  2 của tổng thể hoặc cỡ
mẫu lớn ( n  30 ).
 X  0 
Tiêu chuẩn kiểm định: Z   n hoặc
  
 X  0 
Z   n , (nếu chƣa biết  thì dùng S thế cho  )
 S 

102
 X  0 
Nếu giả thiết H0 đúng thì Z    n ~ N (0;1) hoặc
  
 X  0 
Z   n ~ N (0;1) . Khi đó, ta chứng minh đƣợc:
 S 
Khi cho trƣớc xác suất sai lầm loại I là  , dựa vào luật
phân phối chuẩn tắc N(0,1), ta luôn xác định đƣợc phân vị
chuẩn z hoặc z sao cho:
2

Thứ nhất, với kiểm định một phía, giả thiết dạng (1) và (2):
P( Z  z H 0 đúng) = P( Z  z H 0 đúng) = 1
Hoặc
P( Z   z H 0 đúng) = P( Z   z H 0 đúng) = 1
Thông thƣờng xác suất sai lầm  đƣợc chọn khá bé, theo
quy tắc xác suất bé thì khả năng Z  z ( hoặc Z   z ) sẽ
không xảy ra nếu giả thiết H0:  =  0 là đúng . Do đó, với
một mẫu quan sát mà cho kết quả Z  z ( hoặc Z   z )
thì ta bác bỏ H0, chấp nhận H1:  >  0 ( hoặc chấp nhận
H1:  <  0 ). Ngƣợc lại, nếu Z  z thì chấp nhận giả thiết
H0 :  =  0 .
Thứ nhất, với kiểm định hai phía, giả thiết dạng (3):
P ( Z  z H 0 đúng) = P ( Z  z H 0 đúng) = 1 .
2 2

Lập luận tƣơng tự nhƣ trên ta có, nếu Z  z thì ta bác bỏ


2

H0:  =  0 , chấp nhận H1:  0 . Ngƣợc lại, nếu


Z  z thì chấp nhận giả thiết H0:  =  0 .
2

103
Tóm lại, phương pháp thực hành kiểm định cho trường
hợp này như sau:
(i) Đặt giả thiết dạng (1) hoặc dạng (2) hoặc dạng (3)
(ii) Chọn tiêu chuẩn kiểm định:
 X  0   X  0 
Z   n hoặc Z    n
    S 
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm
định, suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị chuẩn z (kiểm
định 1 phía, H1:  0 ; H1 : 0 ) hay z
2

(kiểm định 2 phía, H1: 0 )


Quy tắc bác bỏ giả thiết H0 (dạng phân phối chuẩn
Z ~ N (0;1) :
 Nếu Z  z thì ta chấp nhận H1:  0 . Ngƣợc
2

lại, nếu Z  z thì ta chấp nhận H0:  =  0 .


2

 Nếu Z  z thì ta chấp nhận H1:  0 . Ngƣợc lại


nếu Z  z thì ta chấp nhận H0:  =  0 .
 Nếu Z   z thì ta chấp nhận H1:  0 . Ngƣợc
lại nếu Z   z thì ta chấp nhận H0:  =  0 .
Chú ý: Xác suất sai lầm loại II (  )
Với H1:   1  0 :
n n
  P( Z  z  ( 0  1 ) )  0,5  ( z  ( 0  1 ) )
 
Với H1:   1  0 :

104
n n
  P( Z   z  ( 0  1 ) )  0,5   ( z  ( 0  1 ) )
 

 Trường hợp chưa biết phương sai  2 và cỡ mẫu nhỏ


( n  30)
Phương pháp thực hành kiểm định cho trường hợp này
như sau:
(i) Đặt giả thiết dạng (1) hoặc dạng (2) hoặc dạng (3)
 X  0 
(ii) Chọn tiêu chuẩn kiểm định: T    n
 S 
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm
định, suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị Student t ; n 1 .
Quy tắc bác bỏ giả thiết H0 (dạng phân phối
Student T(n – 1) với bậc tự do (n – 1)):
 Nếu T  t thì ta chấp nhận H1: 0 .
; n 1
2

Ngƣợc lại, nếu T  t thì ta chấp nhận H0:


; n 1
2

 = 0 .
 Nếu T  t ; n1 thì ta chấp nhận H1: 0 .
Ngƣợc lại nếu T  t ; n1 thì ta chấp nhận H0:
 = 0 .
 Nếu T  t ; n1 thì ta chấp nhận H1: 0 .
Ngƣợc lại nếu T  t ; n1 thì ta chấp nhận H0:
 = 0 .
Chú ý: Xác suất sai lầm loại II (  ):

105
n
Với H1:   1  0 :   1  P(T  t ;n 1  ( 0  1 ) )
s
n
Với H1:   1  0 :   P(T  t ;n1  ( 0  1 ) )

Ví dụ 4.1: Khối lƣợng một loại dƣợc phẩm là BNN có
khối lƣợng trung bình là 100g, độ lệch chuẩn  là 0,8g.
Sau một thời gian sản xuất, ngƣời ta nghi ngờ khối lƣợng
của loại dƣợc phẩm này có xu hƣớng tăng lên. Kiểm tra 60
dƣợc phẩm tính đƣợc trung bình mẫu x = 100,2g.
a) Với mức ý nghĩa 5%, hãy kết luận về nghi ngờ
trên.
b) Câu hỏi tƣơng tự với mức ý nghĩa 1%.
c) Tìm P – Value ?
Giải
a) Gọi X khối lƣợng của loại dƣợc phẩm này (hiện tại)
  E(X),  2  Var(X)
H :   100g
* Ta có giả thiết:  0
H1 :   100g

* Tiêu chuẩn kiểm định: Z 


x   
0 n

Z
x   
0 n

100, 2  100 60
 1,93
 0,8
* Với   5%  z  1,65 , ta có: Z  1,93  z  1,65
nên chấp nhận đối thiết H1 , tức là điều nghi ngờ khối
lƣợng sản phẩm tăng lên là đúng.
b) Lời giải tƣơng tự câu a)
Với   1%  z  2,33

106
Kết luận: Chấp nhận giả thiết H0, bác bỏ đối thiết H1 .
Vậy, điều nghi ngờ khối lƣợng của loại dƣợc phẩm này
tăng lên là không chấp nhận.
c) Ta tìm  sao cho z < 1,93, tra phân vị chuẩn
(phụ lục 1), ta có khi mức ý nghĩa   2,7% thì thì ta
vẫn bác bỏ giả thiết H0, tức là P – Value = 2,7%.
Ví dụ 4.2: Một nhóm ngƣời nghiên cứu tuyên bố rằng, tại
một khu vực dân cƣ trung bình một ngƣời chi tiêu mua
thuốc là 140 nghìn đồng/năm. Khảo sát ngẫu nhiên 50
ngƣời ở khu vực dân cƣ này, tính đƣợc số tiền trung bình
họ chi tiêu mua thuốc là 154 nghìn đồng/năm và độ lệch
chuẩn điều chỉnh của mẫu là s = 62 nghìn đồng. Với mức ý
nghĩa 5% hãy kiểm định xem tuyên bố của nhóm ngƣời
nghiên cứu có đúng hay không?
Giải
Gọi X số tiền mua mua thuốc của ngƣời dân ở khu
vực dân cƣ này,   E(X),  2  Var(X)
H :   140
* Ta có giả thiết  0
H1 :   140

* Tiêu chuẩn kiểm định: Z 


x   
0 n
s

Z
x   
0 n

154  140 50
 1,597
s 62
* Với   5%  z   1,96 , ta có: Z  1,597  z   1,96
2 2

nên chấp nhận H0:   140 , tức là tại khu vực dân cƣ trung
bình một ngƣời chi tiêu mua thuốc là 140 nghìn đồng/năm.

107
Ví dụ 4.3: Đƣờng kính của viên thuốc là BNN X có luật
phân phối chuẩn. Kiểm tra 28 viên thuốc thu đƣợc số liệu
nhƣ sau: (đơn vị tính mm)
20,10 20,05 20,03 19,98 20,00 20,02 20,01
20,00 20,02 19,99 19,97 20,02 19,99 19,96
19,97 20,00 20,00 20,02 20,03 19,97 20,00
20,01 20,04 19,99 20,03 20,02 20,00 20,04
Với mức ý nghĩa 5%, có thể cho rằng đƣờng kính trung
bình của viên thuốc loại này là 20mm hay không?
Giải
Gọi X là đƣờng kính viên thuốc và   E(X),  2  Var(X)
H :   20
* Ta có giả thiết  0
H1 :   20

* Tiêu chuẩn kiểm định: T 


x   
0 n
s
Với mẫu đã cho: n = 28, x = 20,0093mm, s = 0,0293mm.

T
x    0 n

 20,0093  20  28
 1,679
s 0,0293
* Với   5% và n = 28  t  ; n 1  2,052 , ta có:
2

T  1,679  t   2,052 nên chấp nhận H0, tức là


; n 1
2

đƣờng kính trung bình của viên thuốc loại này bằng 20mm.
One-Sample Test (Test Value = 20)
95% Confidence
Interval of the
Sig. (2- Mean Difference
T df tailed) Difference Lower Upper

108
ĐK viên
1,677 27 0,105 0,00929 -0,0021 0,0206
thuốc
Bảng kết quả kiểm định ví dụ 4.3 từ SPSS
4.2.2 Kiểm định giả thiết thống kê so sánh hai trung
bình của hai tổng thể độc lập
Gọi X là trung bình của X trên tổng thể 1, Y là trung
bình của X trên tổng thể 2. Để so sánh về hai giá trị trung
bình X , Y ta tiến hành khảo sát hai mẫu trên hai tổng thể
đƣợc số liệu quan sát: (x1, x2, …, xn1) là mẫu quan sát trên
tổng thể 1, (y1, y2, …, yn2) là mẫu quan sát trên tổng thể 2.
Các cặp giả thiết, đối thiết có thể đƣợc kiểm định:
H :   Y
(1)  0 X
H1 : X  Y
H :   Y
(2)  0 X
H1 : X  Y
H :   Y
(3)  0 X
H1 : X  Y
 Trường hợp biết 2
X ; 2
Y hoặc cỡ mẫu lớn (n1,
n2  30 ). Mô hình kiểm định z-test
Phương pháp thực hành kiểm định cho trường hợp
này như sau:
(i) Đặt giả thiết dạng (1) hoặc dạng (2) hoặc dạng
(3)
(ii) Chọn tiêu chuẩn kiểm định:
X Y X Y
Z hoặc Z 
 x2  y2 2
sx2 s y
 
nx ny nx n y

109
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm
định, suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị chuẩn z .
Quy tắc bác bỏ giả thiết H0 (dạng phân phối chuẩn
Z ~ N (0;1) :
 Nếu Z  z thì ta chấp nhận H1: X Y . Ngƣợc
2

lại, nếu Z  z thì ta chấp nhận H0: X Y .


2

 Nếu Z  z thì ta chấp nhận H1: X Y . Ngƣợc


lại nếu Z  z thì ta chấp nhận H0: X Y .
 Nếu Z   z thì ta chấp nhận H1: X Y . Ngƣợc
lại nếu Z   z thì ta chấp nhận H0: X Y .
 Trường hợp chưa biết 2
X ; 2
Y và cỡ mẫu nhỏ (Mô
hình kiểm định t-test)
Phương pháp thực hành kiểm định cho trường hợp này
như sau:
(i) Đặt giả thiết dạng (1) hoặc dạng (2) hoặc dạng
(3)
X Y
(ii) Chọn tiêu chuẩn kiểm định: T 
2
S x2 S y

nx n y
Nếu  X2   Y2 thì T ~ t( n1) (bậc tự do df  nx  ny  2 )

110
2
 S X2 SY2 
Nếu   
2 2
thì T ~ t( ) với    (bậc
X Y
  n1 n2 
2
2 2
 S X2   SY2 
   
 n1    n2 
n1  1 n2  1
tự do df   )
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm
định, suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị Student t ; n 1 .
Quy tắc bác bỏ giả thiết H0 (dạng phân phối
Student với bậc tự do (nx + ny – 2) hoặc bậc tự do  nhƣ
trên):
 Nếu T  t (hoặc T  t ) thì ta chấp
; nx  n y  2 ;
2 2

nhận H1 : X Y . Ngƣợc lại, nếu


T  t (hoặc T  t ) thì ta chấp nhận H0:
; nx  n y  2 ;
2 2

X Y .
 Nếu T  t ; nx  ny 2 (hoặc T  t ;  ) thì ta chấp nhận
H1 : X Y . Ngƣợc lại nếu T  t ; nx  ny 2 (hoặc
T  t ;  ) thì ta chấp nhận H0: X Y .
 Nếu T  t ; nx  ny 2 (hoặc T  t ;  ) thì ta chấp
nhận H1: X Y . Ngƣợc lại nếu T  t ; nx ny 2
(hoặc T  t ;  ) thì ta chấp nhận H0: X Y .
Ví dụ 4.4: Định lƣợng protein (mg%) toàn phần của hai nhóm
trẻ:
Nhóm I: nx = 36 ; x  47,3; sx  11, 25

111
Nhóm II: ny = 31; y  53,5; s y  10, 49
Protein trung bình của hai nhóm có nhƣ nhau không, với
mức ý nghĩa  = 5%?
Giải
H :   Y
* Ta có giả thiết:  0 X
H1 : X  Y
x y
* Tiêu chuẩn kiểm định: Z 
2
sx2 s y

nx n y
Với hai mẫu số liệu thực nghiệm ở hai nhóm trẻ:
Nhóm I: nx = 36 ; x  47,3; sx  11, 25
Nhóm II: ny = 31; y  53,5; s y  10, 49
x y 47,3  53,5
Z    2,33
2 2 2 2
s s 11, 25 10, 49
x
 y

nx n y 36 31
* Với   5%  z  1,96 , ta có: Z = 2,33  z  1,96
2 2

nên chấp nhận H1:  X  Y , tức là protein trung bình của


hai nhóm khác nhau, với mức ý nghĩa  = 5%.
Ví dụ 4.5: Tiến hành cho 20 ngƣời bị bệnh suyễn tham gia
thực nghiệm để đánh giá hiệu quả của 2 loại thuốc A, B
bằng cách đo FEV (lít/s) sau 2 giờ uống thuốc:
A 0 0,04 0,02 0,04 0,03 0,05 0,02 0 0,02 0,12
B 0,13 0,17 0,2 0,27 0,11 0,18 0,21 0,23 0,24 0,08

112
Đánh giá hiệu quả của hai loại thuốc trên với mức ý nghĩa
5%. Biết rằng phƣơng sai của FEV khi dùng hai loại thuốc
A, B là nhƣ nhau.
(FEV - Forced Expiratory Volume là thể tích khí thở ra tối
đa trong 1 giây đầu tiên sau khi hít vào hết sức. FEV đánh
giá mức độ thông thoáng của đƣờng dẫn khí và khả năng
giãn nở của phổi, FEV giảm trong một số bệnh gây thắt hẹp
đƣờng dẫn khí đặc biệt trong bệnh hen phế quản.
Giải
H :   Y
* Ta có giả thiết:  0 X
H1 : X  Y
x y
* Tiêu chuẩn kiểm định: T  2
s x2 s y

nx n y
Với hai mẫu số liệu thực nghiệm thuốc A và thuốc B, ta có:
nx  10; x  0,0340; sx  0,0344
n y  10; y  0,1820; s y  0,0605

x y
T    6,724
s2
s y2
x

nx n y
* Với   5%  t  2,101 , ta có:
; nx  ny  2
2

T  6,724  t  2,101 nên chấp nhận H1:  X  Y , tức


; nx  n y  2
2

là hàm lƣợng FEV của ngƣời bệnh sau khi uống thuốc A, B
là khác nhau.

113
Levene's Test
for Equality Independent Samples Test
of Variances t-test for Equality of Means
95% Confidence
Sig. Interval of the
(2- Mean Std. Error Difference
F Sig. T Df tailed) Difference Difference Lower Upper
Equal
variances
3,721 0,070 -6,724 18 0,000 -0,14800 0,02201 -0,194 -0,102
assumed

Equal
variances
-6,724 14,26 0,000 -0,14800 0,02201 -0,195 -0,101
not
assumed
Bảng kết quả kiểm định ví dụ 4.5 từ SPSS
4.2.3 Kiểm định giả thiết thống kê so sánh hai trung
bình của tổng thể với số liệu cặp.
Xét đặc tính X , Y( cùng đặc tính) trên cùng tổng thể.
 X là trung bình của X, Y là trung bình của Y. Để so
sánh hai giá trị trung bình  X và Y ta tiến hành khảo sát
hai mẫu với số liệu quan sát đƣợc lấy theo cặp nhƣ sau:
X x1 x2 … xn
Y y1 y2 … yn
Các cặp giả thiết, đối thiết có thể đƣợc kiểm định:
H :   Y
(1)  0 X
H1 : X  Y
H :   Y
(2)  0 X
H1 : X  Y
H :   Y
(3)  0 X
H1 : X  Y

114
Đặt D  X  Y   D   X  Y với Di  X i  Yi , i  1, 2,3,..., n
Khi đó, các cặp giả thiết, đối thiết có thể đƣợc kiểm định
tƣơng đƣơng là:
H :   0
(1)  0 D
H1 : D  0
H :   0
(2)  0 D
H1 : D  0
H :   0
(3)  0 D
H1 : D  0
Phương pháp thực hành kiểm định cho trường hợp này
như sau:
(i) Đặt giả thiết dạng (1) hoặc dạng (2) hoặc dạng
(3)
(ii) Chọn tiêu chuẩn kiểm định:
D n
T với D = X – Y
SD
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm
định, suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị Student t ; n 1 .
Quy tắc bác bỏ giả thiết H0 (dạng phân phối
Student T(n – 1) với bậc tự do (n – 1):
 Nếu T  t thì ta chấp nhận H1: D 0 . Ngƣợc
; n 1
2

lại, nếu T  t thì ta chấp nhận H0: D 0.


; n 1
2

 Nếu T  t ; n1 thì ta chấp nhận H1: D 0 . Ngƣợc


lại nếu T  t ; n1 thì ta chấp nhận H0: D 0.

115
 Nếu T  t ; n1 thì ta chấp nhận H1: D 0.
Ngƣợc lại nếu T  t ; n1 thì ta chấp nhận H0:

D 0.
Ví dụ 4.6: Để đánh giá hiệu quả của một loại nƣớc uống
tăng lực, ngƣời ta làm thực nghiệm bằng cách cho 10
ngƣời chạy trên một đoạn đƣờng (đơn vị là giây) trƣớc và
sau khi uống thuốc tăng lực (có thời gian nghỉ ngơi để hồi
phục thể lực), ngƣời ta ghi lại kết quả nhƣ sau:
Trƣớc khi uống thuốc tăng lực (X):
58 58 56 38 70 38 42 75 68 67
Sau khi khi uống thuốc tăng lực (Y):
57 55 63 24 67 43 33 68 56 54
Với mức ý nghĩa 5% cho kết luận về hiệu quả của việc
uống thuốc tăng lực (thời gian chạy trên cùng đoạn đƣờng
có giảm hay không).
Giải
H :   Y
*Ta có giả thiết:  0 X
H1 : X  Y
H :   0
hay giả thiết tƣơng đƣơng  0 D
H1 : D  0
d n
*Tiêu chuẩn kiểm định: T  với D = X – Y
sd
Trƣớc khi uống thuốc tăng lực (X):
58 58 56 38 70 38 42 75 68 67
Sau khi khi uống thuốc tăng lực (Y):
57 55 63 24 67 43 33 68 56 54
Với D = X – Y, ta có mẫu số liệu:
1 3 –7 14 3 –5 9 7 12 13

116
Với mẫu số liệu, ta có: n  10; d  5; sd  7,318
d n 5 10
T    2,161
sd 7,318
* Với mức ý nghĩa   5%  t ; n 1  1,833
Ta có: T  2,161  t ; n 1  1,833 nên Bác bỏ giả thiết H0 và
chấp nhận H1:  X > Y . Vậy uống thuốc tăng lực mang lại
hiệu quả.
Paired Samples Test
Paired Differences
95%
Confidence
Std. Interval of the Sig.
Std. Error Difference D (2-
Mean Deviation Mean Lower Upper t f tailed)
5.000 7,318 2,314 -0,235 10,235 2,161 9 0,059
Bảng kết quả kiểm định ví dụ 4.6 từ SPSS
4.2.4 Kiểm định giả thiết thống kê so sánh nhiều giá trị
trung bình của nhiều tổng thể
Giả sử X là đặc tính cần nghiên cứu, ta quan tâm đến
một yếu tố A nào đó. Vấn đề đặt ra là yếu tố A có ảnh
hƣởng đến đặc tính X không. Chẳng hạn: X là năng suất
của dƣợc liệu, ta cần khảo sát xem yếu tố địa lý có ảnh
hƣởng đến năng suất của dƣợc liệu hay không; X là thời
gian điều trị khỏi bệnh, ta quan tâm đến các phƣơng pháp
điều trị có ảnh hƣởng đến gian điều trị khỏi bệnh hay
không;…Ta tiến hành khảo sát đặc tính X trên k tổng thể
của yếu tố A, trên mỗi vùng ta khảo sát một mẫu, đƣợc
bảng số liệu quan sát:

117
Các tổng thể Các mẫu quan sát của X
của yếu tố A
1 x11 x12 … x1n1 x1
2 x21 x22 … x2n2 x2
. . . . . .
. . . . . .
. . . . . .
K xk1 xk2 … xknk xk
Giả thiết H0: 1  2  ...  k : Yếu tố A không ảnh
hƣởng đến đặc tính X
Đối thiết H1: Tồn tại cặp i   j ; i  j : Yếu tố A có ảnh
hƣởng đến đặc tính X
Ta sử dụng phương pháp phân tích phương sai một yếu tố (One
way ANOVA) với điều kiện các tổng thể của đặc tính X là các tổng
thể độc lập, có phân phối chuẩn và có các phương sai bằng nhau.
Phương pháp thực hành kiểm định cho trường hợp này như sau:
(i) Ta có giả thiết H0: Yếu tố A không ảnh hƣởng đến
đặc tính X
SSB
(ii) Tiêu chuẩn kiểm định: F MSB k 1
MSW SSW
n k
Trong đó:
n  n1  n2   nk là tổng số phần tử khảo sát.
Trung bình mẫu thứ i (dòng i), i=1, 2,… k

118
1 ni
xi   xij
n j 1
1 k ni
Trung bình chung của các mẫu gộp lại: x   xij
n i 1 j 1
Tổng bình phƣơng độ lệch trong nội bộ nhóm.
k ni k ni k
SSW   ( xij  xi ) 2   xij2   ni x i
2

i 1 j 1 i 1 j 1 i 1

Hoặc
k
SSW SSi (n1 1)S12 (n 2 1)S22 (n k 1)Sk2
i 1

Tổng bình phƣơng độ lệch giữa các nhóm:


2

 
k
SSB   ni xi  x
i 1

Tổng bình phƣơng độ lệch chung (toàn bộ):


k ni k ni
SST =  ( xij  x) 2   xij2  nx
2

i 1 j 1 i 1 j 1

Hoặc SST = SSB + SSW


(iii) Tra bảng xác định giá trị phân vị Fisher F ; k 1;n  k
Quy tắc bác bỏ giả thiết H0 : Nếu F > F ; k 1;n  k thì
ta bác bỏ H0 (Yếu tố A có ảnh hƣởng đến đặc tính X).
Ngƣợc lại, nếu F < F ; k 1;n  k thì ta chấp nhận H0 (Yếu tố A
không ảnh hƣởng đến đặc tính X).
Cách tra phân vị Fisher F ; k 1; n k :
Cho F là BNN có phân phối Fisher với n bậc tự do (k – 1;
n – k). Khi đó, với cho trƣớc luôn tồn tại giá trị F ; k 1; n k

119
sao cho P( F F ; k 1; n k ) . Xác định phân vị Fisher
F ; k 1; n  k bằng cách tra bảng phụ lục 4.
Ví dụ 4.7:
Với = 5%, ta có:
F ; 2; 21  19,023 (tra cột n1 = 2 và dòng n2 = 21) và
F ; 5; 30  2,53 (tra cột n1 = 5 và dòng n2 = 30)
ANOVA
Sum of Squares Df Mean Square F Sig.
Between Groups SSB k -1 MSB F p-value
Within Groups SSW n – k MSW
Total SST n -1
Bảng phân tích phương sai một yếu tố (ANOVA)
từ phần mềm SPSS
Ví dụ 4.8: Điều trị sốt rét bằng 3 cách (dùng thuốc nhóm
1, dùng thuốc nhóm 2 và dùng thuốc nhóm 3). Theo dõi
thời gian hết ký sinh trùng sốt rét trong máu (X; giờ) của
từng bệnh nhân (mỗi bệnh nhân đƣợc điều trị theo 1 cách)
thu đƣợc số liệu:
Cách 1 18 37 46 46 46 50,5 61,5 78 84,5 90
Cách 2 38 41 41,1 42 43,1 44,1 45,2 50 50 52
Cách 3 36 38 40 42 48 60 62 70 72 72
Với   5% , hãy cho biết hiệu quả điều trị của 3 cách
trên có khác nhau không (thời gian hết ký sinh trùng sốt rét
trong máu có nhƣ nhau không)?
Giải
* Ta có giả thiết H0: Hiệu quả điều trị của 3 cách trên khác
nhau là không ý nghĩa

120
SSB
* Tiêu chuẩn kiểm định: F MSB k 1
MSW SSW
n k
Với các mẫu số liệu, ta có:
n1 10; x1 55,750; s1 22,6498 ss1 4617,121
n2 10; x 2 44,650; s2 4,6121 ss2 191,443
n3 10; x 3 54; s3 14,7573 ss3 1960,001
n1 x 1 n 2 x 2 n 3 x 3
x 51, 467
n1 n 2 n 3
SSW ss1 ss 2 ss3
(n1 1)s12 (n 2 1)s 22 (n 3 1)s32
9 22,64982 9 4,61212 9 14,75732
4617,121 191, 443 1960,001 6768,565
SSB n1 (x1 x) 2 n 2 (x 2 x) 2 n 3 (x 3 x) 2
10(55,750 51, 467) 2 10(44,650 51, 467) 2 10(54 51, 467) 2
712,317
SSB 712,317
MSB k 1 3 1
F 1, 421
MSW SSW 6768,565
n k 30 3
* Với   5%  F ; k 1; n  k =F0,05; 2; 27 3,354 , ta có:
F=1,421<F ; k 1; n k 3,354 nên chấp nhận H0, tức là hiệu
quả điều trị của 3 cách trên khác nhau không có ý nghĩa
(thời gian hết ký sinh trùng sốt rét trong máu bằng nhau).
ANOVA
Sum of Squares Df Mean Square F Sig.
Between Groups 712,317 2 356,158 1,421 0,259
Within Groups 6768,570 27 250,688

121
Total 7480,887 29
Bảng kết quả phân tích ANOVA ví dụ 4.8 từ SPSS
4.3 KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ VỀ TỈ LỆ
(P) CỦA TỔNG THỂ
4.3.1 Kiểm định giả thiết thống kê về so sánh trị tỉ lệ (p)
của tổng thể với một giá trị cho trƣớc (so sánh tỉ lệ thực
nghiệm với tỉ lệ lý thuyết)
Xét đặc tính X trên tổng thể nghiên cứu, tham số p là tỉ
lệ các phần tử có dấu hiệu T. Chẳng hạn: p là tỉ bệnh trong
dân số; p là tỉ lệ điều trị khỏi bệnh của một loại thuốc,…
Phương pháp thực hành kiểm định cho trường hợp này
như sau:
(i) Ta có giả thiết kiểm định:
H 0 : p  p 0 H : p  p 0 H : p  p 0
 hoặc  0 hoặc  0
H1 : p  p0 H1 : p  p0 H1 : p  p0
(f  p 0 ) n
(ii) Tiêu chuẩn kiểm định: Z  ,
p 0 1  p0 
m
với f  là tỷ lệ mẫu, n kích thƣớc mẫu
n
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm định,
suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị chuẩn z .
 Nếu Z  z thì ta chấp nhận H1: p  p 0 . Ngƣợc
2

lại, nếu Z  z thì ta chấp nhận H0: p  p 0 .


2

 Nếu Z  z thì ta chấp nhận H1: p  p 0 . Ngƣợc lại


nếu Z  z thì ta chấp nhận H0: p  p 0 .

122
 Nếu Z   z thì ta chấp nhận H1: p  p0 . Ngƣợc
lại nếu Z   z thì ta chấp nhận H0: p  p 0 .
Ví dụ 4.9: Điều tra ở tỉnh H 200000 ngƣời đƣợc chọn ngẫu
nhiên thấy có 67 ngƣời bị lao. Theo báo cáo, tỉ lệ bị lao ở
địa phƣơng này bằng 0,0005. Với mức ý nghĩa 5%, hãy
cho biết báo cáo đáng tin cậy không?
Giải
* Gọi p là tỉ lệ bị lao ở tỉnh H
H : p  0,0005
Ta có giả thiết kiểm định:  0
H1 : p  0,0005
(f  p 0 ) n
* Tiêu chuẩn kiểm định: Z 
p 0 1  p0 
m 67
Với n  200000  f    0,000335
n 200000
0,000335  0,0005
Z  200000  3,3
0,0005  0,9995
* Với   5%  z  1,96 , ta thấy: Z  3,3  z  1,96
2 2

nên chấp nhận H1, tức là báo cáo không đáng tin cậy (tỉ lệ
bị lao ở địa phƣơng này không bằng 0,0005)
4.3.2 Kiểm định giả thiết thống kê so sánh hai tỉ lệ của
hai tổng thể.
Xét đặc tính X trên hai tổng, px là tỉ lệ của các phần tử có
dấu hiệu T trên tổng thể thứ nhất và py là tỉ lệ của các phần
tử có dấu hiệu T trên tổng thể thứ hai. Phương pháp thực
hành kiểm định cho trường hợp này như sau:
(i) Ta có giả thiết kiểm định:

123
H 0 : p X  p Y H : p  p Y H 0 : p X  p Y
 hoặc  0 X hoặc 
H1 : p X  p Y H1 : p X  p Y H1 : p X  p Y
(ii) Tiêu chuẩn kiểm định:
fX  fY
Z
 1 1 
p* 1  p*    
 nX nY 
mX  mY n Xf X  n Yf Y
Với p*  
nX  nY nX  nY
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm định,
suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị chuẩn z (kiểm
định 1 phía, H1: px  p y ; H1: px  p y ) hay z (kiểm
2

định 2 phía, H1: px  p y )


 Nếu Z  z thì ta chấp nhận H1: px  p y . Ngƣợc
2

lại, nếu Z  z thì ta chấp nhận H0: px  p y .


2

 Nếu Z  z thì ta chấp nhận H1: px  p y . Ngƣợc


lại nếu Z  z thì ta chấp nhận H0: px  p y .
 Nếu Z   z thì ta chấp nhận H1: px  p y . Ngƣợc
lại nếu Z   z thì ta chấp nhận H0: px  p y .
Ví dụ 4.10: Ngƣời ta chiếu xạ liều 3000 Rơn ghen vào một
quần thể ruồi giấm ở thế hệ F1:
Ruồi giấm Số con chiếu xạ Số con đột biến
Không cho ăn đƣờng 805 80
Có cho ăn đƣờng 2756 357

124
Cho ăn đƣờng có ảnh hƣởng đến tỉ lệ đột biến của ruồi
giấm không, với mức ý nghĩa 5%?
Giải
kiểm định cho trường hợp này như sau:
H : p  p Y
* Ta có giả thiết kiểm định:  0 X
H1 : p X  p Y
* Tiêu chuẩn kiểm định:
fX  fY m  mY
Z với p*  X
 1 1  nX  nY
p* 1  p*    
 nX nY 
Với mẫu số liệu, ta có:
mx 80
nx  805; fx    0, 0994
nx 805
my 357
ny  2756; fy    0,1295
ny 2756
mx  my 80  357
p*    0,1227
nx  n y 805  2756
0, 0994  0,1295
Z   2, 290
 1 1 
0,1227(1  0,1227)   
 805 2756 
* Với   5%  z  1,96 , ta thấy:
2

Z  2, 290  z  1,96 nên chấp nhận H1, tức là cho ăn


2

đƣờng có ảnh hƣởng đến tỉ lệ đột biến của ruồi giấm,


với mức ý nghĩa 5%?
4.3.3 Kiểm định giả thiết thống kê so sánh nhiều tỉ lệ
của tổng thể

125
Xét đặc tính X trên k tổng thể và T1, T2, …, Tn là các
dấu hiệu cần quan tâm trên mỗi tổng thể. Vấn đề cần kiểm
định là: tỉ lệ của các dấu hiệu T1, T2, …, Tn trên các tổng
thể tƣơng ứng có nhƣ nhau không? Thực ra đây chính là
bài toán kiểm định tính độc lập của hai BNN. Bảng số liệu
mẫu đƣợc mô tả:
T1 T2 … Tn Tổng
Mẫu trên tổng thể thứ 1 n11 n12 … n1n r1
Mẫu trên tổng thể thứ 2 n21 n22 … n2n r2
… ... … … … …
Mẫu trên tổng thể thứ k nk1 nk2 … nkn rm
Tổng c1 c2 … cn N
Ta sử dụng kiểm định Chi-test để kiểm định giả thiết các tỉ
lệ bằng nhau. Phương pháp thực hành kiểm định cho
trường hợp này như sau:
(i) Ta có giả thiết H0: Các tỉ lệ tƣơng ứng khác nhau
không ý nghĩa (Các tỉ lệ tƣơng ứng bằng nhau)
(ii) Tiêu chuẩn kiểm định:
k n (nij  nij )2 r c
 2   với nij  i j
i 1 j 1 nij n
với r i là tổng theo dòng thứ i và c j là tổng theo cột thứ j
(nij : tần số thực nghiệm; nij : tần số lý thuyết)
(iii) Quy tắc quyết định: Nếu  2   2 ;(k 1)( n1) thì ta
chấp nhận H1 ; ngƣợc lại, thì ta chấp nhận H0.
Ví dụ 4.11: Bốn loại thuốc chữa cùng một loại bệnh B, khảo
sát trên bốn nhóm bệnh nhân (mỗi nhóm dùng một loại
thuốc), đƣợc kết quả:
Thuốc 1 Thuốc 2 Thuốc 3 Thuốc 4

126
Khỏi bệnh 123 95 152 132
Không khỏi bệnh 28 19 63 53
Hiệu quả của 4 loại thuốc có nhƣ nhau không? với mức ý
nghĩa 5%
Giải
*Ta có giả thiết kiểm định H0: Hiệu quả của các loại thuốc
khác nhau là không có ý nghĩa.
(nij  nij ) 2
k n
* Tiêu chuẩn kiểm định:    2

i 1 j 1 nij
Thuốc Thuốc Thuốc Thuốc
1 2 3 4 Tổng
Khỏi bệnh nij 123 95 152 132 502
nij (tần số lý
thuyết) 113,988 86,057 162,301 139,654 502
Không Khỏi
bệnh nij 28 19 63 53 163
nij (tần số lý
thuyết) 37,012 27,943 52,699 45,346 163

Tổng 151 114 215 185 665


r c 502 151
(Ta tính n11  113,988 vì nij  i j   113,988 ,
n 665
lấy tổng dòng 1 là 502 nhân với tổng cột 1 là 151 và chia
cho tổng số khảo sát là 665)
c (nij  nij )2
r
   
2

i 1 j 1 nij

127
(123  113,988)2 (95  86, 057)2 (53  45,346)2
2      11, 077
113,988 86, 057 45, 346

* Với   5%   2 ; (k 1)(n 1)   20,05; (21)(41)   20,05; 3  7,815 ,


ta thấy  2  11, 077   2 ; ( k 1)( n1)  7,815 nên chấp nhận H1,
tức là hiệu quả của 4 loại thuốc khác nhau có ý nghĩa.
4.4 KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ VỀ
PHƢƠNG SAI (  2 ) CỦA TỔNG THỂ
Cho X là đặc tính cần nghiên cứu,  2 là phƣơng sai của
X cần kiểm định. Để kiểm định các thông tin của phƣơng
sai  2 ta tiến hành quan sát mẫu, đƣợc số liệu quan sát (x1,
x2,…,xn)
4.4.1 Kiểm định giả thiết thống kê về so sánh phƣơng
sai (  2 ) của tổng thể với một giá trị cho trƣớc (So sánh
phương sai thực nghiệm với phương sai lý thuyết)
Giả sử 2 là phƣơng sai của tổng thể (phƣơng sai của biến
ngẫu nhiên X, Var(X) = σ2). Ta sử dụng kiểm định Chi-test
để kiểm định, phương pháp thực hành kiểm định cho
trường hợp này như sau:
(i) Ta có sác cặp giả thiết, đối thiết kiểm định:
H 0 :  2   02 H 0 :  2   02 H 0 :  2   02
 hoặc  hoặc 
H1 :    0 H1 :    0 H1 :    0
2 2 2 2 2 2

( n  1) S 2
(ii) Tiêu chuẩn kiểm định:   2

 02
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm
định, suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị chi bình phƣơng
2
;n 1

128
 Nếu  2   2  hoặc 2 2
thì ta chấp nhận
1 ;n 1 ;n 1
2 2

H1 :   . 2 2
0 Ngƣợc lại, nếu 2 >
2    2   2 hoặc thì ta chấp nhận H0:
1 ;n 1 ;n 1
2 2

 2   02 .
 kNếu 2 2
;n 1 thì ta chấp nhận H1:  2   02 .
Ngƣợc lại nếu 2 2
;n 1 thì ta chấp nhận H0:
 2   02 .
 Nếu 2 2
1 ;n 1 thì ta chấp nhận H1:  2   02 .
Ngƣợc lại nếu 2 2
1 ;n 1 thì ta chấp nhận H0:
 2   02 .
Ví dụ 4.12: Khối lƣợng của một loại dƣợc phẩm do hệ
thống máy sản xuất là BNN X có luật phân phối chuẩn, với
tiêu chuẩn phƣơng sai quy định là  2 = 15 g2 . Sau một thời
gian sản xuất, ngƣời ta nghi ngờ rằng khối lƣợng của dƣợc
phẩm đƣợc sản xuất ra không ổn định. Kiểm tra 25 dƣợc
phẩm, tính đƣợc phƣơng sai điều chỉnh mẫu s 2  26g 2 .
Với mức ý nghĩa 1%, hãy kết luận về nghi ngờ trên.
Giải
H 0 :  2  15g 2
* Ta có giả thiết kiểm định: 
H1 :   15g
2 2

* Tiêu chuẩn kiểm định:  



2 n  1 s 2
2
0
Với số liệu đã cho, suy ra:

129
 
2  n  1 s 2  25  1 26 
  41,6
0
2
15
* Với   1%   2 ; n 1   20,01; 24  42,980 , ta thấy
 2  41, 6   2 ; n1  42,980 nên chấp nhận H0, tức là điều
nghi ngờ là sai (khối lƣợng của dƣợc phẩm đƣợc sản xuất
ra vẫn ổn định theo quy định)
4.4.2 Kiểm định giả thiết thống kê so sánh hai phƣơng
sai của tổng thể
Xét đặc tính X trên tổng thể thứ nhất với phƣơng sai  X2 ,
đặc tính Y trên tổng thể thứ hai với phƣơng sai  Y2 . Để so
sánh hai phƣơng sai  X2 ,  Y2 ta tiến hành khảo sát hai mẫu
đƣợc số liệu mẫu là: (x1, x2,…,xn) trên tổng thể thứ nhất;
(y1, y2,…,ym) trên tổng thể thứ hai. Ta sử dụng kiểm định
Fisher (F-test) để kiểm định, phương pháp thực hành kiểm
định cho trường hợp này như sau:

(i) Ta có cặp giả thiết, đối thiết kiểm định:


H 0 :  X2   Y2 H 0 :  X   Y
2 2
H 0 :  X2   Y2
 hoặc  hoặc 
H1 :  X   Y H1 :  X   Y H1 :  X   Y
2 2 2 2 2 2

S x2
(ii) Tiêu chuẩn kiểm định: F
S y2
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm định,
suy ra giá trị kiểm định.
(iii) Tra bảng xác định giá trị phân vị Fisher
F ; nx 1;n y 1
Quy tắc bác bỏ giả thiết H0 :

130
 Nếu F F ; nx 1;n y 1 thì ta chấp nhận H1:  X2   Y2 .
Ngƣợc lại, nếu F F ; nx 1;n y 1 thì ta chấp nhận H0:
 X2   Y2 .
 Nếu F F1 ; nx 1;n y 1 thì ta chấp nhận H1:  X2   Y2 .
Ngƣợc lại, nếu F F1 ; nx 1;n y 1 thì ta chấp nhận H0:
 X2   Y2 .
 Nếu F F hoặc F F thì ta
; nx 1;n y 1 1 ; nx 1;n y 1
2 2

chấp nhận H1 :   .
2
X
2
Y Ngƣợc lại, nếu
F F F thì ta chấp nhận H0:
1 ; nx 1;n y 1 ; nx 1;n y 1
2 2

 X2   Y2 .
Ví dụ 4.13: Tiến hành cho 20 ngƣời bị bệnh suyễn tham
gia thực nghiệm để đánh giá hiệu quả của 2 loại thuốc A, B
bằng cách đo FEV (lít/s) sau 2 giờ uống thuốc:
A 0 0,04 0,02 0,04 0,03 0,05 0,02 0 0,02 0,12
B 0,13 0,17 0,2 0,27 0,11 0,18 0,21 0,23 0,24 0,08
Với mức ý nghĩa 10%, phƣơng sai của FEV khi dùng
hai loại thuốc A, B có bằng nhau hay không?
Giải
H 0 :  X2   Y2
* Ta có giả thiết: 
H1 :  X   Y
2 2

S x2
* Tiêu chuẩn kiểm định: F  2
Sy
Với hai mẫu số liệu thực nghiệm thuốc A và thuốc B, ta có:

131
nx  10; x  0,0340; sx  0,0344
n y  10; y  0,1820; s y  0,0605
s y2 0,06052
F   3,093
sx2 0,03442
* Với 10% F F0,05; 9;9 3,179 , ta có:
; nx 1;n y 1
2

F 3,093 F 3,179 nên chấp nhận


; nx 1;n y 1
2

H 0 :  X2   Y2 , tức là phƣơng sai của FEV khi dùng hai loại


thuốc A, B là bằng nhau.
4.5 KIỂM ĐỊNH SỰ PHÙ HỢP CỦA QUY LUẬT
PHÂN PHỐI
Xét X là đặc tính có hàm mật độ xác suất f(x) chƣa
biết. Để kiểm định những thông tin về dạng của f(x) ta tiến
hành khảo sát mẫu đƣợc số liệu quan sát:
X x 1 - x2 x2 – x3 … xk - xk+1
Số phần tử n1 n2 … nk
Ta sử dụng kiểm định Chi-test để kiểm định giả thiết các tỉ
lệ bằng nhau. Phương pháp thực hành kiểm định cho
trường hợp này như sau:
(i) Ta có giả thiết H0: f (x) f * (x) (Đối thiết H1:
f (x) f * (x) ), với f * (x) là hàm mật độ của phân
phối cần kiểm định.
k
(n i  npi ) 2
(ii) Tiêu chuẩn kiểm định:    2

i 1 npi
Trong đó:
k
ni là tần số của giá trị xi và n   ni
i 1

132
P( X xi ) f * ( xi ), X rời rạc
xi
pi 1

P( xi X xi 1 ) f * ( x)dx, X liên tục


xi

Tính các tham số mẫu, thế vào tiêu chuẩn kiểm định,
suy ra giá trị kiểm định.
(iii) Quy tắc quyết định: Nếu  2   2 ; k r 1 , (r là số
tham số của phân phối cần kiểm định) thì ta chấp nhận H1.
Ngƣợc lại, thì ta chấp nhận H0.
Ví dụ 4.14: Quan sát một chất phóng xạ trong 2608 khoảng
thời gian bằng nhau mỗi khoảng 7,5s. trong mỗi khoảng
thời gian đó ta ghi lại số hạt rơi vào trong máy đếm, đƣợc
bảng số liệu:
x 0 1 2 3 4 5 6 7 8 9 10
ni 57 203 383 525 532 408 273 139 45 27 16
Có thể kết luận “số hạt phóng xạ đƣợc phóng ra trong mỗi
khoảng thời gian có phân phối Poisson”, chấp nhận đƣợc
không, với mức ý nghĩa 5% .
Giải
 x
(i) Ta có giả thiết H0: f ( x)  e có phân phối
x!
Poisson.
(n i  npi ) 2 k
(ii) Tiêu chuẩn kiểm định:    2

i 1 npi
Với mẫu số liệu, ta có:
x
n = 2608; r =1; k =11; f ( x)  e  ,   x  3,867
x!
3,867 3,867i
pi  P( X  i)  e ; i  1, 2, ,10
i!
133
3,8670
 p0  P( X  i)  e3,867  0,021
0!
1
3,867 3,867
p1  P( X  1)  e  0,081
1!
Tƣơng tự ta có: p2 = 0,156; p3 =0,202; p4 =0,195;
p5 = 0,151; p6 = 0,097, p7 = 0,054; p8 = 0,026; p9 = 0,011;
p10 = 0,004
(n i  npi )2
k
 2

i 1 npi
(57  2608  0,021)2 (16  2608  0,004)2
    15,761
2608  0,021 2608  0,004
iii) Với 5%  2 ; k r 1   2 0,05; 1111   20,05; 9  16,919
(r = 1 vì phân phối Poisson có tham số là số tham số  nên
  x ).
Ta thấy  2   2 ; k  r 1 , (r là số tham số của phân phối cần
kiểm định) nên chấp nhận H0, tức là số hạt phóng xạ đƣợc
phóng ra trong mỗi khoảng thời gian tuân theo phân phối
Poisson.
4.6 KIỂM ĐỊNH SỰ ĐỘC LẬP CỦA HAI ĐẶC TÍNH
Để kiểm định tính độc lập của hai BNN X,Y (biến định
tính) ta tiến hành quan sát mẫu và lập thành bảng số liệu:
X x1 x2 … xc Tổng
Y
y1 n11 n12 … n1c r1
y2 n21 n22 … n2c r2
. . . . . .
. . . . . .
. . . . . .

134
yr nc1 nc2 … ncc rk
Tổng c1 c2 … cc N
Ta sử dụng kiểm định Chi-test để kiểm định giả
thiết các tỉ lệ bằng nhau. Phương pháp thực hành kiểm
định cho trường hợp này như sau:
(i) Ta có giả thiết H0: X, Y độc lập (Đối thiết H1: X, Y
không độc lập)
(ii) Tiêu chuẩn kiểm định:
c r (nij  nij )2 r c
  
2
với nij  i j
i 1 j 1 nij n
với r i là tổng theo dòng thứ i và c j là tổng theo cột thứ j
(nij : tần số thực nghiệm; nij : tần số lý thuyết)
(iii) Quy tắc quyết định: Nếu  2   2 ; (c 1)(r 1) thì ta
chấp nhận H1 ; ngƣợc lại, thì ta chấp nhận H0.
Ví dụ 4.15: Trong một nghiên cứu về mối liên hệ giữa
loãng xƣơng và thoái hóa khớp, các nhà nghiên cứu đã
quan sát mẫu thực nghiệm ở những ngƣời từ 60 tuổi trở
lên, kết quả nhƣ sau:
Thoái hóa Không thoái
khớp hóa khớp
Loãng xƣơng 108 45
Không loãng xƣơng 392 355
Với mức ý nghĩa 5%, có thể cho rằng có mối liên hệ giữa
loãng xƣơng và thoái hóa khớp hay không?
Giải
* Ta có giả thiết H0: Giữa loãng xƣơng và thoái hóa khớp
không có mối liên hệ.
* Tiêu chuẩn kiểm định:

135
c (nij  nij )2
r r c
  
2
với nij  i j
i 1 j 1 nij n
Không
Thoái hóa
thoái hóa
khớp
khớp Tổng
Loãng xƣơng nij 108 45 153
nij (tần số lý
85 68
thuyết) 153
Không loãng
xƣơng nij 392 355
747
nij (tần số lý
thuyết) 415 332 747
Tổng 500 400 900
r c 747  400
  332 vì nij  i j 
(Ta tính n22  332 , lấy tổng
n 900
dòng 2 là 747 nhân với tổng cột 2 là 400 và chia cho tổng
số khảo sát là 900)
c (nij  nij )2
r
   
2

i 1 j 1 nij
(108  85)2 (45  68)2 (392  415)2 (355  332)2
2      16,871
85 68 415 332
* Với   5%   2 ; ( k 1)( n1)   20,05; (21)(21)   20,05;1  3,841 ,
ta thấy  2  16,871   2 ; ( k 1)( n 1)  3,841 nên chấp nhận H1,
tức là, có thể cho rằng có mối liên hệ giữa loãng xƣơng và
thoái hóa khớp, với mức ý nghĩa 5%.
4.7 KIỂM ĐỊNH PHI THAM SỐ (NONPARAMETRIC
TESTS)
Kiểm định phi tham số đƣợc sử dụng trong những trƣờng
hợp dữ liệu không có phân phối chuẩn, hoặc cho các mẫu

136
nhỏ có ít đối tƣợng. Kiểm định phi tham số cũng đƣợc
dùng cho các dữ liệu định danh (nominal), dữ liệu thứ bậc
(ordinal) hoặc dữ liệu khoảng cách (interval) không có
phân phối chuẩn. Nhƣợc điểm của kiểm định phi tham số
là khả năng tìm ra đƣợc sự sai biệt kém, không mạnh nhƣ
các phép kiểm có tham số t – test, One way ANOVA,….
So sánh một số dạng giữa kiểm định phi tham số và có
tham số
Kiểm định Kiểm định phi Kiểm định có tham số
tham số
Hai mẫu bắt Kiểm định dấu Phép kiểm T với mẫu
cặp (Sign test) hoặc phối hợp từng cặp
kiểm định dấu và (Paired-Samples t test)
hạng (Wilcoxon
test)

Hai mẫu Kiểm định Mann- Phép kiểm T với 2 mẫu


độc lập Whitney độc lập (Independent-
Samples t test)

Lớn hơn 2 Kiểm định ANOVA một chiều


mẫu độc lập Kruskal-Wallis

Kiểm định Spearman Pearman


tƣơng quan
Bảng so sánh giữa kiểm định phi tham số và có tham số
Trong chƣơng này, chỉ trình bày minh họa một vài dạng
kiểm định phi pham số:
4.7.1 Kiểm định dấu và hạng Wilcoxon

137
Kiểm định dấu và hạng Wilconxon cho phép kiểm định sự
sai khác trung bình trên hai tổng thể đối với mẫu cặp khi giả
thiết về phân phối chuẩn, phƣơng sai bằng nhau của hai tổng
thể đó không thỏa mãn. Phương pháp thực hành kiểm định
Wilconxon cho trường hợp này như sau:
(i) Ta có giả thiết kiểm định:
H 0 : X  Y H :   Y H :   Y
 hoặc  0 X hoặc  0 X
H1 : X  Y H1 : X  Y H1 : X  Y
(ii) Chọn tiêu chuẩn kiểm định:
 n(n  1) 
 W- 
Z  4  , với W là tổng hạng của
n(n+1)(2n+1)
24
nhóm có chêch lệch dƣơng.
n1 (n1  n2  1)
R1 
Z 2
n1n2 (n1  n2  1)
12
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm
định, suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị chuẩn z
Quy tắc bác bỏ giả thiết H0 (dạng phân phối chuẩn
Z ~ N (0;1) :
 Nếu Z  z thì ta chấp nhận H1: X Y . Ngƣợc
2

lại, nếu Z  z thì ta chấp nhận H0: X Y .


2

 Nếu Z  z thì ta chấp nhận H1: X Y . Ngƣợc


lại nếu Z  z thì ta chấp nhận H0: X Y .

138
 Nếu Z   z thì ta chấp nhận H1: X Y . Ngƣợc
lại nếu Z   z thì ta chấp nhận H0: X Y .
Ví dụ 4.16: Điều trị 10 bệnh nhân có ferritin máu cao,
lƣợng ferritin máu trƣớc và sau điều trị đƣợc ghi nhận là:

Thứ tự Lƣợng ferritin máu (ng/ml)


bệnh nhân Trƣớc điều trị Sau điều trị
1 1800 800
2 1200 500
3 1000 400
4 900 1000
5 800 950
6 700 450
7 600 400
8 500 200
9 550 550
10 400 100
Hàm lƣợng ferritin trong máu của bệnh nhân trƣớc và sau
điều trị có nhƣ nhau không, với mức ý nghĩa 5%?
Giải
H :   Y
* Ta có giả thiết kiểm định:  0 X
H1 : X  Y
* Tiêu chuẩn kiểm định:

139
 n(n  1) 
 W- 
Z  4  , với R là tổng hạng của mẫu 1
1
n(n+1)(2n+1)
24
Với số liệu mẫu, ta có:
Lƣợng ferritin Trƣớc Hạng (theo độ lớn của
Thứ tự máu (ng/ml) điều trị – chệnh lệch), thống kê
bệnh Sau điều hạng theo nhóm có
nhân Trƣớc Sau
trị chênh lệch dƣơng và âm
điều trị điều trị
1 1800 800 1000 9
2 1200 500 700 8
3 1000 400 600 7
4 900 1000 -100 2
5 800 950 -150 1
6 700 450 250 4
7 600 400 200 3
8 500 200 300 5,5
9 550 550 0
10 400 100 300 5,5
Tổng hạng 42
 n(n  1)   9(9  1) 
 W-   42- 
Z  4 
  4 
 2,3102
n(n+1)(2n+1) 9(9+1)(18+1)
24 24

140
* Với 5% z  1,96 , ta thấy
2

Z  2,3102  z  1,96 nên chấp nhận H1, tức là Hàm


2

lƣợng ferritin trong máu của bệnh nhân trƣớc và sau điều
trị không bằng nhau, với mức ý nghĩa 5%.

Ranks
Mean Sum of
N Rank Ranks
ferritin.sau - Negative
7a 6,00 42,00
ferritin.truoc Ranks
Positive
2b 1,50 3,00
Ranks
Ties 1c
Total 10
a. ferritin.sau < ferritin.truoc
b. ferritin.sau > ferritin.truoc
c. ferritin.sau = ferritin.truoc

Test Statisticsa
ferritin.sau - ferritin.truoc
Z -2,312b
Asymp. Sig. (2-
0,021
tailed)
a. Wilcoxon Signed Ranks Test
b. Based on positive ranks.
Bảng kết quả kiểm định Wilcoxon ví dụ 4.16 từ SPSS
4.7.2 Kiểm định Mann- Whitney
Giống nhƣ kiểm định Wilconxon, kiểm định Mann-
Whitney kiểm định giả thiết về sự bằng nhau của trung bình

141
hai tổng thể, song nó đƣợc thực hiện dựa trên hai mẫu độc lập.
Phương pháp thực hành kiểm định Mann-Whitney cho
trường hợp này như sau:
(i) Ta có giả thiết kiểm định:
H 0 : X  Y H :   Y H :   Y
 hoặc  0 X hoặc  0 X
H1 : X  Y H1 : X  Y H1 : X  Y
(ii) Chọn tiêu chuẩn kiểm định:
 n1n 2 
 U- 
Z  2 
n1n 2 (n1 +n 2 +1)
12
n 2 (n 2  1) n 2
với U  n1n 2    Ri
2 i n1 1

Ri: hạng của các đối tƣợng ở nhóm 2


Tính các tham số mẫu, thế vào tiêu chuẩn kiểm định, suy
ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị chuẩn z
Quy tắc bác bỏ giả thiết H0 (dạng phân phối chuẩn
Z ~ N (0;1) :
 Nếu Z  z thì ta chấp nhận H1: X Y . Ngƣợc
2

lại, nếu Z  z thì ta chấp nhận H0: X Y .


2

 Nếu Z  z thì ta chấp nhận H1: X Y . Ngƣợc


lại nếu Z  z thì ta chấp nhận H0: X Y .
 Nếu Z   z thì ta chấp nhận H1: X Y . Ngƣợc
lại nếu Z   z thì ta chấp nhận H0: X Y .

142
Ví dụ 4.17: So sánh lƣợng ferritin máu giữa 2 nhóm bệnh
nhân có và không uống rƣợu.

Thứ tự Lƣợng ferritin máu (ng/ml)


bệnh nhân Không uống rƣợu Có uống rƣợu
1 400 4500
2 360 1200
3 300 900
4 100 700
5 80 400
6 70 350
7 50 90
8 30 60
Hàm lƣợng ferritin trong máu của hai nhóm bệnh nhân có
nhƣ nhau không, với mức ý nghĩa 5%?
Giải
H :   Y
* Ta có giả thiết kiểm định:  0 X
H1 : X  Y
* Tiêu chuẩn kiểm định:
 n1n 2 
 U- 
Z  2 
n1n 2 (n1 +n 2 +1)
12
n 2 (n 2  1) n 2
với U  n1n 2    Ri
2 i n1 1

Ri: hạng của các đối tƣợng ở nhóm 2


Với số liệu mẫu, ta có:

143
Lƣợng ferritin máu (ng/ml) Hạng
Thứ tự
bệnh nhân Không uống Có uống Không Có uống
rƣợu rƣợu uống rƣợu rƣợu
1 400 4500 11,5 16
2 360 1200 10 15
3 300 900 8 14
4 100 700 7 13
5 80 400 5 11,5
6 70 350 4 9
7 50 90 2 6
8 30 60 1 3
Tổng hạng 48,5 87,5
n 2 (n 2  1) n 2 8(8  1)
 U  n1n 2    Ri  8  8   87,5  12,5
2 i n1 1 2
 n1n 2  88
 U-  12,5 
và Z   2 
 2  2,0479
n1n 2 (n1 +n 2 +1) 8  8(8+8+1)
12 12
* Với 5% z  1,96 , ta thấy
2

Z  2,0479  z  1,96 nên chấp nhận H1, tức là Hàm


2

lƣợng ferritin trong máu của hai nhóm bệnh nhân có uống
rƣợu và không uống rƣợu là không bằng nhau, với mức ý
nghĩa 5%.

144
Ranks
Mean Sum of
Ma.ferritin.ruou N Rank Ranks
ferritin.ruou 1 8 6.06 48.50
2 8 10.94 87.50
Total 16

Test Statisticsa
ferritin.ru
ou
Mann-Whitney U 12,500
Wilcoxon W 48,500
Z -2,049
Asymp. Sig. (2-tailed) 0,040
Exact Sig. [2*(1-tailed Sig.)] 0,038b
a. Grouping Variable: Ma.ferritin.ruou
b. Not corrected for ties.
Bảng kết quả kiểm định Wilcoxon ví dụ 4.17 từ SPSS
4.7.3 Kiểm định Kruskal-Wallis
Ta áp dụng kiểm định Kruskal-Wallis để kiểm định giả
thiết thống kê so sánh nhiều giá trị trung bình của nhiều
tổng thể trong trường hợp số liệu không thỏa điều kiện
phân tích phương tích phương sai –ANOVA
Ta cũng xét bảng số liệu quan sát nhƣ sau:

145
Các tổng thể Các mẫu quan sát của X
của yếu tố A
1 x11 x12 … x1n1 x1
2 x21 x22 … x2n2 x2
. . . . . .
. . . . . .
k . . . . .
xk1 xk2 … xknk xk
Giả thiết H0: 1  2  ...  k : Yếu tố A không ảnh
hƣởng đến đặc tính X
Đối thiết H1: Tồn tại cặp i   j ; i  j : Yếu tố A có ảnh
hƣởng đến đặc tính X
Ta sử dụng phương pháp kiểm định Kruskal-Wallis để kiểm
định giả thiết H0: 1  2  ...  k . Phương pháp thực hành
kiểm định cho trường hợp này như sau:
(i) Ta có giả thiết kiểm định H0: 1  2  ...  k .
12 k
Ri2
(ii) Tiêu chuẩn kiểm định: KW    3(n  1)
n(n  1) i 1 ni
Trong đó:
n là tổng số phần tử điều tra; ni (i=1,2,…,m) là số phần tử
của vùng i
Ri (i =1, 2,…,k) là tổng hạng của các phần tử thuộc nhóm i
Hạng của phần tử xi đƣợc tính bằng cách: Trƣớc hết ta gộp
các phần tử của k nhóm lại thành một mẫu chung. Tiếp
theo, sắp xếp các phần tử mẫu chung theo thứ tự tăng dần.
Hạng của phần tử xi là số thứ tự của phần tử xi, trong
trƣờng có các phần tử xi có giá trị bằng nhau thì ta tính

146
hạng của các phần tử xi này là trung bình cộng của các số
1 ni 1
thứ tự đó. Tức là Rank(xi ) =  (i  j ) , ni tần số của xi.
k j 0
(iii) Quy tắc quyết định: Nếu  2   2 ; k 1 , thì ta chấp
nhận H1. Ngƣợc lại, thì ta chấp nhận H0.
Ví dụ 4.18: Điều trị sốt rét bằng 3 cách (dùng thuốc nhóm
1, dùng thuốc nhóm 2 và dùng thuốc nhóm 3). Theo dõi
thời gian hết ký sinh trùng sốt rét trong máu (X; giờ) của
từng bệnh nhân (mỗi bệnh nhân đƣợc điều trị theo 1 cách)
thu đƣợc số liệu:
Cách 1 18 37 46 46 46 50,5 61,5 78 84,5 90
Cách 2 38 41 41,1 42 43,1 44,1 45,2 50 50 52
Cách 3 36 38 40 42 48 60 62 70 72 72
Với   5% , hãy cho biết hiệu quả điều trị của 3 cách
trên có khác nhau không (thời gian hết ký sinh trùng sốt rét
trong máu có nhƣ nhau không)?
Giải
* Ta có giả thiết H0: Hiệu quả điều trị của 3 cách trên khác
nhau không ý nghĩa
12 k
Ri2
* Tiêu chuẩn kiểm định: KW    3(n  1)
n(n  1) i 1 ni
Với các mẫu số liệu, ta tiến hành xếp hạng đối với mẫu
chung của 3 nhóm gộp lại, ta có kết quả xếp hạng nhƣ sau:
(chú ý có những hạng bằng nhau thì tính trung bình cộng
của các hạng bằng nhau đó).

147
Hạng
Cách 1 Cách 2 Cách 3
Cách 1 Cách 2 Cách 3
18 38 36 1 4,5 2
37 41 38 3 7 4,5
4641,1 40 15 8 6
46 42 42 15 9.5 9.5
4643,1 48 15 11 17
50,544,1 60 20 12 22
61,545,2 62 23 13 24
78 50 70 28 18,5 25
84,5 50 72 29 18,5 26,5
90 52 72 30 21 26,5
Tổng hạng 179 123 163
12 k
Ri2
 KW    3(n  1)
n(n  1) i 1 ni
12  1792 1232 1632 
      3(30  1)  2,147
30(30  1)  10 10 10 
* Với   5%   2 ; k 1   2 0,05; 31  5,991 , ta có:
 2  2,147   2 ; k 1  5,991 nên chấp nhận H1, tức là
hiệu quả điều trị của 3 cách trên khác nhau có ý nghĩa
(thời gian hết ký sinh trùng sốt rét trong máu không
bằng nhau).

Ranks
Mean
PPTriSotRet N Rank
Thoigian PP A 10 17,90
PP B 10 12,30
PP C 10 16,30
Total 30

148
Test Statisticsa,b
Thoigian
Chi-Square 2,151
Df 2
Asymp. Sig. 0,341
a. Kruskal Wallis Test
b. Grouping Variable: PPTriSotRet
Bảng kết quả kiểm định Kruskal Wallis ví dụ 4.18 từ SPSS
Khi bác bỏ giả thiết H0, chấp nhận đối thiết H1, nghĩa là
Tồn tại cặp i   j ; i  j . So sánh từng cặp trung bình  i
và  j theo Tiêu chuẩn Duncan.
Giả sử sau khi kiểm định giả thiết H:
1   2  ...   m , ta bác bỏ giả thiết. Vậy vấn đề đặt ra là:
các cặp trung bình nào thật sự khác nhau có ý nghĩa.
Để xác định các cặp trung bình khác nhau có ý
nghĩa ta sử dụng phép kiểm định của Duncan đây là tiêu
chuẩn hay sử dụng nhất), đƣợc tiến hành nhƣ sau;
* Ta sắp xếp các giá trị trung bình xi theo thứ tự tăng
dần.
MSE
* Tính phƣơng sai trung bình: S 
n
* Xác định phân vị Duncan (từ bảng Duncan):
r ( p; n  k ) , p = 2, 3, …,k
* Tính phân vị: Rp  r ( p;n  k ).S , p = 2, 3, …,k
* Tính hiệu giữa trung bình lớn nhất và nhỏ nhất, rồi so
sánh với Rk ; tính hiệu giữa trung bình lớn nhất và nhỏ thứ
nhì, rồi so sánh với Rk 1 ; …. Tiếp tục tính hiệu giữa trung

149
bình lớn thứ nhì và nhỏ nhất, rồi so sánh với Rk  2 ; …, tiến
trình này đƣợc thực hiện đến cặp cuối cùng là cặp thứ
k(k  1)
.
2
* Kết luận: Cặp nào có hiệu lớn hơn R p tƣơng ứng thì
cặp đó khác nhau có ý nghĩa.

150
CHƢƠNG 5: TƢƠNG QUAN VÀ HỒI QUY

Nội dung đƣợc trình bày trong chƣơng 5 bao gồm: Các
khái niệm về hệ số tƣơng quan giữa hai biến định lƣợng và
ý nghĩa, các tính chất của hệ số tƣơng quan, cách dùng hệ
số tƣơng quan để đánh giá mối quan hệ giữa hai đại lƣợng.
Phƣơng trình hồi quy tuyến tính đơn và ý nghĩa của
phƣơng trình hồi quy và các hệ số hồi quy. Phƣơng pháp
sai số bình phƣơng bé nhất, cách tính các hệ số hồi quy,
cách dùng phƣơng trình hồi quy để dự báo giá trị của biến
phụ thuộc theo giá trị mới của biến giải thích. Đặc biệt,
trình bày các ví dụ vận dụng phƣơng pháp phân tích tƣơng
quan và hồi quy trong lĩnh vực y học.
5.1 HỆ SỐ TƢƠNG QUAN VÀ PHƢƠNG TRÌNH
HỒI QUY
Xét trên tổng thể, mỗi phần tử ta khảo sát nhiều đặc
tính ngẫu nhiên X, Y, Z,…. Chẳng hạn, khi nghiên cứu về
giống dƣợc liệu ta có thể nghiên cứu về các đặc tính: năng
suất (X), độ ẩm môi trƣờng (Y), chế độ tƣới nƣớc (Z),…;
Khi nghiên cứu về một phản ứng hóa học nào đó ta có thể
xác định các đặc tính nghiên cứu: Hiệu suất phản ứng (X),
nhiệt độ (Y), dung môi (Z), áp suất (T),…
Vấn đề đặt ra là liệu các đặc tính đó có ảnh hƣởng, tác
động lẫn nhau không? Nếu chúng có ảnh hƣởng, tác động
lẫn nhau ta nói chúng có tƣơng quan với nhau. Nếu chúng
có tƣơng quan với nhau, phƣơng trình thể hiện mối tƣơng
quan đó gọi là phƣơng trình hồi quy và đồ thị của nó gọi là
đƣờng hồi quy.
5.1.1 Hệ số tƣơng quan

151
Giả sử X, Y là hai đặc tính cần nghiên cứu của tổng
thể, hệ số tƣơng quan của X và Y đƣợc xác định:
COV ( X , Y )
 ( X ,Y ) 
 XY
Tuy nhiên trong thực tế giá trị của  ( X , Y ) đƣợc xác
định nhờ vào giá trị ƣớc lƣợng, gọi là hệ số tƣơng quan
mẫu.
Với mẫu quan sát: (x1; y1), (x2; y2),…,(xn; yn). Khi đó,
hệ số tƣơng quan mẫu đƣợc xác định:

 x y  n  x  y 
n n

COV ( X , Y )  ( xi  x)( yi  y) i i
r  i 1
 i 1
(n  1) S X SY (n  1) s X sY (n  1) s X sY
n
 n  n 
n xi yi    xi   yi 
Hoặc r  i 1  i 1  i 1 
2 2
 n 2  n   n 2  n 
n   xi     xi  n   yi     yi 
 i 1   i 1   i 1   i 1 
i. Đánh giá mức độ tương quan
 r 0; 0,3 : X, Y tƣơng quan yếu, nếu r 0 thì X,
Y không tƣơng quan.
 r 0,3; 0,5 : X, Y tƣơng quan vừa
 r 0,5; 0,7 : X, Y tƣơng quan tƣơng đối chặt.
 r 0,7; 0,9 X, Y tƣơng quan chặt.
 r 0,9; 1,0 : X, Y tƣơng quan rất chặt.
ii. Dự đoán khuynh hướng tương quan
Sau khi quan sát mẫu, ta có mẫu thực nghiệm (x1;
y1), (x2; y2),…,(xn; yn). Ta mô tả các điểm này lên mặt
phẳng tọa độ:

152
 Nếu các điểm (x1; y1), (x2; y2),…,(xn; yn) có dạng
phân bố quanh một đƣờng thẳng thì ta nói X, Y có
khuynh hƣớng tƣơng quan theo đƣờng thẳng (tƣơng
quan tuyến tính) và đƣờng thẳng đó gọi là đƣờng
hồi quy.
 Nếu các điểm (x1; y1), (x2; y2),…,(xn; yn) có dạng
phân bố quanh một đƣờng cong thì ta nói X, Y có
khuynh hƣớng tƣơng quan không tuyến tính (tƣơng
quan phi tuyến tính)
 Nếu các điểm (x1; y1), (x2; y2),…,(xn; yn) có dạng
phân bố hình đa giác, hình tròn thì ta nói X, Y có
khuynh hƣớng không tƣơng quan.
Chú ý: Giả sử X, Y có tƣơng quan tuyến tính
Nếu r < 0 : X, Y tƣơng quan nghịch
Nếu r > 0 : X, Y tƣơng quan thuận
5.1.2 Phƣơng trình hồi quy tuyến tính
Nếu X, Y là hai đặc tính có tƣơng quan tuyến tính, khi
đó đƣờng hồi quy của nó là đƣờng thẳng và phƣơng trình
hồi quy có dạng: E (Y X  x)  ax  b )
Có thể viết gọn của phƣơng trên là y = ax + b nhƣng
về bản chất y là giá trị của E(Y X ) và x là giá trị của X,
tức là không đƣợc hiểu là đồng nhất giống nhƣ phƣơng
trình đƣờng thẳng y = ax + b
Hệ số a gọi là độ dốc; hệ số b gọi là tung độ gốc.
Các hệ số a, b đƣợc ƣớc lƣợng bởi mẫu quan sát
(x1; y1), (x2; y2),…,(xn; yn) và sử dụng phƣơng pháp hợp lý
cực đại ta xác định đƣợc công thức ƣớc lƣợng của phƣơng
trình hồi quy tuyến tính: y = ax + b

153
n
 n  n 
n xi yi    xi   yi 
với a  i 1  i 1  i 1  và b  y  ax
2
 n 2  n 
n   xi     xi 
 i 1   i 1 
Ví dụ 5.1: Đo chiều cao X(cm) và chiều dài chi dƣới Y(cm)
của 8 học sinh tại một trƣờng, ta có số liệu:
X 156 158 160 162 164 166 168 170
Y 72 74 77 78 79 82 83 85
a. Tìm hệ số tƣơng quan của X và Y
b. Viết phƣơng trình hồi quy tuyến tính mẫu của Y
theo X
c. Nếu một học sinh có chiều cao 165cm thì chiều dài
trung bình chi dƣới là bao nhiêu?
Giải
n n
a. n  8;  xi  1304;
i 1
y
i 1
i  630
n n n

x
i 1
2
i  212720; y
i 1
2
i  49752; x y
i 1
i i  102842

Hệ số tƣơng quan mẫu:


n
 n  n 
n xi yi    xi   yi 
r  i 1  i 1  i 1 
2 2
 n   n   n   n 
n   xi2     xi  n   yi2     yi 
 i 1   i 1   i 1   i 1 
8  102842  1304  630
  0,993
8  212720  1304  8  49752   630 
2 2

b. Phƣơng trình hồi quy tuyến tính: y = ax + b

154
n
 n  n 
n xi yi    xi   yi 
với a  i 1  i 1  i 1   8  102842  1304  630  0,9048
8  212720  1304 
2 2
 n
2 
n

n   xi     xi 
 i 1   i 1 
630 1304
và b  y  ax   0,9048   68,7324
8 8
 y  0,9048 x  68,7324
c. Với học sinh có chiều cao x = 165cm
 y  0,9048 165  68,7324  80,56 cm, tức là chiều dài
trung bình chi dƣới là 80,56cm
Model Summary
R Adjusted R Std. Error of
Model R Square Square the Estimate
a
1 0,993 0,986 0,983 0,57390
a. Predictors: (Constant), X.chieucao
ANOVAa
Sum of Mean
Model Squares df Square F Sig.
1 Regression 137,524 1 137,524 417,542 0,000b
Residual 1,976 6 0,329
Total 139,500 7
a. Dependent Variable: Y.Chiduoi
b. Predictors: (Constant), X.chieucao
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta T Sig.
1 (Constant) -68,726 7,220 -9,519 0,000
X.chieucao 0,905 0,044 0,993 20,434 0,000
a. Dependent Variable: Y.Chiduoi
Bảng kết quả phân tích tương quan và hồi quy ví dụ 5.1 từ SPSS

155
5.2 KIỂM ĐỊNH HỆ SỐ TƢƠNG QUAN VÀ SỰ PHÙ
HỢP CỦA PHƢƠNG TRÌNH HỒI QUY
5.2.1 Kiểm định hệ số tƣơng quan
Giả sử X, Y là hai đặc tính cần nghiên cứu của tổng thể
 , để đánh giá những thông tin về hệ số tƣơng quan  , ta
tiến hành khảo sát mẫu, với số liệu quan sát đƣợc (x1, y1),
(x2, y2),…,(xn, yn)
Khi đó, các cặp giả thiết, đối thiết có thể đƣợc kiểm định
tƣơng đƣơng là:
Phương pháp thực hành kiểm định cho trường hợp này
như sau:
 Kiểm định sự tương quan của hai biến X và Y
(i) Ta có giả thiết kiểm định:
H 0 :   0 H :   0 H :   0
 hoặc  0 hoặc  0
H1 :   0 H1 :   0 H1 :   0
(ii) Chọn tiêu chuẩn kiểm định:
r
T n2
1 r2
Tính các tham số mẫu, thế vào tiêu chuẩn kiểm
định, suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị Student t ; n 2
Quy tắc bác bỏ giả thiết H0 (dạng phân phối
Student T(n – 2) với bậc tự do (n – 2):
 Nếu T  t thì ta chấp nhận H1:   0 . Ngƣợc
; n2
2

lại, nếu T  t thì ta chấp nhận H0:   0 .


; n2
2

 Nếu T  t ; n 2 thì ta chấp nhận H1:   0 . Ngƣợc


lại nếu T  t ; n 2 thì ta chấp nhận H0:   0 .

156
 Nếu T  t ; n2 thì ta chấp nhận H1: 0 . Ngƣợc
lại nếu T  t ; n2 thì ta chấp nhận H0:   0 .
 Kiểm định giả thiết thống kê so sánh hệ số tương
quan  với một giá trị cho trước.
(i) Ta có giả thiết kiểm định:
H 0 :   0 H :   0 H :   0
 hoặc  0 hoặc  0
H1 :   0 H1 :   0 H1 :   0
(ii) Chọn tiêu chuẩn kiểm định: Z  (Z R  Z  ) n  3
0

1 1 r 1 1
Với Z R ln và Z ln 0
2 1 r 0
2 1 0

(iii) Tra bảng xác định giá trị phân vị chuẩn z


Quy tắc bác bỏ giả thiết H0 (dạng phân phối chuẩn
Z ~ N (0;1) :
 Nếu Z  z thì ta chấp nhận H1:   0 . Ngƣợc
2

lại, nếu Z  z thì ta chấp nhận H0:   0 .


2

 Nếu Z  z thì ta chấp nhận H1:   0 . Ngƣợc lại


nếu Z  z thì ta chấp nhận H0:   0 .
 Nếu Z   z thì ta chấp nhận H1:    0 . Ngƣợc
lại nếu Z   z thì ta chấp nhận H0:   0 .
5.2.2 Kiểm định sự phù hợp của phƣơng trình hồi quy
Giả sử, với số liệu thực nghiệm ta xác định đƣợc
phƣơng trình hồi quy tuyến tính mẫu của Y theo X là:
y = ax+b. Ta cần đánh giá xem phƣơng trình hồi quy tuyến
tính có phù hợp không?

157
Ta sử dụng mô hình kiểm định Fisher (F-test) để kiểm định.
Phương pháp thực hành kiểm định cho trường hợp này như sau:
(i) Ta có giả thiết H0: Phƣơng trình hồi quy tuyến tính
không phù hợp
SSR
MSR
(ii) Tiêu chuẩn kiểm định: F   1
MSE SSE
n2
Trong đó:
n
Tổng bình phƣơng độ lệch chung: SST =  ( y  y)
i 1
i
2

Tổng bình phƣơng độ lệch của giá trị yi và yˆ i :


n
SSE   ( y  yˆ )
i 1
i i
2
:

Tổng bình phƣơng độ lệch phƣơng trình hồi quy gây ra:
n
SSR   ( yˆi  y )2
i 1
Hoặc ta có: SST = SSR + SSE SSR = SST – SSE

Hình minh họa SST, SSR, SSE

158
(iii) Tra bảng xác định giá trị phân vị Fisher F ;1;n  2
Quy tắc bác bỏ giả thiết H0 : Nếu F > F ;1;n  2 thì ta
bác bỏ H0 (Phƣơng trình hồi quy tuyến tính là phù hợp).
Ngƣợc lại, nếu F < F ;1;n  2 thì ta chấp nhận H0 (Phƣơng
trình hồi quy tuyến tính không phù hợp).
SSR
Chú ý: R 2  gọi là hệ số xác định (cũng có thể
SST
gọi là hệ số tƣơng quan), vì nó có khả năng đánh giá mức
độ phụ thuộc của Y vào X.
5.2.3 Kiểm định hệ số của phƣơng trình hồi quy
Kiểm định hệ số a của phương trình hồi quy y = ax + b
(i) Ta có giả thiết kiểm định:
H 0 : a  a 0 H : a  a 0 H : a  a 0
 hoặc  0 hoặc  0
H1 : a  a 0 H1 : a  a 0 H1 : a  a 0
a  a0
(ii) Chọn tiêu chuẩn kiểm định: T 
Sa
2
 
n ^
  i
y  y i
Se2  i 1   ; y^  ax  b
n2
i i
với
Se2
 Sa  n
2
;

 xi  n x
2
2

i 1

Tính các tham số mẫu, thế vào tiêu chuẩn kiểm


định, suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị Student t ; n 2
Quy tắc bác bỏ giả thiết H0 (dạng phân phối
Student T(n – 2) với bậc tự do (n – 2):

159
 Nếu T  t thì ta chấp nhận H1: a  a 0 . Ngƣợc
; n2
2

lại, nếu T  t thì ta chấp nhận H0: a  a 0 .


; n2
2

 Nếu T  t ; n2 thì ta chấp nhận H1: a  a 0 . Ngƣợc


lại nếu T  t ; n 2 thì ta chấp nhận H0: a  a 0 .
 Nếu T  t ; n2 thì ta chấp nhận H1: a  a 0 . Ngƣợc
lại nếu T  t ; n2 thì ta chấp nhận H0: a  a 0 .
Kiểm định hệ số b của phương trình hồi quy y = ax + b
(i) Ta có giả thiết kiểm định:
H 0 : b  b 0 H : b  b 0 H : b  b 0
 hoặc  0 hoặc  0
H1 : b  b0 H1 : b  b0 H1 : b  b0
(ii) Chọn tiêu chuẩn kiểm định:
 n 2 2
b  b0   xi  Se
T với Sb2   i 1 
 n 2
Sb
n   xi2  n x 
 i 1 

Tính các tham số mẫu, thế vào tiêu chuẩn kiểm định,
suy ra giá trị kiểm định
(iii) Tra bảng xác định giá trị phân vị Student t ; n 2
Quy tắc bác bỏ giả thiết H0 (dạng phân phối
Student T(n – 2) với bậc tự do (n – 2):
 Nếu T  t thì ta chấp nhận H1: b  b 0 . Ngƣợc
; n2
2

lại, nếu T  t thì ta chấp nhận H0: b  b 0 .


; n2
2

 Nếu T  t ; n2 thì ta chấp nhận H1: b  b 0 . Ngƣợc


lại nếu T  t ; n 2 thì ta chấp nhận H0: b  b 0 .

160
 Nếu T  t ; n2 thì ta chấp nhận H1: b  b0 . Ngƣợc
lại nếu T  t ; n2 thì ta chấp nhận H0: b  b 0 .
Ví dụ 5.2: Nghiên cứu về sự thảy trừ thuốc sau khi uống
thuốc một thời gian. Gọi X là thời gian uống thuốc(giờ); Y
là nồng độ thuốc trong cơ thể( g / ml ). Ta có kết quả sau:
X 1 2 3 5 8 10
Y 0,9 0,8 0,75 0,7 0,5 0,5
a. Tìm hệ số tƣơng quan R
b. Tính R2, và cho biết ý nghĩa của nó.
c. Viết phƣơng trình hồi quy tuyến tính của Y theo
X. Kiểm định sự phù hợp phƣơng trình. Với mức ý nghĩa
5%.
Giải
a. R = 0,975, nghĩa là thời gian và nồng độ thuốc trong
cơ thể có mối tƣơng quan rất tốt, cụ thể là nếu thời gian
càng tăng thì nồng độ thuốc trong cơ thể càng giảm
b. R2 = 0,950, nghĩa là có 95% nồng độ thuốc trong cơ
thể biến động giảm là do thời gian và 5% còn lại là do ảnh
hƣởng của các yếu tố khác.
c. a = - 0,045; b = 0,908 . Phƣơng trình hồi quy có
dạng: y = - 0,045x + 0,908
Giả thiết H0: phƣơng trình hồi quy tt không phù hợp
Giá trị tiêu chuẩn kiểm định : F =76,477
F0,05;1;4  7,71
F  F0,05;1;4  Chấp nhận H1.
Vậy phƣơng trình hồi quy tuyến tính phù hợp trong
trƣờng hợp này.
Model Summary

161
Adjusted Std. Error of
Model R R Square R Square the Estimate
a
1 0,975 0,950 0,938 0,04051
a. Predictors: (Constant), X.Tguongthuoc
ANOVAa
Sum of Mean
Model Squares df Square F Sig.
1 Regression 0,126 1 0,126 76,477 0,001b
Residual 0,007 4 0,002
Total 0,132 5
a. Dependent Variable: Y.Nongdothuoc
b. Predictors: (Constant), X.TGuongthuoc

Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta T Sig.
1 (Constant) 0,908 0,030 30,533 0,000
X.TGuong
-0,045 0,005 -0,975 -8,745 0,001
thuoc
a. Dependent Variable: Y.Nongdothuoc
Bảng kết quả phân tích tương quan và hồi quy ví dụ 5.2 từ SPSS
Ví dụ 5.3: Nghiên cứu về sự thảy trừ thuốc sau khi
uống thuốc một thời gian. Gọi X thời gian uống thuốc
(giờ); Y là nồng độ thuốc trong cơ thể( g / ml ). Ta có:
X 1 2 3 5 8 10
Y 0,9 0,8 0,75 0,7 0,5 0,5
Có tài liệu cho biết phƣơng trình hồi quy của nồng độ
thuốc là: y = - 0,6x + 0,9. Với số liệu quan sát này hãy cho
biết phƣơng trình hồi quy trên còn phù hợp không? Với
mức ý nghĩa 5%

162
5.3 ƢỚC LƢỢNG HỆ SỐ VÀ GIÁ TRỊ CỦA
PHƢƠNG TRÌNH HỒI QUY
5.3.1 Khoảng ƣớc lƣợng cho hệ số tƣơng quan  .
a 1 b 1

a 1 b 1
Trong đó:
2 2
z
1 r 1 r z2 n 3
n 3
a e ; b 2
e
1 r 1 r
5.3.2 Khoảng ƣớc lƣợng cho hệ số của phƣơng trình hồi
quy tổng thể y   x  
a  sa  t    a  sa  t
; n2 ; n2
2 2

và b  sb  t    b  sb  t
; n2 ; n2
2 2

5.3.3 Khoảng ƣớc lƣợng cho giá trị của phƣơng trình
hồi quy
Giả sử X và Y có tƣơng quan với phƣơng trình hồi quy
tuyến tính là: y = ax + b. Với x = x0 , khoảng ƣớc lƣợng
cho giá trị dự báo y0 là:
( yˆ0  t se 1  h ; yˆ0  t se 1  h )
,n2 ,n2
2 2

Trong đó:
2
 
n ^
  i
y  yi
( x0  x) 2
Se2  i 1   và h  1 
n2 n n
1 n 
2


i 1
x    xi 
2
i
n  i 1 

163
PHỤ LỤC: CÁC BẢNG TRA
2
t x
1 
Bảng 1: Bảng giá trị của hàm Laplace ( x)  
2 0
e 2 dt

X 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359

0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753

0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141

0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517

0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224

0,6 0,2257 0,1291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549

0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852

0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133

0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389

1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621

1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830

1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015

1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177

1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319

1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441

1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545

1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633

1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706

1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857

2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890

2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916

2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936

2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952

164
X 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964

2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974

2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990

3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993

3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997

165
Bảng 2: Bảng giá trị phân vị t ;n của phân phối Student:
P(T > t ;n ) = 
df 0,1 0,095 0,09 0,085 0,08 0,075 0,07 0,065 0,06 0,055
1 3,078 3,251 3,442 3,655 3,895 4,165 4,474 4,829 5,242 5,730
2 1,886 1,953 2,026 2,104 2,189 2,282 2,383 2,495 2,620 2,760
3 1,638 1,688 1,741 1,798 1,859 1,924 1,995 2,072 2,156 2,249
4 1,533 1,577 1,623 1,671 1,723 1,778 1,838 1,902 1,971 2,048
5 1,476 1,516 1,558 1,602 1,649 1,699 1,753 1,810 1,873 1,941
6 1,440 1,478 1,517 1,559 1,603 1,650 1,700 1,754 1,812 1,874
7 1,415 1,451 1,489 1,529 1,572 1,617 1,664 1,715 1,770 1,830
8 1,397 1,432 1,469 1,508 1,549 1,592 1,638 1,687 1,740 1,797
9 1,383 1,418 1,454 1,492 1,532 1,574 1,619 1,666 1,718 1,773
10 1,372 1,406 1,442 1,479 1,518 1,559 1,603 1,650 1,700 1,754
11 1,363 1,397 1,432 1,468 1,507 1,548 1,591 1,636 1,686 1,738
12 1,356 1,389 1,424 1,460 1,498 1,538 1,580 1,626 1,674 1,726
13 1,350 1,383 1,417 1,453 1,490 1,530 1,572 1,616 1,664 1,715
14 1,345 1,377 1,411 1,447 1,484 1,523 1,565 1,609 1,656 1,706
15 1,341 1,373 1,406 1,441 1,478 1,517 1,558 1,602 1,649 1,699
16 1,337 1,369 1,402 1,437 1,474 1,512 1,553 1,596 1,642 1,692
17 1,333 1,365 1,398 1,433 1,469 1,508 1,548 1,591 1,637 1,686
18 1,330 1,362 1,395 1,429 1,466 1,504 1,544 1,587 1,632 1,681
19 1,328 1,359 1,392 1,326 1,462 1,500 1,540 1,583 1,628 1,677
20 1,325 1,357 1,389 1,424 1,459 1,497 1,537 1,579 1,624 1,672
21 1,323 1,354 1,387 1,421 1,457 1,494 1,534 1,576 1,621 1,669
22 1,321 1,352 1,385 1,419 1,454 1,492 1,531 1,573 1,618 1,665
23 1,319 1,350 1,383 1,417 1,452 1,489 1,529 1,570 1,615 1,662
24 1,318 1,349 1,381 1,415 1,450 1,487 1,526 1,568 1,612 1,660
25 1,316 1,347 1,379 1,413 1,448 1,485 1,524 1,566 1,610 1,657
26 1,315 1,346 1,378 1,411 1,446 1,483 1,522 1,564 1,608 1,655
27 1,314 1,344 1,376 1,410 1,445 1,482 1,521 1,562 1,606 1,653
28 1,313 1,343 1,375 1,408 1,443 1,480 1,519 1,560 1,604 1,651
29 1,311 1,342 1,374 1,407 1,442 1,479 1,517 1,558 1,602 1,649
30 1,310 1,341 1,373 1,406 1,441 1,477 1,516 1,557 1,600 1,647
40 1,303 1.333 1,365 1,397 1,432 1,468 1,506 1,546 1,589 1,635
50 1,299 1,329 1,360 1,392 1,426 1,462 1,500 1,539 1,582 1,627
60 1,296 1,326 1,357 1,389 1,423 1,458 1,496 1,535 1,577 1,622

166
70 1,294 1,323 1,354 1,386 1,420 1,456 1,493 1,532 1,574 1,619
80 1,292 1,322 1,353 1,385 1,418 1,453 1,491 1,530 1,572 1,616
90 1,291 1,321 1,351 1,383 1,417 1,452 1,489 1,528 1,570 1,614
100 1,290 1,320 1,350 1,382 1,416 1,451 1,488 1,527 1,568 1,613
200 1,286 1,315 1,345 1,377 1,410 1,445 1,482 1,520 1,561 1,605
300 1,284 1,314 1,344 1,376 1,409 1,443 1,480 1,518 1,559 1,603
400 1,284 1,313 1,343 1,375 1,408 1,442 1,479 1,517 1,558 1,602

df 0,05 0,045 0,04 0,035 0,03 0,025 0,02 0,015 0,01 0,005
1 6,314 7,026 7,916 9,058 10,579 12,706 15,895 21,205 31,821 63,657

2 2,920 3,104 3,320 3,578 3,896 4,303 4,849 5,643 6,965 9,925
3 2,353 2,471 2,605 2,763 2,951 3,182 3,482 3,896 4,541 5,841
4 2,132 2,226 2,333 2,456 2,601 2,776 2,999 3,298 3,747 4,604
5 2,015 2,098 2,191 2,297 2,422 2,571 2,757 3,003 3,365 4,032
6 1,943 2,019 2,104 2,201 2,313 2,447 2,612 2,829 3,143 3,707
7 1,895 1,966 2,046 2,136 2,241 2,365 2,517 2,715 2,998 3,499
8 1,860 1,928 2,004 2,090 2,189 2,306 2,449 2,634 2,896 3,355
9 1,833 1,899 1,973 2,055 2,150 2,262 2,398 2,574 2,821 3,250
10 1,812 1,877 1,948 2,028 2,120 2,228 2,359 2,527 2,764 3,169
11 1,796 1,859 1,928 2,007 2,096 2,201 2,328 2,491 2,718 3,106
12 1,782 1,844 1,912 1,989 2,076 2,179 2,303 2,461 2,681 3,055
13 1,771 1,832 1,899 1,974 2,060 2,160 2,282 2,436 2,650 3,012
14 1,761 1,821 1,887 1,962 2,046 2,145 2,264 2,415 2,624 2,977
15 1,753 1,812 1,878 1,951 2,034 2,131 2,249 2,397 2,602 2,947
16 1,746 1,805 1,869 1,942 2,024 2,120 2,235 2,382 2,583 2,921
17 1,740 1,798 1,862 1,934 2,015 2,110 2,224 2,368 2,567 2,898
18 1,734 1,792 1,855 1,926 2,007 2,101 2,214 2,356 2,552 2,878
19 1,729 1,786 1,850 1,920 2,000 2,093 2,205 2,346 2,539 2,861
20 1,725 1,782 1,844 1,914 1,994 2,086 2,197 2,336 2,528 2,845
21 1,721 1,777 1,840 1,909 1,988 2,080 2,189 2,328 2,518 2,831
22 1,717 1,773 1,835 1,905 1,983 2,074 2,183 2,320 2,508 2,819
23 1,714 1,770 1,832 1,900 1,978 2,069 2,177 2,313 2,500 2,807
24 1,711 1,767 1,828 1,896 1,974 2,064 2,172 2,307 2,492 2,797
25 1,708 1,764 1,825 1,893 1,970 2,060 2,167 2,301 2,485 2,787
26 1,706 1,761 1,822 1,890 1,967 2,056 2,162 2,296 2,479 2,779
27 1,703 1,758 1,819 1,887 1,963 2,052 2,158 2,291 2,473 2,771
28 1,701 1,756 1,817 1,884 1,960 2,048 2,154 2,286 2,467 2,763
29 1,699 1,754 1,814 1,881 1,957 2,045 2,150 2,282 2,462 2,756
30 1,697 1,752 1,812 1,879 1,955 2,042 2,147 2,278 2,457 2,750
40 1,684 1,737 1,796 1,862 1,936 2,021 2,123 2,250 2,423 2,704
50 1,676 1,729 1,787 1,852 1,924 2,009 2,109 2,234 2,403 2,678
60 1,671 1,723 1,781 1,845 1,917 2,000 2,099 2,223 2,390 2,660
70 1,667 1,719 1,776 1,840 1,912 1,994 2,093 2,215 2,381 2,648
80 1,664 1,716 1,773 1,836 1,908 1,990 2,088 2,209 2,374 2,639

167
90 1,662 1,714 1,771 1,834 1,905 1,987 2,084 2,205 2,368 2,632
100 1,660 1,712 1,769 1,832 1,902 1,984 2,081 2,201 2,364 2,626
200 1,653 1,704 1,760 1,822 1,892 1,972 2,067 2,186 2,345 2,601
300 1,650 1,701 1,757 1,818 1,888 1,968 2,063 2,180 2,339 2,592
400 1,649 1,700 1,755 1,817 1,886 1,966 2,060 2,178 2,336 2,588

168
Bảng 3: Bảng giá trị phân vị  2 ;n của phân phối chi bình
phƣơng: P(  2   2 ;n ) = 
Df 0.950 0.955 0.960 0.965 0.970 0.975 0.980 0.985 0.990 0.995
1 0.004 0.003 0.003 0.002 0.001 0.001 0.001 0.000 0.000 0.000
2 0.103 0.092 0.082 0.071 0.061 0.051 0.040 0.030 0.020 0.010
3 0.352 0.326 0.300 0.273 0.245 0.216 0.185 0.152 0.115 0.072
4 0.711 0.670 0.627 0.582 0.535 0.484 0.429 0.368 0.297 0.207
5 1.145 1.090 1.031 0.969 0.903 0.831 0.752 0.662 0.554 0.412
6 1.635 1.566 1.492 1.414 1.330 1.237 1.134 1.016 0.872 0.676
7 2.167 2.085 1.997 1.903 1.802 1.690 1.564 1.418 1.239 0.989
8 2.733 2.638 2.537 2.428 2.310 2.180 2.032 1.860 1.646 1.344
9 3.325 3.218 3.105 2.982 2.848 2.700 2.532 2.335 2.088 1.735
10 3.940 3.822 3.697 3.561 3.412 3.247 3.059 2.837 2.558 2.156
11 4.575 4.446 4.309 4.160 3.997 3.816 3.609 3.363 3.053 2.603
12 5.226 5.087 4.939 4.778 4.601 4.404 4.178 3.910 3.571 3.074
13 5.892 5.743 5.584 5.411 5.221 5.009 4.765 4.476 4.107 3.565
14 6.571 6.412 6.243 6.058 5.856 5.629 5.368 5.057 4.660 4.075
15 7.261 7.094 6.914 6.718 6.503 6.262 5.985 5.653 5.229 4.601
16 7.962 7.785 7.596 7.390 7.163 6.908 6.614 6.263 5.812 5.142
17 8.672 8.487 8.288 8.071 7.832 7.564 7.255 6.884 6.408 5.697
18 9.390 9.197 8.989 8.762 8.512 8.231 7.906 7.516 7.015 6.265
19 10.117 9.915 9.698 9.462 9.200 8.907 8.567 8.159 7.633 6.844
20 10.851 10.641 10.415 10.169 9.897 9.591 9.237 8.810 8.260 7.434
21 11.591 11.374 11.140 10.884 10.601 10.283 9.915 9.471 8.897 8.034
22 12.338 12.113 11.870 11.605 11.313 10.982 10.600 10.139 9.542 8.643
23 13.091 12.858 12.607 12.333 12.030 11.689 11.293 10.815 10.196 9.260
24 13.848 13.609 13.350 13.067 12.754 12.401 11.992 11.497 10.856 9.886
25 14.611 14.365 14.098 13.807 13.484 13.120 12.697 12.187 11.524 10.520
26 15.379 15.125 14.851 14.551 14.219 13.844 13.409 12.882 12.198 11.160
27 16.151 15.891 15.609 15.301 14.959 14.573 14.125 13.583 12.879 11.808
28 16.928 16.660 16.371 16.055 15.704 15.308 14.847 14.290 13.565 12.461
29 17.708 17.434 17.138 16.813 16.454 16.047 15.574 15.002 14.256 13.121
30 18.493 18.212 17.908 17.576 17.208 16.791 16.306 15.719 14.953 13.787
40 26.509 26.168 25.799 25.394 24.944 24.433 23.838 23.113 22.164 20.707
50 34.764 34.370 33.943 33.473 32.951 32.357 31.664 30.818 29.707 27.991
60 43.188 42.746 42.266 41.738 41.150 40.482 39.699 38.744 37.485 35.534
70 51.739 51.253 50.724 50.143 49.495 48.758 47.893 46.836 45.442 43.275
80 60.391 59.864 59.290 58.659 57.955 57.153 56.213 55.061 53.540 51.172
90 69.126 68.560 67.944 67.266 66.509 65.647 64.635 63.394 61.754 59.196
100 77.929 77.326 76.671 75.949 75.142 74.222 73.142 71.818 70.065 67.328
200 168.279 167.380 166.400 165.320 164.111 162.728 161.100 159.096 156.432 152.241
300 260.878 259.752 258.524 257.169 255.650 253.912 251.864 249.338 245.972 240.663
400 354.641 353.324 351.886 350.299 348.520 346.482 344.078 341.112 337.155 330.903

169
df 0.050 0.045 0.040 0.035 0.030 0.025 0.020 0.015 0.010 0.005
1 3.841 4.019 4.218 4.445 4.709 5.024 5.412 5.916 6.635 7.879
2 5.991 6.202 6.438 6.705 7.013 7.378 7.824 8.399 9.210 10.597
3 7.815 8.049 8.311 8.607 8.947 9.348 9.837 10.465 11.345 12.838
4 9.488 9.742 10.026 10.345 10.712 11.143 11.668 12.339 13.277 14.860
5 11.070 11.342 11.644 11.985 12.375 12.833 13.388 14.098 15.086 16.750
6 12.592 12.879 13.198 13.557 13.968 14.449 15.033 15.777 16.812 18.548
7 14.067 14.369 14.703 15.079 15.509 16.013 16.622 17.398 18.475 20.278
8 15.507 15.822 16.171 16.563 17.010 17.535 18.168 18.974 20.090 21.955
9 16.919 17.246 17.608 18.015 18.480 19.023 19.679 20.513 21.666 23.589
10 18.307 18.646 19.021 19.442 19.922 20.483 21.161 22.021 23.209 25.188
11 19.675 20.025 20.412 20.846 21.342 21.920 22.618 23.503 24.725 26.757
12 21.026 21.386 21.785 22.232 22.742 23.337 24.054 24.963 26.217 28.300
13 22.362 22.733 23.142 23.601 24.125 24.736 25.472 26.403 27.688 29.819
14 23.685 24.065 24.485 24.956 25.493 26.119 26.873 27.827 29.141 31.319
15 24.996 25.385 25.816 26.298 26.848 27.488 28.259 29.235 30.578 32.801
16 26.296 26.695 27.136 27.629 28.191 28.845 29.633 30.629 32.000 34.267
17 27.587 27.995 28.445 28.949 29.523 30.191 30.995 32.011 33.409 35.718
18 28.869 29.285 29.745 30.259 30.845 31.526 32.346 33.382 34.805 37.156
19 30.144 30.568 31.037 31.561 32.158 32.852 33.687 34.742 36.191 38.582
20 31.410 31.843 32.321 32.855 33.462 34.170 35.020 36.093 37.566 39.997
21 32.671 33.111 33.597 34.141 34.759 35.479 36.343 37.434 38.932 41.401
22 33.924 34.373 34.867 35.420 36.049 36.781 37.659 38.768 40.289 42.796
23 35.172 35.628 36.131 36.693 37.332 38.076 38.968 40.094 41.638 44.181
24 36.415 36.878 37.389 37.960 38.609 39.364 40.270 41.413 42.980 45.559
25 37.652 38.123 38.642 39.221 39.880 40.646 41.566 42.725 44.314 46.928
26 38.885 39.363 39.889 40.477 41.146 41.923 42.856 44.031 45.642 48.290
27 40.113 40.598 41.132 41.729 42.407 43.195 44.140 45.331 46.963 49.645
28 41.337 41.828 42.370 42.975 43.662 44.461 45.419 46.626 48.278 50.993
29 42.557 43.055 43.604 44.217 44.913 45.722 46.693 47.915 49.588 52.336
30 43.773 44.277 44.834 45.455 46.160 46.979 47.962 49.199 50.892 53.672
40 55.758 56.324 56.946 57.640 58.428 59.342 60.436 61.812 63.691 66.766
50 67.505 68.123 68.804 69.563 70.423 71.420 72.613 74.111 76.154 79.490
60 79.082 79.749 80.482 81.299 82.225 83.298 84.580 86.188 88.379 91.952
70 90.531 91.242 92.024 92.895 93.881 95.023 96.388 98.098 100.425 104.215
80 101.879 102.632 103.459 104.380 105.422 106.629 108.069 109.874 112.329 116.321
90 113.145 113.936 114.806 115.774 116.869 118.136 119.648 121.542 124.116 128.299
100 124.342 125.170 126.079 127.092 128.237 129.561 131.142 133.120 135.807 140.169
200 233.994 235.118 236.351 237.722 239.270 241.058 243.187 245.845 249.445 255.264
300 341.395 342.746 344.228 345.873 347.731 349.874 352.425 355.605 359.906 366.844
400 447.632 449.175 450.866 452.744 454.862 457.305 460.211 463.832 468.724 476.606

170
Bảng 4: Bảng giá trị phân vị F ;n ;n của phân phối Fiser :
1 2

P( F  F ;n ;n )=0.05
1 2

df 1 2 3 4 5 6 7 8 9 10

1 161.448 199.500 215.707 224.583 230.162 233.986 236.768 238.883 240.543 241.882

2 18.513 19.000 19.164 19.247 19.296 19.330 19.353 19.371 19.385 19.396

3 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.845 8.812 8.786

4 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041 5.999 5.964

5 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818 4.772 4.735

6 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147 4.099 4.060

7 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726 3.677 3.637

8 5.318 4.459 4.066 3.838 3.687 3.581 3.500 3.438 3.388 3.347

9 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230 3.179 3.137

10 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072 3.020 2.978

11 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948 2.896 2.854

12 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849 2.796 2.753

13 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767 2.714 2.671

14 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699 2.646 2.602

15 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641 2.588 2.544

16 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591 2.538 2.494

17 4.451 3.592 3.197 2.965 2.810 2.699 2.614 2.548 2.494 2.450

18 4.414 3.555 3.160 2.928 2.773 2.661 2.577 2.510 2.456 2.412

19 4.381 3.522 3.127 2.895 2.740 2.628 2.544 2.477 2.423 2.378

20 4.351 3.493 3.098 2.866 2.711 2.599 2.514 2.447 2.393 2.348

21 4.325 3.467 3.072 2.840 2.685 2.573 2.488 2.420 2.366 2.321

22 4.301 3.443 3.049 2.817 2.661 2.549 2.464 2.397 2.342 2.297

23 4.279 3.422 3.028 2.796 2.640 2.528 2.442 2.375 2.320 2.275

24 4.260 3.403 3.009 2.776 2.621 2.508 2.423 2.355 2.300 2.255

25 4.242 3.385 2.991 2.759 2.603 2.490 2.405 2.337 2.282 2.236

26 4.225 3.369 2.975 2.743 2.587 2.474 2.388 2.321 2.265 2.220

27 4.210 3.354 2.960 2.728 2.572 2.459 2.373 2.305 2.250 2.204

28 4.196 3.340 2.947 2.714 2.558 2.445 2.359 2.291 2.236 2.190

29 4.183 3.328 2.934 2.701 2.545 2.432 2.346 2.278 2.223 2.177

171
30 4.171 3.316 2.922 2.690 2.534 2.421 2.334 2.266 2.211 2.165

40 4.085 3.232 2.839 2.606 2.449 2.336 2.249 2.180 2.124 2.077

50 4.034 3.183 2.790 2.557 2.400 2.286 2.199 2.130 2.073 2.026

60 4.001 3.150 2.758 2.525 2.368 2.254 2.167 2.097 2.040 1.993

70 3.978 3.128 2.736 2.503 2.346 2.231 2.143 2.074 2.017 1.969

80 3.960 3.111 2.719 2.486 2.329 2.214 2.126 2.056 1.999 1.951

90 3.947 3.098 2.706 2.473 2.316 2.201 2.113 2.043 1.986 1.938

100 3.936 3.087 2.696 2.463 2.305 2.191 2.103 2.032 1.975 1.927

200 3.888 3.041 2.650 2.417 2.259 2.144 2.056 1.985 1.927 1.878

300 3.873 3.026 2.635 2.402 2.244 2.129 2.040 1.969 1.911 1.862
F0
(
.
1
9
0
5
,10 )

400 3.865 3.018 2.627 2.394 2.237 2.121 2.032 1.962 1.903 1.854

df 11 12 13 14 15 16 17 18 19 20

1 242.983 243.906 244.690 245.364 245.950 246.464 246.918 247.323 247.686 248.013

2 19.405 19.413 19.419 19.424 19.429 19.433 19.437 19.440 19.443 19.446

3 8.763 8.745 8.729 8.715 8.703 8.692 8.683 8.675 8.667 8.660

4 5.936 5.912 5.891 5.873 5.858 5.844 5.832 5.821 5.811 5.803

5 4.704 4.678 4.655 4.636 4.619 4.604 4.590 4.579 4.568 4.558

6 4.027 4.000 3.976 3.956 3.938 3.922 3.908 3.896 3.884 3.874

7 3.603 3.575 3.550 3.529 3.511 3.494 3.480 3.467 3.455 3.445

8 3.313 3.284 3.259 3.237 3.218 3.202 3.187 3.173 3.161 3.150

9 3.102 3.073 3.048 3.025 3.006 2.989 2.974 2.960 2.948 2.936

10 2.943 2.913 2.887 2.865 2.845 2.828 2.812 2.798 2.785 2.774

11 2.818 2.788 2.761 2.739 2.719 2.701 2.685 2.671 2.658 2.646

12 2.717 2.687 2.660 2.637 2.617 2.599 2.583 2.568 2.555 2.544

13 2.635 2.604 2.577 2.554 2.533 2.515 2.499 2.484 2.471 2.459

14 2.565 2.534 2.507 2.484 2.463 2.445 2.428 2.413 2.400 2.388

15 2.507 2.475 2.448 2.424 2.403 2.385 2.368 2.353 2.340 2.328

16 2.456 2.425 2.397 2.373 2.352 2.333 2.317 2.302 2.288 2.276

17 2.413 2.381 2.353 2.329 2.308 2.289 2.272 2.257 2.243 2.230

18 2.374 2.342 2.314 2.290 2.269 2.250 2.233 2.217 2.203 2.191

19 2.340 2.308 2.280 2.256 2.234 2.215 2.198 2.182 2.168 2.155

20 2.310 2.278 2.250 2.225 2.203 2.184 2.167 2.151 2.137 2.124

172
21 2.283 2.250 2.222 2.197 2.176 2.156 2.139 2.123 2.109 2.096

22 2.259 2.226 2.198 2.173 2.151 2.131 2.114 2.098 2.084 2.071

23 2.236 2.204 2.175 2.150 2.128 2.109 2.091 2.075 2.061 2.048

24 2.216 2.183 2.155 2.130 2.108 2.088 2.070 2.054 2.040 2.027

25 2.198 2.165 2.136 2.111 2.089 2.069 2.051 2.035 2.021 2.007

26 2.181 2.148 2.119 2.094 2.072 2.052 2.034 2.018 2.003 1.990

27 2.166 2.132 2.103 2.078 2.056 2.036 2.018 2.002 1.987 1.974

28 2.151 2.118 2.089 2.064 2.041 2.021 2.003 1.987 1.972 1.959

29 2.138 2.104 2.075 2.050 2.027 2.007 1.989 1.973 1.958 1.945

30 2.126 2.092 2.063 2.037 2.015 1.995 1.976 1.960 1.945 1.932

40 2.038 2.003 1.974 1.948 1.924 1.904 1.885 1.868 1.853 1.839

50 1.986 1.952 1.921 1.895 1.871 1.850 1.831 1.814 1.798 1.784

60 1.952 1.917 1.887 1.860 1.836 1.815 1.796 1.778 1.763 1.748

70 1.928 1.893 1.863 1.836 1.812 1.790 1.771 1.753 1.737 1.722

80 1.910 1.875 1.845 1.817 1.793 1.772 1.752 1.734 1.718 1.703

90 1.897 1.861 1.830 1.803 1.779 1.757 1.737 1.720 1.703 1.688

100 1.886 1.850 1.819 1.792 1.768 1.746 1.726 1.708 1.691 1.676

200 1.837 1.801 1.769 1.742 1.717 1.694 1.674 1.656 1.639 1.623

300 1.821 1.785 1.753 1.725 1.700 1.677 1.657 1.638 1.621 1.606
400 1.813 1.776 1.745 1.717 1.691 1.669 1.648 1.630 1.613 1.597

df 21 22 23 24 25 26 27 28 29 30

1 248.309 248.579 248.826 249.052 249.260 249.453 249.631 249.797 249.951 250.095

2 19.448 19.450 19.452 19.454 19.456 19.457 19.459 19.460 19.461 19.462

3 8.654 8.648 8.643 8.639 8.634 8.630 8.626 8.623 8.620 8.617

4 5.795 5.787 5.781 5.774 5.769 5.763 5.759 5.754 5.750 5.746

5 4.549 4.541 4.534 4.527 4.521 4.515 4.510 4.505 4.500 4.496

6 3.865 3.856 3.849 3.841 3.835 3.829 3.823 3.818 3.813 3.808

7 3.435 3.426 3.418 3.410 3.404 3.397 3.391 3.386 3.381 3.376

8 3.140 3.131 3.123 3.115 3.108 3.102 3.095 3.090 3.084 3.079

9 2.926 2.917 2.908 2.900 2.893 2.886 2.880 2.874 2.869 2.864

10 2.764 2.754 2.745 2.737 2.730 2.723 2.716 2.710 2.705 2.700

11 2.636 2.626 2.617 2.609 2.601 2.594 2.588 2.582 2.576 2.570

173
12 2.533 2.523 2.514 2.505 2.498 2.491 2.484 2.478 2.472 2.466

13 2.448 2.438 2.429 2.420 2.412 2.405 2.398 2.392 2.386 2.380

14 2.377 2.367 2.357 2.349 2.341 2.333 2.326 2.320 2.314 2.308

15 2.316 2.306 2.297 2.288 2.280 2.272 2.265 2.259 2.253 2.247

16 2.264 2.254 2.244 2.235 2.227 2.220 2.212 2.206 2.200 2.194

17 2.219 2.208 2.199 2.190 2.181 2.174 2.167 2.160 2.154 2.148

18 2.179 2.168 2.159 2.150 2.141 2.134 2.126 2.119 2.113 2.107

19 2.144 2.133 2.123 2.114 2.106 2.098 2.090 2.084 2.077 2.071

20 2.112 2.102 2.092 2.082 2.074 2.066 2.059 2.052 2.045 2.039

21 2.084 2.073 2.063 2.054 2.045 2.037 2.030 2.023 2.016 2.010

22 2.059 2.048 2.038 2.028 2.020 2.012 2.004 1.997 1.990 1.984

23 2.036 2.025 2.014 2.005 1.996 1.988 1.981 1.973 1.967 1.961

24 2.015 2.003 1.993 1.984 1.975 1.967 1.959 1.952 1.945 1.939

25 1.995 1.984 1.974 1.964 1.955 1.947 1.939 1.932 1.926 1.919

26 1.978 1.966 1.956 1.946 1.938 1.929 1.921 1.914 1.907 1.901

27 1.961 1.950 1.940 1.930 1.921 1.913 1.905 1.898 1.891 1.884

28 1.946 1.935 1.924 1.915 1.906 1.897 1.889 1.882 1.875 1.869

29 1.932 1.921 1.910 1.901 1.891 1.883 1.875 1.868 1.861 1.854

30 1.919 1.908 1.897 1.887 1.878 1.870 1.862 1.854 1.847 1.841

40 1.826 1.814 1.803 1.793 1.783 1.775 1.766 1.759 1.751 1.744

50 1.771 1.759 1.748 1.737 1.727 1.718 1.710 1.702 1.694 1.687

60 1.735 1.722 1.711 1.700 1.690 1.681 1.672 1.664 1.656 1.649

70 1.709 1.696 1.685 1.674 1.664 1.654 1.646 1.637 1.629 1.622

80 1.689 1.677 1.665 1.654 1.644 1.634 1.626 1.617 1.609 1.602

90 1.675 1.662 1.650 1.639 1.629 1.619 1.610 1.601 1.593 1.586

100 1.663 1.650 1.638 1.627 1.616 1.607 1.598 1.589 1.581 1.573

200 1.609 1.596 1.583 1.572 1.561 1.551 1.542 1.533 1.524 1.516

300 1.591 1.578 1.565 1.554 1.543 1.533 1.523 1.514 1.505 1.497
400 1.582 1.569 1.556 1.545 1.534 1.523 1.514 1.505 1.496 1.488

Df 40 50 60 70 80 90 100 200 300 400

1 251.143 251.774 252.196 252.497 252.724 252.900 253.041 253.677 253.889 253.996

2 19.471 19.476 19.479 19.481 19.483 19.485 19.486 19.491 19.492 19.493

174
3 8.594 8.581 8.572 8.566 8.561 8.557 8.554 8.540 8.536 8.533

4 5.717 5.699 5.688 5.679 5.673 5.668 5.664 5.646 5.640 5.637

5 4.464 4.444 4.431 4.422 4.415 4.409 4.405 4.385 4.378 4.375

6 3.774 3.754 3.740 3.730 3.722 3.716 3.712 3.690 3.683 3.680

7 3.340 3.319 3.304 3.294 3.286 3.280 3.275 3.252 3.245 3.241

8 3.043 3.020 3.005 2.994 2.986 2.980 2.975 2.951 2.943 2.939

9 2.826 2.803 2.787 2.776 2.768 2.761 2.756 2.731 2.723 2.719

10 2.661 2.637 2.621 2.610 2.601 2.594 2.588 2.563 2.555 2.551

11 2.531 2.507 2.490 2.478 2.469 2.462 2.457 2.431 2.422 2.418

12 2.426 2.401 2.384 2.372 2.363 2.356 2.350 2.323 2.314 2.310

13 2.339 2.314 2.297 2.284 2.275 2.267 2.261 2.234 2.225 2.220

14 2.266 2.241 2.223 2.210 2.201 2.193 2.187 2.159 2.150 2.145

15 2.204 2.178 2.160 2.147 2.137 2.130 2.123 2.095 2.085 2.081

16 2.151 2.124 2.106 2.093 2.083 2.075 2.068 2.039 2.030 2.025

17 2.104 2.077 2.058 2.045 2.035 2.027 2.020 1.991 1.981 1.976

18 2.063 2.035 2.017 2.003 1.993 1.985 1.978 1.948 1.938 1.933

19 2.026 1.999 1.980 1.966 1.955 1.947 1.940 1.910 1.899 1.894

20 1.994 1.966 1.946 1.932 1.922 1.913 1.907 1.875 1.865 1.859

21 1.965 1.936 1.916 1.902 1.891 1.883 1.876 1.845 1.834 1.828

22 1.938 1.909 1.889 1.875 1.864 1.856 1.849 1.817 1.806 1.800

23 1.914 1.885 1.865 1.850 1.839 1.830 1.823 1.791 1.780 1.774

24 1.892 1.863 1.842 1.828 1.816 1.808 1.800 1.768 1.756 1.750

25 1.872 1.842 1.822 1.807 1.796 1.787 1.779 1.746 1.735 1.729

26 1.853 1.823 1.803 1.788 1.776 1.767 1.760 1.726 1.714 1.709

27 1.836 1.806 1.785 1.770 1.758 1.749 1.742 1.708 1.696 1.690

28 1.820 1.790 1.769 1.754 1.742 1.733 1.725 1.691 1.679 1.673

29 1.806 1.775 1.754 1.738 1.726 1.717 1.710 1.675 1.663 1.656

30 1.792 1.761 1.740 1.724 1.712 1.703 1.695 1.660 1.647 1.641

40 1.693 1.660 1.637 1.621 1.608 1.597 1.589 1.551 1.537 1.530

50 1.634 1.599 1.576 1.558 1.544 1.534 1.525 1.484 1.469 1.461

60 1.594 1.559 1.534 1.516 1.502 1.491 1.481 1.438 1.422 1.414

70 1.566 1.530 1.505 1.486 1.471 1.459 1.450 1.404 1.388 1.379

80 1.545 1.508 1.482 1.463 1.448 1.436 1.426 1.379 1.361 1.353

175
90 1.528 1.491 1.465 1.445 1.429 1.417 1.407 1.358 1.340 1.331

100 1.515 1.477 1.450 1.430 1.415 1.402 1.392 1.342 1.323 1.314

200 1.455 1.415 1.386 1.364 1.346 1.332 1.321 1.263 1.240 1.228

300 1.435 1.393 1.363 1.341 1.323 1.308 1.296 1.234 1.210 1.196
400 1.425 1.383 1.352 1.329 1.311 1.296 1.283 1.219 1.193 1.179

176
Bảng 5: Bảng giá trị phân vị Rp của tiêu chuẩn hạng bội
Duncan với  = 0.05
N- P
m 2 3 4 5 6 7 8 9 10 12
1 18.00 18.00 18.00 18.00 18.00 18.00 18.00 18.00 18.00 18.00

2 6.09 6.09 6.09 6.09 6.09 6.09 6.09 6.09 6.09 6.09
3 4.50 4.50 4.50 4.50 4.50 4.50 4.50 4.50 4.50 4.50
4 3.98 4.01 4.01 4.02 4.02 4.02 4.02 4.02 4.02 4.02
5 3.46 3.74 3.79 3.83 3.83 3.83 3.83 3.83 3.83 3.83
6 3.64 3.58 3.64 3.68 3.83 3.83 3.83 3.83 3.83 3.83
7 3.35 3.47 3.54 3.58 3.61 3.61 3.61 3.61 3.61 3.61
8 3.26 3.39 3.47 3.55 3.56 3.56 3.56 3.56 3.56 3.56
9 3.20 3.34 3.41 3.47 3.50 3.52 3.52 3.52 3.52 3.52
10 3.15 3.30 3.37 3.42 3.46 3.47 3.47 3.47 3.47 3.47
11 3.11 3.27 3.35 3.39 3.43 3.44 3.45 3.46 3.46 3.46
12 3.08 3.23 3.33 3.36 3.40 3.42 3.44 3.44 3.46 3.46
13 3.06 3.21 3.30 3.035 3.38 3.41 3.42 3.44 3.45 3.46
14 3.03 3.18 3.27 3.33 3.37 3.39 3.41 3.42 3.44 3.45
15 3.01 3.16 3.25 3.31 3.26 3.38 3.40 3.42 3.43 3.44
16 3.00 3.15 3.23 3.30 3.34 3.37 3.39 3.41 3.44 3.44
17 3.98 3.13 3.22 3.28 3.33 3.36 3.38 3.40 3.42 3.44
18 2.97 3.12 3.21 3.27 3.32 3.35 3.37 3.39 3.41 3.43
19 2.96 3.11 3.19 3.26 3.31 3.35 3.37 3.39 3.41 3.43
20 2.95 3.10 3.18 3.25 3.30 3.34 3.36 3.38 3.40 3.43
22 2.93 3.08 3.17 3.24 3.29 3.32 3.35 3.37 3.39 3.42
24 2.92 3.07 3.15 3.22 3.28 3.31 3.34 3.37 3.38 3.41
26 2.91 3.06 3.14 3.21 3.27 3.30 3.34 3.37 3.38 3.41
28 2.90 3.04 3.13 3.20 3.26 3.30 3.33 3.35 3.37 3.40
30 2.89 3.04 3.12 3.20 3.25 3.29 3.32 3.35 3.36 3.40
40 2.86 3.01 3.10 3.17 3.22 3.27 3.30 3.33 3.35 3.39
60 2.83 2.98 3.08 3.14 3.20 3.24 3.28 3.31 3.33 3.37
100 2.80 2.95 3.05 3.05 3.18 3.22 3.26 3.29 3.32 3.36
>100 37.7 2.92 3.02 3.09 3.15 3.19 3.23 3.26 3.29 3.34

177
TÀI LIỆU THAM KHẢO:
1. Lƣu Ngọc Hoạt, Nghiên cứu khoa học y học – Phân
tích và trình bày kết quả nghiên cứu, NXB Y học,
2017.
2. Nguyễn Văn Tuấn, y học thực chứng, NXB Y học,
2015.
3. Đỗ Trung Đàm, Đánh giá về lƣợng các kết quả
nghiên cứu y dƣợc sinh học, NXB Y học, 2015.
4. Chu Văn Thọ, Xác suất thống kê, Đại học y dƣợc
TP. HCM, 2012.
5. Hoàng Ngọc Nhậm, Xác suất thống kê, ĐH kinh tế
TP.HCM, 2012.
6. Đặng Đức Hậu, Bài tập xác suất thống kê, NXB
Giáo dục Việt Nam, 2011.
7. Đặng Hùng Thắng, Xác suất và các ứng dụng, NXB
Giáo dục Việt Nam,2011.
8. Phạm Việt Cƣờng, Thống kê y tế công cộng (phần
phân tích số liệu), NXB Y học, 2009.
9. Đặng Đức Hậu (chủ biên), xác suất thống kê, NXB
Giáo dục Việt Nam, 2008.
10. Nguyễn Văn Hữu, Thống kê Toán học, NXB Đại
học Quốc Gia Hà Nội, 2004.
11. Đặng Văn Giáp, Phân tích dữ liệu khoa học bằng
chƣơng trình MS Excel, NXB Giáo dục, 2004.
12. Lê Sỹ Đồng, Xác suất thống kê và ứng dụng, NXB
Giáo dục, 2004.

178

You might also like