You are on page 1of 63

CHƯƠNG I

XÁC SUẤT VÀ CÁC CÔNG THỨC TÍNH XÁC SUẤT

I - BỔ SUNG VỀ GIẢI TÍCH TỔ HỢP


1.1 Quy tắc đếm (quy tắc nhân):
Định nghĩa: Giả sử một công việc phải trải qua k giai đoạn. Giai đoạn 1 có n1
cách thực hiện, giai đoạn 2 có n2 cách thực hiện,..., giai đoạn k có nk cách thực
hiện.
Khi đó, để hoàn thành cả công việc thì ta có n = n1 n2 n3 ..nk cách thực hiện.
Ví dụ 1: Có 4 quyển sách toán, 2 quyển sách lý, 3 quyển sách văn. Hỏi có
bao nhiêu cách để lấy ra mỗi loại một quyển sách?
Có 3 giai đoạn: Giai đoạn 1, lấy 1 quyển toán → có 4 cách lấy.
Giai đoạn 2, lấy 1 quyển lý → có 2 cách lấy.
Giai đoạn 3, lấy 1 quyển văn → có 3 cách lấy.
→ Số cách lấy là n = 4.2.3 = 24 cách

1.2 Chỉnh hợp (không lặp):


Định nghĩa: Chỉnh hợp chập k của n phần tử (k ≤ n) là một bộ (nhóm) có thứ
tự gồm k phần tử khác nhau được chọn từ n phần tử đã cho. Chỉnh hợp chập k của
n phần tử kí hiệu là:

Ví dụ 2: Cho E = {1, 2, 3, 4}. Có bao nhiêu số tự nhiên bao gồm hai chữ số
phân biệt được thành lập từ E.
Mỗi số tự nhiên bao gồm hai chữ số phân biệt được thành lập từ E là một chỉnh
hợp (không lặp) chập 2 của 4. Nên số các số tự nhiên lập:

1.3 Chỉnh hợp lặp:


Định nghĩa: Chỉnh hợp lặp chập k của n phần tử là một bộ (nhóm) có thứ tự
gồm k phần tử được chọn từ n phần tử đã cho, trong đó các phần tử trong nhóm
có thể lặp lại 2,3,4,.., k lần. Chỉnh hợp lặp chập k của n phần tử:

1
Ví dụ 3: Xếp ngẫu nhiên 5 quyển sách vào 3 ngăn kéo. Hỏi có bao nhiêu cách
xếp?
Mỗi cách xếp 5 quyển sách vào 3 ngăn kéo xem như một chỉnh hợp lặp chập
3 của 5 (mỗi lần xếp một quyển sách vào một ngăn, ta có thể xem như chọn một
trong 3 ngăn → Có 3 cách chọn.
5
Do có 5 quyển sách nên số cách chọn là n = 3 = 243 cách.

1.4 Hoán vị
Định nghĩa: Hoán vị của n phần tử là một bộ có thứ tự gồm đủ mặt n phần tử
đã cho. Gọi số hoán vị của n phần tử là Pn , ta có công thức: Pn = n!

Ví dụ 4: Hỏi có bao nhiêu cách xếp 4 học sinh vào một bàn có 4 chỗ ngồi?
Số cách xếp là: n = P4 = 4! = 24 cách.

1.5 Tổ hợp
Định nghĩa: Một tổ hợp chập k của n phần tử (k ≤ n) là một nhóm gồm k
phần tử khác nhau, không phân biệt thứ tự, chọn từ lập n phần tử trước đó. Ký
hiệu: ∁kn
Công thức tính:

Ví dụ 5: Mỗi đề thi gồm có 3 câu hỏi khác nhau chọn từ 25 câu hỏi đã cho.
Hỏi có thể thành lập được bao nhiêu đề thi khác nhau?
Mỗi đề thi sẽ chọn 3 câu từ 25 câu đã cho. Do chọn không kể thứ tự, không
trùng nhau nên số cách chọn là tổ hợp chập 3 của 25

2
II – PHÉP THỬ VÀ BIẾN CỐ
2.1 Phép thử và biến cố:
Việc thực hiện một nhóm điều kiện xác định để quan sát một hiện tượng nào
đó được gọi là một phép thử. Kết quả của phép thử được gọi là biến cố.
Ví dụ 1: Khi một sinh viên đi thi môn Xác suất thống kê: thực hiện phép thử.
Kết quả của phép thử là sinh viên thi đậu hoặc rớt. Đậu hoặc rớt là những sự kiện
ngẫu nhiên.
Tung một đồng xu là một phép thử, đồng xu xuất hiện mặt xấp hay ngữa là
các biến cố.

2.2Các loại biến cố:


2.2.1 Biến cố chắc chắn:
Là biến cố chắc chắn xảy ra trong một phép thử, và người ta kí hiệu là: W
Ví dụ 2: Tung một con xúc xắc. Gọi A là biến cố xúc xắc xuất hiện mặt có số
chấm nhỏ hơn hoặc bằng 6. Khi đó ta nói A là biến cố chắc chắn, A = W.
2.2.2 Biến cố không thể:
Là biến cố không thể xảy ra trong một phép thử, và người ta kí hiệu là: ∅
Ví dụ 3: Tung một con xúc xắc. Gọi B là biến cố xúc xắc xuất hiện mặt 7
chấm. Khi đó ta nói A là biến cố không thể, A = ∅
2.2.3 Biến cố ngẫu nhiên:
Là biến cố có thể xảy ra cũng không thể xảy ra trong một phép thử. Ta thường
dùng các chữ cái A, B, C,.. để kí hiệu cho biến cố ngẫu nhiên.
Ví dụ 4: Một xạ thủ bắn vào một tấm bia, gọi A là biến cố xạ thủ bắn trúng
bia, A là biến cố ngẫu nhiên.
2.2.4 Biến cố thuận lợi (Biến cố kéo theo)
Biến cố A được gọi là thuận lợi cho biến cố B nếu A xảy ra thì B cũng xảy ra.
Kí hiệu: A B.
Ví dụ 5: Tung một con xúc xắc. Gọi A là biến cố xúc xắc xuất hiện mặt 2
chấm và B là biến cố xuất hiện mặt chẵn. Khi đó ta nói A B.
2.2.5 Biến cố sơ cấp:
Biến cố A được gọi là biến cố sơ cấp nếu nó không có biến cố cố nào thuận
lợi cho nó (trừ chính nó), tức là không thể phân tích được nữa.

3
Ví dụ 6: Gọi Ai là biến cố xúc xắc xuất hiện mặt i chấm (i=1,..,6) thì A1, A2,
.. , A6 là các biến cố sơ cấp.
Tập hợp tất cả các biến cố sơ cấp của một phép thử được gọi là không gian
các biến cố sơ cấp và kí hiệu: W
Ví dụ 7: W = { A1, A2, A3, A4, A5, A6}.
2.26 Biến cố đối lập
Biến cố “ Không xãy ra biến cố A” được gọi là biến cố đối lập của biến cố A.
Ký hiệu: A
2.2.7 Biến cố hiệu:
Hiệu của hai biến cố A và B, kí hiệu A-B (hay A\B) là một biến cố xảy ra
⇔ A xảy ra nhưng B không xảy ra.
Ví dụ 8: Tung một con xúc xắc.
Gọi A là biến cố xúc xắc xuất hiện mặt có số chấm là số lẻ.
B là biến cố xúc xắc xuất hiện mặt có số chấm là số nguyên tố nhỏ hơn 5.
C là biến cố xúc xắc xuất hiện mặt có 5 chấm.
Ta có: C = A\B
2.2.8 Biến cố tổng:
Tổng của hai biến cố A và B, kí hiệu A + B hay A B là một biến cố xảy ra
 ít nhất một trong hai biến cố A và B xảy ra.
Ví dụ 9: Hai xạ thủ cùng bắn vào một con thú. Gọi A là biến cố xạ thủ thứ
nhất bắn trúng, B là biến cố xạ thủ thứ hai bắn trúng. Khi đó biến cố thú bị trúng
đạn là C=A + B.
2.2.9 Biến cố tích:
Tích của hai biến cố A và B, kí hiệu: AB hay A B là một biến cố xảy ra 
cả hai biến cố A và B đồng thời xảy ra.
Ví dụ 10: Hai xạ thủ cùng bắn vào một bia. Gọi A là biến cố xạ thủ thứ nhất
bắn trật, B là biến cố xạ thủ thứ hai bắn trật. Khi đó biến cố bia không bị trúng
đạn là C = AB.
2.2.10 Biến cố xung khắc:
Hai biến cố A và B được gọi là xung khắc nếu chúng không đồng thời xảy ra
trong một phép thử.

4
Ví dụ 13: Tung một con xúc xắc, gọi A là biến cố xúc xắc xuất hiện mặt chẵn,
B là biến cố xúc xắc xuất hiện mặt 3 chấm  A, B xung khắc.

III – ĐỊNH NGHĨA XÁC SUẤT


3.1 Định nghĩa xác suất theo lối cổ điển:
Giả sử một phép thử có n biến cố sơ cấp đồng khả năng có thể xảy ra, trong
đó có m biến cố sơ cấp đồng khả năng thuận lợi cho biến cố A. Khi đó xác suất của
biến cố A ( kí hiệu P(A)) được định nghĩa bởi công thức sau:

Trong đó m: là số lần thuận lợi cho A


n: là số trường hợp đồng khả năng
Ví dụ 1: Tung ngẫu nhiên một con xúc xắc đồng chất, tính xác suất xuất hiện
mặt có chấm lẻ:
- Không gian các biến cố sơ cấp gồm các trường hợp đồng khả năng là:
W = { W1;W2;..W6}
Gọi A là biến cố xuất hiện số chấm lẻ => có 3 trường hợp thuận lợi cho A là:
m 3
W1, W3, W5 . Do đó: P(A) = = = 0,5
n 6
Ví dụ 2: Tung đồng thời 2 con xúc xắc cân đối đồng chất. Tính xác suất tổng
số chấm bằng 8
Số trường hợp đồng khả năng: n = 6.6 = 36 trường hợp
Số trường hợp thuận lợi: m = (2,6; 3,5; 4,4; 5,3; 6,2) = 5 trường hợp
m 5
Do đó P(A) = = = 0,139
n 36
Ví dụ 3: Hộp có 15 viên bi trong đó có 6 bi màu đỏ, còn lại màu trắng. Lấy
ngẫu nhiên đồng thời 5 viên bi. Tính xác suất của biến cố A lấy được 3 bi màu đỏ.
Số trường hợp đồng khả năng: n = ?
Số trường hợp thuận lợi : m = ?
P(A) = ?

5
* Một số tính chất cơ bản của xác suất:

IV – CÁC CÔNG THỨC TÍNH XÁC SUẤT


4.1 Công thức cộng xác suất
● Với A, B là hai biến cố tùy ý, ta có:
P(A + B) = P(A) + P(B) – P(AB)
Đặt biệt: Nếu A.B = ∅ (xung khắc) thì P (A+B) = P(A) + P(B)
Ví dụ 1: Một bệnh viện có 100 nhân viên, trong đó có 40 nữ. Trong 50 nhân
viên có nhà gần bệnh viện có 15 nữ. Chọn ngẫu nhiên một nhân viên để trực đêm
(biết quy định của bệnh viện trực đêm là nhân viên nam hoặc nhân viên có nhà gần
bệnh viện) Tính xác suất sao cho chọn được người thuộc diện phải trực bệnh viện.
Giải: Gọi A là biến cố nhân viên được chọn là nam
Gọi B là biến cố nhân viên được chọn có nhà gần cơ quan
Gọi C là biến cố nhân viện được chọn phải trực đêm
Theo quy định của cơ quan, ta có: C = A + B
60 50 35
→ P(C) = P (A + B) = P(A) + P(B) – P(A.B) = + - = 0,75
100 100 100
● Với A, B, C là ba biến cố tùy ý , ta có:
P(A+B+C) = [P(A)+P(B)+P(C)]-[P(AB)+P(AC)+P(BC)]+P(ABC)

Ví dụ 2: Một nhóm 48 người trong đó có 14 người biết sử dụng máy A, 22


người biết sử dụng máy B, 12 người biết sử dụng máy C. Trong số người biết sử
dụng máy nói trên có:
- 10 người biết sử dụng cả 2 máy A và B
- 8 người biết sử dụng cả 2 máy A và C
- 6 người biết sử dụng cả 2 máy B và C
- 4 người biết sử dụng cả 3 máy
6
Chọn ngẫu nhiên một người từ nhóm người đã chọn. Tính xác suất để người
được chọn ra biết sử dụng một loại máy nào đó.
Giải:
Gọi A, B, C lần lượt là các biến cố người được chọn biết sử dụng máy A, B,C
Gọi D là biến cố người được chọn ra biết sử dụng 1 loại máy nào đó
P(D) = P(A+B+C)
= [P(A)+P(B)+P(C)]-[P(AB)+P(AC)+P(BC)]+P(ABC)
14 22 12 10 6 8 4
= + + - - - + = 0,583
48 48 48 48 48 48 48
Ví dụ 3: Một hộp các viên bi trong đó có 5 bi màu đỏ, 4 bi màu xanh, 3 bi
màu vàng, 2 bi màu trắng. Lấy ngẫu nhiên trong hộp ra 3 viên bi, tính xác suất lấy
được 3 viên bi cùng màu.
Giải:
Gọi Ai (i = 1,2,3,4) lần lượt là biến cố 3 bi lấy ra cùng màu đỏ, xanh, vàng, trắng
Gọi A là biến cố lấy được 3 bi cùng màu
Ta có: A = A1 + A2 + A3 + A4
P(A) = P(A1 + A2 + A3 + A4)
Vì các biến cố A1 , A2 , A3, A4 đôi một xung khắc nhau
→ P(A) = P(A1)+ P(A2)+ P(A3)+ P(A4)
C35 C34 C33
= 3 + C3 + C3 = 0, 041
C14 14 14

4.2 Công thức nhân xác suất


4.2.1 Xác suất có điều kiện
Xác suất của biến cố A được xác định khi biến cố B đã xãy ra được gọi là xác
suất có điều kiện của biến cố A với điều kiện B. Ký hiệu: P(A/B)
𝐏(𝐀.𝐁)
Công thức tính: P(A/B) =
𝐏(𝐁)
Ví dụ 4: Có 20 tấm thẻ đánh số từ 1 đến 20. Chọn ngẫu nhiên một thẻ. Tính
xác suất sao cho thẻ được chọn có số chia hết cho 3, khi biết số đó chia hết cho 2.
Giải: Gọi A, B lần lượt là biến cố trên thẻ lấy ra chia hết cho 2 và 3
𝐏(𝐀.𝐁)
Ta cần tính P(B/A) =
𝐏(𝐀)
7
Vì trong 20 thẻ có 10 trường hợp thuận lợi cho A →P(A) = 10/20 = 0,5
Vì A.B là biến cố vừa là số chia hết cho 2 và cho 3 nên có 3 trường hợp thuận
lợi là 6, 12, 18
=> P(AB) = 3/20 = 0,15
=> P(B/A) = 0,15 / 0,5 = 0,3
4.2.2 Công thức nhân xác suất
Với A,B là hai biến cố tùy ý, từ công thức xác suất có điều kiện ta có:
P(A.B) = P(B). P(A/B)
Nếu 2 biến cố A,B độc lập thì P(A.B) = P(A). P(B)
Ví dụ 5: Một chùm chìa khóa có 5 chìa, trong đó có 2 chìa mở được phòng
thí nghiệm. Thử lần lượt từng chìa cho đến khi mở được cửa thì dừng. Tính xác
suất để việc thử dừng lại ở lần thứ 2.
Giải: Gọi Ai là biến cố lần thứ i mở được cửa (i = 1,2,3,4,5)
Gọi A là biến cố việc thử dừng ở lần thứ 2
Ta có: A = A1 . A2 => P(A) = P( A1 . A2 ) = P(A1 ). P(A2/A1 ) = 3/5 x 2/4 = 0,3
Ví dụ 6: Có 2 hộp chứa các viên bi, mỗi hộp chưa 5 viên bi với số bi đỏ lần
lượt các hộp là 1 và 3. Từ mỗi hộp lấy ngẫu nhiên 1 viên bi.
a) Tính xác suất sao cho 2 bi lấy ra đều màu đỏ
b) Biết 2 bi lấy ra có đúng 1 bi đỏ, tính xác suất bi đỏ lấy ra của hộp thứ
nhất.
Giải: Gọi A1, A2 lần lượt là biến cố lấy được bi đỏ từ hộp 1 và 2
a) Gọi A là biến cố lấy được bi đỏ
A = A1. A2 (A1. A2 độc lập)
P(A) = P(A1. A2) = P(A1) .P(A2) = 1/5 x 3/5 = 0,12
b) Gọi B là biến cố trong đó bi lấy ra đúng 1 bi đỏ
Ta cần tính: P(A1/B) = P(A1.B)/P(B)
B = A1.A2 + A1A2
P(B) = P(A1.A2 ) + P(A1A2 ) = P(A1).P(A2 ) + P(A1).P(A2 )
1 2 4 3
= . + . = 0,56
5 5 5 5
1 2
P(A1.B) = P(A1.A2 ) = . = 0,08
5 5

8
=> P(A1/B) = 0,08 / 0,56 = 0,1428
Ví dụ 7 : Hai xạ thủ mỗi người bắn một phát đạn vào bia. Xác suất bắn trúng
của người thứ nhất là p = 0,9; của người thứ hai là p = 0,7. Tính xác suất:
a) Cả hai đều bắn trúng.
b) Có đúng một viên đạn trúng bia.
c) Bia bị trúng đạn.
Biết rằng hai người bắn độc lập với nhau.
Giải: a) Gọi A là biến cố xạ thủ I bắn trúng bia.
Gọi B là biến cố xạ thủ II bắn trúng bia.
Gọi C là biến cố cả hai xạ thủ trúng bia.
P(C) = P(A.B) = P(A).P(B) = 0,9 x 0,7 = 0,63
b) Gọi D là biến cố có 1 viên đạn trúng bia
Ta có D = AB + AB ( mà 2 AB và AB xung khắc với nhau)
P(D) = P(AB) + P(AB) = P(A).P(B) + P(A).P(B)
= (0,1 x 0,7) + (0,9 x 0,3) = 0,34
c) Gọi E là biến cố bia bị trúng đạn
Cách 1: E = AB + AB + AB Từ kết quả câu a và b ta có
P(E) = 0,63+ 0,34 = 0,97
Cách 2: Ta tính E (biến cố bia không bị trúng đạn)
Ta có: E = A. B = P(A). P(B) = 0,1 x 0,3 = 0,03
=> P(E) = 1 – P(E) = 1 – 0,03 = 0,97

4.3 Công thức xác suất toàn phần


4.3.1 Nhóm biến cố đầy đủ và xung khắc từng đôi
Ta có nhóm biến cố {A1,A2,A3,…An} được gọi là nhóm đầy đủ và xung khắc
từng đôi khi:
A1, + A2 + A3 +,…+An = Ω
AiAj =∅ (i≠ 𝑗)
=> P(A1) +P(A2)+ …+P(An) = 1
4.3.2 Công thức xác suất toàn phần (đầy đủ)

9
Giả sử {A1,A2,A3,…An} là nhóm đầy đủ và xung khắc, với B là biến cố ngẫu
nhiên trong cùng một phép thử. Ta có công thức:

Ví dụ 8: Xét một lô sản phẩm, trong đó có sản phẩm của nhà máy 1 sản phẩm
chiếm 20%, nhà máy 2 sản phẩm chiếm 30%, nhà máy 3 sản phẩm chiếm 50%.
Xác suất phế phẩm của nhà máy 1, 2, 3 lần lượt là 0,001; 0,005; 0,006. Lấy ngẫu
nhiên 1 sản phẩm từ lô hàng. Tính xác suất để sản phẩm lấy ra là phế phẩm.
Giải: Gọi B là biến cố lấy được phế phẩm
Gọi A1,A2,A3 lần lượt là biến cố lấy được sản phẩm của nhà máy 1,2,3
Ta thấy P(A1) + P(A2) + P(A3) = 1 và các biến cố này xung khắc nhau
Áp dụng công thức ta được

= P(A1)P(B/A1) + P(A2)P(B/A2) + P(A3)P(B/A3)

= 0,2 . 0,001 + 0,3. 0.005 + 0,5. 0,006 = 0,0065


Ví dụ 9: Có 3 lô sản phẩm, mỗi lô có 10 sản phẩm với số phế phẩm từng lô
tương ứng là 1,2,3. Lấy ngẫu nhiên mỗi lô 1 sản phẩm, sau đó từ 3 sản phẩm lấy
ra chọn 1 sản phẩm. Tính xác suất để sao cho sản phẩm lấy ra là phế phẩm
Giải: Gọi B là biến cố lấy được phế phẩm lấy lần sau
Gọi A1,A2,A3 lần lượt là biến cố lấy được sản phẩm của lô 1,2,3
Ta thấy P(A1) + P(A2) + P(A3) = 1/3 + 1/3 + 1/3 = 1 và các biến cố này xung khắc
nhau
Áp dụng công thức ta được

= P(A1)P(B/A1) + P(A2)P(B/A2) + P(A3)P(B/A3)

= 1/3 x 1/10 + 1/3 x 2/10 + 1/3 x 3/10 = 0,2

4.3.3 Công thức Bayes


Giả sử B là một biến cố đã xãy ra và {A1,A2,A3,…An} là nhóm đầy đủ và
xung khắc từng đôi, ta có:

10
Ví dụ 10: Tiếp theo ví dụ 9, tính xác suất sao cho phế phẩm lấy ra của lô 1
Giải: Theo công thức Bayes ta được
P(A1/B) = P(A1).P(B/A1) / P(B) = (1/3 x 1/10)/ 0,2 = 0.167

4.3.4 Công thức Bernoulli


Ta tiến hành n phép thử độc lập. Giả sử trong mỗi phép thử chỉ xảy ra hai
trường hợp: Hoặc biến cố A xảy ra với xác suất p ; hoặc biến cố A không xảy ra
với xác suất q = 1 – p.
Các bài toán thỏa mãn các điều kiện trên thì được gọi là tuân theo lược đồ
Bernoulli. Khi đó xác suất để trong n phép thử độc lập biến cố A xuất hiện k lần
được ký hiệu: Pn(k) và được tính:

Ghi chú: p = P(A) và q =1 – p


Ví dụ 11: Hộp có 15 viên bi trong đó có 6 viên bi màu đỏ. Lần lượt lấy ra có
hoàn lại 5 viên bi. Tính xác suất để trong 5 lần lấy được 3 bi màu đỏ.
Giải: áp dụng công thức Bernoulli ta được:
n = 5 ; k = 3 ; p = 6/15 ; q = 1 - 6/15 = 9/15
P5(3) = 𝐶53 p3q5-3 = 0,23

V – BÀI TẬP
1. Trong một kỳ thi, mỗi sinh viên phải thi 2 môn. Một sinh viên A ước lượng
rằng: xác suất để đạt môn thứ nhất là 0,8 và nếu đạt môn thứ nhất thì môn thứ hai
là 0,6. Nếu không đạt môn thứ nhất thì xác suất đạt môn thứ hai là 0,3
a. Tính xác suất để sinh viên A đạt một môn
b. Tính xác suất để sinh viên A đạt cả 2 môn
c. Tính xác suất để sinh viên A đạt ít nhất là một môn.

11
2. Điều trị bệnh B bằng 2 phương pháp cho 1000 người, trong đó 600 người điều
trị bằng phương pháp 1, 400 người điều trị bằng phương pháp 2. Xác suất điều trị
khỏi bệnh bằng phương pháp 1 và 2 lần lượt là 0,8 và 0,9.
a. Chọn ngẫu nhiên 1 người đang điều trị bệnh B, tính xác suất chọn được người
điều trị bằng phương pháp 2.
b. Chọn ngẫu nhiên một người đang điều trị bệnh B, tính xác suất người đó điều trị
khỏi.
c. Chọn ngẫu nhiên một người đang điều trị bệnh B, biết người đó khỏi bệnh, tính
xác suất để người đó điều trị bằng phương pháp 1.

3. Trong một vùng dân cư, tỉ lệ mắc bệnh tim là 9%, tỉ lệ mắc bệnh khớp là 12%,
tỷ lệ mắc cả 2 bệnh là 7%. Chọn ngẫu nhiên một người, tính xác suất để người đó
không mắc bệnh tim cũng không mắc bệnh khớp.

4. Tại một khoa nội, tỉ lệ 3 nhóm bệnh: tim mạch, huyết học, tiêu hóa lần lượt là
25%, 25%, 50%. Xác suất gặp một bệnh nhân nặng của nhóm tim mạch là 0,4 và
của huyết học là 0,5. Xác suất gặp một bệnh nhân nặng của cả ba nhóm là 0,375.
Khám tất cả bệnh nhân nặng, tính xác suất gặp bệnh nhân nhóm tiêu hóa.

5. Một phòng điều trị có 3 bệnh nhân nặng với xác suất cần cấp cứu trong vòng
một giờ của các bệnh nhân tương ứng 0,7; 0,8; 0,9. Tìm xác suất sao cho trong
vòng một giờ:
a. Có 2 bệnh nhân cần cấp cứu.
b. Có ít nhất 1 bệnh nhân cần cấp cứu.

6. Có 3 hộp thuốc: hộp A gồm 15 lọ tốt và 5 lọ hỏng; hộp B gồm 17 lọ tốt và 3 lọ


hỏng; hộp C gồm 10 lọ tốt và 10 lọ hỏng.
a. Lấy mỗi hộp 1 lọ. Tính xác suất lấy được 2 lọ tốt và 1 lọ hỏng
b. Chọn ngẫu nhiên 1 hộp rồi từ đó lấy ra 3 lọ. Tính xác suất được 2 lọ tốt và 1 lọ
hỏng.
c. Trộn chung 3 hộp rồi từ đó lấy ra 3 lọ, tính xác suất được 2 lọ tốt và 1 lọ hỏng.

12
7. Dùng 3 loại thuốc A, B, C điều trị 1 bệnh . Xác suất kháng thuốc khi dùng A, B
lần lượt là 0,15 và 0,3. Xác suất dùng thuốc A, B trong số người kháng thuốc
tương ứng bằng 0,3 và 0,6. Tìm xác suất kháng thuốc khi dùng C. Biết tỷ lệ dùng
thuốc A bằng 0,4.

8. Tung một con xúc xắc liên tục cho đến khi mặt 6 chấm xuất hiện 4 lần thì
ngưng. Tính xác suất sao cho việc tung xúc xắc ngưng ở lần thứ 6.

9. Một bác sĩ có xác suất chữa khỏi bệnh là 0,8. Có người nói rằng cứ 10 người đến
chữa bệnh thì chắc chắn có 8 người khỏi bệnh. Điều khẳng định đó có đúng
không?

10. Một sinh viên thi trắc nghiệm môn Ngoại Ngữ gồm có 10 câu hỏi. Mỗi câu có
4 phần để lựa chọn trả lời, trong đó chỉ có 1 phần đúng. Giả sử sinh viên làm bài
bằng cách chọn ngẫu nhiên các phần của câu hỏi. Tính xác suất trong các trường
hợp sau:
a. Sinh viên vừa đủ điểm đậu (5 điểm).
b. Sinh viên chọn đúng ít nhất 1 câu hỏi

13
CHƯƠNG II
ĐẠI LƯỢNG NGẪU NHIÊN
VÀ MỘT SỐ LUẬT PHÂN PHỐI THÔNG DỤNG

I – KHÁI NIỆM VÀ PHÂN LOẠI ĐẠI LƯỢNG NGẪU NHIÊN (ĐLNN)


1.1 Khái niệm
Đại lượng ngẫu nhiên là đại lượng biến đổi biểu thị các giá trị kết quả của một
phép thử ngẫu nhiên.
Ta thường dùng các kí hiệu: X, Y, Z,…... để biểu thị cho đại lượng ngẫu
nhiên.
Ví dụ 1: Tung ngẫu nhiên 1 con xúc xắc và gọi X là số chấm xuất hiện. Ta có
X là một ĐLNN (vì trong kết quả của phép thử X có thể nhận 1 trong 6 giá trị với
xác suất tương ứng là 1/6)
1.2 Các loại ĐLNN
Đại lượng ngẫu nhiên rời rạc: Đại lượng ngẫu nhiên được gọi là rời rạc nếu
nó có một số hữu hạn hoặc vô hạn đếm được các giá trị.
Các giá trị có thể của đại lượng ngẫu nhiên X được ký hiệu x1, x2, …, hay y1,
y2,
Đại lượng ngẫu nhiên liên tục: Đại lượng ngẫu nhiên được gọi là liên tục
nếu các giá trị có thể có của nó lắp đầy một khoảng trên trục số.
Ta không thể liệt kê các giá trị của đại lượng ngẫu nhiên liên tục. Các đại
lượng ngẫu nhiên chỉ nhiệt độ, diện tích, thể tích, thời gian, … là liên tục .
1.3 Quy luật phân phối xác suất của ĐLNN
Định nghĩa: Luật phân phối xác suất của đại lượng ngẫu nhiên là biểu đồ
(bảng, đồ thị,…) trong đó chỉ ra:
✓ Các giá trị có thể nhận được của đại lượng ngẫu nhiên.
✓ Xác suất tương ứng của đại lượng ngẫu nhiên nhận giá trị đó.
1.3.1 Bảng phân phối xác suất:
Bảng phân phối xác suất dùng để thiết lập luật phân phối xác suất của đại
lượng ngẫu nhiên rời rạc.
Bảng gồm 2 dòng: Dòng trên ghi các giá trị có thể có của đại lượng ngẫu
nhiên là: x1, x2, .. , xn; dòng dưới ghi các xác suất tương ứng là: P1, P2, .. , Pn.

14
X x1 x2 x3 … xn Trong đó:
P p1 p2 p3 … pn P(X = xi) = pi
Pi ≥ 0
𝑛

∑ pi = 1
𝑖=1

Ví dụ 2: Cho một hộp có 10 viên bi, trong đó có 6 viên bi màu đỏ, còn lại là
bi màu trắng. Lấy đồng thời 4 viên bi và gọi X là số viên bi màu đỏ lấy được. Lập
bảng phân phối xác suất.
Giải: Gọi Ai là biến cố lấy được bi màu đỏ (i = 0,1,2,3,4)
Ta có:
P(X = 0) = P(A0) = 0,005
P(X = 1) = P(A1) = 0,114
P(X = 2) = P(A2) = 0,429
P(X = 3) = P(A3) = 0,381
P(X = 4) = P(A4) = 0,071
Bảng phân phối xác suất của X là:
X 0 1 2 3 4
P 0,005 0,114 0,429 0,381 0,071

1.3.2 Hàm mật độ xác suất


Hàm mật độ f(x) của ĐLNN liên tục X là một hàm không âm xác định trên
toàn trục số sao cho:
𝐛
P (a≤ 𝐗 ≤ 𝐛) = ∫𝐚 𝐟(𝐱)𝐝𝐱 ∀𝐚, 𝐛
Hàm mật độ xác suất có tính chất sau:
+∞
∫−∞ f(x)dx = 1

Ví dụ 3: Cho biết tuổi thọ của một dụng cụ điện là ĐLNN liên tục X (tính
theo đơn vị năm) có hàm mật độ xác suất

15
0 ,x ∉ [0;3]
f(x) =
k(3x-x2) , x 

a. Xác định hằng số k


b. Biết dụng cụ bảo hành với thời gian 1 năm. Tính xác suất sao cho 1 dụng
cụ chọn ngẫu nhiên bị hỏng trong thời gian bảo hành.
Giải: a. Vì f(x) là một hàm mật độ xác suất nên
+∞
∫−∞ f(x)dx = 1
0 3 +∞
<=> ∫−∞ f(x)dx + ∫0 f(x)dx + ∫3 f(x)dx = 1
3 3 9𝑘 2
<=> ∫0 f(x)dx =1 <=> ∫0 k(3x − x2) = 1 <=> = 1 => k =
2 9
12 7
b. Xác suất cần tìm là P(0≤ X ≤1) => ∫0 (3x − x2)dx =
9 27
1.3.3 Hàm phân phối xác suất
Hàm phân phối xác suất của ĐLNN X được ký hiệu là F(x) được cho bởi biểu
thức:
F(x) = P(X < x)

Ví dụ 4: Hãy xác định hàm phân phối xác suất của ĐLNN rời rạc X có phân
phối xác suất sao đây
X -1 2 5
P 0,5 0,3 0,2
Giải:
x ≤ -1 F(x) = 0
-1 ≤ x ≤2 F(x) = 0,5
2 ≤ x ≤5 F(x) = 0,8
x≥5 F(x) = 1
Tóm lại ta có hàm phân phối xác suất như sau:

16
0 , x ≤ -1
F(x) = 0,5 , -1 ≤ x ≤2
0,8 , 2 ≤ x ≤5
1 ,x≥5
Đồ thị của hàm phân phối xác xuất như trên có dạng hàm bậc thang

F(X)

0,8

0,5

-1 2 5 x

II - CÁC THAM SỐ ĐẶC TRƯNG CỦA ĐLNN


2.1 Kỳ vọng:
Kỳ vọng của một ĐLNN X, ký hiệu là E(X) hay M(X) có công thức như sau:
 Nếu X là ĐLNN rời rạc có luật phân phối X xi thì X có kỳ vọng:
P pi

 Nếu X là ĐLNN liên tục có hàm mật độ xác suất y = f(x) thì X có kỳ vọng :

Ví dụ 5: Giả sử điểm thi môn XSTK của lớp có 100 sinh viên (sv) trong đó có
10 sv đạt điểm 10; 30 sv đạt điểm 8; 40 sv đạt điểm 6 và còn lại đạt điểm 4. Chọn
ngẫu nhiên 1 sv của lớp. Gọi X là điểm thi của sv đó. Hãy tính kỳ vọng của X.
Giải: Ta có bảng phân phối xác suất
17
X 4 6 8 10
P 0,2 0,4 0,3 0,1

Kỳ vọng : E(X) = 4.0,2+6.0,4+8.0,3+10.0,1 = 6,6

Tóm lại: Kỳ vọng là giá trị trung bình theo xác suất hay là giá trị trọng tâm
của ĐLNN X. Chính vì vậy người ta dùng kỳ vọng để xác định vị trí của phân bố

2.2 Phương sai


Phương sai của ĐLNN X, ký hiệu D(X) hay Var (X) là giá trị được xác định
bởi hệ thức:
D(X) = E[X – E(X)]2
Từ công thức định nghĩa ta rút ra được công thức tương đương khác:
D(X) = E(X2) – [E(X)]2

Ví dụ 6: Cho ĐLNN rời rạc có bảng phân phối như sau:


X 0 1 2 3
P 0,1 0,2 0,3 0,4
a. Tính E(X)
b. Tính E(Y) với Y = X2
c. Tính D(X);
Giải:
a. E(X) =2
b. Y = X2 ta có bảng phân phối xác suất của Y
X 0 1 4 9
P 0,1 0,2 0,3 0,4
E(Y) = 5
c. D(X) = E(X2) – [E(X)]2 = 5 – 4 = 1

2.3 Độ lệch chuẩn

18
Độ lệch chuẩn của ĐLNN X được ký hiệu là 𝜎(X) và được tính bằng công
thức:
𝝈(X) = √𝐃(𝐗)

Khái niệm độ lệch chuẩn giải quyết vấn đề đơn vị đo. Kỳ vọng E(X) của
ĐLNN X có đơn vị đo bằng đơn vị đo của X, còn phương sai D(X) có đơn vị đo
bằng bình phương đơn vị đo của X. Suy ra độ lệch chuẩn 𝜎(X) có đơn vị đo bằng
đơn vị đo của X
2.4 Mode
Tham số Mode của ĐLNN X có giá trị được viết là Mod(X) và được hiểu là
một giá trị của X có khả năng xảy ra cao nhất, còn được gọi là giá trị tin chắc nhất.
- Nếu X là ĐLNN rời rạc thì Mod(X) = xi có xác suất pi lớn nhất
- Nếu X là ĐLNN liên tục có hàm mật đô f(x) thì Mod(X) = xi sao cho f(x)
đạt giá trị lớn nhất tại x =x0
Ví dụ 7: Trong ví dụ 6 ta có P(X=3) = 0,4 là xác suất có khả năng xảy ra lớn
nhất suy ra Mod(X) = 3

III – BÀI TẬP


1. Cho X có bảng phân phối xác suất như sau:
X 1 2 3 4
P 0.3 0,2 0,4 0,1

Tìm hàm F(X) và vẽ đồ thị

2. Trong một cái bát có để 5 hạt đậu, trong đó có hai hạt đỏ. Lấy ngẫu nhiên ra 2
hạt. Gọi X là số hạt đậu đỏ được lấy ra.
a. Lập bảng phân phối xác suất của X.
b. Viết biểu thức hàm phân phối của X.
c. Tính E(X) và Var(X).

3. Cho ĐLNN rời rạc X có E(X) = 1,6 và có bảng phân phối xác suất như sau
19
Tìm giá trị a và b?
X -2 0 2 4
P a 0,1 b 0,5

4. Cho ĐLNN rời rạc X có bảng phân phối xác suất như sau:
X -1 1 2
P 0,25 0,25 0,5
Tính E(Y), D(Y), Mod(Y) và 𝜎(Y) biết rằng Y = 2x – 1

5. Tính E(X) của ĐLNN liên tục có hàm mật độ xác suất
ax2(1-x) , x  [0;1]
f(x)
0 , x ∉ [0;1]

6. Tỷ lệ mắc bệnh B tại một địa phương A là 0,2. Khám ngẫu nhiên 2 người tại địa
phương A.
a. Lập bảng phân phối xác suất của số người mắc bệnh
b. Tìm hàm phân phối xác suất của X
c. Tính P (x>2)
d. Tính E(X), D(X), Mod(X) và 𝜎(X)

IV - MỘT SỐ LUẬT PHÂN PHỐI XÁC SUẤT


4.1 Phân phối nhị thức
Trong dãy n phép thử Bernoulli biến cố A có xác suất xảy ra trong mỗi phép
thử không đổi P(A) = p (suy ra P(A) = 1 – p )
Gọi X là biến ngẫu nhiên nhận giá trị bằng số lần xảy ra biến cố A trong n
phép thử, ta nói rằng X có luật phân phối nhị thức với tham số n và p. Ký hiệu
X~B(n;p)
Các xác suất của X được tính theo công thức Bernoulli:
P(X=m) = 𝐂𝐧𝐦 .pm.(1-p)n-m (0≤ m ≤n)

20
Khi đó E(X) = n.p ; D(X) = np(1- p) và 𝜎 = √np(1 − p)
Ví dụ 8: Tỷ lệ mắc bệnh B trong cộng đồng là 0,3. Khám ngẫu nhiên 20
người. Gọi X là số người mắc bệnh. Tính xác suất:
a. Có 5 người mắc bệnh. Tính E(X), D(X)
b. Có ít nhất 1 người mắc bệnh.
Giải: Ta có X~B(20;0,3)
5
a. P(X=5) = C20 . 0,35.0,715 = 0,178
E(X) = 20 . 0,3 = 6 ; D(X) = 20 . 0,3 . 0,7 = 4,2
b. P( X ≥ 1) = 1 – P(X=0) = 1 – 0,720 = 0,99

4.2 Phân phối chuẩn


Biến ngẫu nhiên X liên tục có luật phân phối chuẩn nếu hàm mật độ xác suất
có dạng

;Trong đó 𝜇 tùy ý, 𝜎 > 0

Ký hiệu X~ N (𝜇, 𝜎2)


Đồ thị hàm mật độ xác suất có dạng hình chuông, đối xứng qua đường x = 𝜇
1
và đạt cực đại tại điểm ( x = 𝜇 và y = )
𝜎 √2𝜋

Các đặc trưng của X được xác định bởi các hệ thức E(X) = 𝜇 ;D(X) = 𝜎2
;𝜎(𝑋) = 𝜎

21
Ý nghĩa: Phân phối chuẩn có ý nghĩa rất lớn trong thực tế. Rất nhiều biến
ngẫu nhiên có luật phân phối chuẩn. Những biến ngẫu nhiên có liên quan đến số
lượng lớn, chịu ảnh hưởng của các yếu tố cân bằng thường có luật phân phối
chuẩn.
Chẳng hạn: các chỉ số học sinh (cân nặng, chiều cao,…) của những người
cùng giới tính và cùng độ tuổi,…
4.3 Phân phối chuẩn tắc
Là trường hợp đặc biệt của phân phối chuẩn khi 𝜇 = 0, 𝜎 = 1
Biến ngẫu nhiên Z được gọi là có luật phân phối chuẩn tắc nếu hàm mật độ
xác suất của Z . Ký hiệu Z ~ N(0;1) có dạng

Hàm l(x) có đồ thị là đường cong hình chuông đối xứng qua trục tung. Như
vậy, hàm l(x) = l(-x) là hàm chẵn.

E(Z) = 0
Các đặc trưng của Z được xác định như sau D(Z) = 1
𝜎=1

Hàm phân phối xác suất ký hiệu G(x) còn được gọi là hàm Gauss

Có đồ thị đối xứng qua điểm (x = 0 và y = 0,5).

22
Đặt:
Khi đó G(x) = 𝜑(x) + 0,5
Phân vị chuẩn tắc với mức sản xuất 𝛼 là số Z𝛼 sao cho P(Z< Z𝛼 ) = 𝛼
Như vậy G(Z𝛼) = 𝛼
Tính chất:
P(a< Z <b) = 𝜑(b) - 𝜑(a)
P(Z > a) = 0,5 - 𝜑(a)
P(Z< b) = 0,5 + 𝜑(b)

4.4 Phân phối 2


Cho các biến ngẫu nhiên Xi ~ N(0,1) , i = 1,2,..,k
Biến ngẫu nhiên được gọi là có luật phân phối khi bình phương
bậc tự do k.

Biến ngẫu nhiên 2 nhận giá trị không âm. Đồ thị hàm mật độ xác suất là
đường cong không đối xứng. Khi bậc tự do k ≥ 30 đồ thị hàm mật độ gần đối xứng
(dạng hình chuông), phân phối 2 là tiệm cân phân phối chuẩn.
E(2 ) = k
Các đặc trưng số được xác định
D(2 ) = 2k

23
4.5 Phân phối Student
Cho các biến ngẫu nhiên U ~ N(0;1), 2 ~ 2 (n) trong đó U và 2 độc lập
với nhau
Biến ngẫu nhiên được gọi là có luật phân phối Student bậc

tự do n. Ký hiêu T ~ T(n)

Đồ thị hàm mật độ f(x) là đường cong đối xứng qua trục tung. Khi n ≥ 30
phân phối Student xấp xỉ phân phối chuẩn tắc.

V – BÀI TẬP
1. Xác suất để 1 con gà đẻ mỗi ngày là 0,6.
a. Trong chuồng có 10 con, tính xác suất để một ngày có 8 con đẻ.
b. Phải nuôi ít nhất bao nhiêu con để mỗi ngày trung bình thu được không ít
hơn 30 trứng.

2. Sản phẩm xuất xưởng của nhà máy có tới 70% sản phẩm loại A. Lấy ngẫu
nhiên 10 sản phẩm.
a. Tính xác suất để có 8 sản phẩm loại A.
b. Nếu muốn có trung bình 15 sản phẩm loại A thì phả kiểm tra bao nhiêu sản
phẩm?

24
3. Một loại sản phẩm do 3 nhà máy sản xuất với tỉ lệ là 20%, 30%, 50%. Tỉ lệ
phế phẩm của các nhà máy lần lượt là: 0,1; 0,2; 0,3.
a. Lấy ngẫu nhiên 1 sản phẩm. Tính xác suất để được sản phẩm tốt.
b. Nếu lấy lần lượt (có hoàn lại) 4 sản phẩm. Gọi X là số sản phẩm xấu. Tìm
qui luật phân phối xác suất của X.
c. Tím xác suất sao cho trong 20 sản phẩm lấy ra có 4 sản phẩm xấu.

4. Ba phân xưởng cùng sản xuất 1 loại sản phẩm. Tỉ lệ sản phẩm loại II của
các phân xưởng tương ứng là: 10%, 20%, 30%. Từ lô hàng gồm 10.000 sản phẩm
(trong đó có 3.000 sản phẩm của phân xưởng I, 4.000 sản phẩm của phân xưởng II
và 3.000 sản phẩm của phân xưởng III). Người ta lấy ngẫu nhiên ra 100 sản phẩm
để kiểm tra (lấy có hoàn lại). Nếu thấy có không quá 24 sản phẩm loại II thì nhận
lô hàng. Tìm xác suất để nhận lô hàng đó?

5. Sản phẩm được đóng thành hộp. Mỗi hộp có 10 sản phẩm trong đó có 7
sản phẩm loại A. Người mua hàng qui định cách kiểm tra như sau: Từ hộp lấy
ngẫu nhiên 3 sản phẩm nếu thấy cả 3 sản phẩm đều loại A thì nhận hộp đó. Nếu
ngược lại thì loại hộp.
Giả sử kiểm tra 100 hộp (trong rất nhiều hộp). Tính xác suất để:
a. Có 25 hộp được nhận.
b. Có không quá 30 hộp được nhận.
c. Phải kiểm tra ít nhất bao nhiêu hộp để xác suất có ít nhất một hộp được
nhận không nhỏ hơn 95%?

5. Hai nhà máy cùng sản xuất 1 loại sản phẩm. Tỉ lệ sản phẩm loại I của nhà
máy A là 85%, của nhà máy B là 90%. Một người mua 50 sản phẩm của nhà máy
A và 40 sản phẩm của nhà máy B. Tìm số sản phẩm loại I tin chắc nhất mà người
đó có thể mua được.

6. Một nhà máy theo công thức thiết kế sẽ sản xuất được 80% sản phẩm loại I.
Nhưng trong thực tế sản phẩm loại I chỉ bằng 90% thiết kế. Tính xác suất để khi

25
lấy 125 sản phẩm do nhà máy đó sản xuất có ít nhất 100 sản phẩm loại I.

7. Một sinh viên thi trắc nghiệm môn Vật Lý gồm 100 câu hỏi. Mỗi câu có 4
phần để chọn, trong đó chỉ có 1 câu đúng. Giả sử sinh viên chỉ chọn ngẫu nhiên
các phần trả lời của câu hỏi.
a. Tìm xác suất sao cho sinh viên đó trả lời đúng 40 câu hỏi.
b. Tìm xác suất sao cho sinh viên đó trả lời đúng từ 40 đến 60 câu hỏi.
c. Tính xem số câu hỏi trung bình mà sinh viên đó trả lời đúng là bao nhiêu.

8. Giả sử mỗi cặp vợ chồng trong một xã nào đó sinh 3 con và khả năng có
con trai và con gái trong mỗi lần sinh là như nhau.
a. Gọi X là số con gái trong mỗi gia đình. Lập bảng phân phối xác suất của X.
b. Tính xác suất để trong 100 gia đình có 50 gia đình có số con gái nhiều hơn
con trai.
c. Theo bạn thì trong 100 gia đình có trung bình bao nhiêu gia đình có duy
nhất 1 đứa con gái.

26
CHƯƠNG III
GIỚI THIỆU THỐNG KÊ, THU THẬP,
TÓM TẮT VÀ TRÌNH BÀY DỮ LIỆU

I – TỔNG QUAN VỀ THỐNG KÊ


1.1 Khái niệm
Thống kê là ngành toán học nghiên cứu các phương pháp thu thập, phân tích,
diễn giải các dữ liệu cho mục đích khoa học và thực tiễn. Thống kê được sử dụng
từ khoa học tự nhiên cho đến khoa học xã hội, y dược học, kinh tế và nhiều lĩnh
vực khác,…
Thống kê mô tả: dùng để tóm tắt, mô tả dữ liệu quan sát dưới dạng bảng
hoặc đồ thị hay biểu đồ.
Thống kê suy diễn: dùng để giải thích những biến thiên trên tập dữ liệu quan
sát và mở rộng ra cho tổng thể chứa tập dữ liệu quan sát.
1.2 Một số khái niệm dùng trong thống kê
1.2.1 Dữ liệu, thông tin
Dữ liệu là các biểu hiện mô tả thực tế đối tượng nghiên cứu. Các biểu hiện
này có thể là con số, từ ngữ, hình ảnh,…
Thông tin là nội dung của dữ liệu thu thập đã xắp xếp, xử lý.
1.2.2 Tổng thể, mẫu
Tổng thể: là tập hợp tất cả các đơn vị hay phần tử mà ta muốn nghiên cứu
một đặc tính X nào đó.
Số phần tử của tổng thể có thể hữu hạn hoặc vô hạn. Ký hiệu: N
Ví dụ: Nghiên cứu về chiều cao của học sinh trường Phạm Ngọc Thạch
-> Đặc tính X là chiều cao; N là tất cả học sinh của trường PNT
Có nhiều lý do để ta không thể quan sát tất cả các phần tử trong tổng thể. Do
đó ta phải chọn mẫu.
Mẫu: là một phần (tập con) của tổng thể, được chọn ra một cách ngẫu nhiên
từ tổng thể. Ký hiệu: n hay còn gọi là cở mẫu n
Việc chọn mẫu phải cố gắng đạt 2 yêu cầu:
+ Cở mẫu phải đủ lớn
+ Mẫu phải đại diện cho tổng thể

27
Mẫu ta thường chọn làm mẫu theo xác suất (các phần tử chọn vào mẫu có
cùng cơ hội được chọn).

Tổng thể của


Tổng thể
mục tiêu Mẫu
chọn mẫu
nghiên cứu

1.2.3 Đặc điểm thống kê


Là các tính chất quan trọng liên quan trực tiếp đến nội dung nghiên cứu và
khảo sát trên các đơn vị tổng thể. Được chia làm 2 loại:
+ Đặc điểm định tính: là tính chất của đơn vị tổng thể, không được biểu hiện
trực tiếp bằng con số.
+ Đặc điểm định lượng: là đặc điểm của đơn vị tổng thể được biểu hiện trực
tiếp bằng con số. Các trị số cụ thể khác nhau của đặc điểm định lượng gọi là lượng
biến. Lượng biến có thể rời rạc hay liên tục.
1.2.4 Chỉ tiêu thống kê (quy định tại khoản 3, Điều 3 Luật thống kê)
Là tiêu chí mà biểu hiện bằng số của nó phản ánh quy mô, tốc độ phát triển,
cơ cấu, quan hệ tỷ lệ của các hiện tượng kinh tế - xã hội trong điều kiện không gian
và thời gian cụ thể.
- Chỉ tiêu khối lượng: biểu hiện quy mô, khối lượng của tổng thể nghiên cứu.
Ví dụ: Số nhân khẩu tại một địa phương năm 2012, số người điều trị bệnh B
bằng phương pháp A tại bệnh viện X năm 2011,…
- Chỉ tiêu về chất lượng: biểu hiện tính chất, trình độ phổ biến, quan hệ so
sánh trong tổng thể.
Ví dụ: Mật độ dân số tại một tỉnh,…

28
1.2.5 Quá trình nghiên cứu thống kê

Xác định mục tiêu, nội dung, đối tượng nghiên cứu

Xây dựng hệ thống các khái niệm, các chỉ tiêu thống kê

Thu thập dữ liệu thống kê

Xử lý số liệu

Phân tích và diễn giải kết quả

Báo cáo kết quả nghiên cứu

1.3 Các cấp bậc đo lượng và thang đo


Trong thống kê ta sử dụng 4 cấp bậc đo lường theo mức độ thông tin tăng
dần: thang đo định danh, thang đo thứ bậc, thang đo khoảng cách và thang đo tỉ lệ.
Tùy vào đặc điểm của hiện tượng và tính chất của dữ liệu ta lựa chọn loại thang đo
phù hợp.
1.3.1 Thang đo định danh
Dùng cho đặc điểm định tính. Ta dùng các mã số để phân loại đối tượng.
Những con số được gán cho mỗi biểu hiện của thang đo chỉ mang tính quy ước, nó
chỉ sự khác biệt về thuộc tính giữa các đơn vị, không thể hiện sự khác biệt về
lượng giữa các đơn vị đó. Ví dụ: Giới tính, tôn giáo,…
1.3.2 Thang đo thứ bậc
Thường sử dụng cho các đặc điểm định tính, đôi khi cũng áp dụng cho đặc
điểm định lượng. Giữa các biểu hiện của đặc điểm có quan hệ hơn kém và sự
chênh lệch đó không nhất thiết bằng nhau.

Ví dụ: Chế độ dinh dưởng của bạn như thế nào.


29
Đầy đủ [ ]1
Trung bình []2
Rất thiếu [ ]3
1.3.3 Thang đo khoảng cách
Là thang đo thứ bậc có khoảng cách đều nhau. Thường dùng cho đặc điểm
định lượng, đôi khi cũng áp dụng cho đặc điểm định tính. Ở thang đo này, phép
tính cộng trừ đều có ý nghĩa, tỉ số giữa các giá trị thu thập được không có ý nghĩa.
1.3.4 Thang đo tỷ lệ
Là thang đo ở các bậc cao nhất, dùng cho đặc tính định lượng, có đầy đủ các
đặc tính của thang đo khoảng cách. Ngoài ra thang đo này có trị số 0 thật, cho phép
lấy tỷ số giữa các giá trị thu nhập và sự so sánh trong thang đo tỷ lệ hoàn toàn có ý
nghĩa.

1.4 Các phương pháp thu thập dữ liệu


Thu thập dữ liệu là một giai đoạn quan trọng đối với quá trình nghiên cứu
thống kê, Để đạt được hiệu quả mong muốn người nghiên cứu cần phải nắm chắc
các phương pháp thu thập dữ liệu, từ đó chọn ra các phương pháp thích hợp với
hiện tượng và có thể phải phối hợp nhiều phương pháp thích hợp với hiện tượng và
có thể phải phối hợp nhiều phương pháp với nhau. Đây cũng là cơ sở để lập kế
hoạch thu thập dữ liệu một cách khoa học đỡ phải mất nhiều thời gian, công sức và
chi phí.
Dữ liệu được chia làm 2 loại: dữ liệu thứ cấp và dữ liệu sơ cấp
+ Dữ liệu thứ cấp: là dữ liệu đã có sẵn (do người khác thu thập) đã được xữ
lý hoặc chưa xữ lý. Ưu điểm của nguồn dữ liệu thứ cấp là thời gian thu thập nhanh,
chi phí không cao. Hạn chế là ít chi tiết đôi khi không đáp ứng đúng mục tiêu
nghiên cứu.
+ Dữ liệu sơ cấp: là dữ liệu do người nghiên cứu thu thập trực tiếp từ các đối
tượng nghiên cứu thông qua điều tra. Ưu điểm của nguồn dữ liệu này là đáp ứng
được đúng mục tiêu nghiên cứu. Hạn chế là mất nhiều thời gian, công sức, chi phí.
Tùy theo mục tiêu nghiên cứu và đặc điểm của hiện tượng nghiên cứu mà ta
có phương pháp thu thập dữ liệu thích hợp. Có 2 phương pháp thu thập dữ liệu sơ
cấp: trực tiếp và gián tiếp.

30
+ Phương pháp trực tiếp: Người nghiên cứu phải tiếp xúc trực tiếp với đối
tượng điều tra để phỏng vấn hoặc quan sát hành vi hoặc tiến hành thực nghiệm.
Sao đó ghi chép, phản ánh các tài liệu thu thập được vào biểu mẫu điều tra.
+ Phương pháp gián tiếp: Người đi thu thập dữ liệu không phải tiếp xúc trực
tiếp với đối tượng điều tra mà chỉ phỏng vấn qua điện thoại; hoặc gửi phiếu điều
tra qua đường bưu điện, email,…

1.5 Một số phương pháp lấy mẫu


1.5.1 Lấy mẫu xác suất
Chọn mẫu xác suất (mẫu ngẫu nhiên) là phương pháp chọn mẫu mà khả năng
được chọn vào mẫu của tất cả các đơn vị của tổng thể đều như nhau. Đây là
phương pháp tốt nhất để ta có thể chọn ra một mẫu có khả năng đại diện cho tổng
thể. Vì có thể tính được sai số do chọn mẫu, nhờ đó ta có thể ứng dụng phương
pháp ước lượng thống kê, kiểm định giả thuyết thống kê trong xử lý dữ liệu để suy
rộng kết quả trên mẫu cho tổng thể.
Có nhiều cách để lấy mẫu ngẩu nhiên như:
+ Lấy mẫu ngẫu nhiên đơn giản: Các đơn vị của tổng thể được xắp xếp theo
một trật tự nào đó và được gán cho một số thứ tự từ đơn vị thứ nhất đến đơn vị
cuối cùng. Sau đó ta lấy mẫu bằng nhiều cách như bốc thăm, quay số hay dùng
bảng số ngẫu nhiên.
+ Lấy mẫu có hệ thống: Tổng thể có N đơn vị được đánh số thứ tự theo một
quy ước nào đó (ABC, ngày tháng năm, tuổi,…) Xác định cỡ mẫu n muốn lấy. Suy
N
ra khoảng cách chọn mẫu k = . Đơn vị mẫu đầu tiên là k tiếp đến là 2k, 3k,…
n
đơn vị k còn được gọi là bước nhãy.
+ Mẫu phân cụm và lấy mẫu nhiều giai đoạn: Tổng thể được chia làm
nhiều cụm, chọn ngẫu nhiên một số cụm và khảo sát hết các đơn vị trong cụm đã
chọn ta được mẫu
+ Lấy mẫu phân tầng: Dùng khi các đơn vụ quá khác nhau về tính chất liên
quan đến vấn đề nghiên cứu. Mục tiêu của việc phân tầng nhằm để các giá trị của
các đơn vị trong cùng một tầng càng ít khác nhau càng tốt. Từ mỗi tầng ta dùng
phương pháp lấy mẫu ngẫu nhiên đơn giản hay mẫu chó hệ thống.

31
Mẫu phân tầng có 2 vấn đề quan trọng là phân tầng theo đặc điểm gì và phân
bổ số lượng mẫu vào các tầng như thế nào cho phù hợp.
Ví dụ: Tại một trường đại học có 10.000 sinh viên ở các hệ đào tạo khác
nhau. Để thực hiện cuộc khảo sáy về chất lượng đào tạo và mức đọ hài lòng của
người học người ta lấy mẫu 500 đơn vị mẫu.
- Nếu phân bổ theo tỷ lệ ta có bảng sau:
Hệ đào tạo SL sinh viên thực tế SL sinh viên lấy mẫu
Sau đại học 1000 50
Đại học chính quy 5000 250
Đại học liên thông 3000 150
Trung cấp 1000 50
10000 500
- Nếu phân bổ mẫu đều ta có bảng sau:
Hệ đào tạo SL sinh viên thực tế SL sinh viên lấy mẫu
Sau đại học 1000 125
Đại học chính quy 5000 125
Đại học liên thông 3000 125
Trung cấp 1000 125
10000 500

1.5.2 Lấy mẫu phi xác suất


Chọn mẫu phi xác suất (phi ngẫu nhiên) là phương pháp chọn mẫu mà các
đơn vị trong tổng thể không có khả năng như nhau để được chọn vào mẫu nghiên
cứu. Viêc chọn mẫu phi xác suất hoàn toàn phụ thuộc vào kinh nghiệm và sự hiểu
biết về tổng thể của người nghiên cứu nên kết quả điều tra thường mà tính chủ
quan của người nghiên cứu. Mặc khác ta không thể tính được sai số do chọn mẫu,
do đó không thể suy rộng kết quả trên mẫu cho tổng thể.
Ta có một số cách chọn mẫu như sau:
+ Chọn mẫu thuận tiện: Là lấy mẫu dựa trên sự thuận lợi hay dựa trên tính
dễ tiếp cận của đối tượng. Ví dụ: Chọn mẫu phỏng vấn tại trung tâm thương mại,
nhân viên phỏng vấn có thể chọn bất cứ người nào để xin phỏng vấn, nếu người đó
không đồng ý hoặc không đúng đối tượng nghiên cứu thì phỏng vấn viên có thể đổi
32
sang đối tượng khác
+ Chọn mẫu phán đoán: Là phương pháp mà người đi thu thập dữ liệu tự
đưa ra phán đoán về đối tượng cần chọn vào mẫu. Ví du: phỏng vấn viên có nhiệm
vụ phỏng vấn những người phụ nữ từ 30 tuổi trở lên có xài mỹ phẩm. Như vậy làm
sao phỏng vấn viên biết được?

II – PHƯƠNG PHÁP MÔ TẢ MẪU


2.1 Xắp xếp số liệu
Mọi nghiên cứu thống kê đều bắt đầu từ việc thu nhập các dữ liệu có liên
quan đến việc nghiên cứu và sau đó là xữ lý chúng. Thông thường sắp xếp các số
liệu thành 1 bảng
2.1.1 Kích thước mẫu nhỏ
Người ta thường lập bảng dưới dạng hàng hoặc cột
xi x1 x2 … xk xi ni
ni n1 n2 … nk x1 n1
x2 n2
… …
xk nk

Ví dụ 1: Ta có mẫu quan sát


5 2 2 5 5 4 3 4 4 3
3 2 2 1 1 4 4 2 2 5

Có thể xắp xếp thành bảng sau


xi 1 2 3 4 5
ni 2 6 3 5 4

2.1.2 Kích thước mẫu lớn


Mẫu Wx = (x1, x2,…xn) có kích thước n tương đối lớn thì việc xác định các
tham số sẽ mất nhiều công sức. Khi đó nếu không cần độ chính xác cao, ta thường
xắp xếp các số liệu ban đầu của mẫu lại bằng cách chia miền giá trị của X thành
các khoảng cách x’i – x’’i (có độ dài bằng nhau) và xác định tần số ni tương ứng ở
mỗi khoảng cách đó. Khi đó ta được một mẫu dưới dạng các khoảng giá trị
33
x’i – x’’i x’1 – x’’1 x’2 – x’’2 x’3 – x’’3 … x’k – x’’k
ni n1 n2 n3 … nk

Ví dụ 2: Đo ngẫu nhiên chiều cao của 40 thanh niên ta được các số liệu xếp
theo thứ tự tăng dần (tính theo đơn vị cm)

152 154 155 156 157 157 157 158 158 159
159 160 160 161 161 161 161 162 162 162
163 163 164 164 164 164 165 165 166 167
167 167 168 168 168 169 171 171 172 172
Tính các giá trị đặc trung của mẫu số liệu đã cho một cách tương đối có thể
tính theo các giá trị trung tâm của các khoảng được chia theo bảng sau:
Các khoảng cách x'i - x''i Tần số ni
152 - 157 4
157 - 162 13
162 - 167 12
167 - 172 11

2.2 Các phương pháp tính


2.2.1 Tính trực tiếp
a. Nếu tất cả các tần số ni = 1, để tính giá trị trung bình và phương sai ta áp
dụng công thức
1
● Trung bình mẫu là x = ∑ni=1 xi
n
1
● Phương sai của mẫu là s2 = ∑ni=1 x2i – (x)2
n
n
● Phương sai điều chỉnh của mẫu s’2 = s2
n−1
● Độ lệch chuẩn của mẫu s = √s2
● Độ lệch điều chỉnh s’ = √s’2
Ví dụ 3: Ta có bảng tính
xi x i2
5 25
6 36
34
1 1
∑3i=1 xi = 12 ∑3i=1 xi2 = 62

Suy ra:
1
Trung bình mẫu là là x = ∑ni=1 xi = 1/ 3 x 12 = 4
n
1
Phương sai của mẫu là s2 = ∑n
i=1 x i – (x) = 1/3 x 62 – 4 = 14/3
2 2 2
n
n
Phương sai điều chỉnh của mẫu s’2 = s2 = 3/2 x 14/3 = 7
n−1
Độ lệch chuẩn của mẫu s = √s2 = √14/3 = 2,16
Độ lệch điều chỉnh s’ = √s’2 = √7
b. Đối với Xi có tần số ni > 1. Để tính giá trị trung bình và phương sai ta áp
dụng công thức
1
● Trung bình mẫu là x = ∑ni=1 xi ni
n
1
● Phương sai của mẫu là s2 = ∑n
i=1 x ini – (x)
2 2
n

Ví dụ 4: Khảo sát 200 cây bạch đàn có cùng độ tuổi, người ta thu được dãy
200 giá trị (130cm, 132 cm,…..120cm) Sau khi chia lớp độ dài 10 cm, ta có kết quả
X: chiều cao (cm) ni: số cây bạch đàn
< 100 3
100 - 110 8
110 - 120 32
120 - 130 85
130 - 140 44
140 - 150 18
150 - 160 10
Tính trung bình, phương sai, độ lệch chuẩn, phương sai điều chỉnh và độ lệch
điều chỉnh.
Giải: Ta có bảng tính
xi ni xini x2ini
95 3 285 27075
105 8 840 88200
115 32 3680 423200
125 85 10625 1328125
35
135 44 5940 801900
145 18 2610 378450
155 10 1550 240250
1
Trung bình mẫu là x = ∑ni=1 xi ni = 1/200 (285 + 840 +…1550) = 127,65
n
1
Phương sai của mẫu là s2 = ∑n
i=1 x ini – (x)
2 2
n
= 1/200(27075+88200+…240250) – (127,65)2 = 141,478

n 200
Phương sai điều chỉnh của mẫu s’2 = s2 = (141,478) = 142,189
n−1 200−1

Độ lệch chuẩn của mẫu s = √s2 = √141,478 = 11,894


Độ lệch điều chỉnh s’ = √s’2 = √142,189 = 11,924
III - BÀI TẬP
1. Điều tra số hồng cầu (triệu/mm3) trên một mẫu gồm 80 sinh viên của một
trường đại học năm 2015 thu được số liệu:
Số lượng hồng cầu Số sinh viên
(3,75 - 3,85) 1
(3,85 - 3,95) 3
(3,95 - 4,05) 7
(4,05 - 4,15) 11
(4,15 - 4,25) 14
(4,25 - 4,35) 17
(4,35 - 4,45) 12
(4,45 - 4,55) 8
(4,55 - 4,65) 5
(4,65 - 4,75) 2

Tính các tham số đặc trưng của mẫu.

2. Nhà thuốc theo dõi số thuốc bán trong suốt một năm. Thống kê số lượng thuốc
bán được trong một ngày tương ứng. Gọi X là số lượng thuốc bán được trong một
ngày ta có bảng số liệu sau:
X Số ngày
150 - 200 5
200 - 250 12
36
250 - 300 56
300 - 350 90
350 - 400 75
400 - 450 70
450 - 500 35
500 - 550 30
550 - 600 10

Tính các tham số đặc trưng của mẫu


3. Người ta sử dụng các liều thuốc có độc tăng dần cho các lô chuột thí nghiệm.
Theo dõi số chuột chết của các lô

X(liều,mg/kg) 0,015 0,02 0,025 0,03 0,035 0,04


Số chuột mỗi lô 20 69 95 78 44 20
Số chuột chết 0 11 50 61 37 20

a. Tính liều thuốc trung bình có độc mà các con chuột chết của số liệu trên
b. Tính liều thuốc có độc trung bình mà các con chuột chịu đựng được ở trên
4. Trọng lượng X (kg) của 56 phụ nữ tuổi 40 đến 45 tại một vùng nông thôn như
sau:
45 47 52 52 49 54 65 61 63 69 42 41
42 45 52 55 39 42 50 52 51 60 40 41
47 40 55 45 47 52 50 49 48 50 52 54
45 49 54 55 55 61 39 42 49 49 49 55
54 49 50 52 55 49 53 55

Xây dựng bảng tần số và tính các tham số đặc trưng

IV – ƯỚC LƯỢNG CÁC THAM SỐ CỦA ĐLNN


4.1 Ước lượng trung bình
4.1.1 Đặt vấn đề
ĐLNN X có trung bình E(X) = m chưa biết. Với mức 𝛼 khá nhỏ ta dựng
khoảng tin cậy (m1;m2) để ước lượng cho trung bình m sao cho:
P(m1 < m < m2) = 1 - 𝛼
4.1.2 Phương pháp

37
Bài toán ước lượng trung bình m được phân chia theo các trường hợp sau đây
vì phụ thuộc vào các thông tin về phương sai, khích thước mẫu, luật phân phối của
X.
a. Trường hợp 1
Phương sai D(X) = 𝝈2 đã biết, và X có luật phân phối chuẩn n≥ 30 hoặc n<30
(X−m)
Từ mẫu ngẫu nhiên Wx = (X1, X2,…Xn) chọn thống kê U =
σ
√𝑛 , trong
đó x là trung bình mẫu ngẫu nhiên.
Theo phân bố xác suất của trung bình mẫu ta có U ~ N (0;1)
Chọn cặp giá trị u1 = Uα/2 ; u2 = U1-α/2 trong đó Uα/2 và U1-α/2 lần lượt là phân vị
chuẩn mức xác suất α/2 và 1- α/2 (xem bảng phụ lục)
σ
Đặt ε = U1-α/2 thì ε được gọi là độ chính xác hay bán kính của ước lượng.
√n
Khi đó khoảng ngẫu nhiên của m với độ tin cậy 1- α là (x – ε ; x + ε).
● Tóm lại: Trong thực hành, khi có mẫu cụ thể Wx = (X1, X2,…Xn) và mức ý
nghĩa α được ấn định trước thì khoảng tin cậy (m1;m2) cho tham số trung bình m
được tìm tuần tự qua các bước sau:
+ Với mẫu cụ thể ta tính trung bình mẫu x
+ Với mức ý nghĩa α, tính 1 – α/2, rồi tra tìm phân vị chuẩn U1-α/2
σ
+ Tính độ chính xác ε = U1-α/2
√n
+ Xác định khoảng tin cậy (m1;m2) = (x – ε ; x + ε).
Ví dụ 1: Khối lượng sản phẩm là DLNN X có luật phân phối chuẩn, biết rằng
phương sai D(X) = σ2 = 4g. Kiểm tra 25 sản phẩm và tính được trung bình mẫu 𝑥
= 20g.
a. Ước lượng trung bình của khối lượng sản phẩm với độ tin cậy 95%
b. Nếu cho bán kính của ước lượng ε = 0,4g thi độ tin cậy của ước lượng là
bao nhiêu.
c. Với bán kính ước lượng ε = 0,4g, muốn có độ tin cậy 1 – α/2 = 95% thì
phải kiểm tra ít nhất bao nhiêu sản phẩm?
Giải: Chọn thống kê
(x−m)
U=
σ
√𝑛 ~ N(0;1)
a. Ta có 1 – α = 95% = 0,95 => 1 – α/2 = 0,975
38
=> U1-α/2 = U0,975 = 1,9600 (tra bảng phân vị)
σ 2
Độ chính xác ε = U1-α/2 = 1,96. = 0,78g
√n √25
Suy ra m1 = 20 – 0,78 = 19,22g
m2 = 20 + 0,78 = 20,78g
Vậy khoảng ước lượng trung bình khối lượng sản phẩm với độ tin cậy 95% là
(19,22g; 20,78g)
σ √n √25
b. Ta có ε = U1-α/2 =0,4 => U1-α/2 = ε . = 0,4. = 0,994
√n 𝜎 2
Tra bản phân vị ta được 0,994 = U0,84 = > 1- α/2 = 0,84 => 1- α = 0,68
Vậy độ tin cậy tìm thấy là 68%.
σ σ 2
c. Ta có ε = U1-α/2 =0,4 => √n = U1-α/2 . = 1,96 . = 9,8
√n ε 0,4
=> n = 96,04
=> Ta phải kiểm tra ít nhất 97 sản phẩm

b. Trường hợp 2
Phương sai D(X) chưa biết, kích thước mẫu n ≥ 30.
Về phương pháp cũng tương tự như trường hợp 1, chỉ khác là trong trường
hợp này phải ước lượng σ2 bằng phương sai điều chỉnh mẫu (được xác định từ mẫu
(x−m)
ngẫu nhiên Wx) và ước lượng được dựa vào thống kê U =
s′
√𝑛
Trong thực hành, khoảng tin cậy được lập dưới dạng (m1;m2) = (x – ε ; x + ε).
s′
Với độ chính xác ε = U1-α/2 (s’ là độ lệch điều chỉnh của mẫu cụ thể)
√n
Ví dụ 2: Khảo sát chiều cao của cây cùng độ tuổi thu được kết quả sau:
Chiều cao (cm) Số cây
< 180 3
180 - 190 12
190 - 200 35
200 - 210 70
210 - 220 62
220 - 230 32
> 230 6
Hãy dùng số liệu trên để ước lượng trung bình m của chiều cao cây với độ tin
cậy 99%
39
Giải:
Gọi X là chiều cao của cây. Với mẫu của bảng trên, các lớp chiều cao được
thay thế bởi điểm giữa, ta được bảng sau:

xi ni xini xi2ni
175 3 525 91875
185 12 2220 410700
195 35 6825 1330875
205 70 14350 2941750
215 62 13330 2865950
225 32 7200 1620000
235 6 1410 331350
∑ n = 220 45860 9592500

Ta tính được:
1
Trung bình mẫu x = ∑ni=1 xi ni = 1/220 . 45860 = 208,455
n
Phương sai của mẫu
1
s2 = ∑ni=1 x2ini – (x)2 = 1/220 . 9592500 – (208,455)2 = 148,786
n
Phương sai điều chỉnh của mẫu
n 200
s’2 = s2 = 148,786 = 149,465
n−1 200−1
Độ lệch điều chỉnh
s’ = √s’2 = √149,465 = 12,226
(x−m)
Chọn thống kê U =
s′
√𝑛
Với độ tin cậy 99% => 1- α = 0,99 => 1 – α/2 = 0,995
Tra bảng phân vị ta được U0,995 = 2,5758
Độ chính xác
s′
ε = U1-α/2 = 2,5758. 12,226 / √220 = 2,123 cm
√n
Suy ra m1 = 208,455 – 2,123 = 206,332 cm
m2 = 208,455 + 2,123 = 210,578 cm
Vậy khoảng ước lượng trung bình chiều cao của cây với độ tin cậy 99% là
(206,332cm; 210,578 cm)
40
c. Trường hợp 3
Phương sai D(X) chưa biết, kích thước mẫu n < 30 và X có luật phân
phối chuẩn
(X−m)
Chọn thống kê U =
s′
√n
Mặc dù trên thống kê U cũng giống như trường hợp 2 nhưng khi chưa biết
D(X), n<30 và X có luật phân phối chuẩn thì thống kê U khi này sẽ được xấp xỉ
với phân phối Student với n-1 bậc tự do T(n-1).
Do đó, khi tính độ chính xác giá trị phân vị chuẩn sẽ được thay bằng phân vị
Student t1-α/2;n-1 với mức xác suất 1- α/2 và bậc tự do n -1:
s′
ε = t1-α/2;n-1 .
√n
Ví dụ 3: Lượng chi phí một loại nguyên liệu cho một đơn vị sản phẩm là
ĐLNN X có luật phân phối chuẩn. Khảo sát 25 sản phẩm tính được trung bình mẫu
𝑥 = 50g và độ lệch điều chỉnh mẫu s’ = 8,25g.
Hãy ước lượng trung bình của chi phí nguyên liệu với độ tin cậy 95%
(X−m)
Giải: Chọn thống kê U =
s′
√n ~ T(n-1)
Độ tin cậy 95% => 1 – α/2 = 0,975
Tra bảng phân vị student với n-1 = 24 bậc tự do, ta được
t1-α/2;n-1 = t0,975;24 = 2,064
Độ chính xác
s′
ε = t1-α/2;n-1 . = 2,064. 8,25 / √25 = 3,406g
√n
Suy ra m1 = 50 – 3,406 = 46,594g
m2 = 50 + 3,406 = 53,406g
Vậy khoảng ước lượng trung bình khối lượng của sản phẩm với độ tin cậy
95% là (46,594g;53,406g)

4.2 Ước lượng tỷ lệ


4.2.1 Đặt vấn đề
Tổng thể chia làm 2 loại phần tử, những phần tử có tính chất A và không có
tính chất A. Giả sử tỷ lệ p các phần tử có tính chất A chưa biết. Cho số α khá nhỏ,
41
ước lượng tỷ lệ p là chỉ ra khoảng (p1;p2) sao cho p ϵ (p1;p2) với mức xác suất 1- α
(độ tin cậy của ước lượng).
4.2.2 Phương pháp
(f −p)√n
Chọn thống kê U = ~ N(0;1) để ước lượng, trong đó p là tỷ lệ chưa
√pq

biết, q = 1- p và n là kích thước mẫu khá lớn, f là thống kê nhận giá trị bằng tần
xuất của tính chất A trong mẫu.
√(f(1−f)
Độ chính xác ε = U1-α/2.
√n
Khoảng tin cậy (p1;p2) = (f – ε; f + ε)
● Tóm lại: Trong thực hành, khi có mẫu cụ thể Wx = (X1, X2,…Xn) với mức
ý nghĩa α được ấn định trước thì khoảng tin cậy (p1;p2) để ước lượng tỷ lệ p được
tìm tuần tự qua các bước sau:
+ Với mẫu cụ thể kích thước n, xác định m phần tử mang tính chất A. Tính
m
tần suất có tính chất A trong mẫu: f =
n
+ Với mức ý nghĩa α, tính 1- α/2, rồi tra tìm phân vị chuẩn U1-α/2
√(f(1−f)
+ Tính độ chính xác ε = U1-α/2.
√n
+ Xác định khoảng tin cậy (p1;p2) = (f – ε; f + ε)

Ví dụ 4: Kiểm tra 100 sản phẩm, có 8 phế phẩm. Ước lượng tỷ lệ phế phẩm
của lô hàng với độ tin cậy 95%
(f −p)√n
Giải: Chọn thống kê U = ~ N(0;1) để ước lượng
√pq
Ta có:
n = 100; m = 8 => f = m/n = 8/100 = 0,08
1 – α = 95% = 0,95 => 1- α/2 = 0,975
=> U1-α/2 = U0,975 = 1,9600
Độ chính xác
√(f(1−f) √0,08(1−0,08)
ε = U1-α/2. = 1,96. = 0,053
√n √100
Khoảng tin cậy (p1;p2) = (f – ε; f + ε) = (0,08-0,053;0,08+0,053)

42
Vậy khoảng ước lượng tỷ lệ phế phẩm của lô hàng với độ tin cậy 95% là
(2,7%; 13,3%)

4.3 Ước lượng phương sai


4.3.1 Đặt vấn đề
Giả sử ĐLNN X có luật phân phối chuẩn X ϵ (μ;σ2) trong đó phương sai
D(X) = σ2 chưa biết. Cho số α khá nhỏ, ước lượng phương sai σ2 với mức ý nghĩa α
là chỉ ra khoảng (σ21; σ22) sao cho σ2 ϵ (σ21; σ22) với xác suất 1 – α.
4.3.2 Phương pháp
Giả thiết trung bình E(X) = μ chưa biết
Chọn thống kê

Để ước lượng phương sai σ2, có luật phân phối χ2 với bậc tự do n-1, trong đó
n là kích thước mẫu, S’2 là thống kê. Gọi χ2α/2;n-1 và χ21- α /2;n-1 lần lượt là phân vị khi
bình phương, bậc tự do n -1 với mức xác suất lần lượt là α/2 và 1 - α/2.
Với mẫu cụ thể Wx = (X1, X2,…Xn) phương sai điều chỉnh s’2 ta có khoảng
tin cậy (σ21; σ22) trong đó

Ví dụ 5: Cho biết khối lượng của một loại sản phẩm là đại lượng X phân phối
theo luật phân phối chuẩn. Cân thử từng sản phẩm của một ngẫu nhiên gồm 25
đơn vị sản phẩm, ta có kết quả sau:
Khối lượng xi (g) Số sản phẩm ni
29,3 4
29,7 5
30 8
30,5 5
30,7 3
Với độ tin cậy 95% hãy tìm khoảng tin cậy cho phương sai D(X) = σ2
Giải:
Ta có bảng
43
Khối lượng xi (g) Số sản phẩm ni xini xi2ni
29,3 4 117,2 3433,96
29,7 5 148,5 4410,45
30,0 8 240 7200,00
30,5 5 152,5 4651,25
30,7 3 92,1 2827,47
25 750,3 22523,13

Ta có:
1
Trung bình mẫu x = ∑ni=1 xi ni =1/25 . 750,3 = 30,012
n
Phương sai của mẫu
1
s2 = ∑ni=1 x2i – (x)2 = 1/25 . 22523,13 – (750,3)2 = 0,205
n
Phương sai điều chỉnh của mẫu
n 25
s’2 = s2 = 0,205 = 0,214
n−1 25−1
Chọn thống kê

Độ tin cậy của ước lượng 1- α = 95% => 1- α/2 = 0,975 và α/2 = 0,025
Suy ra:

 σ21 = 24. 0,214/ χ20,975;24 = 5,136/ 39,364 = 0,13


 σ22 = 24. 0,214 / χ20,025;24 = 5,136 / 12,401 = 0,414
Vậy khoảng ước lượng phương sai với độ tin cậy 95% là ( 0,13 ; 0,414)

V – BÀI TẬP
1. Cho biết trọng lượng của các con cá có độ lệch chuẩn là σ = 2,5kg. Khi muốn
dùng mẫu thống kê kích thước n = 100 để ước lượng trọng lượng trung bình của
các con cá với độ chín xác ε = 0,49kg thì độ tin cậy tương ứng của ước lượng là
bao nhiêu?
44
2. Chọn ngẫu nhiên 36 học sinh của khối Y thì thấy chi tiêu trung bình là
380.000/tháng. Giả sử chi tiêu tuân theo quy luật chuẩn với σ = 14.000. với độ cậy
95% hãy ước lượng mức chi tiêu trung bình của học sinh khối Y.

3. Ở một nông trại người ta nhập về nuôi thí nghiệm một giống heo mới. Qua thời
gian nuôi 3 tháng, cân thử 100 con ta có số liệu như sau:

Trọng lượng (kg) Số con


78 - 80 10
80 - 90 15
90 - 100 25
100 - 110 30
110 - 120 15
120 - 130 3

a. Ước lượng trọng lượng trung bình của những con heo giống mới sau ba tháng
nuôi với độ tin cậy 90%.
b. Trong ước lượng trên nếu có độ chính xác của ước lượng trên là 2,5kg thì độ tin
cậy của ước lượng này là bao nhiêu?
c. Giả sử những con heo có trọng lượng từ 110kg trở lên thì được xếp loại I và
trọng lượng của nó có phân phối chuẩn. Ước lượng trọng lượng trung bình của
những con heo loại I với độ tin cậy 95%

4. Theo báo cáo của phòng y tế trường PNT thì chiều cao của thanh niên đang học
tại trường tuân theo luật phân phối chuẩn với độ lệc tiêu chuẩn là 0,05m và chiều
cao trung bình là 1,65m. Cần phải lấy một mẫu bao nhiêu thanh niên để kiểm tra để
có độ tin cậy 95%, sai số ước lượng cho chiều cao trung bình không quá 0,6m

5. Học sinh trường PNT khám sức khỏe định kỳ hằng năm. Kiểm tra huyết áp 16
học sinh của một lớp ta có số liệu:
144 156 150 116 110 120 130 140
132 126 126 136 134 132 136 130
Ước lượng trung bình huyết áp của học sinh tại trường với độ tin cậy 95%

45
6. Để đánh giá trọng lượng trung bình của một loại trái cây tại khu vườn vừa thu
hoạch, ngoài ta đem cân một số trái cây thu được kết quả như sau:
X (gram) 200 - 210 210 - 220 220 - 230 230 - 240 240 - 250
Số trái 12 17 20 18 15

a. Tìm khoảng ước lượng của trọng lượng trung bình trái cây của khu vườn với độ
tin cậy 95%
b. Nếu muốn sai số ước lượng ε = 2g ở độ tin cậy 95% thì ta cần phải cân bao
nhiêu trái?

CHƯƠNG IV
KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ

I – ĐỊNH NGHĨA VÀ PHƯƠNG PHÁP KIỂM ĐỊNH


1.1 Khái niệm và định nghĩa
Kiểm định giả thuyết thống kê là một vấn đề quan trọng của Thống kê. Nội
dung công việc này ở đây là căn cứ các số liệu thu được để đưa ra một kết luận về
một giả thuyết thống kê nào đó mà ta cần quan tâm.
Trong các bài toàn nghiên cứu Thống kê có khi ta cần đánh giá những giả
định về một trung bình của đại lượng nào đó, hoặc một tỷ lệ nào đó, hoặc ta cần so
sánh 2 dụng cụ cân đo, hai phương pháp làm thì nghiệm,… xem có hiệu quả và
chất lượng như nhau không. Nói chung là phải xem xét những giả định về các vấn
đề thống kê. Chúng ta phải đưa ra nhận định về tính thừa nhận được hay không
thừa nhận được của các giả định về các vấn đề thống kê.
1.2 Giả thuyết thống kê
Là một dự đoán về:

46
• Giá trị của một đặc trưng số chưa biết của một ĐLNN, chẳng hạn, giả
thuyết trung bình, hoặc giả thuyết về sự bằng nhau của hai đặc trưng số của hai
ĐLNN X,Y như E(X) = E(Y).
• Luật phân phối xác suất của ĐLNN, chẳng hạn ĐLNN X có luật phân phối
chuẩn
• Tính độc lập của các ĐLNN, chẳng hạn, giả thuyết ĐLNN X độc lập với
ĐLNN Y
Các giả thuyết thống kê được ký hiệu là (H)
1.3 Giả thuyết đối
Giả thuyết đưa ra kiểm định (H) được gọi là giả thuyết gốc, Giả thuyết trái
̅ ) . Ta thừa nhận khi
ngược với giả thuyết gốc được gọi là giả thuyết đối, ký hiệu (H
̅ ) thì việc chấp nhận (H) sẽ chính là bac bỏ (H
đã chọn cặp giả thuyết (H) và (H ̅ ) và
ngược lại.

1.4 Kiểm định giả thuyết thống kê


Là kết luận giả thuyết đó đúng hay sai, có tính khách quan, dựa trên số liệu
của mẫu ngẫu nhiên. Kết luận nói trên thường đúng với xác suất khá lớn và có thể
sai với xác suất khá nhỏ.
1.5 Phương pháp kiểm định
Các bước kiểm định một giả thuyết thống kê với mức ý nghĩa α khá nhỏ
0< α < 0,1.Được tiến hành theo các bước sau:
̅)
√ Bước 1: Thành lập giả thuyết (H) và đối giả thuyết (𝐇
• Giả thuyết về đặc trưng số θ chưa biết của ĐLNN X là (H): θ = θ0, kèm theo
̅ ) là một và chỉ một trong các trường hợp sau:
đối giả thuyết (H
̅ 1): θ > θ0
(H
̅ 2): θ < θ0
(H
̅ 3): θ ≠ θ0
(H

• Giả thuyết về sự bằng nhau của hai đặc trưng số của hai ĐLNN X, Y là:

47
̅ ) là một và chỉ một trong các trường
(H): θx = θy , kèm theo đối giả thuyết (H
hợp sau:
̅ 1): θx > θy
(H
̅ 2): θx < θy
(H
̅ 3): θx ≠ θy
(H

• Giả thuyết về luật phân phối xác suất của ĐLNN X là (H): X có luật phân
̅ ): X không có luật phân phối A.
phối A, kèm theo đối giả thuyết (H
• Giả thuyết về tính đối lập của hai ĐLNN X và Y là (H): X và Y độc lập với
̅ ): X và Y không độc lập với nhau.
nhau, kèm theo đối giả thuyết (H

√ Bước 2: Từ mẫu ngẫu nhiên Wx = (X1, X2, X3,…Xn), chọn thống kê θ*


(X1, X2, X3,…Xn) thích hợp sao cho: nếu giả thuyết (H) đúng thì thống kê θ* có
luật phân phối xác định.
Thống kê θ* được gọi là tiêu chuẩn kiểm định cho giả thuyết (H).

√ Bước 3: Dựa vào luật phân phối xác suất của θ*, mức ý nghĩa α và đối giả
̅ ), tìm miền Wx sao cho:
thuyết (H
P(θ* ϵ Wx) = α (1)
Như vậy P(θ* Wx) = 1 – α
Miền Wx được gọi là miền bác bỏ của giả thuyết (H) và được thành lập dựa
vào các phân vị của θ*
Số 1- α được gọi là độ tin cậy của kiểm định.

√ Bước 4: Lấy mẫu quan sát cụ thể Wx = (X1, X2, X3,…Xn) thay vào thống
kê θ* tính được giá trị quan sát thực tế hay giá trị thực nghiệm U0

̅)
√ Bước 5: Kết luận về giả thuyết (H) và đối giả thuyết (𝐇
̅)
• Nếu U0 ϵ Wα thì bác bỏ giả thuyết (H), thừa nhận giả thuyết (H
• Nếu U0  Wα thì thừa nhận giả thuyết (H), bác bỏ giả thuyết (H
̅)

■ Nhận xét
48
- Cùng một tiêu chuẩn kiểm định θ* và cùng một số liệu mẫu, giả thuyết (H)
bị bác bỏ hay chấp nhận phụ thuộc vào mức ý nghĩa α (hay độ tin cậy 1- α) cho
trước. Hệ thức (1) cho thấy khi α càng nhỏ thì miền Wα càng bị thu hẹp lại, khả
năng giá trị quan sát U0 ϵ Wα càng khó khăn hơn, do đó giả thuyết (H) càng bị bác
bị bác bỏ hơn.
- Kết luận chấp nhận hay bác bỏ giả thuyết (H) theo cách như trên có thể mắc
phải một trong hai dạng sai lầm sau:
+ Sai lầm loại 1: Bác bỏ giả thuyết (H) trong khi (H) đúng.
+ Sai lầm loại 2: Chấp nhận giả thuyết (H) trong khi (H) sai.

II - KIỂM ĐỊNH GIẢ THUYẾT VỀ TRUNG BÌNH


Giả sử ĐLNN X có giá trị trung bình E(X) = m chưa biết.
Xét giả thuyết (H) : m = m0
̅ ) là một và chỉ một trong các trường hợp sau:
kèm theo đối giả thuyết (H

̅ 1): m > m0
(H
̅ 2): m < m0
(H
̅ 3): m ≠ m0
(H
Cho số α khá nhỏ. Hãy kiểm định giả thuyết (H) với mức ý nghĩa α.
Bài toán kiểm định giả thuyết về trung bình được phân chia thành các trường
hợp phụ thuộc vào thông tin về kích thước mẫu và luật phân phối của X.
2.1 Trường hợp 1
Phương sai D(X) = σ2 đã biết, kích thước mẫu n ≥ 30 hoặc n < 30 và X có
phân phối chuẩn
̅ −m)
(X
• Chọn thống kê U =
σ
√n. Nếu (H) đúng thì U ~ N(0;1).
• Từ mức ý nghĩa α xác định miền bác bỏ Wα
̅ ) có dạng (H
- Nếu (H ̅ 1) thì Wα = (U1-α; +∞)
̅ ) có dạng (H
- Nếu (H ̅ 2) thì Wα = (-∞ ; - U1-α)
̅ ) có dạng (H
- Nếu (H ̅ 3) thì Wα = (-∞ ; - U1-α/2) ∪ (U1-α/2; +∞)

Trong đó U1-α và U1-α/2 là các giá trị phân vị chuẩn.

49
• Với mẫu ngẫu nhiên kích thước n, trung bình x̅ , ta tính được giá trị quan sát
̅ −m)
(X
U0 =
σ
√n
• Kết luận:
̅)
Nếu U0 ϵ Wα thì bác bỏ giả thuyết (H), thừa nhận giả thuyết (H
Nếu U0  Wα thì thừa nhận giả thuyết (H), bác bỏ giả thuyết (H
̅)

Ví dụ 1: Khối lượng sản phẩm là ĐLNN X có trung bình E(X) = m = 100g,


độ lệch chuẩn σ = 0,8g. Sau một thời gian sản xuất người ta nghi ngờ khối lượng
sản phẩm có xu hướng tăng lên. Kiểm tra 60 sản phẩm tính được trung bình mẫu
x̅ = 100,2g. Với độ tin cậy 95% hãy kết luận về nghi ngờ trên.
Giải
̅ ): m > 100g
Xét giả thuyết (H): m= 100g. Đối giả thuyết (H
̅ −m)
(X
Chọn thống kê U =
σ
√n. Nếu (H) đúng thì U~N(0;1)
̅ 1)
Miền bác bỏ Wα tương ứng đối giả thuyết (H
Wα = (U1-α; +∞) = (U0,95; +∞ ) = (1,645; +∞)
Với mẫu đã cho n = 60, x̅ = 100,2g , m0 = 100g, σ = 0,8g ta có giá trị quan sát
thực tế:
̅ −mo)
(X
U0 =
σ
√n = [(100,2 – 100).√60 ]/ 0,8 = 1,93
̅)
Kết luận: U0 ϵ Wα bác bỏ giả thuyết (H), thừa nhận giả thuyết (H
Có nghĩa là điều nghi ngờ khối lượng sản phẩm tăng lên là đúng.
? - Câu hỏi tương tự với độ tin cậy 99%
- Với độ tin cậy lớn nhất có thể được là bao nhiêu để kết luận rằng điều
nghi ngờ nói trên là đúng?
2.2 Trường hợp 2
Phương sai D(X) = σ2 chưa biết, kích thước mẫu n ≥ 30
Quy tắc kiểm định tiến hành như trường hợp 1, chỉ khác là trong công thức
xác định giá trị quan sát U, giá trị σ được thay thế bằng độ lệch điều chỉnh mẫu S’.
Ví dụ 2: Độ bền của một loại dây thép sản xuất theo công nghệ cũ là 150.

50
Sau khi tiến hành cải tiến kỹ thuật người ta lấy mẫu gồm 100 sợi dây thép để thử
độ bền thì thấy độ bền trung bình là 155 và s’ = 25 với α = 0,05. Hỏi công nghệ
mới có tốt hơn công nghệ cũ hay không?
Giải:
̅ ): m > 150
Xét giả thuyết (H): m= 150. Đối giả thuyết (H
̅ −m)
(X
Chọn thống kê U =
s′
√n. Nếu (H) đúng thì U~N(0;1)
̅ 1)
Miền bác bỏ Wα tương ứng đối giả thuyết (H
α = 0,05 => 1- α = 0,95
Wα = (U1-α; +∞) = (U0,95; +∞ ) = (1,645; +∞)
Với mẫu đã cho n = 100, x̅ = 155 , m0 = 150, s’ = 25 ta có giá trị quan sát thực
̅ −mo)
(X
tế: U0 =
s′
√n = [(155 – 150).√100 ]/ 25 = 2
̅)
Kết luận: U0 ϵ Wα bác bỏ giả thuyết (H), thừa nhận giả thuyết (H
Có nghĩa là Công nghệ mới tốt hơn công nghệ cũ.
2.3 Trường hợp 3:
Phương sai D(X) chưa biết, kích thước mẫu n<30 và X có luật phân phối
chuẩn
̅ −m)
(X
Chọn thống kê U =
s′
√n . Nếu (H) đúng thì U~ T(n-1)
Miền bác bỏ Wα
- Nếu (H̅ ) có dạng (H
̅ 1) thì Wα = (t1-α; +∞)
- Nếu (H̅ ) có dạng (H
̅ 2) thì Wα = (-∞ ; - t1-α)
- Nếu (H̅ ) có dạng (H ̅ 3) thì Wα = (-∞ ; - t1-α/2) ∪ (t1-α/2; +∞)
Trong đó t1-α và t1-α/2 là các giá trị phân vị student với bậc tự do n -1
Với mẫu ngẫu nhiên kích thước n, trung bình x
̅ , độ lệch điều chỉnh mẫu s’, ta
có giá trị quan sát thực tế :
̅ −mo)
(X
U0 =
σ
√n.
Kết luận:
̅)
Nếu U0 ϵ Wα thì bác bỏ giả thuyết (H), thừa nhận giả thuyết (H
Nếu U0  Wα thì thừa nhận giả thuyết (H), bác bỏ giả thuyết (H
̅)

51
Ví dụ 3: Độ dài một viên thuốc là ĐLNN X có luật phân phối chuẩn. Kiểm tra
28 viên thuốc thu được số liệu như sau (đvt: mm)
20,10 20,05 20,03 19,98 20,00 20,02 20,01
20,00 20,02 19,99 19,97 20,02 19,99 19,96
19,97 20,00 20,00 20,02 20,03 19,97 20,00
20,01 20,04 19,99 20,03 20,02 20,00 20,04

Với độ tin cậy 95% có thể cho rằng trung bình độ dài viên thuốc bằng 20 mm
hay không?
Giải:
̅ ): m ≠ 20mm
Xét giả thuyết (H); m = 20mm, đối giả thuyết (H
̅ −m)
(X
Chọn thống kê U =
s′
√n Nếu (H) đúng thì U ~T(27)
Miền bác bỏ Wα với độ tin cậy 1- α = 95% => 1- α/2 = 0,975
Wα = (-∞ ; - t1-α/2) ∪ (t1-α/2; +∞) = (-∞ ; - t0,975) ∪ (t0,975; +∞)
= (-∞ ; - 2,052) ∪ (2,052; +∞)
Với mẫu đã cho n = 28; m = 20;
1
x= ∑ni=1 xi ni = 20,01mm
n
n 1
s’ = √s’2= √= s2 với s2 = ∑ni=1 x2i – (x)2
n−1 n

 S’ = 0,024
Ta có giá trị quan sát thực tế
̅ −mo)
(X
U0 =
s′
√n. = 2,205mm
̅)
Kết luận U0 ϵ Wα bác bỏ giả thuyết (H), thừa nhận giả thuyết (H
Nghĩa là các độ dài trung bình các viên thuốc không bằng 20mm .

III – KIỂM ĐỊNH GIẢ THUYẾT TỶ LỆ


Giả sử tỷ lệ các phần tử có tính chất A trong tổng thể là giá trị P chưa biết.
Xét giả thuyết (H); p = po
Kèm theo đối giả thuyết (H ̅ ) là một và chỉ một trong các trường hợp sau:

52
̅ 1): p > p0
(H
̅ 2): p < p0
(H
̅ 3): p ≠ p0
(H

Cho số α khá nhỏ. Hãy kiểm định giả thuyết(H) với mức ý nghĩa α
■ Các bước kiểm định
( f̅−p)
● Chọn thống kê U =
√pq
√n . Nếu (H) đúng thì U ~ N(0;1)
● Miền bác bỏ Wα = được xác định tương tự như trong kiểm định trung bình
̅ ) có dạng (H
- Nếu (H ̅ 1) thì Wα = (U1-α; +∞)
̅ ) có dạng (H
- Nếu (H ̅ 2) thì Wα = (-∞ ; - U1-α)

- Nếu (H̅ ) có dạng (H̅ 3) thì Wα = (-∞ ; - U1-α/2) ∪ (U1-α/2; +∞)


Trong đó U1-α và U1-α/2 là các giá trị phân vị chuẩn.
● Với mẫu ngẫu nhiên kích thước n, xác định tỷ lệ f các phần tử có tính chất
A trong mẫu (tỷ lệ mẫu), ta tính được giá trị quan sát:

● Kết luận:
̅)
Nếu U0 ϵ Wα thì bác bỏ giả thuyết (H), thừa nhận giả thuyết (H
Nếu U0  Wα thì thừa nhận giả thuyết (H), bác bỏ giả thuyết (H
̅)

Ví dụ 4: Tỷ lệ phế phẩm của máy sản xuất thuốc là p = 5%. Sau khi cải tiến
kỹ thuật, kiểm tra 400 sản phẩm có 12 phế phẩm. Với độ tin cậy 99%, có kết luận
việc cải tiến kỹ thuật có hiệu quả hay không?
Giải:
(Mục đích của việc cải tiến kỹ thuật là giảm tỷ lệ phế phẩm nên để xét việc cải
tiến kỹ thuật có hiệu quả hay không bằng đối giả thuyết tỷ lệ phế phẩm nhỏ hơn tỷ
lệ ban đầu)
̅ ): p < 0,05
Xét giả thuyết (H): p = 0,05, đối giả thuyết (H
( f̅−p)
Chọn thống kê U =
√pq
√n . Nếu (H) đúng thì U ~ N(0;1)
53
Miền bác bỏ Wα với độ tin cậy 1-α = 0,99
Wα = (-∞ ; - U1-α) = (-∞ ; - U0,99) = (-∞ ; - 2,326)
Với mẫu đã cho: n = 400, f = 0,03, p0 = 0,05, ta có giá trị quan sát thực tế

(0,03−0,05)√400
= = - 1,835
√0,05 (1−0,05)

Kết luận: U0  Wα thừa nhận giả thuyết (H), bác bỏ giả thuyết (H
̅ ).
Nghĩa là cho rằng việc cải tiến kỹ thuật có hiệu quả.

IV – KIỂM ĐỊNH GIẢ THUYẾT VỀ PHƯƠNG SAI


Giả sử có ĐLNN X có luật phân phối chuẩn X ∈ N(μ; σ2) trong đó phương sai
D(X) = σ2 chưa biết.
Xét giả thuyết (H) = σ2 = σo2
Kèm theo đối giả thuyết (H̅ ) là một và chỉ một trong các trường hợp sau:
̅ 1): σ2 > σo2
(H
̅ 2): σ2 < σo2
(H
̅ 3): σ2 ≠ σo2
(H

Cho số α khá nhỏ. Hãy kiểm định giả thuyết (H) với mức ý nghĩa α
■ Các bước kiểm định
● Chọn thống kê . Nếu (H) đúng thì

● Từ mức ý nghĩa α xác định miền bác bỏ Wα

Trong đó các giá trị χ2n-1;1- α ; χ2n-1;α/2 ; χ2n-1;1- α/2 ; χ2n-1;α là các giá trị phân vị χ2

54
● Với mẫu ngẫu nhiên kích thước n, phương sai điều chỉnh mẫu S’2, ta tính
được giá trị quan sát:

● Kết luận
̅)
- Nếu χ0 ϵ Wα thì bác bỏ giả thuyết (H), thừa nhận giả thuyết (H
- Nếu χ0  Wα thì thừa nhận giả thuyết (H), bác bỏ giả thuyết (H
̅)

Ví dụ 5: Chủ hảng sản xuất cho biết độ lệch chuẩn của sai số đo của thiết bị
cao nhất là 5 đơn vị. Người ta kiểm tra 19 thiết bị đo thì thấy S’2 = 33. Với α =
0,05 có kết luận gì về ý kiến của chủ cửa hàng trên?
Giải:
̅ ): σ2 > 25
Xét giả thuyết (H): σ2 = 25 , đối giả thuyết (H
Chọn thống kê

Miền bác bỏ Wα với mức ý nghĩa α = 0,05


Wα = ( χ2n-1;1- α ; + ∞) = (χ218;0,95) = (28,869; + ∞)
Với mẫu đã cho n = 19, S’2 = 33, σo2 = 25 cm, ta có giá trị quan sát thực tế

= 23,76

Kết luận:
Nếu χ0  Wα thừa nhận giả thuyết (H), bác bỏ giả thuyết (H
̅)
Nghĩa là ý kiến của chủ cửa hàng là đúng.

V – KIỂM ĐỊNH GIẢ THUYẾT VỀ SỰ BẰNG NHAU CỦA HAI TRUNG


BÌNH
Giả sử hai ĐLNN X và Y độc lập, cùng có luật phân phối chuẩn với trung
bình E(X) và E(Y) chưa biết
55
Xét giả thuyết (H): E(X) = E(Y)
̅ ) là một và chỉ một trong các trường hợp sau
Kèm theo đối giả thuyết (H
̅ 1): E(X) > E(Y)
(H
̅ 2): E(X) < E(Y)
(H
̅ 3): E(X) ≠ E(Y)
(H
Cho số α khá nhỏ. Hãy kiểm định giả thuyết (H) với mức ý nghĩa α
Bài toán kiểm định về hai giả thuyết trug bình được chia thành các trường hợp
phụ thuộc vào thông tin về các phương sai và kích thước mẫu.
5.1 Trường hợp 1:
Phương sai D(X) = σx2 , D(Y) = σy2 đã biết
● Miền bác bỏ được xác định theo các giá trị phân vị chuẩn tương tự trường
hợp 1 trong kiểm định trung bình
● Với mẫu ngẫu nhiên X kích thước m, trung bình x và mẫu ngẫu nhiên Y
kích thước n, trung bình y , ta tính được giá trị quan sát được.
x− y
U0 =
D(X) D(Y)
√ +
m n

● Kết luận:
̅)
Nếu U0 ϵ Wα thì bác bỏ giả thuyết (H), thừa nhận giả thuyết (H
Nếu U0  Wα thì thừa nhận giả thuyết (H), bác bỏ giả thuyết (H
̅)
Ví dụ 6: Biết rằng cân nặng của trẻ sơ sinh ở hai khu vực I và II là hai ĐLNN
X, Y độc lập nhau, cùng có luật phân phối chuẩn với cùng độ lệch chuẩn σ = 0,4kg
Khảo sát m = 120 trẻ ở khu vực I tính được trung bình mẫu x = 3,1kg và khảo sát
n = 150 trẻ ở khu vực II tính được trung bình mẫu y = 3,2kg.
Với độ tin cậy 99%, có thể cho rằng cân nặng của trẻ sơ sinh ở khu vực I nhỏ
hơn khu vực II hay không?
Giải:
̅ ) E(X) < E(Y)
Xét giả thuyết (H): E(X) = E(Y) và đối giả thuyết (H
Miền bác bỏ Wα với độ tin cậy 1- α = 0,99
Wα = (-∞ ; - U1-α) = (-∞ ; - U0,99) = (-∞ ; - 2,326)
Với hai phương sai σx2 = σy2 = 0,42 kg,
56
m = 120 và n = 150 ; x = 3,1kg ; y = 3,2kg.
x− y 3,1−3,2
U0 = = = -2,041
D(X) D(Y) 0,16 0,16)
√ + √ +
m n 120 150

Kết luận:
U0  Wα thừa nhận giả thuyết (H), bác bỏ giả thuyết (H
̅)
Nghĩa là trung bình cân nặng của trẻ em khu vực I và II bằng nhau.

5.2 Trường hợp 2:


Phương sai D(X) và D(Y) chưa biết
Quy tắc kiểm định như trường hợp 1, chỉ khác là trong công thức xác định giá
trị quan sát U0, giá trị D(X) và D(Y) lần lượt được thay bằng phương sai điều
chỉnh mẫu tương ứng đại lượng X và Y (S’x2 ; S’y2)
Ví dụ 7: Người ta dự đoán rằng chế độ nuôi hai giống gà I và II có độ tăng
trưởng như nhau. Biết rằng khối lượng giống gà I và II sau hai tháng tuổi là
ĐLNN X và Y độc lập, cùng có luật phân phối chuẩn.
Khảo sát m = 40 con gà loại I , ta tính được trung bình mẫu 𝑥 = 1560kg
phương sai điều chỉnh S’x2 = 2500g2 và khảo sát n = 50 con gà loại II , tính được
trung bình mẫu 𝑦 = 1540kg, phương sai điều chỉnh S’y2 = 2850g2.
Với độ tin cậy 95%, hãy kết luận dự đoán trên.
Giải:
̅ ): E(X) ≠ E(Y)
Xét giả thuyết (H): E(X) = E(Y), đối giả thuyết (H
Miền bác bỏ Wα với độ tin cậy 1- α = 0,95
Wα = (-∞ ; - U1-α/2) ∪ (U1-α/2; +∞) = (-∞ ; - U0,95) ∪ (U0,95; +∞)
= (-∞ ; - 1,960) ∪ (1,960; +∞)
Với mẫu ngẫu nhiên của X, ta có:
m = 40 con; x = 1560kg ; S’x2 = 2500g2
Với mẫu ngẫu nhiên của Y, ta có:
n = 50 con; y = 1540kg ; S’y2 = 2850g2.

57
Tính được giá trị quan sát thực tế:
x− y 1560−1540
U0 = = = 1,83
S’x2 S’y2 2500 2850
√ + √ +
m n 40 50

Kết luận:
U0  Wα thừa nhận giả thuyết (H), bác bỏ giả thuyết (H
̅)
Nghĩa là độ tăng trưởng của hai giống gà là như nhau.

VI - KIỂM ĐỊNH GIẢ THUYẾT VỀ SỰ BẰNG NHAU CỦA HAI TỶ LỆ


Xét p1, p2 lần lượt là tỷ lệ các phần tử có tính chất A tương ứng trong hai tổng
thể khác nhau.
Xét giả thuyết (H): p1 = p2
Kèm theo đối giả thuyết (H ̅ ) là một và chỉ một trong các trường hợp sau
̅ 1): p1 > p2
(H
̅ 2): p1 < p2
(H
̅ 3): p1 ≠ p2
(H
Cho số α khá nhỏ. Hãy kiểm định giả thuyết (H) với mức ý nghĩa α.
■ Các bước kiểm định:
● Miền bác bỏ Wα xác định tương tự như trong kiểm định tỷ lệ
● Giá trị quan sát
f1−f2
U0 =
1 1
√p∗(1−p∗)( + )
m n

Trong đó:
f1 là tỷ lệ phần tử có tính chất A, m là kích thước mẫu quan sát lấy từ tổng thể
ứng với tỷ lệ p1
f2 là tỷ lệ phần tử có tính chất A, n là kích thước mẫu quan sát lấy từ tổng thể
ứng với tỷ lệ p2
mf1+nf2
p* =
m+n
● Kết luận
̅)
Nếu U0 ϵ Wα thì bác bỏ giả thuyết (H), thừa nhận giả thuyết (H
Nếu U0  Wα thì thừa nhận giả thuyết (H), bác bỏ giả thuyết (H
̅)

58
Ví dụ 8: Kiểm tra 900 sản phẩm ở phân xưởng I có 30 phế phẩm. Kiểm tra
1000 sản phẩm phân xưởng II có 20 phế phẩm.
Với độ tin cậy 99%, có thể cho rằng tỷ lệ phế phẩm ở phân xưởng I lớn hơn ở
phân xưởng II hay không?
Giải:
Gọi p1, p2 lần lượt là tỷ lệ phế phẩm ở phân xưởng I và II
̅ ): p1 > p2
Xét giả thuyết (H): p1 = p2 ; đối giả thuyết (H
Miền bác bỏ Wα với độ tin cậy 1- α = 0,99
Wα = (U1-α; +∞) = (U0,99; +∞) = (2,326; +∞)
Với mẫu phân xưởng I ta có: m = 900; f1 = 30/900
Với mẫu phân xưởng II ta có: n = 1000 ; f1 = 20/1000
30 20
mf1+nf2 900 +1000 1
900 1000
p* = = = ≈ 0,026
m+n 900+1000 38

Suy ra
30 20
f1−f2 −
900 1000
U0 = = 1 1 1 1
= 1,813
1 1
√p∗(1−p∗)( + ) √ (1− )( + )
m n 38 38 900 1000

Kết luận:
U0  Wα thừa nhận giả thuyết (H), bác bỏ giả thuyết (H
̅)
Nghĩa là tỷ lệ phế phẩm ở phân xưởng I có thể bằng với phân xưởng II

VI - BÀI TẬP
1. Một nhóm người nghiên cứu tuyên bố rằng trung bình một người vào siêu thì X
tiêu hết 140 nghìn đồng. Chọn ngẫu nhiên 50 người mua hàng, tính được số tiền
trung bình họ tiêu là 154 nghìn đồng với độ lệch tiêu chuẩn điều chỉnh của mẫu là
s’=62. Với mức ý nghĩa 0,02 hãy kiểm định xem tuyên bố của nhóm người nghiên
cứu có đúng hay không?

2. Trọng lượng của các bao gạo là đại lượng ngẫu nhiên X có phân phối chuẩn với
trọng lượng trung bình là E(X) = 50 kg. Sau một khoảng thời gian hoạt động,

59
người ta nghi ngờ trọng lượng các bao gạo có thay đổi. Cân thử 25 bao và thu được
kết quả như sau:
X (khối lượng) ni (số bao)
48 – 48,5 2
48,5 – 49 5
49 – 49,5 10
49,5 – 50 6
50 – 50,5 2
Hãy kết luận điều nghi ngờ nói trên
3. Khối lượng sản phẩm do hệ thống máy sản xuất là đại lượng ngẫu nhiên X có
luật phân phối chuẩn, phương sai Var(X) = 15 g 2 . Sau một thời gian sản xuất,
người ta nghi ngờ rằng khối lượng các sản phẩm được sản xuất ra không ổn định.
Kiểm tra 25 sản phẩm, tính được phương sai điều chỉnh .s'2 = 26g2 . Với độ tin
cậy 99%, hãy kết luận về nghi ngờ trên.

4. Trong phòng nghiên cứu, người ta nghiên cứu tác dụng thuốc gây mê trên thể
trạng chuột như sau: Một nhà sinh học làm thí nghiệm nghiên cứu sự biến đổi
huyết áp (đơn vị mmHg) của chuột theo cùng một nhiệt độ. Đo huyết áp của 49
con chuột ở nhiệt độ 50C có bảng số liệu sau:
Huyết áp 354 358 362 366 370 374
Số con 5 8 15 12 6 3

a. Những con chuột có huyết áp dưới 365mmHg là những con chuột đạt
chuẩn. Hãy ước lượng huyết áp trung bình của những con chuột đạt chuẩn với độ
tin cậy 94%.
b. Nhà sinh học này kết luận: Huyết áp trung bình của chuột đã thí nghiệm
nêu trên ở nhiệt độ 50C là 364 mmHg, với độ tin cậy 95%. Theo bạn thì kết luận
trên có đúng hay không?

60
5. Giám đốc bệnh viện X xem lại hồ sơ cũ năm 2014 của một đợt khảo sát mẫu
ngẫu nhiên tại khoa Sản của bệnh viện X khi các bé được sinh ra thu được số liệu
trọng lượng như sau:
Trọng lượng (kg) Số con
2,3 - 2,7 5
2,7 - 2,9 30
2,9 - 3,1 …
3,1 - 3,3 25
3,3 - 3,5 10
3,5 - 3,7 5
3,7 - 3,9 5

a. Giá trị bỏ trống trong dòng thứ 3 bị mất do trong quá trình lưu trữ không tốt
những biết rằng khi xem bảng tính cũ thì thấy giá trị trung bình mẫu là 3,075. Hãy
tìm và điền lại giá trị bị mất. Hãy ước lượng trung bình trọng lượng bé được sinh
ra với độ tin cậy 96%. Biết rằng năm 2014 có 700 bé được sinh ra ở bệnh viện.
b. Hãy ước lượng bé đạt tiêu chuẩn I với độ tin cậy 98%, biết rằng bé đạt loại
I là bé có trọng lượng trên 3,5kg.
c. Với độ tin cậy 95% hãy ước lượng trung bình bé đạt tiêu chuẩn loại I ở
bệnh viện X trong năm 2014.
d. Báo cáo của khoa sản của bệnh viện X cho biết tỷ lệ bé đạt tiêu chuẩn loại I
là 12%, với mức ý nghĩa 2% hãy kiểm tra nguồn tin này có đáng tin cậy không?

61
62
63

You might also like