You are on page 1of 378

Thông tin môn học & lớp học

Giảng viên: PGS. TS. Trần Văn Quảng


Khoa CNTT – Đại học Công Nghệ

Xác suất thống kê Học kì 1, 2022-2023


Xác suất thống kê

diepht@vnu 2
Lớp môn học MAT1101 42/21/20
» Danh sách lớp
» Website môn học tạo trên website UET
• http://courses.uet.vnu.edu.vn/
• Xác suất thống kê (MAT1101 42/21/20)
• Enroll
» MS Teams, Facebook

diepht@vnu 3
Giới thiệu môn học
» Lý thuyết xác suất
» Thống kê
» Ứng dụng (thông qua giải bài tập)

diepht@vnu 4
diepht@vnu 5
Học liệu
» Tài liệu bắt buộc
• Đặng Hùng Thắng. Mở đầu về lý thuyết xác suất và các ứng dụng. NXB Giáo Dục 1997.
• Đặng Hùng Thắng. Thống kê và ứng dụng. NXB Giáo Dục 1999.
» Tài liệu tham khảo
» Web
• Khan Academy
• Coursera
• MIT OCW
• Wolfram Alpha
» Web tiếng Việt
• Youtube: Bộ bài giảng của GS. Nguyễn Văn Tuấn (thống kê)

diepht@vnu 6
Phương thức đánh giá
» Điểm cuối kì (60%)
• Thi viết
» Điểm giữa kì (40%)
• Thi viết
» Chuyên cần
• Được dự thi cuối kì nếu
• Dự giảng ít nhất 80% các giờ lý thuyết
• Không bị nhóm phê bình

diepht@vnu 7
Phương thức đánh giá*
» Điểm cuối kì (40%)
• Thi viết
» Điểm giữa kì (20%)
• Thi viết
» Điểm bài tập về nhà làm theo nhóm (20%)
• Mỗi tuần 5 bài, nộp bằng tài khoản cá nhân trên course
• Thảo luận nhóm + tính điểm nhóm
» Điểm trung bình các bài kiểm tra online và đột xuất (20%)
» Chuyên cần
• Được dự thi cuối kì nếu
• Dự giảng ít nhất 80% các giờ lý thuyết
• Không bị nhóm phê bình

diepht@vnu 8
Cách học?

diepht@vnu 9
Lịch trình học
Chương 1. Biến cố và xác suất của biến cố
Chương 2. Đại lượng ngẫu nhiên rời rạc
Chương 3. Đại lượng ngẫu nhiên liên tục
Chương 4. Lý thuyết mẫu
Chương 5. Uớc lượng tham số
Chương 6. Kiểm định giả thiết
Chương 7. Tương quan và hồi quy tuyến tính đơn

diepht@vnu 10
Xác suất
» Khả năng ngày mai trời mưa
» Khả năng thắng xổ số
» Khả năng hôm nay được nghỉ học

diepht@vnu 11
Thống kê
» Bầu cử
» Thể thao
» Kinh tế
» Chứng khoán
» Y tế
» …..

diepht@vnu 12
Thiên lệch (bias)
» Lương kĩ sư IT là 60 triệu/ 1 tháng
» 90% người dân VN dùng internet
» 99% người dùng thích sản phẩm X

diepht@vnu 13
Biến cố và xác suất của biến cố
(P1)

Giảng viên: PGS. TS. Trần Văn Quảng


Khoa ĐTVT – Đại học Công Nghệ

Xác suất thống kê Học kì 1, 2022-2023


Nội dung
» Phép thử ngẫu nhiên và không gian mẫu
» Biến cố và quan hệ giữa chúng
» Xác suất của một biến cố
» Các qui tắc tính xác suất
» Phép thử lặp – Công thức Becnuli
» Xác suất có điều kiện
» Công thức xác suất đầy đủ
» Công thức Bayes

tranquang@vnu.edu.vn 2
Thí dụ 10 (trang 198, giáo trình xác suất)

» Gieo 1 con xúc sắc liên tiếp 12 lần. Hỏi có bao nhiêu trường hợp trong đó mỗi
mặt xuất hiện đúng 2 lần?
» Đáp số: 12! / 26

tranquang@vnu.edu.vn 3
Phép thử ngẫu nhiên và
không gian mẫu
» Phép thử ngẫu nhiên (experiment): Hành động mà kết quả không dự báo trước
được. Ký hiệu: C
Ví dụ: Gieo xúc xắc và quan sát số nốt ở mặt trên.

» Không gian mẫu: Tập tất cả các kết quả có thể của C.
Ký hiệu: Ω
Ví du: Ω = {1, 2, 3, 4, 5, 6}

» Ví dụ từ sinh viên

tranquang@vnu.edu.vn 4
Biến cố và quan hệ giữa chúng
» Biến cố (sự kiện): Kết quả của phép thử C mà chúng ta quan tâm.
Ví dụ:
Phép thử C: Gieo xúc xắc và quan sát số nốt ở mặt trên.
Không gian mẫu: Ω = {1, 2, 3, 4, 5, 6}
Biến cố A: Số nốt ở mặt trên là 1, hay A = {1}
Biến cố B: Số nốt ở mặt trên là 6, hay B = {6}
Biến cố C: Số nốt ở mặt trên là 1 hoặc 6, hay C = {1, 6}
Biến cố E: Số nốt ở mặt trên là số chẵn, hay E = {2, 4, 6}
» Biến cố không thể: Là biến cố không thể xảy ra
Biến cố D: Số nốt ở mặt trên là 7
» Ví dụ từ sinh viên

tranquang@vnu.edu.vn 5
Biến cố và quan hệ giữa chúng
» Kéo theo: A xảy ra thì B xảy ra, kí hiệu A B
Ví dụ:
Phép thử C: Gieo xúc xắc và quan sát số nốt ở mặt trên.
Không gian mẫu: Ω = {1, 2, 3, 4, 5, 6}
Biến cố A: Số nốt ở mặt trên là 1, hay A = {1}
Biến cố B: Số nốt ở mặt trên là 6, hay B = {6}
Biến cố C: Số nốt ở mặt trên là 1 hoặc 6, hay C = {1, 6}

A kéo theo C
B kéo theo C

tranquang@vnu.edu.vn 6
Biến cố và quan hệ giữa chúng
» Biến cố đối của A: xảy ra khi A không xảy ra
Ā=Ω\A
Ví dụ:
Phép thử C: Gieo xúc xắc và quan sát số nốt ở mặt trên.
Không gian mẫu: Ω = {1, 2, 3, 4, 5, 6}
Biến cố A: Số nốt ở mặt trên là 1, hay A = {1}
Biến cố đối của A: Số nốt ở mặt trên không là 1.

Biến cố C: Số nốt ở mặt trên là 1 hoặc 6, hay C = {1, 6}


Biến cố đối của C: ? (Không là 1 và 6)

tranquang@vnu.edu.vn 7
Biến cố và quan hệ giữa chúng
» Hai biến cố A, B được gọi là xung khắc nếu chúng không thể cùng xuất hiện mỗi
khi thực hiện phép thử.
» Gieo hai con xúc xắc.
» Ta xét các biến cố
» - Biến cố A ứng với sự kiện "tổng số chấm trên hai con xúc xắc bằng 7".
» - Biến cố B ứng với sự kiện "tổng số chấm trên hai con xúc xắc chia hết cho 2".
» - Biến cố C ứng với sự kiện "tổng số chấm trên hai con xúc xắc chia hết cho 3".
» Tương ứng, biến cố A xung khắc với biến cố B, biến cố A xung khắc với biến cố
C. Biến cố B và biến cố C không xung khắc với nhau.

tranquang@vnu.edu.vn 8
Hợp hai biến cố
» Hợp của 2 biến cố A và B: xảy ra khi ít nhất một trong hai biến cố A và B xảy
ra.
A B
Ví dụ:
Phép thử C: Gieo xúc xắc và quan sát số nốt ở mặt trên.
Không gian mẫu: Ω = {1, 2, 3, 4, 5, 6}
Biến cố A: Số nốt ở mặt trên là 1; A = {1}
Biến cố B: Số nốt ở mặt trên là 6; B = {6}
Hợp của A và B: A B = {1} {6} = {1, 6}

tranquang@vnu.edu.vn 9
Giao hai biến cố
» Giao của 2 biến cố A và B: xảy ra nếu cả A và B đều xảy ra.
A ∩ B (hoặc AB)
Thống nhất dùng cách
Ví dụ: số 2

Phép thử C: Gieo xúc xắc và quan sát số nốt ở mặt trên.
Không gian mẫu: Ω = {1, 2, 3, 4, 5, 6}
Biến cố A: Số nốt ở mặt trên là 1 hoặc 2; A = {1, 2}
Biến cố B: Số nốt ở mặt trên là 2 hoặc 6, B = {2, 6}
Giao của A và B là: A ∩ B = {1, 2} ∩ {2, 6} = {2}

Lưu ý: Nếu , A và B là 2 biến cố xung khắc

tranquang@vnu.edu.vn 10
Ví dụ
Có 3 xạ thủ X1, X2, X3, mỗi người bắn một viên vào bia. Có 3 biến cố sau:
» A: Xạ thủ X1 bắn trúng
» B: Xạ thủ X2 bắn trúng
» C: Xạ thủ X3 bắn trúng

Mô tả bằng kí hiệu các biến cố sau:


a) X1 và X2 bắn trúng, X3 không bắn trúng
b) X1 hoặc X2 bắn trúng, và X3 bắn không trúng
c) Cả 3 xạ thủ bắn trúng
d) Cả 3 xạ thủ không bắn trúng
e) Có ít nhất một xạ thủ bắn trúng
f) Có ít nhất hai xạ thủ bắn trúng
g) Có nhiều nhất 1 xạ thủ bắn trúng

tranquang@vnu.edu.vn 11
Ví dụ
Có 3 xạ thủ X1, X2, X3, mỗi người bắn một viên vào bia. Có 3 biến cố sau:
» A: Xạ thủ X1 bắn trúng
» B: Xạ thủ X2 bắn trúng
» C: Xạ thủ X3 bắn trúng

Mô tả bằng lời các biến cố sau:


a) ĀBC
b) (A∪B)C
c) A∪B∪C
d) Ā (B∪C)

tranquang@vnu.edu.vn 12
Ví dụ
Có 3 xạ thủ X1, X2, X3, mỗi người bắn một viên vào bia. Có 3 biến cố sau:
» A: Xạ thủ X1 bắn trúng
» B: Xạ thủ X2 bắn trúng
» C: Xạ thủ X3 bắn trúng

Mô tả bằng lời các biến cố sau:


a) ĀBC
b) (A∪B)C
c) A∪B∪C
d) Ā (B∪C) a) Chỉ có X1 bắn trượt
b) Ít nhất 2 người bắn trúng trong đó có X3.
c) Ít nhất 1 người bắn trúng
d) X1 bắn trượt; 2 người còn lại ít nhất 1 người bắn trúng
d’) Ít nhất 1 người bắn trúng không phải X1.

tranquang@vnu.edu.vn 13
Xác suất của một biến cố
» Định nghĩa cổ điển:
| A|
P( A) 
||
Ví dụ:
Phép thử C: Gieo xúc xắc và quan sát số nốt ở mặt trên.
Không gian mẫu: Ω = {1, 2, 3, 4, 5, 6}
Biến cố A: Số nốt ở mặt trên là 1; A = {1}
P(A) = 1/6

Biến cố B: Số nốt ở mặt trên là 1 hoặc 3; B = {1, 3}


P(B) = 2/6 = 1/3

tranquang@vnu.edu.vn 14
Ví dụ
Một công ti cấn tuyển hai nhân viên. Có 6 người nộp đơn, trong đó có 4 nữ và 2
nam. Giả sử rằng khả năng trúng tuyển của 6 người là như nhau.
a) Tính xác suất để 2 người trúng tuyển đẽu là nam. c22/c62=1/15
b) Tính xác suất để cả hai người trúng tuyển đểu là nữ. C42/c62=2/5
1-1/15=14/15
c) Tính xác suất để có ít nhất một nữ trúng tuyển

tranquang@vnu.edu.vn
Xác suất của một biến cố
» Định nghĩa theo tần suất:
Gọi k(A) là số lần xuất hiện biến cố A trong n lần thử C
fn(A): tần suất xuất hiện của biến cố A:
k ( A)
f n ( A) 
n
Xác suất của biến cố A:

P ( A )  lim f n ( A )
n  

tranquang@vnu.edu.vn 16
Ví dụ
» Để xác định xác suất một sinh viên khoa Cơ ra trường xin việc được sau khi ra
trường, người ta theo dõi 1000 sinh viên và thấy có 850 sinh viên xin được việc.
Vậy xác suất cần tìm xấp xỉ bằng:
P(Sinh viên khoa cơ xin được việc) = 850/1000

» Ví dụ từ sinh viên

tranquang@vnu.edu.vn 17
Tiên đề xác suất
Nhà toán học Nga Kolmogorov đưa ra một số tiên đề sau:
1. Mọi biến cố A:
0  P( A)  1

2.
P()  1; P(Æ)  0
3. Nếu A1, A2,…An là các biến cố đôi một xung khắc với nhau

P(ÈAi )  å P(Ai)
i1...n i1...n

tranquang@vnu.edu.vn 18
Các qui tắc tính xác suất
» Qui tắc cộng cho các biến cố xung khắc
P(A B) = P(A) + P(B)

» Qui tắc cộng tổng quát


P(A B) = P(A) + P(B) - P(AB)

» Qui tắc chuyển sang biến cố đối


P(A) = 1 – P(Ā)

tranquang@vnu.edu.vn 19
Ví dụ
» Một vùng dân có 9% mắc bệnh tim, 12% mắc huyết áp, 7% mắc cả hai bệnh.
Chọn ngẫu nhiên một người dân vùng đó. Xác suất người đó không mắc bệnh
nào ?

huyết áp

tim

tranquang@vnu.edu.vn 20
Ví dụ
» Một vùng dân có 9% mắc bệnh tim, 12% mắc huyết áp, 7% mắc cả hai bệnh.
Chọn ngẫu nhiên một người dân vùng đó. Xác suất người đó không mắc bệnh
nào ?

P(H) = .P(A u B) = P(A) + p (B) - p (AB) = = 0,09 + 0,12 - 0,07 =


0,14.
Theo quy tắc c) P = 1 - P(H) = 1 - 0,14 = 0,86

tranquang@vnu.edu.vn 21
Đề thi cũ
Câu 1 Gieo hai con xúc xắc 6 mặt cân đối đồng chất.
a) Tính xác suất nhận được hai mặt giống nhau.
b) Cho biết tổng hai mặt nhận được nhỏ hơn 5. Tính xác suất nhận được hai mặt giống nhau.
c) Tính xác suất có ít nhất một mặt là 6.
d) Cho biết hai mặt nhận được khác nhau, tính xác suất có ít nhất một mặt là 6.
Câu 2 Giả sử có n (n<200) người tham dự một bữa tiệc và không ai được sinh ra vào ngày 29 tháng 2 (năm
nhuận). Giả sử thêm rằng xác suất sinh ra vào một ngày bất kỳ trong năm của mọi người là như nhau và xác
suất sinh của mỗi người là độc lập với nhau. Tính xác suất để mỗi người trong n người này có một sinh nhật
khác nhau.
Câu 3 Trong một lớp học có 60% sinh viên thích Alpenliebe, 70% thích Sôcôla, và 40% thích cả hai loại. Hỏi
xác suất một sinh viên được lựa chọn ngẫu nhiên không thích Alpenliebe cũng không thích Sôcôla là bao nhiêu?

tranquang@vnu.edu.vn 22
Ví dụ
» Trên giá có n (n>4) quyển sách đứng cạnh nhau trong đó có 3 cuốn của cùng
một tác giả. Tìm xác suất để không có hai cuốn nào trong ba cuốn đứng cạnh
nhau.

( )( )
» P=
( )

tranquang@vnu.edu.vn 23
Biến cố và xác suất của biến cố
(P2)

Xác suất thống kê Học kì 1, 2022-2023


Nội dung
» Phép thử ngẫu nhiên và không gian mẫu
» Biến cố và quan hệ giữa chúng
» Xác suất của một biến cố
» Các qui tắc tính xác suất
» Phép thử lặp – Công thức Becnuli
» Xác suất có điều kiện
» Công thức xác suất đầy đủ
» Công thức Bayes

diepht@vnu 2
Biến cố độc lập
» Hai biến cố A và B được gọi là độc lập với nhau nếu việc xảy ra hay không của
biến cố này không ảnh hưởng tới việc xảy ra hay không của biến cố kia.
» Ví dụ
Hai người cùng bắn súng vào 1 mục tiêu
Biến cố A: Người thứ nhất bắn trúng
Biến cố B: Người thứ hai bắn trúng
Biên cố A và biến cố B là độc lập với nhau.
» Qui tắc nhân cho các biến cố độc lập với nhau
P(AB) = P(A) P(B)

3
Ví dụ
1. Ba người độc lập cùng bắn vào một mục tiêu, với xác suất bắn trúng lần lượt là
0,4; 0,5 và 0,7.
a) Tính xác suất để duy nhất một người bắn trúng ?
b) Tính xác suất để ít nhất một người bắn trúng ?

4
Ví dụ
2. Có hai túi đựng các quả cầu. Túi thứ nhất chứa 3 quả trắng, 7 quả đỏ và 15 quả
xanh. Túi thứ hai cđ chứa 10 quả trắng, 6 quả đỏ và 9 quả xanh. Từ mỗi túi ta
chọn ngẫu nhiên một quả cầu. Tỉm xác suất để 2 quả cầu được chọn đều có cùng
mầu.

5
Phép thử lặp – Công thức Becnuli
» Xét phép thử C và biến cố A liên quan với xác suất P(A) = p.
» Thực hiện n phép thử C độc lập.
» Pk(n; p) - xác suất để trong dãy n phép thử độc lập, biến cố A xuất hiện đúng k
lần:
Pk(n; p) = Cknpk(1-p)n-k

6
Ví dụ
Xác suất thành công của một thí nghiệm sinh hđa là 40%. Một nhóm gốm 9 sinh
viên tiến hành cùng thí nghiệm trên độc lập với nhau. Tìm xác suất để :
a) Có đúng 6 thí nghiệm thành công.
b) Có ít nhất một thí nghiệm thành công.
c) Có ít nhất 8 thí nghiệm thành công.

7
Ví dụ
Xác suất thành công của một thí nghiệm là 40%. Một nhóm 9 sinh viên tiến hành
cùng thí nghiệm độc lập với nhau. Tính các xác suất sau:
a) Có đúng 3 thí nghiệm thành công ?
b) Có đúng 6 thí nghiệm thành công ?
c) Có ít nhất một thí nghiệm thành công ?
d) Tất cả các thí nghiệm thành công ?

Pk(n; p) = Cknpk(1-p)n-k

8
Ví dụ
1. Hai đấu thủ A và B thi đấu cờ. Xác suất A thắng trong
một ván là 0,6 (không có hòa). Trận đấu gồm 5 ván.
Người nào thắng số ván lớn hơn là người thắng chung
cuộc. Tính xác suất để B thắng cuộc.
a) Giáo trình: Giả sử luôn đấu cả 5 ván.
b) Mở rộng: Giả sử dừng trận đấu khi có người
thắng 3 ván.

2. Một người say rượu bước 8 bước. Mỗi bước anh ta tiến
lên phía trước một mét hoặc lùi lại phía sau một mét với
xác suất như nhau. Tính xác suất để sau 8 bước:
a) Anh ta trở lại điểm xuất phát.
b) Anh ta cách điểm xuất phát nhiều hơn 4m.

9
Nội dung
» Phép thử ngẫu nhiên và không gian mẫu
» Biến cố và quan hệ giữa chúng
» Xác suất của một biến cố
» Các qui tắc tính xác suất
» Phép thử lặp – Công thức Becnuli
» Xác suất có điều kiện
» Công thức xác suất đầy đủ

10
Xác suất có điều kiện
» Khảo sát người ( nữ, và nam) cho thấy có người bị cận thị ( nữ bị cận và nam bị cận).
Tính xác suất một người bị cận nếu biết người đó là nữ.
» Biến cố A: Người đó bị cận; Biến cố B: Người đó là nữ
» XS A khi B đã xảy ra rồi:
P(A|B) =

» Quan hệ xác suất có điều kiện và xác suất không điều kiện
P (A|B) = =( )/( )
Ta có: = P(AB); = P(B)
 P(A|B) = P(AB) / P(B) hay P(AB) = P(A|B) P(B)

11
Ví dụ
Khảo sát một vùng dân cư ta có
» 15% người vừa nghiện thuốc lá và ung thư họng
» 25% người nghiện thuốc nhưng không ung thư họng
» 50% người không nghiện thuốc, không ung thư họng
» 10% người không nghiện thuốc nhưng ung thư họng

» Tính:
a) P(ung thư họng | nghiện thuốc)
b) P(ung thư họng | không nghiện thuốc)
» Tìm mối quan hệ giữa nghiện thuốc lá và ung thư họng

12
Ví dụ
1. Gieo đồng thời 2 con xúc xắc cân đối. Tính xác suất để tổng số nốt xuất hiện trên 2 con không nhỏ hơn 10
biết rằng ít nhất 1 con đã ra nốt 5.

2. Khảo sát sinh viên trường Đại học Công nghệ cho thấy
25% sinh viên chơi điện tử ít nhất 2 tiếng/1 ngày
15% sinh viên chơi điện tử ít nhất 2 tiếng/1 ngày và thi trượt môn xstk.
Tính xác suất một sinh viên thi trượt môn xstk nếu biết rằng sinh viên đó chơi điện tử ít nhất 2 tiếng/1 ngày.

13
Ví dụ
» Một gia đình có 2 đứa con. Tìm xác suất để cả 2 đều là con trai nếu biết rằng ít nhất trong 2 đứa có 1 đứa là
trai. (Giả thiết xác suất sinh con trai và con gái bằng nhau)
• 1/3

14
Công thức xác suất đầy đủ
» Các biến cố B1, B2,…, Bn được gọi là hệ đầy đủ các biến cố nếu chúng đôi một
xung khắc, và hợp của chúng là một biến cố chắc chắn.
• ( và

» Nếu B1, B2,…, Bn là một hệ đầy đủ thì

15
Ví dụ
» Nhà máy có 3 phân xưởng A, B và C làm ra tương ứng 25%, 35% và 40% tổng
sản phẩm. Biết xác suất làm ra sản phẩm hỏng tương ứng của A, B và C là 0,01;
0,02 và 0,025. Chọn ngẫu nhiên một sản phẩm của nhà máy. Tính xác suất để đó
là một sản phẩm hỏng ?

» A: biến cố sản phẩm được chọn ngẫu nhiên do phân xưởng A sản xuất; B…; C…
» P(A)=0.25, P(B)=0.35, P(C)=0.4
» P(H|A)=0.01, P(H|B)=0.02, P(H|C)=0.025
» P(H)?

P(H) = P(A)P(H/A) + P(B)P(H/B) + P(C)P(H/C) =1,95%

16
Ví dụ
» Chuồng 1 có 3 thỏ trắng, 3 nâu. Chuồng 2 có 6 thỏ trắng và 4 nâu. Bắt ngẫu
nhiên 4 con thỏ chuồng 1 bỏ vào chuồng 2; rồi bắt ngẫu nhiên 1 con ở chuồng
thứ 2 ra. Tính xác suất để bắt được con nâu từ chuồng thứ 2 ?

17
Bài tập về nhà
Bài tập chương 1, sách bài tập Đặng Hùng Thắng

18
Chuẩn bị bài tới
» Đọc về hệ đầy đủ và công thức Bayes

diepht@vnu 19
Bài tập
(Walpole 2.127) Việc nữ hoàng có mang gene dễ xuất huyết (hemophilia) hay không được chuẩn đoán là 50-
50. Nếu nữ hoàng mang gene này thì mỗi hoàng tử có 50% nguy cơ mang bệnh dễ xuất huyết. Việc mang
bệnh của các hoàng tử là độc lập với nhau. Nếu nữ hoàng không mang gene này thì hoàng tử không bị bệnh
dễ xuất huyết. Biết rằng nữ hoàng có 3 hoàng tử không bị bệnh
a) Tính xác suất nữ hoàng mang gene hemophilia.
b) Nếu có hoàng tử thứ tư, xác suất hoàng tử này bị bệnh dễ xuất huyết là bao nhiêu?

20
Bài tập
Việc nữ hoàng có mang gene dễ xuất huyết (hemophilia) hay không được chuẩn đoán là 50-50. Nếu nữ hoàng
mang gene này thì mỗi hoàng tử có 50% nguy cơ mang bệnh dễ xuất huyết. Việc mang bệnh của các hoàng tử
là độc lập với nhau. Nếu nữ hoàng không mang gene này thì hoàng tử không bị bệnh dễ xuất huyết.
Biết rằng nữ hoàng có 1 hoàng tử và hoàng tử này không bị bệnh, tính xác suất nữ hoàng mang gene
hemophilia.

21
» Có 10 hộp kín giống nhau, chỉ 5 hộp có phần thưởng bên trong. 3 bạn A, B, C lần lượt lên chọn ngẫu nhiên
mỗi người 1 hộp. Chưa ai mở hộp ra.
» Tính xác suất A lấy được hộp có phần thưởng.
» Tính xác suất B lấy được hộp có phần thưởng.
» Tính xác suất C lấy được hộp có phần thưởng.

diepht@vnu 22
Biến cố và xác suất của biến cố
(P3)

Xác suất thống kê Học kì 1, 2022-2023


Nội dung
» Phép thử ngẫu nhiên và không gian mẫu
» Biến cố và quan hệ giữa chúng
» Xác suất của một biến cố
» Các qui tắc tính xác suất
» Phép thử lặp – Công thức Becnuli
» Xác suất có điều kiện
» Công thức xác suất đầy đủ
» Công thức Bayes

diepht@vnu 2
Công thức Bayes

» Nếu B1, B2,…, Bn là một hệ đầy đủ các biến cố và A là 1 biến cố với P(A) > 0 thì với mỗi
k=1,2,...,n
𝑃 𝐵 𝑃(𝐴|𝐵 ) 𝑃 𝐵 𝑃(𝐴|𝐵 ) 𝑃 𝐴𝐵
𝑃 𝐵 𝐴 = = =
∑ 𝑃 𝐵 𝑃(𝐴|𝐵 ) 𝑃(𝐴) 𝑃(𝐴)

• Các xác suất P(B1),...,P(Bn) được gọi là các xác suất tiên nghiệm (trước thí nghiệm)
• Các xác suất P(B1|A),...,P(Bn|A) được gọi là các xác suất hậu nghiệm (sau thí nghiệm)
n
P( A)   P ( A | Bi ) * P ( Bi )
i 1

diepht@vnu 3
Ứng dụng trong thống kê
P(D | H ) ´ P(H )
P(H | D) 
P(D)
P(H | D): Xác suất hậu nghiệm (posterior probability)
D: Dữ liệu quan sát được (observed Data)
H: Giả thuyết (Hypothesis)
P(D|H): Xác suất của dữ liệu với điều kiện giả thuyết H;
hay được gọi là khả năng (likelihood) của giả thuyết H.
P(H): Xác suất tiên nghiệm của giả thuyết, được xác định trước khi quan sát
D
P(D): Xác suất tiên nghiệm của dữ liệu, giống nhau cho mọi giả thuyết

diepht@vnu 4
Xét nghiệm covid
» 1% dân cư của thành phố bị covid (99% không bị)
» Nếu bị covid, kiểm tra bằng Kit-V phát hiện 80% (20% không phát hiện được).
» Nếu không bị covid, 9.6% người bị Kit-V trả lời là có covid (90.4% đúng).
Bị covid (1%) Không bị (99%)
Kit-V dương tính 80% 9.6%
(positive)
Kit-V âm tính 20% 90.4%
(negative)

1. Nếu bạn nhận kết quả Kit-V là dương tính, xác


suất bạn bị covid là bao nhiêu?
2. Nếu bạn nhận kết quả Kit-V là âm tính, xác suất
bạn không bị covid là bao nhiêu?
diepht@vnu 5
Xét nghiệm covid

Bị covid (1%) Không bị (99%)


Kit-V dương tính True pos: 1% x False pos: 99% x 9.6%
(positive) 80%
Kit-V âm tính False neg: 1% x True neg: 99% x 90.4%
(negative) 20%

1. Nếu bạn nhận kết quả Kit-V là dương tính, xác


suất bạn bị covid là bao nhiêu?
2. Nếu bạn nhận kết quả Kit-V là âm tính, xác suất
bạn không bị covid là bao nhiêu?

diepht@vnu 6
Bài tập
Nhà máy có 3 phân xưởng X, Y và Z làm ra tương ứng 25%, 35% và 40% tổng sản phẩm.
Biết xác suất làm ra sản phẩm hỏng tương ứng của X, Y và Z là 0,01; 0,02 và 0,025. Bạn
mua phải 1 sản phẩm hỏng, tính xác suất sản phẩm đó được làm từ:
a) phân xưởng X
b) phân xưởng Y
c) phân xưởng Z

» P(X)=0.25, P(Y)=0.35, P(Z)=0.4


» P(H|X)=0.01, P(H|Y)=0.02, P(H|Z)=0.025
» P(H)?
» P(X|H)=?
𝑃 𝐵 𝑃(𝐴|𝐵 )
» P(Y|H)=? 𝑃 𝐵 𝐴 =
∑ 𝑃 𝐵 𝑃(𝐴|𝐵 )
» P(Z|H)=?
diepht@vnu 7
Bài tập

Nhà máy có 3 phân xưởng X, Y và Z làm ra tương ứng 25%, 35% và 40% tổng sản
phẩm. Biết xác suất làm ra sản phẩm hỏng tương ứng của X, Y và Z là 0,01; 0,02
và 0,025. Bạn mua được 1 sản phẩm KHÔNG hỏng, tính xác suất sản phẩm đó
được làm từ:
a) phân xưởng X
b) phân xưởng Y
c) phân xưởng Z

diepht@vnu 8
Bài tập
» Nhà trường có 3 Khoa ĐT, CH, và CNTT với số sinh viên tương ứng là 20%, 30% và 50%. Xác suất 1 sinh
viên không tốt nghiệp đúng hạn từ khoa ĐT, CH, CNTT lần lượt là 25%, 35% và 30%. Biết một sinh viên X
không tốt nghiệp đúng hạn, tính xác suất sinh viên đó thuộc khoa CH.

diepht@vnu 9
Bài tập
» Có 4 nhóm xạ thủ tập bắn. Nhóm thứ nhất có 5 người, nhóm thứ 2 có 7 người, nhóm thứ 3 có 4 người và
nhóm thứ tư có 2 người. Xác suất bắn trúng đích của mỗi người trong nhóm thứ nhất, nhóm thứ 2, nhóm
thứ 3 và nhóm thứ tư theo thứ tự là 0.3, 0.4, 0.5 và 0.6. Chọn ngẫu nhiên 1 xạ thủ và xạ thủ này bắn trượt.
Hãy xác định xem xạ thủ này có khả năng ở trong nhóm nào nhất.

diepht@vnu 10
Bài tập
» Trong số bệnh nhân ở một bệnh viện có 50% điều trị bệnh A, 30% điều trị bệnh B, và 20% điều trị bệnh C.
Xác suất để chữa khỏi các bệnh A, B, C trong bệnh viện này tương ứng là 0.7, 0.8 và 0.9. Hãy tính tỉ lệ bệnh
nhân được chữa khỏi bệnh A trong tổng số bệnh nhân đã được chữa khỏi bệnh.

diepht@vnu 11
» Người ta kiểm tra sức bền của một loại cáp. Nếu cáp bền, máy kiểm tra cho kết quả đúng với xác suất 0.85.
Ngược lại, nếu cáp không bền, máy vẫn đánh giá là “bền” với xác suất 0.04. Nếu tỉ lệ cáp bền là 98% và một
đoạn cáp chọn ngẫu nhiên bị máy đánh giá là “không bền” thì xác suất đoạn cáp này thực sự không bền là
bao nhiêu?

diepht@vnu 12
Chuẩn bị bài tới
» Luyện tập các thí dụ/bài tập của Chương 1 giáo trình
» Hoàn thành bài tập gửi qua email

diepht@vnu 13
Đại lượng ngẫu nhiên rời rạc

Xác suất thống kê Học kì 1, 2022-2023


Nội dung
» Đại lượng ngẫu nhiên
» Phân bố xác suất
» Kì vọng, Phương sai
» Phân bố nhị thức
» Phân bố poisson
» Phân bố đồng thời

diepht@vnu 2
Đại lượng ngẫu nhiên
Một đại lượng mà giá trị của nó là ngẫu nhiên, không dự đoán trước được, được gọi
là một dại lượng ngẫu nhiên (ĐLNN). Ký hiệu các ĐLNN là X , Y, Z....
ĐLNN là rời rạc nếu nó chỉ nhận một số hữu hạn các giá trị hoặc một số vô hạn
đếm được các giá trị.
Ta có thể liệt kê tất cả các giá trị có thể của nó bằng một dãy hữu hạn hay vô hạn
x1, x2, …,xn, ... Tập hợp các giá trị có thể của ĐLNN X được kí hiệu bởi X(Ω).

VD: Chọn ngẫu nhiên 3 đứa trẻ từ một nhóm gồm 6 bé trai và 4 bé gái. Gọi X là số
bé gái trong nhóm. X là một ĐLNN rời rạc và X(Ω) = {0, 1, 2, 3}.

diepht@vnu 3
Đại lượng ngẫu nhiên

Đại lượng ngẫu


nhiên

ĐLNN rời rạc ĐLNN liên tục

diepht@vnu 4
Đại lượng ngẫu nhiên rời rạc
» Có miền giá trị là tập hữu hạn hoặc vô hạn đếm được
» Ví dụ
• Tung một con xúc xắc 2 lần
Đặt X là số lần mặt 4 điểm xuất hiện. X có thể nhận
các giá trị 0, 1, hoặc 2.

• Tung đồng xu 5 lần


Đặt Y là số lần xuất hiện mặt hình.
Thì Y = 0, 1, 2, 3, 4, hoặc 5

diepht@vnu 5
Đại lượng ngẫu nhiên rời rạc
» Ví dụ
Tung một con xúc xắc cân đối và đồng chất
Đặt X = Số lần tung cho đến khi mặt 6 điểm xuất hiện.
X = 1, 2, …

diepht@vnu 6
Phân bố xác suất
» Phân bố xác suất (probability mass distribution) của một ĐLNN rời rạc X là một bảng bao
gồm tất cả các giá trị mà ĐLNN X có thể nhận và kèm theo xác suất để nhận giá trị đó.
X x1 x2 … xn
P p1 p2 … pn
ở đó pi = P(X = xi). Lưu ý p1+p2+…+pn = 1.
» Hàm phân bố tích lũy (cumulative distribution function)
F(x) = P{ X < x}

Ví dụ 1: Một túi chứa ba tấm thẻ đánh số 1,2,3 và 1 túi chứa 3 tấm thẻ đánh số 4,5,6.
Chọn ngẫu nhiên một tấm thẻ từ mỗi túi và tính tổng 2 tấm thẻ chọn được. Gọi X là kết
quả. Hãy lập bảng phân bố xác suất của X.

Mode của X, kí hiệu mod(X) , là giá trị xi có xác suất lớn nhất.

diepht@vnu 7
Ví dụ
» Một túi chứa ba tấm thẻ đánh số 1, 2, 3 và một túi thứ hai chứa 4 tấm thẻ đánh số 4, 5, 6, 8. Chọn ngẫu
nhiên một tấm thẻ từ mỗi túi rỗi cộng hai số ghi trên đđ với nhau. Gọi X là kết quả. Hãy lập bảng phân bố
xác suất của X

mod(X) =7
diepht@vnu 8
Ví dụ
» Chọn ngẫu nhiên ba đứa trẻ từ một nhóm gồm 6 bé trai và 4 bé gái. Gọi X' là số bé gái trong nhổm. Lập
bảng phân bố xảz suất của X

diepht@vnu 9
Ví dụ (tiếp)
Ví dụ 2. Chọn ngẫu nhiên ba đứa trẻ từ một nhóm
gồm 6 bé trai và 4 bé gái. Gọi X là số bé gái trong
nhóm được chọn. Lập bảng phân bố xác suất của X.

Ví dụ 3. Khi một người đi thi lấy bằng lái xe nếu


không đạt anh ta đăng kí thi lại cho đến khi đạt mới
thôi. Gọi X là số lần anh ta dự thi. Lập phân bố xác
suất của X biết rằng xác suất thi đỗ của anh ta là
1/4.
Hãy dự đoán xem trong 1024 người (mỗi người đều
có xác suất thi đỗ là ¼) có bao nhiêu người thi đạt
ngay lần đầu, thi đạt ở lần thứ hai, phải thi ít nhất 4
lần.

diepht@vnu 10
Kì vọng
Cho X là ĐLNN rời rạc có bảng phân bố xác suất
X x1 x2 … xn
P p1 p2 … pn

Kì vọng (hay gọi là giá trị trung bình) của X, kí hiệu là EX được tính như sau:

EX   xi. pi

diepht@vnu 11
Ví dụ
Bảng phân bố xác suất của độ tuổi vào đại học ở Việt Nam được cho như sau
X <17 17 18 19 20 21 >21
P 0 0.03 0.7 0.2 0.05 0.02 0

Tính kì vọng của tuổi vào đại học tại Việt Nam.

EX = 17 x 0.03 + 18 x 0.7 + 19 x 0.2 + 20 x 0.05 + 21 x 0.02

EX=18,33

diepht@vnu 12
Ví dụ
Bảng phân bố xác suất của lương SV Cơ-Kĩ thuật sau khi ra trường
X <3 4 5 6 7 8 9 10 >10
P 0 0.06 0.1 0.5 0.2 0.1 0.02 0.02 0

Tính kì vọng của lương sinh viên Cơ-Kĩ thuật sau khi ra trường.

EX=6,320,000đ

diepht@vnu 13
Ví dụ

diepht@vnu 14
Tính chất của kỳ vọng

1) EC = C, C: hằng số
2) E(CX) = C.EX, C: hằng số
3) E(X Y)=EX EY
4) E(XY) = EX.EY nếu X và Y độc lập
nếu

X x1 x2 … xn
P p1 p2 … pn

f(X) f(x1) f(x2 ) … f(xn )


P p1 p2 … pn

diepht@vnu 15
Phương sai và độ lệch chuẩn
Cho X là ĐLNN rời rạc có bảng phân bố xác suất
X x1 x2 … xn
P p1 p2 … pn
và kì vọng EX = μ. Độ lệch khỏi giá trị trung bình là X-μ.

» Phương sai của X, kí hiệu là DX:


DX = E(X-μ)2 = E(X2)- (EX)2 = Σ xi2 * pi – (EX)2

» Độ lệch chuẩn của X, kí hiệu σX là căn bậc hai của phương sai DX.

diepht@vnu 16
Ví dụ
Lương của nhân viên 1 công ty ABC

X <3 4 5 6 7 8 9 10 200 >200


P 0 0.03 0.1 0.5 0.2 0.1 0.02 0.02 0.03 0

Tính kì vọng, phương sai của lương nhân viên công ty ABC.
EX=12.21, DX=1091.96
Công ty XYZ

Y <3 4 5 6 7 8 9 10 >10
P 0 0.06 0.1 0.5 0.2 0.1 0.02 0.02 0
EX=6.32, DX=1.3376

diepht@vnu 17
Ví dụ

diepht@vnu 18
Ví dụ
Bảng phân bố xác suất của lương SV Cơ-Kĩ thuật sau khi ra trường
X <3 4 5 6 7 8 9 10 >10
P 0 0.06 0.1 0.5 0.2 0.1 0.02 0.02 0

Tính phương sai, độ lệch chuẩn của lương sinh viên Cơ-Kĩ thuật sau khi ra trường.

DX = E(X-μ)2 = E(X2)- (EX)2 = Σ xi2 * pi – (EX)2

diepht@vnu 19
Ví dụ
Bảng phân bố xác suất của độ tuổi vào đại học ở Việt Nam được cho như sau
X <17 17 18 19 20 21 >21
P 0 0.03 0.7 0.2 0.05 0.02 0
Tính phương sai, độ lệch chuẩn của tuổi vào đại học tại Việt Nam.

diepht@vnu 20
Tính chất của phương sai

1) D(c)=0, c:hằng số
2) D(cX)=c2DX, c:hằng số
D(X+c)=DX
3) D(X Y) = DX + DY nếu X và Y độc lập.

diepht@vnu 21
Thế nào là 2 biến ngẫu nhiên độc lập?

diepht@vnu 22
X 1 2 3 4 5
Luyện tập P 1/5 1/5 1/5 1/5 1/5

Y 1 2 3 4 5
1. Không đặt bút tính, hãy so sánh kì vọng
P 1/10 2/10 4/10 2/10 1/10
và phương sai của 4 biến ngẫu nhiên X,Y,Z,W.
Z 1 2 3 4 5
P 5/10 0 0 0 5/10

W 1 2 3 4 5
P 0 0 1 0 0

2. Tung 1 đồng xu cân đối đến khi thu được mặt ngửa (head). Tính kì vọng số lần tung phải mặt xấp (tail).
3. Tung 2 con xúc xắc cân đối. Bạn được 1000$ nếu tổng 2 con bằng 2 và mất 100$ nếu tổng khác. Bạn kì
vọng mình sẽ thắng trung bình bao nhiêu $/lần nếu chơi rất nhiều lần.
4. Tung 2 con xúc xắc cân đối. Gọi X là tổng 2 mặt. Nếu hàm phần thưởng Y=X2-6X+1 thì game này có lợi cho
người chơi hay không?

diepht@vnu 23
diepht@vnu 24
Nội dung
» Đại lượng ngẫu nhiên
» Phân bố xác suất
» Kì vọng, Phương sai
» Phân bố nhị thức
» Phân bố poisson
» Phân bố đồng thời

diepht@vnu 25
Phân bố nhị thức
Xét phép thử ngẫu nhiên C chỉ có 2 kết quả là thành công hay thất bại. Xét biến cố
A là phép thử thành công với P(A) = p. Phép thử C được tiến hành lặp đi lặp lại n
lần. Gọi X là số lần biến cố A xuất hiện.
» X là một ĐLNN với X(Ω) = {0,1,…n}.
» Theo công thức Becnuli thì
P{X=k} = Ckn pk (1-p)n-k
» ĐLNN X được gọi là có phân bố nhị thức với tham số n và p và kí hiệu là
X ~ B(n, p)
» Kì vọng EX = np; Phương sai DX = np(1-p)

diepht@vnu 26
diepht@vnu 27
diepht@vnu 28
Phân bố nhị thức

diepht@vnu 29
Tính chất phân bố nhị thức
» Phép thử C chỉ có 2 kết quả là thành công hay thất bại
» Phép thử C được tiến hành đúng n lần.
» Xác suất của thành công hay thất bại là cố định trong cả n lần thử.
» Kết quả của phép thử là độc lập trong các lần thử khác nhau.
» Xác suất P{X k}
k
P{X £ k}   Cni pi (1- p)n-i
• Với các giá trị k khác nhau được tính sẵn ở Bảng 1 (Phụ lục 2). i0
• Xác suất P(X) theo phân bố nhị thức có thể được tính bằng Excel
• BINOMDIST(k, n, p, cumulative)
• trong đó
• cumulative = FALSE, thì tính P(X=k)
• cumulative = TRUE, thì tính P(X <=k)

diepht@vnu 30
Ví dụ P{X=k} = Ckn pk (1-p)n-k

Trong một thành phố nào đó 65% gia đình có ti vi mẩu. Chọn ngẫu nhiên 12 gia
đình và gọi X là số gia đình có ti vi màu.
a) Gọi tên phân bố xác suất của X.
b) Tính xác suất để có đúng 5 gia đình cđ tivi mầu.
c) Tính xác suất để trong mẫu có ít nhất 2 gia đình có ti vi mầu.

diepht@vnu 31
Ví dụ P{X=k} = Ckn pk (1-p)n-k

Tỉ lệ cử tri ủng hộ ứng cử viên A trong một cuộc báu cử là 60%. Người ta hỏi ý kiến 20 cử tri được chọn một
cách ngẫu nhiên. Gọi X là số người bỏ phiếu cho ông A trong 20 người đó.
a) Tìm giá trị trung bình, độ lệch tiêu chuẩn của X và mod của X.
b) Tìm P{X <= 10}.
c) Tìm P{X >12}.
d) d) Tìm P{X =11}

diepht@vnu 32
Ví dụ P{X=k} = Ckn pk (1-p)n-k

Tỉ lệ sinh con thứ ba của 1 tỉnh M là 15%. Chọn ngẫu nhiên 10 gia đình và gọi X là
số gia đình có con thứ 3.
a) Tính xác suất P{X=5}
b) Tính xác suất P{X <= 3}
c) Tính xác suất P{ X >= 5}
d) Tính kì vọng của X. (EX=?)
e) Tính phương sai của X. (DX=?)

diepht@vnu 33
Ví dụ
Tỉ lệ một động cơ ô tô bị hỏng trong thời gian bảo hành 1 năm là 1%. Theo dõi 12 xe ô tô
trong thời gian bảo hành. Gọi X là số xe hỏng trong thời gian bảo hành. Tính
a) Tính P{X = 1}
b) Tính P{X = 2}
c) Tính P{X > 10}
d) Tính kì vọng của X
e) Tính phương sai của X

C: Chọn ngẫu nhiên 1 xe ô tô và xem nó có bị hỏng trong thời gian bảo hành hay không
A: ?
p: ?
n: ?

diepht@vnu 34
Phân bố Poisson
» Phân bố nhị thức quan tâm đến xác suất của số lần thử thành công sau n lần thử.

» Phân bố Poisson quan tâm đến số lần xuất hiện của một biến cố trong một khoảng thời gian
(không gian, khoảng cách, hay một độ đo nào đó) xác định trước.
Ví dụ:
• Số bệnh nhân xuất hiện trong 1 đêm tại bệnh viện để bố trí số bác sỹ trực.
• Số khách hàng vào cửa hàng trong 1 tiếng để bố trí nhân viên bán hàng.
• Số lượng sinh viên vắng mặt trong buổi học XSTK

diepht@vnu 35
Phân bố Poisson

Khi đó EX = λ, DX = λ, mod(X) = [λ].

diepht@vnu 36
Phân bố Poisson

diepht@vnu 37
Phân bố Poisson
» Kì vọng của phân bố Poisson chính là số lượng xuất hiện trung bình của một biến cố trong một
khoảng thời gian.
» Số lượng xuất hiện biến cố trong một khoảng thời gian khác nhau là độc lập với nhau.
» Gọi X là ĐLNN biểu diễn số lần xuất hiện của biến cố trong một khoảng thời gian xác định. Xác
suất của ĐLNN X theo phân bố Poisson:

Trong đó μ là kì vọng của X. e- m m k


P{X  k} 
k!

diepht@vnu 38
Phân bố Poisson

diepht@vnu 39
Phân bố Poisson
k
e-m m i
» Xác suất tích lũy P{X <= k} P{ X £ k}  
i 0 i!

Với các giá trị μ và k khác nhau được tính sẵn ở Bảng 2 (Phụ lục 2).
» Xác suất P(X) theo phân bố Poisson có thể được tính bằng Excel
• POISSON (k, μ, cumulative)
• trong đó
• cumulative = FALSE, thì tính P(X=k)
• cumulative = TRUE, thì tính P(X <=k)

diepht@vnu 40
Tra bảng ở trang 208-
» EX=6
a) P(X=3)=0.151-0.062
b) P(X=0)=0.002
c) P(X<=4)=0.285
d) P(X<3)=0.062
e) P(X>1)=1- P(X<=1)

0 1 2 3 4 5 6 7 8 9

diepht@vnu 41
Ví dụ
» Một gara cho thuê ô tô thấy rằng số người đến thuê ôtô
vào ngày thứ bẩy cuối tuấn là một ĐLNN X có phân bố
Poát xông với tham số λ=2. Giả sử gara có 4 chiếc ôtô.
Hãy tìm xác suất để
» a) Không phải tất cả 4 chiếc đều được thuê.
» b) Tất cả 4 ôtô đều được thuê.
» c) Gara không đáp ứng được yêu cẩu.
» d) Trung bình có bao nhiêu ôtô được thuê?
» e) Gara cẩn có ít nhất bao nhiêu ôtô để xác suất không
đáp ứng nhu cấu thuê bé hơn 2% ?
» (Có thể giải bằng máy tính, chẳng hạn Matlab, hoặc tra
bảng)

diepht@vnu 42
Ví dụ
Một gara cho thuê ô tô thấy rằng số người đến thuê xe là một ĐLNN theo phân bố Poisson. Trung bình
số người đến thuê xe vào thứ bảy là 3. Cho biết đã thuê xe là thuê cả ngày. Giả sử gara có 5 chiếc
xe, hãy tính các xác suất sau đây:
a) Tất cả 5 xe đều được thuê
b) Không xe nào được thuê
c) Ít nhất 3 xe được thuê
d) Gara cần có ít nhất bao nhiêu xe để xác suất không đáp ứng được nhu cầu thuê xe bé hơn 1%.

a) P(X>=5)
b) P(X=0) e- m m k
c) P(X>=3) P{X  k} 
k!

diepht@vnu 43
Ví dụ
Ở một tổng đài chăm sóc khách hàng, các cú điện thoại xuất hiện ngẫu nhiên với tần suất trung
bình khoảng 6 cuộc trong 1 phút. Hãy tính xác suất sau:
a) Có đúng 10 cú điện thoại trong 1 phút
b) Không có cú điện thoại nào trong 1 phút
c) Có ít nhất 1 cú điện thoại trong thời gian 30 giây

e- m m k
P{X  k} 
k!

diepht@vnu 44
Bài tập cuối chương (giáo trình)
Bài 14: Tại một trạm kiểm soát giao thông trung bình một phút có 2 xe ô tô đi qua.
a) Tính xác suất để có đúng 6 xe đi qua trong vòng 3 phút.
b) Tính xác suất để trong khoảng thời gian t phút có ít nhất 1 xe ô tô đi qua. Xác định t để xác
suất này bằng 0.99.

Bài 16: Một trạm cho thuê xe taxi có 3 chiếc xe. Hàng ngày trạm phải nộp thuế 8 USD cho 1 chiếc
xe (dù xe đó có được thuê hay không). Mỗi chiếc xe được cho thuê với giá 20 USD. Một xe chỉ được
thuê tối đa 1 lần trong ngày.
Giả sử số yêu cầu thuê xe của trạm trong 1 ngày là ĐLNN X có phân bố Poisson với .
a) Gọi Y là số tiền thu được trong 1 ngày của trạm (nếu không có ai thuê thì số tiền thu được là -
24 USD). Tìm phân bố xác suất của Y. Từ đó, tính số tiền trung bình thu được của trạm trong 1
ngày.
b) Giải bài toán trên trong trường hợp trạm có 5 chiếc xe.
c) Trạm nên có 3 hay 5 chiếc xe?
diepht@vnu 45
Luyện tập
Bài 67 (BT): Trong một cuộc sổ số người ta phát hành 10 vạn vé trong đó có 1 vạn vé trúng giải. Cần phải
mua ít nhất bao nhiêu vé để với xác suất không nhỏ hơn 0.95 ta sẽ trúng ít nhất 1 vé.

Đề thi cũ
Theo thống kê của một hãng hàng không, trung bình 3% khách đã mua vé sẽ không có mặt check-in. Do đó
hãng này bán vé vượt số ghế trên loại máy bay 100 ghế. Tính số vé vượt mà hãng có thể bán (cho mỗi chuyến
bay) để xác suất thiếu ghế không quá 5%.

diepht@vnu 46
Nội dung
» Đại lượng ngẫu nhiên
» Phân bố xác suất
» Kì vọng, Phương sai
» Phân bố nhị thức
» Phân bố poisson
» Phân bố đồng thời

diepht@vnu 47
Phân bố đồng thời (Tiết 3, trang 51 giáo trình)

X và Y là hai ĐLNN rời rạc với


X(Ω) = {x1,…,xm} và
Y(Ω) = {y1,…,yn).
Kí hiệu Pij= P{X=xi, Y=yj} là xác suất đồng thời của X=xi, và Y=yj.

Bảng phân bố xác suất đồng thời của X và Y:


Y
y1 y2 ... yj ... yn
x1 p11 p12 ... p1j ... p1n
x2 p21 p22 ... p2j ... p2n
... ... ... ... ... ... ...
X
xi pi1 pi2 ... pij ... pin
... ... ...
xm pm1 pm2 ... pmj ... pmn
diepht@vnu 48
Ví dụ
Ba đồng tiền cân đối A, B, C được gieo. Gọi X, Y là các ĐLNN được xác định như sau:
X: Số mặt ngửa trên đồng tiền A và B
Y: Số mặt ngửa trên cả 3 đồng tiền A, B và C
X và Y có độc lập hay không?

diepht@vnu 49
Ví dụ
Ba đồng tiền cân đối A, B, C được gieo. Gọi X, Y là các ĐLNN được xác định như sau:
X: Số mặt ngửa trên đồng tiền A và B
Y: Số mặt ngửa trên cả 3 đồng tiền A, B và C

a) Hãy lập bảng phân bố đồng thời của X và Y.


b) Lập bảng phân bố xác suất của X. ( Tính P(X=0), P(X=1), P(X=2).)
c) Lập bảng phân bố xác suất của Y

Nếu X và Y độc lập thì (X=xi) độc lập với (Y=yj) với mọi cặp (i,j)
hay P(X=xi và Y=yj) = P(X=xi).P(Y=yj)
vế trái = ô giao của hàng i cột j
vế phải = (tổng của hàng i) x (tổng của cột j)

diepht@vnu 50
Ví dụ
Ba đồng tiền cân đối A, B, C được gieo. Gọi X, Y là
các ĐLNN được xác định như sau:
X: Số mặt ngửa trên đồng tiền A và B
Y: Số mặt ngửa trên cả 3 đồng tiền A, B và C
a) Hãy lập bảng phân bố đồng thời của X và Y.
b) Lập bảng phân bố xác suất của X. ( Tính
P(X=0), P(X=1), P(X=2).)
c) Lập bảng phân bố xác suất của Y

diepht@vnu 51
Ba đồng tiền cân đối A, B, C được gieo. Gọi X, Y là các ĐLNN được xác định
như sau:
X: Số mặt ngửa trên đồng tiền A và B
Y: Số mặt ngửa trên cả 3 đồng tiền A, B và C
a) Hãy lập bảng phân bố đồng thời của X và Y.
b) Lập bảng phân bố xác suất của X. ( Tính P(X=0), P(X=1), P(X=2).)
c) Lập bảng phân bố xác suất của Y

diepht@vnu X, Y không độc lập! 52


Chuẩn bị bài tới
» Đọc Chương 3 giáo trình
» Hoàn thành bài tập gửi qua email

diepht@vnu 53
Đại lượng ngẫu nhiên liên tục

Xác suất thống kê Học kì 1, 2022-2023


Nội dung
» Đại lượng ngẫu nhiên liên tục
» Hàm mật độ xác suất và hàm phân bố tích lũy
» Kì vọng, Phương sai
» Phân bố đều
» Phân bố chuẩn
» Phân bố mũ
» Đại lượng ngẫu nhiên liên tục nhiều chiều (tự đọc)

diepht@vnu 2
Đại lượng ngẫu nhiên

Đại lượng ngẫu


nhiên

ĐLNN rời rạc ĐLNN liên tục

Tung 2 con xúc xắc cân đối. Đặt X là chênh lệch về số nốt.

diepht@vnu 3
diepht@vnu 4
Biến ngẫu nhiên liên tục
» Tập các giá trị có thể của nó lấp đầy một hay một số khoảng của trục số, thậm chí lấp đầy toàn bộ trục số.
» Ví dụ
- Chiều cao, cân nặng.
- Thời gian để hoàn thành 1 công việc.

diepht@vnu 5
Hàm mật độ xác suất
f(x) gọi là hàm mật độ xác suất của biến ngẫu nhiên liên tục X nếu

i ) f ( x )  0 x

ii)  f ( x)dx  1


Ví dụ. Biến ngẫu nhiên liên tục X với hàm mật độ xác suất
ì2x 0 £ x £ 1
f (x)  í
î0 ,¹

diepht@vnu 6
Biến ngẫu nhiên liên tục
» Tìm P(a<X<b)?

f(x) P (a ≤ X ≤ b)
= P (a < X < b)

a b
b
P (a  X  b)   f ( x)dx
a

diepht@vnu 7
Biến ngẫu nhiên liên tục
» Lưu ý:
c
P( X  c)   f ( x)dx  0
» Do đó c

P(a  X  b)  P(a £ X  b)
 P(a  X £ b)  P(a £ X £ b)

diepht@vnu 8
Hàm phân phối tích lũy
» Xét biến ngẫu nhiên X, hàm phân phối tích lũy của X, ký hiệu F(x), được định nghĩa như sau

• Giáo trình
𝐹 𝑥 = 𝑃(𝑋 < 𝑥)
F ( x)  P  X £ x 

» Xác suất X thuộc [a,b]

P(a £ X £ b)  F(b)  F(a)

diepht@vnu 9
Tính chất hàm phân phối tích lũy

» 1) 0 £ F ( x) £ 1
» 2) F(x) là hàm không giảm: nếu a<b thì F(a) £ F(b).
» 3)
F ()  lim F ( x)  0
x 

F ()  lim F ( x)  1
x 

Nếu X là biến ngẫu nhiên liên tục có hàm phân phối tích lũy F(x) thì
hàm mật độ f(x) = F’(x) tại những điểm liên tục của x.

diepht@vnu 10
Nguyên hàm của một số hàm số cơ bản

https://vi.wikipedia.org/
diepht@vnu 11
Ví dụ

Giả sử X có giá trị trong đoạn [0,2] và hàm mật độ xác suất f(x) = cx2.
a) Tính giá trị của c
b) Tính hàm phân bố tích lũy F(x)
c) Tính

diepht@vnu 12
Ví dụ

Giả sử X có giá trị trong đoạn [0,b] và hàm phân phối tích lũy F(t) =
t2/9.
a) Tính giá trị của b
b) Tính hàm mật độ xác suất f(t)

diepht@vnu 13
Kỳ vọng của biến ngẫu nhiên liên tục

» Xét biến ngẫu nhiên liên tục X có hàm mật độ xác suất f(x).
» Kỳ vọng của X

EX   xf ( x)dx


Ví dụ. Biến ngẫu nhiên liên tục X với hàm mật độ xác suất
ìx / 2 0 £ x £ 2
f (x)  í
î0 ,¹
Tính EX.

diepht@vnu 14
Tính chất của kỳ vọng
1. EC = C, C: hằng số
2. E(CX) = C.EX
3. E(X + Y)=EX + EY
4. E(XY) = EX.EY nếu X và Y độc lập

P(X=xi,Y=yj)=P(X=xi).P(Y=yj)

diepht@vnu 15
Phương sai của biến ngẫu nhiên liên tục
Xét X là biến ngẫu nhiên liên tục có hàm mật độ xác suất f(x).
Ký hiệu  = EX.
Phương sai, kí hiệu DX hay VarX hay V(X)



  x  
2
VarX  E( X  EX )  2
f (x) dx

hoặc 
VarX  EX   EX   
2
2
x 2 f ( x)dx   2


diepht@vnu 16
Tính chất của phương sai
1. Var(c)=0, c:hằng số
2. Var(cX)=c2VarX;
3. Var(X+c)=VarX
4. Var(X + Y) = VarX + VarY nếu X và Y độc lập.

diepht@vnu 17
Ví dụ
1. Giả sử X có giá trị trong đoạn [0,1] và hàm mật độ xác suất f(x) = cx2.
a) Tính kì vọng EX
b) Tính phương sai DX

2. Giả sử X có giá trị trong đoạn [0,100] và hàm mật độ xác suất f(x) = cx2.
a) Tính kì vọng EX
b) Tính phương sai DX 
EX   xf ( x)dx



VarX  EX 2   EX   
2
x 2 f ( x) dx   2


diepht@vnu 18
Ví dụ
Giả sử X nằm trong đoạn [0,3] với hàm mật độ f(x) = cx3. Hãy tìm:
a) Hằng số c
b) Kì vọng
c) Phương sai và độ lệch chuẩn
d) Median
Giá trị m được gọi là median của ĐLNN X nếu
P{X<m} = P{X > m} hay F(m) = 1/2

diepht@vnu 19
Bài tập

Giả sử X có giá trị trong đoạn [0,5] và hàm mật độ xác suất f(x) = cx2.
a) Tính giá trị của c
b) Tính hàm phân bố tích lũy F(x)
c) Tính
d) Tính
e) Không cần tính ra giá trị cụ thể, so sánh 2 xác suất và

diepht@vnu 20
Nội dung
» Đại lượng ngẫu nhiên liên tục
» Hàm mật độ xác suất và hàm phân bố tích lũy
» Kì vọng, Phương sai
» Phân bố đều
» Phân bố chuẩn
» Phân bố mũ
» Đại lượng ngẫu nhiên liên tục nhiều chiều (tự đọc)

diepht@vnu 21
Phân phối đều
» Một ĐLNN liên tục X có phân phối đều (uniform distribution) trong đoạn [a,b] nếu và chỉ nếu hàm mật độ
xác suất f(x) có dạng sau
1
; 𝑛ế𝑢 𝑎 ≤ 𝑥 ≤ 𝑏
𝑓 𝑥, 𝑎, 𝑏 = 𝑏 − 𝑎
0 ; 𝑛𝑔ượ𝑐 𝑙ạ𝑖
• Ví dụ RAND () là phân phối đều trong đoạn [0,1].
» Kì vọng EX
» Phương sai DX

diepht@vnu 22
Hàm mật độ của phân phối đều

diepht@vnu 23
Ví dụ
ĐLNN X có phân bố đều trên đoạn [2,5]. Hãy tính

d) Tính kì vọng, phương sai của X.


EX   xf ( x)dx



VarX  EX   EX   
2
2
x 2 f ( x) dx   2


diepht@vnu 24
Phân bố chuẩn
normal/Gaussian distribution

diepht@vnu 25
Phân bố chuẩn
normal/Gaussian distribution

diepht@vnu 26
Phân bố chuẩn
normal/Gaussian distribution
Hàm mật độ f(x) 1 2
f (x)  e[( x )/s ] /2
s 2p
Trong đó:
» μ là kì vọng
» σ là độ lệch chuẩn
» Kí hiệu X ~ N(μ, σ2)
» Kì vọng, median, và mode cùng một giá trị
» Phân bố là đường cong đối xứng qua giá trị kì vọng
» Hai đuôi của phân bố kéo dài đến vô cùng

diepht@vnu 27
Phân bố chuẩn tắc
standard normal distribution
ĐLNN X có phân bố chuẩn tắc nếu
X phân bố chuẩn với μ = 0, σ = 1 1  x 2 /2
f (x)  e
2p

diepht@vnu 28
Tính xác suất theo phân bố chuẩn
normal/Gaussian distribution
» Gọi X có phân bố chuẩn N(μ, σ2)
» Z = (X-μ) / σ : Số lần độ lệch chuẩn giữa X và μ.
Z có phân bổ chuẩn tắc hay Z ~ N (0, 1)
Sinh viên tự chứng minh

» P(X < x) = P( Z < z). Giá trị P (Z < z) đã được tính sẵn trong bảng.

Ví dụ: Giả sử X là ĐLNN có phân bố chuẩn với kì vọng 2100 và độ lệch chuẩn 200. Hãy tính
1. P{X > 2400}
2. P{2100 < X < 2400}
3. Xác định a để P{X > a} = 0.08
4. Xác định a để P{X > a} = 0.75

diepht@vnu 29
diepht@vnu 30
Hình 21 trang 213
1. Đường cong hình quả chuông là gì?
Đồ thị hàm mật độ của biến Z. Z là biến ngẫu nhiên liên tục có phân bố chuẩn tắc. Kí hiệu Z ~ N(0,1)
2. Diện tích phần gạch chéo là gì?
Xác suất Z < 2
3. Diện tích phần trắng là gì?
Xác suất Z > 2
4. Diện tích giữa đường cong và trục hoành là gì?
Xác suất để {âm vô cùng}<Z<{dương vô cùng}

diepht@vnu 31
Hình 21 trang 213
1. Đường cong hình quả chuông là gì?
Đồ thị hàm mật độ của biến Z. Z là biến ngẫu nhiên liên tục có phân bố chuẩn tắc. Kí hiệu Z ~ N(0,1)
2. Diện tích phần gạch chéo là gì?
Xác suất Z < 2
3. Diện tích phần trắng là gì?
Xác suất Z > 2
4. Diện tích giữa đường cong và trục hoành là gì?
Xác suất để {âm vô cùng}<Z<{dương vô cùng}

diepht@vnu 32
Tính xác suất theo phân bố chuẩn
normal/Gaussian distribution
Tốc độ của xe ô tô qua 1 điểm kiểm tra tốc độ là một phân phối chuẩn với kì vọng
60km/giờ và độ lệch chuẩn là 5km/giờ. Tính xác suất để tốc độ một chiếc xe sẽ đi
qua điểm kiểm tra:
1. Nhỏ hơn 60km/giờ
2. Lớn hơn 70km/giờ
3. Từ 60-65km/giờ

diepht@vnu 33
Tính xác suất của phân bố chuẩn
normal/Gaussian distribution
Lương một sinh viên Cơ ra trường có phân bố chuẩn với kì vọng 6 triệu và phương
sai 2 triệu2. Tính xác suất lương một sinh viên
1. <4 triệu
2. 5-7 triệu
3. >10 triệu

diepht@vnu 34
Xấp xỉ phân bố nhị thức bằng phân bố chuẩn
» Hàm mật độ

diepht@vnu 35
Xấp xỉ phân bố nhị thức bằng phân bố chuẩn
» ĐLNN X ~ B (n,p) thì P(X = k) = Ckn pkqn-k

» X có phân bố xấp xỉ X’ ~ N(np, npq) khi np và nq lớn hơn 5 hoặc khi npq lớn hơn 20.
• Tức là EX’=np, DX’=npq

» Hiệu chỉnh để giảm sai số P{k1 <= X <=k2) được xấp xỉ bởi
P(k1-0.5 < X’ < k2 + 0.5)

Ví dụ: Một kí túc xá có 650 sinh viên. Xác suất 1 sinh viên đi xem phim vào tối thứ bảy là 0.7.
a) Tính xác suất để số sinh viên đi xem vào tối thứ bảy ít hơn 470
b) Cần phải chuẩn bị bao nhiêu ghế để với xác suất 0.95 ta có thể đảm bảo đủ ghế cho người xem.

diepht@vnu 36
diepht@vnu 37
Nguyên lý xác suất nhỏ
» Một biến cố có xác suất α rất nhỏ, thì thực tế có thể cho rằng biến cố đó không xảy ra trong một
lần thử.
Ví dụ:xác suất tai nạn máy bay là 0.00001.
» Mức xác suất nhỏ này được gọi là mức ý nghĩa α.
Xác suất β=1- α được gọi là độ tin cậy.
» Tuyên bố “Biến cố A có xác suất nhỏ (P(A) <= α) sẽ không xảy ra trên thực tế” với độ tin cây β.
Tính đúng đắn của kết luận chỉ xảy ra trong 100xβ% trường hợp.

diepht@vnu 38
Nguyên lý xác suất nhỏ
Một nhà xã hội học cho rằng 12% dân số của thành phố thích bộ phim A. Chon
ngẫu nhiên 500 người và thấy có 75 người thích.
a) Tính xác suất có ít nhất 75 người thích bộ phim trong số 500 người được chọn
b) Giả thiết của nhà xã hội học đó có đáng tin cậy không với mức ý nghĩa là 0.05.

diepht@vnu 39
Nội dung
» Đại lượng ngẫu nhiên liên tục
» Hàm mật độ xác suất và hàm phân bố tích lũy
» Kì vọng, Phương sai
» Phân bố đều
» Phân bố chuẩn
» Phân bố mũ
» Đại lượng ngẫu nhiên liên tục nhiều chiều (tự đọc)

diepht@vnu 40
Phân bố mũ (exponential distribution)
Ví dụ
» Một kĩ sư chịu trách nhiệm thiết kế cáp đồng cho hệ thống nội bộ nào đó sẽ
1. vừa muốn biết số lượng lỗi trên một đoạn độ dài nhất định của loại cáp đồng này
• có thể phân tích bằng phân bố Poisson
2. vừa muốn biết khoảng cách giữa các lỗi như vậy
• có thể phân tích bằng phân bố mũ

» Tuổi thọ của một mạch điện tử


» Thời gian hỏng hóc giữa hai lần của 1 chiếc máy

Phân phối mũ còn được gọi là “waiting time distribution”

diepht@vnu 41
» Theo dõi số ca cấp cứu ở một bệnh viện A mỗi ngày
• trung bình là 5 ca
• X là số ca cấp cứu ở bệnh viện A trong ngày mai
• X là bnn rời rạc tuân theo phân bố Poisson
• Y: là thời gian tới ca cấp cứu tiếp theo
• Y là bnn liên tục tuân theo phân bố mũ

diepht@vnu 42
Phân bố mũ (exponential distribution)
Ví dụ
» Ví dụ 1: Quan sát xe buýt tới trạm dừng trước Đại học Sư phạm
• X: đếm số xe buýt tới trạm trong 1 tiếng. Giả sử trung bình có 5 xe tới trong 1 tiếng.
• EX = 5
• X ~ Poisson (𝜆 = 5)
• T: đo thời gian giữa 2 xe liên tiếp (đơn vị: giờ)
• ET = 1/5
• T ~ mũ (𝜆 = 5)
» Ví dụ 2: Tuổi thọ của một mạch điện tử
» Ví dụ 3: Thời gian hỏng hóc giữa hai lần của 1 chiếc máy
» Ví dụ 4: Thời gian giữa hai ca cấp cứu liên tiếp ở một bệnh viện A

diepht@vnu 43
Phân bố Poisson – Phân bố mũ

» Giả sử các biến cố xảy ra theo một quá trình Poisson với tham số . X~Poisson( )
trong một đơn vị thời gian. Gọi T là thời gian tới khi có biến cố tiếp theo. T là biến
ngẫu nhiên liên tục.
» Hàm phân bố tích lũy của T

» X là phân bố Poisson có tham số trong khoảng thời gian (0,t)

» Hàm mật độ xác suất của T

diepht@vnu 44
Phân bố mũ
Hàm mật độ (hình)
ìe  t ; t  0
f (t )  í
î0; t  0

Hàm phân bố tích lũy


ì1  e  t ; t  0
F (t )  í
î0; t £ 0

Kì vọng và độ lệch chuẩn đều bằng 1/λ

diepht@vnu 45
ì1  e  t ; t  0
ìe  t ; t  0
Ví dụ f (t )  í F (t )  í
î0; t  0 î0; t £ 0
1. Tuổi thọ của một mạch điện có phân bố mũ, tuổi thọ trung bình là
6.5 năm. Trong thời gian 5 năm bảo hành, có bao nhiêu % mạch điện
bị hỏng?
• Tính xác suất để tuổi thọ <= 5
2. Trung bình có 5 bệnh nhân xuất hiện trong 1 tiếng tại bệnh viện
theo phân bố Poisson. Một bệnh nhân vừa xuất hiện, tính xác suất
bệnh nhân tiếp theo xuất hiện:
a) Trong vòng 10 phút
b) Trong vòng 20 phút
c) Không có bệnh nhân nào xuất hiện trong vòng 15 phút
d) Không có bệnh nhân nào xuất hiện trong vòng 30 phút

diepht@vnu 46
ìe  t ; t  0ì1  e  t ; t  0
Ví dụ f (t )  í F (t )  í
î0; t  0 î0; t £ 0
1. Tuổi thọ của một mạch điện có phân bố mũ, tuổi thọ trung bình là
6.5 năm. Trong thời gian 5 năm bảo hành, có bao nhiêu % mạch điện
bị hỏng?
• Tính xác suất để tuổi thọ <= 5

diepht@vnu 47
ìe  t ; t  0 ì1  e  t ; t  0
Ví dụ f (t )  í F (t )  í
î0; t  0 î0; t £ 0
Trung bình 1 năm có 12 trận mưa to tại Quảng Bình và theo phân bố Poisson. Một
trận mưa to vừa diễn ra cách đây 2 tuần. Tính xác suất
a) Trận mưa tiếp theo diễn ra hôm nay
b) Trận mưa tiếp theo diễn ra trong vòng 1 tuần
c) Trận mưa tiếp theo diễn ra trong vòng 1 tháng
d) Không có trận mưa nào diễn ra trong vòng 2 tháng
Sử dụng xác suất có điều kiện để tính toán

diepht@vnu 48
Kiểm tra 5 phút

» Tuổi thọ của một loại radio tuân theo phân bố mũ với tuổi thọ trung
bình là 5 năm. Nếu Tùng mua 1 chiếc radio đã 5 năm tuổi, xác suất
nó sẽ hoạt động thêm ít nhất 4 năm nữa là bao nhiêu?

ìe  t ; t  0 ì1  e  t ; t  0
f (t )  í F (t )  í
î0; t  0 î0; t £ 0

diepht@vnu 49
Chuẩn bị bài tới
» Đọc Chương 5 giáo trình
» Hoàn thành bài tập gửi qua email

diepht@vnu 50
Luật số lớn và
định lí giới hạn trung tâm

Giảng viên: Hoàng Thị Điệp


Khoa CNTT – Đại học Công Nghệ

Xác suất thống kê Học kì 1, 2022-2023


Hội tụ theo xác suất? (Chương 5, giáo trình)

diepht@vnu 2
Nội dung

» Luật số lớn
» Định lí giới hạn trung tâm

diepht@vnu 3
Luật số lớn
(law of large numbers)
» Khi chúng ta tiến hành một thí nghiệm nhiều lần, thì kết quả trung bình nhận
được sẽ gần với giá trị kì vọng, và càng ngày càng gần hơn khi chúng ta tiến
hành thêm nhiều lần nữa.

Ví dụ: Gieo 1 con súc sắc với 6 mặt đều nhau có giá trị 1,2,3,4,5,6. Giá trị kì vọng
của số ở mặt trên:
1 1 1 1 1 1
EX = 1´ + 2 ´ + 3´ + 4 ´ + 5 ´ + 6 ´ = 3.5
6 6 6 6 6 6

Nếu ta tung con súc sắc nhiều lần, giá trị trung bình của số ở mặt trên sẽ rất gần
giá trị kì vọng 3.5.

diepht@vnu 4
» H là chiều cao (đơn vị m) của 1 sinh viên chọn ngẫu nhiên trong lớp
» H là biến ngẫu nhiên; 1 <= H <= 3
» Bạn Công chọn H là bnn liên tục, phân bố đều
» f(x) = 1/2 với 1<=x<=3
» f(x) = 0 với x khác
» H1, H2, ...., H10 là chiều cao (đơn vị m) của 10 sinh viên chọn ngẫu nhiên trong lớp

diepht@vnu 5
Bất đẳng thức Chebyshev
(dạng hệ quả)
Giả sử X là ĐLNN với 𝜇 =EX. Khi đó với mọi 𝜀 > 0:
𝐷𝑋
𝑃 𝑋−𝜇 >𝜀 ≤
𝜀
Ứng dụng:
» Đánh giá cận trên hoặc cận dưới xác suất để X nhận giá trị sai lệch không quá 𝜀 so với kì vọng
• từ đó lý giải cho các sai số trong đo lường vật lý

diepht@vnu 6
diepht@vnu 7
Luật số lớn
(law of large numbers)
Vận dụng bất đẳng thức Chebyshev

 X 1 + X 2 + ... + Xn  2
P       2
 n  n

Biến đổi toán học: xem Thí dụ 6 (tr. 157)

diepht@vnu 8
Định lí giới hạn trung tâm
Central limit theory
Cử 10 sinh viên đi khảo sát mức độ hài lòng (cho điểm từ 0-100) của sinh viên
ĐHCN. Mỗi bạn sinh viên đi khảo sát chọn 1 tập mẫu (sample) 20 bạn sinh viên
khác nhau và tính số điểm trung bình của mức độ hài lòng.
» Có 10 mẫu (sample)
» Kích thước mẫu là 20 (số sinh viên trong mỗi mẫu là 20)

1 2 3 4 5 6 7 8 9 10
Điểm 70 76 78 80 79 81 83 72 85 87
trung bình

Nhận xét: Giá trị trung bình của các mẫu có phân bố chuẩn (không cần biết phân
bố của không gian mẫu).

diepht@vnu 9
Định lí giới hạn trung tâm
Central limit theory
Giả sử S={X1, X2,…,Xn} là một mẫu, hay một dãy các biến ngẫu nhiên độc lập có
cùng phân bố với kì vọng μ và phương sai σ2. Trung bình cộng

Sn =
Theo luật số lớn Sn sẽ tiến gần đến μ theo xác suất. Sn có phân bố chuẩn với kì
vọng μ và phương sai σ2/n.

Lưu ý: 𝑛 1 2 𝑛 có phân bố chuẩn với kì vọng nμ và phương sai


nσ2.

diepht@vnu 10
n lớn bao nhiêu thì xấp xỉ là tốt?

» Nếu phân bố của X1, X2,…,Xn là đối xứng


• n>20 là đủ
» Nếu không
• cần n lớn hơn

diepht@vnu 11
Ví dụ
0. Gieo con súc sắc 1 lần. Gọi Y là số nốt ở mặt trên.
a) Lập bảng phân bố của Y
b) Tính EY, DY
1. Gieo con súc sắc 30 lần. Tìm xác suất để tổng số nốt xuất hiện
a) lớn hơn 135.
b) nhỏ hơn 90.

diepht@vnu 12
Ví dụ
1. Gieo con súc sắc 30 lần. Tìm xác suất để tổng số nốt xuất hiện
b) nhỏ hơn 90.
c) lớn hơn 150.

2. Khối lượng của người VN có phân bố chuẩn, trung bình là 65kg với độ lệch
chuẩn là 5kg. Một thang máy cho phép đi tối đa 10 người, và có khối lượng không
quá 700kg. Tính xác suất để 10 người bất kì đi vào thang máy không bị quá tải.
3. Một nông dân nhận thấy sản lượng trung bình của 1 cây khoai tây là 1,82kg, với
độ lệch chuẩn là 0,34kg. Năm nay ông bón thêm một loại phân mới và thu được
1395kg trên 750 cây. Hỏi rằng loại phân mới này có thực sự làm thay đổi sản
lượng của cây khoai tây? Biết mức ý nghĩa = 0.01.

diepht@vnu 13
Ví dụ 3
Một nông dân nhận thấy sản lượng trung bình của 1 cây khoai tây là 1,82kg, với độ lệch chuẩn là 0,34kg. Năm
nay ông bón thêm một loại phân mới và thu được 1395kg trên 750 cây. Hỏi rằng loại phân mới này có thực sự
làm thay đổi sản lượng của cây khoai tây? Biết mức ý nghĩa = 0.01.
» Giả sử phân bón mới không làm thay đổi sản lượng cây khoai tây => sản lượng của mỗi cây khoai tây bón
bằng phân bón mới có thể biểu diễn bằng biến ngẫu nhiên Si
» ....
» P(S>=1395) = 1 – 0.9994 < mức ý nghĩa
» Suy ra, điều giả sử không đáng tin cậy. Tức là phân bón mới CÓ làm thay đổi sản lượng khoai tây.
» Tham khảo thêm: Thí dụ 15, tr.172; Thí dụ 21. tr.179

diepht@vnu 14
Thí dụ 18

» Trong một khu phố có 80 hộ ít người và 50 hộ nhiều người. Lượng nước sinh hoạt
mỗi hộ ít người dùng 1 ngày là một biến ngẫu nhiên có giá trị trung bình 0.6m3
và độ lêch tiêu chuẩn 0.04m3. Lượng nước mỗi hộ nhiều người dùng 1 ngày là
một biến ngẫu nhiên có giá trị trung bình 1.9m3 và độ lêch tiêu chuẩn 0.14m3.
» Tìm xác suất để trong một ngày khu phố đó sử dụng hơn 150m3 nước.

diepht@vnu 15
Hiệu chỉnh xác suất
» Xem trang 176

diepht@vnu 16
Chương 5: Lý thuyết mẫu

Xác suất thống kê Học kì I, 2022-2023


Bài tập
Giả sử rằng biến ngẫu nhiên X đo khoảng cách (tính bằng km) từ nơi ở tới trường của sinh viên là
một biến ngẫu nhiên phân phối mũ với trung bình là 5.
1) Tính xác suất một sinh viên ở xa trường hơn 10 km.

diepht@vnu 2
Bài tập
Giả sử rằng biến ngẫu nhiên X đo khoảng cách (tính bằng km) từ nơi ở tới trường của sinh viên là
một biến ngẫu nhiên phân phối mũ với trung bình là 5.
1) Tính xác suất một sinh viên ở xa trường hơn 10 km.
2) Chọn ngẫu nhiên 100 sinh viên. Tính xác suất để tổng khoảng cách từ nơi ở tới trường của các
bạn này không quá 300 km.

diepht@vnu 3
Bài tập
Giả sử rằng biến ngẫu nhiên X đo khoảng cách (tính bằng km) từ nơi ở tới trường của sinh viên là
một biến ngẫu nhiên phân phối mũ với trung bình là 5.
1) Tính xác suất một sinh viên ở xa trường hơn 10 km.
2) Chọn ngẫu nhiên 100 sinh viên. Tính xác suất để tổng khoảng cách từ nơi ở tới trường của các
bạn này không quá 300 km.
3) Chọn ngẫu nhiên 100 sinh viên. Tính xác suất để trung bình khoảng cách từ nơi ở tới trường của
các bạn này rơi vào khoảng (4.9;5.2) km.

diepht@vnu 4
Bài tập
Giả sử rằng biến ngẫu nhiên X đo khoảng cách (tính bằng km) từ nơi ở tới trường của sinh viên là
một biến ngẫu nhiên phân phối mũ với trung bình là 5.
1) Tính xác suất một sinh viên ở xa trường hơn 10 km.
2) Chọn ngẫu nhiên 100 sinh viên. Tính xác suất để tổng khoảng cách từ nơi ở tới trường của các
bạn này không quá 300 km.
3) Chọn ngẫu nhiên 100 sinh viên. Tính xác suất để trung bình khoảng cách từ nơi ở tới trường của
các bạn này rơi vào khoảng (4.9;5.2) km.
4) Chọn ngẫu nhiên 1 sinh viên. Tính xác suất khoảng cách từ nơi ở tới trường của bạn này rơi vào
khoảng (4.9;5.2) km.

diepht@vnu 5
Bài tập
Giả sử rằng biến ngẫu nhiên X đo khoảng cách (tính bằng km) từ nơi ở tới trường của sinh viên là
một biến ngẫu nhiên phân phối mũ với trung bình là 5.
1) Tính xác suất một sinh viên ở xa trường hơn 10 km.
2) Chọn ngẫu nhiên 100 sinh viên. Tính xác suất để tổng khoảng cách từ nơi ở tới trường của các
bạn này không quá 300 km.
3) Chọn ngẫu nhiên 100 sinh viên. Tính xác suất để trung bình khoảng cách từ nơi ở tới trường của
các bạn này rơi vào khoảng (4.9;5.2) km.
4) Chọn ngẫu nhiên 1 sinh viên. Tính xác suất khoảng cách từ nơi ở tới trường của bạn này rơi vào
khoảng (4.9;5.2) km.
5) Chọn ngẫu nhiên 36 sinh viên. Tính xác suất để trung bình khoảng cách từ nơi ở tới trường của
các bạn này rơi vào khoảng (4.9;5.2) km.

diepht@vnu 6
Chương 6: Giới thiệu về thống kê;
Ước lượng tham số

Giảng viên: Hoàng Thị Điệp


Khoa CNTT – Đại học Công Nghệ

Xác suất thống kê Học kì I, 2022-2023


Nội dung

» Lấy mẫu
» Ước lượng điểm
» Ước lượng khoảng

diepht@vnu 2
Quần thể và mẫu

• Tổng thể/Quần thể (population): Tập hợp tất cả các đối tượng mà chúng ta muốn tiến hành nghiên cứu.
• Mẫu (sample): Một tập hợp con các đối tượng trong quần thể mà chúng ta tiến hành thu thập dữ liệu.

diepht@vnu 3
Ví dụ
» Khi tiến hành nghiên cứu số lượng bia trung bình 1 người đàn ông VN uống 1 năm, quần thể
chúng ta quan tâm nghiên cứu là toàn bộ đàn ông VN.

» Để tiến hành nghiên cứu số lượng bia trung bình 1 người đàn ông VN uống 1 năm, người ta có
thể chọn ngẫu nhiên một mẫu gồm 1000 người đàn ông ở các tỉnh, các độ tuổi khác nhau.

» Lưu ý: Số phần tử trong tập mẫu gọi là kích thước mẫu.

diepht@vnu 4
Mẫu ngẫu nhiên/mẫu bị thiên lệch
» Để tập mẫu phản ánh được tổng thể, tập mẫu cần được lấy ngẫu nhiên từ tổng thể.

» Mẫu bị thiên lệch (biased sample) sẽ làm cho kết quả thống kê thu được từ mẫu không phản ánh
được bản chất của tổng thể.

» Ví dụ: Để thống kê số lượng bia trung bình 1 người đàn ông VN uống, người ta tiến hành lấy mẫu
như sau:
• Chọn ngẫu nhiên 1000 người đàn ông uống bia tại quán bia Lan Chín, Cầu Giấy vào 4 ngày thứ bảy của
tháng 6.
• Chọn ngẫu nhiên 1000 người đàn ông uống bia ở 20 quán bia khác nhau tại Hà Nội vào các ngày bất kì từ
tháng 6 đến tháng 10.
• Chọn ngẫu nhiên 1000 người đàn ông uống bia ở 20 quán bia khác nhau tại 10 tỉnh/thành phố vào các
ngày bất kì từ tháng 1 đến tháng 12.

diepht@vnu 5
Mẫu ngẫu nhiên/mẫu bị thiên lệch
Để điều tra mức lương ra trường trung bình của sinh viên Trường ĐHCN. Tiến hành lấy mẫu 100
sinh viên như sau:
» Chọn 50 sinh viên khoa cơ, 50 sinh viên khoa CNTT.
» Chọn ngẫu nhiên 100 sinh viên ra trường đang làm việc tại Hà Nội.
» Chọn ngẫu nhiên 100 sinh viên ra trường đang làm việc tại 5 công ty tại Hà Nội.
» Chọn ngẫu nhiên 100 sinh viên mới ra trường, trong đó có 70 sinh viên có điểm học trung bình
>2.75.

diepht@vnu 6
Phân bố của mẫu và định lí giới hạn trung tâm
Central limit theory
Giả sử {X1, X2,…,Xn} là một dãy các biến ngẫu nhiên độc lập có cùng phân bố với kì
vọng μ và phương sai σ2. Trung bình cộng
= (X1 + X2 +….+ Xn) / n
Theo luật số lớn sẽ tiến gần đến μ theo xác suất. có phân bố chuẩn với kì vọng
μ và phương sai σ2/n.

diepht@vnu 7
Ước lượng các tham số tổng thể
Có 2 loại ước lượng:
» Ước lượng điểm của một tham số tổng thể là cách thức tính toán một giá trị đơn lẻ của tham số
tổng thể dựa trên dữ liệu mẫu.
» Ước lượng khoảng của một tham số tổng thể là cách thức tính toán 2 giá trị dựa trên dữ liệu
mẫu, từ đó tạo nên một khoảng được kỳ vọng chứa tham số thống kê của tổng thể

diepht@vnu 8
Ước lượng điểm:
Ước lượng kì vọng và phương sai từ tập mẫu
Giả sử là một mẫu
Kì vọng μ và phương sai σ2 có thể được ước lượng như sau:

» Ước lượng kì vọng của quần thể


μ ≅ ̅=

» Ước lượng phương sai của quần thể

 2  s2   ( xi  x ) 2

n 1
diepht@vnu 9
Kí hiệu
Kì vọng bnn trung bình mẫu: 𝜇
Phương sai bnn trung bình mẫu:𝜎
Trung bình mẫu: 𝑥
Phương sai mẫu: 𝑠

Kì vọng: 𝜇
Phương sai: 𝜎
Ước lượng kì vọng: 𝑥
Ước lượng phương sai: 𝑠

diepht@vnu 10
Ví dụ

» Một phương pháp điều trị mới đang được xem xét để đánh giá tính hiệu quả của
nó. Một chỉ tiêu đánh giá là số ngày trung bình từ lúc điều trị đến lúc bệnh nhân
khỏi bệnh. Một mẫu ngẫu nhiên gồm 11 bệnh nhân được theo dõi và số ngày
điều trị cho tới khi khỏi được ghi lại như sau: 4, 4, 3, 8, 5, 6, 7, 12, 5, 3, 8.
» Tìm trung bình mẫu và phương sai mẫu cho số ngày điều trị cho tới khi khỏi.

μ≅ ̅=

 2  s2   ( xi  x ) 2

n 1

diepht@vnu 11
Ví dụ
» Một phương pháp điều trị mới đang được xem xét để đánh giá tính hiệu quả của nó. Một chỉ tiêu đánh giá là số
ngày trung bình từ lúc điều trị đến lúc bệnh nhân khỏi bệnh. Một mẫu ngẫu nhiên gồm 11 bệnh nhân được theo
dõi và số ngày điều trị cho tới khi khỏi được ghi lại như sau: 4, 4, 3, 8, 5, 6, 7, 12, 5, 3, 8.
Tìm trung bình mẫu và phương sai mẫu cho số ngày điều trị cho tới khi khỏi.

diepht@vnu 12
diepht@vnu 13
diepht@vnu 14
Ước lượng khoảng:
Khoảng tin cậy cho kì vọng
Giả sử 𝑆 = {𝑥1, 𝑥2, … , 𝑥𝑛} là một mẫu (n>=30), kì
vọng μ của quần thể
μ ≅ (𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛)/𝑛
Câu hỏi: Ước lượng khoảng tin cậy β% cho kì vọng
μ?
Hay ta muốn tìm 1 đoạn [a,b] để μ thuộc đoạn trên
với xác suất β%.

diepht@vnu 15
Khoảng tin cậy cho kì vọng
Các trường hợp
» Biết phương sai tổng thể
» Không biết phương sai tổng thể
• n >= 30
• n < 30

diepht@vnu 16
Khoảng tin cậy cho kì vọng

Đoạn [a, b] sẽ có dạng


[ - uβσx̅ , ̅ + uβσx̅ ]

Trong đó uβ là số lần độ lệch chuẩn; σ2x̅ = σ2/n là phương sai của X̅.

Ví dụ
» β = 90%, thì uβ= 1.64
» β = 95%, thì uβ= 1.96
» β = 98%, thì uβ= 2.33
» β = 99%, thì uβ= 2.58

diepht@vnu 17
Khoảng tin cậy 95%

diepht@vnu 18
Khoảng tin cậy β

diepht@vnu 19
diepht@vnu 20
Nhắc lại

» Hàm phân bố tích lũy


» Với biến ngẫu nhiên phân bố chuẩn tắc, kí hiệu bằng

Φ 𝑢
1−Φ 𝑢

diepht@vnu 21
» Φ 1.96 = 0.975

diepht@vnu 22
diepht@vnu 23
Ví dụ [ ̅ - uβσx̅ , ̅ + uβσx̅ ]
Chiều cao trung bình của 50 sinh viên ĐHCN là 160 cm. Giả sử độ lệch chuẩn của
chiều cao người lớn là 5cm.
a) Tính khoảng tin cậy chiều cao trung bình sinh viên ĐHCN với độ tin cậy 90%
b) Tính khoảng tin cậy chiều cao trung bình sinh viên ĐHCN với độ tin cậy 95%
c) Tính khoảng tin cậy chiều cao trung bình sinh viên ĐHCN với độ tin cậy 99%
d) Tính khoảng tin cậy chiều cao trung bình sinh viên ĐHCN với độ tin cậy 80%
e) Giải các câu trên với kích thước mẫu là 30, 70, 100, 200 sinh viên.

a)
160-1.64*5/SQRT(50) < μ < 160+1.64*5/SQRT(50)
158.84 < μ < 161.16

diepht@vnu 24
Xác định kích thước mẫu
• Với một độ tin cậy β% cho trước, khoảng tin cậy [a,b] phụ thuộc vào kích thước mẫu. Kích thước mẫu càng
lớn thì khoảng tin cậy càng hẹp và ngược lại.
• Câu hỏi: Giả sử muốn ước lượng μ với sai số không quá ε cho trước với độ tin cậy β, thì chúng ta phải tiến
hành lấy tối thiểu bao nhiêu mẫu?


| X   | u 
n
hay

u 
n
2
 u 
 n    
  

diepht@vnu 25
2
 u  
n   
Ví dụ   

Trong một nghiên cứu về chiều cao trung bình của sinh viên ĐHCN, giả sử biết độ
lệch chuẩn của chiều cao người lớn là 5cm.
a) Tính số sinh viên phải lẫy mẫu để tính chiều cao trung bình sinh viên ĐHCN với
sai số không quá 2cm với độ tin cậy 90%.
b) Tính số sinh viên phải lẫy mẫu để tính chiều cao trung bình sinh viên ĐHCN với
sai số không quá 5cm với độ tin cậy 90%.
c) Tính số sinh viên phải lẫy mẫu để tính chiều cao trung bình sinh viên ĐHCN với
sai số không quá 2cm với độ tin cậy 95%.
d) Tính số sinh viên phải lẫy mẫu để tính chiều cao trung bình sinh viên ĐHCN với
sai số không quá 5cm với độ tin cậy 95%.

diepht@vnu 26
Phương sai chưa biết và n>=30
» Nếu n>=30, ta có thể xấp xỉ phương sai quần thể bằng:

 2  s2   ( x i  x ) 2

  X2  s 2 / n
n 1
» Ví dụ: Một trường đại học tiến hành một nghiên cứu xem trung bình một sinh viên tiêu hết bao
nhiêu tiền gọi điện thoại trong một tháng. Một mẫu ngẫu nhiên gồm 59 sinh viên được chọn và
kết quả như sau:
14, 18, 22, 30, 36, 28, 42, 79, 36,
52, 15, 47, 95, 16, 27, 111, 37, 63, [ ̅-u σ , ̅+u σ ]
β x̅ β x̅
127, 23, 31, 70, 27, 11, 30, 147, 72,
37, 25, 7, 33, 29, 35, 41, 48, 15, Bài tiền điện thoại
29, 73, 26, 15, 26, 31, 57, 40, 18,
85, 28, 32, 22, 37, 60, 41, 35, 26, Trung bình mẫu: 41.12
20, 58, 33, 23, 35. Phương sai mẫu: 782
Độ lệch chuẩn mẫu: 27.97
Hãy xây dựng khoảng tin cậy 95% cho số tiền
gọi điện thoại trung bình hàng tháng của một sinh viên.

diepht@vnu 27
diepht@vnu 28
Hãy xây dựng khoảng tin cậy 98% cho điểm số trung bình .

Trung bình mẫu: 48.11


Phương sai mẫu: 273.44
Độ lệch chuẩn mẫu:
16.54

diepht@vnu 29
Hãy xây dựng khoảng tin cậy 98% cho điểm số trung bình .

diepht@vnu 30
Phương sai chưa biết và n<30
» Trung bình mẫu:

» Ước lượng phương sai tổng thể:

s2 
 i
( x  x ) 2

n 1
» Khi kích thước mẫu nhỏ (n<30), thì
• có phân bố Student (t-distribution) với (n-1) bậc tự do;
• có kì vọng μ và phương sai σ2x̅ =s2/n.

[x̅ - uβσx̅ , x̅ + uβσx̅ ]


diepht@vnu 31
Phân bố Student

diepht@vnu 32
diepht@vnu 33
diepht@vnu 34
Ví dụ
Để ước lượng chiều cao trung bình μ của nữ sinh ĐHCN, một mẫu ngẫu nhiên 16
người được chọn như sau:
162, 155, 170, 165, 160, 165, 158, 164, 168, 150, 165, 167, 164, 159, 152, 154.

Sử dụng phân phối Student để tìm:

a) Hãy tìm khoảng tin cậy cho μ với độ tin cậy β=90%.
b) Hãy tìm khoảng tin cậy cho μ với độ tin cậy β=95%.
c) Hãy tìm khoảng tin cậy cho μ với độ tin cậy β=99%.

trung bình: 161.125, s=5.9651  2  s2   ( xi  x ) 2

n 1
diepht@vnu 35
Ví dụ
Để ước lượng chiều cao trung bình μ của nữ sinh ĐHCN, một mẫu ngẫu nhiên 16
người được chọn như sau:
162, 155, 170, 165, 160, 165, 158, 164, 168, 150, 165, 167, 164, 159, 152, 154.

Sử dụng phân phối Student để tìm:

a) Hãy tìm khoảng tin cậy cho μ với độ tin cậy β=90%.
b) Hãy tìm khoảng tin cậy cho μ với độ tin cậy β=95%.
c) Hãy tìm khoảng tin cậy cho μ với độ tin cậy β=99%.

diepht@vnu 36
Sửa bảng ở trang 267

Bậc tự do t0.05 t0.025 t0.01 t0.005


...
15 1.753 2.131 2.606 2.947

diepht@vnu 37
Ví dụ
Để ước lượng chiều cao trung bình μ của nữ sinh ĐHCN, một mẫu ngẫu nhiên 25 người được chọn như sau:
162, 155, 170, 165, 160, 165, 158, 164, 168, 150, 165, 167, 164, 159, 152, 152, 160, 154, 170, 164, 160, 165,
167, 164, 157.

Sử dụng phân phối chuẩn và phân phối Student để tìm:

a) Hãy tìm khoảng tin cậy cho μ với độ tin cậy β=90%.
b) Hãy tìm khoảng tin cậy cho μ với độ tin cậy β=95%.
c) Hãy tìm khoảng tin cậy cho μ với độ tin cậy β=99%.

diepht@vnu 38
diepht@vnu 39
Khoảng tin cậy cho tỉ lệ
» Nghiên cứu một quần thể mà mỗi cá thể có thể có hoặc không có một thuộc tính A nào đó.
• p là tỉ lệ cá thể có thuộc tính A trong quần thể
• f = k/n là tỉ lệ (tần suất) cá thể có thuộc tính A trong mẫu nghiên cứu
» Câu hỏi: Ước lượng khoảng tin cậy cho tỉ lệ p dựa vào tần suất f.

» Định lí: Tần suất F là một ĐLNN có phân bố xấp xỉ phân bố chuẩn với kì vọng EF=p và phương sai
DF=p(1-p)/n với điều kiện np>5 và n(1-p)>5.

» Do không biết p, cho nên DF có thể được xấp xỉ bằng


DF = f(1-f)/n
với điều kiện nf>10 và n(1-f)>10.

diepht@vnu 40
Khoảng tin cậy cho tỉ lệ
Đoạn [a, b] sẽ có dạng
[f- uβσF , f + uβσF ]
» DF = f(1-f)/n
» với điều kiện nf>10 và n(1-f)>10.

diepht@vnu 41
Ví dụ

Trước ngày bầu cử tổng thống, ta lấy ngẫu nhiên 100 người để hỏi ý kiến thì có 60
người ủng hộ Hilary Clinton. Tìm khoảng tin cậy tỉ lệ cử tri bỏ phiếu cho Hilary
Clinton
a) Với độ tin cậy 90%
b) Với độ tin cậy 95%
c) Với độ tin cậy 99%

Đoạn [a, b] sẽ có dạng


[f- uβσF , f + uβσF ]
DF = f(1-f)/n
với điều kiện nf>10 và n(1-f)>10.

diepht@vnu 42
Ví dụ

Một mẫu ngẫu nhiên gồm 100 người dùng xe máy có 30 người dùng xe Honda. Tìm
khoảng tin cậy cho tỉ lệ người dùng xe Honda với
a) Độ tin cậy 90%
b) Độ tin cậy 95%
c) Độ tin cậy 96%
d) Độ tin cậy 99%

Đoạn [a, b] sẽ có dạng


[f- uβσF , f + uβσF ]
DF = f(1-f)/n
với điều kiện nf>10 và n(1-f)>10.

diepht@vnu 43
Đề thi năm 2021

» Câu 6: (1đ)
» Một công ty sản xuất sản muốn biết tỷ lệ người dùng có thích sản phẩm S hay
không đã quyết định thực hiện một khảo sát người dùng. Công ty yêu cầu độ tin
cậy của khảo sát là 99.5% và tỷ lệ khảo sát được có sai số không quá 0.01. Hãy
cho biết số người dùng cần hỏi (cỡ mẫu) tối thiểu của khảo sát để đảm bảo yêu
cầu của công ty.

diepht@vnu 44
Ví dụ

Kiểm tra ngẫu nhiên 300 người có 10 người mắc bệnh tim. Tìm khoảng tin cậy cho
tỉ lệ mắc bệnh tim trong toàn dân số với
a) Độ tin cậy 90%
b) Độ tin cậy 95%
c) Độ tin cậy 99%

diepht@vnu 45
Bài tập
Bài 1: Để ước lượng chiều cao trung bình μ của nữ sinh ĐHCN, một mẫu ngẫu nhiên 16 người được
chọn như sau:
160, 155, 170, 160, 162, 165, 158, 164, 168,
152, 160, 167, 164, 159, 148, 156.
Tìm khoảng tin cậy cho μ với độ tin cậy β=95%.

Bài 2: Chiều cao trung bình của 30 sinh viên ĐHCN là 165 cm. Giả sử độ lệch chuẩn của chiều cao
người lớn là 10cm. Tính khoảng tin cậy chiều cao trung bình sinh viên ĐHCN với độ tin cậy 95%

diepht@vnu 46
Đề thi mẫu

» Một nhà sản xuất tuyên bố rằng loại pin mới được cải tiến của ông ta
tuổi thọ dài hơn loại pin cũ. Biết rằng, loại pin cũ có tuổi thọ tuân
theo phân bố chuẩn với kì vọng toán là 150 giờ và phương sai là 16.
Để kiểm tra, người ta đo tuổi thọ của 9 pin loại mới được chọn một
cách ngẫu nhiên và tính được trung bình mẫu là 153 giờ. Giả sử rằng
phương sai của loại pin mới không thay đổi so với loại pin cũ.
a) Hãy xây dựng khoảng tin cậy 90% cho tuổi thọ trung bình của loại pin mới.
b) Độ rộng của khoảng tin cậy 95% bằng bao nhiêu?
Biết z0.05=1.645; z0.025=1.96; z0.01=2.326; z0.005=2.576
t0.05;8=1.860; t0.025;8=2.306; t0.01;8=2.896; t0.005;8=3.355

diepht@vnu 47
Đề thi mẫu
» Một nhà sản xuất tuyên bố rằng loại pin
mới được cải tiến của ông ta tuổi thọ dài
hơn loại pin cũ. Biết rằng, loại pin cũ có
tuổi thọ tuân theo phân bố chuẩn với kì
vọng toán là 150 giờ và phương sai là
16. Để kiểm tra, người ta đo tuổi thọ của
9 pin loại mới được chọn một cách ngẫu
nhiên và tính được trung bình mẫu là
153 giờ. Giả sử rằng phương sai của loại
pin mới không thay đổi so với loại pin cũ.
a) Hãy xây dựng khoảng tin cậy 90% cho
tuổi thọ trung bình của loại pin mới.
b) Độ rộng của khoảng tin cậy 95% bằng
bao nhiêu?
Biết z0.05=1.645; z0.025=1.96;
z0.01=2.326; z0.005=2.576
t0.05;8=1.860; t0.025;8=2.306;
t0.01;8=2.896; t0.005;8=3.355

diepht@vnu 48
Chuẩn bị bài tới
» Đọc chương 3 và làm bài tập cuối chương (Giáo trình Thống kê và Ứng dụng)
» Hoàn thành bài tập gửi qua email

diepht@vnu 49
Kiểm định giả thuyết

Giảng viên: Hoàng Thị Điệp


Khoa CNTT – Đại học Công Nghệ

Xác suất thống kê Học kì I, 2022-2023


Nội dung

» Giới thiệu kiểm định giả thuyết


» Kiểm định giả thuyết về trung bình tổng thể
• Trường hợp cỡ mẫu lớn
• Trường hợp cỡ mẫu nhỏ hoặc chưa biết phương sai tổng thể
» Kiểm định giả thuyết về giá trị xác suất

2
3
4
Ví dụ giả thuyết

» Ví dụ 1: Năm 2009 hãng Abbott giới thiệu một công thức sữa mới dành cho em
bé dưới một tuổi. Liệu công thức này có tạo ra tăng trọng trung bình cao hơn
mức 100gram/tháng của công thức sữa được giới thiệu vào 2007.

» Ví dụ 2: Liệu tiền lương trung bình của công nhân cơ khí tại Bình Dương có khác
với mức tiền lương trung bình là 2,5 triệu đồng của công nhân cơ khí trên toàn
quốc không?

» Ví dụ 3: Liệu sản lượng bình quân hàng ngày của nhà máy sản xuất thép hiện nay
có khác với mức sản lượng trung bình 892 tấn/ngày đã ghi nhận cách đây 1
năm.

5
Vì sao cần kiểm định giả thuyết

Nghiên cứu một thuộc tính của quần thể dựa vào 1 tập mẫu.
Sử dụng dữ liệu thu được từ tập mẫu để kiểm định giả
thuyết về các thuộc tính của quần thể.
6
Kí hiệu
Kì vọng bnn trung bình mẫu: 𝜇
Phương sai bnn trung bình mẫu:𝜎
Trung bình mẫu: 𝑥
Phương sai mẫu: 𝑠

Kì vọng: 𝜇
Phương sai: 𝜎
Ước lượng kì vọng: 𝑥
Ước lượng phương sai: 𝑠

7
Các loại giả thuyết
» Giả thuyết không (H0)
• Là một phát biểu về tham số của tổng thể
• Thường là một tuyên bố bị nghi ngờ
• Được cho là đúng cho đến khi nó được chứng minh là sai

» Giả thuyết thay thế (Ha)


• Nhà nghiên cứu mong muốn ủng hộ và chứng minh là đúng
• Là phát biểu ngược với H0
• Được cho là đúng nếu H0 bị bác bỏ

» Kiểm định giả thuyết nhằm mục đích bác bỏ hoặc không bác bỏ H0. Không nên kết
luận là chấp nhận H0.

8
Xây dựng giả thuyết về trung bình tổng thể
» Giả thuyết “có thay đổi”:
• H0: μ = μ0
• Ha: μ ≠ μ0

» Giả thuyết “thay đổi lớn hơn”:


• H0: μ = μ0
• Ha: μ > μ0

» Giả thuyết “thay đổi nhỏ hơn”:


• H0: μ = μ0
• Ha: μ < μ0

» Lưu ý: Chúng ta phải bác bỏ H0 để giả thuyết Ha đúng

» Trong đó μ0 là giá trị cho trước.

9
Các bước kiểm định giả thuyết
» 1. Thiết lập hai giả thuyết đối lập
» 2. Xác định mức ý nghĩa
» 3. Chọn lựa kiểm định phù hợp
» 4. Tính chỉ số thống kê tương ứng
» 5. Ra quyết định về giả thuyết không (bác bỏ hay không bác bỏ)
» 6. Ra một kết luận tổng thể

10
Trường hợp biết
phương sai
tổng thể

11
Kiểm định giả thuyết “có thay đổi”
H0: μ = μ0
Ha: μ ≠ μ0
» Đây thường là kiểm thử giả thuyết một số yếu tố thay đổi và làm thay đổi một thuộc tính nào đó của quần
thể.
» Kiểm định 2 phía với α là mức ý nghĩa. Quy tắc bác bỏ H0 như sau

-zα/2 zα/2

12
Kiểm định giả thuyết “có thay đổi”

-zα/2 zα/2

Giá trị kiểm định: x - m0


z=
s / n
13
Kiểm định giả thuyết “có thay đổi”

-zα/2 zα/2

So sánh giá trị kiểm định z với giá trị -zα/2 và zα/2.
Nếu z < -zα/2 hoặc z > zα/2 thì bác bỏ giả thuyết H0 (μ = μ0).
Nếu không thì không bác bỏ giả thuyết H0.

14
Bài tập
1. Một người nông dân sử dụng 1 loại phân bón mới cho 1 vườn táo và thu được 2756kg trên 100
cây. Biết rằng mức trung bình khi chưa sử dụng loại phân bón mới này là 26kg/1 cây. Giả sử độ
lệch chuẩn tổng thể vẫn như trước là 5,2kg. Hãy kiểm định giả thuyết sản lượng của cây táo có
thay đổi bởi loại phân bón này với mức ý nghĩa là 0.05.

» 1. Thiết lập hai giả thuyết đối lập


» 2. Xác định mức ý nghĩa
» 3. Chọn lựa kiểm định phù hợp
» 4. Tính chỉ số thống kê tương ứng
» 5. Ra quyết định về giả thuyết không (bác bỏ hay không bác bỏ)
» 6. Ra một kết luận tổng thể

15
Bài tập
2. Sau khi thay đổi giám đốc mới, nhà máy sản xuất thép ghi nhận sản lượng trong 100 ngày, có
trung bình và độ lệch chuẩn của mẫu lần lượt là 880 tấn/ngày và 50 tấn. Hãy kiểm định giả thuyết
rằng sản lượng bình quân hàng ngày của nhà máy hiện nay khác với với mức sản lượng trung bình
892 tấn/ngày đã được ghi nhận cách đây 1 năm với mức ý nghĩa là 0.05.
» 1. Thiết lập hai giả thuyết đối lập
» 2. Xác định mức ý nghĩa
» 3. Chọn lựa kiểm định phù hợp
» 4. Tính chỉ số thống kê tương ứng
» 5. Ra quyết định về giả thuyết không (bác bỏ hay không bác bỏ)
» 6. Ra một kết luận tổng thể

16
Bài tập
3. Một nhà máy sản xuất săm lốp ô tô tuyên bố rằng tuổi thọ trung bình một chiếc lốp ô tô của họ là
29000 dặm. Cơ quan giám định nghi ngờ lời tuyên bố này đã kiểm tra 100 chiếc lốp và tìm được
trung bình mẫu là = 28000 dặm với độ lệch tiêu chuẩn là 5000 dặm.
a) Với mức ý nghĩa α = 0.05 cơ quan giám định có bác bỏ được lời quảng cáo của nhà máy nói trên
không?
b) Cũng với câu hỏi trên nhưng với mức ý nghĩa được chọn là α = 0.02.

x - m0
z=
s / n
17
Bài tập
3. Một nhà máy sản xuất săm lốp ô tô
tuyên bố rằng tuổi thọ trung bình một
chiếc lốp ô tô của họ là 29000 dặm. Cơ
quan giám định nghi ngờ lời tuyên bố
này đã kiểm tra 100 chiếc lốp và tìm
được trung bình mẫu là 𝑥 = 28000
dặm với độ lệch tiêu chuẩn là 5000
dặm.
a) Với mức ý nghĩa α = 0.05 cơ quan
giám định có bác bỏ được lời
quảng cáo của nhà máy nói trên
không?
b) Cũng với câu hỏi trên nhưng với
mức ý nghĩa được chọn là α =
0.02.

18
Kiểm định giả thuyết “thay đổi lớn hơn”
H0: μ = μ0
Ha: μ > μ0
» Đây thường là kiểm thử giả thuyết một số yếu tố thay đổi dẫn đến thay đổi tăng thêm một thuộc tính nào đó
của quần thể. Lưu ý: Chúng ta phải bác bỏ H0 để giả thuyết Ha đúng
» Kiểm định 1 phía với α là mức ý nghĩa. Quy tắc bác bỏ H0 như sau

19
Kiểm định giả thuyết “thay đổi lớn hơn”

-zα/2 zα/2

Giá trị kiểm định:


x - m0
z=
s / n
20
Kiểm định giả thuyết “thay đổi lớn hơn”

-zα/2 zα/2

So sánh giá trị kiểm định z với giá trị zα.


Nếu z > zα thì bác bỏ giả thuyết H0 (μ <= μ0) hay Ha đúng.
Nếu không thì không bác bỏ giả thuyết H0.

21
Bài tập

1. Một người nông dân sử dụng 1 loại phân bón mới cho 1 vườn táo và thu được
2956kg trên một 100 cây. Biết rằng mức trung bình khi chưa sử dụng loại phân
bón mới này là 26kg/1 cây với độ lệch chuẩn là 5,2kg. Hãy kiểm định giả thuyết
sản lượng của cây táo tăng lên bởi loại phân bón này với mức ý nghĩa là 0.05.
2. Sau khi thay đổi giám đốc mới, nhà máy sản xuất thép ghi nhận sản lượng trong
100 ngày, có trung bình và độ lệch chuẩn của mẫu lần lượt là 980 tấn và 50 tấn.
Hãy kiểm định giả thuyết rằng sản lượng bình quân hàng ngày của nhà máy
hiện tăng hơn so với mức sản lượng trung bình 892 tấn/ngày đã được ghi nhận
cách đây 1 năm với mức ý nghĩa là 0.05.

22
Bài tập
2. Sau khi thay đổi giám đốc mới,
nhà máy sản xuất thép ghi nhận
sản lượng trong 100 ngày, có trung
bình và độ lệch chuẩn của mẫu lần
lượt là 980 tấn và 50 tấn. Hãy kiểm
định giả thuyết rằng sản lượng
bình quân hàng ngày của nhà máy
hiện tăng hơn so với mức sản
lượng trung bình 892 tấn/ngày đã
được ghi nhận cách đây 1 năm với
mức ý nghĩa là 0.05.

23
Bài tập

3. Một công ty có hệ thống máy tính có thể xử lý 1200 hóa đơn trong một giờ.
Công ty mới nhập một hệ thống máy tính mới. Hệ thống này khi chạy kiểm tra
trong 40 giờ cho thấy số hóa đơn được xử lý trung bình trong 1 giờ là 1260 với độ
lệch tiêu chuẩn là 215. Với mức ý nghĩa 5% hãy nhận định xem hệ thống mới có tốt
hơn hệ thống cũ hay không?
1. Thiết lập hai giả thuyết đối lập
2. Xác định mức ý nghĩa
3. Chọn lựa kiểm định phù hợp
4. Tính chỉ số thống kê tương ứng
5. Ra quyết định về giả thuyết không (bác bỏ hay không bác
bỏ)
6. Ra một kết luận tổng thể

24
Kiểm định giả thuyết “thay đổi nhỏ hơn”
H0: μ = μ0
Ha: μ < μ0
» Đây thường là kiểm thử giả thuyết một số yếu tố thay đổi dẫn đến thay đổi nhỏ đi một thuộc tính nào đó của
quần thể. Lưu ý: Chúng ta phải bác bỏ H0 để giả thuyết Ha đúng
» Kiểm định 1 phía với α là mức ý nghĩa. Quy tắc bác bỏ H0 như sau

25
Kiểm định giả thuyết “thay đổi nhỏ hơn”

-zα/2 zα/2

Giá trị kiểm định: x - m0


z=
s / n
26
Kiểm định giả thuyết “thay đổi nhỏ hơn”

-zα/2 zα/2

So sánh giá trị kiểm định z với giá trị -zα.


Nếu z < -zα thì bác bỏ giả thuyết H0 (μ >= μ0), tức là Ha đúng.
Nếu không thì không bác bỏ giả thuyết H0.

27
Bài tập

1. Một người nông dân sử dụng 1 loại phân bón mới cho 1 vườn táo và thu được
2356kg trên một 100 cây. Biết rằng mức trung bình khi chưa sử dụng loại phân
bón mới này là 26kg/1 cây với độ lệch chuẩn là 5,2kg. Hãy kiểm định giả thuyết
sản lượng của cây táo bị giảm đi do loại phân bón này với mức ý nghĩa là 0.05.

2. Sau khi thay đổi giám đốc mới, nhà máy sản xuất thép ghi nhận sản lượng trong
100 ngày, có trung bình và độ lệch chuẩn của mẫu lần lượt là 820 tấn và 50 tấn.
Hãy kiểm định giả thuyết rằng sản lượng bình quân hàng ngày của nhà máy
hiện tại giảm đi so với mức sản lượng trung bình 892 tấn/ngày đã được ghi
nhận cách đây 1 năm với mức ý nghĩa là 0.05.

28
Bài tập

3. Một phương pháp ăn kiêng được quảng cáo rằng sẽ làm giảm trọng
lượng ít nhất là 45 pound trong 6 tháng. Một mẫu gồm 36 người theo
chế độ ăn kiêng này giảm trọng lượng trung bình là 35 pound với độ
lệch tiêu chuẩn là 20 pound. Với mức ý nghĩa α = 0.025, hãy nhận định
xem quảng cáo trên có nói quá không?

29
Bài tập
3. Một phương pháp ăn kiêng được
quảng cáo rằng sẽ làm giảm trọng
lượng ít nhất là 45 pound trong 6
tháng. Một mẫu gồm 36 người theo
chế độ ăn kiêng này giảm trọng
lượng trung bình là 35 pound với độ
lệch tiêu chuẩn là 20 pound. Với
mức ý nghĩa α = 0.025, hãy nhận
định xem quảng cáo trên có nói quá
không?

Các bạn làm ra giấy, chụp ảnh


và nộp lên form.

30
Trường hợp
chưa biết
phương sai
tổng thể

31
Phương sai chưa biết

» Nếu phương sai của quần thể chưa biết, có thể được ước lượng bằng phương sai
mẫu.
• Trung bình mẫu:
̅=
• Phương sai mẫu:

s2 =
 ( xi - x ) 2

n -1

» Nếu phương sai của quần thể chưa biết và tập mẫu nhỏ (n < 30)
• có phân bố Student với (n-1) bậc tự do; kì vọng μ và phương sai σ2x̅ = s2/n.

32
Bài tập

1. Một nhóm nghiên cứu công bố rằng trung bình một người vào siêu thị A tiêu hết
140 ngàn đồng. Chọn một mẫu ngẫu nhiên gồm 50 người mua hàng, ta tính
được số tiền trung bình họ tiêu là 154 nghìn với độ lệch tiêu chuẩn là 62 nghìn.
Với mức ý nghĩa 0.02 hãy kiểm tra xem công bố của nhóm nghiên cứu có đúng
hay không?
2. Một công ty có hệ thống máy tính có thể xử lý 1200 hóa đơn trong một giờ.
Công ty mới nhập một hệ thống máy tính mới. Hệ thống này khi chạy kiểm tra
trong 40 giờ cho thấy số hóa đơn được xử lý trung bình trong 1 giờ là 1260 với
độ lệch tiêu chuẩn là 215. Với mức ý nghĩa 5% hãy nhận định xem hệ thống
mới có tốt hơn hệ thống cũ hay không?

33
Bài tập s2 =
 ( xi - x ) 2

n -1
3. Một công ty sản xuất pin tuyên bố rằng pin của họ có tuổi thọ trung bình là 21.5 giờ. Một cơ quan
kiểm tra chất lượng kiểm tra 6 chiếc pin của công ty và thu được số liệu sau đây về tuổi thọ của 6
chiếc pin này:
19, 18, 22, 20, 16, 25.
Kết quả này có xác nhận là quảng cáo của công ty là đúng hay không? Mức ý nghĩa được chọn là
5%.

4. Một bản nghiên cứu thông báo rằng mức tiêu dùng hàng tháng của một sinh viên là 420 nghìn
đồng. Để kiểm tra, người ta chọn ngẫu nhiên 16 sinh viên và tìm được trung bình mỗi tháng họ tiêu
442 nghìn đồng với độ lệch tiêu chuẩn là 60 nghìn đồng.
Với mức ý nghĩa 5% nhận định xem kết luận của bản thông báo có thấp hơn sự thật hay không?

34
Bài tập s2 =
 ( xi - x ) 2

n -1
3. Một công ty sản xuất pin
tuyên bố rằng pin của họ có
tuổi thọ trung bình là 21.5
giờ. Một cơ quan kiểm tra
chất lượng kiểm tra 6 chiếc
pin của công ty và thu được
số liệu sau đây về tuổi thọ
của 6 chiếc pin này:
19, 18, 22, 20, 16, 25.
Kết quả này có xác nhận là
quảng cáo của công ty là
đúng hay không? Mức ý nghĩa
được chọn là 5%.

35
Đề thi mẫu

» Một nhà sản xuất tuyên bố rằng loại pin mới được cải tiến của ông ta tuổi thọ dài
hơn loại pin cũ. Biết rằng, loại pin cũ có tuổi thọ tuân theo phân bố chuẩn với kì
vọng toán là 150 giờ và phương sai là 16. Để kiểm tra, người ta đo tuổi thọ của 9
pin loại mới được chọn một cách ngẫu nhiên và tính được trung bình mẫu là 153
giờ. Giả sử rằng phương sai của loại pin mới không thay đổi so với loại pin cũ.
Hãy kiểm định giả thuyết H0: μ=150 và đối thuyết H1: μ >150 với mức ý nghĩa
1%.
Biết z0.05=1.645; z0.025=1.96; z0.01=2.326; z0.005=2.576
t0.05;8=1.860; t0.025;8=2.306; t0.01;8=2.896; t0.005;8=3.355

36
Nội dung

» Giới thiệu kiểm định giả thuyết


» Kiểm định giả thuyết về trung bình tổng thể
• Trường hợp cỡ mẫu lớn
• Trường hợp cỡ mẫu nhỏ hoặc chưa biết phương sai tổng thể
» Kiểm định giả thuyết về giá trị xác suất

37
Kiểm định giả thuyết về giá trị xác suất
» Nghiên cứu một quần thể mà mỗi cá thể có thể có hoặc không có một thuộc tính A nào đó.
• p là tỉ lệ cá thể có thuộc tính A trong quần thể
• f = k/n là tỉ lệ (tần suất) cá thể có thuộc tính A trong mẫu nghiên cứu
» Câu hỏi: Ta muốn kiểm định giả thuyết liên quan đến p dựa vào tần suất f.
» Nhắc lại: Tần suất F là một ĐLNN có phân bố xấp xỉ phân bố chuẩn với kì vọng EF = p và phương
sai DF = p(1-p)/n với điều kiện np>5 và n(1-p)>5.
» Trong bài toán ước lượng, do không biết p, cho nên DF có thể được xấp xỉ bằng
DF = f(1-f)/n với điều kiện nf>10 và n(1-f)>10.
» Trong bài toán kiểm định, H0: p = p0, ta giả sử H0 đúng cho nên DF có thể được xấp xỉ bằng
DF = p0(1-p0)/n với điều kiện np0>5 và n(1-p0)>5.

38
39
Bài tập
1. Một đảng chính trị trong một cuộc bầu cử tổng thống ở Mỹ tuyên bố rằng 45% cử tri sẽ bỏ phiếu cho ứng cử
viên A của họ. Chọn ngẫu nhiên 200 cử tri để thăm dò ý kiến cho thấy 80 người trong số đó tuyên bố sẽ bỏ
phiếu cho A.
Hãy kiểm thử dự đoán của đảng trên với mức ý nghĩa
a) 2%
b) 5%
c) 1%

Kết luận: Ta chưa đủ cơ sở để bác bỏ tuyên bố rằng 45% cử tri sẽ bỏ phiếu cho ứng cử viên A.

40
Bài tập

2. Một báo cáo nói rằng 18% gia đình ở thành phố A có máy tính cá nhân ở nhà.
Để kiểm tra, người ta chọn ngẫu nhiên 80 gia đình trong thành phố có trẻ em đang
đi học và thấy rằng có 22 gia đình có máy tính.
a) Với mức ý nghĩa 2% hãy kiểm định xem liệu trong các gia đình có trẻ em đang
đi học, tỉ lệ gia đình có máy tính có cao hơn tỉ lệ chung hay không.
b) Hãy kiểm thử với mức ý nghĩa 5%
c) Hãy kiểm thử với mức ý nghĩa 1%

41
Bài tập

3. Một công ty A sản xuất bánh kẹo tuyên bố rằng 2/3 số trẻ em thích ăn bánh của
công ty. Trong một mẫu gồm 100 trẻ em được hỏi, có 55 em tỏ ra thích bánh của
công ty A.
a) Với mức ý nghĩa 5%, số liệu nói trên có chứng tỏ là tuyên bố của công ty là hơi
quá hay không?
b) Hãy kiểm thử với mức ý nghĩa 2%.
c) Hãy kiểm thử với mức ý nghĩa 1%.

42
Bài tập
3. Một công ty A sản xuất bánh kẹo tuyên
bố rằng 2/3 số trẻ em thích ăn bánh của
công ty. Trong một mẫu gồm 100 trẻ em
được hỏi, có 55 em tỏ ra thích bánh của
công ty A.
a) Với mức ý nghĩa 5%, số liệu nói trên
có chứng tỏ là tuyên bố của công ty là
hơi quá hay không?
b) Hãy kiểm thử với mức ý nghĩa 2%.
c) Hãy kiểm thử với mức ý nghĩa 1%.

43
Kiểm định giả thuyết (phần 2)

Xác suất thống kê Học kì I, 2022-2023


Nội dung

» Phương pháp P-giá trị


» Kiểm định giả thuyết về giá trị của nhiều xác suất
» So sánh hai giá trị trung bình
» So sánh hai tỉ lệ

2
Các loại giả thuyết
» Giả thuyết không (H0)
• Là một phát biểu về tham số của tổng thể
• Thường là một tuyên bố bị nghi ngờ
• Được cho là đúng cho đến khi nó được chứng minh là sai

» Giả thuyết thay thế (Ha)


• Nhà nghiên cứu mong muốn ủng hộ và chứng minh là đúng
• Là phát biểu ngược với H0
• Được cho là đúng nếu H0 bị bác bỏ

» Kiểm định giải thuyết nhằm mục đích bác bỏ hoặc không bác bỏ H0. Không nên kết luận là chấp
nhận H0.

3
Xây dựng giả thuyết về trung bình tổng thể
» Giả thuyết “có thay đổi”:
• H0: μ = μ0
• Ha: μ ≠ μ0

» Giả thuyết “thay đổi lớn hơn”:


• H0: μ = μ0
• Ha: μ > μ0
• Lưu ý: Chúng ta phải bác bỏ H0 để giả thuyết Ha đúng

» Giả thuyết “thay đổi nhỏ hơn”:


• H0: μ = μ0
• Ha: μ < μ0
• Lưu ý: Chúng ta phải bác bỏ H0 để giả thuyết Ha đúng

» Trong đó μ0 là giá trị cho trước.

4
Trường hợp cỡ
mẫu lớn

5
Kiểm định giả thuyết “có thay đổi”
H0: μ = μ0
Ha: μ ≠ μ0
» P-value là mức ý nghĩa nhỏ nhất mà vẫn có thể bác bỏ được H0.

6
Một nhà nghiên cứu nhân chủng học muốn tìm hiểu xem chiều cao trung
bình của thanh niên có thay đổi không so với mức cách đây 10
năm. Một mẫu gồm 121 thanh niên được chọn và từ mẫu đó tính được
với độ lệch tiêu chuẩn . Với mức ý nghĩa 5%, ta có
thể kết luận gì về sự thay đổi chiều cao trung bình của thanh niên?
» P-value là mức ý nghĩa nhỏ nhất mà vẫn có thể bác bỏ được H0.
)

7
Một nhà nghiên cứu nhân chủng học muốn tìm hiểu
xem chiều cao trung bình của thanh niên có thay đổi
không so với mức 1.70𝑚 cách đây 10 năm. Một
mẫu gồm 121 thanh niên được chọn và từ mẫu đó
tính được 𝑥̅ = 1.72𝑚 với độ lệch tiêu chuẩn 𝑠 =
0.02𝑚. Với mức ý nghĩa 5%, ta có thể kết luận gì về
sự thay đổi chiều cao trung bình của thanh niên?

» P-value là mức ý nghĩa nhỏ nhất mà vẫn có thể


bác bỏ được H0.
)

8
Kiểm định giả thuyết “có thay đổi”
H0: μ = μ0
Ha: μ ≠ μ0
)

𝑷 − 𝒗𝒂𝒍𝒖𝒆 = 𝟐𝑷 𝑿 ≤ 𝒙 𝒏ế𝒖 𝒙 < 𝝁𝟎

𝑷 − 𝒗𝒂𝒍𝒖𝒆 = 𝟐𝑷 𝑿 ≥ 𝒙 𝒏ế𝒖 𝒙 > 𝝁𝟎

9
Kiểm định giả thuyết “có thay đổi”

x  0
Tính giá trị: z 0 
 / n

𝑷 − 𝒗𝒂𝒍𝒖𝒆 = 𝑷(𝒁 < −|𝒛𝟎 |) + 𝑷(𝒁 > |𝒛𝟎 |) = 𝟐 × 𝑷 (𝒁 > |𝒛𝟎 |)

10
Bài tập

1. Một người nông dân sử dụng 1 loại phân bón mới cho 1 vườn táo và thu được
2756kg trên 100 cây. Biết rằng mức trung bình khi chưa sử dụng loại phân bón
mới này là 26kg/1 cây với độ lệch chuẩn là 5,2kg. Hãy tìm giá trị p-value của giả
thuyết loại phân bón mới làm thay đổi năng suất.
» 1. Thiết lập hai giả thuyết đối lập
» 2. Xác định mức ý nghĩa
» 3. Chọn lựa kiểm định phù hợp
» 4. Tính chỉ số thống kê tương ứng
» 5. Ra quyết định về giả thuyết không (bác bỏ hay không bác bỏ)
» 6. Ra một kết luận tổng thể
𝑷 − 𝒗𝒂𝒍𝒖𝒆 = 𝟐𝑷 𝑿 ≤ 𝒙 𝒏ế𝒖 𝒙 < 𝝁𝟎

𝑷 − 𝒗𝒂𝒍𝒖𝒆 = 𝟐𝑷 𝑿 ≥ 𝒙 𝒏ế𝒖 𝒙 > 𝝁𝟎


11
Bài tập
2. Sau khi thay đổi giám đốc, nhà máy sản xuất thép ghi nhận sản lượng trong 100 ngày, có trung bình và độ
lệch chuẩn của mẫu lần lượt là 880 tấn và 50 tấn. Hãy tìm giá trị p-value của giả thuyết rằng sản lượng bình
quân hàng ngày của nhà máy hiện nay khác với mức sản lượng trung bình 892 tấn/ngày đã được ghi nhận cách
đây 1 năm.

12
Bài tập

3. Một nhà máy sản xuất săm lốp ô tô tuyên bố rằng tuổi thọ trung bình một chiếc
lốp ô tô của họ là 30000 dặm. Cơ quan giám định nghi ngờ lời tuyên bố này đã
kiểm tra 100 chiếc lốp và tìm được trung bình mẫu là = 29000 dặm với độ lệch
tiêu chuẩn là 5000 dặm.
a) Sử dụng phương pháp P-giá trị, hãy kết luận xem cơ quan giám định có bác bỏ
được lời quảng cáo của nhà máy nói trên không? Mức ý nghĩa α = 0.05.
b) Cũng với câu hỏi trên nhưng với mức ý nghĩa được chọn là α = 0.02.

13
Kiểm định giả thuyết “có thay đổi”
4. Một phương pháp ăn kiêng được quảng cáo rằng sẽ làm giảm trọng lượng ít nhất là 45 pound trong 6 tháng.
Một mẫu gồm 36 người theo chế độ ăn kiêng này giảm trọng lượng trung bình là 35 pound với độ lệch tiêu
chuẩn là 20 pound. Sử dụng phương pháp P-giá trị, hãy kết luận xem quảng cáo trên có nói đúng không? Mức
ý nghĩa α = 0.01.

14
Kiểm định giả thuyết “thay đổi lớn hơn”
H0: μ = μ0
Ha: μ > μ0
» P-value là mức ý nghĩa nhỏ nhất mà vẫn có thể bác bỏ được H0.
» Kiểm định 1 phía

𝑷 − 𝒗𝒂𝒍𝒖𝒆 = 𝑷 𝑿 ≥ 𝒙

15
Kiểm định giả thuyết “thay đổi lớn hơn”

-zα/2 zα/2

x  0
Tính giá trị: z 0 
 / n

𝑷 − 𝒗𝒂𝒍𝒖𝒆 = 𝑷(𝒁 > 𝒛𝟎 )

16
Bài tập
1. Một người nông dân sử dụng 1 loại phân bón mới cho 1 vườn táo và thu được 2956kg trên một 100 cây.
Biết rằng mức trung bình khi chưa sử dụng loại phân bón mới này là 26kg/1 cây với độ lệch chuẩn là
5,2kg. Hãy tính p-value của giả thuyết sản lượng của cây táo tăng lên bởi loại phân bón này.

2. Sau khi thay đổi giám đốc mới, nhà máy sản xuất thép ghi nhận sản lượng trong 100 ngày, có trung bình
và độ lệch chuẩn của mẫu lần lượt là 980 tấn và 50 tấn. Hãy tính p-value của giả thuyết rằng sản lượng
bình quân hàng ngày của nhà máy hiện tăng hơn so với mức sản lượng trung bình 892 tấn/ngày đã được
ghi nhận cách đây 1 năm.

17
Bài tập
3. (Thí dụ 15, trang 106) Từ một tập hợp chính có trung bình 𝜇 (chưa biết) người ta lấy ra một mẫu có kích
thước n=36 và tính được trung bình mẫu 𝑥̅ = 5040 và độ lệch tiêu chuẩn mẫu s=780. Sử dụng phương pháp p-
giá trị hãy kiểm định giả thiết:
» H0: 𝜇 =4700
» Ha: 𝜇 >4700

𝑷 − 𝒗𝒂𝒍𝒖𝒆 = 𝑷 𝑿 ≥ 𝒙 18
Kiểm định giả thuyết “thay đổi nhỏ hơn”
H0: μ = μ0
Ha: μ < μ0
» P-value là mức ý nghĩa nhỏ nhất mà vẫn có thể bác bỏ được H0.
» Kiểm định 1 phía

𝑷 − 𝒗𝒂𝒍𝒖𝒆 = 𝑷 𝑿 ≤ 𝒙
19
Kiểm định giả thuyết “thay đổi nhỏ hơn”

-zα/2 zα/2

x  0
Tính giá trị: z 0 
 / n

𝑷 − 𝒗𝒂𝒍𝒖𝒆 = 𝑷(𝒁 < 𝒛𝟎 )

20
Bài tập
1. Một người nông dân sử dụng 1 loại phân bón mới cho 1 vườn táo và thu được 2356kg trên một
100 cây. Biết rằng mức trung bình khi chưa sử dụng loại phân bón mới này là 26kg/1 cây với độ
lệch chuẩn là 5,2kg. Tính p-value của giả thuyết sản lượng của cây táo bị giảm đi do loại phân
bón này.

2. Sau khi thay đổi giám đốc mới, nhà máy sản xuất thép ghi nhận sản lượng trong 100 ngày, có
trung bình và độ lệch chuẩn của mẫu lần lượt là 820 tấn và 50 tấn. Tính p-value của giả thuyết
rằng sản lượng bình quân hàng ngày của nhà máy hiện tại giảm đi so với mức sản lượng trung
bình 892 tấn/ngày đã được ghi nhận cách đây 1 năm.

21
Bài tập
3. (Thí dụ 16, trang 107) Từ một tập hợp chính có trung bình (chưa biết) người ta lấy ra một mẫu
có kích thước n=140 và tính được trung bình mẫu = 18.5 và độ lệch tiêu chuẩn mẫu s=6.8. Sử
dụng phương pháp p-giá trị hãy kiểm định giả thiết:
» H0: =19.4
» Ha: <19.4

22
Trường hợp cỡ
mẫu nhỏ hoặc
chưa biết
phương sai
tổng thể

23
Phương sai chưa biết

» Nếu phương sai của quần thể chưa biết, có thể được ước lượng bằng phương sai
mẫu.
• Trung bình mẫu: ̅=
• Phương sai mẫu:

s2 
 ( xi  x ) 2

n 1
» Nếu phương sai của quần thể chưa biết và tập mẫu nhỏ (n < 30)
• có phân bố Student với (n-1) bậc tự do; kì vọng μ và phương sai σ2x̅ = s2/n.

24
Bài tập

1. Một nhóm nghiên cứu công bố rằng trung bình một người vào siêu
thị A tiêu hết 140 ngàn đồng. Chọn một mẫu ngẫu nhiên gồm 50
người mua hàng, ta tính được số tiền trung bình họ tiêu là 154 nghìn
với độ lệch tiêu chuẩn là 62 nghìn. Sử dụng phương pháp p-giá trị
hãy kiểm tra xem công bố của nhóm nghiên cứu có đúng hay
không? Mức ý nghĩa 0.02.
2. Một công ty có hệ thống máy tính có thể xử lý 1200 hóa đơn trong
một giờ. Công ty mới nhập một hệ thống máy tính mới. Hệ thống
này khi chạy kiểm tra trong 40 giờ cho thấy số hóa đơn được xử lý
trung bình trong 1 giờ là 1260 với độ lệch tiêu chuẩn là 215. Sử
dụng phương pháp p-giá trị hãy nhận định xem hệ thống mới có tốt
hơn hệ thống cũ hay không? Mức ý nghĩa 0.05.
25
Bài tập
3. Một công ty sản xuất pin tuyên bố rằng pin của họ có tuổi thọ trung bình là 21.5 giờ. Một cơ quan kiểm tra
chất lượng kiểm tra 6 chiếc pin của công ty và thu được số liệu sau đây về tuổi thọ của 6 chiếc pin này:
19, 18, 22, 20, 16, 25.
Sử dụng phương pháp p-giá trị hãy kiểm tra xem kết quả này có xác nhận là quảng cáo của công ty là đúng
hay không? Mức ý nghĩa được chọn là 5%.

4. Một bản nghiên cứu thông báo rằng mức tiêu dùng hàng tháng của một sinh viên là 420 nghìn đồng. Để
kiểm tra, người ta chọn ngẫu nhiên 16 sinh viên và tìm được trung bình mỗi tháng họ tiêu 442 nghìn đồng với
độ lệch tiêu chuẩn là 60 nghìn đồng.
Sử dụng phương pháp p-giá trị hãy kiểm định xem kết luận của bản thông báo có thấp hơn sự thật hay không?
Mức ý nghĩa là 5%.

26
Bài tập

3. Một công ty sản xuất pin tuyên bố rằng pin của họ có tuổi thọ trung
bình là 21.5 giờ. Một cơ quan kiểm tra chất lượng kiểm tra 6 chiếc pin
của công ty và thu được số liệu sau đây về tuổi thọ của 6 chiếc pin này:
19, 18, 22, 20, 16, 25.
Sử dụng phương pháp p-giá trị hãy kiểm tra xem kết quả này có xác
nhận là quảng cáo của công ty là đúng hay không? Mức ý nghĩa được
chọn là 5%.

27
Thí dụ

» Một loại cây nào đó trong điều kiện bình thường có chiều cao trung bình là 10
inches. Người ta muốn thử xem một nguyên tố vi lượng A có ảnh hưởng đến
chiều cao của cây không. Trong một vườn thí nghiệm trồng 48 cây này có bón
thêm nguyên tố vi lượng A, ta tính được chiều cao trung bình là 10,3 với độ lệch
tiêu chuẩn 2,3. Sử dụng phương pháp p-giá trị, hãy kết luận xem nguyên tố vi
lượng A có làm tăng chiều cao của cây hay không? Mức ý nghĩa là 5%.

28
Đề thi cũ

» Giả sử trong một cuộc thử nghiệm về nhận biết mùi vị bia có 100 người tham gia.
Mỗi người được uống một cốc bia 333 và phải chỉ ra đây có phải bia 333 không.
Kết quả thống kê cho thấy trong 100 người tham gia, 46 người nhận biết sai. Có
một nhận định là thực ra những người tham gia thử nghiệm đều nhận biết hoàn
toàn ngẫu nhiên. Hãy kiểm định nhận định trên bằng các bước sau:
» Phát biểu các giả thuyết cần kiểm định.
» Tính P-value và kết luận.

29
Đề thi cũ

» Giả sử trong một cuộc thử nghiệm về nhận biết mùi vị bia có 100 người tham gia.
Mỗi người được uống một cốc bia 333 và phải chỉ ra đây có phải bia 333 không.
Kết quả thống kê cho thấy trong 100 người tham gia, 46 người nhận biết sai. Có
một nhận định là thực ra những người tham gia thử nghiệm đều nhận biết hoàn
toàn ngẫu nhiên. Hãy kiểm định nhận định trên bằng các bước sau:
» Phát biểu các giả thuyết cần kiểm định.
» Giải bài toán kiểm định trên theo phương pháp truyền thống.

30
Nội dung
» Phương pháp P-giá trị
» Kiểm định giả thuyết về giá trị của nhiều xác suất
» So sánh hai giá trị trung bình
» So sánh hai tỉ lệ

31
Kiểm định giả thuyết về giá trị của nhiều xác suất
» Ví dụ:
Gieo một con xúc sắc 600 lần. Số lần ra của từng mặt được cho trong bảng:
1 2 3 4 5 6 Tổng
106 92 97 105 88 112 600
Có thể coi con xúc sắc đó là cân đối hay không? Mức ý nghĩa là 5%.
» Phương pháp kiểm định (1 phía):
• H0: tần số lý thuyết 𝑛 và tần số quan sát 𝑛 xấp xỉ nhau.
• Giá trị kiểm định “khi bình phương”
𝑛 −𝑛
𝑇=
𝑛
• Nếu H0 đúng và nếu các tần số lý thuyết >= 5 thì T sẽ có phân bố xấp xỉ phân bố 𝜒 với k-1 bậc tự do.
• Bác bỏ H0 khi T lớn một cách có ý nghĩa.
» Chi tiết Chương 4 – Tiết 5 (tr.111)

32
Kiểm định giả thuyết với 2 mẫu
So sánh sự khác biệt giữa hai quần thể.
» So sánh hai giá trị trung bình
• Kiểm định xem có sự khác biệt về điểm thi môn xác suất thống kê giữa sinh viên nữ và sinh viên nam?
• Kiểm định xem có sự khác biệt về tuổi thọ trung bình của 2 loại pin do công ty A và công ty B sản xuất?
» So sánh hai tỉ lệ
• Kiểm định xem có sự khác biệt về tỉ lệ cử tri nam và tỉ lệ cử tri nữ bầu cho ứng viên A hay không?
• Kiểm định xem công thức mới đưa vào có làm tăng tỉ lệ người yêu thích Coca-Cola hay không?

33
So sánh hai giá trị trung bình

34
So sánh hai giá trị trung bình
» Biến ngẫu nhiên về khác biệt giữa mẫu 1 và mẫu 2 sẽ có phân bố chuẩn với
 Kì vọng:
 X 1 X 2   X 1   X 2
 Phương sai:
 2
1  2
2
 2
X 1 X 2  2
X1  2
X 2  
n1 n2
 2
1  2
2
 X 1 X 2  
n1 n2

» n1, và n2 là kích thước của mẫu từ quần thể 1 và quần thể 2


» σ1 và σ2 là độ lệch chuẩn của quần thể 1 và quần thể 2.
» Lưu ý: σ1 và σ2 có thể được ước lượng từ độ lệch chuẩn của mẫu lấy từ quần thể 1 và quần thể 2 nếu kích
thước mẫu >= 30.

35
Kiểm định giả thuyết
trung bình của hai quần thể khác nhau
» Kiểm định giả thuyết trung bình của quần thể 1 và quần thể 2 khác nhau:
H0: μ1 = μ2
Ha: μ1 ≠ μ2

» Tính giá trị kiểm định z:

( x1  x 2)  ( 1   2) H 0 ( x1  x 2)
z 
 X 1 X 2  X 1 X 2

36
Kiểm định giả thuyết
trung bình của hai quần thể khác nhau
Bài tập
» Kiểm định giả thuyết có sự khác biệt giữa điểm của các bạn nam và các bạn nữ với mức ý nghĩa 5%.

Quần thể Điểm Độ lệch chuẩn Kích thước


mẫu
Nam 6.5 0.5 50
Nữ 6.0 0.7 30

 2
1  2
2
 2
X 1 X 2  2
X1  2
X 2  
n1 n2
 2
1  2
2
 X 1 X 2  
n1 n2
( x1  x 2)  ( 1   2) H 0 ( x1  x 2)
z 
 X 1 X 2  X 1 X 2
37
Kiểm định giả thuyết
trung bình của hai quần thể
Bài tập
» Kiểm định giả thuyết lương công ty A hơn lương công ty B tối thiểu là 3 triệu với mức ý nghĩa 5%.

Quần thể Lương Độ lệch chuẩn Kích thước mẫu


Công ty A 12t 1.5 100
Công ty B 8.5t 1.2 64

 2
1  2
2
 2
X 1 X 2  2
X1  2
X 2  
n1 n2
 2
1  2
2
 X 1 X 2  
n1 n2
( x1  x 2)  ( 1   2) H 0
z
 X 1 X 2
38
So sánh hai tỉ lệ 𝑝 : tỉ lệ mẫu từ quần thể 1
𝑝 : tỉ lệ mẫu từ quần thể 2

39
Kiểm định giả thuyết
tỉ lệ của hai quần thể khác nhau
» Kiểm định giả thuyết trung bình của quần thể 1 và quần thể 2 khác nhau:
H0: p1 = p2
Ha: p1 ≠ p2

» Tính giá trị kiểm định z:

» 𝑝̂ ước lượng từ việc nhập 2 mẫu. (tr.158)


» Chú ý: kí hiệu 𝑝̂ ở slides là kí hiệu f trong giáo trình

40
Bài tập
» Công ty Coca-Cola đang nghiên cứu cải tiến công thức. Công thức cũ khi cho 500 người dùng thử có 130
người thích. Công thức mới khi cho 1000 người dùng thử có 300 người thích. Hãy kiểm định xem công thức
mới có làm tăng tỉ lệ người ưa thích Coca-Cola hay không? Mức ý nghĩa là 1%.

𝑝 −𝑝 − 𝑝 −𝑝
𝑧=
𝜎
𝑝 −𝑝
=
1 1
𝑝̂ (1 − 𝑝̂ )(𝑛 + 𝑛 )

41
diepht@vnu 42
Phân tích tương quan và
Hồi quy

Giảng viên: Hoàng Thị Điệp


Khoa CNTT – Đại học Công Nghệ

Xác suất thống kê Học kì I, 2022-2023


Một công ty sản xuất lò vi sóng quảng cáo rằng có không quá 10% số
lò vi sóng của họ phải sửa chữa trong 5 nămđầu sử dụng. Kiểm tra một
mẫu ngẫu nhiên gồm 57 lò vi sóng 5 năm tuổi củacông ty thì thấy 13%
đã qua sửa chữa. Sử dụng phương pháp p-giá trị, hãykiểm định quảng
cáo của công ty với mức ý nghĩa 4%.

diepht@vnu 2
Nội dung

» Phân tích tương quan tuyến tính


» Kiểm định tính độc lập
» Phân tích hồi quy tuyến tính

3
Ví dụ 1 (Bài 2, trang 252)

Một công ty nhỏ quan tâm tới việc phân tích hiệu quả của việc quảng cáo. Trong
thời gian 5 tháng công ty thu được kết quả sau:

X 5 8 10 15 22
Y 6 15 20 30 39

Trong đó X là số tiền chi vào quảng cáo (đơn vị là trăm USD) còn Y là tổng doanh
thu (đơn vị là nghìn USD). Hãy xác định hệ số tương quan.

4
Ví dụ 2 (Bài 3, trang 252)

Một trường đại học thu thập các số liệu về số tín chỉ mà một sinh viên theo học và
số giờ học ở nhà của anh ta trong một tuần:

X 20 25 30 50 20 23
Y 12 13 12 15 16 16

Ở đó X là số giờ học, Y là số tín chỉ. Tìm hệ số tương quan giữa X và Y. Ở mức ý


nghĩa bằng 5% có sự tương quan tuyến tính giữa hai biến nói trên hay không?

5
Ví dụ 3 (Bài 4, trang 252)

Một nghiên cứu được tiến hành ở Mỹ để xác định mối quan hệ giữa chiều cao của
một người và cỡ giày của họ. Nhà nghiên cứu đã thu được số liệu sau:

X 66 63 67 71 62
Y 9 7 8.5 10 6

Trong đó X là chiều cao (đơn vị là inches) và Y là cỡ giày. Hãy tính hệ số tương


quan giữa X và Y.

6
Ví dụ 4 (Bài 5, trang 253)

Tuổi và huyết áp của 10 bệnh nhân trẻ em (dưới 14 tuổi) chọn ngẫu nhiên được
cho trong bảng sau đây:

X 14 1 9 7 9 12 1 3 9 1
Y 100 83 112 152 104 90 92 85 120 130

Trong đó X là tuổi còn Y là huyết áp. Tìm đường hồi quy mẫu của Y đối với X. Tính
sai số tiêu chuẩn của đường hồi quy.

7
Ví dụ 5 (Đề thi cũ)

Thống kê về số buổi đi học (X) và điểm thi cuối kì môn XSTK (Y) từ 20 sinh viên
được cho ở bảng dưới. Phân tích tương quan giữa X và Y.
X 15 14 10 14 15 7 11 9 14 12
Y 10 9 4 8 9 2 6 8 7 8

X 15 13 5 7 11 14 15 10 12 14
Y 10 8 0 4 6 7 8 5 7 9

8
Hệ số tương quan
» Giả sử X và Y là 2 ĐLNN
» Trong nhiều tình huống thực tế, X và Y không độc lập với nhau
• X là chiều dài cánh tay, Y là chiều cao của cùng 1 người
• X là điểm thi tốt nghiệp, Y là điểm thi đại học của cùng 1 người
» Hệ số tương quan đo mức độ phụ thuộc tuyến tính giữa X và Y
• Công thức hệ số tương quan lý thuyết 𝜌

• 𝜌 ∈ −1; 1
• 𝜌=0 thì không có tương quan tuyến tính giữa X và Y
• |𝜌| càng gần 1 thì sự phụ thuộc tuyến tính giữa X và Y càng mạnh
• 𝜌 = 1 thì Y là một hàm tuyến tính của X
» Xét các bài toán ước lượng và kiểm định căn cứ trên 1 mẫu quan sát

9
Ước lượng

» Với mẫu quan sát ..., của (X,Y)


hệ số tương quan:

» Ví dụ: Một trường đại học thu thập các số liệu về số tín chỉ mà một sinh viên theo học (Y) và số
giờ học ở nhà của sinh viên đó trong 1 tuần (X):

X 20 25 30 50 20 23
Y 12 13 12 15 16 16

Tìm hệ số tương quan giữa X và Y.

10
diepht@vnu 11
Kiểm định xem X với Y có tương quan với nhau không

H0: (X,Y không tương quan tuyến tính)


H1:
» Định lý: Nếu X,Y có phân bố chuẩn 2 chiều thì dưới giả thiết H0, ĐLNN T có phân
bố Student với n-2 bậc tự do.

» Ví dụ: Khảo sát 20 trận đấu bóng đá cho thấy hệ số tương quan giữa số lần sút
bóng vào khung thành đối phương và số bàn thắng là 0.21. Với mức ý nghĩa 5%,
hãy kiểm định giả thiết “số lần sút bóng và số bàn thắng không tương quan.”

12
Kiểm định

H0:
H1:
Xét với
»
»

»
» Định lý: Dưới giả thiết H0, ĐLNN T có phân bố chuẩn tắc.
» Giá trị kiểm định T nói trên cũng cho phép xác định khoảng tin cậy cho hệ só
tương quan lý thuyết
• Chi tiết: xem trang 219, 220
13
Kiểm định tính độc lập (1)

» Phân biệt
• Dấu hiệu định lượng
• chiều cao, cân nặng, tuổi
• Dấu hiệu định tính
• màu mắt, cảm giác hạnh phúc
» Bài toán: Kiểm định tính độc lập của 2 dấu hiệu định tính A và B
• Chia dấu hiệu A làm r mức độ
• Chia dấu hiệu B làm k mức độ
• Một mẫu ngẫu nhiên gồm n cá thể, mỗi cá thể mang dấu hiệu A ở mức độ Ai nào đó và dấu
hiệu B ở mức độ Bj nào đó.
• nij là số cá thể mang dấu hiệu Ai và Bj
» Ghi chú: Để mở rộng bài toán này cho dấu hiệu định lượng X, ta chia miền giá trị
của X thành m khoảng.

14
diepht@vnu 15
𝑛
𝑇=𝑛 −1
𝑛 𝑛

diepht@vnu 16
Kiểm định tính độc lập (2)

» Bảng liên hợp các dấu hiệu

B1 B2 ... Bk Tổng
A1 𝑛 𝑛 𝑛 𝑛
A2 𝑛 𝑛 𝑛 𝑛
...
Ar 𝑛 𝑛 𝑛 𝑛
Tổng 𝑛 𝑛 𝑛 𝑛

» được gọi là tần số quan sát


.
» Tần số lý thuyết

17
Kiểm định tính độc lập (3)

» Định lý: Nếu n lớn và các tần số lý thuyết >= 5 thì T sẽ có phân bố xấp xỉ phân
bố với bậc tự do là (k-1)(r-1).
» Công thức cho T trong tính toán thực hành

18
𝑛
Bài tập 𝑇=𝑛
𝑛 𝑛
−1

1. Ở các cây ngọc trâm lá có 2 dạng “lá phẳng” hoặc “lá nhăn”; hoa có 2 dạng “hoa
bình thường” hoặc “hoa hoàng hậu”. Quan sát một mẫu gồm 560 cây ngọc trâm ta
thu được kết quả sau:
Hoa bình Hoa hoàng Tổng số
thường hậu
Lá phẳng 328 122 450
Lá nhăn 77 33 110
Tổng số 405 155 560

Với mức ý nghĩa 1%, có thể chấp nhận 2 đặc tính về hoa và lá nói trên là độc lập
hay không?

2. Bài 16, tr.257


19
Phân tích hồi quy tuyến tính
Ví dụ: Các số liệu về số trang của cuốn sách (X)
và giá bán của nó (Y) được cho trong bảng dưới
đây

Tên sách X Y (nghìn) 50


A 400 43 48
y = 0.03x + 30.5
46
B 600 48 R² = 0.96

Y
44
C 500 45 42
D 600 49 40
E 400 42 0 200 400 600 800
X
F 500 46

Hãy tìm đường thẳng hồi quy của Y theo X căn


cứ trên số liệu nói trên.

20
Hồi quy tuyến tính trong thực tế

» Dự đoán việc bán các sản phẩm trong tương lai dựa trên hành vi mua trong quá
khứ.
» Dự đoán tăng trưởng kinh tế của một quốc gia hoặc tỉnh thành.
» Dự đoán số bàn thắng mà cầu thủ ghi được trong các trận đấu sắp tới dựa trên
thành tích trước đó.
» Ước lượng mức lương công ty sẽ trả cho một người mới dựa trên số năm kinh
nghiệm.
» Giúp chủ đầu tư BĐS dự đoán số lượng và mức giá nhà sẽ bán trong những
tháng tới.

21
Phân tích hồi quy tuyến tính

» Giả sử X là 1 biến nào đó (ngẫu nhiên hay không ngẫu nhiên); Y là 1 biến ngẫu
nhiên phụ thuộc vào X
• Nếu thì Y sẽ có kì vọng là và phương sai là
» Ta nói: Y có hồi quy tuyến tính theo X
» Đường thẳng là đường thẳng hồi quy lý thuyết của Y đối với X
» gọi là hệ số hồi quy lý thuyết
» X gọi là biến độc lập; Y gọi là biến phụ thuộc
» Bài toán: Ước lượng trên một mẫu quan sát ...,
» Bài toán: Ước lượng trên một mẫu quan sát ...,

22
Bài toán ước lượng

» Dùng phương pháp bình phương tối thiểu


» a, b làm cực tiểu tổng

• a, b được gọi là các hệ số hồi quy


• đường thẳng y=ax+b gọi là đường
thẳng hồi quy

23
Ước lượng

» Kí hiệu .
» Công thức 1

» Công thức 2
.

» . được gọi là sai số tiêu chuẩn của đường hồi quy

24
Bài tập

Các số liệu về số trang của cuốn sách (X) và giá bán của nó (Y) được cho trong
bảng dưới đây
Tên X Y
sách (nghìn)
A 400 43
B 600 48
C 500 45
D 600 49
E 400 42 .
F 500 46

a) Hãy tìm đường thẳng hồi quy của Y theo X căn cứ trên số liệu nói trên.
b) Hãy tính sai số tiêu chuẩn của đường hồi quy . .
25
Dự báo

» Dự báo giá trị của Y khi , kí hiệu


» Dự báo kì vọng của Y ứng với , kí hiệu

» Khoảng tin cậy cho các giá trị dự báo nói trên: tr.236

26
Bài tập

Các số liệu về số trang của cuốn sách (X) và giá bán của nó (Y) được cho trong
bảng dưới đây
Tên sách X Y (nghìn)
A 400 43
B 600 48
C 500 45
D 600 49
E 400 42
F 500 46

c) Dự báo giá bán của 1 cuốn sách 450 trang với độ tin cậy 95%.

27
Kiểm định hệ số hồi quy lý thuyết

H0:
H1:
» Hệ số hồi quy có độ lệch tiêu chuẩn
. .

» Kiểm định thống kê có phân bố Student với n-2 bậc tự do nếu H0 đúng.

28
Bài tập

Các số liệu về số trang của cuốn sách (X) và giá bán của nó (Y) được cho trong
bảng dưới đây

Tên sách X Y (nghìn)


A 400 43
B 600 48
C 500 45
D 600 49
E 400 42
F 500 46

d) Với mức ý nghĩa 5%, hãy kiểm định giả thiết H0: “Hệ số góc của đường thẳng
hồi quy lý thuyết của Y đối với X bằng 0.”

29
Bài tập ôn cuối kì

Giảng viên: Hoàng Thị Điệp


Khoa CNTT – Đại học Công Nghệ

Xác suất thống kê Học kì I, 2022-2023


Bài 1

Chọn ngẫu nhiên 4 người X,Y,Z,T. Tính xác suất để trong đó có ít nhất hai người có
cùng ngày sinh nhật. Giả sử 1 năm có 365 ngày.
𝟑𝟔𝟓×𝟑𝟔𝟒×𝟑𝟔𝟑×𝟑𝟔𝟐
Đáp số:
𝟑𝟔𝟓𝟒

diepht@vnu 2
1. Chọn ngẫu nhiên 4 người X,Y,Z,T. Tính xác suất để trong đó có ít nhất hai người
có cùng ngày sinh nhật.

2. Một thủ kho có một chùm chìa khóa gồm 10 chiếc bề ngoài giống hệt nhau,
trong đó chỉ có hai chiếc mở được cửa kho. Anh ta thử ngẫu nhiên từng chìa
(chìa nào không trúng thì bỏ ra). Tính xác suất để anh ta mở được cửa sau
đúng 3 lần thử.

diepht@vnu 3
Bài 2

Một thủ kho có một chùm chìa khóa gồm 10 chiếc bề ngoài giống hệt nhau, trong
đó chỉ có hai chiếc mở được cửa kho. Anh ta thử ngẫu nhiên từng chìa (chìa nào
không trúng thì bỏ ra). Tính xác suất để anh ta mở được cửa sau đúng 3 lần thử.
𝟖 𝟕 𝟐
Đáp số:
𝟏𝟎 𝟗 𝟖

diepht@vnu 4
Bài 3
Một xét nghiệm y học T về một bệnh A có tính chất sau:
i) Nếu người được xét nghiệm có bệnh A thì T cho kết quả dương tính với xác suất 0,95
ii) Nếu người được xét nghiệm không có bệnh A thì T vẫn có thể cho kết quả dương tính với xác
suất 0,02.
Giả sử tỷ lệ mắc bệnh A là 0,1% trong toàn bộ dân số. Nếu một người có xét nghiệm T dương tính
thì xác suất để người đó mắc bệnh A là bao nhiêu?
𝟎.𝟗𝟓×𝟎.𝟎𝟎𝟏
Đáp số: 𝟎.𝟗𝟓×𝟎.𝟎𝟎𝟏 𝟎.𝟎𝟐×𝟎.𝟗𝟗𝟗

diepht@vnu 5
3. Một xét nghiệm y học T về một bệnh A có tính chất sau:
i) Nếu người được xét nghiệm có bệnh A thì T cho kết quả dương tính với xác suất 0,95
ii) Nếu người được xét nghiệm không có bệnh A thì T vẫn có thể cho kết quả dương tính với xác
suất 0,02.
Giả sử tỷ lệ mắc bệnh A là 0,1% trong toàn bộ dân số. Nếu một người có xét nghiệm T dương tính
thì xác suất để người đó mắc bệnh A là bao nhiêu?
4. Một tỉnh có 55% gia đình có điều hòa. Chọn ngẫu nhiên 10 gia đình và gọi X là số gia đình có
điều hòa.
a) Gọi tên phân bố xác suất của X.
b) Tính xác suất để có ít nhất 3 gia đình có điều hòa.
c) Tìm giá trị trung bình và độ lệch tiêu chuẩn của X.

diepht@vnu 6
Bài 4
Một tỉnh có 55% gia đình có điều hòa. Chọn ngẫu nhiên 10 gia đình và gọi X là số gia đình có điều
hòa.
a) Gọi tên phân bố xác suất của X.
b) Tính xác suất để có ít nhất 3 gia đình có điều hòa.
c) Tìm giá trị trung bình và độ lệch tiêu chuẩn của X.
Đáp số: a) Nhị thức; b) 0.973 c) 𝑿

diepht@vnu 7
Bài 4
Một tỉnh có 55% gia đình có điều hòa. Chọn ngẫu nhiên 10 gia đình và gọi X là số gia đình có điều
hòa.
a) Gọi tên phân bố xác suất của X.
b) Tính xác suất để có ít nhất 3 gia đình có điều hòa.
c) Tìm giá trị trung bình và độ lệch tiêu chuẩn của X.

Xấp xỉ?
Trong 5000 vé xổ số bán ra có 500 vé trúng thưởng. Một người mua 250 vé. Tính xác suất để anh ta
có ít nhất 30 vé trúng.
Đáp số:

diepht@vnu 8
Bài 5

Gọi X là số lượng lỗi đánh máy trên một trang sách in với trung bình là 3 lỗi trên
một trang.
a) Tính xác suất 1 trang sách được chọn ngẫu nhiên có ít nhất một lỗi đánh máy.
b) Tính xác suất 2 trang sách được chọn ngẫu nhiên không có lỗi đánh máy nào.
Đáp số: 𝟑 𝟔

diepht@vnu 9
5. Trong 5000 vé xổ số bán ra có 500 vé trúng thưởng. Một người mua 250 vé.
Tính xác suất để anh ta có ít nhất 30 vé trúng.

6. Gọi X là số lượng lỗi đánh máy trên một trang sách in với trung bình là 3 lỗi trên
một trang.
a) Tính xác suất 1 trang sách được chọn ngẫu nhiên có ít nhất một lỗi đánh máy.
b) Tính xác suất 2 trang sách được chọn ngẫu nhiên không có lỗi đánh máy nào.

diepht@vnu 10
Bài 6

Gọi X là chỉ số IQ của một người Việt Nam được chọn ngẫu nhiên. Giả sử
.
a) Tính xác suất một người Việt Nam chọn ngẫu nhiên có chỉ số IQ dưới 90.
b) Để nằm trong top 5% về chỉ số IQ thì X phải lớn hơn bao nhiêu?
Đáp số:

diepht@vnu 11
Bài 7

Một cuộc điều tra cho thấy 60% số dân trong một thành phố thích ăn sáng ngoài
hàng. Chọn ngẫu nhiên 300 người trong thành phố này. Hãy tính xác suất để có số
người thích ăn sáng ngoài hàng lớn hơn 200.
Đáp số:

diepht@vnu 12
Bài 8

Tuổi thọ trung bình của một loại máy tính X đang bán trên thị trường là 5 năm. Tính
xác suất 1 máy tính X bị hỏng trong thời gian 18 tháng bảo hành.
Đáp số: 𝟎.𝟑

diepht@vnu 13
Bài 9

Một công ty lớn muốn ước lượng trung bình một ngày một thư ký phải đánh máy
bao nhiêu trang giấy. Một mẫu gồm 54 thư ký được chọn ngẫu nhiên cho thấy số
trang trung bình mà họ đánh máy là 32 với độ lệch tiêu chuẩn là 6. Tìm khoảng tin
cậy 99% cho số trang trung bình mà một thư ký của công ty đánh máy trong một
ngày.
Đáp số:

diepht@vnu 14
Bài 10

Một người định mua một chiếc tai nghe đi khảo giá loại tai nghe này ở 8 cửa hàng.
Anh ta thấy giá bán đó như sau: 138, 149, 129, 135, 145, 125, 139, 142 (đơn vị là
nghìn đồng). Tìm khoảng tin cậy 90% cho giá của chiếc tai nghe này.

Đáp số:

diepht@vnu 15
Bài 11

Người ta muốn tìm khoảng tin cậy 95% cho trung bình điểm thi tốt nghiệp phổ
thông cơ sở với độ chính xác 0,2. Một mẫu điều tra sơ bộ cho thấy s = 1,2. Tìm
kích thước mẫu tối thiểu n.
Đáp số:

diepht@vnu 16
Bài 12

Một tay đua xe đạp nói rằng mỗi ngày trung bình anh ta đạp xe ít nhất 5 dặm
(trong rất nhiều năm). Chọn ngẫu nhiên 8 ngày trong sổ tay anh ta thì thấy các số
liệu về quãng đường anh ta đi được như sau: 5,3; 4,5; 4,8; 5,1; 4,3; 4,8; 4,9; 5,2.
Với mức ý nghĩa 5% có thể cho rằng anh ta nói đúng hay không?
𝟒.𝟖𝟔 𝟓
Đáp số: 𝟕;𝟎.𝟎𝟓
𝟎,𝟑𝟒/ 𝟖

diepht@vnu 17
Bài 13

Một nghiên cứu về quan hệ giữa khả năng nói sớm với khả năng học lúc lớn ở Mỹ
cho số liệu như sau:
Tuổi 15 26 10 9 15 20 18 11 8 20
Điểm 95 71 83 91 102 87 93 100 104 94
thi

Ở đây “Tuổi” tính bằng tháng là thời điểm người đó bắt đầu nói; “Điểm thi” là điểm
thi tốt nghiệp phổ thông.
Hãy phân tích tương quan tuyến tính giữa hai đại lượng nói trên.
Đáp số:
Tương quan tuyến tính tương đối mạnh; nghịch biến.

diepht@vnu 18
Bài 14
Có tài liệu về 11 xe máy Honda Wave đã qua sử dụng như sau: Số năm sử Giá bán (Y), đơn vị:
a) Hãy tìm đường thẳng hồi quy của Y theo X căn cứ trên số liệu nói dụng (X) triệu đồng
trên. 4 8.5
b) Hãy tính sai số tiêu chuẩn của đường hồi quy. 3 10.3
Đáp số: 5 7
1.28 4 8.2
4 8.9
4 9.8
5 6.6
5 9.5
1 16.9
6 7
6 4.8

diepht@vnu 19

You might also like