Professional Documents
Culture Documents
1 Thống kê mô tả 4
1.1 Trình bày dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Bảng tần số . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Bảng tần số tương đối . . . . . . . . . . . . . . . . . . 5
1.1.3 Nhóm dữ liệu . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Tổng kết dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Trung bình mẫu . . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 Trung vị mẫu . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.3 Mode mẫu . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.4 Phương sai và độ lệch chuẩn . . . . . . . . . . . . . . . 9
1.2.5 Phân vị mẫu . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Bất đẳng thức Chebyshev . . . . . . . . . . . . . . . . . . . . 11
1.4 Tập dữ liệu cặp đôi và hệ số tương quan mẫu . . . . . . . . . 12
1
3.7 Sự độc lập của các biến ngẫu nhiên . . . . . . . . . . . . . . . 40
3.8 Hiệp phương sai . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.9 Bất đẳng thức Chebyshev và luật số lớn . . . . . . . . . . . . 43
2
7 Kiểm định giả thuyết thống kê 80
7.1 Mức ý nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
7.2 Kiểm định giả thuyết về trung bình của một tổng thể chuẩn . 81
7.2.1 Trường hợp đã biết σ 2 . . . . . . . . . . . . . . . . . . 81
7.2.2 Trường hợp chưa biết σ 2 . . . . . . . . . . . . . . . . . 83
7.3 Kiểm định sự bằng nhau của hai trung bình tổng thể chuẩn . 85
7.3.1 Trường hợp đã biết σx2 và σy2 . . . . . . . . . . . . . . . 85
7.3.2 Trường hợp σx2 = σy2 = σ 2 chưa biết . . . . . . . . . . . 87
7.4 Kiểm định giả thuyết về phương sai . . . . . . . . . . . . . . . 88
7.4.1 Kiểm định giả thuyết về phương sai của một tổng thể
chuẩn . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.4.2 Kiểm định giả thuyết về sự bằng nhau của hai phương
sai tổng thể chuẩn . . . . . . . . . . . . . . . . . . . . 89
7.5 Kiểm định giả thuyết về tỉ lệ . . . . . . . . . . . . . . . . . . . 90
3
Chương 1
Thống kê mô tả
Thống kê mô tả là một lĩnh vực của thống kê liên quan đến việc trình bày
và tổng kết dữ liệu.
4
Lương khởi điểm Tần số
47 4
48 1
49 3
50 5
51 8
52 10
53 0
54 5
56 2
57 3
60 1
Dữ liệu từ bảng tần số trên có thể được biểu diễn một cách hình học bằng
column chart:
5
Loại ung thư Số lượng ca mắc mới Tần số tương đối
Phổi 42 0.21
Vú 50 0.25
Đại tràng 32 0.16
Tuyến tiền liệt 55 0.275
Hắc tố da 9 0.045
Bàng quang 12 0.06
Thông thường, người ta hay sử dụng pie chart để biểu diễn hình học cho
bảng tần số tương đối, như hình sau đây:
6
Lớp khoảng Tần số
[500, 600) 2
[600, 700) 5
[700, 800) 12
[800, 900) 25
[900, 1000) 58
[1000, 1100) 41
[1100, 1200) 43
[1200, 1300) 7
[1300, 1400) 6
[1400, 1500) 1
Thông thường ta sẽ phân chia dữ liệu sao cho các lớp khoảng có độ dài bằng
nhau. Hai đầu mút của khoảng gọi là các biên của lớp (class boundaries).
Ta quy ước là mỗi lớp khoảng chứa biên bên trái nhưng không chứa biên bên
phải. Chẳng hạn, lớp khoảng 500 − 600 chứa tất cả các giá trị lớn hơn hoặc
bằng 500 và nhỏ hơn 600.
Một cách hiệu quả để tổ chức tập dữ liệu cỡ vừa và nhỏ là vẽ thân và
lá (stem and leaf plot). Chẳng hạn, nếu dữ liệu chỉ toàn là số gồm hai
chữ số, ta có thể đặt phần thân là chữ số hàng chục và đặt phần lá là chữ số
hàng đơn vị. Ví dụ: thống kê về số điểm thi học kỳ của một nhóm sinh viên,
ta tổ chức dữ liệu kiểu "thân và lá" như sau:
9 0, 1, 4
8 3, 5, 5, 7, 8
7 2, 4, 4, 5, 7, 7, 8
6 0, 2, 3, 4, 6, 6
5 2, 5, 5, 6, 8
4 3, 6
7
Định nghĩa 1.1. Xét tập dữ liệu x1 , . . . , xn . Đại lượng x định bởi
x1 + · · · + xn
x= , (1.1)
n
được gọi là trung bình mẫu (sample mean).
Nhận xét 1.1.
• Đôi khi ta cần xác định trung bình mẫu của một tập hợp dữ liệu được
cho trong bảng tần số, gồm k giá trị phân biệt v1 , . . . , vk có các tần số
tương ứng là f1 , . . . , fk , trong đó f1 + · · · + fk = n. Trong trường hợp
này, trung bình mẫu được tính bởi
v1 · f1 + · · · + vk · fk
x= . (1.2)
n
8
1.2.3 Mode mẫu
Một thống kê khác dùng để biểu thị xu hướng tập trung của một tập dữ liệu
đó là mode mẫu, đó là giá trị được xảy ra với tần số lớn nhất.
Định nghĩa 1.3. Xét tập dữ liệu gồm n giá trị. Giá trị có tần số lớn nhất
được gọi là mode mẫu (sample mode).
Định nghĩa 1.4. Xét tập dữ liệu x1 , . . . , xn . Đại lượng s2 định bởi
A: 3, 4, 6, 7, 10.
B: − 20, 5, 15, 24.
Trung bình mẫu của tập dữ liệu A là xA = 6, và phương sai mẫu của A là
s2A = 7.5. Trung bình mẫu của tập dữ liệu B cũng là xB = 6, và phương sai
mẫu của B là s2B = 360.67. Như vậy, mặc dù cả hai tập dữ liệu đều có trung
bình bằng nhau, nhưng độ phân tán dữ liệu trong B lớn hơn nhiều so với A.
Định nghĩa 1.5. Xét tập dữ liệu x1 , . . . , xn . Đại lượng s định bởi
s
(x1 − x)2 + · · · + (xn − x)2
s= , (1.5)
n−1
9
1.2.5 Phân vị mẫu
Định nghĩa 1.6. Cho trước 0 ≤ p ≤ 1. Phân vị mẫu 100p (sample
percentile) là giá trị dữ liệu thỏa mãn cả hai điều kiện sau:
(b) Có ít nhất 100(1 − p)% dữ liệu lớn hơn hoặc bằng nó.
Nếu có hai giá trị dữ liệu thỏa mãn điều kiện trên, thì phân vị mẫu 100p là
trung bình cộng của hai giá trị đó.
Ví dụ 1.2. Nếu một tập dữ liệu có kích thước n = 22 và các giá trị dữ liệu
đã được xếp theo thứ tự tăng dần, thì phân vị mẫu 80 theo định nghĩa là giá
trị dữ liệu sao cho có ít nhất 80% dữ liệu (ít nhất 17.6 dữ liệu) nhỏ hơn hoặc
bằng nó và có ít nhất 20% dữ liệu (ít nhất 4.4 dữ liệu) lớn hơn hoặc bằng nó.
Rõ ràng là chỉ có dữ liệu ở vị trí thứ 18 là thỏa mãn cả hai điều kiện trên.
Định nghĩa 1.7. Phân vị mẫu 25 được gọi là tứ phân vị thứ nhất (first
quartile); phân vị mẫu 50 được gọi là trung vị hoặc tứ phân vị thứ hai
(second quartile); phân vị mẫu 75 được gọi là tứ phân vị thứ ba (third
quartile)
Người ta thường sử dụng box chart để tổng kết một tập dữ liệu bởi các
tứ phân vị Q1 , Q2 , Q3 và min, max.
10
Thông thường người ta dựa vào các tứ phân vị Q1 , Q2 , Q3 của box chart
để phát hiện ra những dữ liệu bất thường (outliers), đó là những dữ liệu
nằm ngoài đoạn [O1 , O2 ], trong đó:
với IQR là khoảng trải giữa (interquartile range) được tính bởi
IQR = Q3 − Q1 .
11
1.3 Bất đẳng thức Chebyshev
Định lý 1.1. Giả sử x và s > 0 lần lượt là trung bình mẫu và độ lệch chuẩn
mẫu của tập dữ liệu x1 , . . . , xn . Với mỗi số thực k ≥ 1, đặt
|Sk | 1
> 1 − 2. (1.7)
n k
Chứng minh. Ta có
n
X
2
(n − 1)s = (xi − x)2
i=1
X
≥ (xi − x)2
i∈S
/ k
X
≥ k 2 s2 = (n − |Sk |)k 2 s2 .
i∈S
/ k
n−1 |Sk |
2
≥1− ,
nk n
12
hay
|Sk | n−1 1
≥1− 2
> 1 − 2.
n nk k
Nhận xét 1.3. Bất đẳng thức Chebyshev phát biểu rằng có nhiều hơn
100(1 − 1/k 2 )% dữ liệu nằm trong khoảng từ x − ks đến x + ks. Như vậy, nếu
lấy k = 1.5, thì ta có nhiều hơn 100(1 − 1/k 2 )% ≈ 55.56% dữ liệu nằm trong
bán kính 1.5s tính từ trung bình mẫu x; lấy k = 2 thì ta có nhiều hơn 75%
dữ liệu nằm trong bán kính 2s tính từ x; lấy k = 3 ta có nhiều hơn 88.9%
dữ liệu nằm trong bán kính 3s tính từ x.
Có một cách hữu ích để mô tả tập dữ liệu cặp đôi là vẽ nó trên một đồ thị
hai chiều, còn gọi là biểu đồ phân tán (scatter chart). Chẳng hạn, tập
dữ liệu trong bảng trên được vẽ như trong hình sau đây:
13
Một câu hỏi thú vị liên quan đến các tập dữ liệu cặp đôi là liệu có phải các
giá trị x lớn có xu hướng cặp đôi với các giá trị y lớn, và các giá trị x nhỏ
cặp đôi với các giá trị y nhỏ hay không; nếu không phải như vậy, thì ta có
câu hỏi khác là liệu có phải các giá trị lớn của biến này có xu hướng căp đôi
với giá trị nhỏ của biến kia hay không. Ta có thể dùng biểu đồ phân tán để
trả lời một cách thô sơ cho các câu hỏi này. Chẳng hạn, từ biểu đồ phân tán
trên, ta có thể thấy xuất hiện một mối quan hệ nào đó giữa số năm đi học
nhiều và nhịp tim thấp. Để thu được một độ đo định lượng cho mối quan hệ
này, ta cần một thống kê để đo mức độ mà các giá trị x lớn đi với các giá trị
y lớn và các giá trị x nhỏ đi với các giá trị y nhỏ.
Xét tập dữ liệu cặp đôi (xi , yi ), i = 1, . . . , n. Với mỗi i, xét xi − x độ
lệch của giá trị x của nó với trung bình mẫu, và yi − y độ lệch của giá trị
y của nó với trung bình mẫu. Nếu xi là một giá trị x lớn, thì nó sẽ lớn hơn
trung bình của tất cả các giá trị x, do đó xi − x sẽ là số dương. Tương tự,
nếu xi là một giá trị x nhỏ, thì xi − x sẽ là số âm. Tương tự với các độ lệch
của y, ta có thể kết luận rằng: khi các giá trị lớn của biến x có xu hướng
liên quan với các giá trị lớn của y và các giá trị nhỏ của biến x có xu hướng
liên quan với các giá trị nhỏ của y, thì dấu của xi − x và yi − y sẽ có xu
hướng cùng dấu. Bây giờ, nếu xi − x và yi − y cùng dấu, thì tích của chúng
(xi − x)(yi − y) sẽ là số dương. Do đó, ta suy ra rằng khi các giá trị lớn của
biến x có xu hướng liên quan với các giá trị lớn của y và các giá trị nhỏ của
n
P
biến x có xu hướng liên quan với các giá trị nhỏ của y, thì (xi − x)(yi − y)
i=1
sẽ có xu hướng là một số dương "lớn". Tương tự, ta cũng suy ra rằng khi
các giá trị lớn của biến x có xu hướng liên quan với các giá trị nhỏ của y và
các giá trị nhỏ của biến x có xu hướng liên quan với các giá trị nhỏ của y,
Pn
thì (xi − x)(yi − y) sẽ có xu hướng là một số âm "lớn". Để xác định chữ
i=1
14
n
P
"lớn" của tổng (xi − x)(yi − y) có nghĩa là gì, ta cần chuẩn hóa tổng này
i=1 rn rn
P 2
P
bằng cách trước hết chia cho tích (xi − x) · (yi − y)2 . Kết quả là
i=1 i=1
một thống kê gọi là hệ số tương quan mẫu.
Định nghĩa 1.8. Xét tập dữ liệu cặp đôi (xi , yi ), i = 1, . . . , n. Đại lượng r
định bởi
Pn
(xi − x)(yi − y)
i=1
r=rn rn , (1.8)
P P
(xi − x)2 (yi − y)2
i=1 i=1
Khi r > 0 ta nói rằng các cặp dữ liệu (xi , yi ) có tương quan dương
(positively correlated), và khi r < 0 ta nói rằng chúng có mối tương
quan âm (negatively correlated).
Nhận xét 1.4. Từ định nghĩa trên, ta có các tính chất sau đây của hệ số
tương quan mẫu:
(1) −1 ≤ r ≤ 1.
(2) Nếu tồn tại các hằng số a và b, với a > 0, sao cho
yi = axi + b, i = 1, . . . , n,
thì r = 1.
(3) Nếu tồn tại các hằng số a và b, với a < 0, sao cho
yi = axi + b, i = 1, . . . , n,
thì r = −1.
Giá trị tuyệt đối của r là một thước đo sự mạnh yếu của mối liên quan
tuyến tính giữa các giá trị x và y. Giá trị |r| = 1 có nghĩa là có một mối liên
quan tuyến tính hoàn toàn, tức là có một đường thẳng đi qua tất cả các cặp
điểm dữ liệu (xi ; yi ), i = 1, . . . , n. Giá trị |r| = 0.8 có nghĩa mối liên quan
tuyến tính tương đối mạnh; mặc dù không có đường thẳng nào đi qua tất cả
các cặp điểm dữ liệu, nhưng có một đường thẳng mà rất "gần" tất cả các
cặp điểm dữ liệu. Giá trị |r| = 0.3 có nghĩa là mối liên quan tuyến tính tương
đối yếu.
15
Ví dụ 1.3. Với bảng dữ liệu ghi lại số năm đi học và nhịp tim của 10 người,
hệ số tương quan mẫu là r = −0.7638. Sự tương quan âm này cho thấy rằng
có mối liên quan tuyến tính tương đối mạnh giữa nhịp tim nhanh với số năm
đi học ít, và nhịp tim chậm với số năm đi học nhiều.
16
Bài tập
Bài tập 1.1. Số liệu về chiều cao của các sinh viên nữ (đơn vị: cm) trong
một lớp học như sau:
157 159 161 162 160 163 156 160 162 160 159 158 162
163 159 161 163 164 160 162 157 161 163 162 161 160
164 160 165 160 162 163 160 158 159 162 162
(a) Lập bảng tần số và tính trung bình mẫu, độ lệch chuẩn mẫu.
(c) Hãy sử dụng một phần mềm thống kê để tổng kết dữ liệu đã cho bằng
box plot.
Bài tập 1.2. Điểm kiểm tra của các học sinh trong một lớp học như sau:
9.8 9.5 9.3 8.3 8.0 7.5 7.8 9.8 9.3 9.8 8.8 8.8 8.5
6.8 9.5 7.8 8.3 9.3 9.0 9.5 7.5 1.3 7.3 7.8 8.8 9.0
2.0 9.0 9.5 7.8 7.0 7.3 9.8 9.5 9.5 8.3 8.5 7.3 9.0 6.5
(a) Hãy tổ chức dữ liệu kiểu "thân và lá" và tính trung bình mẫu, độ lệch
chuẩn mẫu.
(b) Hãy tổng kết dữ liệu bằng box plot, từ đó phát hiện "outliers".
Bài tập 1.3. Người ta thu thập số liệu về lượng mưa trong tháng 6 hằng
năm ở thượng nguồn sông Hồng và đỉnh lũ tương ứng với năm đó tại Hà Nội
(Y) như sau:
Năm 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984
X 660 780 770 710 640 670 520 660 590 500 460 610
Y 1272 1519 1524 1364 1253 1324 1002 1303 1337 960 879 1176
(a) Tính hệ số tương quan mẫu và cho biết kết quả này nói lên điều gì.
17
Chương 2
18
2.2 Định nghĩa xác suất theo tiên đề Kol-
mogorov
Định nghĩa 2.1. Xét một phép thử ngẫu nhiên có không gian mẫu Ω 6= ∅.
Một tập con của Ω được gọi là một biến cố (event) của phép thử ngẫu
nhiên nếu nó thuộc vào một σ−đại số F các tập con của Ω, tức là họ F
phải thỏa mãn ba tính chất sau:
(a) Ω ∈ F,
(b) Nếu A ∈ F thì Ac ∈ F,
∞
(c) Nếu {Aj }∞
S
j=1 ⊂ F thì Aj ∈ F.
j=1
Họ F được gọi là không gian biến cố (event space) của phép thử ngẫu
nhiên.
Định nghĩa 2.2. Xét một phép thử ngẫu nhiên có không gian mẫu Ω 6= ∅
và F là một không gian biến cố. Ánh xạ P : F → R thỏa mãn ba tính chất
sau:
(P1) 0 ≤ P (A) ≤ 1 với mọi A ∈ F,
(P2) P (Ω) = 1,
(P3) Nếu {Aj }∞
j=1 ⊂ F, và Ai ∩ Aj = ∅ với i 6= j, thì
∞
[ ∞
X
P Aj = P (Aj ), (2.3)
j=1 j=1
19
hay
∞
X
P (∅) = 0.
j=2
Định lý 2.2. Cho không gian xác suất (Ω, F, P ) và {Aj }nj=1 là một họ hữu
hạn gồm n biến cố rời nhau. Khi đó, ta có
n
[ n
X
P Aj = P (Aj ). (2.5)
j=1 j=1
Định lý 2.3. Cho không gian xác suất (Ω, F, P ), trong đó Ω chỉ có hữu hạn
phần tử và xác suất xảy ra của mỗi phần tử đều như nhau. Khi đó, ta có
|A|
P (A) = , với mọi A ∈ F. (2.6)
|Ω|
n
P
Chứng minh. Giả sử Ω = {ω1 , . . . , ωn }. Vì 1 = P (Ω) = P ({ωj }) và
j=1
P ({ω1 }) = · · · = P ({ωn }) nên ta được:
1
P ({ωj }) = , với mọi j = 1, . . . , n.
n
Lấy tùy ý A ∈ F. Giả sử A có m phần tử ký hiệu là ωi1 , . . . , ωim . Ta có:
m
X 1 m |A|
P (A) = P ({ωik }) = m · = = .
k=1
n n |Ω|
20
Ví dụ 2.1. Một lớp học lý thuyết xác suất gồm 6 nam và 4 nữ. Các sinh
viên đã làm một bài kiểm tra và họ được xếp hạng dựa vào điểm của bài kiểm
tra. Giả sử rằng không có hai sinh viên nào bằng điểm.
(b) Nếu tất cả cách xếp hạng được xem là có khả năng xảy ra như nhau,
thì xác suất để 4 bạn nữ xếp ở 4 vị trí đầu tiên là bao nhiêu ?
Định lý 2.4. Cho không gian xác suất (Ω, F, P ). Nếu A ∈ F thì
P (Ac ) = 1 − P (A).
Định lý 2.5. Cho không gian xác suất (Ω, F, P ). Nếu A, B ∈ F sao cho
A ⊂ B, thì
P (B \ A) = P (B) − P (A). (2.8)
P (B \ A) = P (B) − P (A).
Định lý 2.6. Cho không gian xác suất (Ω, F, P ). Nếu A, B ∈ F thì
21
(a) Nếu {Aj }∞
j=1 ⊂ F là một dãy tăng các biến cố, tức là
A1 ⊂ A2 ⊂ . . . ⊂ An ⊂ An+1 ⊂ . . . ,
thì ∞
[
P Aj = lim P (An ). (2.10)
n→∞
j=1
B1 ⊃ B2 ⊃ . . . ⊃ Bn ⊃ Bn+1 ⊃ . . . ,
thì ∞
\
P Bj = lim P (Bn ). (2.11)
n→∞
j=1
Chứng minh. (a). Giả sử {Aj }∞j=1 ⊂ F là một dãy tăng các biến cố. Đặt
E1 = A1 , Ej = Aj \ Aj−1 với mọi j ≥ 2. Vì {Ej }∞j=1 là dãy các biến cố rời
nhau nên ta có:
[ ∞ [∞ X ∞
P Aj = P Ej = P (Ej )
j=1 j=1 j=1
Xn
= lim P (Ej )
n→∞
j=1
n
X
= lim P (A1 ) + (P (Aj ) − P (Aj−1 ))
n→∞
j=2
= lim P (An ).
n→∞
= 1 − lim P (Bnc )
n→∞
= 1 − lim 1 − P (Bn )
n→∞
= lim P (Bn ).
n→∞
22
2.3 Xác suất có điều kiện
Cho không gian xác suất (Ω, F, P ). Cho B là một biến cố. Trong một số
trường hợp, ta chỉ quan tâm đến các kết quả xảy ra mà các kết quả này là
các phần tử của B. Điều này có nghĩa là ta xem B là một không gian mẫu
mới.
Để có một số phỏng đoán ban đầu về "xác suất có điều kiện", ta giả sử Ω là
một tập hữu hạn khác rỗng và B là một biến cố khác rỗng. Với không gian
mẫu mới là B, làm sao để định nghĩa xác suất của một biến cố A ? Bằng
trực giác, ta có thể định nghĩa xác suất của một biến cố A ứng với không
gian mẫu mới B như sau
|A ∩ B|
P (A|B) =
|B|
P (A ∩ B)
= ,
P (B)
dấu bằng cuối cùng có được sau khi chia tử và mẫu cho số phần tử của Ω.
Từ phỏng đoán trên, ta đi đến định nghĩa sau.
Định nghĩa 2.3. Cho không gian xác suất (Ω, F, P ) và A, B ∈ F, trong đó
P (B) > 0. Đại lượng P (A|B) định bởi
P (A ∩ B)
P (A|B) = , (2.12)
P (B)
23
được gọi là xác suất có điều kiện (conditional probability) của biến cố
A, với điều kiện biến cố B đã xảy ra.
Nhận xét 2.2. Ánh xạ P (·|B) : F → R được định nghĩa như trên cũng một
độ đo xác suất trên F.
Ví dụ 2.2. Trong một hộc tủ có chứa 18 chiếc vớ gồm 4 chiếc màu đen, 6
chiếc màu nâu và 8 chiếc màu ô-liu. Lấy ngẫu nhiên 2 chiếc vớ trong hộc tủ
đó.
(a) Xác suất để lấy được 2 chiếc vớ cùng màu là bao nhiêu ?
(b) Nếu biết rằng 2 chiếc vớ được lấy là cùng màu, thì xác suất để 2 chiếc
vớ ấy màu ô-liu là bao nhiêu ?
Ví dụ 2.3. Lấy ngẫu nhiên 2 chiếc tivi (lấy lần lượt từng chiếc không hoàn
lại) từ một lô hàng gồm 240 chiếc tivi trong đó có 15 chiếc bị lỗi. Xác suất
để cả 2 chiếc được lấy đều bị lỗi là bao nhiêu ?
Ví dụ 2.4. Lấy ngẫu nhiên 3 cầu chì (lấy lần lượt từng chiếc không hoàn
lại) từ một hộp đựng 20 cầu chì trong đó có 5 cầu chì bị lỗi. Xác suất để cả
3 cầu chì được lấy đều bị lỗi là bao nhiêu ?
Định nghĩa 2.4. Cho không gian xác suất (Ω, F, P ). Hai biến cố A và B
được gọi là độc lập (independent) nếu
Định lý 2.8. Cho không gian xác suất (Ω, F, P ). Nếu A và B là hai biến
cố độc lập và P (B) > 0, thì
Chứng minh.
P (A ∩ B) P (A) · P (B)
P (A|B) = = = P (A).
P (B) P (B)
Định lý 2.9. Cho không gian xác suất (Ω, F, P ). Nếu A và B là hai biến
cố độc lập, thì Ac và B cũng là hai biến cố độc lập.
24
Chứng minh.
P (Ac ∩ B) = P (B \ (A ∩ B))
= P (B) − P (A ∩ B)
= P (B) − P (A) · P (B)
= (1 − P (A)) · P (B)
= P (Ac ) · P (B)
Định lý 2.10. Cho không gian xác suất (Ω, F, P ). Nếu A và B là hai biến
cố có thể và xung khắc nhau, thì chúng không phải là hai biến cố độc lập.
25
Định lý 2.11. Cho không gian xác suất (Ω, F, P ). Giả sử họ các biến cố có
thể {Bj }nj=1 là một phân hoạch của Ω. Khi đó, với mọi biến cố A, ta có
n
X
P (A) = P (Bj ) · P (A|Bj ). (2.17)
j=1
Chứng minh.
P (A) = P (A ∩ B1 ) + P (A ∩ B2 ) + · · · + P (A ∩ Bn )
= P (B1 ) · P (A|B1 ) + P (B2 ) · P (A|B2 ) + · · · + P (Bn ) · P (A|Bn ).
26
(a) Xác suất một người được chọn ngẫu nhiên có kết quả dương tính với
xét nghiệm phát hiện bệnh X là bao nhiêu ?
(b) Trong trường hợp bạn là người có kết quả dương tính với xét nghiệm
phát hiện bệnh X, xác suất bạn mắc bệnh X là bao nhiêu ?
Định lý 2.12 (Bayes Theorem). Cho không gian xác suất (Ω, F, P ). Giả sử
họ các biến cố có thể {Bj }nj=1 là một phân hoạch của Ω. Khi đó, với mọi biến
cố có thể A, ta có
P (Bk )P (A|Bk )
P (Bk |A) = P
n , k = 1, 2, . . . , n. (2.18)
P (Bj ) · P (A|Bj )
j=1
Ví dụ 2.7. Có 60 phần trăm người mới biết lái xe đã có bằng lái xe. Trong
năm đầu tiên lái xe, những người mới biết lái xe nhưng chưa có bằng lái xe
có xác suất gây tai nạn là 0.08, trong khi những người mới biết lái xe đã có
bằng lái xe có xác suất gây tai nạn là 0.05. Trong trường hợp một người mới
biết lái xe không gây tai nạn trong năm đầu tiên lái xe, xác suất người đó có
bằng lái xe là bao nhiêu ?
Ví dụ 2.8. Để trả lời một câu hỏi trong một bài trắc nghiệm m lựa chọn,
một sinh viên hoặc là biết câu trả lời hoặc là đoán. Giả sử p là xác suất sinh
viên đó biết câu trả lời và 1 − p là xác suất sinh viên đó đoán. Biết rằng sinh
viên đoán đúng với xác suất là 1/m. Nếu anh ta trả lời đúng một câu hỏi nào
đó thì xác suất anh ta biết câu trả lời cho câu hỏi đó là bao nhiêu ?
Ví dụ 2.9. Có 2 hộp A và B đều đựng các con chip điện tử. Hộp A chứa
4 con màu đỏ và 5 con màu xanh. Hộp B chứa 6 con màu đỏ và 3 con màu
xanh. Chọn ngẫu nhiên một con chip trong hộp A rồi bỏ vào hộp B. Sau đó,
chọn ngẫu nhiên một con chip trong hộp B. Trong trường hợp con chip được
chọn từ hộp B là màu đỏ, xác suất chuyển con chip màu xanh trong hộp A
sang hộp B là bao nhiêu ?
27
Bài tập
Bài tập 2.1. Chọn ngẫu nhiên một vé số có năm chữ số.
(a) Tính xác suất để chọn được vé không có chữ số 1 hoặc không có chữ
số 5.
Bài tập 2.2. Một công ty cần tuyển 2 nhân viên. Có 6 người nộp đơn, trong
đó có 4 nữ và 2 nam. Biết rằng khả năng được tuyển của mỗi người là như
nhau.
(a) Tính xác suất để cả hai nữ đều được chọn, biết rằng ít nhất một nữ đã
được chọn.
(b) Giả sử Lan là một trong 4 người nữ nộp đơn. Tính xác suất để Lan
được chọn nếu biết rằng ít nhất một nữ đã được chọn.
Bài tập 2.3. Chuồng gà thứ nhất có 9 con mái và 1 con trống. Chuồng gà
thứ hai có 1 con mái và 5 con trống. Từ mỗi chuồng gà bắt ra ngẫu nhiên
một con. Các con gà còn lại được dồn vào chuồng thứ ba. Bắt ngẫu nhiên
một con gà trong chuồng thứ ba, xác suất để bắt được gà trống là bao nhiêu
?
HD: Sử dụng công thức xác suất toàn phần với phân hoạch B1 , B2 , B3
lần lượt là "2 con gà được bắt đều là trống", "2 con gà được bắt đều là mái",
"2 con gà được bắt gồm 1 trống và 1 mái". ĐS: 38/105.
Bài tập 2.4. Một cặp sinh đôi có thể do cùng một trứng sinh ra (sinh đôi
thật), hoặc do hai trứng khác nhau sinh ra (sinh đôi giả). Các cặp sinh đôi
thật luôn có cùng giới tính. Đối với cặp sinh đôi giả thì khả năng cùng giới
tính và khác giới tính là như nhau. Thống kê cho thấy 34% cặp sinh đôi đều
là trai, 30% cặp sinh đôi đều là gái, và 36% cặp sinh đôi có giới tính khác
nhau.
(b) Chọn ngẫu nhiên một cặp sinh đôi thì được một cặp có cùng giới tính.
Tính xác suất để cặp đó là sinh đôi thật.
28
HD: Đặt B1 , B2 , A lần lượt là "cặp sinh đôi là thật", "cặp sinh đôi là
giả", "cặp sinh đôi cùng giới". Sử dụng công thức xác suất toàn phần
Bài tập 2.5. Biết rằng người có nhóm máu AB có thể nhận máu của bất
kỳ nhóm máu nào. Nếu một người có nhóm máu A, hoặc B, hoặc O thì chỉ
có thể nhận máu của người cùng nhóm máu hoặc người có nhóm máu O.
Biết rằng tỷ lệ người có nhóm máu O, A, B, và AB trong dân số lần lượt là
33.7%, 37.5%, 20.9%, và 7.9%.
(a) Chọn ngẫu nhiên một người cần tiếp máu và một người cho máu. Tính
xác suất để sự truyền máu thực hiện được.
(b) Chọn ngẫu nhiên một người cần tiếp máu và hai người cho máu. Tính
xác suất để sự truyền máu thực hiện được.
HD: Sử dụng công thức xác suất toàn phần với phân hoạch {O, A, B, AB}.
ĐS: (a) 0.5737. (b) 0.7777.
Bài tập 2.6. Trong số bệnh nhân ở một bệnh viện có 50% điều trị bệnh
A, 30% điều trị bệnh B, và 20% điều trị bệnh C. Xác suất để chữa khỏi các
bệnh A, B, và C trong bệnh viện này tương ứng là 0.7, 0.8, và 0.9. Hãy tính
tỷ lệ bệnh nhân được chữa khỏi bệnh A trong tổng số bệnh nhân được chữa
khỏi bệnh.
29
Chương 3
30
Nhận xét 3.1. Nếu X là một biến ngẫu nhiên, thì ta cũng chứng minh được
các tập X −1 (−∞, a), X −1 [a, +∞), X −1 (a, +∞), X −1 {a} cũng thuộc không
gian các biến cố với mọi số thực a.
Để ngắn gọn, nếu X là một biến ngẫu nhiên thì ta ký hiệu các biến cố
X (a, b], X −1 {a} lần lượt bởi
−1
31
Nhận xét 3.2. Nếu p là hàm khối lượng xác suất của biến ngẫu nhiên rời
rạc X, thì ta có X
p(x) = 1. (3.5)
x
Thật vậy, X X
p(x) = P (X = x)
x x
[
=P (X = x)
x
= P (Ω) = 1.
Định lý 3.1. Cho không gian xác suất (Ω, F, P ), X là một biến ngẫu nhiên
rời rạc trên Ω. Gọi p(·) và F (·) lần lượt là hàm khối lượng xác suất và hàm
phân phối tích lũy của X. Khi đó, ta có
X
F (x) = p(k), với mọi x ∈ R. (3.6)
k≤x
Ví dụ 3.4. Xét phép thử tung một đồng xu 3 lần. Gọi X là số lần xuất hiện
mặt ngửa. Hãy chỉ ra miền giá trị, hàm khối lượng xác suất, hàm phân phối
tích lũy của X.
thì ta nói X là biến ngẫu nhiên liên tục (continuous random variable).
Hàm f (·) được gọi là hàm mật độ xác suất (p.d.f - probability density
function) của X.
32
Nhận xét 3.3.
• Nếu cho a → ∞ trong định nghĩa trên thì ta được
Z ∞
1 = P (X ∈ (−∞, ∞)) = f (x)dx. (3.8)
−∞
• Từ định nghĩa trên ta thu được mối liên hệ giữa hàm phân phối tích
lũy F (·) và hàm mật độ xác suất f (·) bởi
Z x
F (x) = P (X ≤ x) = f (y)dy, với mọi x ∈ R, (3.9)
−∞
Ví dụ 3.5. Cho X là biến ngẫu nhiên liên tục có hàm mật độ xác suất là:
(
C · (4x − 2x2 ), nếu x ∈ [0, 2],
f (x) =
0, nếu x ∈
/ [0, 2].
(a) Giá trị của hằng số C là bao nhiêu ?
(b) Hãy tính P (X > 1).
(c) Tìm hàm phân phối tích lũy của X.
Định lý 3.2. Cho không gian xác suất (Ω, F, P ) và X là một biến ngẫu
nhiên liên tục trên Ω. Khi đó, với mọi a ∈ R, ta có
P (X = a) = 0. (3.11)
Chứng minh. Ta có
∞
\
(X = a) = (a − 1/j < X ≤ a).
j=1
Do đó ∞
\
P (X = a) = P (a − 1/j < X ≤ a)
j=1
33
3.3 Kỳ vọng
Định nghĩa 3.6. Cho không gian xác suất (Ω, F, P ) và X là biến ngẫu
nhiên trên Ω. Gọi p(·) là hàm khối lượng xác suất của X trong trường hợp
rời rạc; f (·) là hàm mật độ xác suất của X trong trường hợp liên tục. Đại
lượng E[X] định bởi
X
xp(x), nếu X rời rạc,
x
E[X] = Z ∞ (3.12)
xf (x)dx, nếu X liên tục,
−∞
Định nghĩa 3.8. Cho X là biến ngẫu nhiên có trung bình là µX . Đại lượng
Var(X) định bởi
Var(X) = E[(X − µX )2 ], (3.15)
được gọi là phương sai (variance) của X. Đại lượng σX định bởi
p
σX = Var(X), (3.16)
được gọi là độ lệch chuẩn (standard deviation) của X.
34
Định lý 3.4. Cho X là biến ngẫu nhiên có trung bình là µX và độ lệch
chuẩn là σX . Khi đó, ta có
2
σX = E[X 2 ] − µ2X . (3.17)
Chứng minh.
2
σX = Var(X) = E[(X − µX )2 ]
Z ∞
= (x − µX )2 f (x)dx
Z−∞
∞ Z ∞ Z ∞
2 2
= x f (x)dx − 2µX xf (x)dx + µX f (x)dx
−∞ −∞ −∞
= E[X 2 ] − 2µ2X + µ2X
= E[X 2 ] − µ2X .
Đối với một số biến ngẫu nhiên X, việc tính các moment E[X n ] bằng
định nghĩa là một việc không dễ. Tuy nhiên, ta có thể vượt qua các khó khăn
này bằng cách sử dụng khái niệm "hàm sinh moment".
Định nghĩa 3.10. Cho X là một biến ngẫu nhiên. Hàm số M : (a, b) → R
định bởi
M (t) = E[etX ], t ∈ (a, b), (3.18)
trong đó (a, b) là một khoảng nào đó chứa 0, được gọi là hàm sinh moment
(moment generating function) của X.
35
Định lý 3.5. Cho X là biến ngẫu nhiên và M là hàm sinh moment của X.
Khi đó, moment cấp n của X chính là đạo hàm cấp n của hàm sinh moment
tại điểm t = 0, tức là
E[X] = M 0 (0),
E[X 2 ] = M 00 (0),
(3.19)
...
E[X n ] = M (n) (0).
Chứng minh.
M (t) = E[etX ]
h tX (tX)2 (tX)n i
=E 1+ + + ··· + + ···
1! 2! n!
2
E[X] E[X ] 2 E[X n ] n
= E[1] + t+ t + ··· + t + ···
1! 2! n!
Suy ra:
E[X n ] = M (n) (0), n = 1, 2, . . . .
Hãy tìm hàm sinh moment của X, từ đó suy ra trung bình và phương sai của
X.
Định nghĩa 3.11. Cho X là biến ngẫu nhiên. Hàm số Φ : R → C định bởi
36
• Từ định nghĩa ta suy ra mối liên hệ giữa hàm đặc trưng và hàm sinh
moment:
Φ(t) = M (it).
• Không giống như hàm sinh moment, hàm đặc trưng của một biến ngẫu
nhiên bất kỳ lúc này cũng tồn tại.
• Hàm mật độ xác suất f (x) có thể tìm ngược lại từ hàm đặc trưng bởi
công thức: Z ∞
1
f (x) = e−itx Φ(t)dt.
2π −∞
được gọi là hàm phân phối tích lũy đồng thời (joint cumulative dis-
tribution function) của X và Y .
được gọi là hàm khối lượng xác suất đồng thời (joint probability
mass function) của X và Y .
Nhận xét 3.5. Nếu p(·, ·) là hàm khối lượng xác suất đồng thời của hai biến
ngẫu nhiên rời rạc X và Y , thì ta có
XX
p(x, y) = 1. (3.23)
x y
37
Nhận xét 3.6. Hàm khối lượng xác suất pX của biến X dễ dàng được xác
định từ hàm khối lượng xác suất đồng thời p(·, ·) của X và Y :
pX (x) = P (X = x)
[
=P (X = x, Y = y)
y
(3.24)
X
= P (X = x, Y = y)
y
X
= p(x, y).
y
pY (y) = P (Y = y)
[
=P (X = x, Y = y)
x
=
X
P (X = x, Y = y) (3.25)
x
X
= p(x, y).
x
Định nghĩa 3.14. Cho không gian xác suất (Ω, F, P ) và X, Y là hai biến
ngẫu nhiên rời rạc trên Ω. Gọi p(·, ·) là hàm khối lượng xác suất đồng thời
của X và Y . Hàm số pX : X(Ω) → R và pY : Y (Ω) → R định bởi
X
pX (x) = p(x, y), x ∈ X(Ω), (3.26)
y∈Y (Ω)
X
pY (y) = p(x, y), y ∈ Y (Ω), (3.27)
x∈X(Ω)
lần lượt được gọi là hàm khối lượng xác suất biên (marginal proba-
bility mass function) của X và Y .
Ví dụ 3.9. Cho X, Y là hai biến ngẫu nhiên rời rạc có hàm khối lượng xác
suất đồng thời là:
1
p(x, y) = (x + y), (x, y) ∈ {1, 2} × {1, 2, 3}.
21
Tìm các hàm khối lượng xác suất biên của X và Y .
38
Định lý 3.6. Cho không gian xác suất (Ω, F, P ). Cho X, Y là hai biến ngẫu
nhiên rời rạc trên Ω. Gọi p(·, ·) và F (·, ·) lần lượt là hàm khối lượng xác suất
đồng thời và hàm phân phối tích lũy đồng thời của X, Y . Khi đó, ta có
XX
F (x, y) = p(a, b), với mọi (x, y) ∈ R2 . (3.28)
a≤x b≤y
F (x, y) = P (X ≤ x, Y ≤ y)
[
=P (X = a, Y = b)
a≤x,b≤y
XX
= P (X = a, Y = b)
a≤x b≤y
XX
= p(a, b).
a≤x b≤y
được gọi là hàm mật độ xác suất đồng thời (joint probability density
function) của X và Y .
• Mối liên hệ giữa hàm phân phối tích lũy F (·, ·) và hàm mật độ xác suất
f (·, ·) bởi
Z y Z x
F (x, y) = P (X ≤ x, Y ≤ y) = f (u, v)dudv, (3.30)
−∞ −∞
39
• Nếu cho a, b → ∞ trong định nghĩa trên thì ta được
Z ∞Z ∞
1 = P (X ∈ R, Y ∈ R) = f (x, y)dxdy. (3.32)
−∞ −∞
Định nghĩa 3.16. Cho không gian xác suất (Ω, F, P ) và X, Y là hai biến
ngẫu nhiên liên tục trên Ω. Cho f (·, ·) là hàm mật độ xác suất đồng thời của
X và Y . Hàm số fX : R → R và fY : R → R định bởi
Z ∞
fX (x) = f (x, y)dy, x ∈ R, (3.35)
−∞
Z ∞
fY (y) = f (x, y)dx, y ∈ R, (3.36)
−∞
lần lượt được gọi là hàm mật độ xác suất biên (marginal probability
density function) của X và Y .
Ví dụ 3.10. Cho X, Y là hai biến ngẫu nhiên liên tục có hàm mật độ xác
suất đồng thời là:
(
C · (x2 + 2xy), nếu (x, y) ∈ [0, 1] × [0, 1],
f (x, y) =
0, nếu (x, y) ∈
/ [0, 1] × [0, 1].
40
3.7 Sự độc lập của các biến ngẫu nhiên
Định nghĩa 3.17. Cho không gian xác suất (Ω, F, P ) và X, Y là hai biến
ngẫu nhiên trên Ω.
• Trong trường hợp rời rạc, ta nói X và Y độc lập (independent) nếu
trong đó p(·, ·), pX (·), pY (·) lần lượt là hàm khối lượng xác suất đồng
thời, hàm khối lượng xác suất biên của X và Y .
Ví dụ 3.11. Cho X, Y là hai biến ngẫu nhiên liên tục có hàm mật độ xác
suất đồng thời là
(
e−x−y , nếu (x, y) ∈ [0, ∞) × [0, ∞),
f (x, y) =
0, nếu (x, y) ∈
/ [0, ∞) × [0, ∞).
41
Định nghĩa 3.19. Cho không gian xác suất (Ω, F, P ) và X, Y là hai biến
ngẫu nhiên trên Ω. Đại lượng Cov(X, Y ) định bởi
h i
Cov(X, Y ) = E (X − µX )(Y − µY ) , (3.40)
Định lý 3.7. Cho không gian xác suất (Ω, F, P ) và X, Y là hai biến ngẫu
nhiên trên Ω. Khi đó, ta có
Chứng minh.
h i
Cov(X, Y ) = E (X − µX )(Y − µY )
Z ∞Z ∞
= (x − µX )(y − µY )f (x, y)dxdy
−∞ −∞
Z ∞Z ∞ Z ∞Z ∞
= xyf (x, y)dxdy − µX · yf (x, y)dxdy
−∞ −∞ −∞ −∞
Z ∞Z ∞ Z ∞Z ∞
− µY · xf (x, y)dxdy + µX · µY · f (x, y)dxdy
−∞ −∞ −∞ −∞
Z ∞ Z ∞
= E[XY ] − µX · yfY (y)dy − µY · xfX (x)dx + µX · µY
−∞ −∞
= E[XY ] − E[X]E[Y ].
Ví dụ 3.12. Cho X, Y là hai biến ngẫu nhiên liên tục có hàm mật độ xác
suất đồng thời là
(
x + y, nếu (x, y) ∈ [0, 1] × [0, 1],
f (x, y) =
0, nếu (x, y) ∈
/ [0, 1] × [0, 1].
Định lý 3.8. Cho không gian xác suất (Ω, F, P ) và X, Y là hai biến ngẫu
nhiên trên Ω. Nếu X và Y độc lập thì
Cov(X, Y ) = 0. (3.42)
42
Chứng minh.
Z ∞ Z ∞
E[XY ] = xyf (x, y)dxdy
Z−∞
∞ Z−∞
∞
= xyfX (x)fY (y)dxdy
Z−∞
∞
−∞
Z ∞
= xfX (x)dx · yfY (y)dy
−∞ −∞
= E[X] · E[Y ].
Suy ra Cov(X, Y ) = 0.
Ví dụ 3.13. Cho X, Y là hai biến ngẫu nhiên rời rạc có hàm khối lượng xác
suất đồng thời là
1
p(x, y) = , (x, y) ∈ {(0, 1), (0, −1), (1, 0), (−1, 0)}.
4
(a) Chứng minh rằng Cov(X, Y ) = 0.
(b) X và Y có độc lập không ? Giải thích câu trả lời.
Định lý 3.9. Cho không gian xác suất (Ω, F, P ). Cho X, Y là hai biến ngẫu
nhiên trên Ω và a, b là hai số thực bất kỳ. Nếu X và Y độc lập thì
MaX+bY (t) = MX (at) · MY (bt). (3.43)
Chứng minh.
MaX+bY (t) = E[et(aX+bY ) ]
= E[eatX ebtY ]
= E[eatX ] · E[eatY ]
= MX (at) · MY (bt).
Định lý 3.10. Cho không gian xác suất (Ω, F, P ). Cho X, Y là hai biến
ngẫu nhiên trên Ω và a, b là hai số thực bất kỳ. Khi đó, ta có
Var(aX + bY ) = a2 Var(X) + 2abCov(X, Y ) + b2 Var(Y ). (3.44)
Chứng minh.
h 2 i
Var(aX + bY ) = E aX + bY − E[aX + bY ]
h 2 i
=E aX + bY − aE[X] − bE[Y ]
h 2 i
= E a(X − µX ) + b(Y − µY )
= a2 Var(X) + 2abCov(X, Y ) + b2 Var(Y ).
43
Định lý 3.11. Cho không gian xác suất (Ω, F, P ) và X, Y là hai biến ngẫu
nhiên trên Ω. Nếu X và Y độc lập và E[X] = E[Y ] = 0, thì
Chứng minh.
Var(XY ) = E[(XY )2 ] − (E[XY ])2
= E[X 2 Y 2 ] − (E[X]E[Y ])2
= E[X 2 Y 2 ]
= E[X 2 ]E[Y 2 ]
= Var(X)Var(Y ).
Định nghĩa 3.20. Cho không gian xác suất (Ω, F, P ) và X, Y là hai biến
ngẫu nhiên trên Ω có độ lệch chuẩn lần lượt là σX , σY . Đại lượng ρ(X, Y )
định bởi
Cov(X, Y )
ρ(X, Y ) = , (3.46)
σX σY
được gọi là hệ số tương quan (correlation coefficient) giữa X và Y .
E[X]
P (X ≥ a) ≤ . (3.47)
a
Chứng minh. Ta có Z ∞
E[X] = xf (x)dx
Z0 ∞
≥ xf (x)dx
a
Z ∞
≥ af (x)dx
a
= aP (X ≥ a),
E[X]
suy ra P (X ≥ a) ≤ .
a
44
Hệ quả 3.1 (Chebychev Inequality). Cho X là biến ngẫu nhiên có trung
bình bằng µ và độ lệch chuẩn bằng σ > 0. Khi đó, với mọi k > 0, ta có bất
đẳng thức
σ2
P (|X − µ| ≥ k) ≤ 2 . (3.48)
k
Chứng minh. Vì (X − µ)2 là một biến ngẫu nhiên có giá trị không âm, nên
áp dụng bất đẳng thức Markov với a = k 2 , ta được:
E[(X − µ)2 ]
P ((X − µ)2 ≥ k 2 ) ≤ ,
k2
hay
σ2
P (|X − µ| ≥ k) ≤ .
k2
Nhận xét 3.8. Bất đẳng thức Markov và Chebychev cho phép ta đánh giá
chặn trên của các xác suất khi chỉ biết giá trị trung bình và độ lệch chuẩn
của biến ngẫu nhiên.
Định lý 3.13 (Weak Law Of Large Numbers). Cho dãy biến ngẫu nhiên độc
lập X1 , X2 , . . . , Xn , . . . có cùng phân phối với trung bình bằng µ. Khi đó, với
mọi ε > 0, ta có
X + X + · · · + X
1 2 n
P − µ ≥ ε → 0, khi n → ∞. (3.49)
n
Chứng minh. Gọi σ 2 là phương sai của mỗi biến Xi . Vì các biến Xi độc lập
nên ta có
hX + X + · · · + X i X + X + · · · + X σ2
1 2 n 1 2 n
E = µ, Var = ,
n n n
do đó, áp dụng bất đẳng thức Chebychev, ta được
X + X + · · · + X
1 2 n
σ2
P − µ ≥ ε ≤ 2 .
n nε
X + X + · · · + X
1 2 n
Cho n → ∞ ta được P − µ ≥ ε → 0.
n
45
Bài tập
Bài tập 3.1. Một nhóm có 10 người gồm 6 nam và 4 nữ. Chọn ngẫu nhiên
3 người. Gọi X là số nữ trong 3 người được chọn. Lập bảng khối lượng xác
suất của X và tính trung bình, độ lệch chuẩn của X.
2
ĐS: µX = 1.2, σX = 0.56.
Bài tập 3.2. Cho biến ngẫu nhiên liên tục X có hàm mật độ xác suất là
(
C · x2 (1 − x), nếu x ∈ [0, 1],
f (x) =
0, nếu x ∈
/ [0, 1].
(d) Tính trung bình, độ lệch chuẩn, trung vị và mode của X. [Mode của
biến ngẫu nhiên liên tục X là điểm mà tại đó hàm mật độ xác suất
f (x) đạt cực đại. Trung vị của biến ngẫu nhiên liên tục X là điểm mà
tại đó giá trị của hàm phân phối xác suất F (x) bằng 0.5.]
Bài tập 3.3. Cho biến ngẫu nhiên liên tục X có hàm phân phối là
( 2
1 − e−x /2 , nếu x > 0,
F (x) =
0, nếu x ≤ 0.
Bài tập 3.4. Cho X, Y là hai biến ngẫu nhiên rời rạc có bảng khối lượng
xác suất đồng thời như sau:
XY −1 1
−1 1/6 1/4
0 1/6 1/8
1 1/6 1/8
46
Hãy tính E[X], E[Y ], E[XY ], Cov(X, Y ), ρ(X, Y ).
Bài tập 3.5. Cho X, Y là hai biến ngẫu nhiên rời rạc có bảng khối lượng
xác suất đồng thời như sau:
XY 1 2 3
1 0.12 0.15 0.03
2 0.28 0.35 0.07
(b) Xét biến ngẫu nhiên Z = X · Y . Hãy tính E[Z] bằng hai cách.
Bài tập 3.6. Cho X và Y là hai biến ngẫu nhiên liên tục có hàm mật độ
đồng thời là
(
C · x, nếu 0 < y < x < 1,
f (x; y) =
0, trong các trường hợp còn lại.
ĐS: C = 3.
47
Chương 4
Ví dụ 4.1. Xét phép thử tung một đồng xu. Ta đặt (X = 1) cho biến cố xuất
48
hiện mặt ngửa và (X = 0) cho biến cố xuất hiện mặt sấp. Chứng minh rằng
X ∼ BER(0.5).
Chứng minh.
M (t) = E[etX ]
X
= etx p(x)
x∈{0,1}
Nhận xét 4.1. Từ định lý trên, ta suy ra giá trị trung bình và giá trị phương
sai của biến ngẫu nhiên X ∼ BER(p) là
2
µX = p, σX = p(1 − p). (4.3)
49
Ví dụ 4.2. Xét phép thử tung một đồng xu 3 lần. Gọi X là số lần xuất hiện
mặt ngửa. Chứng minh rằng X ∼ BIN(3, 0.5).
Ví dụ 4.3. Một bài kiểm tra gồm 10 câu hỏi trắc nghiệm khách quan, mỗi
câu hỏi gồm 4 câu trả lời, trong đó chỉ có một câu trả lời đúng. Một sinh
viên trả lời các câu hỏi bằng cách chọn ngẫu nhiên câu trả lời. Gọi X là số
câu trả lời đúng của sinh viên đó. Xác suất P (X ≥ 5) là bao nhiêu ?
Ví dụ 4.4. Biết rằng xác suất một đứa bé khi mới sinh có cân nặng dưới
2547 grams ở Mỹ là 0.1. Quan sát 20 đứa bé mới sinh, gọi X là số bé có cân
nặng dưới 2547 grams. Xác suất P (X ≤ 3) là bao nhiêu ?
Định lý 4.2. Giả sử X1 , X2 , . . . , Xn là n biến ngẫu nhiên BER(p) độc lập.
Nếu X = X1 + X2 + · · · + Xn thì X ∼ BIN(n, p).
Chứng minh. Lấy k tùy ý thuộc miền giá trị của X, tức là k ∈ {0, 1, . . . , n}.
Để X = k, điều kiện cần và đủ là phải có k biến Xi nhận giá trị bằng 1 và
(n − k) biến Xi còn lại nhận giá trị bằng 0. Có tất cả Cnk trường hợp như
vậy. Vì các biến Xi độc lập nên theo quy tắc nhân xác suất, mỗi trường hợp
như vậy có xác suất là (1 − p)n−k · pk . Suy ra
P (X = k) = Cnk · (1 − p)n−k · pk .
Vậy X ∼ BIN(n, p).
Định lý 4.3. Cho X ∼ BIN(n, p). Khi đó, X có hàm sinh moment là
h in
M (t) = (1 − p) + pet . (4.5)
Chứng minh.
M (t) = E[etX ]
Xn
= etk Cnk · (1 − p)n−k · pk
k=0
Xn
= Cnk · (1 − p)n−k · (pet )k
hk=0 in
t
= (1 − p) + pe .
50
4.3 Phân phối hình học
Định nghĩa 4.3. Ta nói X là biến ngẫu nhiên có phân phối hình học
(geometric distribution) với tham số p ∈ (0, 1), ký hiệu X ∼ GEO(p),
nếu X có miền giá trị là {1, 2, . . .} và có hàm khối lượng xác suất là
p(x) = (1 − p)x−1 · p, x = 1, 2, . . . . (4.7)
Ví dụ 4.5. Xét phép thử tung một đồng xu nhiều lần. Gọi X là số lần tung
cho đến khi có mặt ngửa đầu tiên xuất hiện. Chứng minh rằng X ∼ GEO(0.5).
Ví dụ 4.6. Một nhà máy sản xuất sản phẩm bằng máy tự động. Biết rằng
xác suất để máy tự động đó sản suất ra sản phẩm lỗi là 0.02. Mỗi sản phẩm
luôn được kiểm tra lỗi khi vừa được sản xuất ra. Gọi X là số lượng sản phẩm
được sản xuất ra cho đến khi có sản phẩm lỗi đầu tiên được phát hiện. Xác
suất P (X ≥ 100) là bao nhiêu ?
Ví dụ 4.7. Một người chơi đánh bạc tại Monte Carlo. Trong mỗi lần chơi,
anh ta luôn đặt cược vào ô "Đỏ" cho đến khi anh ta thắng lần đầu. Biết rằng
9
xác suất để rơi vào ô "Đỏ" là . Gọi X là số lần đặt cược của anh ta.
19
(a) Xác suất để anh ta thắng ở lần đặt cược thứ hai là bao nhiêu ?
(b) Biết rằng anh ta chỉ có đủ tiền cho 5 lần đặt cược. Xác suất để anh ta
thắng trước khi hết tiền là bao nhiêu ?
Định lý 4.4. Cho X ∼ GEO(p). Khi đó, X có hàm sinh moment là
pet
M (t) = . (4.8)
1 − (1 − p)et
51
Chứng minh.
M (t) = E[etX ]
∞
X
= etk · (1 − p)k−1 · p
k=1
∞
p X
= · [(1 − p)et ]k
1 − p k=1
p (1 − p)et
= ·
1 − p 1 − (1 − p)et
pet
= t
, với (1 − p)et < 1.
1 − (1 − p)e
Nhận xét 4.3. Giá trị trung bình và giá trị phương sai của biến ngẫu nhiên
X ∼ GEO(p) là
1 2 1−p
µX = , σX = . (4.9)
p p2
52
Nhận xét 4.4. Giá trị trung bình và giá trị phương sai của biến ngẫu nhiên
X ∼ POI(λ) là
2
µX = λ, σX = λ. (4.12)
Ví dụ 4.8. Số lượng tai nạn giao thông trong một tuần ở một thị trấn nhỏ
là biến ngẫu nhiên Poisson với trung bình bằng 3. Xác suất xảy ra đúng 3
tai nạn giao thông trong một tuần là bao nhiêu ?
f (x) = b − a (4.13)
0, nếu x ∈
/ [a, b].
Định lý 4.6. Giá trị trung bình và giá trị phương sai của biến ngẫu nhiên
X ∼ UNIF(a, b) là
a+b 2 (b − a)2
µX = , σX = . (4.14)
2 12
Chứng minh. Kỳ vọng của X là
Z b
1 a+b
µX = E[X] = x· dx = .
a b−a 2
53
Kỳ vọng của X 2 là
b
a2 + ab + b2
Z
2 1
E[X ] = x2 · dx = .
a b−a 3
2 2 a2 + ab + b2 (a + b)2 (b − a)2
σX = E[X ] − µ2X = − = .
3 4 12
Đồ thị của hàm mật độ xác suất của phân phối bình thường là một đường
cong hình chuông, đường cong này đối xứng qua đường thẳng x = µ và đạt
1 0.399
giá trị lớn nhất bằng √ ≈ tại điểm x = µ. Xem hình vẽ sau đây.
σ 2π σ
54
Định nghĩa 4.7. Ta nói X là biến ngẫu nhiên có phân phối chuẩn chính
tắc (standard normal distribution) nếu X ∼ N (0, 1), tức là X có hàm
mật độ xác suất
1 x2
f (x) = √ · e− 2 , x ∈ R. (4.16)
2π
Gọi Φ(·) là hàm phân phối của biến ngẫu nhiên chuẩn chính tắc, đó là
Z x
1 2
Φ(x) = √ e−y /2 dy. (4.17)
2π −∞
Bảng A1 liệt kê giá trị của hàm phân phối chuẩn Φ(x) ứng với một số giá trị
x không âm.
Ví dụ 4.10. Cho X ∼ N (0, 1). Tìm hằng số c sao cho P (|X| ≤ c) = 0.95.
X −µ
Định lý 4.7. Cho X ∼ N (µ, σ 2 ). Đặt Z = . Khi đó, ta có
σ
Z ∼ N (0, 1). (4.18)
Chứng minh. Gọi FZ và fZ lần lượt là hàm phân phối và hàm mật độ xác
suất của Z. Ta có
FZ (z) = P (Z ≤ z) = P ((X − µ)/σ ≤ z) = P (X ≤ σz + µ)
Z σz+µ
1 (y−µ)2
= √ · e− 2σ2 dy
σ 2π
Z−∞z
1 u2 y−µ
= √ · e− 2 du (đặt u = ).
−∞ 2π σ
Suy ra
1 z2
fZ (z) = FZ0 (z) = √ · e− 2 .
2π
Vậy Z ∼ N (0, 1).
Định lý 4.8. Cho X ∼ N (0, 1). Khi đó, X có hàm sinh moment là
t2
M (t) = e 2 . (4.19)
55
Chứng minh.
Z ∞
1 x2
tX
M (t) = E[e ] = etx · √ · e− 2 dx
−∞ 2π
Z ∞
1 1 2
= √ · e− 2 (x −2tx) dx
2π
Z−∞ ∞
1 1 2 t2
= √ · e− 2 (x−t) · e 2 dx
−∞ 2π
Z ∞
t 2 1 1 2
=e2 · √ · e− 2 (x−t) dx
2π
Z−∞
∞
t 2 1 y2
=e2 · √ · e− 2 dy (đổi biến y = x − t)
2π
2
Z−∞
∞
t t2
=e2 · f (y)dy = e 2 .
−∞
Nhận xét 4.5. Giá trị trung bình và giá trị phương sai của biến ngẫu nhiên
X ∼ N (µ, σ 2 ) là
2
µX = µ, σX = σ2. (4.21)
Định lý 4.10. Cho X1 ∼ N (µ1 , σ12 ), X2 ∼ N (µ2 , σ22 ) là hai biến ngẫu nhiên
độc lập và a1 , a2 là hai hằng số thực. Khi đó, ta có
56
Chứng minh.
MX (t) = E[etX ]
2
= E[etZ ]
Z ∞
2 1 z2
= etz · √ · e− 2 dz
−∞ 2π
Z ∞
1 z 2 (1−2t)
=√ · e− 2 dz
2π −∞
Z ∞
−1/2 1 z 2 (1−2t)
= (1 − 2t) · √ · e− 2 dz
(1 − 2t)−1/2 2π −∞
= (1 − 2t)−1/2 .
57
Chứng minh. Vì X = Z12 +Z22 +· · ·+Zn2 , trong đó Zi ∼ N (0, 1), i = 1, 2, . . . , n
là các biến độc lập, nên ta có
2 2 2
MX (t) = E[et(Z1 +Z2 +···+Zn ) ]
2 2 2
= E[etZ1 ] · E[etZ2 ] · · · E[etZn ]
= (1 − 2t)−1/2 · (1 − 2t)−1/2 · · · (1 − 2t)−1/2
= (1 − 2t)−n/2 .
Nhận xét 4.6. Giá trị trung bình và giá trị phương sai của biến ngẫu nhiên
X ∼ χ2n là
2
µX = n, σX = 2n. (4.26)
Xét X ∼ χ2n . Với α ∈ (0, 1) bất kỳ, ta ký hiệu χ2α,n là phân vị 100(1 − α)
của X, tức là
P (X ≥ χ2α,n ) = α, (4.27)
như trong hình vẽ minh họa sau đây.
58
4.8 Phân phối t
Định nghĩa 4.9. Cho Z ∼ N (0, 1) và X ∼ χ2n là hai biến ngẫu nhiên độc
lập. Biến ngẫu nhiên Tn định bởi
Z
Tn = p , (4.28)
X/n
được gọi là có phân phối t (t-distribution) với n độ tự do, ký hiệu là
Tn ∼ tn .
Nhận xét 4.7. Phân phối t rất giống phân phối N (0, 1) khi n đủ lớn.
X Z 2 + · · · + Zn2
Thật vậy, vì X ∼ χ2n nên = 1 , trong đó Zi ∼ N (0, 1),
n n
i = 1, 2, . . . , n. Vì E[Zi2 ] = 1 nên theo luật số lớn, gần như chắc chắn rằng
Z
X/n xấp xỉ 1. Do đó, với n đủ lớn thì Tn = p xấp xỉ Z.
X/n
Trung bình và phương sai của Tn là
E[Tn ] = 0, n > 1,
n (4.29)
Var(Tn ) = , n > 2.
n−2
Xét X ∼ tn . Với α ∈ (0, 1) bất kỳ, ta ký hiệu tα,n là đại lượng được định
bởi
P (X ≥ tα,n ) = α, (4.30)
được xem như là phân vị 100(1 − α) của X, như trong hình vẽ minh họa sau
đây.
59
Bảng A3 liệt kê giá trị của tα,n ứng với một số giá trị khác nhau của α và n.
Ví dụ 4.13. Tìm:
(a) t0.025,9 .
X/n
Fn,m = , (4.31)
Y /m
Xét X ∼ Fn,m . Với α ∈ (0, 1) bất kỳ, ta ký hiệu Fα,n,m là đại lượng được
định bởi
P (X ≥ Fα,n,m ) = α, (4.32)
được xem như là phân vị 100(1 − α) của X, như trong hình vẽ minh họa sau
đây.
60
Bảng A4 liệt kê giá trị của Fα,n,m ứng với α = 0.05 và một số giá trị khác
nhau của n và m.
Ví dụ 4.14. Tìm:
(b) F0.95,4,5 .
61
Bài tập
Bài tập 4.1. Cho X và Y là hai biến ngẫu nhiên độc lập, trong đó
(b) Chứng minh rằng Z không phải là biến ngẫu nhiên có phân phối nhị
thức.
Bài tập 4.2. Giả sử tỷ lệ sinh con trai và con gái bằng nhau. Một gia đình
có 4 người con. Tính xác suất để 4 người con đó gồm
(c) 4 trai.
Bài tập 4.3. Khi tiêm một loại huyết thanh cho người, trung bình có 1
trường hợp phản ứng trên 1000 trường hợp. Dùng loại huyết thanh này tiêm
cho 2000 người.
(a) Xác suất có đúng 3 trường hợp phản ứng là bao nhiêu.
(b) Xác suất có nhiều hơn 3 trường hợp phản ứng là bao nhiêu.
Bài tập 4.4. Gieo đồng thời ba con súc sắc. Trong mỗi lần gieo, nếu có ít
nhất hai con súc sắc ra mặt sáu chấm thì được xem là "thành công". Một
người gieo 5 lần. Tính xác suất để có ít nhất 3 lần thành công.
Bài tập 4.5. Một người say rượu bước 8 bước. Mỗi bước, anh ta chỉ có thể
tiến lên phía trước 1 mét hoặc lùi lại phía sau 1 mét với xác suất như nhau.
(a) Tính xác suất để sau 8 bước anh ta trở lại điểm xuất phát.
(b) Tính xác suất để sau 8 bước anh ta cách điểm xuất phát hơn 4 mét.
62
HD. Phân phối nhị thức.
Bài tập 4.6. Tỉnh A báo cáo rằng tỷ lệ đậu tốt nghiệp THPT của tỉnh đó
là 80%. Một vị thanh tra của Bộ vốn tin rằng tỷ lệ này phải nhỏ hơn 80%
nên đã làm một cuộc điều tra. Ông ta chọn ngẫu nhiên 72 học sinh trong
tỉnh A thì thấy có 50 học sinh đậu tốt nghiệp.
(a) Nếu tỷ lệ 80% là đúng, thì trong mẫu kích thước 72 học sinh, xác suất
để số học sinh đậu tốt nghiệp không vượt quá 50 là bao nhiêu?
(b) Ông thanh tra có cơ sở để bác bỏ tỷ lệ 80% mà tỉnh này báo cáo không
?
Bài tập 4.7. Một trung tâm bưu điện nhận được trung bình 3 cuộc gọi điện
thoại trong mỗi phút. Tính xác suất trung tâm này nhận được không ít hơn
3 cuộc gọi trong một phút, biết rằng số cuộc gọi trong một phút có phân
phối Poisson.
Bài tập 4.8. Cân nặng (tính bằng gam) của một loại trái cây tuân theo luật
phân phối chuẩn N (µ, σ 2 ) với µ = 500, σ 2 = 16. Trái cây thu hoạch được
phân loại theo cân nặng như sau:
63
Chương 5
64
Nhận xét 5.1. Bởi vì giá trị của trung bình mẫu X được xác định bởi giá
trị của các biến ngẫu nhiên trong mẫu, nên X cũng là một biến ngẫu nhiên.
Giả sử trung bình tổng thể là µ và phương sai tổng thể là σ 2 . Khi đó, giá trị
kỳ vọng và phương sai của X được tính bởi:
h i hX + · · · + X i 1
1 n
E X =E = (E[X1 ] + · · · + E[Xn ]) = µ, (5.2)
n n
và
X + · · · + X 1 σ2
1 n
Var X = Var = 2 Var(X1 ) + · · · + Var(Xn ) = .
n n n
(5.3)
Như vậy, X cũng có tâm tại trung bình tổng thể µ nhưng độ phân tán của
nó giảm dần khi cỡ mẫu tăng lên.
65
5.3 Định lý giới hạn trung tâm
Định lý giới hạn trung tâm là một trong các kết quả đáng chú ý nhất của lý
thuyết xác suất.
Định lý 5.1 (Central limit theorem). Cho X1 , . . . , Xn là một mẫu ngẫu
nhiên được lấy từ một tổng thể có trung bình là µ và phương sai là σ 2 . Khi
đó, với n đủ lớn thì
X1 + · · · + Xn ∼ N (nµ, nσ 2 ). (5.9)
Chứng minh. Đặt Yi = Xi − µ và gọi MY là hàm sinh moment chung của các
Yi . Với h → 0, ta có
1
MY (h) = MY (0) + MY0 (0)h + MY00 (0)h2 + o(h2 )
2
1
= 1 + E[Y ]h + E[Y 2 ]h2 + o(h2 )
2
1 2
= 1 + 0h + (σ + 02 )h2 + o(h2 )
2
1 2 2
= 1 + σ h + o(h2 ).
2
X1 + · · · + Xn − nµ
Với mỗi n ∈ N∗ , gọi Mn là hàm sinh moment của √ . Ta
σ n
có: h X1 +···+Xn −nµ i
t √
Mn (t) = E e σ n
h Y1
t σY√nn
i
t σ √n
=E e ···e
h t in
= MY √
σ n
h t2 t2 in
= 1+ +o khi n → ∞
2n nσ 2
2
→ et /2 = hàm sinh moment của N (0, 1) khi n → ∞.
Ví dụ 5.1. Một công ty bảo hiểm có 25000 hợp đồng bảo hiểm ô tô. Nếu số
tiền bồi thường mỗi năm của một hợp đồng là một biến ngẫu nhiên với trung
bình là 320 và độ lệch chuẩn là 540, thì xác suất để tổng số tiền bồi thường
hằng năm vượt quá 8.3 triệu xấp xỉ bao nhiêu ?
Ví dụ 5.2. Trường đại học A biết rằng (bằng kinh nghiệm trong quá khứ), có
khoảng 30% khả năng đăng ký nhập học đối với một sinh viên đã được chấp
nhận đơn. Biết rằng năm nay trường A có 450 sinh viên được chấp nhận đơn.
Xác suất để có hơn 150 sinh viên đăng ký nhập học ?
66
5.4 Phân phối của các đặc trưng mẫu từ một
tổng thể chuẩn
Cho X1 , . . . , Xn là một mẫu ngẫu nhiên được lấy từ một tổng thể chuẩn có
trung bình µ và phương sai σ 2 , tức là
Xi ∼ N (µ, σ 2 ), i = 1, . . . , n. (5.10)
Gọi X và S 2 lần lượt là trung bình mẫu và phương sai mẫu. Vì tổng của các
biến ngẫu nhiên chuẩn cũng là một biến ngẫu nhiên chuẩn, nên X cũng là
biến ngẫu nhiên chuẩn với trung bình
h i 1
E X = (E[X1 ] + · · · + E[Xn ]) = µ, (5.11)
n
và phương sai
1
Var(X) = 2 (Var(X1 ) + · · · + Var(Xn )) = σ 2 /n. (5.12)
n
Do đó, ta có
X ∼ N (µ, σ 2 /n),
hay
X −µ
√ ∼ N (0, 1). (5.13)
σ/ n
Mặt khác, để biết được phân phối của S 2 , ta sử dụng đẳng thức
X n Xn
2
(Xi − µ) = (Xi − X)2 + n(X − µ)2 , (5.14)
i=1 i=1
67
Bài tập
Bài tập 5.1. Cân nặng của một tổng thể công nhân có trung bình bằng 167
và độ lệch chuẩn là 27.
(a) Nếu chọn một mẫu 36 công nhân, thì xác suất để trung bình mẫu nằm
giữa 164 và 170 xấp xỉ bao nhiêu ?
Bài tập 5.2. Một nhà thiên văn học muốn đo khoảng cách từ đài quan sát
của ông ta đến một vì sao xa xôi. Tuy nhiên, do các nhiễu loạn trong khí
quyển, bất kỳ phép đo nào cũng không thể cho ra khoảng cách chính xác d.
Hệ quả là nhà thiên văn học phải thực hiện một loạt các phép đo rồi sử dụng
giá trị trung bình để ước lượng khoảng cách d. Nếu nhà thiên văn học cho
rằng các giá trị của các phép đo liên tiếp là các biến ngẫu nhiên độc lập có
trung bình là d năm ánh sáng và độ lệch chuẩn là 2 năm ánh sáng, thì ông
ta phải thực hiện bao nhiêu lần đo để chắc chắn ít nhất 95% rằng ước lượng
của ông ta có độ chính xác 0.5 năm ánh sáng ?
ĐS: n ≥ 62
Bài tập 5.3. Một trường đại học có chỉ tiêu tuyển sinh là 300 sinh viên.
(a) Giả sử có 325 người dự thi và xác suất thi đậu của mỗi người là 0.9.
Tính xác suất để số người trúng tuyển không vượt quá chỉ tiêu.
(b) Cần cho phép tối đa bao nhiêu người dự thi (xác suất thi đậu của mỗi
người vẫn là 0.9) sao cho sự kiện "số người trúng tuyển không vượt quá
chỉ tiêu" có xác suất không nhỏ hơn 99%.
68
Chương 6
Cho X1 , . . . , Xn là một mẫu ngẫu nhiên được lấy từ một tổng thể có phân
phối Fθ nào đó, trong đó θ là vectơ các tham số chưa biết cần xác định.
Chẳng hạn, một mẫu ngẫu nhiên có thể được lấy từ một tổng thể có phân
phối Poisson POI(λ) trong đó λ chưa biết; hoặc có thể được lấy từ một tổng
thể chuẩn N (µ, σ 2 ), trong đó µ và σ 2 . Trong lý thuyết xác suất, ta thường
giả sử rằng các tham số của một phân phối đều đã biết. Ngược lại, trong
thống kê, các tham số của một phân phối thường chưa biết, vấn đề trọng
tâm là quan sát các mẫu dữ liệu để suy ra các tham số chưa biết.
69
biến ngẫu nhiên trên được cho bởi
p(x1 , . . . , xn |λ) = pX1 (x1 ) · · · pXn (xn )
e−λ · λx1 e−λ · λxn
= ···
x1 ! xn !
−nλ x1 +···+xn
e ·λ
= ,
x1 ! · · · xn !
và mục tiêu là ước lượng λ từ các dữ liệu quan sát được của X1 , . . . , Xn .
Ước lượng khả năng cực đại (maximum likelihood estimator) là
một loại ước lượng được sử dụng rộng rãi trong thống kê. Điều này được lý
giải như sau. Giả sử f (x1 , . . . , xn |θ) là hàm mật độ xác suất đồng thời của
các biến ngẫu nhiên X1 , . . . , Xn . Vì f (x1 , . . . , xn |θ) biểu thị khả năng mà các
giá trị x1 , . . . , xn sẽ được quan sát khi θ là giá trị đúng của tham số, nên
một ước lượng hợp lý của θ sẽ là giá trị θb sao cho f (x1 , . . . , xn |θ) đạt giá trị
lớn nhất khi θ = θ. b Hàm f (x1 , . . . , xn |θ) thường được gọi là hàm khả năng
(likelihood) của θ.
Vì các lần thử độc lập nhau, nên hàm khả năng của dữ liệu được cho bởi
f (x1 , . . . , xn |p) = P (X1 = x1 , . . . , Xn = xn |p)
= px1 (1 − p)1−x1 · · · pxn (1 − p)1−xn (6.3)
= px1 +···+xn (1 − p)n−(x1 +···+xn ) .
Để tìm p sao cho f (x1 , . . . , xn |p) đạt giá trị lớn nhất, trước hết ta lấy logarit
tự nhiên của nó:
ln f (x1 , . . . , xn |p) = (x1 +. . .+xn ) ln p+ n−(x1 +. . .+xn ) ln(1−p). (6.4)
70
Lấy đạo hàm theo biến p, ta được
d x1 + . . . + xn n − (x1 + . . . + xn )
ln f (x1 , . . . , xn |p) = − .
dp p 1−p
Cho đạo hàm trên bằng không và giải phương trình tìm p, ta được
x1 + · · · + xn n − (x1 + · · · + xn )
= , (6.5)
p 1−p
hay
x1 + · · · + xn
p= . (6.6)
n
Vậy ước lượng khả năng cực đại cho tham số p của phân phối Bernoulli
BER(p) là
X1 + · · · + X n
pb = . (6.7)
n
Vì X1 + · · · + Xn là số lần thử thành công, nên ước lượng khả năng cực đại
của p bằng với tỷ lệ của số lần thử thành công.
72
X1 + · · · + X n
minh rằng X = là ước lượng khả năng cực đại của µ. Tuy
n
nhiên, ta không mong đợi trung bình mẫu X sẽ bằng µ một cách chính xác,
mà chỉ mong rằng nó sẽ "gần bằng". Từ đó, thay vì ước lượng điểm, đôi khi
người ta sẽ xác định một khoảng mà µ chắc chắn nằm trong đó với một "độ
tin cậy" nào đó. Để đạt được một khoảng ước lượng như vậy, người ta sử
dụng phân phối xác suất của ước lượng điểm.
Ta đã biết rằng ước lượng điểm X cũng là một biến ngẫu nhiên chuẩn có
trung bình µ và phương sai σ 2 /n, do đó
X −µ
√ ∼ N (0, 1). (6.18)
σ/ n
Suy ra
X −µ
P −1.96 < √ < 1.96 = 0.95, (6.19)
σ/ n
hay
σ σ
P X − 1.96 √ < µ < X + 1.96 √ = 0.95. (6.20)
n n
σ
Điều này có nghĩa là chắc chắn 95% rằng µ nằm trong bán kính 1.96 √ của
n
trung bình mẫu. Nếu ta quan sát một mẫu và tính được X = x, thì ta nói
σ
µ = x ± 1.96 √ , (6.21)
n
với "độ tin cậy 95%". Ta gọi khoảng (6.21) là khoảng tin cậy 95% (95%
confidence interval) của µ.
Ta cũng có thể xây dựng được các khoảng tin cậy với độ tin cậy tùy ý.
Để làm được như vậy, ta ký hiệu zα là đại lượng thỏa mãn
P (Z > zα ) = α, (6.22)
đó là phân vị 100(1 − α)% của biến Z ∼ N (0, 1). Do tính đối xứng của đồ
thị hàm mật độ xác suất của phân phối chuẩn, như hình vẽ sau:
73
ta suy ra
P (−zα/2 < Z < zα/2 ) = 1 − α. (6.23)
X −µ
Thay Z = √ , ta được
σ/ n
σ σ
P X − zα/2 √ < µ < X + zα/2 √ = 1 − α. (6.24)
n n
Như vậy, khoảng tin cậy 100(1 − α)% của µ là
σ
µ = x ± zα/2 √ , (6.25)
n
trong đó x là trung bình của mẫu quan sát.
Ví dụ 6.1. Giả sử khi một tín hiệu có giá trị µ được truyền đi từ vị trí A
thì giá trị nhận được tại vị trí B là một biến ngẫu nhiên có phân phối chuẩn
với trung bình là µ và phương sai là 4. Để giảm thiểu sai số, cùng một giá
trị được gửi đi 9 lần. Nếu các giá trị nhận được lần lượt là
5, 8.5, 12, 15, 7, 9, 7.5, 6.5, 10.5,
hãy chỉ ra một khoảng tin cậy 95% cho µ.
74
X1 + · · · + Xn (X1 − X)2 + · · · + (Xn − X)2
trong đó X = là trung bình mẫu và S 2 =
n n−1
là phương sai mẫu. Do tính đối xứng của hàm mật độ xác suất của phân
phối t, như hình vẽ sau:
ta có
X −µ
P − tα/2,n−1 < √ < tα/2,n−1 = 1 − α, (6.27)
S/ n
hay
S S
P X − tα/2,n−1 √ < µ < X + tα/2,n−1 √ = 1 − α. (6.28)
n n
Như vậy, nếu ta quan sát mẫu được X = x và S = s, thì ta có
s
µ = x ± tα/2,n−1 √ , (6.29)
n
Ví dụ 6.2. Giả sử khi một tín hiệu có giá trị µ được truyền đi từ vị trí A
thì giá trị nhận được tại vị trí B là một biến ngẫu nhiên có phân phối chuẩn
với trung bình là µ và phương sai là σ 2 chưa biết. Để giảm thiểu sai số, cùng
một giá trị được gửi đi 9 lần. Nếu các giá trị nhận được lần lượt là
75
6.3 Ước lượng khoảng tin cậy cho phương sai
của một tổng thể chuẩn
Nếu X1 , . . . , Xn là một mẫu từ một tổng thể chuẩn có trung bình là µ và
phương sai là σ 2 , trong đó µ và σ 2 chưa biết, thì ta có thể xây dựng khoảng
tin cậy 100(1 − α)% cho σ 2 bằng cách sử dụng kết quả
(n − 1)S 2
2
∼ χ2n−1 , (6.30)
σ
(X1 − X)2 + . . . + (Xn − X)2
trong đó S 2 = là phương sai mẫu. Ta có
n−1
(n − 1)S 2
P χ21−α/2,n−1 < < χ2
α/2,n−1 = 1 − α, (6.31)
σ2
hay
(n − 1)S 2 (n − 1)S 2
2
P <σ < 2 = 1 − α. (6.32)
χ2α/2,n−1 χ1−α/2,n−1
Như vậy, nếu ta quan sát mẫu được S = s thì
(n − 1)s2 2 (n − 1)s2
< σ < , (6.33)
χ2α/2,n−1 χ21−α/2,n−1
Ví dụ 6.3. Một phương pháp tiêu chuẩn được hy vọng rằng sẽ sản xuất ra
những miếng rửa chén có các độ dày chênh lệch nhau rất nhỏ. Giả sử 10
miếng rửa chén được chọn ra và quan sát độ dày của chúng, ta thu được các
số liệu (đơn vị là inch):
0.123, 0.124, 0.126, 0.120, 0.130, 0.133, 0.125, 0.128, 0.124, 0.126.
Hãy chỉ ra khoảng tin cậy 90% cho phương sai của độ dày miếng rửa chén
được sản xuất bởi phương pháp trên (được giả thiết có phân phối chuẩn) ?.
76
µy và phương sai σy2 . Giả sử rằng hai mẫu trên độc lập nhau và ta muốn ước
lượng hiệu µx − µy . Để ước lượng khoảng tin cậy cho µx − µy , ta cần biết
phân phối của X − Y . Vì
nên ta có
X − Y ∼ N µx − µy , σx2 /n + σy2 /m . (6.35)
X − Y − (µx − µy )
q ∼ N (0, 1), (6.36)
σx2 /n + σy2 /m
và do đó
X − Y − (µx − µy )
P − zα/2 < q < zα/2 = 1 − α, (6.37)
σx2 /n + σy2 /m
hay
q q
P X−Y −zα/2 σx2 /n + σy2 /m < µx −µy < X−Y +zα/2 σx2 /n + σy2 /m = 1−α.
(6.38)
Vậy, nếu ta quan sát mẫu được X = x và Y = y, thì
q
µx − µy = x − y ± zα/2 σx2 /n + σy2 /m, (6.39)
77
Khi đó, vì σx2 = σy2 = σ 2 nên ta có
(n − 1)Sx2
∼ χ2n−1 ,
σ2
(m − 1)Sy2
2
∼ χ2m−1 .
σ
Hơn nữa, vì hai mẫu là độc lập nhau nên ta suy ra
(n − 1)Sx2 (m − 1)Sy2
+ ∼ χ2n+m−2 . (6.40)
σ2 σ2
Ngoài ra, vì
X − Y ∼ N µx − µy , σ 2 /n + σ 2 /m ,
nên ta cũng có
X − Y − (µx − µy )
p ∼ N (0, 1). (6.41)
σ 2 /n + σ 2 /m
Kết hợp (6.40) và (6.41), ta được
v
u (n − 1)S 2 (m − 1)S 2
x y
+
u
X − Y − (µx − µy ) t σ 2 σ 2
p : ∼ tn+m−2 . (6.42)
σ 2 /n + σ 2 /m n+m−2
Bằng cách đặt ra một phương sai mẫu "chung" Sp định bởi
(n − 1)Sx2 + (m − 1)Sy2
Sp2 = , (6.43)
n+m−2
thì (6.42) trở thành
X − Y − (µx − µy )
p ∼ tn+m−2 . (6.44)
Sp · 1/n + 1/m
Từ đó, ta có
X − Y − (µx − µy )
P − tα/2,n+m−2 < p < tα/2,n+m−2 = 1 − α. (6.45)
Sp 1/n + 1/m
78
6.5 Ước lượng khoảng tin cậy cho tỉ lệ
Giả sử ta có một tổng thể có phân phối BER(p), trong đó tỉ lệ (xác suất) p
là tham số chưa biết. Xét một mẫu ngẫu nhiên X1 , . . . , Xn từ tổng thể trên.
Mỗi Xi đều có trung bình là p và phương sai là p(1 − p). Theo định lý giới
hạn trung tâm, nếu n đủ lớn thì
hay
X1 + · · · + Xn − np X −p
p =p ∼ N (0, 1). (6.48)
np(1 − p) p(1 − p)/n
Do đó !
X −p
P −zα/2 < p < zα/2 ≈ 1 − α, (6.49)
p(1 − p)/n
hay
r r !
p(1 − p) p(1 − p)
P X − zα/2 < p < X + zα/2 ≈ 1 − α. (6.50)
n n
Ví dụ 6.4. Từ một lô thuốc ta kiểm tra 200 ống thì thấy có 17 ống bị đục.
Hãy chỉ ra một khoảng tin cậy 95% cho tỷ lệ thuốc bị đục của toàn bộ lô
thuốc.
79
Bài tập
Bài tập 6.1. Đo sức bền chịu lực của một loại ống thí nghiệm, người ta thu
được dữ liệu sau:
4500 6500 5200 4800 4900 5125 6200 5375
Từ kinh nghiệm nghề nghiệp, người ta cũng biết rằng sức bền đó tuân theo
luật phân phối chuẩn với σ = 300. Hãy xây dựng khoảng tin cậy 90% cho
sức bền trung bình của loại ống trên.
Bài tập 6.2. Người ta đo ion Na+ trên một số người và ghi nhận được kết
quả như sau:
129 132 140 141 138 143 133 137 140 143 138 140
(a) Hãy ước lượng trung bình µ của tổng thể ở độ tin cậy 95%.
(b) Nếu muốn ước lượng trung bình µ ở độ tin cậy 95% có sai số không
quá ε = 1 thì phải quan sát mẫu gồm ít nhất bao nhiêu người ?
Bài tập 6.3. Quan sát ngẫu nhiên 250 chiếc xe máy, người ta thấy có 185
chiếc hiệu Honda.
(a) Hãy ước lượng tỷ lệ p xe hiệu Honda trong tổng thể xe máy với độ tin
cậy 95%.
(b) Hãy xác định hằng số C sao cho ta có thể khẳng định p > C với xác
suất 99%.
ĐS: (a) 0.6856 < p < 0.7944. (b) C ≈ 0.6754.
Bài tập 6.4. Muốn biết trong ao có bao nhiêu con cá, người ta bắt lên 2000
con, đánh dấu xong rồi thả lại xuống ao. Sau một thời gian, người ta bắt lên
500 con và thấy có 20 con cá có đánh dấu. Hãy ước lượng số cá có trong ao
với độ tin cậy 95%.
Bài tập 6.5. Tỉnh A báo cáo rằng tỷ lệ đậu tốt nghiệp THPT của tỉnh là
80%. Một vị thanh tra của Bộ vốn tin rằng tỷ lệ này phải nhỏ hơn 80% nên
đã làm một cuộc điều tra. Ông ta chọn ngẫu nhiên 72 học sinh trong tỉnh A
thì thấy có 50 học sinh đậu tốt nghiệp.
(a) Hãy ước lượng tỷ lệ đậu tốt nghiệp THPT của tỉnh A với độ tin cậy
95%.
(b) Ông thanh tra có cơ sở để bác bỏ tỷ lệ 80% mà tỉnh này báo cáo không?
80
Chương 7
Một giả thuyết thống kê thông thường là một phát biểu về tham số của một
tổng thể nào đó. Ta gọi là giả thuyết (hypothesis) bởi vì ta chưa biết nó
đúng hay sai. Vấn đề trọng tâm là xác định xem giá trị của một mẫu ngẫu
nhiên lấy từ tổng thể này có phù hợp với giả thuyết hay không. Chẳng hạn,
xét một tổng thể chuẩn với trung bình µ chưa biết. Phát biểu "µ nhỏ hơn
1" là một giả thuyết thống kê mà ta phải kiểm định bằng cách quan sát một
mẫu ngẫu nhiên từ tổng thể này. Nếu giá trị của mẫu phù hợp với giả thuyết
đang xét, thì ta nói rằng giả thuyết được "chấp nhận" (accepted); ngược
lại ta nói nó bị "bác bỏ" (rejected).
81
được xác định như sau
bác bỏ H0 nếu (X1 , . . . , Xn ) ∈ C,
(7.1)
chấp nhận H0 nếu (X1 , . . . , Xn ) ∈
/ C.
Khi kiểm định cặp giả thuyết H0 và H1 nào đó, có thể xảy ra hai loại sai lầm
như sau:
• Sai lầm loại I (type I error): bác bỏ H0 , trong khi H0 thực sự đúng.
• Sai lầm loại II (type II error): chấp nhận H0 , trong khi H0 thực
sự sai.
Định nghĩa 7.1. Xét bài toán kiểm định cặp giả thuyết H0 và H1 . Ta gọi
α là mức ý nghĩa (level of significance) của phép kiểm định nếu
tức là
PH0 (H1 ) = α, (7.3)
trong đó PH0 là ký hiệu cho xác suất với điều kiện H0 đúng.
Thông thường, người ta hay chọn α là 0.1, 0.05, hoặc 0.005.
trong đó c là một hằng số được chọn một cách thích hợp. Bởi vì phép kiểm
định phải có mức ý nghĩa α, ta phải xác định hằng số c trong miền bác bỏ
(7.4) sao cho khả năng xảy ra sai lầm loại I bằng α. Như vậy, hằng số c phải
được chọn sao cho
PH0 {|X − µ0 | > c} = α, (7.5)
82
trong đó ta viết PH0 có nghĩa là xác suất trên được tính với điều kiện H0
thực sự đúng, tức là µ = µ0 . Tuy nhiên, khi µ = µ0 , thì X ∼ N (µ0 , σ 2 /n),
do đó
X − µ0
Z= √ ∼ N (0, 1). (7.6)
σ/ n
Như vậy, (7.5) tương đương với
c
P |Z| > √ = α, (7.7)
σ/ n
hay
c
2P Z > √ = α. (7.8)
σ/ n
Tuy nhiên, ta biết rằng P {Z > zα/2 } = α/2, do đó
c
√ = zα/2 , (7.9)
σ/ n
hay
σ
c = zα/2 √ . (7.10)
n
Vậy, phép kiểm định H0 : µ = µ0 và H1 : µ 6= µ0 (trong trường hợp σ 2 đã
biết), với mức ý nghĩa α, có miền bác bỏ là
|X − µ0 |
√ > zα/2 . (7.11)
σ/ n
83
Nhận xét 7.1.
Ví dụ 7.1. Giả sử khi một tín hiệu có giá trị µ được truyền đi từ vị trí A thì
giá trị nhận được tại vị trí B là một biến ngẫu nhiên có phân phối chuẩn với
trung bình là µ và độ lệch chuẩn là 2. Người ta hy vọng rằng sẽ nhận được
tín hiệu có giá trị µ = 8. Hãy kiểm định giả thuyết này (với mức ý nghĩa lần
lượt là α = 0.05, α = 0.1) nếu tín hiệu có cùng giá trị được gửi đi 5 lần và
giá trị trung bình nhận được tại B là x = 9.5.
X − µ0
√ ∼ tn−1 , (7.14)
S/ n
do đó
|X − µ0 |
PH 0 √ > tα/2,n−1 = α. (7.15)
S/ n
Vậy, phép kiểm định H0 : µ = µ0 và H1 : µ 6= µ0 (trong trường hợp σ 2 chưa
biết), với mức ý nghĩa α, có miền bác bỏ là
|X − µ0 |
√ > tα/2,n−1 . (7.16)
S/ n
84
Nhận xét 7.2.
Ví dụ 7.2. Một cơ quan sức khỏe cộng đồng tuyên bố rằng trung bình mỗi hộ
dân sử dụng 350 gallon nước mỗi ngày. Để kiểm chứng tuyên bố này, người
ta chọn ngẫu nhiên 20 hộ dân và ghi lại lượng nước (đơn vị gallon) sử dụng
mỗi ngày như sau:
340 344 362 375
356 386 354 364
332 402 340 355
362 322 372 324
318 360 338 370
Với mức ý nghĩa α = 0.05, số liệu này có ủng hộ tuyên bố trên không? Giả
thiết lượng nước sử dụng mỗi ngày của mỗi hộ dân có phân phối chuẩn.
85
7.3 Kiểm định sự bằng nhau của hai trung
bình tổng thể chuẩn
7.3.1 Trường hợp đã biết σx2 và σy2
Giả sử X1 , . . . , Xn và Y1 , . . . , Ym là hai mẫu độc lập lấy từ hai tổng thể chuẩn
có trung bình lần lượt là µx , µy chưa biết và có phương sai lần lượt là σx2 , σy2
đã biết. Xét bài toán kiểm định H0 : µx = µy và H1 : µx 6= µy .
Vì X là một ước lượng điểm cho µx và Y là một ước lượng điểm cho µy ,
nên ta suy ra X − Y có thể dùng để ước lượng điểm cho µx − µy . Từ đó, vì
giả thuyết H0 có thể được viết lại là H0 : µx − µy = 0 nên dường như sẽ rất
hợp lý để bác bỏ H0 nếu X − Y cách 0 đủ xa. Như vậy, bài toán kiểm định
có dạng
bác bỏ H0 nếu |X − Y | > c,
(7.19)
chấp nhận H0 nếu |X − Y | ≤ c,
trong đó c là hằng số được chọn
thích hợp.
Ta biết rằng X − Y ∼ N µx − µy , σx2 /n + σy2 /m , do đó
X − Y − (µx − µy )
q ∼ N (0, 1).
σx2 /n + σy2 /m
X −Y
q ∼ N (0, 1). (7.20)
σx2 /n + σy2 /m
Do đó
|X − Y |
PH0 q > zα/2 = α. (7.21)
2 2
σx /n + σy /m
|X − Y |
q > zα/2 . (7.22)
σx2 /n + σy2 /m
86
Nhận xét 7.3.
• Nếu kiểm định H0 : µx = µy và H1 : µx > µy , với mức ý nghĩa α, thì
miền bác bỏ là
X −Y
q > zα . (7.23)
σx2 /n + σy2 /m
Ví dụ 7.3. Hai phương pháp sản xuất lốp xe được đề xuất. Để biết xem
phương pháp sản xuất nào tốt hơn, nhà sản xuất lốp xe sản xuất một mẫu
gồm 10 lốp theo phương pháp thứ nhất rồi test thử ở vị trí A và một mẫu
gồm 8 lốp theo phương pháp thứ hai rồi test thử ở vị trí B. Biết rằng tuổi thọ
của các lốp test ở vị trí A có phân phối chuẩn với độ lệch chuẩn bằng 4000
km, trong khi các lốp test ở vị trí B có phân phối chuẩn với độ lệch chuẩn
bằng 6000 km. Nếu nhà sản xuất lốp muốn kiểm định giả thuyết rằng không
có sự khác biệt đáng kể nào về tuổi thọ trung bình của các lốp sản xuất bởi
hai phương pháp, thì bảng dữ liệu sau đây (đơn vị 1000 km) cho ta kết luận
gì với mức ý nghĩa α = 0.05?
A 61.1 58.2 62.3 64 59.7 66.2 57.8 61.4 62.2 63.6
B 62.2 56.6 66.4 56.2 57.4 58.4 57.6 65.4
87
7.3.2 Trường hợp σx2 = σy2 = σ 2 chưa biết
Giả sử X1 , . . . , Xn và Y1 , . . . , Ym là hai mẫu độc lập từ hai dân số bình thường
có trung bình lần lượt là µx , µy chưa biết và có phương sai lần lượt là σx2 = σ 2 ,
σy2 = σ 2 , trong đó σ 2 chưa biết. Xét bài toán kiểm định H0 : µx = µy và
H1 : µx 6= µy .
Như đã đề cập ở trên, ta bác bỏ H0 nếu X − Y "cách đủ xa" số 0. Để
xác định thế nào là "cách đủ xa" số 0, ta gọi
X − Y − (µx − µy )
p ∼ tn+m−2 , (7.25)
Sp 1/n + 1/m
(n − 1)Sx2 + (n − 1)Sy2
Sp2 = . (7.26)
n+m−2
X −Y
p ∼ tn+m−2 . (7.27)
Sp 1/n + 1/m
|X − Y |
p > tα/2,n+m−2 . (7.28)
Sp 1/n + 1/m
88
Nhận xét 7.4.
X −Y
p > tα,n+m−2 . (7.29)
Sp 1/n + 1/m
X −Y
p < −tα,n+m−2 . (7.30)
Sp 1/n + 1/m
89
Dẫn đến
(n − 1)S 2
PH 0 χ21−α/2,n−1 ≤ ≤ χ2α/2,n−1 = 1 − α. (7.32)
σ02
• Nếu kiểm định H0 : σ 2 = σ02 và H1 : σ 2 > σ02 , với mức ý nghĩa α, thì
miền bác bỏ là
(n − 1)S 2
> χ2α,n−1 . (7.34)
σ02
• Nếu kiểm định H0 : σ 2 = σ02 và H1 : σ 2 < σ02 , với mức ý nghĩa α, thì
miền bác bỏ là
(n − 1)S 2
< χ21−α,n−1 . (7.35)
σ02
Sx2
∼ Fn−1,m−1 , (7.37)
Sy2
90
và do đó
Sx2
PH0 F1−α/2,n−1,m−1 ≤ 2 ≤ Fα/2,n−1,m−1 = 1 − α. (7.38)
Sy
Vậy, phép kiểm định H0 : σx2 = σy2 và H1 : σx2 6= σy2 , với mức ý nghĩa α, có
miền bác bỏ là
Sx2 Sx2
< F1−α/2,n−1,m−1 hoặc > Fα/2,n−1,m−1 . (7.39)
Sy2 Sy2
• Nếu kiểm định H0 : σx2 = σy2 và H1 : σx2 > σy2 , với mức ý nghĩa α, thì
miền bác bỏ là
Sx2
> Fα,n−1,m−1 . (7.40)
Sy2
• Nếu kiểm định H0 : σx2 = σy2 và H1 : σx2 < σy2 , với mức ý nghĩa α, thì
miền bác bỏ là
Sx2
< F1−α,n−1,m−1 . (7.41)
Sy2
91
Khi đó, ta có !
c
PH0 |Z| > p = α. (7.45)
p0 (1 − p0 )/n
Vậy, phép kiểm định H0 : p = p0 và H1 : p 6= p0 , với mức ý nghĩa α, có miền
bác bỏ là
|X − p0 |
p > zα/2 . (7.46)
p0 (1 − p0 )/n
Bài tập
Bài tập 7.1. Cân nặng trung bình khi xuất chuồng ở một trại chăn nuôi gà
trước đây là 3.3 kg/con. Năm nay người ta sử dụng một loại thức ăn mới,
cân thử 15 con khi xuất chuồng được dữ liệu sau:
(a) Với mức ý nghĩa α = 0.05, hãy đưa ra kết luận về tác dụng của loại
thức ăn mới này.
(b) Nếu trại chăn nuôi này báo cáo cân nặng trung bình khi xuất chuồng là
3.5 kg/con thì có chấp nhận được không ? (Với mức ý nghĩa α = 0.05.)
Bài tập 7.2. Để so sánh năng lực học Toán và Hóa của học sinh, người ta
kiểm tra ngẫu nhiên 8 em bằng 2 bài Toán và Hóa. Kết quả được cho bởi
bảng sau, trong đó X là điểm Toán, Y là điểm Hóa:
X 15 20 16 22 24 18 20 14
Y 15 22 14 25 19 20 24 16
92
Hãy so sánh điểm trung bình giữa X và Y với mức ý nghĩa α = 0.05.
Bài tập 7.3. Tiến hành khảo sát số gạo bán ra hằng ngày ở một cửa hàng,
người ta có kết quả như sau:
Ông chủ cửa hàng này cho rằng nếu trung bình một ngày bán ra không quá
170 kg thì tốt hơn là nghỉ bán. Từ số liệu trên, với mức ý nghĩa 5%, hãy cho
biết ông chủ cửa hàng có nên tiếp tục bán hay không ?
93
Chương 8
8.1 Mở đầu
Nhiều bài toán của khoa học và kỹ thuật liên quan đến việc xác định mối
quan hệ giữa các biến. Chẳng hạn, trong một quá trình hóa học, người ta
quan tâm đến mối quan hệ giữa đầu ra của quá trình và lượng xúc tác được
sử dụng. Hiểu biết về một mối quan hệ như vậy giúp ta có thể dự đoán được
đầu ra ứng với các giá trị khác nhau của lượng xúc tác.
Trong tình huống đơn giản nhất, ta có một biến đầu ra (output) Y ,
còn gọi là biến phụ thuộc (dependent variable), nó phụ thuộc vào một
biến đầu vào (input) x, còn gọi là biến độc lập (independent). Chẳng
hạn, mối quan hệ đơn giản nhất giữa biến đầu ra Y và biến đầu vào x là mối
quan hệ tuyến tính, đó là
Y = α + βx, (8.1)
trong đó α, β là các hằng số.
Nếu ta có một mối quan hệ như (8.1), thì ta có thể dự đoán một cách
chính xác đầu ra cho mọi giá trị đầu vào. Tuy nhiên, trong thực tế, sự chính
xác như vậy không bao giờ đạt được, mà phần lớn người ta chỉ có thể mong
đợi rằng phương trình (8.1) sẽ đúng với một sai số ngẫu nhiên (random
error). Theo nghĩa này, (8.1) được thay thế bởi một mối quan hệ tường
minh như sau
Y = α + βx + e, (8.2)
trong đó sai số e được xem như là một biến ngẫu nhiên có trung bình là 0.
Phương trình (8.2) được gọi là mô hình hồi quy tuyến tính đơn
(simple linear regression model). Các đại lượng α, β được gọi là các hệ
số hồi quy (regression coefficients).
94
8.2 Ước lượng các tham số hồi quy bằng phương
pháp bình phương tối thiểu
Giả sử ta quan sát được bảng giá trị
x x1 ... xn
Y Y1 ... Yn
và sử dụng bảng giá trị này để ước lượng các hệ số α và β trong mô hình hồi
quy tuyến tính đơn (8.2).
Để ước lượng các hệ số α và β, ta để ý rằng: nếu A là ước lượng của hệ
số α và B là ước lượng của hệ số β, thì ước lượng của biến đầu ra Y tại xi
sẽ là A + Bxi . Vì giá trị thực sự của Y tại xi là Yi nên ta có bình phương độ
lệch giữa Yi và A + Bxi là (Yi − A − Bxi )2 , và do đó ta có tổng bình phương
các độ lệch giữa giá trị đầu ra thực sự và giá trị đầu ra ước lượng là
Cho các đạo hàm trên bằng không rồi giải hệ phương trình, ta tìm được A
và B như được phát biểu trong định lý sau.
Định lý 8.1. Ước lượng bình phương tối thiểu của β và α trong mô hình
hồi quy tuyến tính đơn (8.2) ứng với tập dữ liệu (xi , Yi ), i = 1, . . . , n, lần
lượt là
SxY
B= ,
Sxx (8.5)
A = Y − Bx,
95
trong đó
n
X n
X
SxY = (xi − x)(Yi − Y ) = xi Yi − nxY ,
i=1 i=1
n n (8.6)
X X
Sxx = (xi − x)2 = x2i − nx2 .
i=1 i=1
Với A và B được xác định như trong định lý trên, ta gọi đường thẳng
y = A + Bx (8.7)
Ví dụ 8.1. Bảng số liệu sau đây ghi lại dân số (đơn vị: vạn người) của một
tỉnh qua 8 năm từ 1985 đến 1992:
Hãy ước lượng phương trình hồi quy tuyến tính của dân số theo thời gian. Từ
đó dự báo dân số của tỉnh này vào năm 2000.
96
Bài tập
Bài tập 8.1. Người ta thu thập số liệu về lượng mưa trong tháng 6 hằng
năm ở thượng nguồn sông Hồng và đỉnh lũ tương ứng với năm đó tại Hà Nội
(Y) như sau:
Năm 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984
X 660 780 770 710 640 670 520 660 590 500 460 610
Y 1272 1519 1524 1364 1253 1324 1002 1303 1337 960 879 1176
Hãy ước lượng phương trình hồi quy tuyến tính của đỉnh lũ Y theo lượng
mưa X. Từ đó dự báo đỉnh lũ trên sông Hồng ứng với lượng mưa X = 820.
97
Bảng A1: Giá trị
Z xhàm phân phối chuẩn
1 2
Φ(x) = P (Z ≤ x) = √ e−y /2 dy, trong đó Z ∼ N (0, 1)
2π −∞
x 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
98
Bảng A2: Giá trị của χ2α,n
99
Bảng A3: Giá trị của tα,n
n α = 0.10 α = 0.05 α = 0.025 α = 0.01 α = 0.005
1 3.0777 6.3138 12.7062 31.8205 63.6567
2 1.8856 2.9200 4.3027 6.9646 9.9248
3 1.6377 2.3534 3.1824 4.5407 5.8409
4 1.5332 2.1318 2.7764 3.7469 4.6041
5 1.4759 2.0150 2.5706 3.3649 4.0321
6 1.4398 1.9432 2.4469 3.1427 3.7074
7 1.4149 1.8946 2.3646 2.9980 3.4995
8 1.3968 1.8595 2.3060 2.8965 3.3554
9 1.3830 1.8331 2.2622 2.8214 3.2498
10 1.3722 1.8125 2.2281 2.7638 3.1693
11 1.3634 1.7959 2.2010 2.7181 3.1058
12 1.3562 1.7823 2.1788 2.6810 3.0545
13 1.3502 1.7709 2.1604 2.6503 3.0123
14 1.3450 1.7613 2.1448 2.6245 2.9768
15 1.3406 1.7531 2.1314 2.6025 2.9467
16 1.3368 1.7459 2.1199 2.5835 2.9208
17 1.3334 1.7396 2.1098 2.5669 2.8982
18 1.3304 1.7341 2.1009 2.5524 2.8784
19 1.3277 1.7291 2.0930 2.5395 2.8609
20 1.3253 1.7247 2.0860 2.5280 2.8453
21 1.3232 1.7207 2.0796 2.5176 2.8314
22 1.3212 1.7171 2.0739 2.5083 2.8188
23 1.3195 1.7139 2.0687 2.4999 2.8073
24 1.3178 1.7109 2.0639 2.4922 2.7969
25 1.3163 1.7081 2.0595 2.4851 2.7874
26 1.3150 1.7056 2.0555 2.4786 2.7787
27 1.3137 1.7033 2.0518 2.4727 2.7707
28 1.3125 1.7011 2.0484 2.4671 2.7633
29 1.3114 1.6991 2.0452 2.4620 2.7564
∞ 1.2816 1.6449 1.9600 2.3263 2.5758
100
Bảng A4: Giá trị của Fα,n,m với α = 0.05
101
Tài liệu tham khảo
102