Slide Lý thuyết thống kê 3 chương đầu thầy Hoàng Văn Hà

Giới thiệu môn học
Tên môn học: Lý thuyết Thống kê (Mathematical Statistics).

Thời lượng: 45 tiết (Lý thuyết + bài tập), 30 tiết thực hành.
Lý thuyết thống kê
Thời gian: chiều thứ sáu (tiết 6 - 9), HT. B. Chương 1: Thống kê mô tả
Giảng viên: TS. Hoàng Văn Hà.
Email: hvha@hcmus.edu.vn.
Web: https://sites.google.com/view/hoangvanha. Hoàng Văn Hà
University of Science, VNU - HCM
Nội dung môn học: xem đề cương chi tiết. hvha@hcmus.edu.vn
Đánh giá:
I Giữa kỳ và cuối kỳ: 25% GK + 40% CK.
I Bài tập: 10% Quiz + 10% bài tập.
I 15% thực hành.
Ha Hoang V. Lý thuyết thống kê 1 / 74 Ha Hoang V. Lý thuyết thống kê 2 / 74
Một số khái niệm cơ bản
Mục lục Một số khái niệm cơ bản
1 Một số khái niệm cơ bản
2 Mô tả dữ liệu định lượng bằng đồ thị

Histogram Tổng thể (population): tập hợp tất cả những phần tử mang đặc trưng
Đồ thị thân và lá (Stem & leaf) và dotplot quan tâm hay cần nghiên cứu.
Mẫu (sample): là một tập con được chọn ra từ tổng thể.
3 Các đại lượng đo xu hướng trung tâm
Tham số (parameter): là một đặc trưng cụ thể của một tổng thể. Ví dụ:
trung bình (kỳ vọng), phương sai, trung vị, . . .
4 Các đại lượng đo sự biến thiên
Thống kê (statistic): là một đặc trưng cụ thể của một mẫu. Ví dụ: trung
5 Thống kê mô tả cho dữ liệu 2 chiều (bivariate data) bình mẫu, phương sai mẫu, trung vị mẫu, . . .
6 Phân phối mẫu (Sampling distribution)

Nhắc lại một số phân phối thường gặp
Phân phối mẫu

Một số khái niệm cơ bản Một số khái niệm cơ bản
Chọn mẫu ngẫu nhiên

Ví dụ về tổng thể:
Số cử tri đăng ký đi bầu cử Một mẫu ngẫu nhiên (random sample) gồm n phần tử được chọn ra từ một tổng
Thu nhập của các hộ gia đình trong thành phố thể phải thỏa các điều kiện sau:
Điểm trung bình của tất cả các sinh viên trong một trường đại học Mỗi phần tử trong tổng thể phải được chọn ngẫu nhiên và độc lập.
Trọng lượng của các sản phẩm trong một nhà máy Mỗi phần tử trong tổng thể có khả năng được chọn như nhau (xác suất được
chọn bằng nhau).
Thông thường, ta không thể chọn hết được tất cả các phần tử của tổng thể để Mọi mẫu cỡ n cũng có cùng khả năng được chọn từ tổng thể.
nghiên cứu bởi vì:
số phần tử của tổng thể rất lớn, Phương pháp chọn mẫu ngẫu nhiên đơn giản (simple random sampling):
thời gian và kinh phí không cho phép, Đánh số các phần tử của tổng thể từ 1 đến N. Lập các phiếu cũng đánh số
như vậy.
có thể làm hư hại các phần tử của tổng thể.
Trộn đều các phiếu, sau đó chọn có hoàn lại n phiếu. Các phần tử của tổng
Do đó, ta chỉ thực hiện nghiên cứu trên các mẫu được chọn ra từ tổng thể.
thể có số thứ tự trong phiếu lấy ra sẽ được chọn làm mẫu.
Mô tả dữ liệu định lượng bằng đồ thị Mô tả dữ liệu định lượng bằng đồ thị Histogram
Mô tả phân phối của dữ liệu Histogram
Histogram được xây dựng dựa trên bảng phân bố tần số (frequency
distribution).
Các dạng đồ thị:
Một bảng phân bố tần số bao gồm:
Histogram (đồ thị tổ chức tần số) I các khoảng được phân nhóm theo dữ liệu quan trắc (observations),
I và các tần số tương ứng của dữ liệu nằm bên trong từng khoảng.
Khi cỡ mẫu nhỏ:
I Stem-and-Leaf (đồ thị thân và lá) Histogram cho phép:
I Dotplot I mô tả phân phối của dữ liệu,
I nhận dạng phân phối chuẩn (bell-shaped),
I xem xét tính đối xứng/bất đối xứng, tập trung/phân tán của dữ liệu,
I xác định mode (unimodal, bimodal),
I ...

Mô tả dữ liệu định lượng bằng đồ thị Histogram Mô tả dữ liệu định lượng bằng đồ thị Histogram
Lập một bảng phân bố tần số Lập một bảng phân bố tần số
Trong một bảng phân bố tần số:

mỗi nhóm có bề rộng bằng nhau, Ví dụ 1
bề rộng của mỗi nhóm được xác định bởi Chọn ngẫu nhiên 20 ngày mùa đông có nhiệt độ cao và đo nhiệt độ (Đv: độ F)
được số liệu như sau
Giá trị lớn nhất − Giá trị bé nhất
, 24 35 17 21 24 37 26 46 58 30
Số khoảng cần chia 32 13 12 38 41 43 44 27 53 27
các khoảng không trùng nhau,
Hãy lập bảng phân bố tần số và vẽ histogram cho tập dữ liệu này.
nên chọn số khoảng tối thiểu ≥ 5.
Lập một bảng phân bố tần số Lập một bảng phân bố tần số
Các bước thực hiện:

Dữ liệu được sắp xếp theo thứ tự tăng dần:
Sắp xếp dữ liệu theo thứ tự tăng dần
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Khoảng Tần số Tần suất Phần trăm
Xác định khoảng biến thiên của dữ liệu (range): 58 − 12 = 46. [10,20) 3 0.15 15
Chọn số khoảng cần chia: 5. [20,30) 6 0.30 30
Xác định độ rộng của khoảng: 10 (làm tròn 46/5). [30,40) 5 0.25 25
Xác định biên của các khoảng: từ 10 đến dưới 20, từ 20 đến dưới 30, . . . , từ [40,50) 4 0.20 20
50 đến dưới 60. [50,60) 2 0.10 10
Đếm số giá trị dữ liệu nằm trong mỗi khoảng. Tổng 20 1.00 100

Vẽ histogram Cần chọn bao nhiêu khoảng khi vẽ histogram
Không có câu trả lời cụ thể. Thông thường số khoảng cần chia sẽ phụ thuộc
vào cỡ mẫu.
Một số quy tắc:
I Quy tắc của Sturge: số khoảng =√1 + log2 (n).
I Quy tắc của Rice: số khoảng = 2 3 n.
Nhận dạng phân phối của dữ liệu Nhận dạng phân phối của dữ liệu
Đối xứng:
Bất đối xứng (lệch trái và lệch phải):

Mô tả dữ liệu định lượng bằng đồ thị Histogram Mô tả dữ liệu định lượng bằng đồ thị Đồ thị thân và lá (Stem & leaf) và dotplot
Nhận dạng phân phối của dữ liệu Đồ thị thân và lá
Các dạng khác: Ví dụ 2

Bộ dữ liệu sau mô tả kết quả thi môn Toán (thang điểm 100) của 20 sinh viên
trong một lớp học.
72 49 62 58 73 55 78 83 57 63
73 73 75 85 85 64 61 67 75 91
Vẽ đồ thị thân và lá cho bộ dữ liệu trên.
Ví dụ 3
Bộ dữ liệu dưới đây cho biết kết quả của thi môn bật xa (Đv: m) của 10 sinh viên
trong môn học giáo dục thể chất:
2.3 2.5 2.5 2.7 2.8 3.2 3.6 3.6 4.5 5.0
Vẽ đồ thị thân và lá cho bộ dữ liệu trên.
Mô tả dữ liệu định lượng bằng đồ thị Đồ thị thân và lá (Stem & leaf) và dotplot Các đại lượng đo xu hướng trung tâm
Dotplot Độ đo xu hướng trung tâm (central tendency)
ggplot(mtcars, aes(x = mpg)) + geom_dotplot()
Gồm các đại lượng sau:

Trung bình (mean/average)
Trung vị (median)
Yếu vị (mode)
Ta cũng có thể có:

Trimean
Truncated mean (trimmed mean)

Các đại lượng đo xu hướng trung tâm Các đại lượng đo xu hướng trung tâm
Trung bình Trung vị
Trung bình là đại lượng thường được sử dụng nhất để đo giá trị trung tâm
của dữ liệu.
Trong một tập dữ liệu được sắp xếp theo thứ tự tăng dần, trung vị (median)
Với một tổng thể có N phần tử (thông thường, N rất lớn), trung bình tổng là giá trị "chính giữa" của dữ liệu (50% bên trái, 50% bên phải).
thể (population mean) được tính bởi
Trung vị không bị ảnh hưởng bởi các giá trị ngoại lai.
PN
i=1 xi x1 + x2 + . . . + xN
µ= = .
N N
Với một mẫu cỡ n được chọn từ tổng thể, trung bình mẫu (sample mean)
được tính bởi Pn
xi x1 + x2 + . . . + xn
x̄ = i=1 = .
n n
Chú ý: trung bình rất nhạy cảm với các giá trị ngoại lai (outlier).
Trung vị Mode (Yếu vị)
Là giá trị thường xảy ra nhất,

Xác định trung vị:
Không bị ảnh hưởng bởi các điểm ngoại lai,
Ký hiệu med(x) là trung vị của véc-tơ x = (x1 , x2 , . . . , xn ).
Có thể sử dụng cho cả dữ liệu định tính và dữ liệu định lượng,
Trung vị được xác định bởi
Có thể có nhiều mode hoặc không tồn tại mode.

x n+1
( ) nếu n lẻ
med(x) = 1 2
 x n +x n
2 ( ) ( +1) nếu n chẵn
2 2
với x(1) ≤ x(2) ≤ · · · ≤ x(n) là thống kê thứ tự (order statistic).

Sử dụng các độ đo xu hướng trung tâm Trung bình, trung vị và mode
Trung bình luôn luôn được sử dụng, nếu các điểm ngoại lai (outliers) không
tồn tại hoặc sau khi loại bỏ các điểm ngoại lai.
Trung vị thường được dùng nếu bộ dữ liệu có các điểm ngoại lai hoặc rất bất
đối xứng.
Mode thường dùng để mô tả các biến định tính.
Vị trí của trung bình và trung vị bị ảnh hưởng bởi phân phối của dữ liệu:
Các đại lượng đo sự biến thiên Các đại lượng đo sự biến thiên
Độ đo sự biến thiên (variability) Khoảng biến thiên
Khoảng biến thiên (range) là độ đo sự biến thiên đơn giản nhất.

Là độ chênh lệch giữa giá trị lớn nhất và bé nhất của dữ liệu quan trắc
Gồm các độ đo sau: Khoảng biến thiên = XMax − XMin .

Khoảng biến thiên (range)
Khoảng tứ phân vị (interquartile range)
Phương sai (variance)
Độ lệch tiêu chuẩn (Standard deviation)
Hạn chế:
I Bỏ qua sự phân bố của dữ liệu.
I Dễ bị ảnh hưởng bởi các điểm ngoại lai (outlier).

Khoảng tứ phân vị Boxplot
Khoảng tứ phân vị (interquartile range): Để biểu diễn khoảng tứ phân vị và các điểm ngoại lai : sử dụng boxplot.
IQR = Q3 − Q1 ,
với Q1 là phân vị thứ 1 (mức 25%) và Q3 là phân vị thứ 3 (mức 75%) của
dữ liệu.
Các điểm Q1 , Q2 , và Q3 được gọi là các điểm tứ phân vị:
Cách tìm Q1 và Q3 : tương tự Q2 (trung vị).
Boxplot Phương sai

Khi vẽ nhiều đồ thị boxplot của nhiều tập dữ liệu khác nhau bên cạnh nhau, Phương sai (variance) là trung bình của bình phương độ lệch các giá trị so
ta còn có thể so sánh được độ phân tán và so sánh giá trị trung tâm (trung với trung bình.
bình/trung vị) của các tập dữ liệu này.
Phương sai phản ánh độ phân tán hay sự biến thiên của dữ liệu.
Phương sai tổng thể (popluation variance):
N
1 X
σ2 = (xi − µ)2
N
i=1
với N là số phần tử của tổng thể, µ là trung bình tổng thể, xi là giá trị thứ i
của biến x.
Phương sai mẫu (sample variance):
n
1 X
s2 = (xi − x̄)2
n−1
i=1
với x̄ là trung bình mẫu, n là cỡ mẫu, xi là giá trị quan trắc thứ i.

Độ lệch tiêu chuẩn So sánh sự biến thiên của dữ liệu dùng độ lệch chuẩn
Độ lệch tiêu chuẩn (standard deviation) được dùng để đo sự biến thiên, biểu
diễn sự biến thiên xung quanh trung bình.
Có cùng đơn vị đo với dữ liệu gốc.
Độ lệch chuẩn của tổng thể, ký hiệu là σ:
s
PN 2
i=1 (xi − µ)
σ= .
N
Độ lệch chuẩn của mẫu,

sP
n
− x̄)2
i=1 (xi
s= .
n−1
Hệ số biến thiên So sánh hệ số biến thiên
Dữ liệu A:
I Trung bình x̄A = 50
Hệ số biến thiên (Coefficient of Variation) được sử dụng để so sánh sự biến I Độ lệch chuẩn sA = 5
thiên của hai hay nhiều tập dữ liệu, có thể đo ở các đơn vị khác nhau.
sA 5
Hệ số biến thiên do sự phân tán tương đối của dữ liệu xung quanh giá trị CVA = 100% = 100% = 10%.
x̄A 50
trung bình.
Dữ liệu B:
Đơn vị tính bằng %.
I Trung bình x̄B = 100
Công thức I Độ lệch chuẩn sB = 5
s
CV = 100%.
x̄ sB 5
CVB = 100% = 100% = 5%.
x̄B 100
Cả hai tập dữ liệu có cùng độ lệch chuẩn, nhưng dữ liệu B biến thiên ít hơn
so với giá trị của nó.

Thống kê mô tả cho dữ liệu 2 chiều (bivariate data) Thống kê mô tả cho dữ liệu 2 chiều (bivariate data)
Đồ thị phân tán Quan hệ phi tuyến (non-linear relationship):

Đồ thị phân tán (scatter plot) dùng để mô tả mối quan hệ giữa hai biến.
Ví dụ: đồ thị phân tán mô tả tuổi của 199 cặp vợ chồng.
60
50
Wife's Age
40
30
20
20 30 40 50 60
Husband's Age
Câu hỏi: người ta có xu hướng kết hôn với những người có cùng độ tuổi hay
không?
Hệ số tương quan Pearson Hệ số tương quan Pearson
Hệ số tương quan Pearson (Pearson’s corelation coefficient) là một độ đo

thống kê dùng để đo mối quan hệ tuyến tính giữa hai biến ngẫu nhiên thực. −1 ≤ r ≤ 1.
Hệ số tương quan tổng thể: r > 0: tương quan tuyến tính thuận.
r < 0: tương quan tuyến tính nghịch.
Cov(X , Y )
ρ= p . r = 0: không có tương quan tuyến tính.
Var (X )Var (Y )
r càng gần 1 hoặc −1, thì mối quan hệ tuyến tính càng mạnh.
Hệ số tương quan mẫu:
Pn Chú ý: r = 0 (hoặc ρ = 0) suy ra X và Y không có mối quan hệ tuyến tính nhưng
− X̄ )(Yi − Ȳ )
i=1 (Xi không có nghĩa là X và Y độc lập, có thể tồn tại mối quan hệ phi tuyến giữa hai
r = qP .
n Pn
i=1 (Xi − X̄ )2
i=1 (Yi − Ȳ ) 2 biến.

Hệ số tương quan Pearson Hệ số tương quan Pearson
Các yếu tố ảnh hưởng đến hệ số tương quan Các yếu tố ảnh hưởng đến hệ số tương quan
Các điểm ngoại lai (outliers): Tính đồng nhất (homoscedasticity) và không đồng nhất (heteroscedasticity)
của dữ liệu:

Thống kê mô tả cho dữ liệu 2 chiều (bivariate data) Phân phối mẫu (Sampling distribution) Nhắc lại một số phân phối thường gặp
Chú ý! Phân phối chuẩn
Định nghĩa 1 (Normal distribution)

Biến ngẫu nhiên liên tục X nhận giá trị trong khoảng (−∞, +∞) được gọi là có
phân phối chuẩn tham số µ, σ nếu hàm mật độ xác suất có dạng
Sự tồn tại mối tương quan mạnh không có nghĩa là có một liên hệ nhân quả 2
!
(causal link) giữa các biến. 1 (x − µ)
f (x) = √ exp − − ∞ < x < +∞
σ 2π 2σ 2
Ta cần thực hiện một kiểm định có ý nghĩa (significance test) để quyết định
xem liệu với một mẫu cho trước, có đủ bằng chứng để kết luận rằng có mối
trong đó µ, σ là hằng số và σ > 0, −∞ < µ < +∞, ký hiệu X ∼ N µ; σ 2 .

tương quan tuyến tính hiện diện trong tổng thể hay không?
Nếu X ∼ N(µ, σ 2 ), ta có
E(X ) = µ
Var (X ) = σ 2
Phân phối mẫu (Sampling distribution) Nhắc lại một số phân phối thường gặp Phân phối mẫu (Sampling distribution) Nhắc lại một số phân phối thường gặp
Phân phối chuẩn Phân phối chuẩn - Tính chất
Phân phối chuẩn là một trong những phân phối quan trọng nhất, được dùng
để mô tả phân phối của nhiều biến ngẫu nhiên trong thực tế, như chiều
cao/cân nặng của một người, tổng doanh thu của một công ty, điểm thi của
sinh viên, sai số của một phép đo, v.v. Bên cạnh đó, định lý giới hạn trung
tâm (Central Limit Theorem) đã chứng tỏ rằng, phân phối chuẩn là phân
phối xấp xỉ của nhiều phân phối khác như nhị thức, tổng các biến ngẫu nhiên
độc lập, v.v.
Một số tính chất của phân phối chuẩn:
I Đồ thị có dạng chuông (bell-shaped)
I Phân phối đối xứng
I Trung bình = trung vị (median) = yếu vị (mode)
I Vị trí của phân phối được xác định bởi kỳ vọng µ
I Độ phân tán được xác định bởi độ lệch tiêu chuẩn σ
I Xác định trên R

Phân phối chuẩn tắc Phân phối chuẩn tắc
Định nghĩa 2 (Standard normal distribution)

Biến ngẫu nhiên Z được gọi là có phân phối chuẩn tắc nếu nó có phân phối chuẩn
với tham số µ = 0 và σ 2 = 1, ký hiệu Z ∼ N (0, 1).
Theo quy ước, hàm phân phối của biến ngẫu nhiên chuẩn hóa được ký hiệu là
Φ(z), tức Z z
1 x2
Φ(z) = √ e − 2 dx
2π −∞
Phân phối chuẩn tắc Phân phối Chi bình phương

Theo định lý về tính tuyến tính của phân phối chuẩn, nếu X ∼ N µ; σ 2 thì

X −µ
có phân phối chuẩn tắc hay
σ Định nghĩa 3 (Chi-squared distribution)
X −µ
∼ N (0, 1) . Biến ngẫu nhiên liên tục X nhận giá trị trong khoảng (0, +∞) được gọi là có
σ phân phối chi bình phương với n bậc tự do, ký hiệu X ∼ χ2 (n), nếu hàm mật độ
Dựa vào tính chất này ta có thể tính xác suất của biến ngẫu nhiên X ∼ N µ, σ 2 .
xác suất có dạng


X −µ b−µ

b−µ
0 với x ≤ 0,
P (X ≤ b) = P ≤ =Φ . f (x) = 1 n
−1 − x
σ σ σ  2 n2 Γ n x 2 e 2 với x > 0.
(2)
Tương tự, với a ≤ b thì R∞
trong đó Γ(x) = 0
t x−1 e −t dt là hàm Gamma .

b−µ a−µ
P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = Φ −Φ .
σ σ

Xây dựng phân phối Chi bình phương từ phân phối chuẩn Phân phối Chi bình phương
Nếu Z ∼ N(0, 1), thì Y = Z sẽ tuân theo một phân phối được gọi là phân
2
phối Chi bình phương với 1 bậc tự do. Ký hiệu: Y ∼ χ2 (1).

Xét Y1 , Y2 , . . . , Yn là n biến ngẫu nhiên độc lập và có phân phối Chi bình
n
P
phương với 1 bậc tự do. Đặt X = Y1 + Y2 + · · · + Yn = Yi , thì X có phân
i=1
phối Chi bình phương với n bậc tự do. Ký hiệu: X ∼ χ2 (n).
n
i.i.d
Suy ra: nếu Z1 , Z2 , . . . , Zn ∼ N(0, 1), thì Zi2 ∼ χ2 (n).
P
i=1
Định lý 1 (Các đặc trưng của biến ngẫu nhiên có phân phối Chi bình
phương)
Cho X là biến ngẫu nhiên có phân phối chi bình phương với n bậc tự do thì
i) Kỳ vọng E (X ) = n,
ii) Phương sai Var (X ) = 2n,
iii) Nếu X ∼ χ2 (n), Y ∼ χ2 (m) và X , Y là hai biến ngẫu nhiên độc lập thì
X + Y ∼ χ2 (m + n).
Phân phối Student Xây dựng pp Student từ pp chuẩn và pp Chi bình phương
Xét Z ∼ N(0, 1) và Y ∼ χ2 (n), Z và Y độc lập.
Đặt:
Z
T =q .
Định nghĩa 4 (Student distribution) Y
n
Biến ngẫu nhiên liên tục X nhận giá trị trong khoảng (−∞, +∞) được gọi là có
phân phối Student với n bậc tự do, ký hiệu X ∼ t(n), nếu hàm mật độ xác suất Biến ngẫu nhiên T được định nghĩa như trên sẽ tuân theo phân phối Student
có dạng với n bậc tự do, ký hiệu T ∼ t(n).
− n+1
Γ( n+1 t2

2 )
2
f (x) = √ 1 + , Định lý 2 (Các đặc trưng của biến ngẫu nhiên có phân phối Student)
nπ Γ( n2 ) n
trong đó Γ(x) là hàm Gamma. Cho X ∼ t(n) thì
i) Kỳ vọng E (X ) = 0 nếu n > 1, các trường hợp còn lại E (X ) không được định
nghĩa.
n
ii) Phương sai Var (X ) = n−2 nếu n > 2; Var (X ) = ∞ nếu 1 < n ≤ 2 các
trường hợp còn lại Var (X ) không được định nghĩa.

Phân phối mẫu (Sampling distribution) Nhắc lại một số phân phối thường gặp Phân phối mẫu (Sampling distribution) Phân phối mẫu
Phân phối Student Phân phối mẫu
• Đồ thị của hàm mật độ phân phối Student có dạng hình chuông như đồ thị
hàm mật độ của phân phối chuẩn, nhưng có phần đỉnh thấp hơn và hai phần
đuôi cao hơn so với phân phối chuẩn. Định nghĩa 5
Xét X1 , X2 , . . . , Xn là một mẫu ngẫu nhiên chọn từ một tổng thể và hàm giá trị
thực (hay véc-tơ) T (x1 , x2 , . . . , xn ). Thì biến ngẫu nhiên hay véc-tơ ngẫu nhiên
Y = T (X1 , X2 , . . . , Xn ) được coi là một thống kê. Phân phối xác suất của thống
kê Y được gọi là phân phối mẫu của Y .
Những phân phối mẫu được khảo sát:

• Phân mối mẫu của trung bình,
• Phân phối mẫu của phương sai,
• Phân phối mẫu của tỷ lệ.
Phân phối mẫu (Sampling distribution) Phân phối mẫu Phân phối mẫu (Sampling distribution) Phân phối mẫu
Phân phối mẫu của trung bình và phương sai Phân phối mẫu của trung bình và phương sai
Định lý 3 Trong trường hợp tổng thể không có phân phối chuẩn, từ định lý giới hạn trung
2
Nếu tổng thể X có phân phối chuẩn X ∼ N(µ, σ ) và (X1 , ..., Xn ) là một mẫu tâm ta suy ra rằng
ngẫu nhiên từ tổng thể trên. Xét √
(X̄ − µ) n D
n n −→ N(0, 1),
1X 1 X σ
X̄ = 2
Xi và S = (Xi − X̄ )2 . √
n n−1 (X̄ − µ) n D
i=1 i=1 −→ N(0, 1).
S
Ta có các kết quả sau: Từ kết quả này, trong thực hành, khi mẫu có kích thước, n, đủ lớn ta có các phân
σ2

1 X̄ ∼ N µ, . phối xấp xỉ chuẩn sau
n √
(n − 1) 2 P n (X − X̄ )2 (X̄ − µ) n
2 S =
i
∼ χ2 (n − 1). ≈ N(0, 1),
σ2 σ 2 σ
i=1 √
√ (X̄ − µ) n
(X̄ − µ) n ≈ N(0, 1).
3 ∼ t(n − 1). S
S
4 X̄ và S 2 là hai biến ngẫu nhiên độc lập.

Sai số chuẩn của trung bình Sai số chuẩn của trung bình
Định nghĩa 6
Xét X1 , X2 , . . . , Xn là một mẫu ngẫu nhiên chọn từ một tổng thể có trung bình µ
và phương sai σ 2 < ∞. Sai số chuẩn (Standard Error - SE) của trung bình, ký σX̄ bị ảnh hưởng bởi hai yếu tố:
hiệu σX̄ được định nghĩa như sau
(1) Cỡ mẫu n: Cỡ mẫu càng lớn ⇒ sai số chuẩn càng nhỏ, chú ý rằng khi n = 1
σ thì σX̄ = σ.
σX̄ = √ .
n (2) Độ biến thiên của tổng thể σ: σ càng lớn ⇒ sai số chuẩn càng lớn.
Ý nghĩa:
• σX̄ đo độ biến thiên của X̄ xung quanh µ,
• Sai số chuẩn càng nhỏ, ước lượng tham số từ tổng thể càng tốt và độ tin cậy
cao.
Phân phối mẫu của tỷ lệ Phân phối mẫu của tỷ lệ
• Giả sử cần khảo sát đặc trưng A của một tổng thể, khảo sát n phần tử và đặt
( • Kỳ vọng và phương sai của P̂ bằng
1, nếu thỏa A p(1 − p)
Xi =
0, nếu không thỏa A E P̂ = p, Var P̂ = .
n
thu được mẫu ngẫu nhiên X1 , . . . , Xn với Xi ∼ B(p), p là tỷ lệ phần tử thỏa • Theo định lý giới hạn trung tâm ta có
đặc trưng A.
Pn
• Đặt X = i=1 là số phần tử thỏa đặc trưng A trong mẫu khảo sát, thì P̂ − p
r ; N(0, 1).
X ∼ B(n, p). p(1 − p)
• Tỷ lệ mẫu P̂ là một ước lượng của tỷ lệ p xác định bởi p

X Vì vậy trong thực hành, khi np ≥ 5, n(1 − p) ≥ 5, ta có P̂ ≈ N p, p(1−p) .
P̂ = . n
n

NÎi dung
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ha Hoang V.
Bi∏n cË và xác Bi∏n cË và xác

1 Bi∏n cË và xác sußt
sußt sußt
Bi∏n cË ng®u nhiên Bi∏n cË ng®u nhiên
Bi∏n cË ng®u nhiên
Quan hª gi˙a các
bi∏n cË
Ch˜Ïng 1- §i c˜Ïng v∑ Xác sußt Quan hª gi˙a các
bi∏n cË
Quan hª gi˙a các bi∏n cË
Các phép toán trên
các bi∏n cË
các bi∏n cË
Các phép toán trên các bi∏n cË
Khái niªm và các
‡nh nghæa v∑ xác
Khái niªm và các ‡nh nghæa v∑ xác sußt
sußt sußt
Các công th˘c Hoàng Vń Hà Các công th˘c

tính xác sußt cÏ tính xác sußt cÏ
b£n University of Science, VNU - HCM b£n 2 Các công th˘c tính xác sußt cÏ b£n
Công th˘c cÎng xác
sußt
hvha@hcmus.edu.vn Công th˘c cÎng xác
sußt Công th˘c cÎng xác sußt
Công th˘c xác sußt
i∑u kiªn. Công th˘c
Công th˘c xác sußt i∑u kiªn. Công th˘c nhân xác sußt.
nhân xác sußt. nhân xác sußt.
S¸ Îc l™p gi˙a các S¸ Îc l™p gi˙a các
S¸ Îc l™p gi˙a các bi∏n cË
bi∏n cË bi∏n cË
Công th˘c xác sußt Công th˘c xác sußt
Công th˘c xác sußt ¶y ı. Công th˘c Bayes
¶y ı. Công th˘c ¶y ı. Công th˘c
Bayes Bayes
sußt sußt
Phép th˚ ng®u nhiên (Random experiment)
Bi∏n cË và xác Bi∏n cË và xác T™p hÒp tßt c£ các k∏t qu£ có th∫ x£y ra khi th¸c hiªn phép th˚
sußt sußt
Là s¸ th¸c hiªn mÎt sË i∑u kiªn xác ‡nh (thí nghiªm cˆ th∫ hay Bi∏n cË ng®u nhiên
gÂi là không gian m®u hay không gian các bi∏n cË sÏ cßp
Quan hª gi˙a các
bi∏n cË
quan sát mÎt hiªn t˜Òng nào ó), có th∫ l∞p l§i nhi∑u l¶n. K∏t qu£ Quan hª gi˙a các
bi∏n cË
(sample space), k˛ hiªu ⌦.
các bi∏n cË
cıa phép th˚ ta không xác ‡nh tr˜Óc ˜Òc. Các phép toán trên
các bi∏n cË MÈi k∏t qu£ cıa phép th˚ ng®u nhiên ! (! 2 ⌦) gÂi là mÎt bi∏n
‡nh nghæa v∑ xác cË/s¸ kiªn sÏ cßp (simple event).
sußt sußt
Các công th˘c Ví dˆ 1 Các công th˘c MÎt t™p con cıa không gian m®u có nhi∑u bi∏n cË ˜Òc gÂi là
b£n b£n bi∏n cË/s¸ kiªn ng®u nhiên (event). Kí hiªu là A, B, C , . . .
Phép th˚ ng®u nhiên K∏t qu£ Công th˘c cÎng xác
sußt
Tung Áng ti∑n M∞t sßp, m∞t ng˚a
sußt Bi∏n cË luôn x£y ra khi th¸c hiªn phép th˚ là bi∏n cË ch≠c ch≠n,
i∑u kiªn. Công th˘c i∑u kiªn. Công th˘c k˛ hiªu ⌦.
nhân xác sußt. Tung 1 con xúc s≠c { , , , , , } nhân xác sußt.
S¸ Îc l™p gi˙a các
bi∏n cË
Tr£ lÌi ng®u nhiên 1 câu tr≠c nghiªm úng/Sai
bi∏n cË Bi∏n cË luôn không x£y ra gÂi là bi∏n cË bßt kh£ (hay bi∏n cË
¶y ı. Công th˘c
¶y ı. Công th˘c
không th∫ có) (empty event), kí hiªu Ø.
Bayes Bayes
Bi∏n cË ng®u nhiên Quan hª gi˙a các bi∏n cË
sußt sußt
S¸ kéo theo
sußt
Ví dˆ 2 sußt
A kéo theo B, k˛ hiªu A ⇢ B, n∏u A x£y ra thì B x£y ra. Ta còn nói
Quan hª gi˙a các Quan hª gi˙a các
A là bi∏n cË thu™n lÒi cho B.
bi∏n cË
Gieo mÎt l¶n con xúc x≠c. GÂi !i = "m∞t trên cıa xúc s≠c có i chßm bi∏n cË
các bi∏n cË
= i". Không gian các bi∏n cË sÏ cßp các bi∏n cË
sußt
sußt
Ví dˆ 3
Các công th˘c
⌦ = {!1 , !2 , . . . , !6 } = { , , , , , } Các công th˘c
tính xác sußt cÏ tính xác sußt cÏ Tung mÎt con xúc x≠c.
b£n b£n
Công th˘c cÎng xác A = { , , , } ="chßm l¥" & Công th˘c cÎng xác
GÂi Ai là bi∏n cË ˜Òc i chßm i = 1, 6 ,
sußt sußt
Công th˘c xác sußt B = { , , } ="chßm chÆn" ! Bi∏n cË ng®u nhiên Công th˘c xác sußt B là bi∏n cË ˜Òc sË chßm chia h∏t cho 3,
i∑u kiªn. Công th˘c i∑u kiªn. Công th˘c
nhân xác sußt. C = { , } ="chßm > 4" % nhân xác sußt. C ="SË chßm chÆn" ,
bi∏n cË bi∏n cË P2 ="SË chßm nguyên tË chÆn",
¶y ı. Công th˘c
Bayes
¶y ı. Công th˘c
Bayes
Khi ó ta có A2 ⇢ C , A3 ⇢ B, A2 ⇢ P2 , P2 ⇢ A2 .
Quan hª gi˙a các bi∏n cË Các phép toán trên bi∏n cË
sußt sußt
Bi∏n cË và xác
sußt
Bi∏n cË và xác
sußt
Bi∏n cË tÍng (union)
Quan hª gi˙a các
S¸ t˜Ïng ˜Ïng Bi∏n cË ng®u nhiên
Quan hª gi˙a các Bi∏n cË tÍng cıa A và B, k˛ hiªu A + B hay A [ B, là bi∏n cË x£y ra
các bi∏n cË
A t˜Ïng ˜Ïng vÓi B, k˛ hiªu A = B, n∏u A x£y ra thì B x£y ra và Các phép toán trên
các bi∏n cË
n∏u A ho∞c B x£y ra (có ít nhßt mÎt trong hai bi∏n cË x£y ra).
ng˜Òc l§i. Khái niªm và các
sußt sußt
Các công th˘c Các công th˘c

b£n Ví dˆ 4 b£n
Công th˘c cÎng xác Công th˘c cÎng xác
sußt sußt
Trong ví dˆ 3: A2 = P2 . Công th˘c xác sußt
Bayes Bayes
Các phép toán trên bi∏n cË Các phép toán trên bi∏n cË
sußt sußt

sußt Bi∏n cË tích (intersection) sußt Bi∏n cË hiªu
Quan hª gi˙a các
bi∏n cË
Bi∏n cË tích cıa A và B, k˛ hiªu A.B hay A \ B, là bi∏n cË x£y ra Quan hª gi˙a các
bi∏n cË
Bi∏n cË hiªu cıa A và B, k˛ hiªu A \ B, là bi∏n cË x£y ra n∏u A x£y
các bi∏n cË
n∏u A và B Áng thÌi x£y ra. Các phép toán trên
các bi∏n cË
ra nhñg B không x£y ra.
Khái niªm và các Khái niªm và các
‡nh nghæa v∑ xác ‡nh nghæa v∑ xác
sußt sußt

b£n b£n
sußt sußt
Bayes Bayes
sußt sußt Bi∏n cË Ëi l™p ( bi∏n cË bù) (complement)
Các bi∏n cË xung kh≠c (mutually exclusive) Bi∏n cË Ëi l™p cıa A, k˛(hiªu A, là bi∏n cË x£y ra khi A không x£y
sußt
A xung kh≠c vÓi B n∏u A và B không Áng thÌi x£y ra, k˛ hiªu sußt A[A=⌦
Bi∏n cË ng®u nhiên Bi∏n cË ng®u nhiên ra và ng˜Òc l§i, nghæa là hay A = ⌦ \ A.
Quan hª gi˙a các A \ B = Ø. Quan hª gi˙a các A\A=Ø
Các phép toán trên Các phép toán trên
các bi∏n cË các bi∏n cË
sußt sußt

b£n b£n
sußt sußt
bi∏n cË
bi∏n cË
Tính chßt
Công th˘c xác sußt Dãy các bi∏n cË A1 , A2 , . . . , An ˜Òc gÂi là xung kh≠c t¯ng ôi mÎt Công th˘c xác sußt
Bayes n∏u Ai \ Aj = Ø, 8i 6= j. Bayes
A[B =A\B
A\B =A[B
sußt sußt
Bi∏n cË và xác
Ví dˆ 5 Bi∏n cË và xác
Ví dˆ 6
sußt sußt
Bi∏n cË ng®u nhiên MÎt cái máy có 3 bÎ ph™n ho§t Îng Îc l™p nhau. Máy ngñg ho§t Bi∏n cË ng®u nhiên
Cho sÏ Á mÎt m§ng iªn nh˜ hình v≥, bao gÁm ng≠t iªn K , các
bi∏n cË Îng khi c£ 3 bÎ ph™n cùng b‡ h˜. ∞t các bi∏n cË: bi∏n cË
bóng èn A1 , A2 và A3 . M§ng iªn b‡ mßt iªn (B) chø khi các bóng
các bi∏n cË các bi∏n cË èn b‡ h˜ ho∞c công t≠c K b‡ h˜. Hãy bi∫u diπn B theo Ai , i = 1, 3
‡nh nghæa v∑ xác Ai : "BÎ ph™n th˘ i b‡ h˜", i = 1, 2, 3 Khái niªm và các
‡nh nghæa v∑ xác và K .
sußt sußt

tính xác sußt cÏ Hãy bi∫u diπn theo Ai các bi∏n cË sau: tính xác sußt cÏ
b£n b£n
sußt
(a) B = "Có không quá hai bÎ ph™n b‡ h˜" Công th˘c cÎng xác
sußt
(b) C = "Có ít nhßt mÎt bÎ ph™n b‡ h˜" Công th˘c xác sußt
bi∏n cË
(c) D = "Có ít nhßt hai bÎ ph™n b‡ h˜" S¸ Îc l™p gi˙a các
bi∏n cË
¶y ı. Công th˘c (d) E = "Máy ngñg ho§t Îng" Công th˘c xác sußt
¶y ı. Công th˘c
Bayes Bayes
Khái niªm và các ‡nh nghæa v∑ xác sußt Khái niªm và các ‡nh nghæa v∑ xác sußt
sußt sußt
Ha Hoang V.
Khái niªm v∑ xác sußt Ha Hoang V.
Bi∏n cË và xác Xác sußt cıa bi∏n cË A là mÎt con sË, sË ó ∞c trñg cho kh£ nńg Bi∏n cË và xác ‡nh nghæa 1.1 ( N xác sußt theo quan i∫m cÍ i∫n)
sußt sußt
xußt hiªn cıa bi∏n cË A trong phép th˚ t˜Ïng ˘ng. K˛ hiªu là P(A) Bi∏n cË ng®u nhiên
Quan hª gi˙a các Quan hª gi˙a các N∏u trong mÎt phép th˚ có tßt c£ n bi∏n cË sÏ cßp Áng kh£ nńg,
1
các bi∏n cË
các bi∏n cË
nghæa là P(!1 ) = P(!2 ) = . . . = P(!n ) = , trong ó có m bi∏n cË
n
m
sußt
sußt thu™n lÒi cho bi∏n cË A thì xác sußt cıa A, k˛ hiªu, P (A), là tø sË .
n
b£n b£n
card(A) m SË bi∏n cË thu™n lÒi cho A
sußt
sußt P (A) = = = . (1)
card(⌦) n SË tßt c£ các bi∏n cË có th∫
nhân xác sußt. Nh™n xét 1 nhân xác sußt.
Công th˘c xác sußt P (A) càng lÓn (càng g¶n 1) thì kh£ nńg xußt hiªn A càng Công th˘c xác sußt
Kí hiªu khác: card(A) = |A|.
Bayes nhi∑u. Bayes
P (A) càng nh‰ (càng g¶n 0) thì kh£ nńg xußt hiªn A càng ít.
sußt sußt

sußt sußt
Quan hª gi˙a các Ví dˆ 7
Quan hª gi˙a các
◊u i∫m và nh˜Òc i∫m
các bi∏n cË Trong mÎt hÎp có 3 qu£ c¶u tr≠ng và 5 qu£ c¶u ‰ giËng hªt nhau
các bi∏n cË
◊u i∫m: tính ˜Òc chính xác giá tr‡ cıa xác sußt mà không c¶n
‡nh nghæa v∑ xác v∑ kích th˜Óc. Lßy ng®u nhiên 3 qu£ c¶u t¯ hÎp ó. Tính xác sußt ∫
ti∏n hành phép th˚.
sußt sußt
Các công th˘c ˜Òc Các công th˘c

Nh˜Òc i∫m: do òi h‰i ph£i có h˙u h§n các bi∏n cË và tính
tính xác sußt cÏ
b£n (a) 3 qu£ c¶u ‰.
b£n
Áng kh£ nńg cıa chúng mà trong th¸c t∏ l§i có nhi∑u phép
Công th˘c cÎng xác Công th˘c cÎng xác th˚ không có tính chßt ó. Vì v™y, c¶n ã ra ‡nh nghæa khác
sußt
(b) 2 qu£ c¶u tr≠ng và 1 qu£ ‰. sußt
Công th˘c xác sußt v∑ xác sußt ∫ kh≠c phˆc nh˙ng h§n ch∏ trên.
Bayes Bayes
sußt sußt
Ví dˆ 8
Bi∏n cË và xác ‡nh nghæa 1.2 ( N xác sußt theo quan i∫m thËng kê) Bi∏n cË và xác
sußt
sußt
∫ nghiên c˘u kh£ nńg xußt hiªn m∞t sßp khi tung Áng ti∑n, ng˜Ìi
Quan hª gi˙a các Th¸c hiªn phép th˚ n l¶n. Gi£ s˚ bi∏n cË A xußt hiªn m l¶n. Khi ó Quan hª gi˙a các ta ti∏n hành tung Áng ti∑n ó nhi∑u l¶n và thu ˜Òc k∏t qu£ sau:
bi∏n cË m bi∏n cË
Các phép toán trên m gÂi là t¶n sË xußt hiªn bi∏n cË A trong n phép th˚, và t sË Các phép toán trên
các bi∏n cË
n các bi∏n cË
Ng˜Ìi làm SË l¶n tung SË l¶n nh™n T¶n sußt
‡nh nghæa v∑ xác ˜Òc gÂi là t¶n sußt xußt hiªn bi∏n cË A trong n phép th˚, k˛ hiªu, ‡nh nghæa v∑ xác
m
sußt
m sußt thí nghiªm n m∞t sßp m n
Các công th˘c fn (A) = . Các công th˘c
Buffon 4040 2048 0.5069
tính xác sußt cÏ n tính xác sußt cÏ
b£n b£n
Th¸c hiªn phép th˚ vô h§n l¶n, (n ! 1) t¶n sußt xußt hiªn bi∏n cË Công th˘c cÎng xác
Pearson 12000 6019 0.5016
sußt
A ti∏n d¶n v∑ mÎt sË xác ‡nh gÂi là xác sußt cıa bi∏n cË A. sußt
Pearson 24000 12012 0.5005
nhân xác sußt.
m nhân xác sußt.
bi∏n cË P (A) = lim fn (A) = lim . (2) S¸ Îc l™p gi˙a các
bi∏n cË B£ng trên cho thßy, khi sË l¶n tung càng lÓn thì t¶n sußt xußt hiªn
n!1 n!1 n
Công th˘c xác sußt Công th˘c xác sußt m 1
m∞t sßp càng g¶n .
Bayes Bayes
n 2
sußt sußt

sußt sußt
◊u i∫m và nh˜Òc i∫m Bi∏n cË ng®u nhiên ‡nh nghæa 1.3 ( N theo quan i∫m hình hÂc)
◊u i∫m: không òi h‰i phép th˚ có h˙u h§n bi∏n cË Áng kh£ Các phép toán trên Xét mÎt phép th˚ Áng kh£ nńg, không gian m®u có vô h§n ph¶n
Khái niªm và các nńg, tính xác sußt d¸a trên quan sát th¸c t∏ vì v™y ˜Òc ˘ng Khái niªm và các t˚ và ˜Òc bi∫u diπn thành mÎt mi∑n hình hÂc ⌦ có Î o xác ‡nh
sußt
dˆng rÎng rãi. sußt ( Î dài, diªn tích, th∫ tích). Bi∏n cË A ⇢ ⌦ ˜Òc bi∫u diπn bi mi∑n
Các công th˘c Các công th˘c hình hÂc A. Khi ó, xác sußt x£y ra A ˜Òc xác ‡nh bi:
b£n
Nh˜Òc i∫m: òi h‰i ph£i l∞p l§i nhi∑u l¶n phép th˚. Trong tính xác sußt cÏ
b£n
sußt
nhi∑u bài toán th¸c t∏ i∑u này không cho phép do i∑u kiªn và Công th˘c cÎng xác
sußt Î o cıa mi∑n A
Công th˘c xác sußt kinh phí làm phép th˚. . . Công th˘c xác sußt P(A) = . (3)
nhân xác sußt.
nhân xác sußt.
Î o cıa mi∑n ⌦
Bayes Bayes
sußt sußt
Bi∏n cË và xác
sußt
Ví dˆ 9 (Bài toán g∞p gÔ) Bi∏n cË và xác
sußt
Quan hª gi˙a các
bi∏n cË
Hai ng˜Ìi hµn g∞p nhau t§i mÎt ‡a i∫m vào kho£ng t¯ 11 giÌ ∏n Quan hª gi˙a các
bi∏n cË Tính chßt cıa xác sußt
12 giÌ. HÂ quy ˜Óc r¨ng ng˜Ìi ∏n tr˜Óc chø Òi 20 phút, n∏u không Các phép toán trên
các bi∏n cË các bi∏n cË 1 0  P (A)  1.
g∞p s≥ i. Gi£ s˚ viªc ∏n i∫m hµn cıa mÈi ng˜Ìi là ng®u nhiên. Khái niªm và các
sußt
Tìm xác sußt ∫ hai ng˜Ìi g∞p nhau. sußt 2 P (Ø) = 0 và P (⌦) = 1.
3 N∏u A ⇢ B thì P (A)  P (B).
b£n b£n
Ví dˆ 10 Công th˘c cÎng xác 4 P A =1 P (A).
sußt sußt
nhân xác sußt. MÎt thanh s≠t có Î dài l (m) ˜Òc b¥ thành 3 o§n mÎt cách ng®u nhân xác sußt.
bi∏n cË nhiên. Tính xác sußt ∫ 3 o§n ó t§o ˜Òc mÎt hình tam giác. bi∏n cË
Bayes Bayes
Công th˘c cÎng xác sußt Công th˘c cÎng xác sußt
sußt sußt
Ha Hoang V. Ha Hoang V. 2 Cho các bi∏n cË xung kh≠c

1 A, B xung kh≠c ta có P (A + B) = P (A) + P (B).
sußt
1 Cho các bi∏n cË tùy ˛: sußt 2 A1 , A2 , . . . , An xung kh≠c t¯ng ôi mÎt (Ai .Aj = Ø, 8i 6= j),
Quan hª gi˙a các
1 A, B tùy ˛ ta có Quan hª gi˙a các !
bi∏n cË bi∏n cË Xn Xn
các bi∏n cË P (A + B) = P (A) + P (B) P (A.B) . (4) Các phép toán trên
các bi∏n cË
P Ai = P (Ai ) ,
Khái niªm và các Khái niªm và các i=1 i=1
sußt 2 A1 , A2 , . . . , An : sußt
Các công th˘c

tính xác sußt cÏ n
! n
Các công th˘c
tính xác sußt cÏ Ví dˆ 11
b£n
X X X b£n
P Ai = P (Ai ) P (Ai Aj ) + · · · +
sußt
sußt T lª ng˜Ìi m≠c bªnh tim trong mÎt vùng dân c˜ là 9%, m≠c bªnh
i=1 i=1 1i<jn
huy∏t áp là 12% và m≠c c£ hai lo§i bªnh là 7%. ChÂn ng®u nhiên
nhân xác sußt. + ( 1)n 1
P (A1 .A2 . . . An ) . (5) nhân xác sußt.
mÎt ng˜Ìi. Tính xác sußt ∫ ng˜Ìi ó
¶y ı. Công th˘c
¶y ı. Công th˘c
(a) B‡ bªnh tim hay b‡ bªnh huy∏t áp.
Bayes Bayes
(b) Không b‡ hai lo§i bªnh trên.
Công th˘c xác sußt i∑u kiªn Công th˘c xác sußt i∑u kiªn
sußt sußt
Bi∏n cË và xác
‡nh nghæa 2.1 (Conditional probability) Bi∏n cË và xác
sußt sußt
Bi∏n cË ng®u nhiên Cho hai bi∏n cË A và B vÓi P (B) > 0. Xác sußt x£y ra bi∏n cË A vÓi Bi∏n cË ng®u nhiên
bi∏n cË i∑u kiªn bi∏n cË B ã x£y ra là bi∏n cË Tính chßt xác sußt có i∑u kiªn
0  P(A|B)  1.
Khái niªm và các P (AB) Khái niªm và các
sußt P (A|B) = , P (B) > 0.. (6) ‡nh nghæa v∑ xác
sußt P(B|B) = 1.
P (B)
tính xác sußt cÏ tính xác sußt cÏ N∏u AC = Ø thì P[(A + C )|B] = P(A|B) + P(C |B).
b£n b£n
T˜Ïng t¸, vÓi P (A) > 0, xác sußt x£y ra bi∏n cË B vÓi i∑u kiªn bi∏n Công th˘c cÎng xác P(Ā|B) = 1 P(A|B).
sußt sußt
cË A ã x£y ra là Công th˘c xác sußt
S¸ Îc l™p gi˙a các P (AB) S¸ Îc l™p gi˙a các
bi∏n cË
P (B|A) = , P (A) > 0. (7) bi∏n cË
¶y ı. Công th˘c
P (A) Công th˘c xác sußt
¶y ı. Công th˘c
Bayes Bayes
Công th˘c xác sußt i∑u kiªn Công th˘c xác sußt i∑u kiªn
sußt sußt
Ha Hoang V.
Ví dˆ 12 Ha Hoang V.

Ví dˆ 14
sußt MÎt bÎ bài tây có 52 lá ˜Òc trÎn kˇ. ChÂn ng®u nhiên 1 lá. Bi∏t ã sußt
chÂn ˜Òc lá ‰. Tính xác sußt lá ó là lá át cÏ.
Bi∏n cË ng®u nhiên B£ng d˜Ói ây tóm t≠t k∏t qu£ phân tích 150 m®u thép m§ k≥m cho
bi∏n cË bi∏n cË trÂng l˜Òng lÓp phı và Î nhám b∑ m∞t:
Ví dˆ 13 Khái niªm và các
TrÂng l˜Òng lÓp phı
sußt sußt
Cao Thßp
Các công th˘c
MÎt nhóm gÁm 300 ng˜Ìi trong ó có 200 nam và 100 n˙. Trong Các công th˘c
tính xác sußt cÏ Cao 12 16
b£n 200 nam có 100 ng˜Ìi hút thuËc. Trong 100 n˙ có 20 ng˜Ìi hút b£n Î nhám b∑ m∞t
Công th˘c cÎng xác Công th˘c cÎng xác Thßp 88 34
sußt thuËc. ChÂn ng®u nhiên mÎt ng˜Ìi sußt
nhân xác sußt. (a) Bi∏t ã chÂn ˜Òc n˙, tính xác sußt ng˜Ìi ó là ng˜Ìi hút i∑u kiªn. Công th˘c
nhân xác sußt. ChÂn ng®u nhiên mÎt m®u thép, bi∏t r¨ng ã chÂn ˜Òc m®u thép có
bi∏n cË
thuËc? S¸ Îc l™p gi˙a các
bi∏n cË trÂng l˜Òng lÓp phı cao, xác sußt ∫ m®u thép ó có Î nhám b∑
¶y ı. Công th˘c (b) Bi∏t ã chÂn ˜Òc ng˜Ìi hút thuËc, tính xác sußt ng˜Ìi ó là
¶y ı. Công th˘c m∞t cao b¨ng bao nhiêu?
Bayes Bayes
nam?
Công th˘c nhân xác sußt Công th˘c nhân xác sußt
sußt sußt
Ví dˆ 15
Bi∏n cË và xác Bi∏n cË và xác Gi£ s˚ r¨ng m™t kh©u th¥ ATM cıa b§n là mÎt dãy sË gÁm 6 ch˙ sË
sußt Hª qu£ 2.1 (Multiplication rule) sußt
và b§n quên mßt ch˙ sË cuËi cùng cıa m™t kh©u này. B§n chÂn sË
Quan hª gi˙a các
bi∏n cË
VÓi các bi∏n cË tùy ˛ A và B ta có Quan hª gi˙a các
bi∏n cË
cuËi cùng này mÎt cách ng®u nhiên. Bi∏t r¨ng n∏u b§n nh™p sai m™t
các bi∏n cË
các bi∏n cË
kh©u quá 3 l¶n thì th¥ ATM cıa b§n s≥ b‡ khóa. Hãy tính xác sußt ∫
Khái niªm và các P(AB) = P(A|B)P(B) = P(B|A)P(A). Khái niªm và các b§n nh™p úng m™t kh©u mà không ph£i th˚ quá 3 l¶n. N∏u bi∏t sË
sußt sußt
cuËi cùng là sË l¥ thì xác sußt này b¨ng bao nhiêu?
b£n Công th˘c nhân xác sußt tÍng quát b£n
Công th˘c cÎng xác Công th˘c cÎng xác Ví dˆ 16
sußt
Cho Ai (i = 1, ..., n) là hÂ n bi∏n cË, khi ó sußt
nhân xác sußt.
nhân xác sußt.
HÂc k˝ này mÎt sinh viên ˜Òc thi môn l˛ thuy∏t xác sußt và thËng
bi∏n cË
P(A1 A2 ...An ) = P(A1 )P(A2 |A1 )P(A3 |A1 A2 )...P(An |A1 A2 ...An 1 ). S¸ Îc l™p gi˙a các
bi∏n cË
kê toán 3 l¶n. Xác sußt ∫ sinh viên thi È  l¶n th˘ nhßt là 0.5. N∏u
¶y ı. Công th˘c
¶y ı. Công th˘c
thi tr˜Òt l¶n th˘ nhßt thì xác sußt ∫ thi È l¶n th˘ hai là 0.7. Còn
Bayes Bayes
n∏u sinh viên thi tr˜Òt c£ 2 l¶n ¶u thì xác sußt thi È  l¶n th˘ ba là
0.9. Tính xác sußt sinh viên này thi È  hÂc k˝ này.
S¸ Îc l™p gi˙a các bi∏n cË S¸ Îc l™p gi˙a các bi∏n cË
sußt sußt
Ví dˆ 17
sußt sußt
Hai bi∏n cË Îc l™p Bi∏n cË ng®u nhiên Kh£o sát giÓi tính cıa nh˙ng ˘a con trong các gia ình có 2 con
bi∏n cË Hai bi∏n cË A và B ˜Òc gÂi là Îc l™p (independent) vÓi nhau n∏u bi∏n cË (theo th˘ t¸ sinh tr˜Óc/sau) có Îc l™p vÓi nhau hay không?
các bi∏n cË các bi∏n cË Không gian bi∏n cË sÏ cßp cıa phép th˚: ⌦ = {TT , TG , GT , GG }
‡nh nghæa v∑ xác P(AB) = P(A).P(B). (8) Khái niªm và các
‡nh nghæa v∑ xác ∞t:
sußt sußt

A = "Con ¶u là con trai" = {TT , TG }
tính xác sußt cÏ Suy ra, n∏u A Îc l™p vÓi B thì tính xác sußt cÏ B = "Con th˘ hai là con gái" = {TG , GG }
b£n b£n
Công th˘c cÎng xác Công th˘c cÎng xác Ta có:
sußt
P(A|B) = P(A), sußt
2 1 2 1
P(A) = = và P(B) = =
nhân xác sußt. P(B|A) = P(B).
nhân xác sußt. 4 2 4 2
bi∏n cË bi∏n cË 1
Công th˘c xác sußt Công th˘c xác sußt và P(AB) = = P(A).P(B). V™y A, B Îc l™p.
¶y ı. Công th˘c
Bayes
¶y ı. Công th˘c
Bayes
4
sußt sußt Ví dˆ 18
Xét phép th˚ ng®u nhiên có các k∏t qu£ Áng kh£ nńg
sußt n bi∏n cË Îc l™p sußt
! !1 !2 !3 !4
Quan hª gi˙a các
Các bi∏n cË A1 , A2 , ..., An ˜Òc gÂi là Îc l™p vÓi nhau n∏u chúng Quan hª gi˙a các P(!) 1
4
1
4
1
4
1
4
các bi∏n cË th‰a Các phép toán trên
các bi∏n cË
∞t: A = {!1 , !4 }, B = {!2 , !4 }, C = {!3 , !4 } thì
sußt
P(Ai Aj ) = P(Ai )P(Aj ), sußt
P(AB) = P(A).P(B),
b£n
P(Ai Aj Ak ) = P(Ai )P(Aj )P(Ak ), tính xác sußt cÏ
b£n
P(AC ) = P(A).P(C ),
sußt P(A1 A2 ...An ) = P(A1 )P(A2 )...P(An ), Công th˘c cÎng xác
sußt
P(BC ) = P(B).P(C ),
nhân xác sußt. nhân xác sußt. nhñg
vÓi mÂi tÍ hÒp ch™p 2 (i, j), ch™p ba (i, j, k), ... cıa n chø sË.
bi∏n cË
bi∏n cË P(ABC ) 6= P(A).P(B).P(C ).
Bayes Bayes
Chú ˛:
S¸ Îc l™p t¯ng ôi không d®n ∏n s¸ Îc l™p toàn ph¶n.
sußt sußt

sußt sußt
Quan hª gi˙a các
bi∏n cË
Ví dˆ 19 Quan hª gi˙a các
bi∏n cË
các bi∏n cË
MÎt hÎp ch˘a 10 qu£ c¶u ˜Òc ánh sË t¯ 1 ∏n 10. ChÂn ng®u các bi∏n cË
Mªnh ∑ 2.2
sußt
nhiên mÎt qu£ c¶u t¯ hÎp. GÂi R là bi∏n cË chÂn ˜Òc qu£ c¶u có sË ‡nh nghæa v∑ xác
sußt
chÆn, S là bi∏n cË chÂn ˜Òc qu£ c¶u có sË  6 và T là bi∏n cË chÂn N∏u bi∏n cË A Îc l™p vÓi B, thì A cÙng Îc l™p vÓi B̄.
b£n ˜Òc qu£ c¶u có sË  4. Hãy xét s¸ Îc l™p cıa các c∞p bi∏n cË b£n
sußt
(R, S), (R, T ) và (S, T ). Công th˘c cÎng xác
sußt
Bayes Bayes
S¸ Îc l™p gi˙a các bi∏n cË Hª ¶y ı các bi∏n cË
sußt sußt
Ha Hoang V. Ví dˆ 20 Ha Hoang V.
Hª ¶y ı các bi∏n cË (exhaustive)
Bi∏n cË và xác MÎt hª thËng gÁm n thành ph¶n ˜Òc gÂi là mÎt hª thËng song song Bi∏n cË và xác Dãy n các bi∏n cË A1 , A2 , . . . , An ˜Òc gÂi là mÎt hª ¶y ı các bi∏n
sußt
Bi∏n cË ng®u nhiên n∏u nh˜ nó ho§t Îng khi có ít nhßt mÎt trong các thành ph¶n ho§t
sußt
cË n∏u: (
Quan hª gi˙a các
bi∏n cË Îng. Gi£ s˚ r¨ng các thành ph¶n ho§t Îng Îc l™p nhau, và xác Quan hª gi˙a các
bi∏n cË
Ai \ Aj = Ø, 8i 6= j, i, j = 1, n
các bi∏n cË
sußt thành ph¶n th˘ i ho§t Îng là pi , i = 1, . . . , n. Hãy tính xác Các phép toán trên
các bi∏n cË
A1 [, A2 [ · · · [ An = ⌦.
sußt mà hª thËng ho§t Îng? Khái niªm và các
sußt sußt

b£n b£n
sußt sußt
Bayes Bayes
{Ai }ni=1 còn ˜Òc gÂi là mÎt phân ho§ch (partition) cıa ⌦.
Công th˘c xác sußt ¶y ı Công th˘c xác sußt ¶y ı
sußt sußt
Ha Hoang V. Ha Hoang V. Ví dˆ 21
sußt sußt MÎt ám ông có sË àn ông b¨ng n˚a sË phˆ n˙. Xác sußt ∫ àn
Bi∏n cË ng®u nhiên ‡nh nghæa 2.2 (Total Probability Rule) Bi∏n cË ng®u nhiên
ông b‡ bªnh tim là 0, 06 và phˆ n˙ là 0, 036. ChÂn ng®u nhiên 1
bi∏n cË
Các phép toán trên Cho Ai (i = 1, ..., n) là hª ¶y ı các bi∏n cË và B là mÎt bi∏n cË
bi∏n cË
ng˜Ìi t¯ ám ông, tính xác sußt ∫ ng˜Ìi này b‡ bªnh tim.
Khái niªm và các nào ó liên quan ∏n hª thì Khái niªm và các
sußt sußt
Ví dˆ 22
Các công th˘c P(B) = P(A1 )P(B|A1 ) + P(A2 )P(B|A2 ) + ... + P(An )P(B|An ) Các công th˘c
n
MÎt ng˜Ìi có 3 tài kho£n email khác nhau. H¶u h∏t tin nh≠n, th˜ t¯
b£n
X b£n
sußt = P(Ai )P(B|Ai ). (9)
sußt
cıa ng˜Ìi này, 70% ∏n t¯ tài kho£n th˘ nhßt, trong khi 20% ∏n t¯
i∑u kiªn. Công th˘c i=1
tài kho£n th˘ hai và 10% còn l§i ∏n t¯ tài kho£n email th˘ ba.
nhân xác sußt.
nhân xác sußt.
Trong sË nh˙ng email cıa tài kho£n 1, thì chø có 1% là spam, trong
bi∏n cË
bi∏n cË
khi t lª spam t˜Ïng ˘ng vÓi tài kho£n 2 và 3 l¶n l˜Òt là 2% và 5%.
¶y ı. Công th˘c
Bayes
¶y ı. Công th˘c
Bayes ChÂn ng®u nhiên mÎt email, h‰i xác sußt email này là spam b¨ng bao
nhiêu?
Công th˘c Bayes Công th˘c xác sußt ¶y ı, công th˘c Bayes
sußt sußt Ví dˆ 23
Có 10 lá th´m, trong ó có 4 th´m có th˜ng. Sinh viên A rút tr˜Óc, B rút

sußt sußt sau.
Quan hª gi˙a các
‡nh nghæa 2.3 (Bayes fomula) Quan hª gi˙a các (a) H‰i trò chÏi có công b¨ng không?
(b) N∏u B ˜Òc th˜ng, tính xác sußt A ˜Òc th˜ng?
các bi∏n cË
Cho Ai (i = 1, ..., n) là hª ¶y ı các bi∏n cË, B là mÎt bi∏n cË nào các bi∏n cË
sußt
ó liên quan ∏n hª sao cho P(B) > 0. Khi ó vÓi mÂi i (i = 1, ..., n) ‡nh nghæa v∑ xác
sußt
Các công th˘c Các công th˘c Ví dˆ 24 (Monty Hall problem)

tính xác sußt cÏ P(Ai )P(B|Ai ) P(Ai )P(B|Ai ) tính xác sußt cÏ
b£n
P(Ai |B) = = Pn . (10) b£n
Trong mÎt trò chÏi trúng th˜ng, ng˜Ìi chÏi ph£i chÂn l¸a 3 c˚a khác
sußt
P(B) i=1 P(Ai )P(B|Ai )
sußt nhau và chø có 1 c˚a có ph¶n th˜ng. Ng˜Ìi d®n ch˜Ïng trình bi∏t c˚a nào
i∑u kiªn. Công th˘c i∑u kiªn. Công th˘c có ph¶n th˜ng. Khi ng˜Ìi chÏi chÂn mÎt c˚a, ít nhßt mÎt trong các c˚a
S¸ Îc l™p gi˙a các S¸ Îc l™p gi˙a các còn l§i không có ph¶n th˜ng, và ng˜Ìi d®n ch˜Ïng trình s≥ m mÎt c˚a
(không ph£i c˚a do ng˜Ìi chÏi chÂn) không có ph¶n th˜ng. Sau ó, ng˜Ìi
¶y ı. Công th˘c
Bayes
¶y ı. Công th˘c
Bayes d®n ch˜Ïng trình s≥ h‰i ng˜Ìi chÏi có muËn thay Íi l¸a chÂn không. H‰i
ng˜Ìi chÏi c¶n ph£i l¸a chÂn nh˜ th∏ nào (gi˙ hay thay Íi) ∫ xác sußt
trúng ˜Òc ph¶n th˜ng là lÓn nhßt
Công th˘c xác sußt ¶y ı Công th˘c xác sußt ¶y ı, công th˘c Bayes
sußt sußt
Ví dˆ 26
sußt
Ví dˆ 25 sußt MÎt ng˜Ìi nghi ngÌ r¨ng anh ta m≠c mÎt lo§i bªnh B và ∏n bªnh
Quan hª gi˙a các
Quan hª gi˙a các
viªn ∫ làm xét nghiªm ch©n oán bªnh này. Bi∏t r¨ng ph˜Ïng pháp
bi∏n cË MÎt sinh viên làm bài thi tr≠c nghiªm v∑ l‡ch s˚, mÈi câu h‰i có 5 bi∏n cË
xét nghiªm th¸c hiªn bi bªnh viªn cho k∏t qu£ chính xác ∏n 95%
các bi∏n cË áp án và chø có mÎt áp án úng. Khi tr£ lÌi mÎt câu h‰i trong bài các bi∏n cË
tr˜Ìng hÒp m≠c bªnh th¸c s¸. Tuy nhiên, sai l¶m cıa xét nghiªm này
‡nh nghæa v∑ xác thi, sinh viên có th∫ bi∏t ho∞c không bi∏t câu tr£ lÌi, n∏u không bi∏t ‡nh nghæa v∑ xác
là 1% (T˘c là, n∏u mÎt ng˜Ìi kh‰e m§nh khi xét nghiªm, thì có xác
sußt sußt
Các công th˘c

câu tr£ lÌi thì sinh viên này làm bài b¨ng cách oán áp án. Gi£ s˚ Các công th˘c sußt b¨ng 0.01, k∏t qu£ xét nghiªm cho k∏t qu£ ng˜Ìi này b‡ bªnh).
b£n
xác sußt sinh viên bi∏t câu tr£ lÌi úng Ëi vÓi mÎt câu h‰i trong bài tính xác sußt cÏ
b£n Bi∏t r¨ng theo nh˙ng nghiên c˘u d‡ch tπ trong quá kh˘, trong dân sË
sußt
thi là p = 1/2. Bi∏t r¨ng sinh viên ã làm úng mÎt câu h‰i, tính xác Công th˘c cÎng xác
sußt thì c˘ 1000 ng˜Ìi tr˜ng thành thì có 5 ng˜Ìi m≠c lo§i bªnh B này.
Công th˘c xác sußt sußt sinh viên này th¸c s¸ bi∏t câu tr£ lÌi (mà không ph£i do oán Công th˘c xác sußt
i∑u kiªn. Công th˘c i∑u kiªn. Công th˘c (a) Tính xác sußt ng˜Ìi này nh™n k∏t qu£ xét nghiªm d˜Ïng tính
nhân xác sußt.
áp án). nhân xác sußt.
bi∏n cË
bi∏n cË
(báo có bªnh).
¶y ı. Công th˘c
¶y ı. Công th˘c (b) N∏u k∏t qu£ xét nghiªm báo d˜Ïng tính, thì xác sußt ng˜Ìi này
Bayes Bayes
m≠c bªnh là bao nhiêu? th¸c s¸ không m≠c bªnh là bao nhiêu?
Bài toán ước lượng điểm Bài toán ước lượng điểm
Các phương pháp ước lượng điểm Các phương pháp ước lượng điểm
Các tiêu chuẩn đánh giá ước lượng Các tiêu chuẩn đánh giá ước lượng
Outline
1 Bài toán ước lượng điểm

Chương 2: Ước lượng điểm
2 Các phương pháp ước lượng điểm
Phương pháp Moment
Phương pháp hợp lý cực đại
Hoàng Văn Hà
University of Science, VNU - HCM Phương pháp Bayes
hvha@hcmus.edu.vn
3 Các tiêu chuẩn đánh giá ước lượng

Ước lượng không chệch
Ước lượng hiệu quả
Ước lượng vững
V. Ha Hoang Ước lượng điểm V. Ha Hoang Ước lượng điểm

Bài toán ước lượng điểm Bài toán ước lượng điểm
Các phương pháp ước lượng điểm Các phương pháp ước lượng điểm
Các tiêu chuẩn đánh giá ước lượng Các tiêu chuẩn đánh giá ước lượng
Giới thiệu Giới thiệu
Xét X là một biến ngẫu nhiên được định nghĩa trên không gian xác suất
(Ω, F, P). Giả sử rằng hàm phân phối xác suất F của X phụ thuộc vào Định nghĩa 2
một vài tập hợp các tham số chưa biết và ta biết dạng hàm số của F . Xét X = (X1 , . . . , Xn ) là một mẫu ngẫu nhiên cỡ n được chọn từ Fθ ,
θ ∈ Θ ⊂ R. Xét thống kê T (X) = T (X1 , X2 , . . . , Xn ) là một ánh xạ từ Rn vào
Định nghĩa 1 Θ. Ta gọi T (X) là một ước lượng điểm (point estimator) cho tham số θ. Khi
X = x, với x = (x1 , x2 , . . . , xn ) ta có T (x) là một giá trị ước lượng điểm (point
Gọi Fθ là hàm phân phối xác suất của X với θ là tham số, thì {Fθ : θ ∈ Θ} là
estimate) cho θ. Ta thường ký hiệu T (X) = θ̂.
họ các phân phối xác suất, trong đó Θ là tập hợp tất cả các giá trị có thể nhận
được của θ, được gọi là không gian tham số.
Ví dụ 2
Ví dụ 1 i.i.d
Xét X1 , X2 , . . . , Xn ∼ B(1, p). Một số ước lượng có thể có của p gồm:
1 X ∼ B(n, p) với p không biết. Thì θ = p và Θ = {p : 0 < p < 1}. X1 + Xn
2 X ∼ N (µ, σ 2 ) với (µ, σ 2 ) không biết. Thì θ = (µ, σ 2 ) và T1 (X) = X̄ , T2 (X) = X1 , T3 (X) = .
2
Θ = {(µ, σ 2 ) : −∞ < µ < ∞, σ 2 > 0}.
Bài toán ước lượng điểm Bài toán ước lượng điểm Phương pháp Moment
Các phương pháp ước lượng điểm Các phương pháp ước lượng điểm Phương pháp hợp lý cực đại
Các tiêu chuẩn đánh giá ước lượng Các tiêu chuẩn đánh giá ước lượng Phương pháp Bayes
Ví dụ Phương pháp Moment
Ví dụ 3
• Ý tưởng: đồng nhất các moment của tổng thể với các moment mẫu.
X = Chiều cao dân số trong một khu vực, X ∼ N (µ, σ 2 ). Phân phối của
X phụ thuộc vào kỳ vọng µ và phương sai σ 2 . Thống kê trung bình mẫu Định nghĩa 3
và phương sai mẫu
Giả sử tham số θ = (θ1 , . . . , θk ) có k thành phần. Với 1 ≤ j ≤ k, moment thứ j
n
1X của tổng thể là
X̄ = Xi Z
n i=1 0
µj = E(X ) = x j f (x)dx
j
n
2 1 X
S = (Xi − X̄ )2 và moment mẫu thứ j
n − 1 i=1 n
1X j
mj = X .
n i=1 i
là những ước lượng điểm cho µ và σ 2 .
Với một mẫu thực nghiệm x1 = 150, x2 = 155, x3 = 167, giá trị ước lượng
điểm của µ và σ 2 là x̄ = 157.333, s 2 = 76.333.

Bài toán ước lượng điểm Phương pháp Moment Bài toán ước lượng điểm Phương pháp Moment
Các phương pháp ước lượng điểm Phương pháp hợp lý cực đại Các phương pháp ước lượng điểm Phương pháp hợp lý cực đại
Các tiêu chuẩn đánh giá ước lượng Phương pháp Bayes Các tiêu chuẩn đánh giá ước lượng Phương pháp Bayes
Phương pháp Moment Phương pháp Moment: ví dụ
Ví dụ 4
i.i.d
Cho X1 , X2 , . . . , Xn ∼ P(λ). Tìm ước lượng moment cho tham số λ.
Định nghĩa 4
Xét X1 , X2 , . . . , Xn là một mẫu ngẫu nhiên được chọn từ một phân phối xác
suất với k tham số θ = (θ1 , . . . , θk ) chưa biết. Ước lượng điểm moment
θ̂ = (θ̂1 , . . . , θ̂k ) thu được bởi đồng nhất k moment tổng thể với k moment
mẫu và giải hệ phương trình thu được với các tham số chưa biết
m1 = µ01 (θ1 , . . . , θk )
m2 = µ02 (θ1 , . . . , θk )
..
.
mk = µ0k (θ1 , . . . , θk )
Phương pháp Moment: ví dụ Phương pháp Moment: ví dụ
Ví dụ 4 Ví dụ 4
i.i.d i.i.d
Cho X1 , X2 , . . . , Xn ∼ P(λ). Tìm ước lượng moment cho tham số λ. Cho X1 , X2 , . . . , Xn ∼ P(λ). Tìm ước lượng moment cho tham số λ.
Giả sử X1 , . . . , Xn là mẫu ngẫu nhiên chọn từ X ∼ N (µ, σ 2 ). Tìm các ước Giả sử X1 , . . . , Xn là mẫu ngẫu nhiên chọn từ X ∼ N (µ, σ 2 ). Tìm các ước
lượng momen cho µ và σ 2 . lượng momen cho µ và σ 2 .
Moment tổng thể: µ01 = µ, µ02 = E(X 2 ) = µ2 + σ 2 .

Phương pháp Moment: ví dụ Phương pháp Moment: ví dụ
i.i.d i.i.d
Cho X1 , X2 , . . . , Xn ∼ P(λ). Tìm ước lượng moment cho tham số λ. Cho X1 , X2 , . . . , Xn ∼ P(λ). Tìm ước lượng moment cho tham số λ.
2
Giả sử X1 , . . . , Xn là mẫu ngẫu nhiên chọn từ X ∼ N (µ, σ ). Tìm các ước Giả sử X1 , . . . , Xn là mẫu ngẫu nhiên chọn từ X ∼ N (µ, σ 2 ). Tìm các ước
lượng momen cho µ và σ 2 . lượng momen cho µ và σ 2 .
Moment tổng thể: µ01 = µ, µ02 = E(X 2 ) = µ2 + σ 2 . Moment tổng thể: µ01 = µ, µ02 = E(X 2 ) = µ2 + σ 2 .
Moment mẫu: m1 = n1 ni=1 Xi , m2 = n1 ni=1 Xi2 . Moment mẫu: m1 = n1 ni=1 Xi , m2 = n1 ni=1 Xi2 .
P P P P
Giải hệ:
n n
1X 1X 2
µ= Xi , µ2 + σ 2 = Xi .
n i=1 n i=1
Ta thu được ước lượng moment cho µ và σ 2 là

Pn 2
2 i=1 (Xi − X̄ )
µ̂ = X̄ , σ̂ = .
n
Phương pháp Moment: ví dụ Phương pháp hợp lý cực đại (Maximum Likelihood)
Định nghĩa 5 (Hàm hợp lý)
Xét X1 , . . . , Xn là một mẫu ngẫu nhiên chọn từ tổng thể có hàm mật độ xác
suất (hoặc hàm khối xác suất p(x; θ)) f (x; θ), với θ = (θ1 , . . . , θk ) chưa biết.
Ví dụ 6 Hàm hợp lý L(θ; x), với x = (x1 , . . . , xn ), được định nghĩa bởi
n
1 Với X ∼ B(k, p), tìm ước lượng moment cho các tham số k và p. Y
L(θ; x) = f (x; θ) = f (x1 ; θ)f (x2 ; θ) · · · f (xn ; θ) = f (xi ; θ)
2 Với X ∼ Gamma(r , λ), tìm ước lượng moment cho các tham số r và λ biết i=1
r r I Hàm hợp lý L(θ) chỉ phụ thuộc vào tham số θ.

E(X ) = , Var (X ) =
λ λ2
Định nghĩa 6
Ước lượng hợp lý cực đại (Maximum Likelihood Estimation - MLE) là một ước
lượng θ̂ = (θ̂1 , . . . , θ̂k ) thỏa
θ̂ = argmax L(θ; x).

θ∈Θ

Phương pháp hợp lý cực đại (Maximum Likelihood) Phương pháp hợp lý cực đại: ví dụ
Ví dụ 7
Xét X ∼ B(1, p). Hàm khối xác suất của X là
Thông thường, việc xác định ước lượng hợp lý cực đại (MLE) sẽ dễ dàng (
p x (1 − p)1−x , x = 0, 1
hơn với logarit của hàm lợp lý L(θ; x). Bởi vì hàm ln là hàm đơn điệu, nên pX (x) = .
giá trị cực đại sẽ như nhau. Ta đặt: 0 , nơi khác
Tìm ước lượng hợp lý cực đại cho tham số p.

L(θ; x) = ln L(θ; x) .
Ta có
L(θ; x) = ln f (x1 ; θ) + ln f (x2 ; θ) + · · · + ln f (xn ; θ). Ví dụ 8
Khi đó, việc tìm các giá trị zero của ∂L(θ; x)/∂θ sẽ dễ dàng hơn. Cho X ∼ Exp(λ), tìm ước lượng hợp lý cực đại cho tham số λ.
Ví dụ 9
Cho X ∼ N (µ, σ 2 ), tìm ước lượng hợp lý cực đại cho kỳ vọng µ và phương sai
σ2 .
Phương pháp Bayes Phương pháp Bayes
Dựa trên thông tin về phân phối của tham số θ. Hàm mật độ lề của mẫu cho bởi
Giả sử tham số θ chưa biết là biến ngẫu nhiên có phân phối xác định với Z
hàm mật độ xác suất f (θ). f (x1 , . . . , xn ) = f (x1 , . . . , xn , θ)dθ
Θ
f (θ) gọi là hàm mật độ xác suất tiên nghiệm (prior probability distribution
function). với Θ là không gian tham số (các giá trị có thể nhận được của θ).
Hàm mật độ xác suất đồng thời của mẫu ngẫu nhiên (X1 , . . . , Xn ) và θ Hàm mật độ xác suất có điều kiện của θ cho trước (x1 , . . . , xn )
được biểu diễn như sau
f (x1 , . . . , xn |θ)f (θ)
f (θ|x1 , . . . , xn ) = .
f (x1 , . . . , xn , θ) = f (x1 , . . . , xn |θ)f (θ). f (x1 , . . . , xn )

Phương pháp Bayes Phương pháp Bayes
Kỳ vọng có điều kiện của θ, định nghĩa bởi

f (θ|x1 , . . . , xn ) gọi là hàm mật độ xác suất hậu nghiệm của θ (posterior Z
pdf). θ̂ = E(θ|x1 , . . . , xn ) = θf (θ|x1 , . . . , xn )dθ
Θ
Hàm mật độ xác suất tiên nghiệm f (θ) cho biết thông tin về θ khi thực
hiện quan trắc để lấy mẫu ngẫu nhiên (X1 , . . . , Xn ). là một giá trị ước lượng Bayes của θ, và
Hàm mật độ xác suất hậu nghiệm f (θ|x1 , . . . , xn ) cho biết thông tin về θ
sau khi có mẫu cụ thể. Tθ (X1 , . . . , Xn ) = E(θ|X1 , . . . , Xn )
gọi là ước lượng Bayes cho θ.
Phương pháp Bayes: ví dụ Phương pháp Bayes: ví dụ
Ta có
Ví dụ 10
Hàm mật độ xác suất tiện nghiệm của tham số p có phân phối đều
Xét (X1 , . . . , Xn ) là một mẫu ngẫu nhiên chọn từ biến ngẫu nhiên X có phân
phối Bernoulli, X ∼ B(1, p). Phân phối xác suất của X cho bởi f (p) = 1, 0 < p < 1.
pX (x) = p x (1 − p)1−x , x = 0, 1. Hàm mật độ xác suất hậu nghiệm của p cho bởi
với 0 ≤ p ≤ 1 chưa biết. Giả sử tham số p có phân phối đều trên khoảng (0, 1). f (x1 , . . . , xn , p)
f (p|x1 , . . . , xn ) = .
Tìm ước lượng Bayes cho p. f (x1 , . . . , xn )

Hàm mật độ xác suất đồng thời của (X1 , . . . , Xn ) và p Sử dụng kết quả: với các số nguyên m và k, ta có
Z 1
f (x1 , . . . , xn , p) = f (x1 , . . . , xn |p)f (p) m!k!
p m (1 − p)k dp = .

n

0 (m + k + 1)!
Y
=  p xi (1 − p)1−xi  f (p) Suy ra
i=1
Z 1
m!(n − m)!
Pn
n− ni=1 xi
P f (x1 , . . . , xn ) p m (1 − p)n−m dp = .
=p i=1 xi (1 − p) m
= p (1 − p) n−m
. (n + 1)!
0
Pn Hàm mật độ xác suất hậu nghiệm của p là

với m = i=1 xi .
1 1 f (x1 , . . . , xn , p) p m (1 − p)n−m (n + 1)!
f (p|x1 , . . . , xn ) = = .
Z Z
m n−m
f (x1 , . . . , xn ) = f (x1 , . . . , xn , p)dp = p (1 − p) dp. f (x1 , . . . , xn ) m!(n − m)!
0 0
Giá trị ước lượng Bayes của p thu được bởi kỳ vọng có điều kiện
Z 1
E(p|x1 , . . . , xn ) = pf (p|x1 , . . . , xn )dp
0
Z 1
(n + 1)!
= p m+1 (1 − p)n−m dp
m!(n − m)! 0 Ví dụ 11
(n + 1)! (m + 1)!(n − m)!
= Xét (X1 , . . . , Xn ) là một mẫu ngẫu nhiên chọn từ biến ngẫu nhiên X ∼ Exp(λ),
m!(n − m)! (n + 2)!
  λ chưa biết. Biết rằng tham số λ là biến ngẫu nhiên có phân phối mũ với tham
n
m+1 1  X số α. Tìm ước lượng Bayes cho λ.
= = xi + 1 .
n+2 n + 2 i=1
Ước lượng Bayes là

 
n
1 X
P̂ = E(p|X1 , . . . , Xn ) = Xi + 1 .
n + 2 i=1

Bài toán ước lượng điểm Ước lượng không chệch Bài toán ước lượng điểm Ước lượng không chệch
Các phương pháp ước lượng điểm Ước lượng hiệu quả Các phương pháp ước lượng điểm Ước lượng hiệu quả
Các tiêu chuẩn đánh giá ước lượng Ước lượng vững Các tiêu chuẩn đánh giá ước lượng Ước lượng vững
Ước lượng không chệch Ước lượng không chệch
Định nghĩa 7 Định nghĩa 7

Xét thống kê T = T (X) = T (X1 , . . . , Xn ) là một ước lượng điểm cho tham số Xét thống kê T = T (X) = T (X1 , . . . , Xn ) là một ước lượng điểm cho tham số
θ. Độ chệch (bias) của ước lượng T được định nghĩa bởi θ. Độ chệch (bias) của ước lượng T được định nghĩa bởi
bias(T ) = E(T ) − θ. bias(T ) = E(T ) − θ.
Độ chệch cho ta biết về mặt trung bình, sai khác giữa ước lượng T (X) với giá Độ chệch cho ta biết về mặt trung bình, sai khác giữa ước lượng T (X) với giá
trị thực θ. trị thực θ.
Định nghĩa 8
Xét T = T (X) là một ước lượng điểm cho tham số θ. T gọi là một ước lượng
không chệch cho tham số θ nếu bias(T ) = 0, tức là
E(T ) = θ.
Ước lượng không chệch: ví dụ Ước lượng không chệch: ví dụ
Pn
2 1
Xét X ∼ N (µ, σ 2 ) và X̄ = n1 ni=1 Xi là một ước lượng của µ,
P
Xét X ∼ N (µ, σ ) và X̄ = i=1 XPi là một ước lượng của µ,
n
S = n−1 i=1 (Xi − X̄ ) và S̃ = n ni=1 (Xi − X̄ )2 là các ước lượng của σ 2 .
2 Pn 2 2 n Pn
1 1
S 2 = n−1
1 2 2 1 2 2
P
i=1 (Xi − X̄ ) và S̃ = n i=1 (Xi − X̄ ) là các ước lượng của σ .
Ta có: Ta có:
1 X̄ là một ước lượng không chệch của µ 1 X̄ là một ước lượng không chệch của µ
   
n Pn n Pn
1 X
i=1 EXi nµ 1 X
i=1 EXi nµ
E(X̄ ) = E  Xi =
 = = µ. E(X̄ ) = E  Xi =
 = = µ.
n i=1 n n n i=1 n n
2 S 2 là một ước lượng không chệch của σ 2 ,
E(S 2 ) = σ 2 .

Ước lượng không chệch: ví dụ Ước lượng không chệch: ví dụ
Ví dụ 12
Xét X ∼ N (µ, σ 2 ) và X̄ = n1 ni=1 Xi là một ước lượng của µ,
P
n Pn
S 2 = n−1
1 2 2 1 2 2
P
i=1 (Xi − X̄ ) và S̃ = n i=1 (Xi − X̄ ) là các ước lượng của σ . Ví dụ 13
Ta có:
i.i.d
1 X̄ là một ước lượng không chệch của µ Xét X1 , X2 , . . . , Xn ∼ B(1, p). Các ước lượng dưới đây đều là ước lượng không
  chệch của p:
n Pn
1 X
i=1 EXi nµ X1 + Xn
E(X̄ ) = E  Xi  = = = µ. T1 (X) = X̄ , T2 (X) = X1 , T3 (X) = ,
n i=1 n n 2
vì E(T1 ) = E(T2 ) = E(T3 ) = p.
2 S 2 là một ước lượng không chệch của σ 2 ,
E(S 2 ) = σ 2 .
3 S̃ 2 là ước lượng chệch của σ 2 vì
n−1 2
E(S̃ 2 ) = σ 6= σ 2 .
n
Ước lượng không chệch: ví dụ Ước lượng tiệm cận không chệch
Một số ước lượng điểm là ước lượng chệch nhưng độ chệch giảm dần khi
cỡ mẫu n tăng.
Ví dụ 13 Định nghĩa 9
i.i.d
Xét X1 , X2 , . . . , Xn ∼ B(1, p). Các ước lượng dưới đây đều là ước lượng không Xét T (X) là một ước lượng điểm của tham số θ. Nếu
chệch của p:
lim E[T (X)] = θ,
X1 + Xn n→+∞
T1 (X) = X̄ , T2 (X) = X1 , T3 (X) = ,
2 thì ước lượng T (X) được gọi là ước lượng tiệm cận không chệch
vì E(T1 ) = E(T2 ) = E(T3 ) = p. (asymptotically unbiased estimator) của θ.
Chú ý rằng một ước lượng không chệch không nhất thiết phải là một ước
lượng tốt, chẳng hạn như ước lượng T2 và T3 trong ví dụ 5.

Ước lượng tiệm cận không chệch Ước lượng hiệu quả
Một số ước lượng điểm là ước lượng chệch nhưng độ chệch giảm dần khi
cỡ mẫu n tăng. Giả sử θ̂ = T1 (X) và θ̃ = T2 (X) là hai ước lượng không chệch cho tham số
θ. Câu hỏi đặt ra là ước lượng nào tốt hơn?
Định nghĩa 9
Xét T (X) là một ước lượng điểm của tham số θ. Nếu
lim E[T (X)] = θ,

n→+∞
thì ước lượng T (X) được gọi là ước lượng tiệm cận không chệch
(asymptotically unbiased estimator) của θ.
Ví dụ 14
1 Pn
S̃ 2 = (Xi − X̄ )2 là một ước lượng tiệm cận không chệch cho σ 2 vì
n − 1 i=1
n−1 2
lim E(S̃ 2 ) = lim σ = σ2 .
n→+∞ n→+∞ n
Ước lượng hiệu quả Ước lượng hiệu quả
Giả sử θ̂ = T1 (X) và θ̃ = T2 (X) là hai ước lượng không chệch cho tham số Giả sử θ̂ = T1 (X) và θ̃ = T2 (X) là hai ước lượng không chệch cho tham số
θ. Câu hỏi đặt ra là ước lượng nào tốt hơn? θ. Câu hỏi đặt ra là ước lượng nào tốt hơn?

Với cùng một mẫu ngẫu nhiên X = (X1 , X2 , . . . , Xn ), ước lượng θ̂ = T1 (X) Với cùng một mẫu ngẫu nhiên X = (X1 , X2 , . . . , Xn ), ước lượng θ̂ = T1 (X)
được gọi là hiệu quả hơn (more efficient) ước lượng θ̃ = T2 (X) nếu được gọi là hiệu quả hơn (more efficient) ước lượng θ̃ = T2 (X) nếu
Var (θ̂) < Var (θ̃). Var (θ̂) < Var (θ̃).
Định nghĩa 11
Ước lượng không chệch có phương sai bé nhất (Minimum Variance Unbiased
Estimator - MVUE) là một ước lượng không chệch mà có phương sai nhỏ hơn
phương sai của tất cả những ước lượng không chệch có thể có của tham số θ.
Ước lượng này còn được gọi là ước lượng hiệu quả nhất.

Trung bình bình phương sai số Trung bình bình phương sai số
Xét hai ước lượng θ̂ = T1 (X) và θ̃ = T2 (X) của một tham số θ, trong đó Xét hai ước lượng θ̂ = T1 (X) và θ̃ = T2 (X) của một tham số θ, trong đó
θ̂ là ước lượng không chệch và θ̃ là ước lượng chệch. Mặc dù θ̃ là ước θ̂ là ước lượng không chệch và θ̃ là ước lượng chệch. Mặc dù θ̃ là ước
lượng chệch nhưng nếu nó có độ phân tán nhỏ hơn nhiều so với θ̂, trong lượng chệch nhưng nếu nó có độ phân tán nhỏ hơn nhiều so với θ̂, trong
trường hợp này θ̃ có thể một ước lượng tốt hơn cho tham số θ thay vì θ̂. trường hợp này θ̃ có thể một ước lượng tốt hơn cho tham số θ thay vì θ̂.
Tiêu chuẩn không chệch không luôn luôn nhất thiết cho ta một ước lượng
tốt. Do vậy, ta cần dùng một độ đo khác để đảm bảo thu được một ước
lượng tốt.
Trung bình bình phương sai số Trung bình bình phương sai số
Xét hai ước lượng θ̂ = T1 (X) và θ̃ = T2 (X) của một tham số θ, trong đó Xét hai ước lượng θ̂ = T1 (X) và θ̃ = T2 (X) của một tham số θ, trong đó
θ̂ là ước lượng không chệch và θ̃ là ước lượng chệch. Mặc dù θ̃ là ước θ̂ là ước lượng không chệch và θ̃ là ước lượng chệch. Mặc dù θ̃ là ước
lượng chệch nhưng nếu nó có độ phân tán nhỏ hơn nhiều so với θ̂, trong lượng chệch nhưng nếu nó có độ phân tán nhỏ hơn nhiều so với θ̂, trong
trường hợp này θ̃ có thể một ước lượng tốt hơn cho tham số θ thay vì θ̂. trường hợp này θ̃ có thể một ước lượng tốt hơn cho tham số θ thay vì θ̂.
Tiêu chuẩn không chệch không luôn luôn nhất thiết cho ta một ước lượng Tiêu chuẩn không chệch không luôn luôn nhất thiết cho ta một ước lượng
tốt. Do vậy, ta cần dùng một độ đo khác để đảm bảo thu được một ước tốt. Do vậy, ta cần dùng một độ đo khác để đảm bảo thu được một ước
lượng tốt. lượng tốt.
Một độ đo kết hợp giữa độ chệch (bias) và phương sai (variance) của một Một độ đo kết hợp giữa độ chệch (bias) và phương sai (variance) của một
ước lượng là trung bình bình phương sai số (Mean squared error - MSE). ước lượng là trung bình bình phương sai số (Mean squared error - MSE).

Trung bình bình phương sai số Trung bình bình phương sai số: ví dụ
Xét hai ước lượng θ̂ = T1 (X) và θ̃ = T2 (X) của một tham số θ, trong đó
θ̂ là ước lượng không chệch và θ̃ là ước lượng chệch. Mặc dù θ̃ là ước
lượng chệch nhưng nếu nó có độ phân tán nhỏ hơn nhiều so với θ̂, trong
trường hợp này θ̃ có thể một ước lượng tốt hơn cho tham số θ thay vì θ̂.
Tiêu chuẩn không chệch không luôn luôn nhất thiết cho ta một ước lượng
tốt. Do vậy, ta cần dùng một độ đo khác để đảm bảo thu được một ước Ví dụ 15
lượng tốt. i.i.d
Xét X1 , X2 , . . . , Xn ∼ N (µ, σ 2 ). Hai ước lượng điểm cho phương sai là:
Một độ đo kết hợp giữa độ chệch (bias) và phương sai (variance) của một
n n
ước lượng là trung bình bình phương sai số (Mean squared error - MSE). 1 X 1X
S2 = (Xi − X̄ )2 và S̃ 2 = (Xi − X̄ )2 .
n − 1 i=1 n i=1
Định nghĩa 12
Hãy so sánh trung bình bình phương sai số của S 2 và S̃ 2 .
Trung bình bình phương sai số (MSE) của một ước lượng điểm θ̂ = T (X) của
một tham số θ được định nghĩa như sau:
h i
MSE(θ̂) = E (θ̂ − θ)2 .
Ta có:
MSE(θ̂) = bias(θ̂)2 + Var (θ̂).
Trung bình bình phương sai số Ước lượng hiệu quả: ví dụ
• Cho trước hai ước lượng, θ̂ và θ̃, tiêu chuẩn MSE cho phép ta chọn θ̃ nếu,
với cùng cỡ mẫu n
MSE(θ̃) < MSE(θ̂). Ví dụ 16
2 2
hoặc Var (θ̂) − Var (θ̃) > (bias(θ̃)) − (bias(θ̂)) . Xét θ̂1 và θ̂2 là hai ước lượng điểm cho tham số θ. Giả sử rằng
• Nếu cả θ̂ và θ̃ là ước lượng không chệch, tiêu chuẩn MSE trở thành tiêu E(θ̂1 ) = E(θ̂2 ) = θ và Var (θ̂1 ) = σ12 và Var (θ̂2 ) = σ22 . Đặt
chuẩn so sánh dựa trên phương sai mẫu. θ̂3 = αθ̂1 + (1 − α)θ̂2 với 0 < α < 1.
• Tiêu chuẩn MSE tương đương với việc so sánh tỷ số a) Chứng tỏ rằng θ̂3 là một ước lượng không chệch.
b) Nếu θ̂1 và θ̂2 độc lập với nhau, cần chọn hằng số α bằng bao nhiêu để cực
MSE(θ̃) tiểu hóa phương sai của θ̂3 ?
Eff(θ̂, θ̃) =
MSE(θ̂)
và ta chọn θ̃ nếu Eff(θ̂, θ̃) < 1.

Sai số chuẩn Sai số chuẩn
Sai số chuẩn (Standard Error - SE) của một ước lượng θ̂ = T (X) của tham số Sai số chuẩn (Standard Error - SE) của một ước lượng θ̂ = T (X) của tham số
θ chính là độ lệch tiêu chuẩn của nó, cho bởi θ chính là độ lệch tiêu chuẩn của nó, cho bởi
q q
SE (θ̂) = Var (θ̂) SE (θ̂) = Var (θ̂)
Ký hiệu khác: σ̂θ̂ . Ký hiệu khác: σ̂θ̂ .
Tham số Ước lượng T Var (T ) SE(T )

σ2 S
µ X̄ √
n r n
p(1 − p) p̂(1 − p̂
p p̂ )
n rn
2σ 4 2
σ2 S2 S2
n−1 n−1
Ước lượng vững Ước lượng vững
Định nghĩa 14
Xét X = (X1 , . . . , Xn ) là một mẫu ngẫu nhiên chọn từ Fθ , θ ∈ Θ. Thống kê Định lý 1
Tn = Tn (X) được gọi là một ước lượng vững (consistent estimator) cho tham Giả sử rằng θ̂n = Tn (X1 , X2 , . . . , Xn ), n ≥ 1 là một dãy các ước lượng điểm cho
số θ nếu tham số θ. Nếu E(θ̂n ) → θ và Var (θ̂n ) → 0 khi n → +∞ thì θ̂n là một ước
P
Tn −→ θ khi n → +∞, lượng vững cho θ.
tức là ∀ > 0,
lim P |Tn − θ| < = 1.
n→+∞
Ví dụ 17
i.i.d 1
Pn
Xét X1 , X2 , . . . , Xn ∼ B(1, p). Ta có X̄n = n i=1 Xi là một ước lượng vững
cho p vì theo luật yếu số lớn
P
X̄n −→ E(X1 ) = p.

Ước lượng vững Ước lượng vững
Định lý 1
Ví dụ 18
Giả sử rằng θ̂n = Tn (X1 , X2 , . . . , Xn ), n ≥ 1 là một dãy các ước lượng điểm cho
i.i.d
tham số θ. Nếu E(θ̂n ) → θ và Var (θ̂n ) → 0 khi n → +∞ thì θ̂n là một ước Xét X1 , X2 , . . . , Xn ∼ U(0, θ), θ không biết. Định nghĩa
lượng vững cho θ.
θ̂n = max{X1 , X2 , . . . , Xn }.
Hệ quả 1
Xét θ̂1 , θ̂2 , . . . là một dãy các ước lượng điểm của tham số θ, nếu a) Tìm độ chệch bias(θ̂n ).
b) Tìm MSE(θ̂n ).
lim MSE (θ̂n ) = 0,
n→+∞ c) Chứng tỏ rằng θ̂n là một ước lượng vững cho θ.
thì θ̂n là một ước lượng vững cho θ.
Bài toán ước lượng điểm Ước lượng không chệch Giới thiệu
Các phương pháp ước lượng điểm Ước lượng hiệu quả Khoảng tin cậy cho kỳ vọng
Các tiêu chuẩn đánh giá ước lượng Ước lượng vững Khoảng tin cậy cho tỷ lệ
Khoảng tin cậy cho phương sai
Tính chất của Ước lượng hợp lý cực đại (MLE) Bài tập
• Gọi θ̂n là ước lượng hợp lý cực đại (MLE) của tham số θ, ta có các tính chất
sau:
P
1 MLE là ước lượng vững: θ̂n −→ θ.
2 MLE là ước lượng bất biến: Nếu Θ̂n là MLE của θ thì g (θ̂n ) là MLE của
Chương 2 (tt): Khoảng tin cậy
g (θ).
p
Nếu θ̂ là một MLE cho phương sai, thì θ̂ là một ước lượng cho độ lệch
chuẩn. Hoàng Văn Hà
3 MLE hội tụ chuẩn: University of Science, VNU - HCM
hvha@hcmus.edu.vn
θ̂n − θ
N (0, 1).
SE (θ̂n )
4 MLE là ước lượng hội tụ tối ưu: nghĩa là, trong số tất cả các ước lượng
tốt, MLE là ước lượng có phương sai bé nhất, ít nhất là đối với trường hợp
mẫu lớn.
V. Ha Hoang Ước lượng điểm V. Ha Hoang Confidence Interval

Khoảng tin cậy cho kỳ vọng Khoảng tin cậy cho kỳ vọng
Khoảng tin cậy cho tỷ lệ Khoảng tin cậy cho tỷ lệ
Khoảng tin cậy cho phương sai Khoảng tin cậy cho phương sai
Bài tập Bài tập
Outline Ước lượng khoảng
1 Giới thiệu
Giả sử cần khảo sát một đặc tính X trên một tổng thể xác định.
Biến ngẫu nhiên X có phân phối F (x; θ), tham số θ chưa biết.
2 Khoảng tin cậy cho kỳ vọng
Chọn một mẫu ngẫu nhiên cỡ n: X = (X1 , . . . , Xn ).
Trường hợp biết phương sai
Trường hợp không biết phương sai
Định nghĩa 1
3 Khoảng tin cậy cho tỷ lệ Một ước lượng khoảng (interval estimator) của một tham số θ là một cặp các
thống kê L(X1 , . . . , Xn ) và U(X1 , . . . , Xn ) của một mẫu ngẫu nhiên thỏa
4 Khoảng tin cậy cho phương sai L(X ) ≤ U(X ), và L(X ) ≤ θ ≤ U(X ). Nếu một mẫu thực nghiệm
x = (x1 , . . . , xn ) được quan trắc, [l(x), u(x)] gọi là một khoảng ước lượng
(interval estimate) cho θ.
5 Bài tập
V. Ha Hoang Confidence Interval V. Ha Hoang Confidence Interval

Khoảng tin cậy Khoảng tin cậy
Xét biến ngẫu nhiên X = (X1 , . . . , Xn ) là biến ngẫu nghiên có hàm mật độ Xét biến ngẫu nhiên X = (X1 , . . . , Xn ) là biến ngẫu nghiên có hàm mật độ
đồng thời phụ thuộc vào tham số θ ∈ R và L(X ) và U(X ) là hai thống kê sao đồng thời phụ thuộc vào tham số θ ∈ R và L(X ) và U(X ) là hai thống kê sao
cho L(X ) ≤ U(X ). Khi đó, khoảng ngẫu nhiên [L(X ), U(X )] gọi là khoảng tin cho L(X ) ≤ U(X ). Khi đó, khoảng ngẫu nhiên [L(X ), U(X )] gọi là khoảng tin
cậy cho tham số θ với độ tin cậy 100(1 − α)% nếu cậy cho tham số θ với độ tin cậy 100(1 − α)% nếu

P L(X ) ≤ θ ≤ U(X ) = 1 − α P L(X ) ≤ θ ≤ U(X ) = 1 − α
Với mẫu thực nghiệm x = (x1 , . . . , xn ), ta có khoảng tin cậy cụ thể cho
tham số θ là
l(x) ≤ θ ≤ u(x).

Khoảng tin cậy Các dạng khoảng tin cậy
Định nghĩa 2
Xét biến ngẫu nhiên X = (X1 , . . . , Xn ) là biến ngẫu nghiên có hàm mật độ
đồng thời phụ thuộc vào tham số θ ∈ R và L(X ) và U(X ) là hai thống kê sao Đối với một mẫu khảo sát X = (X1 , . . . , Xn ), ta sẽ khảo sát các dạng khoảng
cho L(X ) ≤ U(X ). Khi đó, khoảng ngẫu nhiên [L(X ), U(X )] gọi là khoảng tin tin cậy sau:
cậy cho tham số θ với độ tin cậy 100(1 − α)% nếu
1 Khoảng tin cậy cho kỳ vọng µ:

P L(X ) ≤ θ ≤ U(X ) = 1 − α Trường hợp biết phương sai σ 2 (dùng thống kê Z )
Trường hợp không biết phương sai σ 2 (dùng thống kê t - Student)
Với mẫu thực nghiệm x = (x1 , . . . , xn ), ta có khoảng tin cậy cụ thể cho 2 Khoảng tin cậy cho tỷ lệ p.
tham số θ là 3 Khoảng tin cậy cho phương sai.
l(x) ≤ θ ≤ u(x).
Ý nghĩa: Nếu lặp nhiều lần việc lấy mẫu từ một tổng thể, giả sử 100 lần,
thì sẽ có 100(1 − α)% lần số khoảng được xây dựng theo công thức trên
sẽ chứa giá trị thực sự của tham số θ, và có α% lần số khoảng được tính
theo cách này không chứa giá trị thực của θ.

Trường hợp biết phương sai Trường hợp biết phương sai
Trường hợp không biết phương sai Trường hợp không biết phương sai
KTC cho kỳ vọng: trường hợp biết phương sai KTC cho kỳ vọng: trường hợp biết phương sai
• Xây dựng khoảng tin cậy:

i.i.d
Chọn mẫu ngẫu nhiên cỡ n: X1 , . . . , Xn ∼ N (µ, σ 2 ).
• Các giả định:

Mẫu ngẫu nhiên được chọn từ tổng thể có phân phối chuẩn, tức là
i.i.d
X1 , . . . , Xn ∼ N (µ, σ 2 ).
Phương sai σ 2 của tổng thể đã biết.
Nếu tổng thể không tuân theo phân phối chuẩn, cần chọn cỡ mẫu lớn.

• Xây dựng khoảng tin cậy: • Xây dựng khoảng tin cậy:
i.i.d 2 i.i.d
Chọn mẫu ngẫu nhiên cỡ n: X1 , . . . , Xn ∼ N (µ, σ ). Chọn mẫu ngẫu nhiên cỡ n: X1 , . . . , Xn ∼ N (µ, σ 2 ).
Tính thống kê trung bình mẫu Tính thống kê trung bình mẫu
n n
1X 1X
X̄ = Xi . X̄ = Xi .
n i=1 n i=1
Phân phối mẫu của X̄ : X̄ ∼ N (µ, σ 2 /n).


i.i.d
Chọn mẫu ngẫu nhiên cỡ n: X1 , . . . , Xn ∼ N (µ, σ 2 ). • Xây dựng khoảng tin cậy:
Tính thống kê trung bình mẫu Với độ tin cậy 100(1 − α)%, ta có
n !
1 X
X̄ − µ
X̄ = Xi . P −z1−α/2 ≤ √ ≤ z1−α/2 = 1 − α.
n i=1 σ/ n
Phân phối mẫu của X̄ : X̄ ∼ N (µ, σ 2 /n). hay

Đặt σ σ
P X̄ − z1−α/2 √ ≤ µ ≤ X̄ + z1−α/2 √ = 1 − α.
X̄ − µ n n
Z = √
σ/ n
thì Z ∼ N (0, 1).

KTC cho kỳ vọng: trường hợp biết phương sai KTC cho kỳ vọng: tìm zα/2
Xét một khoảng tin cậy 95% (α = 5%):
Định nghĩa 3
Nếu x̄ là trung bình mẫu của một mẫu ngẫu nhiên cỡ n được chọn từ một tổng
thể có phương sai σ 2 đã biết, khoảng tin cậy 100(1 − α)% cho kỳ vọng µ được
xác đinh như sau
σ σ
x̄ − zα/2 √ ≤ µ ≤ x̄ + zα/2 √
n n
α
với zα/2 là phân vị trên (upper percentile) mức 2
của Z ∼ N (0, 1).
Tra bảng phân phối chuẩn tắc Z : zα/2 = z0.025 = 1.96.

Cách kí hiệu khác: z1−α/2 (phân vị dưới - lower percentile).

KTC cho kỳ vọng: độ tin cậy thường dùng KTC cho kỳ vọng: ý nghĩa
Những độ tin cậy thường được sử dụng là 90%, 95% và 99%.

KTC cho kỳ vọng: sai số và xác định cỡ mẫu KTC cho kỳ vọng: trường hợp biết phương sai
• Độ chính xác và cỡ mẫu: Ví dụ 1

σ
= zα/2 √ gọi là độ chính xác (hay sai số) của ước lượng. Biết rằng tuổi thọ của các bóng đèn do một công ty sản xuất tuân theo phân
n
phối chuẩn với độ lệch chuẩn là 40 giờ. Khảo sát một mẫu gồm 30 bóng đèn
Chiều dài khoảng tin cậy: 2.
tính được tuổi thọ trung bình x̄ = 780 giờ.
Cho trước sai số và độ tin cậy 100(1 − α)%, công thức tính cỡ mẫu
a) Tìm khoảng tin cậy 95% cho tuổi thọ trung bình của các bóng đèn do

zα/2 σ 2
công ty này sản xuất.
n= . b) Nếu muốn sai số ước lượng không quá 10 giờ, thì phải quan sát ít nhất

bao nhiêu bóng đèn?

KTC cho kỳ vọng: TH không biết phương sai KTC cho kỳ vọng: TH không biết phương sai

i.i.d
Chọn mẫu ngẫu nhiên cỡ n: X1 , . . . , Xn ∼ N (µ, σ 2 ).
Mẫu ngẫu nhiên được chọn từ tổng thể có phân phối chuẩn, tức là
i.i.d
X1 , . . . , Xn ∼ N (µ, σ 2 ).
Phương sai σ 2 của tổng thể không biết. Ta sử dụng phương sai mẫu S 2 để
thay thế.

• Xây dựng khoảng tin cậy: • Xây dựng khoảng tin cậy:
i.i.d 2 i.i.d
Chọn mẫu ngẫu nhiên cỡ n: X1 , . . . , Xn ∼ N (µ, σ ). Chọn mẫu ngẫu nhiên cỡ n: X1 , . . . , Xn ∼ N (µ, σ 2 ).
Tính thống kê trung bình mẫu và phương sai mẫu Tính thống kê trung bình mẫu và phương sai mẫu
n n n n
1X 1 X 2 1X 1 X 2
X̄ = Xi , S 2 = Xi − X̄ . X̄ = Xi , S 2 = Xi − X̄ .
n i=1 n − 1 i=1 n i=1 n − 1 i=1
Khi không biết phương sai σ 2 , ta thay σ 2 bởi S 2 , khi đó thống
X̄ − µ
T = √
S/ n
có phân phối Student với n − 1 bậc tự do.

Phân phối Student Phân phối Student

• Phân phối Student - t:
I t → N (0, 1) khi n tăng.
Gọi tαk là phân vị trên mức α của biến ngẫu nhiên T có phân phối Student
với k bậc tự do.
tαk được xác định như sau:

P T ≥ tαk = α.
Tìm tαk : tra bảng Student t.


√ Định nghĩa 4
Với độ tin cậy 100(1 − α)% và T = (X̄ − µ)/(S/ n) ta có
( ) Nếu x̄ và s lần lượt là trung bình mẫu và độ lệch tiêu chuẩn của một mẫu ngẫu
n−1 X̄ − µ n−1 nhiên cỡ n được chọn từ tổng thể có phân phối chuẩn với kỳ vọng µ và phương
P −tα/2 ≤ √ ≤ tα/2 = 1 − α,
S/ n sai σ 2 không biết, khoảng tin cậy 100(1 − α)% cho kỳ vọng µ được xác định
như sau
n−1 s n−1 s
hay x̄ − tα/2 √ ≤ µ ≤ x̄ + tα/2 √ ,
n n
n−1 S n−1 S
P X̄ − tα/2 √ ≤ µ ≤ X̄ + tα/2 √ = 1 − α. n−1
n n với tα/2 là phân vị trên mức α/2 của T ∼ t(n − 1).

KTC cho kỳ vọng: TH không biết phương sai, cỡ mẫu lớn KTC cho kỳ vọng: TH không biết phương sai
Ví dụ 2
Một trường đại học muốn ước lượng tuổi của những sinh viên đang theo học
Khi cỡ mẫu lớn (n > 30), đại lượng tại trường. Một mẫu gồm 10 sinh viên được chọn để khảo sát, cho số liệu sau:
X̄ − µ 22, 22, 25, 23, 25, 30, 29, 27, 25, 27
√
S/ n
Hãy tìm khoảng tin cậy 95% cho độ tuổi trung bình của những sinh viên đang
sẽ xấp xỉ với phân phối chuẩn hóa N (0, 1) theo định lý giới hạn trung tâm. Do theo học tại trường.
đó, khoảng tin cậy cho kỳ vọng µ với độ tin cậy 100(1 − α)% cho bởi
s s
x̄ − zα/2 √ ≤ µ ≤ x̄ + zα/2 √ .
n n

Trường hợp biết phương sai
Trường hợp không biết phương sai
KTC cho kỳ vọng: TH không biết phương sai Giới thiệu
Ví dụ 2 • Bài toán: tìm khoảng tin cậy cho tỷ lệ phần tử thỏa một tính chất A của
tổng thể mà ta quan tâm nghiên cứu.
Một trường đại học muốn ước lượng tuổi của những sinh viên đang theo học
tại trường. Một mẫu gồm 10 sinh viên được chọn để khảo sát, cho số liệu sau: Khảo sát n phần tử, đặt
(
22, 22, 25, 23, 25, 30, 29, 27, 25, 27 1, nếu phần tử thứ i thỏa tính chất A,
Yi =
0, nếu không thỏa,
Hãy tìm khoảng tin cậy 95% cho độ tuổi trung bình của những sinh viên đang
theo học tại trường. Ta có Yi ∼ B(p), i = 1, . . . , n.
Ví dụ 3
Một trường đại học muốn đo chỉ số IQ của những sinh viên đang học tại
trường. 120 sinh viên được chọn ngẫu nhiên để thực hiện khảo sát. Mỗi sinh
viên được yêu cầu làm một bài kiểm tra về logic. Tính được điểm IQ trung bình
của 120 sinh viên là 108.25 và độ lệch chuẩn mẫu là 4.5. Hãy lập khoảng tin
cậy 99% cho điểm IQ trung bình của sinh viên trường đại học học này.

• Bài toán: tìm khoảng tin cậy cho tỷ lệ phần tử thỏa một tính chất A của • Bài toán: tìm khoảng tin cậy cho tỷ lệ phần tử thỏa một tính chất A của
tổng thể mà ta quan tâm nghiên cứu. tổng thể mà ta quan tâm nghiên cứu.
Khảo sát n phần tử, đặt Khảo sát n phần tử, đặt
( (
1, nếu phần tử thứ i thỏa tính chất A, 1, nếu phần tử thứ i thỏa tính chất A,
Yi = Yi =
0, nếu không thỏa, 0, nếu không thỏa,
Ta có Yi ∼ B(p), i = 1, . . . , n. Ta có Yi ∼ B(p), i = 1, . . . , n.
Pn Pn
Đặt Y = Yi Số phần tử thỏa tính chất A trong n phần tử khảo sát. Ta Đặt Y = Yi Số phần tử thỏa tính chất A trong n phần tử khảo sát. Ta
i=1 i=1
có Y ∼ B(n, p). có Y ∼ B(n, p).
Đặt
Y
P̂ = .
n


Biến ngẫu nhiên P̂ có kỳ vọng và phương sai lần lượt là Với độ tin cậy 100(1 − α)% và Z = (P̂ − p)/
p
p(1 − p)/n ta có
p(1 − p)
E(P̂) = µP̂ = p, Var (P̂) = σP̂2 =
 
.
n P̂ − p
P −zα/2 ≤ q ≤ zα/2  = 1 − α,
 
p(1−p)
Nếu cỡ mẫu n lớn, theo định lý giới hạn trung tâm, phân phối của P̂ sẽ n
hội tụ về phân phối chuẩn hóa, tức là
hay
P̂ − µP̂ P̂ − p
Z = = q N (0, 1). r r !
σP̂ p(1−p) p(1 − p) p(1 − p)
n P P̂ − zα/2 ≤ p ≤ P̂ + zα/2 = 1 − α.
n n

• Độ chính xác (sai số) của ước lượng

Định nghĩa 5 r
p̂(1 − p̂)
= z1−α/2 .
Nếu p̂ là tỷ lệ mẫu các phần tử thỏa tính chất A quan tâm của một mẫu ngẫu n
nhiên cỡ n, khoảng tin cậy với độ tin cậy 100(1 − α)% cho tỷ lệ p các phần tử
thỏa tính chất A của tổng thể là • Với độ chính xác và độ tin cậy 100(1 − α)% cho trước, công thức xác định cỡ
mẫu
z1−α/2 2
r r
p̂(1 − p̂) p̂(1 − p̂) n= p(1 − p)
p̂ − zα/2 ≤ p ≤ p̂ + zα/2
n n
với zα/2 là phân vị trên mức α/2 của biến ngẫu nhiên Z ∼ N (0, 1). • Nếu muốn ít nhất 100(1 − α)% độ tin cậy rằng độ chính xác trong ước lượng
p bởi p̂ bé hơn thì cỡ mẫu là
z1−α/2 2

n= (0.25).
• Điều kiện: cỡ mẫu n đủ lớn.

Khoảng tin cậy cho tỷ lệ: ví dụ Khoảng tin cậy cho phương sai
Ví dụ 4
Trong một khu rừng nguyên sinh, người ta theo dõi một loài chim bằng cách đeo vòng Các giả định: Mẫu ngẫu nhiên X1 , . . . , Xn được chọn từ tổng thể có phân
cho chúng. Thực hiện đeo vòng cho 1000 con. Sau một thời gian bắt lại 200 con thì phối chuẩn với kỳ vọng µ và phương sai σ 2 .
thấy có 40 con có đeo vòng. Hãy ước lượng số chim trong khu rừng đó với độ tin cậy Công thức tính khoảng tin cậy: khoảng tin cậy 100(1 − α)% cho σ 2 có
95%. dạng
(n − 1)S 2 (n − 1)S 2
2
≤ σ2 ≤ 2 ,
Ví dụ 5 χα/2,n−1 χ1−α/2,n−1
Trong một nhà máy, ở khâu kiểm tra chất lượng sản phẩm, người ta lấy ngẫu nhiên trong đó χ2α/2,n−1 và χ21−α/2,n−1 lần lượt là phân vị trên và phân vị dưới
100 sản phẩm trong một lô hàng thì phát hiện được 20 sản phẩm kém chất lượng.
mức α/2 và 1 − α/2 của biến ngẫu nhiên Chi bình phương với n − 1 bậc
Hãy tìm KTC 95% cho tỷ lệ sản phẩm kém chất lượng của mỗi lô hàng.
tự do.
Với độ tin cậy 99%, nếu muốn độ chính xác bằng 0.04 thì phải kiểm tra bao
nhiêu sản phẩm?

Phân phối Chi bình phương Phân vị của phân phối Chi bình phương
Định nghĩa 6
Xét X1 , X2 , . . . , Xn là một mẫu ngẫu nhiên được chọn từ một tổng thể có phân
phối chuẩn với kỳ vọng µ và phương sai σ 2 . Xét S 2 là phương sai mẫu, thì biến
ngẫu nhiên
(n − 1)S 2
X2 =
σ2
có phân phối Chi-bình phương (χ2 ) với n − 1 bậc tự do.
Phân vị trên (upper percentile) mức α: P(X 2 > χ2α,n−1 ) = α (hình (a)).
Phân vị dưới (lower percentile) mức 1 − α: P(X 2 > χ21−α,n−1 ) = 1 − α
(hình (b)).

Xây dựng KTC cho phương sai Khoảng tin cậy cho phương sai
Cho độ tin cậy 100(1 − α)%, bởi vì X 2 = (n − 1)S 2 /σ 2 có phân phối Chi
bình phương với n − 1 bậc tự do nên ta có
Ví dụ 6
P χ21−α/2,n−1 ≤ X 2 ≤ χ2α/2,n−1 = 1 − α.
Trong một nhà máy sản xuất kẹo, dây chuyền tự động được lập trình để đóng
gói những bịch kẹo có trọng lượng là 52 g, độ lệch chuẩn cho phép là ±1 g.
Do vậy ta có
Một kỹ sư kiểm tra chất lượng có nghi vấn rằng máy đóng bịch tự động hoạt
động không tốt, và trọng lượng một số bịch kẹo do dây chuyền đóng gói có
!
(n − 1)S 2
P χ21−α/2,n−1 ≤ ≤ χ2α/2,n−1 = 1 − α. trọng lượng nhỏ hơn hoặc lớn hơn nhiều so với quy định. Để kiểm tra, kỹ sư
σ2
này chọn ngẫu nhiên 10 bịch kẹo trong 1 lô hàng, và tính được phương sai mẫu
Ta thu được bằng 4.2 g. Hãy tìm khoảng tin cậy 95% cho độ lệch chuẩn và cho kết luận
! xem máy đóng bịch có hoạt động tốt hay không?
(n − 1)S 2 (n − 1)S 2
P 2
≤ σ2 ≤ 2 = 1 − α.
χα/2,n−1 χ1−α/2,n−1

Bài tập 2
Đo chiều cao X (đv: cm) của một nhóm thanh nhiên ở một khu vực, ghi nhận
Bài tập 1 được
Đem cân một số trái cây vừa thu hoạch, ta thu được kết quả sau: X (cm) 140-145 145-150 150-155 155-160 160-165 165-170
X (g) 200 - 210 210 - 220 220 - 230 230-240 240-250 Số người 1 3 7 9 5 2
Số trái 12 17 20 18 15 a. Sử dụng 1 loại đồ thị thích hợp để chứng tỏ rằng số liệu mẫu chọn từ một
biến ngẫu nhiên có phân phối chuẩn.
(a) Tính trung bình mẫu và độ lệch chuẩn mẫu.
b. Tính các tham số mẫu.
(b) Tìm khoảng tin cậy 99% cho trọng lượng trung bình của trái cây.
c. Ước lượng chiều cao trung bình của thanh nhiên khu vực này với độ tin
(c) Với độ tin cậy 99%, nếu muốn sai số ước lượng không quá 2 g thì phải cậy 99%. Nếu muốn sai số ước lượng bằng 1 (cm) thì phải khảo sát thêm
quan sát ít nhất bao nhiêu trái? bao nhiêu người.
d. Những thanh niên có chiều cao trên 160 (cm) được xếp loại sức khỏe loại
A. Hãy tìm khoảng tin cậy cho tỷ lệ thanh niên có sức khỏe loại A với độ
tin cậy 95%.

Giới thiệu
Khoảng tin cậy cho kỳ vọng Bài toán kiểm định giả thuyết thống kê
Khoảng tin cậy cho tỷ lệ Bổ đề Neyman - Pearson
Khoảng tin cậy cho phương sai Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test)
Bài tập
Bài tập
Bài tập 3
Một loại thuốc mới đem điều trị cho 50 người bị bệnh B, kết quả có 40 người
khỏi bệnh. Kiểm định giả thuyết thống kê (P. 1)
(a) Ước lượng tỷ lệ người khỏi bệnh khi dùng thuốc với độ tin cậy 95% và
99%.
(b) Nếu muốn sai số ước lượng không quá 0.02 ở độ tin cậy 95% thì phải Hoàng Văn Hà
University of Science, VNU - HCM
khảo sát ít nhất bao nhiêu trường hợp. hvha@hcmus.edu.vn
Bài tập 4
Tỷ lệ Titan trong một hợp kim được sử dụng trong việc đúc các bộ phận hàng
không vũ trụ được đo bằng 51 mẫu chọn ngẫu nhiên có độ lêch chuẩn mẫu
s = 0.37. Xây dựng khoảng tin cậy 95% cho σ.
V. Ha Hoang Confidence Interval V. H. Hoang Hypothesis testing
Định nghĩa
Bài toán kiểm định giả thuyết thống kê Bài toán kiểm định giả thuyết thống kê Giả thuyết không và đối thuyết
Bổ đề Neyman - Pearson Bổ đề Neyman - Pearson Cách đặt giả thuyết
Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test) Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test) Miền bác bỏ - Tiêu chuẩn kiểm định
Sai lầm loại I và loại II
Mục lục Định nghĩa
Định nghĩa 1
1 Bài toán kiểm định giả thuyết thống kê
Định nghĩa Giả thuyết thống kê là những phát biểu về các tham số, quy luật phân phối,
Giả thuyết không và đối thuyết hoặc tính độc lập của các đại lượng ngẫu nhiên. Việc tìm ra kết luận để bác bỏ
Cách đặt giả thuyết hay chấp nhận một giả thuyết gọi là kiểm định giả thuyết thống kê.
Miền bác bỏ - Tiêu chuẩn kiểm định
Sai lầm loại I và loại II
Ví dụ 1
2 Bổ đề Neyman - Pearson Giám đốc một nhà máy sản xuất bo mạch chủ máy vi tính tuyên bố rằng tuổi
thọ trung bình của một bo mạch chủ do nhà máy sản xuất ra là 5 năm; đây là
một giả thuyết về kỳ vọng của biến ngẫu nhiên X = tuổi thọ của một bo mạch
3 Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test) chủ. Để đưa ra kết luận là chấp nhận hay bác bỏ giả thuyết trên, ta cần dựa
vào mẫu điều tra và quy tắc kiểm định thống kê.
V. H. Hoang Hypothesis testing V. H. Hoang Hypothesis testing

Định nghĩa Định nghĩa
Bài toán kiểm định giả thuyết thống kê Giả thuyết không và đối thuyết Bài toán kiểm định giả thuyết thống kê Giả thuyết không và đối thuyết
Bổ đề Neyman - Pearson Cách đặt giả thuyết Bổ đề Neyman - Pearson Cách đặt giả thuyết
Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test) Miền bác bỏ - Tiêu chuẩn kiểm định Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test) Miền bác bỏ - Tiêu chuẩn kiểm định
Sai lầm loại I và loại II Sai lầm loại I và loại II
Giả thuyết không và đối thuyết Cách đặt giả thuyết
Định nghĩa 2 Tổng quát, một bài toán kiểm định giả thuyết cho tham số θ sẽ có một trong 3
dạng dưới đây (θ0 là giá trị kiểm định đã biết):
Trong bài toán kiểm định giả thuyết, giả thuyết cần được kiểm định gọi là Giả
Hai phía:
thuyết không (null hypothesis), ký hiệu là H0 . Mệnh đề đối lập với H0 gọi là đối (
H0 : θ = θ0
thuyết (alternative hypothesis), ký hiệu là H1 (hoặc Ha ).
H1 : θ 6= θ0
Xét bài toán kiểm định tham số, giả sử ta quan trắc mẫu ngẫu nhiên
Một phía bên trái:
(X1 , . . . , Xn ) từ biến ngẫu nhiên X có hàm mật độ xác suất f (x; θ) phụ thuộc (
vào tham số θ. Gọi Θ là không gian tham số, và Θ0 và Θc0 là hai tập con rời H0 : θ = θ0 (hoặc θ ≥ θ0 )
nhau của Θ sao cho Θ0 ∪ Θc0 = Θ. Giả thuyết (giả thuyết không) và đối thuyết H1 : θ < θ 0
của bài toán có dạng như sau
Một phía bên phải: (
(
H0 : θ ∈ Θ0 H0 : θ = θ0 (hoặc θ ≤ θ0 )
(1) H1 : θ > θ 0
H1 : θ ∈ Θc0

Giả thuyết không và đối thuyết Cách đặt giả thuyết
Ví dụ 2 1 Giả thuyết được đặt ra với ý đồ bác bỏ nó, nghĩa là giả thuyết đặt ra
1. Gọi µ là độ thay đổi trung bình trong huyết áp của một bệnh nhân sau khi ngược lại với điều ta muốn chứng minh, muốn thuyết phục.
dùng thuốc. Bác sĩ điều trị cần quan tâm đến giả thuyết sau: 2 Giả thuyết được đặt ra sao cho khi chấp nhận hay bác bỏ nó sẽ có tác
( dụng trả lời bài toán thực tế đặt ra.
H0 : µ = 0 Không có ảnh hưởng của thuốc lên huyết áp của bệnh nhân 3 Giả thuyết được đặt ra sao cho nếu nó đúng thì ta sẽ xác định được quy
H1 : µ 6= 0 Có ảnh hưởng của thuốc lên huyết áp của bệnh nhân luật phân phối xác suất của đại lượng ngẫu nhiên được chọn làm tiêu
chuẩn kiểm định.
2. Một khách hàng quan tâm đến tỷ lệ sản phẩm kém chất lượng trong một lô 4 Khi đặt giả thuyết, ta thường so sánh cái chưa biết với cái đã biết. "Cái
hàng mua của một nhà cung cấp. Giả sử tỷ lệ sản phấm kém tối đa được phép chưa biết" là điều mà ta cần kiểm định, kiểm tra, làm rõ. "Cái đã biết" là
là 5%. Khách hàng cần quan tâm đến giả thuyết sau: những thông tin trong quá khứ, các định mức kinh tế, kỹ thuật.
(
H0 : p = 0.05 Tỷ lệ sản phẩm kém ở mức chấp nhận được 5 Giả thuyết H0 đặt ra thường mang ý nghĩa: "không khác nhau" hoặc
H1 : p > 0.05 Tỷ lệ sản phẩm kém cao hơn mức cho phép "khác nhau không có ý nghĩa" hoặc "bằng nhau".

Miền bác bỏ - Tiêu chuẩn kiểm định Miền bác bỏ - Tiêu chuẩn kiểm định
Định nghĩa 3
Xét bài toán kiểm định giả thuyết có giả thuyết H0 và đối thuyết H1 . Giả sử
rằng H0 đúng, từ mẫu ngẫu nhiên X = (X1 , . . . , Xn ) chọn hàm
T = T (X1 , . . . , Xn ; θ0 ) sao cho với số α > 0 bé tùy ý ta có thể tìm được tập Thực hiện quan trắc dựa trên mẫu ngẫu nhiên (X1 , . . . , Xn ) ta thu được mẫu
hợp Wα thỏa điều kiện thực nghiệm (x1 , . . . , xn ). Từ mẫu thực nghiệm này, ta tính được giá trị của T
P (T ∈ Wα ) = α. (2) là t = T (x1 , . . . , xn ; θ0 ).
Tập hợp Wα gọi là miền bác bỏ (rejection/critical region) của giả thuyết H0 và Nếu t ∈ Wα thì ta bác bỏ giả thuyết H0 .
phần bù Wαc gọi là miền chấp nhận (acceptance region). Đại lượng ngẫu nhiên Nếu t ∈ Wαc thì ta kết luận chưa đủ cơ sở để bác bỏ H0 .
T = T (X1 , . . . , Xn ; θ0 ) gọi là thống kê kiểm định (test statistic). Giá trị α gọi
là mức ý nghĩa (significance level) của bài toán kiểm định.

Trong bài toán kiểm định giả thuyết thống kê, ta có thể mắc phải các sai lầm
sau
a. Sai lầm loại I: là sai lầm mắc phải khi ta bác bỏ H0 trong khi thực tế giả ```
``` Thực tế
thuyết H0 đúng. Sai lầm loại I ký hiệu là α, chính là mức ý nghĩa của kiểm ``` H0 đúng H0 sai
Quyết định ```
định. Không có sai lầm Sai lầm loại II
Không bác bỏ H0

α = P T ∈ Wα |H0 . (3) (1 − α) β
b. Sai lầm loại II: là sai lầm mắc phải khi ta chấp nhận giả thuyết H0 trong Sai lầm loại I Không có sai lầm
Bác bỏ H0
khi thực tế H0 sai. Sai lầm loại II ký hiệu là β. α (1 − β)
β = P T ∈ Wαc |H1 .

(4)

Ta có,
Ví dụ 3
Khảo sát tốc độ cháy của một loại nhiên liệu rắn dùng để đẩy tên lửa ra khỏi α = P(X̄ < 48.5|µ = 50) + P(X̄ > 51.5|µ = 50)
! !
giàn phóng. Giả sử biến ngẫu nhiên X = tốc độ cháy của nhiên liệu (cm/s) có X̄ − 50 48.5 − 50 X̄ − 50 51.5 − 50
phân phối chuẩn với kỳ vọng µ và độ lệch chuẩn σ = 2.5. =P √ < √ +P √ < √
2.5/ 10 2.5/ 10 2.5/ 10 2.5/ 10
Ta cần kiểm định giả thuyết
( = P(Z < −1.90) + P(Z > 1.90) = 0.0287 + 0.0287 = 0.0574.
H0 : µ = 50
H1 : µ 6= 50 nghĩa là có 5.74% số mẫu ngẫu nhiên khảo sát được sẽ dẫn đến kết luận bác bỏ
giả thuyết H0 : µ = 50 (cm/s) khi tốc độ cháy trung bình thực sự là 50 (cm/s).
Vì X̄ là một ước lượng điểm tự nhiên của µ, nên có vẻ hợp lý để chấp nhận H0 Ta có thể giảm sai lầm α bằng cách mở rộng miền chấp nhận. Giả sử với cỡ
nếu X̄ không quá xa µ0 = 50. Giả sử miền bác bỏ có dạng mẫu n = 10, miền chấp nhận là 48 ≤ x̄ ≤ 52, khi đó giá trị của α là
{(X1 , X2 , . . . , Xn ) : |X̄ − 50| > 1.5}, tức là bác bỏ H0 khi: X̄ < 48.5 hoặc ! !
X̄ > 51.5. Các giá trị 48.5 và 51.5 gọi là giá trị tới hạn (critical value). Giả sử 48 − 50 52 − 50
α=P Z < √ +P Z > √
khảo sát mẫu ngẫu nhiên cỡ n = 10, ta tìm xác suất sai lầm loại I: 2.5/ 10 2.5/ 10
α = P(Bác bỏ H0 khi H0 đúng). = 0.0057 + 0.0057 = 0.0114.

Giả sử với cỡ mẫu n = 10, miền chấp nhận của giả thuyết H0 là
48.5 ≤ X̄ ≤ 51.5 trong khi giá trị thực sự của µ = 52. Sai lầm β cho bởi
Cách
√ thứ hai √
để giảm α là tăng cỡ mẫu khảo sát, giả sử cỡ mẫu n = 16, ta có
σ/ n = 2.5/ 16 = 0.625. Với miền bác bỏ là X̄ < 48.5 hoặc X̄ > 51.5, ta có β = P(48.5 ≤ X̄ ≤ 51.5|µ = 52)
!
48.5 − 52 X̄ − 52 51.5 − 52
α = P(X̄ < 48.5|µ = 50) + P(X̄ > 51.5|µ = 50) =P √ ≤ √ ≤ √
2.5/ 10 2.5/ 10 2.5/ 10
48.5 − 50 51.5
=P Z < +P Z > = P(−4.43 ≤ Z ≤ −0.63) = P(Z ≤ −0.63) − P(Z ≤ −4.43)
0.625 0.625
= 0.0082 + 0.0082 = 0.0164. = 0.2643 − 0.0000 = 0.2643.
Xác suất sai lầm loại II β được tính như sau Giả sử giá trị thực sự µ = 50.5, khi đó
β = P(Không bác bỏ H0 khi H0 sai). β = P(48.5 ≤ X̄ ≤ 51.5|µ = 50.5)

!
48.5 − 50.5 X̄ − 50.5 51.5 − 50.5
Để tính β, ta cần chỉ ra một giá trị cụ thể cho µ trong đối thuyết H1 . =P √ ≤ √ ≤ √
2.5/ 10 2.5/ 10 2.5/ 10
= P(−2.53 ≤ Z ≤ 1.27) = 0.8980 − 0.0057 = 0.8923.

Sai lầm loại I và loại II Sai lầm loại I và loại II - Nhận xét
Tương tự α, tăng cỡ mẫu sẽ làm giảm sai lầm β, với cỡ mẫu n = 16 và miền
chấp nhận là 48 < X̄ < 52, ta tính được β = 0.229. 1 Ta có thể giảm kích thước của miền bác bỏ (tương ứng tăng kích thước
Bảng 1 tổng kết sai lầm lầm loại I và loại II với miền chấp nhận và cỡ mẫu miền chấp nhận), và xác suất sai lầm loại I α bằng cách chọn những điểm
khác nhau tới hạn thích hợp.
Miền chấp nhận n α β với µ = 52 β với µ = 50.5 2 Xác suất sai lầm loại I và loại II có liên quan với nhau. Với một cỡ mẫu cố
48.5 < x̄ < 51.5 10 0.0574 0.2643 0.8923 định, việc giảm sai lầm loại này sẽ làm tăng sai lầm loại kia.
48 < x̄ < 52 10 0.0114 0.5000 0.9705 3 Cố định các điểm tới hạn, tăng cỡ mẫu n sẽ làm giảm xác suất sai lầm loại
48.5 < x̄ < 51.5 16 0.0164 0.2119 0.9445 I α và loại II β.
48 < x̄ < 52 16 0.0014 0.5000 0.9918 4 Nếu H0 sai, sai lầm β sẽ tăng khi giá trị thực của tham số tiến gần đến giá
Bảng 1: Sai lầm loại I và loại II trị được phát biểu trong giả thuyết H0 .
Bài toán kiểm định giả thuyết thống kê Bài toán kiểm định giả thuyết thống kê
Bổ đề Neyman - Pearson Bổ đề Neyman - Pearson
Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test) Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test)
Một số ký hiệu và định nghĩa Một số ký hiệu và định nghĩa
Định nghĩa 5
Định nghĩa 4 Xét bài toán kiểm định giả thuyết thống kê có giả thuyết H0 , đối thuyết H1 ,
Gọi T = T (X1 , . . . , Xn ; θ) và Wα lần lượt là thống kê kiểm định và miền bác miền bác bỏ Wα và miền chấp nhận Wαc . α và β lần lượt là sai lầm loại I và
bỏ của một bài toán kiểm định giả thuyết liên quan đến tham số θ. Độ mạnh loại II của bài toán kiểm định. Cố định giá trị α nhỏ, trong tất cả các thống kê
(power) của kiểm định là xác suất bác bỏ giả thuyết H0 khi đối thuyết H1 kiểm định T = T (X1 , . . . , Xn ; θ) có cùng mức sai lầm α thì thống kê kiểm định
đúng, ký hiệu π: nào có độ mạnh π = 1 − β lớn nhất thì được gọi là kiểm định có độ mạnh lớn
nhất (most powerful test).
π = P(T ∈ Wα |H1 ) = 1 − P(T ∈ Wαc |H1 ) = 1 − β.
Kiểm định có độ mạnh lớn nhất: làm sao xác định được miền bác bỏ của
Một thống kê kiểm định tốt sẽ có độ mạnh cao.
một kiểm định có độ mạnh lớn nhất có mức ý nghĩa α?
⇒ sử dụng bổ đề Neyman-Pearson.

Bổ đề Neyman-Pearson Bổ đề Neyman-Pearson - ví dụ
Ví dụ 4
Định lý 1 (Bổ đề Neyman-Pearson) Xét X1 , X2 , . . . , Xn là một mẫu ngẫu nhiên chọn từ tổng thể có phân phối
Poisson với trung bình λ. Tìm kiểm định có độ mạnh lớn nhất cho giả thuyết
Xét bài toán kiểm định giả thuyết đơn (simple hypothesis) có H0 : θ = θ0 và H0 : λ = 2 và đối thuyết H1 : λ = 1/2.
H1 : θ = θ1 . Gọi L(θ|x) là hàm hợp lý (likelihood function) dựa trên mẫu ngẫu
nhiên X = (X1 , X2 , . . . , Xn ) được chọn từ phân phối Pθ . Nếu tồn tại một hằng
e −λ λx
số dương C và tập con W ⊂ Rn sao cho: Hàm khối xác suất của X ∼ P(λ) là: p(x) = , x = 0, 1, 2, . . .
x!
L(θ0 |x)
1 ≤ C với x = (x1 , x2 , . . . , xn ) ∈ W , Hàm hợp lý là
L(θ1 |x)
 −1
L(θ0 |x) n n n
2 > C với x = (x1 , x2 , . . . , xn ) ∈ W c , Y Y X
L(θ1 |x) L(λ|x) = p(xi ) = λm e −λn  xi ! , với m = xi .
i=1 i=1 I =1
3 P (X1 , X2 , . . . , Xn ) ∈ W ; θ0 = α,
thì kiểm định với miền bác bỏ W sẽ có độ mạnh lớn nhất. Ta gọi α là độ lớn Với λ = 2,  −1
(size) của kiểm định và W là miền bác bỏ tốt nhất với độ lớn α. n
Y
L(2|x) = 2m e −2n  xi ! .
i=1
Bổ đề Neyman-Pearson - ví dụ Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test)
Với λ = 1/2, Xét bài toán kiểm định giả thuyết

 −1
n
(
Y H0 : θ ∈ Θ0
L(1/2|x) = (1/2)m e −n/2  xi ! .
i=1
H1 : θ ∈ Θc0
Theo bổ đề Neyman-Pearson, miền bác bỏ thỏa trong đó θ là tham số chưa biết của tổng thể nhận giá trị trong không gian
L(2|x) 2 e m −2n
3n
tham số Θ, Θ0 ⊂ Θ. Xét mẫu ngẫu nhiên cỡ n: X = (X1 , X2 , . . . , Xn ) và hàm
= = 4m e − 2 ≤ C . hợp lý L(θ|x1 , x2 , . . . , xn ) = L(θ|x).
L(1/2|x) (1/2)m e −n/2
Lấy Logarit 2 vế, ta được Định nghĩa 6
3n log(C ) + (3n/2) Tỷ lệ hợp lý (likelihood ratio) cho kiểm định thống kê với gỉả thuyết
m log(4) − ≤ log(C ) ⇒ m ≤ .
2 log(4) H0 : θ ∈ Θ0 và đối thuyết H1 : θ ∈ Θc0 được định nghĩa bởi
log(C )+(3n/2)
Đặt C 0 = log(4)
.
Vậy miền bác bỏ sẽ có dạng: sup L(θ|x)
θ∈Θ0
  λ(x) = . (5)
 n  sup L(θ|x)
θ∈Θ
X
W = (X1 , X2 , . . . , Xn ) : Xi ≤ C 0 .
 
i=1
Chú ý rằng 0 ≤ λ(x) ≤ 1.

Kiểm định tỷ lệ hợp lý Kiểm định tỷ lệ hợp lý - ví dụ
Ví dụ 5
i.i.d
Xét X1 , X2 , . . . , Xn ∼ N (µ, σ 2 ). Giả sử σ 2 đã biết. Với mức ý nghĩa α, thực hiện
Gọi θ̂0 và θ̂ lần lượt là các ước lượng hợp lý cực đại của tham số θ xác định kiểm định H0 : µ = µ0 và H1 : µ 6= µ0 . Hãy tìm một kiểm định tỷ lệ hợp lý.
trên các không gian tham số Θ0 và Θ. Khi đó, tỷ lệ hợp lý được xác định bởi
Với σ 2 đã biết, hàm hợp lý có dạng
L(θ̂0 |x)
 
n
λ(x) = . (6) 1  1 X 
L(θ̂|x) L(µ|x) = √ exp − 2 (xi − µ)2 .
(σ 2π)n  2σ
i=1

Khi đó, miền bác bỏ cho bài toán kiểm định tỷ lệ hợp lý sẽ có dạng Các không gian tham số: Θ0 = {µ0 }, Θc0 = R\{µ0 }. Khi đó,
 
W = x = (x1 , x2 , . . . , xn ) : λ(x) ≤ C . 1  1 X
n 
2
L(µ0 |x) = √ exp − 2 (xi − µ0 ) .
(σ 2π)n  2σ 
Hằng số C được chọn sao cho kiểm định có mức ý nghĩa cho trước bằng α. i=1
Ước lượng hợp lý cực đại của µ là µ̂ = x̄. Do đó,

 
n
1  1 X 
L(µ̂|x) = √ exp − 2 (xi − x̄)2 .
(σ 2π)n  2σ
i=1

Kiểm định tỷ lệ hợp lý - ví dụ Kiểm định tỷ lệ hợp lý - ví dụ
Tỷ lệ hợp lý được cho bởi Với mức ý nghĩa α cho trước

(x −µ )2
Pn
− 1
e 2σ2 i=1 i 0
 
L(µ0 |x) 2
/(2σ 2 )

λ(x) = = = e −n(x̄−µ0 ) .
X̄ − µ

0
− 12 n (x −x̄)2

√ ≥ C1  = P |Z | ≥ C1 = α,
P
L(µ̂|x)

e 2σi=1 i P 
σ/ n
Bác bỏ H0 khi λ(x) ≤ C , tương đương với
n (x̄ − µ0 )2 hay
− 2
(x̄ − µ0 )2 ≤ log(C ) ⇒ ≥ 2 log(C ). P(Z ≤ −C1 ) + P(Z ≥ C1 ) = α.
2σ σ 2 /n

x̄ − µ Ta tính được C1 = zα/2 : phân vị trên mức α/2 của N (0, 1).
0
Suy ra: √ ≥ 2 log(C ) = C1 .

σ/ n Vậy miền bác bỏ cho bài toán kiểm định H0 : µ = µ0 và H1 : µ 6= µ0 là
 
Tìm C1 : ta có nhận xét rằng nếu H0 đúng,
X̄ − µ0
 
X̄ − µ0 Wα = X = (X1 , X2 , . . . , Xn ) : √ ≥ zα/2 .
√ ∼ N (0, 1).  σ/ n 
σ/ n

Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
Mục lục
1 Kiểm định giả thuyết - Trường hợp một mẫu

Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết thống kê (P. 2) Kiểm định giả thuyết cho tỷ lệ
Kiểm định giả thuyết cho phương sai
Hoàng Văn Hà 2 Kiểm định giả thuyết - TH hai mẫu độc lập
University of Science, VNU - HCM So sánh hai kỳ vọng
hvha@hcmus.edu.vn So sánh hai tỷ lệ
3 So sánh hai mẫu không độc lập
4 Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết cho kỳ vọng Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
Mục lục Mục lục
1 Kiểm định giả thuyết - Trường hợp một mẫu 1 Kiểm định giả thuyết - Trường hợp một mẫu
2 Kiểm định giả thuyết - TH hai mẫu độc lập 2 Kiểm định giả thuyết - TH hai mẫu độc lập
So sánh hai kỳ vọng So sánh hai kỳ vọng
So sánh hai tỷ lệ So sánh hai tỷ lệ
3 So sánh hai mẫu không độc lập 3 So sánh hai mẫu không độc lập
4 Kiểm định Chi-bình phương về tính độc lập 4 Kiểm định Chi-bình phương về tính độc lập

Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2 Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2

Mẫu ngẫu nhiên X1 , . . . , Xn được chọn từ tổng thể có phân phối chuẩn Các bước kiểm định
N (µ, σ 2 ) với kỳ vọng µ chưa biết.
1 Phát biểu giả thuyết không và đối thuyết
Phương sai σ 2 đã biết.
2 Xác định mức ý nghĩa α
Cho trước giá trị µ0 , cần so sánh kỳ vọng µ với µ0 .
3 Lấy mẫu ngẫu nhiên cỡ n: X1 , . . . , Xn và tính thống kê kiểm định
• Bài toán kiểm định có 3 trường hợp:
( ( ( X̄ − µ0
H 0 : µ = µ0 H 0 : µ = µ0 H0 : µ = µ 0 Z0 = √ . (1)
(a) (b) (c) σ/ n
H1 : µ 6= µ0 H1 : µ < µ0 H1 : µ > µ 0
4 Xác định miền bác bỏ Wα : bảng 1
với mức ý nghĩa α cho trước.
Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2 p - giá trị (p - value)
Định nghĩa 1
Giả thuyết Miền bác bỏ Tương ứng với một giá trị thống kê kiểm định được tính toán trên một mẫu
H 0 : µ = µ0 n o
các giá trị quan trắc xác định, p - giá trị là mức ý nghĩa nhỏ nhất dùng để bác
Wα = z0 : |z0 | > zα/2
H1 : µ 6= µ0 bỏ giả thuyết H0 .
H 0 : µ = µ0 n o
Wα = z0 : z0 < −zα Dựa vào đối thuyết H1 , các bước tính p-giá trị như sau:
H1 : µ < µ0
H 0 : µ = µ0 n o 1 Xác định thống kê kiểm định: T = T (X1 , . . . , Xn ). Tính giá trị thống kê
Wα = z0 : z0 > zα
H1 : µ > µ0 kiểm định dựa trên mẫu (x1 , . . . , xn ), giả sử bằng a.
Bảng 1: Miền bác bỏ với đối thuyết tương ứng
2 p-giá trị cho bởi

P(|T | > |a||H0 ), kiểm định hai phía


5. Kết luận: Bác bỏ H0 / Chưa đủ cơ sở để bác bỏ H0 . p = P(T < a|H0 ), kiểm định một phía - bên trái (2)

P(T > a|H0 ), kiểm định một phía - bên phải

Kết luận: Bác bỏ giả thuyết H0 nếu p-giá trị ≤ α.

• Sử dụng p-giá trị (p - value): tính p-giá trị dựa theo đối thuyết và kết luận
bác bỏ H0 khi p -giá trị ≤ α, với mức ý nghĩa α cho trước. Công thức tính p -
Ví dụ 1 (Kiểm định 2 phía)
giá trị theo các trường hợp xem ở bảng 2.
Một dây chuyền sản xuất kem đánh răng được thiết kế để đóng hộp những ống
Giả thuyết p - giá trị kem có trọng lượng trung bình là 170g. Một mẫu gồm 30 ống kem được chọn
H 0 : µ = µ0
ngẫu nhiên để kiểm tra định kỳ. Bộ phận điều khiển dây chuyền phải đảm bảo
p = 2 1 − Φ(|z0 |)
H1 : µ 6= µ0 để trọng lượng trung bình mỗi ống kem là 170g; nếu nhiều hơn hoặc ít hơn,
H 0 : µ = µ0 dây chuyền phải được điều chỉnh lại.
p = Φ(z0 )
H1 : µ < µ0 Giả sử trung bình mẫu của 30 ống kem là 174g và độ lệch tiêu chuẩn của tổng
H 0 : µ = µ0 thể σ = 5.6g.
p = 1 − Φ(z0 )
H1 : µ > µ0 Thực hiện kiểm định giả thuyết với mức ý nghĩa 3% để xác định xem dây
chuyền sản xuất có vận hành tốt hay không?
Bảng 2: p-giá trị với đối thuyết tương ứng
Gọi X là trọng lượng của một ống kem đánh răng, giả sử X ∼ N (µ, 5.62 ). Các Gọi X là trọng lượng của một ống kem đánh răng, giả sử X ∼ N (µ, 5.62 ). Các
bước kiểm định như sau: bước kiểm định như sau:
1 Phát biểu giả thuyết: (
H0 : µ = 170 H0 : µ = 170
. .
H1 : µ 6= 170 H1 : µ 6= 170
2 Xác định mức ý nghĩa: α = 0.03

Gọi X là trọng lượng của một ống kem đánh răng, giả sử X ∼ N (µ, 5.62 ). Các Gọi X là trọng lượng của một ống kem đánh răng, giả sử X ∼ N (µ, 5.62 ). Các
bước kiểm định như sau: bước kiểm định như sau:
H0 : µ = 170 H0 : µ = 170
. .
H1 : µ 6= 170 H1 : µ 6= 170
2 Xác định mức ý nghĩa: α = 0.03 2 Xác định mức ý nghĩa: α = 0.03
3 Tính giá trị thống kê kiểm định 3 Tính giá trị thống kê kiểm định
x̄ − µ0 174 − 170 x̄ − µ0 174 − 170
z0 = √ = √ = 3.91. z0 = √ = √ = 3.91.
σ/ n 5.6/ 30 σ/ n 5.6/ 30
4 Xác định miền bác bỏ: Bác bỏ H0 khi |z0 | > zα/2 .
α = 3% nên zα/2 = z0.015 = 2.17. Vậy bác bỏ H0 nếu α = 3% nên zα/2 = z0.015 = 2.17. Vậy bác bỏ H0 nếu
z0 < −2.17 hoặc z0 > 2.17. z0 < −2.17 hoặc z0 > 2.17.
5. Kết luận: do z0 = 3.912 > 2.17 nên bác bỏ H0 . Ta kết luận với 97% độ tin
cậy rằng trọng lượng trung bình mỗi ống kem không bằng 170.

α = 3% nên zα/2 = z0.015 = 2.17. Vậy bác bỏ H0 nếu α = 3% nên zα/2 = z0.015 = 2.17. Vậy bác bỏ H0 nếu
z0 < −2.17 hoặc z0 > 2.17. z0 < −2.17 hoặc z0 > 2.17.
5. Kết luận: do z0 = 3.912 > 2.17 nên bác bỏ H0 . Ta kết luận với 97% độ tin 5. Kết luận: do z0 = 3.912 > 2.17 nên bác bỏ H0 . Ta kết luận với 97% độ tin
cậy rằng trọng lượng trung bình mỗi ống kem không bằng 170. cậy rằng trọng lượng trung bình mỗi ống kem không bằng 170.
• Sử dụng p - giá trị:
4a. Tính p-giá trị, bài toán kiểm định hai phía
p = 2[1 − Φ(|z0 |)] = 2[1 − Φ(3.91)] = 2[1 − 0.9999] = 0.0001.

5a. Kết luận: với α = 0.03, ta có p = 0.0001 < 0.03 nên bác bỏ H0 . Ta kết
luận với 97% độ tin cậy rằng trọng lượng trung bình mỗi ống kem không
bằng 170.
Ví dụ 2 (Kiểm định một phía) Ví dụ 2 (Kiểm định một phía)

Một bệnh viện tại trung tâm thành phố cung cấp dịch vụ cấp cứu tại nhà. Với Một bệnh viện tại trung tâm thành phố cung cấp dịch vụ cấp cứu tại nhà. Với
khoảng 20 xe cấp cứu, mục tiêu của trung tâm là cung cấp dịch vụ cấp cứu khoảng 20 xe cấp cứu, mục tiêu của trung tâm là cung cấp dịch vụ cấp cứu
trong khoảng thời gian trung bình là 12 phút sau khi nhận được điện thoại yêu trong khoảng thời gian trung bình là 12 phút sau khi nhận được điện thoại yêu
cầu. Một mẫu ngẫu nhiên gồm thời gian đáp ứng khi có yêu cầu của 40 ca cấp cầu. Một mẫu ngẫu nhiên gồm thời gian đáp ứng khi có yêu cầu của 40 ca cấp
cứu được chọn. Trung bình mẫu là 13.25 phút. Biết rằng độ lệch tiêu chuẩn cứu được chọn. Trung bình mẫu là 13.25 phút. Biết rằng độ lệch tiêu chuẩn
của tổng thể là σ = 3.2 phút. Với mức ý nghĩa 5%, hãy kiểm định xem thời của tổng thể là σ = 3.2 phút. Với mức ý nghĩa 5%, hãy kiểm định xem thời
gian phục vụ của xe cấp cứu có đúng như quảng cáo hay không? gian phục vụ của xe cấp cứu có đúng như quảng cáo hay không?
Các bước kiểm định:

1 Phát biểu giả thuyết
H0 : µ = 12: thời gian đáp ứng của dịch vụ cấp cứu đạt yêu cầu, không
cần phải thay đổi.
H1 : µ > 12: thời gian đáp ứng của dịch vụ không đạt yêu cầu, cần thay
đổi.

2. Xác định mức ý nghĩa: α = 0.05. 2. Xác định mức ý nghĩa: α = 0.05.
3. Tính giá trị thống kê kiểm định
x̄ − 12 13.25 − 12
z0 = √ = √ = 2.47.
σ/ n 3.2/ 40
2. Xác định mức ý nghĩa: α = 0.05. 2. Xác định mức ý nghĩa: α = 0.05.
3. Tính giá trị thống kê kiểm định 3. Tính giá trị thống kê kiểm định
x̄ − 12 13.25 − 12 x̄ − 12 13.25 − 12
z0 = √ = √ = 2.47. z0 = √ = √ = 2.47.
σ/ n 3.2/ 40 σ/ n 3.2/ 40
4. Xác định miền bác bỏ: bác bỏ H0 nếu z0 > zα = z0.05 = 1.645. 4. Xác định miền bác bỏ: bác bỏ H0 nếu z0 > zα = z0.05 = 1.645.
5. Kết luận: z0 = 2.47 > 1.645 nên bác bỏ H0 . Ta kết luận rằng với 95% độ
tin cậy, bệnh viện không đáp ứng được mục tiêu thời gian phục vụ khách
hàng từ 12 phút trở xuống.

Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2 Kiểm định giả thuyết cho kỳ vọng: σ 2 không biết, mẫu nhỏ

• Sử dụng p - giá trị: Mẫu ngẫu nhiên X1 , . . . , Xn được chọn từ tổng thể có phân phối chuẩn
N (µ, σ 2 ) với kỳ vọng µ và phương sai σ 2 không biết.
4a. Tính p-giá trị, bài toán kiểm định một phía - bên phải
Sử dụng ước lượng không chệch S thay cho σ.
p = 1 − Φ(z0 ) = 1 − Φ(2.47) = 1 − 0.9932 = 0.0068. Cỡ mẫu nhỏ: n ≤ 30.
5a. Kết luận: với α = 0.05, ta có p = 0.0068 < 0.05 nên bác bỏ H0 . Ta kết • Bài toán kiểm định có 3 trường hợp:
luận với 95% độ tin cậy rằng bệnh viện không đáp ứng được mục tiêu thời ( ( (
gian phục vụ khách hàng từ 12 phút trở xuống. H 0 : µ = µ0 H 0 : µ = µ0 H0 : µ = µ 0
(a) (b) (c)
H1 : µ 6= µ0 H1 : µ < µ0 H1 : µ > µ 0
Kiểm định giả thuyết cho kỳ vọng: σ 2 không biết, mẫu nhỏ Kiểm định giả thuyết cho kỳ vọng: σ 2 không biết, mẫu nhỏ
Các bước kiểm định Giả thuyết Miền bác bỏ

H 0 : µ = µ0 n
n−1
o
Wα = t0 : |t0 | > tα/2
1 Phát biểu giả thuyết không và đối thuyết H1 : µ 6= µ0
H 0 : µ = µ0 n o
2 Xác định mức ý nghĩa α Wα = t0 : t0 < −tαn−1
H1 : µ < µ0
3 Lấy mẫu ngẫu nhiên cỡ n: X1 , . . . , Xn và tính thống kê kiểm định H 0 : µ = µ0 n o
Wα = t0 : t0 > tαn−1
H1 : µ > µ0
X̄ − µ0
T0 = √ . (3)
S/ n Bảng 3: Miền bác bỏ với đối thuyết tương ứng (trường hợp mẫu nhỏ)
Biến ngẫu nhiên T0 có phân phối Student với n − 1 bậc tự do.

4 Xác định miền bác bỏ Wα : bảng 3. 5. Kết luận: Bác bỏ H0 / Chưa đủ cơ sở để bác bỏ H0 .

Kiểm định giả thuyết cho kỳ vọng: σ 2 không biết, mẫu nhỏ Kiểm định giả thuyết cho kỳ vọng:σ 2 không biết , mẫu lớn
• Sử dụng p-giá trị (p - value): tính p-giá trị dựa theo đối thuyết và kết luận • Các giả định:
bác bỏ H0 khi p -giá trị ≤ α, với mức ý nghĩa α cho trước. Công thức tính p - Mẫu ngẫu nhiên X1 , . . . , Xn được chọn từ tổng thể có kỳ vọng µ và
giá trị theo các trường hợp xem ở bảng 4. phương sai σ 2 không biết.
Sử dụng ước lượng không chệch S thay cho σ.
Giả thuyết p - giá trị
H 0 : µ = µ0 Cỡ mẫu lớn: n > 30.
p = 2P(Tn−1 ≥ |t0 |)
H1 : µ 6= µ0 • Khi cỡ mẫu lớn biến ngẫu nhiên
H 0 : µ = µ0
p = P(Tn−1 ≤ t0 ) X̄ − µ0
H1 : µ < µ0 Z0 = √ (4)
H 0 : µ = µ0 S/ n
p = P(Tn−1 ≥ t0 )
H1 : µ > µ0
sẽ hội tụ về phân phối chuẩn hóa Z ∼ N (0, 1). Khi đó miền bác bỏ Wα hoặc
Bảng 4: p-giá trị với đối thuyết tương ứng (trường hợp mẫu nhỏ) p-giá trị sẽ được tính tương tự như trường hợp biết phương sai, chỉ thay thế
X̄ − µ0
√ bằng Z0 ở phương trình (4).
σ/ n
Kiểm định giả thuyết cho kỳ vọng: TH không biết σ 2 Kiểm định giả thuyết cho kỳ vọng: TH không biết σ 2
Ví dụ 3
Một công ty sản xuất pin tuyên bố rằng tuổi thọ trung bình của một loại pin
Ví dụ 4
do công ty sản xuất ra tối thiểu bằng 240 giờ. Khảo sát một mẫu gồm 18 cục
pin cho kết quả Tốc độ giới hạn trên một đoạn đường là 80 km/h. Trạm cảnh sát giao thông
phụ trách đoạn đường tìm kiếm một vị trí phù hợp để đặt một camera bắn tốc
237 242 244 262 225 218 độ, với mục đích kiểm soát tốc độ của các phương tiện trên đoạn đường này.
242 258 243 234 236 228 Tại một địa điểm F, một mẫu gồm tốc độ của 64 phương tiện được bắn tốc độ
232 230 254 220 232 240 ngẫu nhiên có trung bình là 81.5 km/h và độ lệch tiêu chuẩn 6.5 km/h. Với
Giả sử rằng tuổi thọ loại pin này tuân theo phân phối chuẩn. α = 5%, hãy kiểm định xem địa điểm F có phù hợp để đặt một camera bắn tốc
độ hay không?
a) Vẽ đồ thị thân và lá cho tập dữ liệu trên. Nhận xét.
b) Với mức ý nghĩa 5%, ta có thể bác bỏ tuyên bố của công ty sản xuất pin
hay không?

• Các bước kiểm định: • Các bước kiểm định:

H0 : µ = 80 H0 : µ = 80
H1 : µ > 80 H1 : µ > 80
2 Xác định mức ý nghĩa: α = 0.05.
• Các bước kiểm định: • Các bước kiểm định:

H0 : µ = 80 H0 : µ = 80
H1 : µ > 80 H1 : µ > 80
2 Xác định mức ý nghĩa: α = 0.05. 2 Xác định mức ý nghĩa: α = 0.05.
2
3 Tính giá trị thống kê kiểm định khi σ không biết và cỡ mẫu n = 64 (lớn) 3 Tính giá trị thống kê kiểm định khi σ 2 không biết và cỡ mẫu n = 64 (lớn)
x̄ − µ0 81.5 − 80 x̄ − µ0 81.5 − 80
z0 = √ = √ = 1.85. z0 = √ = √ = 1.85.
s/ n 6.5/ 64 s/ n 6.5/ 64
4 Xác định miền bác bỏ: Bác bỏ H0 khi z0 > zα = z0.05 = 1.65.

Kiểm định giả thuyết cho kỳ vọng: TH không biết σ 2 Mục lục

5. Kết luận: z0 = 1.85 > 1.65 nên bác bỏ H0 , ta kết luận với 95% độ tin cậy
Kiểm định giả thuyết cho tỷ lệ
rằng tốc độ trung bình tại địa điểm F lớn hơn 80 km/h. Địa điểm F là địa
Kiểm định giả thuyết cho phương sai
điểm tốt để đặt radar kiểm soát tốc độ.
• Sử dụng p-giá trị:
2 Kiểm định giả thuyết - TH hai mẫu độc lập
4a. Tính p-giá trị: So sánh hai kỳ vọng
Với z0 = 2.286, p = 1 − Φ(z0 ) = 1 − Φ(1.85) = 1 − 0.9678 = 0.0322. So sánh hai tỷ lệ
5a. Kết luận: p = 0.0322 < 0.05 nên bác bỏ H0 , ta kết luận với 95% độ tin
cậy rằng tốc độ trung bình tại địa điểm F lớn hơn 80 km/h. Địa điểm F là 3 So sánh hai mẫu không độc lập
địa điểm tốt để đặt radar kiểm soát tốc độ.
• Quan sát sự xuất hiện của biến cố "phần tử mang đặc tính A" trong n phép
• Bài toán:
thử độc lập. Gọi Y là số lần xuất hiện biến cố trên thì Y ∼ B(n, p). Và
Cho tổng thể X , trong đó tỷ lệ phần tử mang đặc tính A nào đó là trong tổng
thể là p (p chưa biết). Từ mẫu ngẫu nhiên (X1 , X2 , ..., Xn ) hãy kiểm định Y
P̂ =
n
( ( (
H0 : p = p0 H0 : p = p0 H0 : p = p0 là một ước lượng không chệch cho p.
(a) (b) (c)
H1 : p 6= p0 H1 : p < p0 H1 : p > p0
• Nếu H0 đúng, thống kê
với mức ý nghĩa α.
P̂ − p0
• Giả định: Z0 = r
p0 (1 − p0 )
Cỡ mẫu n lớn, để phân phối chuẩn xấp xỉ phân phối nhị thức tốt cần có n
np0 ≥ 5 và n(1 − p0 ) ≥ 5.
có phân phối chuẩn tắc N (0, 1). Chọn Z0 làm tiêu chuẩn kiểm định.

Giả thuyết Miền bác bỏ

Các bước kiểm định
H0 : p = p0 n o
Wα = z0 : |z0 | > zα/2
H1 : p 6= p0
1 Phát biểu giả thuyết và đối thuyết H0 : p = p0 n o
Wα = z0 : z0 < −zα
2 Xác định mức ý nghĩa α H1 : p < p0
3 Tính giá trị thống kê kiểm định H0 : p = p0 n o
Wα = z0 : z0 > zα
H1 : p > p0
P̂ − p0
Z0 = r . Bảng 5: Miền bác bỏ cho bài toán kiểm định tỷ lệ
p0 (1 − p0 )
n
4 Xác định miền bác bỏ: bảng 5. 5. Kết luận: Bác bỏ H0 / Chưa đủ cơ sở để bác bỏ H0 .
Sử dụng p-giá trị: p-giá trị tính tương tự như bảng 2.
Trong kỳ nghỉ lễ đầu năm mới, Cục An toàn giao thông đã thống kê được rằng Trong kỳ nghỉ lễ đầu năm mới, Cục An toàn giao thông đã thống kê được rằng
có 500 người chết và 25000 người bị thương do các vụ tại nạn giao thông trên có 500 người chết và 25000 người bị thương do các vụ tại nạn giao thông trên
toàn quốc. Theo thông cáo của Cục ATGT thì khoảng 50% số vụ tai nạn có toàn quốc. Theo thông cáo của Cục ATGT thì khoảng 50% số vụ tai nạn có
liên quan đến rượu bia. liên quan đến rượu bia.
Khảo sát ngẫu nhiên 120 vụ tai nạn thấy có 67 vụ do ảnh hưởng của rượu bia. Khảo sát ngẫu nhiên 120 vụ tai nạn thấy có 67 vụ do ảnh hưởng của rượu bia.
Sử dụng số liệu trên để kiểm định lời khẳng định của Cục An toàn giao thông Sử dụng số liệu trên để kiểm định lời khẳng định của Cục An toàn giao thông
với mức ý nghĩa α = 5%. với mức ý nghĩa α = 5%.
Các bước kiểm định:

H0 : p = 0.5
H1 : p 6= 0.5
2 Xác định mức ý nghĩa: α = 0.05.

3. Tính giá trị thống kê kiểm định 3. Tính giá trị thống kê kiểm định
r r r r
p0 (1 − p0 ) 0.5(1 − 0.5) p0 (1 − p0 ) 0.5(1 − 0.5)
σp̂ = = = 0.045644, σp̂ = = = 0.045644,
n 120 n 120
p̂ − p0 (67/120) − 0.5 p̂ − p0 (67/120) − 0.5
z0 = = = 1.28. z0 = = = 1.28.
σp̂ 0.045644 σp̂ 0.045644
4. Xác định miền bác bỏ: bác bỏ H0 khi |z0 | > z0.025 = 1.96 hoặc tính p-giá
trị
p = [(1 − Φ(z0 )] = 2[1 − Φ(1.28)] = 2(1 − 0.8977) = 0.2006.
3. Tính giá trị thống kê kiểm định

r r
p0 (1 − p0 ) 0.5(1 − 0.5)
σp̂ = = = 0.045644, Ví dụ 6
n 120
p̂ − p0 (67/120) − 0.5 Trong điều trị một loại bệnh truyền nhiễm, một loại thuốc được biết có hiệu
z0 = = = 1.28.
σp̂ 0.045644 quả điều trị thành công 72% số ca nhiễm bệnh. Một loại thuốc mới được phát
triển và thử nghiệm cho thấy có hiệu quả điều trị thành công 42 ca trong số 50
4. Xác định miền bác bỏ: bác bỏ H0 khi |z0 | > z0.025 = 1.96 hoặc tính p-giá
ca nhiễm bệnh. Ta có bằng chứng đủ mạnh để kết luận rằng loại thuốc mới
trị
hiệu quả hơn loại thuốc cũ hay không? Tính p - giá trị.
p = [(1 − Φ(z0 )] = 2[1 − Φ(1.28)] = 2(1 − 0.8977) = 0.2006.
5. Kết luận: do z0 = 1.28 < 1.96 (hoặc p = 0.2006 > 0.05) nên kết luận
chưa đủ cơ sở để bác bỏ giả thuyết H0 .

Mục lục Kiểm định giả thuyết cho phương sai
1 Kiểm định giả thuyết - Trường hợp một mẫu • Các giả định:
Kiểm định giả thuyết cho tỷ lệ Mẫu ngẫu nhiên X1 , . . . , Xn được chọn từ tổng thể có phân phối chuẩn
Kiểm định giả thuyết cho phương sai N (µ, σ 2 ) với kỳ vọng µ và phương sai σ 2 chưa biết.
Cho trước giá trị σ02 , cần so sánh phương sai σ 2 với σ02 .
2 Kiểm định giả thuyết - TH hai mẫu độc lập
So sánh hai kỳ vọng • Bài toán kiểm định có 3 trường hợp:
So sánh hai tỷ lệ ( ( (
H0 : σ 2 = σ02 H0 : σ 2 = σ02 H0 : σ 2 = σ02
(a) (b) (c)
3 So sánh hai mẫu không độc lập H1 : σ 2 6= σ02 H1 : σ 2 < σ02 H1 : σ 2 > σ02

Giả thuyết Miền bác bỏ

Các bước kiểm định H0 : σ 2 = σ02 n o
Wα = X02 : X02 > χ2α/2,n−1 hoặc X02 < χ21−α/2,n−1
H1 : σ 2 6= σ02
1 Phát biểu giả thuyết không và đối thuyết H0 : σ 2 = σ02 n o
Wα = X02 : X02 < χ21−α,n−1
2 Xác định mức ý nghĩa α H1 : σ 2 < σ02
H0 : σ 2 = σ02 n o
3 Lấy mẫu ngẫu nhiên cỡ n: X1 , . . . , Xn và tính thống kê kiểm định Wα = X02 : X02 > χ2α,n−1
H1 : σ 2 > σ02
(n − 1)S 2
X02 = . (5) Bảng 6: Miền bác bỏ cho bài toán kiểm định phương sai
σ02
Nếu H0 đúng, X02 ∼ χ2 (n − 1). trong đó χ2α,n−1 là phân vị trên mức α của biến ngẫu nhiên Chi bình phương
4 Xác định miền bác bỏ Wα : bảng 6. với n − 1 bậc tự do.
5. Kết luận: Bác bỏ H0 / Chưa đủ cơ sở để bác bỏ H0 .

Ví dụ 7
Xenical là một loại thuốc dùng để điều trị béo phì ở những người có các bệnh nền
nguy hiểm như tiểu đường, huyết áp cao hoặc thừa cholesterol. Xenical hoạt động
trong ruột, nó sẽ ngăn không cho cơ thể hấp thụ các chất béo từ thức ăn khi một
người ăn vào. Trong một đơn thuốc tiêu chuẩn, khối lượng một viên nang Xenical
được quy định là 120 mg. Mặc dù khối lượng viên nang có thể thay đổi đôi chút từ
120 mg nhưng việc giữ cho sự thay đổi tương đối nhỏ là rất quan trọng vì các lý do y
Miền bác bỏ cho đối thuyết H1 : σ 2 < σ02 Miền bác bỏ cho đối thuyết H1 : σ 2 > σ02
tế khác nhau. Theo quy định của Hiệp hội Dược phẩm Hoa kỳ, độ lệch chuẩn của
trong lượng một viên nang Xenical dưới 2 mg là chấp nhận được. Trong một xưởng
sản xuất thuốc, người ta chọn một gồm 10 viên nang Xenical có trọng lượng cho bởi
bảng bên dưới:
120.94 118.58 119.41 120.23 121.13
118.22 119.71 121.09 120.56 119.11
Với mức ý nghĩa α = 5%, hãy kiểm định xem những viên nang Xenical được sản xuất
ra bởi xưởng sản xuất thuốc có đạt tiêu chuẩn hay không?
Miền bác bỏ cho đối thuyết H1 : σ 2 6= σ02
Kiểm định giả thuyết - TH hai mẫu độc lập So sánh hai kỳ vọng Kiểm định giả thuyết - TH hai mẫu độc lập So sánh hai kỳ vọng
So sánh hai mẫu không độc lập So sánh hai tỷ lệ So sánh hai mẫu không độc lập So sánh hai tỷ lệ
Mục lục Mục lục
1 Kiểm định giả thuyết - Trường hợp một mẫu 1 Kiểm định giả thuyết - Trường hợp một mẫu
2 Kiểm định giả thuyết - TH hai mẫu độc lập 2 Kiểm định giả thuyết - TH hai mẫu độc lập
So sánh hai kỳ vọng So sánh hai kỳ vọng
3 So sánh hai mẫu không độc lập 3 So sánh hai mẫu không độc lập
4 Kiểm định Chi-bình phương về tính độc lập 4 Kiểm định Chi-bình phương về tính độc lập

So sánh hai kỳ vọng, trường hợp biết phương sai So sánh hai kỳ vọng, trường hợp biết phương sai

X1 , X2 , . . . , Xn là mẫu ngẫu nhiên được chọn từ tổng thể 1 có phân phối
chuẩn với kỳ vọng µ1 và phương sai σ12 .
Y1 , Y2 , . . . , Ym là mẫu ngẫu nhiên được chọn từ tổng thể 2 có phân phối 1 Phát biểu giả thuyết H0 và đối thuyết H1
chuẩn với kỳ vọng µ2 và phương sai σ22 .
2 Xác định mức ý nghĩa α
Tổng thể 1 và 2 (đại diện bởi X và Y ) độc lập với nhau.
3 Tính thống kiểm định
Các phương sai σ12 và σ22 đã biết. X̄ − Ȳ
• Bài toán kiểm định giả thuyết trên hai mẫu độc lập gồm các dạng sau: Z0 = r . (6)
σ12 σ22
+
n m
( ( (
H 0 : µ1 = µ2 H 0 : µ1 = µ2 H 0 : µ1 = µ2
(a) (b) (c)
H1 : µ1 6= µ2 H 1 : µ1 < µ 2 H1 : µ1 > µ2 Nếu H0 đúng, thống kê Z0 ∼ N (0, 1).
So sánh hai kỳ vọng, trường hợp biết phương sai So sánh hai kỳ vọng
Ví dụ 8
Một công ty sản xuất sơn nghiên cứu về 1 loại phụ gia làm giảm thời gian khô
của sơn. Thực hiện thí nghiệm trên 2 mẫu: mẫu thứ nhất gồm 10 mẫu vật
4 Xác định miền bác bỏ: miền bác bỏ và p-giá trị tương ứng
được sơn bằng loại sơn bình thường; mẫu thứ hai gồm 10 mẫu vật được sơn với
Đối thuyết Miền bác bỏ p - giá trị sơn có chất phụ gia mới. Trong những nghiên cứu trước, biết rằng độ lệch tiêu
H1 : µ1 6= µ2 |z0 | > zα/2 p = 2[1 − Φ(|z0 |)] chuẩn của thời gian khô sau khi quét sơn là 8 phút và không thay đổi khi thêm
H 1 : µ1 < µ 2 z0 < −zα p = Φ(z0 ) phụ gia vào. Trung bình của mẫu 1 và 2 lần lượt là x̄ = 121 phút và ȳ = 112
H 1 : µ1 > µ 2 z0 > zα p = 1 − Φ(z0 ) phút. Với mức ý nghĩa 5%, hãy cho kết luận về loại sơn với chất phụ gia mới.
5 Kết luận: Nếu bác bỏ H0 , ta kết luận H1 đúng với (1 − α)100% độ tin cậy.
Ngược lại ta kết luận chưa đủ cơ sở để bác bỏ H0 với α cho trước. 1 Phát biểu giả thuyết và đối thuyết
(
H0 : µ1 = µ2 chất phụ gia mới không có hiệu quả
H1 : µ1 > µ2 chất phụ gia mới có hiệu quả
2 Mức ý nghĩa: α = 0.05.

So sánh hai kỳ vọng So sánh hai kỳ vọng, trường hợp không biết phương sai, mẫu lớn
3 Tính giá trị thống kê kiểm định, với x̄ = 121, ȳ = 112 và σ1 = σ2 = 8 ta

có
x̄ − ȳ 121 − 112
z0 = r = r = 2.52. • Các giả định:
2 2
σ1 σ2 82 82
+ + X1 , X2 , . . . , Xn là mẫu ngẫu nhiên được chọn từ tổng thể 1 có kỳ vọng µ1
n m 10 10 và phương sai σ12 không biết.
4 Xác định miền bác bỏ: bác bỏ H0 khi z0 > z1−α = z0.95 = 1.65. Y1 , Y2 , . . . , Ym là mẫu ngẫu nhiên được chọn từ tổng thể 2 có kỳ vọng µ2
5 Kết luận: Ta có z0 = 2.52 > 165 nên bác bỏ H0 . Ta kết luận rằng với 95% và phương sai σ22 không biết.
độ tin cậy, chất phụ gia có hiệu quả làm giảm thời gian khô sau khi sơn. Tổng thể 1 và 2 (đại diện bởi X và Y ) độc lập với nhau.
Sử dụng p - giá trị: ta có p = 1 − Φ(z0 ) = 1 − Φ(2.52) = 0.0059 < 0.05 Cỡ mẫu lớn: n > 30 và m > 30.
nên bác bỏ H0 .
So sánh hai kỳ vọng, trường hợp không biết phương sai, mẫu lớn So sánh hai kỳ vọng, trường hợp không biết phương sai, mẫu lớn
Đối với trường hợp mẫu lớn, khi phương sai tổng thể σ12 và σ22 không biết,
ta thay thế bằng các phương sai mẫu S12 và S22 mà không tạo ra nhiều
khác biệt.
Ví dụ 9
Khi cả n > 30 và m > 30, dưới giả thuyết H0 , đại lượng
Khảo sát về chiều cao của sinh viên hai khoa Toán và CNTT: chọn ngẫu nhiên
X̄ − Ȳ 50 sinh viên khoa Toán, tính được chiều cao trung bình là 163 (cm) và độ lệch
Z0 = r (7)
S12 S2 tiêu chuẩn 5 (cm). Đo chiều cao 50 khoa CNTT, có trung bình mẫu là 166
+ 2 (cm) và độ lệch tiêu chuẩn 8 (cm). Với mức ý nghĩa α = 1%, hãy cho kết luận
n m
về chiều cao của sinh viên hai khoa.
sẽ xấp xỉ phân phối chuẩn hóa N (0, 1).
Miền bác bỏ (hoặc p - giá trị) trong trường hợp này được tính tương tự
như trường hợp biết phương sai (thay thế σ1 và σ2 bởi S1 và S2 ).

So sánh hai kỳ vọng, trường hợp không biết phương sai, mẫu nhỏ So sánh hai phương sai
• Giả sử X1 , . . . , Xn và Y1 , . . . , Ym lần lượt là hai mẫu ngẫu nhiên chọn từ hai

• Các giả định: tổng thể độc lập và có phân phối chuẩn với kỳ vọng và phương sai là (µ1 , σ12 )
và (µ2 , σ22 ). Ta cần kiểm định giả thuyết
X1 , X2 , . . . , Xn là mẫu ngẫu nhiên được chọn từ tổng thể 1 có phân phối
chuẩn với kỳ vọng µ1 và phương sai σ12 không biết.
(
H0 : σ12 = σ22
Y1 , Y2 , . . . , Ym là mẫu ngẫu nhiên được chọn từ tổng thể 2 có phân phối (8)
H1 : σ12 6= σ22
chuẩn với kỳ vọng µ2 và phương sai σ22 không biết.
Tổng thể 1 và 2 (đại diện bởi X và Y ) độc lập với nhau. • Nếu S12 là phương sai mẫu ngẫu nhiên (X1 , . . . , Xn ) thì
Cỡ mẫu nhỏ: n ≤ 30 hoặc m ≤ 30.
(n − 1)S12
• Ta xét hai trường hợp: ∼ χ2 (n − 1). (9)
σ12
1 Trường hợp phương sai bằng nhau σ12 = σ22 ,
Tương tự, ta có
2 Trường hợp phương sai khác nhau σ12 6= σ22 .
(m − 1)S22
∼ χ2 (m − 1).
σ22
So sánh hai phương sai So sánh hai phương sai
• Khi đó, đại lượng

S12 /σ12 Các bước kiểm định
F = (10)
S22 /σ22
1 Phát biểu giả thuyết H0 : σ12 = σ22 và đối thuyết H1 : σ12 6= σ22
sẽ có phân phối F với (n − 1, m − 1) bậc tự do. 2 Xác định mức ý nghĩa α
• Xét biến ngẫu nhiên F ∼ F (u, v ) có hàm mật độ xác suất là f (x), phân vị 3 Khi H0 đúng, thống kê
trên mức α của F là fα,u,v được định nghĩa như sau
S12
F = (13)
S22
Z ∞
P(F > fα,u,v ) = f (x)dx = α. (11)
fα,u,v có phân phối F với (n − 1, m − 1) bậc tự do.
• Phân vị dưới mức 1 − α của F cho bởi
4 Xác định miền bác bỏ: bác bỏ H0 khi f > fα/2,n−1,m−1 hoặc
f < f1−α/2,n−1,m−1 .
1
f1−α,u,v = . (12) 5 Kết luận: Nếu bác bỏ H0 , ta kết luận H1 đúng với (1 − α) ∗ 100% độ tin
fα,v ,u
cậy. Ngược lại kết luận chưa đủ cơ sở để bác bỏ H0 .

So sánh hai kỳ vọng, mẫu nhỏ, trường hợp σ12 = σ22 = σ 2 So sánh hai kỳ vọng, mẫu nhỏ, trường hợp σ12 = σ22 = σ 2
Trường hợp σ12 = σ22 = σ 2 , ta sử dụng một ước lượng chung cho cả σ12 và
σ22 là Sp2 gọi là phương sai mẫu chung (pooled sample variance) Đặt df = n + m − 2, miền bác bỏ và p - giá trị trong trường hợp này có
dạng
(n − 1)S12 + (m − 1)S22
Sp2 = . (14) Đối thuyết Miền bác bỏ p - giá trị
n+m−2
df
H1 : µ1 6= µ2 |t0 | > tα/2 p = 2P(Tdf ≥ |t0 |)
Thống kê
X̄ − Ȳ H 1 : µ1 < µ 2 t0 < −tαdf p = P(Tdf ≤ t0 )
T0 = s (15)

1 1
H 1 : µ1 > µ 2 t0 > tαdf p = P(Tdf ≥ t0 )
2
Sp +
n m Kết luận: Bác bỏ H0 /Chưa đủ cơ sở để bác bỏ H0 .
có phân phối Student với n + m − 2 bậc tự do.
So sánh hai kỳ vọng, mẫu nhỏ, trường hợp σ12 6= σ22 So sánh hai kỳ vọng, trường hợp không biết phương sai
Khi σ12 6= σ22 , sử dụng thống kê
X̄ − Ȳ
T0 = r . (16)
S12 S22
+ Ví dụ 10
n m
Khi đó T0 có phân phối Student với bậc tự do df được xác định như sau Tại một thành phố, ở khu vực A, người ta chọn ngẫu nhiên 17 sinh viên và cho
làm 1 bài kiểm tra để đo chỉ số IQs, thu được trung bình mẫu là 106 và độ lệch
i2
tiêu chuẩn bằng 10. Tại khu vực B, chỉ số IQs trung bình của một mẫu gồm 14
h
(s12 /n) + (s22 /m)
df = 2 . (17) sinh viên bằng 109 với độ lệch tiêu chuẩn là 7. Giả sử phương sai bằng nhau.
(s1 /n)2 (s 2 /m)2 Có sự khác biệt về chỉ số IQs của sinh viên ở hai khu vực A và B hay không?
+ 2
n−1 m−1 α = 0.02.
Miền bác bỏ trong trường hợp này giống như trường hợp phương sai bằng
nhau, chỉ thay bậc tự do df cho bởi phương trình (17).

So sánh hai kỳ vọng, trường hợp không biết phương sai Mục lục

Ví dụ 11 Kiểm định giả thuyết cho tỷ lệ
Hàm lượng thạch tín (Asen) (Đv: ppb) trong nước càng cao càng có hại cho Kiểm định giả thuyết cho phương sai
sức khỏe. Người ta kiểm tra hàm lượng thạch tín ở hai khu vực là trung tâm
thành phố Biên Hòa và khu vực gần sân bay Biên Hòa. Tại mỗi khu vực, người 2 Kiểm định giả thuyết - TH hai mẫu độc lập
ta đo ngẫu nhiên hàm lượng thạch tín trong nước ứng với 10 địa điểm khác So sánh hai kỳ vọng
nhau. Số liệu cho bởi bảng thống kê bên dưới So sánh hai tỷ lệ
Trung tâm TP 3 7 25 10 15 6 12 25 15 7
Khu vực gần sân bay 48 44 40 38 33 21 20 12 1 18 3 So sánh hai mẫu không độc lập
Với α = 0.05, hãy kiểm tra xem có sự khác biệt về hàm lượng thạch tín ở hai
khu vực này. 4 Kiểm định Chi-bình phương về tính độc lập
• Khảo sát những phần tử thỏa một tính chất A nào đó trên hai tổng thể độc Các bước kiểm định
lập với tỷ lệ tương ứng là p1 và p2 . Từ hai tổng thể chọn ra hai mẫu với cỡ lần
lượt là n và m. Gọi X và Y là số phần tử thỏa tính chất A trong mẫu 1 và mẫu 1 Phát biểu giả thuyết H0 và đối thuyết H1
2. Khi đó, ta có X ∼ B(n, p1 ) và Y ∼ B(m, p2 ). 2 Xác định mức ý nghĩa α
• Bài toán: so sánh tỷ lệ p1 và p2 . 3 Tính thống kê kiểm định
• Bài toán kiểm định giả thuyết gồm các trường hợp sau:
Pˆ1 − Pˆ2
( ( ( Z0 = s (18)
H0 : p1 = p2 H0 : p1 = p2 H0 : p1 = p2
1 1

(a) (b) (c) P̂(1 − P̂) +
H1 : p1 6= p2 H1 : p1 < p2 H1 : p1 > p2 n m
• Các giả định với

Hai mẫu độc lập, X Y X +Y
Pˆ1 = , Pˆ2 = , P̂ = .
n m n+m
Cỡ mẫu lớn và np1 > 5, n(1 − p1 ) > 5 và mp2 > 5, m(1 − p2 ) > 5.
Nếu H0 đúng, Z ∼ N (0, 1).

3 Xác định miền bác bỏ

Ví dụ 12
Đối thuyết Miền bác bỏ p - giá trị
Một công ty sản xuất thuốc cần kiểm tra một loại thuốc có tác dụng là giảm
H1 : p1 6= p2 |z0 | > zα/2 p = 2[1 − Φ(|z0 |)] việc xuất hiện cơn đau ngực ở các bệnh nhân. Công ty thực hiện thí nghiệm
H1 : p1 < p2 z0 < −zα p = Φ(z0 ) trên 400 người, chia làm hai nhóm: nhóm 1 gồm 200 được uống thuốc và
H1 : p1 > p2 z0 > zα p = 1 − Φ(z0 ) nhóm 2 gồm 200 người được uống giả dược. Theo dõi thấy ở nhóm 1 có 8
người lên cơn đau ngực và nhóm 2 có 25 người lên cơn đau ngực. Với
4 Kết luận: Nếu bác bỏ H0 , ta kết luận H1 đúng với (1 − α)100% độ tin cậy.
α = 0.05, hay cho kết luận về hiệu quả của thuốc mới sản xuất.
Ngược lại ta kết luận chưa đủ cơ sở để bác bỏ H0 với α cho trước.
Mục lục So sánh hai mẫu không độc lập (paired t - test)

Kiểm định giả thuyết cho tỷ lệ Khi hai mẫu không độc lập thì mỗi giá trị quan trắc được trong một mẫu
Kiểm định giả thuyết cho phương sai có mối liên hệ tương ứng với một giá trị quan trắc ở mẫu thứ hai. Như
vậy, ta có thể ghép cặp từng giá trị trong hai mẫu với nhau.
2 Kiểm định giả thuyết - TH hai mẫu độc lập Việc ghép cặp là kết quả của việc
So sánh hai kỳ vọng quan trắc giá trị trước và sau khi thực hiện 1 thí nghiệm. Chẳng hạn như đo
So sánh hai tỷ lệ trọng lượng trước và sau khi thực hiện một chế độ ăn kiêng.
so sánh cùng 1 đặc tính.
thí nghiệm trên cùng 1 địa điểm.
3 So sánh hai mẫu không độc lập thí nghiệm với cùng thời gian.

So sánh hai mẫu không độc lập (paired t - test) So sánh hai mẫu không độc lập (paired t - test)
Goi µD = E (Di ), bởi vì D1 , . . . , Dn là những biến ngẫu nhiên độc lập và có

Xét (X1i , X2i ), với i = 1, 2, . . . , n, là tập gồm n cặp giá trị quan trắc với cùng phân phối, nếu d1 , . . . , dn là những giá trị của D1 , . . . , Dn , ta định
giả sử rằng kỳ vọng và phương sai của tổng thể đại diện bởi X1 là µ1 và nghĩa
σ12 và kỳ vọng và phương sai của tổng thể đại diện bởi X2 là µ2 và σ22 . X1i n
và X2j (i 6= j) độc lập. 1X
d¯ = di (20)
Định nghĩa độ sai khác giữa mỗi cặp trong tập hợp các giá trị quan trắc là n i=1
n n
Di = X1i − X2i , i = 1, . . . , n (19) 1 X 1 X 2 n
sd2 = ¯ 2
(di − d) = di − ¯2
(d) (21)
n − 1 i=1 n − 1 i=1 n−1
Các Di ,i = 1, . . . , n được giả sử có phân phối chuẩn.
Goi µD = E (Di ), bởi vì D1 , . . . , Dn là những biến ngẫu nhiên độc lập và có Ta cần kiểm định các giả thuyết và đối thuyết sau
cùng phân phối, nếu d1 , . . . , dn là những giá trị của D1 , . . . , Dn , ta định ( ( (
nghĩa H 0 : µD = D 0 H 0 : µD = D 0 H0 : µD = D0
(a) (b) (c)
H1 µD 6= D0
: :
H 1 µD < D 0 H1 : µD > D0
So sánh hai mẫu không độc lập (paired t - test) So sánh hai mẫu không độc lập (paired t - test)
5 Miền bác bỏ và p - giá trị trong trường hợp này có dạng

Đối thuyết Miền bác bỏ p - giá trị
1 Phát biểu giả thuyết H0 và đối thuyết H1 H1 : µD 6= D0 |t0 | > n−1
tα/2 p = 2P(Tn−1 ≥ |t0 |)
2 Xác định mức ý nghĩa α H 1 : µD < D 0 t0 < −tαn−1 p = P(Tn−1 ≤ t0 )
3 Tính thống kê kiểm định
H 1 : µD > D 0 t0 > tαn−1 p = P(Tn−1 ≥ t0 )
D̄ − D0
T0 = √ (22)
SD / n 6 Kết luận: Nếu bác bỏ H0 , ta kết luận H1 đúng với (1 − α) ∗ 100% độ tin
cậy. Ngược lại kết luận chưa đủ cơ sở để bác bỏ H0 .
thống kê T0 có phân phối Student với n − 1 bậc tự do.
4 Xác định miền bác bỏ • Trường hợp cỡ mẫu n > 30, bài toán kiểm định hai mẫu phụ thuộc thực hiện
tương tự như trường hợp một mẫu dựa trên mẫu ngẫu nhiên (D1 , . . . , Dn ).

So sánh hai mẫu không độc lập Mục lục

Ví dụ 13 Kiểm định giả thuyết cho kỳ vọng
Một bác sĩ dinh dưỡng nghiên cứu một chế độ ăn kiêng và tập thể dục mới để Kiểm định giả thuyết cho tỷ lệ
làm giảm lượng đường trong máu của các bệnh nhân bị bệnh tiểu đường. 10 Kiểm định giả thuyết cho phương sai
bệnh nhân bị bệnh tiểu đường được chọn để thử nghiệm chương trình này,
bảng kết quả bên dưới cho biết lượng đường trong máu trước và sau khi các 2 Kiểm định giả thuyết - TH hai mẫu độc lập
bệnh nhân tham gia chương trình So sánh hai kỳ vọng
Trước 268 225 252 192 307 228 246 298 231 185 So sánh hai tỷ lệ
Sau 106 186 223 110 203 101 211 176 194 203
3 So sánh hai mẫu không độc lập
Số liệu được cung cấp có đủ bằng chứng để kết luận rằng chế độ ăn kiêng và
tập thể dục có tác dụng làm giảm lượng đường trong máu không? α = 0.05.
Kiểm định giả thuyết về tính độc lập Kiểm định giả thuyết về tính độc lập
• Bài toán:
Giả sử mỗi phần tử trong một tổng thể có thể được phân loại theo hai đặc
tính khác nhau, gọi là đặc tính X và đặc tính Y . X có r giá trị và Y có s
giá trị. Gọi pi là xác suất chọn được một phần tử của tổng thể có đặc tính X bằng xi ,
pij = P(X = xi , Y = yj ), qj là xác suất chọn được môt phần tử của tổng thể có đặc tính Y bằng yj .
Ta cần kiểm định xem X có độc lập với Y hay không?
với i = 1, . . . , r và j = 1, . . . , s. pij là xác suất chọn được một phần tử
Phát biểu giả thuyết
trong tổng thể có đặc tính X bằng i và đặc tính Y bằng j.
Gọi H0 : pij = pi qj ∀i = 1, . . . , r , j = 1, . . . , s,
s
X
pi = P(X = xi ) = pij , i = 1, . . . , r , và đối thuyết
j=1 H1 : ∃ (i, j) sao cho pij 6= pi qj
và
r
X
qj = P(Y = yj ) = pij , j = 1, . . . , s.
i=1

Khảo sát N phần tử, ta được bảng kết quả, trong bài toán này gọi là bảng Ước lượng của pi và qj lần lượt bằng
ngẫu nhiên (contingency table):
ni
p̂i = , i = 1, . . . , r ,
HH Y N
y1 y2 ··· ys Tổng hàng mj
X HH q̂j = , j = 1, . . . , s.
N
H
x1 n11 n12 ··· n1s n1
x2 n21 n22 ··· n2s n2 Gọi Nij là số phần tử có đặc tính (xi , yj ) trong N phần tử khảo sát, thì
.. .. .. .. .. .. Nij ∼ B(N, pij ). Khi đó,
. . . . . .
xr nr 1 nr 2 ··· nrs nr E(Nij ) = Npij = Npi qj khi H0 đúng.
Tổng cột m1 m2 ··· ms N
Đặt
Bảng 7 ni mj
eij = N p̂i q̂j =
N
trong đó, các nij gọi là tần số thực nghiệm. eij gọi là tần số lý thuyết.
Định lý 1 (Pearson) 1 Phát biểu giả thuyết H0 : X và Y độc lập.

Với Nij và Eij = Npij , biến ngẫu nhiên 2 Xác định tần số thực nghiệm nij và tần số lý thuyết
r X s ni mj
X (Nij − Eij )2 eij = ,
N
i=1 j=1
Eij
với ni và mj là tổng hàng i và tổng cột j tương ứng.
sẽ hội tụ theo phân phối về biến ngẫu nhiên Chi bình phương χ2(r −1)(s−1) . Điều kiện: eij ≥ 5.

3 Tính thống kê kiểm định Ví dụ 14
Xr X s
(nij − eij )2 Xr X s
nij2 Một báo cáo khoa học trong y khoa tuyên bố rằng việc sở hữu một thú cưng
2
Q = = − N. (23) trong nhà (chó hoặc mèo) sẽ làm tăng khả năng sống sót của chủ nuôi mà bị
eij eij
i=1 j=1 i=1 j=1 đột quỵ do lên nhồi máu cơ tim. Một mẫu ngẫu nhiên gồm 95 người đã đột
quỵ do đau tim được khảo sát. Dữ liệu của mỗi người khảo sát được chia làm 2
Nếu H0 đúng, thống kê Q 2 có phân phối Chi bình phương với loại:
(r − 1)(s − 1) bậc tự do
- Những người sống sót/tử vong 1 năm sau khi lên đột quỵ (do nhồi máu cơ
4 Bác bỏ H0 khi tim).
Q 2 > χ2(r −1)(s−1) (α). (24)
- Người sống sót/tử vong có nuôi thú cưng trong nhà hay không.
Nếu sử dụng p-giá trị: Kết quả cho bởi bảng sau

p = P χ2(r −1)(s−1) ≥ Q 2 . (25) Có nuôi thú cưng Không nuôi thú cưng
Sống sót 28 44
Bác bỏ H0 khi: p ≤ α. Tử vong 8 15
1 Phát biểu giả thuyết H0 : sự sống sót/tử vong của một người sau khi bị đột
3 Tính giá trị thống kê Q 2
quỵ do đau tim độc lập với việc nuôi thú cưng.
2 X 2
!
2 Tính tần số thực nghiệm: với n1 = 72, n2 = 23, m1 = 36, m2 = 59 2
X nij2 282 442 82 152
Q = −N = + + + −95 = 0.125.
n1 m1 72 × 36 i=1 j=1
eij 27.284 44.716 8.716 15.284
e11 = = = 27.284,
N 95
n1 m2 72 × 59 4 Bác bỏ H0 khi: Q 2 > χ2(r −1)(s−1) (α) = χ21 (0.05).
e12 = = = 44.716,
N 95 Tra bảng Chi - bình phương, ta được χ21 (0.05) = 3.841.
n2 m1 23 × 36 Q 2 = 0.125, suy ra Q 2 < 3.841.
e21 = = = 8.716,
N 95 Ta kết luận chưa đủ cơ sở để bác bỏ H0 tức là sự sống sót/tử vong của
n2 m2 23 × 59 một người sau khi bị đột quỵ do đau tim độc lập với việc nuôi thú cưng.
e22 = = = 14.284.
N 95

Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết - TH hai mẫu độc lập
So sánh hai mẫu không độc lập
Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết về tính độc lập
Ví dụ 15
Vé máy bay của hãng hàng không Việt Nam Airline được chia làm 3 loại: Hạng
thường (C), hạng trung (B) và hạng doanh nhân (A). Hành khách đi máy bay
của VN Airlines nằm trong 1 trong 2 dạng sau: bay nội địa hoặc quốc tế. Khảo
sát 920 hành khách đã bay của hãng, cho kết quả sau:
Loại chuyến bay

Loại vé Nội địa Quốc tế
Hạng thường 29 22
Hạng trung 95 121
Hạng doanh nhân 518 135
Có ý kiến cho rằng hành khách mua loại vé nào (A, B, C) sẽ phụ thuộc vào
việc người đó bay nội địa hay quốc tế. Với mức ý nghĩa 5%, hãy kiểm tra ý kiến
trên.
V. H. Hoang Hypothesis testing

Slide Lý thuyết thống kê 3 chương đầu thầy Hoàng Văn Hà

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Slide Lý thuyết thống kê 3 chương đầu thầy Hoàng Văn Hà

Uploaded by

Copyright:

Available Formats

Giới thiệu môn học

Tên môn học: Lý thuyết Thống kê (Mathematical Statistics).

Ha Hoang V. Lý thuyết thống kê 1 / 74 Ha Hoang V. Lý thuyết thống kê 2 / 74

Một số khái niệm cơ bản

Mục lục Một số khái niệm cơ bản

1 Một số khái niệm cơ bản

2 Mô tả dữ liệu định lượng bằng đồ thị

6 Phân phối mẫu (Sampling distribution)

Ha Hoang V. Lý thuyết thống kê 3 / 74 Ha Hoang V. Lý thuyết thống kê 5 / 74

Chọn mẫu ngẫu nhiên

Ha Hoang V. Lý thuyết thống kê 6 / 74 Ha Hoang V. Lý thuyết thống kê 7 / 74

Mô tả phân phối của dữ liệu Histogram

Ha Hoang V. Lý thuyết thống kê 9 / 74 Ha Hoang V. Lý thuyết thống kê 11 / 74

Trong một bảng phân bố tần số:

Ha Hoang V. Lý thuyết thống kê 12 / 74 Ha Hoang V. Lý thuyết thống kê 13 / 74

Các bước thực hiện:

Ha Hoang V. Lý thuyết thống kê 14 / 74 Ha Hoang V. Lý thuyết thống kê 15 / 74

Vẽ histogram Cần chọn bao nhiêu khoảng khi vẽ histogram

Ha Hoang V. Lý thuyết thống kê 16 / 74 Ha Hoang V. Lý thuyết thống kê 17 / 74

Bất đối xứng (lệch trái và lệch phải):

Ha Hoang V. Lý thuyết thống kê 18 / 74 Ha Hoang V. Lý thuyết thống kê 19 / 74

Nhận dạng phân phối của dữ liệu Đồ thị thân và lá

Các dạng khác: Ví dụ 2

Vẽ đồ thị thân và lá cho bộ dữ liệu trên.

Vẽ đồ thị thân và lá cho bộ dữ liệu trên.

Ha Hoang V. Lý thuyết thống kê 20 / 74 Ha Hoang V. Lý thuyết thống kê 22 / 74

Dotplot Độ đo xu hướng trung tâm (central tendency)

ggplot(mtcars, aes(x = mpg)) + geom_dotplot()

Gồm các đại lượng sau:

Ta cũng có thể có:

Ha Hoang V. Lý thuyết thống kê 23 / 74 Ha Hoang V. Lý thuyết thống kê 25 / 74

Trung bình Trung vị

Ha Hoang V. Lý thuyết thống kê 26 / 74 Ha Hoang V. Lý thuyết thống kê 27 / 74

Trung vị Mode (Yếu vị)

Là giá trị thường xảy ra nhất,

với x(1) ≤ x(2) ≤ · · · ≤ x(n) là thống kê thứ tự (order statistic).

Ha Hoang V. Lý thuyết thống kê 28 / 74 Ha Hoang V. Lý thuyết thống kê 29 / 74

Sử dụng các độ đo xu hướng trung tâm Trung bình, trung vị và mode

Ha Hoang V. Lý thuyết thống kê 30 / 74 Ha Hoang V. Lý thuyết thống kê 31 / 74

Độ đo sự biến thiên (variability) Khoảng biến thiên

Khoảng biến thiên (range) là độ đo sự biến thiên đơn giản nhất.

Gồm các độ đo sau: Khoảng biến thiên = XMax − XMin .

Ha Hoang V. Lý thuyết thống kê 33 / 74 Ha Hoang V. Lý thuyết thống kê 34 / 74

Khoảng tứ phân vị Boxplot

Cách tìm Q1 và Q3 : tương tự Q2 (trung vị).

Ha Hoang V. Lý thuyết thống kê 35 / 74 Ha Hoang V. Lý thuyết thống kê 36 / 74

Boxplot Phương sai

Ha Hoang V. Lý thuyết thống kê 37 / 74 Ha Hoang V. Lý thuyết thống kê 38 / 74

Độ lệch chuẩn của mẫu,

Ha Hoang V. Lý thuyết thống kê 39 / 74 Ha Hoang V. Lý thuyết thống kê 40 / 74

Hệ số biến thiên So sánh hệ số biến thiên

Ha Hoang V. Lý thuyết thống kê 41 / 74 Ha Hoang V. Lý thuyết thống kê 42 / 74

Đồ thị phân tán Quan hệ phi tuyến (non-linear relationship):

Hệ số tương quan Pearson Hệ số tương quan Pearson

Hệ số tương quan Pearson (Pearson’s corelation coefficient) là một độ đo

Ha Hoang V. Lý thuyết thống kê 46 / 74 Ha Hoang V. Lý thuyết thống kê 47 / 74

Hệ số tương quan Pearson Hệ số tương quan Pearson

Ha Hoang V. Lý thuyết thống kê 48 / 74 Ha Hoang V. Lý thuyết thống kê 49 / 74

Ha Hoang V. Lý thuyết thống kê 50 / 74 Ha Hoang V. Lý thuyết thống kê 51 / 74

Chú ý! Phân phối chuẩn

Định nghĩa 1 (Normal distribution)

Ha Hoang V. Lý thuyết thống kê 52 / 74 Ha Hoang V. Lý thuyết thống kê 55 / 74

Phân phối chuẩn Phân phối chuẩn - Tính chất