Professional Documents
Culture Documents
Slide Lý thuyết thống kê 3 chương đầu thầy Hoàng Văn Hà
Slide Lý thuyết thống kê 3 chương đầu thầy Hoàng Văn Hà
Mô tả dữ liệu định lượng bằng đồ thị Mô tả dữ liệu định lượng bằng đồ thị Histogram
Histogram được xây dựng dựa trên bảng phân bố tần số (frequency
distribution).
Các dạng đồ thị:
Một bảng phân bố tần số bao gồm:
Histogram (đồ thị tổ chức tần số) I các khoảng được phân nhóm theo dữ liệu quan trắc (observations),
I và các tần số tương ứng của dữ liệu nằm bên trong từng khoảng.
Khi cỡ mẫu nhỏ:
I Stem-and-Leaf (đồ thị thân và lá) Histogram cho phép:
I Dotplot I mô tả phân phối của dữ liệu,
I nhận dạng phân phối chuẩn (bell-shaped),
I xem xét tính đối xứng/bất đối xứng, tập trung/phân tán của dữ liệu,
I xác định mode (unimodal, bimodal),
I ...
Lập một bảng phân bố tần số Lập một bảng phân bố tần số
Mô tả dữ liệu định lượng bằng đồ thị Histogram Mô tả dữ liệu định lượng bằng đồ thị Histogram
Lập một bảng phân bố tần số Lập một bảng phân bố tần số
Không có câu trả lời cụ thể. Thông thường số khoảng cần chia sẽ phụ thuộc
vào cỡ mẫu.
Một số quy tắc:
I Quy tắc của Sturge: số khoảng =√1 + log2 (n).
I Quy tắc của Rice: số khoảng = 2 3 n.
Mô tả dữ liệu định lượng bằng đồ thị Histogram Mô tả dữ liệu định lượng bằng đồ thị Histogram
Nhận dạng phân phối của dữ liệu Nhận dạng phân phối của dữ liệu
Đối xứng:
Ví dụ 3
Bộ dữ liệu dưới đây cho biết kết quả của thi môn bật xa (Đv: m) của 10 sinh viên
trong môn học giáo dục thể chất:
2.3 2.5 2.5 2.7 2.8 3.2 3.6 3.6 4.5 5.0
Mô tả dữ liệu định lượng bằng đồ thị Đồ thị thân và lá (Stem & leaf) và dotplot Các đại lượng đo xu hướng trung tâm
Trung bình là đại lượng thường được sử dụng nhất để đo giá trị trung tâm
của dữ liệu.
Trong một tập dữ liệu được sắp xếp theo thứ tự tăng dần, trung vị (median)
Với một tổng thể có N phần tử (thông thường, N rất lớn), trung bình tổng là giá trị "chính giữa" của dữ liệu (50% bên trái, 50% bên phải).
thể (population mean) được tính bởi
Trung vị không bị ảnh hưởng bởi các giá trị ngoại lai.
PN
i=1 xi x1 + x2 + . . . + xN
µ= = .
N N
Với một mẫu cỡ n được chọn từ tổng thể, trung bình mẫu (sample mean)
được tính bởi Pn
xi x1 + x2 + . . . + xn
x̄ = i=1 = .
n n
Chú ý: trung bình rất nhạy cảm với các giá trị ngoại lai (outlier).
Các đại lượng đo xu hướng trung tâm Các đại lượng đo xu hướng trung tâm
Trung bình luôn luôn được sử dụng, nếu các điểm ngoại lai (outliers) không
tồn tại hoặc sau khi loại bỏ các điểm ngoại lai.
Trung vị thường được dùng nếu bộ dữ liệu có các điểm ngoại lai hoặc rất bất
đối xứng.
Mode thường dùng để mô tả các biến định tính.
Vị trí của trung bình và trung vị bị ảnh hưởng bởi phân phối của dữ liệu:
Các đại lượng đo sự biến thiên Các đại lượng đo sự biến thiên
Hạn chế:
I Bỏ qua sự phân bố của dữ liệu.
I Dễ bị ảnh hưởng bởi các điểm ngoại lai (outlier).
Khoảng tứ phân vị (interquartile range): Để biểu diễn khoảng tứ phân vị và các điểm ngoại lai : sử dụng boxplot.
IQR = Q3 − Q1 ,
với Q1 là phân vị thứ 1 (mức 25%) và Q3 là phân vị thứ 3 (mức 75%) của
dữ liệu.
Các điểm Q1 , Q2 , và Q3 được gọi là các điểm tứ phân vị:
Các đại lượng đo sự biến thiên Các đại lượng đo sự biến thiên
với N là số phần tử của tổng thể, µ là trung bình tổng thể, xi là giá trị thứ i
của biến x.
Phương sai mẫu (sample variance):
n
1 X
s2 = (xi − x̄)2
n−1
i=1
với x̄ là trung bình mẫu, n là cỡ mẫu, xi là giá trị quan trắc thứ i.
Độ lệch tiêu chuẩn So sánh sự biến thiên của dữ liệu dùng độ lệch chuẩn
Độ lệch tiêu chuẩn (standard deviation) được dùng để đo sự biến thiên, biểu
diễn sự biến thiên xung quanh trung bình.
Có cùng đơn vị đo với dữ liệu gốc.
Độ lệch chuẩn của tổng thể, ký hiệu là σ:
s
PN 2
i=1 (xi − µ)
σ= .
N
Các đại lượng đo sự biến thiên Các đại lượng đo sự biến thiên
Dữ liệu A:
I Trung bình x̄A = 50
Hệ số biến thiên (Coefficient of Variation) được sử dụng để so sánh sự biến I Độ lệch chuẩn sA = 5
thiên của hai hay nhiều tập dữ liệu, có thể đo ở các đơn vị khác nhau.
sA 5
Hệ số biến thiên do sự phân tán tương đối của dữ liệu xung quanh giá trị CVA = 100% = 100% = 10%.
x̄A 50
trung bình.
Dữ liệu B:
Đơn vị tính bằng %.
I Trung bình x̄B = 100
Công thức I Độ lệch chuẩn sB = 5
s
CV = 100%.
x̄ sB 5
CVB = 100% = 100% = 5%.
x̄B 100
Cả hai tập dữ liệu có cùng độ lệch chuẩn, nhưng dữ liệu B biến thiên ít hơn
so với giá trị của nó.
60
50
Wife's Age
40
30
20
20 30 40 50 60
Husband's Age
Câu hỏi: người ta có xu hướng kết hôn với những người có cùng độ tuổi hay
không?
Ha Hoang V. Lý thuyết thống kê 44 / 74 Ha Hoang V. Lý thuyết thống kê 45 / 74
Thống kê mô tả cho dữ liệu 2 chiều (bivariate data) Thống kê mô tả cho dữ liệu 2 chiều (bivariate data)
Thống kê mô tả cho dữ liệu 2 chiều (bivariate data) Thống kê mô tả cho dữ liệu 2 chiều (bivariate data)
Các yếu tố ảnh hưởng đến hệ số tương quan Các yếu tố ảnh hưởng đến hệ số tương quan
Các điểm ngoại lai (outliers): Tính đồng nhất (homoscedasticity) và không đồng nhất (heteroscedasticity)
của dữ liệu:
Nếu X ∼ N(µ, σ 2 ), ta có
E(X ) = µ
Var (X ) = σ 2
Phân phối mẫu (Sampling distribution) Nhắc lại một số phân phối thường gặp Phân phối mẫu (Sampling distribution) Nhắc lại một số phân phối thường gặp
Phân phối chuẩn là một trong những phân phối quan trọng nhất, được dùng
để mô tả phân phối của nhiều biến ngẫu nhiên trong thực tế, như chiều
cao/cân nặng của một người, tổng doanh thu của một công ty, điểm thi của
sinh viên, sai số của một phép đo, v.v. Bên cạnh đó, định lý giới hạn trung
tâm (Central Limit Theorem) đã chứng tỏ rằng, phân phối chuẩn là phân
phối xấp xỉ của nhiều phân phối khác như nhị thức, tổng các biến ngẫu nhiên
độc lập, v.v.
Một số tính chất của phân phối chuẩn:
I Đồ thị có dạng chuông (bell-shaped)
I Phân phối đối xứng
I Trung bình = trung vị (median) = yếu vị (mode)
I Vị trí của phân phối được xác định bởi kỳ vọng µ
I Độ phân tán được xác định bởi độ lệch tiêu chuẩn σ
I Xác định trên R
Theo quy ước, hàm phân phối của biến ngẫu nhiên chuẩn hóa được ký hiệu là
Φ(z), tức Z z
1 x2
Φ(z) = √ e − 2 dx
2π −∞
Phân phối mẫu (Sampling distribution) Nhắc lại một số phân phối thường gặp Phân phối mẫu (Sampling distribution) Nhắc lại một số phân phối thường gặp
Xây dựng phân phối Chi bình phương từ phân phối chuẩn Phân phối Chi bình phương
Nếu Z ∼ N(0, 1), thì Y = Z sẽ tuân theo một phân phối được gọi là phân
2
Định lý 1 (Các đặc trưng của biến ngẫu nhiên có phân phối Chi bình
phương)
Cho X là biến ngẫu nhiên có phân phối chi bình phương với n bậc tự do thì
i) Kỳ vọng E (X ) = n,
ii) Phương sai Var (X ) = 2n,
iii) Nếu X ∼ χ2 (n), Y ∼ χ2 (m) và X , Y là hai biến ngẫu nhiên độc lập thì
X + Y ∼ χ2 (m + n).
Ha Hoang V. Lý thuyết thống kê 62 / 74 Ha Hoang V. Lý thuyết thống kê 63 / 74
Phân phối mẫu (Sampling distribution) Nhắc lại một số phân phối thường gặp Phân phối mẫu (Sampling distribution) Nhắc lại một số phân phối thường gặp
Phân phối Student Xây dựng pp Student từ pp chuẩn và pp Chi bình phương
Xét Z ∼ N(0, 1) và Y ∼ χ2 (n), Z và Y độc lập.
Đặt:
Z
T =q .
Định nghĩa 4 (Student distribution) Y
n
Biến ngẫu nhiên liên tục X nhận giá trị trong khoảng (−∞, +∞) được gọi là có
phân phối Student với n bậc tự do, ký hiệu X ∼ t(n), nếu hàm mật độ xác suất Biến ngẫu nhiên T được định nghĩa như trên sẽ tuân theo phân phối Student
có dạng với n bậc tự do, ký hiệu T ∼ t(n).
− n+1
Γ( n+1 t2
2 )
2
f (x) = √ 1 + , Định lý 2 (Các đặc trưng của biến ngẫu nhiên có phân phối Student)
nπ Γ( n2 ) n
trong đó Γ(x) là hàm Gamma. Cho X ∼ t(n) thì
i) Kỳ vọng E (X ) = 0 nếu n > 1, các trường hợp còn lại E (X ) không được định
nghĩa.
n
ii) Phương sai Var (X ) = n−2 nếu n > 2; Var (X ) = ∞ nếu 1 < n ≤ 2 các
trường hợp còn lại Var (X ) không được định nghĩa.
• Đồ thị của hàm mật độ phân phối Student có dạng hình chuông như đồ thị
hàm mật độ của phân phối chuẩn, nhưng có phần đỉnh thấp hơn và hai phần
đuôi cao hơn so với phân phối chuẩn. Định nghĩa 5
Xét X1 , X2 , . . . , Xn là một mẫu ngẫu nhiên chọn từ một tổng thể và hàm giá trị
thực (hay véc-tơ) T (x1 , x2 , . . . , xn ). Thì biến ngẫu nhiên hay véc-tơ ngẫu nhiên
Y = T (X1 , X2 , . . . , Xn ) được coi là một thống kê. Phân phối xác suất của thống
kê Y được gọi là phân phối mẫu của Y .
Phân phối mẫu (Sampling distribution) Phân phối mẫu Phân phối mẫu (Sampling distribution) Phân phối mẫu
Phân phối mẫu của trung bình và phương sai Phân phối mẫu của trung bình và phương sai
Định lý 3 Trong trường hợp tổng thể không có phân phối chuẩn, từ định lý giới hạn trung
2
Nếu tổng thể X có phân phối chuẩn X ∼ N(µ, σ ) và (X1 , ..., Xn ) là một mẫu tâm ta suy ra rằng
ngẫu nhiên từ tổng thể trên. Xét √
(X̄ − µ) n D
n n −→ N(0, 1),
1X 1 X σ
X̄ = 2
Xi và S = (Xi − X̄ )2 . √
n n−1 (X̄ − µ) n D
i=1 i=1 −→ N(0, 1).
S
Ta có các kết quả sau: Từ kết quả này, trong thực hành, khi mẫu có kích thước, n, đủ lớn ta có các phân
σ2
1 X̄ ∼ N µ, . phối xấp xỉ chuẩn sau
n √
(n − 1) 2 P n (X − X̄ )2 (X̄ − µ) n
2 S =
i
∼ χ2 (n − 1). ≈ N(0, 1),
σ2 σ 2 σ
i=1 √
√ (X̄ − µ) n
(X̄ − µ) n ≈ N(0, 1).
3 ∼ t(n − 1). S
S
4 X̄ và S 2 là hai biến ngẫu nhiên độc lập.
Sai số chuẩn của trung bình Sai số chuẩn của trung bình
Định nghĩa 6
Xét X1 , X2 , . . . , Xn là một mẫu ngẫu nhiên chọn từ một tổng thể có trung bình µ
và phương sai σ 2 < ∞. Sai số chuẩn (Standard Error - SE) của trung bình, ký σX̄ bị ảnh hưởng bởi hai yếu tố:
hiệu σX̄ được định nghĩa như sau
(1) Cỡ mẫu n: Cỡ mẫu càng lớn ⇒ sai số chuẩn càng nhỏ, chú ý rằng khi n = 1
σ thì σX̄ = σ.
σX̄ = √ .
n (2) Độ biến thiên của tổng thể σ: σ càng lớn ⇒ sai số chuẩn càng lớn.
Ý nghĩa:
• σX̄ đo độ biến thiên của X̄ xung quanh µ,
• Sai số chuẩn càng nhỏ, ước lượng tham số từ tổng thể càng tốt và độ tin cậy
cao.
Phân phối mẫu (Sampling distribution) Phân phối mẫu Phân phối mẫu (Sampling distribution) Phân phối mẫu
• Giả sử cần khảo sát đặc trưng A của một tổng thể, khảo sát n phần tử và đặt
( • Kỳ vọng và phương sai của P̂ bằng
1, nếu thỏa A p(1 − p)
Xi =
0, nếu không thỏa A E P̂ = p, Var P̂ = .
n
thu được mẫu ngẫu nhiên X1 , . . . , Xn với Xi ∼ B(p), p là tỷ lệ phần tử thỏa • Theo định lý giới hạn trung tâm ta có
đặc trưng A.
Pn
• Đặt X = i=1 là số phần tử thỏa đặc trưng A trong mẫu khảo sát, thì P̂ − p
r ; N(0, 1).
X ∼ B(n, p). p(1 − p)
• Tỷ lệ mẫu P̂ là một ước lượng của tỷ lệ p xác định bởi p
X Vì vậy trong thực hành, khi np ≥ 5, n(1 − p) ≥ 5, ta có P̂ ≈ N p, p(1−p) .
P̂ = . n
n
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ha Hoang V.
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ha Hoang V.
Phép th˚ ng®u nhiên (Random experiment)
Bi∏n cË và xác Bi∏n cË và xác T™p hÒp tßt c£ các k∏t qu£ có th∫ x£y ra khi th¸c hiªn phép th˚
sußt sußt
Bi∏n cË ng®u nhiên
Là s¸ th¸c hiªn mÎt sË i∑u kiªn xác ‡nh (thí nghiªm cˆ th∫ hay Bi∏n cË ng®u nhiên
gÂi là không gian m®u hay không gian các bi∏n cË sÏ cßp
Quan hª gi˙a các
bi∏n cË
quan sát mÎt hiªn t˜Òng nào ó), có th∫ l∞p l§i nhi∑u l¶n. K∏t qu£ Quan hª gi˙a các
bi∏n cË
(sample space), k˛ hiªu ⌦.
Các phép toán trên
các bi∏n cË
cıa phép th˚ ta không xác ‡nh tr˜Óc ˜Òc. Các phép toán trên
các bi∏n cË MÈi k∏t qu£ cıa phép th˚ ng®u nhiên ! (! 2 ⌦) gÂi là mÎt bi∏n
Khái niªm và các
‡nh nghæa v∑ xác
Khái niªm và các
‡nh nghæa v∑ xác cË/s¸ kiªn sÏ cßp (simple event).
sußt sußt
Các công th˘c Ví dˆ 1 Các công th˘c MÎt t™p con cıa không gian m®u có nhi∑u bi∏n cË ˜Òc gÂi là
tính xác sußt cÏ tính xác sußt cÏ
b£n b£n bi∏n cË/s¸ kiªn ng®u nhiên (event). Kí hiªu là A, B, C , . . .
Công th˘c cÎng xác
Phép th˚ ng®u nhiên K∏t qu£ Công th˘c cÎng xác
sußt
Tung Áng ti∑n M∞t sßp, m∞t ng˚a
sußt Bi∏n cË luôn x£y ra khi th¸c hiªn phép th˚ là bi∏n cË ch≠c ch≠n,
Công th˘c xác sußt Công th˘c xác sußt
i∑u kiªn. Công th˘c i∑u kiªn. Công th˘c k˛ hiªu ⌦.
nhân xác sußt. Tung 1 con xúc s≠c { , , , , , } nhân xác sußt.
S¸ Îc l™p gi˙a các
bi∏n cË
Tr£ lÌi ng®u nhiên 1 câu tr≠c nghiªm úng/Sai
S¸ Îc l™p gi˙a các
bi∏n cË Bi∏n cË luôn không x£y ra gÂi là bi∏n cË bßt kh£ (hay bi∏n cË
Công th˘c xác sußt
¶y ı. Công th˘c
Công th˘c xác sußt
¶y ı. Công th˘c
không th∫ có) (empty event), kí hiªu Ø.
Bayes Bayes
Bi∏n cË ng®u nhiên Quan hª gi˙a các bi∏n cË
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ha Hoang V.
S¸ kéo theo
Bi∏n cË và xác Bi∏n cË và xác
sußt
Bi∏n cË ng®u nhiên
Ví dˆ 2 sußt
Bi∏n cË ng®u nhiên
A kéo theo B, k˛ hiªu A ⇢ B, n∏u A x£y ra thì B x£y ra. Ta còn nói
Quan hª gi˙a các Quan hª gi˙a các
A là bi∏n cË thu™n lÒi cho B.
bi∏n cË
Các phép toán trên
Gieo mÎt l¶n con xúc x≠c. GÂi !i = "m∞t trên cıa xúc s≠c có i chßm bi∏n cË
Các phép toán trên
các bi∏n cË
Khái niªm và các
= i". Không gian các bi∏n cË sÏ cßp các bi∏n cË
Khái niªm và các
‡nh nghæa v∑ xác
sußt
‡nh nghæa v∑ xác
sußt
Ví dˆ 3
Các công th˘c
⌦ = {!1 , !2 , . . . , !6 } = { , , , , , } Các công th˘c
tính xác sußt cÏ tính xác sußt cÏ Tung mÎt con xúc x≠c.
b£n b£n
Công th˘c cÎng xác A = { , , , } ="chßm l¥" & Công th˘c cÎng xác
GÂi Ai là bi∏n cË ˜Òc i chßm i = 1, 6 ,
sußt sußt
Công th˘c xác sußt B = { , , } ="chßm chÆn" ! Bi∏n cË ng®u nhiên Công th˘c xác sußt B là bi∏n cË ˜Òc sË chßm chia h∏t cho 3,
i∑u kiªn. Công th˘c i∑u kiªn. Công th˘c
nhân xác sußt. C = { , } ="chßm > 4" % nhân xác sußt. C ="SË chßm chÆn" ,
S¸ Îc l™p gi˙a các S¸ Îc l™p gi˙a các
bi∏n cË bi∏n cË P2 ="SË chßm nguyên tË chÆn",
Công th˘c xác sußt Công th˘c xác sußt
¶y ı. Công th˘c
Bayes
¶y ı. Công th˘c
Bayes
Khi ó ta có A2 ⇢ C , A3 ⇢ B, A2 ⇢ P2 , P2 ⇢ A2 .
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ha Hoang V.
Bi∏n cË và xác
sußt
Bi∏n cË và xác
sußt
Bi∏n cË tÍng (union)
Bi∏n cË ng®u nhiên
Quan hª gi˙a các
S¸ t˜Ïng ˜Ïng Bi∏n cË ng®u nhiên
Quan hª gi˙a các Bi∏n cË tÍng cıa A và B, k˛ hiªu A + B hay A [ B, là bi∏n cË x£y ra
bi∏n cË bi∏n cË
Các phép toán trên
các bi∏n cË
A t˜Ïng ˜Ïng vÓi B, k˛ hiªu A = B, n∏u A x£y ra thì B x£y ra và Các phép toán trên
các bi∏n cË
n∏u A ho∞c B x£y ra (có ít nhßt mÎt trong hai bi∏n cË x£y ra).
Khái niªm và các
‡nh nghæa v∑ xác
ng˜Òc l§i. Khái niªm và các
‡nh nghæa v∑ xác
sußt sußt
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ha Hoang V.
Các phép toán trên bi∏n cË Các phép toán trên bi∏n cË
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt Bi∏n cË Ëi l™p ( bi∏n cË bù) (complement)
Ha Hoang V. Ha Hoang V.
Các bi∏n cË xung kh≠c (mutually exclusive) Bi∏n cË Ëi l™p cıa A, k˛(hiªu A, là bi∏n cË x£y ra khi A không x£y
Bi∏n cË và xác Bi∏n cË và xác
sußt
A xung kh≠c vÓi B n∏u A và B không Áng thÌi x£y ra, k˛ hiªu sußt A[A=⌦
Bi∏n cË ng®u nhiên Bi∏n cË ng®u nhiên ra và ng˜Òc l§i, nghæa là hay A = ⌦ \ A.
Quan hª gi˙a các A \ B = Ø. Quan hª gi˙a các A\A=Ø
bi∏n cË bi∏n cË
Các phép toán trên Các phép toán trên
các bi∏n cË các bi∏n cË
Khái niªm và các Khái niªm và các
‡nh nghæa v∑ xác ‡nh nghæa v∑ xác
sußt sußt
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ha Hoang V.
Bi∏n cË và xác
Ví dˆ 5 Bi∏n cË và xác
Ví dˆ 6
sußt sußt
Bi∏n cË ng®u nhiên MÎt cái máy có 3 bÎ ph™n ho§t Îng Îc l™p nhau. Máy ng˜ng ho§t Bi∏n cË ng®u nhiên
Cho sÏ Á mÎt m§ng iªn nh˜ hình v≥, bao gÁm ng≠t iªn K , các
Quan hª gi˙a các Quan hª gi˙a các
bi∏n cË Îng khi c£ 3 bÎ ph™n cùng b‡ h˜. ∞t các bi∏n cË: bi∏n cË
bóng èn A1 , A2 và A3 . M§ng iªn b‡ mßt iªn (B) chø khi các bóng
Các phép toán trên Các phép toán trên
các bi∏n cË các bi∏n cË èn b‡ h˜ ho∞c công t≠c K b‡ h˜. Hãy bi∫u diπn B theo Ai , i = 1, 3
Khái niªm và các
‡nh nghæa v∑ xác Ai : "BÎ ph™n th˘ i b‡ h˜", i = 1, 2, 3 Khái niªm và các
‡nh nghæa v∑ xác và K .
sußt sußt
Khái niªm và các ‡nh nghæa v∑ xác sußt Khái niªm và các ‡nh nghæa v∑ xác sußt
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V.
Khái niªm v∑ xác sußt Ha Hoang V.
Bi∏n cË và xác Xác sußt cıa bi∏n cË A là mÎt con sË, sË ó ∞c tr˜ng cho kh£ n´ng Bi∏n cË và xác ‡nh nghæa 1.1 ( N xác sußt theo quan i∫m cÍ i∫n)
sußt sußt
Bi∏n cË ng®u nhiên
xußt hiªn cıa bi∏n cË A trong phép th˚ t˜Ïng ˘ng. K˛ hiªu là P(A) Bi∏n cË ng®u nhiên
Quan hª gi˙a các Quan hª gi˙a các N∏u trong mÎt phép th˚ có tßt c£ n bi∏n cË sÏ cßp Áng kh£ n´ng,
bi∏n cË bi∏n cË
1
Các phép toán trên
các bi∏n cË
Các phép toán trên
các bi∏n cË
nghæa là P(!1 ) = P(!2 ) = . . . = P(!n ) = , trong ó có m bi∏n cË
n
Khái niªm và các Khái niªm và các
m
‡nh nghæa v∑ xác
sußt
‡nh nghæa v∑ xác
sußt thu™n lÒi cho bi∏n cË A thì xác sußt cıa A, k˛ hiªu, P (A), là tø sË .
Các công th˘c Các công th˘c
n
tính xác sußt cÏ tính xác sußt cÏ
b£n b£n
card(A) m SË bi∏n cË thu™n lÒi cho A
Công th˘c cÎng xác
sußt
Công th˘c cÎng xác
sußt P (A) = = = . (1)
Công th˘c xác sußt Công th˘c xác sußt
card(⌦) n SË tßt c£ các bi∏n cË có th∫
i∑u kiªn. Công th˘c i∑u kiªn. Công th˘c
nhân xác sußt. Nh™n xét 1 nhân xác sußt.
S¸ Îc l™p gi˙a các S¸ Îc l™p gi˙a các
bi∏n cË bi∏n cË
Công th˘c xác sußt P (A) càng lÓn (càng g¶n 1) thì kh£ n´ng xußt hiªn A càng Công th˘c xác sußt
Kí hiªu khác: card(A) = |A|.
¶y ı. Công th˘c ¶y ı. Công th˘c
Bayes nhi∑u. Bayes
P (A) càng nh‰ (càng g¶n 0) thì kh£ n´ng xußt hiªn A càng ít.
Khái niªm và các ‡nh nghæa v∑ xác sußt Khái niªm và các ‡nh nghæa v∑ xác sußt
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ha Hoang V.
Khái niªm và các ‡nh nghæa v∑ xác sußt Khái niªm và các ‡nh nghæa v∑ xác sußt
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ha Hoang V.
Ví dˆ 8
Bi∏n cË và xác ‡nh nghæa 1.2 ( N xác sußt theo quan i∫m thËng kê) Bi∏n cË và xác
sußt
Bi∏n cË ng®u nhiên
sußt
Bi∏n cË ng®u nhiên
∫ nghiên c˘u kh£ n´ng xußt hiªn m∞t sßp khi tung Áng ti∑n, ng˜Ìi
Quan hª gi˙a các Th¸c hiªn phép th˚ n l¶n. Gi£ s˚ bi∏n cË A xußt hiªn m l¶n. Khi ó Quan hª gi˙a các ta ti∏n hành tung Áng ti∑n ó nhi∑u l¶n và thu ˜Òc k∏t qu£ sau:
bi∏n cË m bi∏n cË
Các phép toán trên m gÂi là t¶n sË xußt hiªn bi∏n cË A trong n phép th˚, và t sË Các phép toán trên
các bi∏n cË
n các bi∏n cË
Ng˜Ìi làm SË l¶n tung SË l¶n nh™n T¶n sußt
Khái niªm và các Khái niªm và các
‡nh nghæa v∑ xác ˜Òc gÂi là t¶n sußt xußt hiªn bi∏n cË A trong n phép th˚, k˛ hiªu, ‡nh nghæa v∑ xác
m
sußt
m sußt thí nghiªm n m∞t sßp m n
Các công th˘c fn (A) = . Các công th˘c
Buffon 4040 2048 0.5069
tính xác sußt cÏ n tính xác sußt cÏ
b£n b£n
Công th˘c cÎng xác
Th¸c hiªn phép th˚ vô h§n l¶n, (n ! 1) t¶n sußt xußt hiªn bi∏n cË Công th˘c cÎng xác
Pearson 12000 6019 0.5016
sußt
Công th˘c xác sußt
A ti∏n d¶n v∑ mÎt sË xác ‡nh gÂi là xác sußt cıa bi∏n cË A. sußt
Công th˘c xác sußt
Pearson 24000 12012 0.5005
i∑u kiªn. Công th˘c i∑u kiªn. Công th˘c
nhân xác sußt.
m nhân xác sußt.
S¸ Îc l™p gi˙a các
bi∏n cË P (A) = lim fn (A) = lim . (2) S¸ Îc l™p gi˙a các
bi∏n cË B£ng trên cho thßy, khi sË l¶n tung càng lÓn thì t¶n sußt xußt hiªn
n!1 n!1 n
Công th˘c xác sußt Công th˘c xác sußt m 1
¶y ı. Công th˘c ¶y ı. Công th˘c
m∞t sßp càng g¶n .
Bayes Bayes
n 2
Khái niªm và các ‡nh nghæa v∑ xác sußt Khái niªm và các ‡nh nghæa v∑ xác sußt
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ha Hoang V.
Khái niªm và các ‡nh nghæa v∑ xác sußt Khái niªm và các ‡nh nghæa v∑ xác sußt
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ha Hoang V.
Bi∏n cË và xác
sußt
Ví dˆ 9 (Bài toán g∞p gÔ) Bi∏n cË và xác
sußt
Bi∏n cË ng®u nhiên Bi∏n cË ng®u nhiên
Quan hª gi˙a các
bi∏n cË
Hai ng˜Ìi hµn g∞p nhau t§i mÎt ‡a i∫m vào kho£ng t¯ 11 giÌ ∏n Quan hª gi˙a các
bi∏n cË Tính chßt cıa xác sußt
Các phép toán trên
12 giÌ. H quy ˜Óc r¨ng ng˜Ìi ∏n tr˜Óc chø Òi 20 phút, n∏u không Các phép toán trên
các bi∏n cË các bi∏n cË 1 0 P (A) 1.
Khái niªm và các
‡nh nghæa v∑ xác
g∞p s≥ i. Gi£ s˚ viªc ∏n i∫m hµn cıa mÈi ng˜Ìi là ng®u nhiên. Khái niªm và các
‡nh nghæa v∑ xác
sußt
Tìm xác sußt ∫ hai ng˜Ìi g∞p nhau. sußt 2 P (Ø) = 0 và P (⌦) = 1.
Các công th˘c Các công th˘c
tính xác sußt cÏ tính xác sußt cÏ
3 N∏u A ⇢ B thì P (A) P (B).
b£n b£n
Công th˘c cÎng xác
Ví dˆ 10 Công th˘c cÎng xác 4 P A =1 P (A).
sußt sußt
Công th˘c xác sußt Công th˘c xác sußt
i∑u kiªn. Công th˘c i∑u kiªn. Công th˘c
nhân xác sußt. MÎt thanh s≠t có Î dài l (m) ˜Òc b¥ thành 3 o§n mÎt cách ng®u nhân xác sußt.
S¸ Îc l™p gi˙a các S¸ Îc l™p gi˙a các
bi∏n cË nhiên. Tính xác sußt ∫ 3 o§n ó t§o ˜Òc mÎt hình tam giác. bi∏n cË
Công th˘c xác sußt Công th˘c xác sußt
¶y ı. Công th˘c ¶y ı. Công th˘c
Bayes Bayes
Công th˘c cÎng xác sußt Công th˘c cÎng xác sußt
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Công th˘c xác sußt i∑u kiªn Công th˘c xác sußt i∑u kiªn
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ha Hoang V.
Bi∏n cË và xác
‡nh nghæa 2.1 (Conditional probability) Bi∏n cË và xác
sußt sußt
Bi∏n cË ng®u nhiên Cho hai bi∏n cË A và B vÓi P (B) > 0. Xác sußt x£y ra bi∏n cË A vÓi Bi∏n cË ng®u nhiên
Quan hª gi˙a các Quan hª gi˙a các
bi∏n cË i∑u kiªn bi∏n cË B ã x£y ra là bi∏n cË Tính chßt xác sußt có i∑u kiªn
Các phép toán trên Các phép toán trên
các bi∏n cË các bi∏n cË
0 P(A|B) 1.
Khái niªm và các P (AB) Khái niªm và các
‡nh nghæa v∑ xác
sußt P (A|B) = , P (B) > 0.. (6) ‡nh nghæa v∑ xác
sußt P(B|B) = 1.
P (B)
Các công th˘c Các công th˘c
tính xác sußt cÏ tính xác sußt cÏ N∏u AC = Ø thì P[(A + C )|B] = P(A|B) + P(C |B).
b£n b£n
Công th˘c cÎng xác
T˜Ïng t¸, vÓi P (A) > 0, xác sußt x£y ra bi∏n cË B vÓi i∑u kiªn bi∏n Công th˘c cÎng xác P(Ā|B) = 1 P(A|B).
sußt sußt
Công th˘c xác sußt
cË A ã x£y ra là Công th˘c xác sußt
i∑u kiªn. Công th˘c i∑u kiªn. Công th˘c
nhân xác sußt. nhân xác sußt.
S¸ Îc l™p gi˙a các P (AB) S¸ Îc l™p gi˙a các
bi∏n cË
P (B|A) = , P (A) > 0. (7) bi∏n cË
Công th˘c xác sußt
¶y ı. Công th˘c
P (A) Công th˘c xác sußt
¶y ı. Công th˘c
Bayes Bayes
Công th˘c xác sußt i∑u kiªn Công th˘c xác sußt i∑u kiªn
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V.
Ví dˆ 12 Ha Hoang V.
Công th˘c nhân xác sußt Công th˘c nhân xác sußt
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ha Hoang V.
Ví dˆ 15
Bi∏n cË và xác Bi∏n cË và xác Gi£ s˚ r¨ng m™t kh©u th¥ ATM cıa b§n là mÎt dãy sË gÁm 6 ch˙ sË
sußt Hª qu£ 2.1 (Multiplication rule) sußt
Bi∏n cË ng®u nhiên Bi∏n cË ng®u nhiên
và b§n quên mßt ch˙ sË cuËi cùng cıa m™t kh©u này. B§n chÂn sË
Quan hª gi˙a các
bi∏n cË
VÓi các bi∏n cË tùy ˛ A và B ta có Quan hª gi˙a các
bi∏n cË
cuËi cùng này mÎt cách ng®u nhiên. Bi∏t r¨ng n∏u b§n nh™p sai m™t
Các phép toán trên
các bi∏n cË
Các phép toán trên
các bi∏n cË
kh©u quá 3 l¶n thì th¥ ATM cıa b§n s≥ b‡ khóa. Hãy tính xác sußt ∫
Khái niªm và các P(AB) = P(A|B)P(B) = P(B|A)P(A). Khái niªm và các b§n nh™p úng m™t kh©u mà không ph£i th˚ quá 3 l¶n. N∏u bi∏t sË
‡nh nghæa v∑ xác ‡nh nghæa v∑ xác
sußt sußt
cuËi cùng là sË l¥ thì xác sußt này b¨ng bao nhiêu?
Các công th˘c Các công th˘c
tính xác sußt cÏ tính xác sußt cÏ
b£n Công th˘c nhân xác sußt tÍng quát b£n
Công th˘c cÎng xác Công th˘c cÎng xác Ví dˆ 16
sußt
Công th˘c xác sußt
Cho Ai (i = 1, ..., n) là h n bi∏n cË, khi ó sußt
Công th˘c xác sußt
i∑u kiªn. Công th˘c
nhân xác sußt.
i∑u kiªn. Công th˘c
nhân xác sußt.
HÂc k˝ này mÎt sinh viên ˜Òc thi môn l˛ thuy∏t xác sußt và thËng
S¸ Îc l™p gi˙a các
bi∏n cË
P(A1 A2 ...An ) = P(A1 )P(A2 |A1 )P(A3 |A1 A2 )...P(An |A1 A2 ...An 1 ). S¸ Îc l™p gi˙a các
bi∏n cË
kê toán 3 l¶n. Xác sußt ∫ sinh viên thi È l¶n th˘ nhßt là 0.5. N∏u
Công th˘c xác sußt
¶y ı. Công th˘c
Công th˘c xác sußt
¶y ı. Công th˘c
thi tr˜Òt l¶n th˘ nhßt thì xác sußt ∫ thi È l¶n th˘ hai là 0.7. Còn
Bayes Bayes
n∏u sinh viên thi tr˜Òt c£ 2 l¶n ¶u thì xác sußt thi È l¶n th˘ ba là
0.9. Tính xác sußt sinh viên này thi È hÂc k˝ này.
S¸ Îc l™p gi˙a các bi∏n cË S¸ Îc l™p gi˙a các bi∏n cË
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ha Hoang V.
Ví dˆ 17
Bi∏n cË và xác Bi∏n cË và xác
sußt sußt
Bi∏n cË ng®u nhiên
Hai bi∏n cË Îc l™p Bi∏n cË ng®u nhiên Kh£o sát giÓi tính cıa nh˙ng ˘a con trong các gia ình có 2 con
Quan hª gi˙a các Quan hª gi˙a các
bi∏n cË Hai bi∏n cË A và B ˜Òc gÂi là Îc l™p (independent) vÓi nhau n∏u bi∏n cË (theo th˘ t¸ sinh tr˜Óc/sau) có Îc l™p vÓi nhau hay không?
Các phép toán trên Các phép toán trên
các bi∏n cË các bi∏n cË Không gian bi∏n cË sÏ cßp cıa phép th˚: ⌦ = {TT , TG , GT , GG }
Khái niªm và các
‡nh nghæa v∑ xác P(AB) = P(A).P(B). (8) Khái niªm và các
‡nh nghæa v∑ xác ∞t:
sußt sußt
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt Ví dˆ 18
Ha Hoang V. Ha Hoang V.
Xét phép th˚ ng®u nhiên có các k∏t qu£ Áng kh£ n´ng
Bi∏n cË và xác Bi∏n cË và xác
sußt n bi∏n cË Îc l™p sußt
! !1 !2 !3 !4
Bi∏n cË ng®u nhiên Bi∏n cË ng®u nhiên
Quan hª gi˙a các
Các bi∏n cË A1 , A2 , ..., An ˜Òc gÂi là Îc l™p vÓi nhau n∏u chúng Quan hª gi˙a các P(!) 1
4
1
4
1
4
1
4
bi∏n cË bi∏n cË
Các phép toán trên
các bi∏n cË th‰a Các phép toán trên
các bi∏n cË
∞t: A = {!1 , !4 }, B = {!2 , !4 }, C = {!3 , !4 } thì
Khái niªm và các Khái niªm và các
‡nh nghæa v∑ xác ‡nh nghæa v∑ xác
sußt
P(Ai Aj ) = P(Ai )P(Aj ), sußt
P(AB) = P(A).P(B),
Các công th˘c Các công th˘c
tính xác sußt cÏ
b£n
P(Ai Aj Ak ) = P(Ai )P(Aj )P(Ak ), tính xác sußt cÏ
b£n
P(AC ) = P(A).P(C ),
Công th˘c cÎng xác
sußt P(A1 A2 ...An ) = P(A1 )P(A2 )...P(An ), Công th˘c cÎng xác
sußt
P(BC ) = P(B).P(C ),
Công th˘c xác sußt Công th˘c xác sußt
i∑u kiªn. Công th˘c i∑u kiªn. Công th˘c
nhân xác sußt. nhân xác sußt. nh˜ng
vÓi mÂi tÍ hÒp ch™p 2 (i, j), ch™p ba (i, j, k), ... cıa n chø sË.
S¸ Îc l™p gi˙a các
bi∏n cË
S¸ Îc l™p gi˙a các
bi∏n cË P(ABC ) 6= P(A).P(B).P(C ).
Công th˘c xác sußt Công th˘c xác sußt
¶y ı. Công th˘c ¶y ı. Công th˘c
Bayes Bayes
Chú ˛:
S¸ Îc l™p t¯ng ôi không d®n ∏n s¸ Îc l™p toàn ph¶n.
S¸ Îc l™p gi˙a các bi∏n cË S¸ Îc l™p gi˙a các bi∏n cË
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ha Hoang V.
chÆn, S là bi∏n cË chÂn ˜Òc qu£ c¶u có sË 6 và T là bi∏n cË chÂn N∏u bi∏n cË A Îc l™p vÓi B, thì A cÙng Îc l™p vÓi B̄.
Các công th˘c Các công th˘c
tính xác sußt cÏ tính xác sußt cÏ
b£n ˜Òc qu£ c¶u có sË 4. Hãy xét s¸ Îc l™p cıa các c∞p bi∏n cË b£n
Công th˘c cÎng xác
sußt
(R, S), (R, T ) và (S, T ). Công th˘c cÎng xác
sußt
Công th˘c xác sußt Công th˘c xác sußt
i∑u kiªn. Công th˘c i∑u kiªn. Công th˘c
nhân xác sußt. nhân xác sußt.
S¸ Îc l™p gi˙a các S¸ Îc l™p gi˙a các
bi∏n cË bi∏n cË
Công th˘c xác sußt Công th˘c xác sußt
¶y ı. Công th˘c ¶y ı. Công th˘c
Bayes Bayes
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ví dˆ 20 Ha Hoang V.
Hª ¶y ı các bi∏n cË (exhaustive)
Bi∏n cË và xác MÎt hª thËng gÁm n thành ph¶n ˜Òc gÂi là mÎt hª thËng song song Bi∏n cË và xác Dãy n các bi∏n cË A1 , A2 , . . . , An ˜Òc gÂi là mÎt hª ¶y ı các bi∏n
sußt
Bi∏n cË ng®u nhiên n∏u nh˜ nó ho§t Îng khi có ít nhßt mÎt trong các thành ph¶n ho§t
sußt
Bi∏n cË ng®u nhiên
cË n∏u: (
Quan hª gi˙a các
bi∏n cË Îng. Gi£ s˚ r¨ng các thành ph¶n ho§t Îng Îc l™p nhau, và xác Quan hª gi˙a các
bi∏n cË
Ai \ Aj = Ø, 8i 6= j, i, j = 1, n
Các phép toán trên
các bi∏n cË
sußt thành ph¶n th˘ i ho§t Îng là pi , i = 1, . . . , n. Hãy tính xác Các phép toán trên
các bi∏n cË
A1 [, A2 [ · · · [ An = ⌦.
Khái niªm và các
‡nh nghæa v∑ xác
sußt mà hª thËng ho§t Îng? Khái niªm và các
‡nh nghæa v∑ xác
sußt sußt
{Ai }ni=1 còn ˜Òc gÂi là mÎt phân ho§ch (partition) cıa ⌦.
Công th˘c xác sußt ¶y ı Công th˘c xác sußt ¶y ı
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ha Hoang V. Ví dˆ 21
Bi∏n cË và xác Bi∏n cË và xác
sußt sußt MÎt ám ông có sË àn ông b¨ng n˚a sË phˆ n˙. Xác sußt ∫ àn
Bi∏n cË ng®u nhiên ‡nh nghæa 2.2 (Total Probability Rule) Bi∏n cË ng®u nhiên
ông b‡ bªnh tim là 0, 06 và phˆ n˙ là 0, 036. ChÂn ng®u nhiên 1
Quan hª gi˙a các Quan hª gi˙a các
bi∏n cË
Các phép toán trên Cho Ai (i = 1, ..., n) là hª ¶y ı các bi∏n cË và B là mÎt bi∏n cË
bi∏n cË
Các phép toán trên
ng˜Ìi t¯ ám ông, tính xác sußt ∫ ng˜Ìi này b‡ bªnh tim.
các bi∏n cË các bi∏n cË
Khái niªm và các nào ó liên quan ∏n hª thì Khái niªm và các
‡nh nghæa v∑ xác ‡nh nghæa v∑ xác
sußt sußt
Ví dˆ 22
Các công th˘c P(B) = P(A1 )P(B|A1 ) + P(A2 )P(B|A2 ) + ... + P(An )P(B|An ) Các công th˘c
tính xác sußt cÏ
n
tính xác sußt cÏ
MÎt ng˜Ìi có 3 tài kho£n email khác nhau. H¶u h∏t tin nh≠n, th˜ t¯
b£n
X b£n
Công th˘c cÎng xác
sußt = P(Ai )P(B|Ai ). (9)
Công th˘c cÎng xác
sußt
cıa ng˜Ìi này, 70% ∏n t¯ tài kho£n th˘ nhßt, trong khi 20% ∏n t¯
Công th˘c xác sußt
i∑u kiªn. Công th˘c i=1
Công th˘c xác sußt
i∑u kiªn. Công th˘c
tài kho£n th˘ hai và 10% còn l§i ∏n t¯ tài kho£n email th˘ ba.
nhân xác sußt.
S¸ Îc l™p gi˙a các
nhân xác sußt.
S¸ Îc l™p gi˙a các
Trong sË nh˙ng email cıa tài kho£n 1, thì chø có 1% là spam, trong
bi∏n cË
Công th˘c xác sußt
bi∏n cË
Công th˘c xác sußt
khi t lª spam t˜Ïng ˘ng vÓi tài kho£n 2 và 3 l¶n l˜Òt là 2% và 5%.
¶y ı. Công th˘c
Bayes
¶y ı. Công th˘c
Bayes ChÂn ng®u nhiên mÎt email, h‰i xác sußt email này là spam b¨ng bao
nhiêu?
Công th˘c Bayes Công th˘c xác sußt ¶y ı, công th˘c Bayes
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt Ví dˆ 23
Ha Hoang V. Ha Hoang V.
Ch˜Ïng 1- §i Ch˜Ïng 1- §i
c˜Ïng v∑ Xác c˜Ïng v∑ Xác
sußt sußt
Ha Hoang V. Ha Hoang V.
Ví dˆ 26
Bi∏n cË và xác Bi∏n cË và xác
sußt
Ví dˆ 25 sußt MÎt ng˜Ìi nghi ngÌ r¨ng anh ta m≠c mÎt lo§i bªnh B và ∏n bªnh
Bi∏n cË ng®u nhiên
Quan hª gi˙a các
Bi∏n cË ng®u nhiên
Quan hª gi˙a các
viªn ∫ làm xét nghiªm ch©n oán bªnh này. Bi∏t r¨ng ph˜Ïng pháp
bi∏n cË MÎt sinh viên làm bài thi tr≠c nghiªm v∑ l‡ch s˚, mÈi câu h‰i có 5 bi∏n cË
xét nghiªm th¸c hiªn bi bªnh viªn cho k∏t qu£ chính xác ∏n 95%
Các phép toán trên Các phép toán trên
các bi∏n cË áp án và chø có mÎt áp án úng. Khi tr£ lÌi mÎt câu h‰i trong bài các bi∏n cË
tr˜Ìng hÒp m≠c bªnh th¸c s¸. Tuy nhiên, sai l¶m cıa xét nghiªm này
Khái niªm và các Khái niªm và các
‡nh nghæa v∑ xác thi, sinh viên có th∫ bi∏t ho∞c không bi∏t câu tr£ lÌi, n∏u không bi∏t ‡nh nghæa v∑ xác
là 1% (T˘c là, n∏u mÎt ng˜Ìi kh‰e m§nh khi xét nghiªm, thì có xác
sußt sußt
Bài toán ước lượng điểm Bài toán ước lượng điểm
Các phương pháp ước lượng điểm Các phương pháp ước lượng điểm
Các tiêu chuẩn đánh giá ước lượng Các tiêu chuẩn đánh giá ước lượng
Outline
Xét X là một biến ngẫu nhiên được định nghĩa trên không gian xác suất
(Ω, F, P). Giả sử rằng hàm phân phối xác suất F của X phụ thuộc vào Định nghĩa 2
một vài tập hợp các tham số chưa biết và ta biết dạng hàm số của F . Xét X = (X1 , . . . , Xn ) là một mẫu ngẫu nhiên cỡ n được chọn từ Fθ ,
θ ∈ Θ ⊂ R. Xét thống kê T (X) = T (X1 , X2 , . . . , Xn ) là một ánh xạ từ Rn vào
Định nghĩa 1 Θ. Ta gọi T (X) là một ước lượng điểm (point estimator) cho tham số θ. Khi
X = x, với x = (x1 , x2 , . . . , xn ) ta có T (x) là một giá trị ước lượng điểm (point
Gọi Fθ là hàm phân phối xác suất của X với θ là tham số, thì {Fθ : θ ∈ Θ} là
estimate) cho θ. Ta thường ký hiệu T (X) = θ̂.
họ các phân phối xác suất, trong đó Θ là tập hợp tất cả các giá trị có thể nhận
được của θ, được gọi là không gian tham số.
Ví dụ 2
Ví dụ 1 i.i.d
Xét X1 , X2 , . . . , Xn ∼ B(1, p). Một số ước lượng có thể có của p gồm:
1 X ∼ B(n, p) với p không biết. Thì θ = p và Θ = {p : 0 < p < 1}. X1 + Xn
2 X ∼ N (µ, σ 2 ) với (µ, σ 2 ) không biết. Thì θ = (µ, σ 2 ) và T1 (X) = X̄ , T2 (X) = X1 , T3 (X) = .
2
Θ = {(µ, σ 2 ) : −∞ < µ < ∞, σ 2 > 0}.
Bài toán ước lượng điểm Bài toán ước lượng điểm Phương pháp Moment
Các phương pháp ước lượng điểm Các phương pháp ước lượng điểm Phương pháp hợp lý cực đại
Các tiêu chuẩn đánh giá ước lượng Các tiêu chuẩn đánh giá ước lượng Phương pháp Bayes
Ví dụ 3
• Ý tưởng: đồng nhất các moment của tổng thể với các moment mẫu.
X = Chiều cao dân số trong một khu vực, X ∼ N (µ, σ 2 ). Phân phối của
X phụ thuộc vào kỳ vọng µ và phương sai σ 2 . Thống kê trung bình mẫu Định nghĩa 3
và phương sai mẫu
Giả sử tham số θ = (θ1 , . . . , θk ) có k thành phần. Với 1 ≤ j ≤ k, moment thứ j
n
1X của tổng thể là
X̄ = Xi Z
n i=1 0
µj = E(X ) = x j f (x)dx
j
n
2 1 X
S = (Xi − X̄ )2 và moment mẫu thứ j
n − 1 i=1 n
1X j
mj = X .
n i=1 i
là những ước lượng điểm cho µ và σ 2 .
Với một mẫu thực nghiệm x1 = 150, x2 = 155, x3 = 167, giá trị ước lượng
điểm của µ và σ 2 là x̄ = 157.333, s 2 = 76.333.
Ví dụ 4
i.i.d
Cho X1 , X2 , . . . , Xn ∼ P(λ). Tìm ước lượng moment cho tham số λ.
Định nghĩa 4
Xét X1 , X2 , . . . , Xn là một mẫu ngẫu nhiên được chọn từ một phân phối xác
suất với k tham số θ = (θ1 , . . . , θk ) chưa biết. Ước lượng điểm moment
θ̂ = (θ̂1 , . . . , θ̂k ) thu được bởi đồng nhất k moment tổng thể với k moment
mẫu và giải hệ phương trình thu được với các tham số chưa biết
m1 = µ01 (θ1 , . . . , θk )
m2 = µ02 (θ1 , . . . , θk )
..
.
mk = µ0k (θ1 , . . . , θk )
Bài toán ước lượng điểm Phương pháp Moment Bài toán ước lượng điểm Phương pháp Moment
Các phương pháp ước lượng điểm Phương pháp hợp lý cực đại Các phương pháp ước lượng điểm Phương pháp hợp lý cực đại
Các tiêu chuẩn đánh giá ước lượng Phương pháp Bayes Các tiêu chuẩn đánh giá ước lượng Phương pháp Bayes
Ví dụ 4 Ví dụ 4
i.i.d i.i.d
Cho X1 , X2 , . . . , Xn ∼ P(λ). Tìm ước lượng moment cho tham số λ. Cho X1 , X2 , . . . , Xn ∼ P(λ). Tìm ước lượng moment cho tham số λ.
Ví dụ 5 Ví dụ 5
Giả sử X1 , . . . , Xn là mẫu ngẫu nhiên chọn từ X ∼ N (µ, σ 2 ). Tìm các ước Giả sử X1 , . . . , Xn là mẫu ngẫu nhiên chọn từ X ∼ N (µ, σ 2 ). Tìm các ước
lượng momen cho µ và σ 2 . lượng momen cho µ và σ 2 .
Moment tổng thể: µ01 = µ, µ02 = E(X 2 ) = µ2 + σ 2 .
Ví dụ 4 Ví dụ 4
i.i.d i.i.d
Cho X1 , X2 , . . . , Xn ∼ P(λ). Tìm ước lượng moment cho tham số λ. Cho X1 , X2 , . . . , Xn ∼ P(λ). Tìm ước lượng moment cho tham số λ.
Ví dụ 5 Ví dụ 5
2
Giả sử X1 , . . . , Xn là mẫu ngẫu nhiên chọn từ X ∼ N (µ, σ ). Tìm các ước Giả sử X1 , . . . , Xn là mẫu ngẫu nhiên chọn từ X ∼ N (µ, σ 2 ). Tìm các ước
lượng momen cho µ và σ 2 . lượng momen cho µ và σ 2 .
Moment tổng thể: µ01 = µ, µ02 = E(X 2 ) = µ2 + σ 2 . Moment tổng thể: µ01 = µ, µ02 = E(X 2 ) = µ2 + σ 2 .
Moment mẫu: m1 = n1 ni=1 Xi , m2 = n1 ni=1 Xi2 . Moment mẫu: m1 = n1 ni=1 Xi , m2 = n1 ni=1 Xi2 .
P P P P
Giải hệ:
n n
1X 1X 2
µ= Xi , µ2 + σ 2 = Xi .
n i=1 n i=1
Bài toán ước lượng điểm Phương pháp Moment Bài toán ước lượng điểm Phương pháp Moment
Các phương pháp ước lượng điểm Phương pháp hợp lý cực đại Các phương pháp ước lượng điểm Phương pháp hợp lý cực đại
Các tiêu chuẩn đánh giá ước lượng Phương pháp Bayes Các tiêu chuẩn đánh giá ước lượng Phương pháp Bayes
Phương pháp Moment: ví dụ Phương pháp hợp lý cực đại (Maximum Likelihood)
Xét X1 , . . . , Xn là một mẫu ngẫu nhiên chọn từ tổng thể có hàm mật độ xác
suất (hoặc hàm khối xác suất p(x; θ)) f (x; θ), với θ = (θ1 , . . . , θk ) chưa biết.
Ví dụ 6 Hàm hợp lý L(θ; x), với x = (x1 , . . . , xn ), được định nghĩa bởi
n
1 Với X ∼ B(k, p), tìm ước lượng moment cho các tham số k và p. Y
L(θ; x) = f (x; θ) = f (x1 ; θ)f (x2 ; θ) · · · f (xn ; θ) = f (xi ; θ)
2 Với X ∼ Gamma(r , λ), tìm ước lượng moment cho các tham số r và λ biết i=1
Phương pháp hợp lý cực đại (Maximum Likelihood) Phương pháp hợp lý cực đại: ví dụ
Ví dụ 7
Xét X ∼ B(1, p). Hàm khối xác suất của X là
Thông thường, việc xác định ước lượng hợp lý cực đại (MLE) sẽ dễ dàng (
p x (1 − p)1−x , x = 0, 1
hơn với logarit của hàm lợp lý L(θ; x). Bởi vì hàm ln là hàm đơn điệu, nên pX (x) = .
giá trị cực đại sẽ như nhau. Ta đặt: 0 , nơi khác
Ta có
L(θ; x) = ln f (x1 ; θ) + ln f (x2 ; θ) + · · · + ln f (xn ; θ). Ví dụ 8
Khi đó, việc tìm các giá trị zero của ∂L(θ; x)/∂θ sẽ dễ dàng hơn. Cho X ∼ Exp(λ), tìm ước lượng hợp lý cực đại cho tham số λ.
Ví dụ 9
Cho X ∼ N (µ, σ 2 ), tìm ước lượng hợp lý cực đại cho kỳ vọng µ và phương sai
σ2 .
Bài toán ước lượng điểm Phương pháp Moment Bài toán ước lượng điểm Phương pháp Moment
Các phương pháp ước lượng điểm Phương pháp hợp lý cực đại Các phương pháp ước lượng điểm Phương pháp hợp lý cực đại
Các tiêu chuẩn đánh giá ước lượng Phương pháp Bayes Các tiêu chuẩn đánh giá ước lượng Phương pháp Bayes
Dựa trên thông tin về phân phối của tham số θ. Hàm mật độ lề của mẫu cho bởi
Giả sử tham số θ chưa biết là biến ngẫu nhiên có phân phối xác định với Z
hàm mật độ xác suất f (θ). f (x1 , . . . , xn ) = f (x1 , . . . , xn , θ)dθ
Θ
f (θ) gọi là hàm mật độ xác suất tiên nghiệm (prior probability distribution
function). với Θ là không gian tham số (các giá trị có thể nhận được của θ).
Hàm mật độ xác suất đồng thời của mẫu ngẫu nhiên (X1 , . . . , Xn ) và θ Hàm mật độ xác suất có điều kiện của θ cho trước (x1 , . . . , xn )
được biểu diễn như sau
f (x1 , . . . , xn |θ)f (θ)
f (θ|x1 , . . . , xn ) = .
f (x1 , . . . , xn , θ) = f (x1 , . . . , xn |θ)f (θ). f (x1 , . . . , xn )
Bài toán ước lượng điểm Phương pháp Moment Bài toán ước lượng điểm Phương pháp Moment
Các phương pháp ước lượng điểm Phương pháp hợp lý cực đại Các phương pháp ước lượng điểm Phương pháp hợp lý cực đại
Các tiêu chuẩn đánh giá ước lượng Phương pháp Bayes Các tiêu chuẩn đánh giá ước lượng Phương pháp Bayes
Ta có
Ví dụ 10
Hàm mật độ xác suất tiện nghiệm của tham số p có phân phối đều
Xét (X1 , . . . , Xn ) là một mẫu ngẫu nhiên chọn từ biến ngẫu nhiên X có phân
phối Bernoulli, X ∼ B(1, p). Phân phối xác suất của X cho bởi f (p) = 1, 0 < p < 1.
pX (x) = p x (1 − p)1−x , x = 0, 1. Hàm mật độ xác suất hậu nghiệm của p cho bởi
với 0 ≤ p ≤ 1 chưa biết. Giả sử tham số p có phân phối đều trên khoảng (0, 1). f (x1 , . . . , xn , p)
f (p|x1 , . . . , xn ) = .
Tìm ước lượng Bayes cho p. f (x1 , . . . , xn )
Hàm mật độ xác suất đồng thời của (X1 , . . . , Xn ) và p Sử dụng kết quả: với các số nguyên m và k, ta có
Z 1
f (x1 , . . . , xn , p) = f (x1 , . . . , xn |p)f (p) m!k!
p m (1 − p)k dp = .
n
0 (m + k + 1)!
Y
= p xi (1 − p)1−xi f (p) Suy ra
i=1
Z 1
m!(n − m)!
Pn
n− ni=1 xi
P f (x1 , . . . , xn ) p m (1 − p)n−m dp = .
=p i=1 xi (1 − p) m
= p (1 − p) n−m
. (n + 1)!
0
Bài toán ước lượng điểm Phương pháp Moment Bài toán ước lượng điểm Phương pháp Moment
Các phương pháp ước lượng điểm Phương pháp hợp lý cực đại Các phương pháp ước lượng điểm Phương pháp hợp lý cực đại
Các tiêu chuẩn đánh giá ước lượng Phương pháp Bayes Các tiêu chuẩn đánh giá ước lượng Phương pháp Bayes
Giá trị ước lượng Bayes của p thu được bởi kỳ vọng có điều kiện
Z 1
E(p|x1 , . . . , xn ) = pf (p|x1 , . . . , xn )dp
0
Z 1
(n + 1)!
= p m+1 (1 − p)n−m dp
m!(n − m)! 0 Ví dụ 11
(n + 1)! (m + 1)!(n − m)!
= Xét (X1 , . . . , Xn ) là một mẫu ngẫu nhiên chọn từ biến ngẫu nhiên X ∼ Exp(λ),
m!(n − m)! (n + 2)!
λ chưa biết. Biết rằng tham số λ là biến ngẫu nhiên có phân phối mũ với tham
n
m+1 1 X số α. Tìm ước lượng Bayes cho λ.
= = xi + 1 .
n+2 n + 2 i=1
Độ chệch cho ta biết về mặt trung bình, sai khác giữa ước lượng T (X) với giá Độ chệch cho ta biết về mặt trung bình, sai khác giữa ước lượng T (X) với giá
trị thực θ. trị thực θ.
Định nghĩa 8
Xét T = T (X) là một ước lượng điểm cho tham số θ. T gọi là một ước lượng
không chệch cho tham số θ nếu bias(T ) = 0, tức là
E(T ) = θ.
Bài toán ước lượng điểm Ước lượng không chệch Bài toán ước lượng điểm Ước lượng không chệch
Các phương pháp ước lượng điểm Ước lượng hiệu quả Các phương pháp ước lượng điểm Ước lượng hiệu quả
Các tiêu chuẩn đánh giá ước lượng Ước lượng vững Các tiêu chuẩn đánh giá ước lượng Ước lượng vững
Ví dụ 12 Ví dụ 12
Pn
2 1
Xét X ∼ N (µ, σ 2 ) và X̄ = n1 ni=1 Xi là một ước lượng của µ,
P
Xét X ∼ N (µ, σ ) và X̄ = i=1 XPi là một ước lượng của µ,
n
S = n−1 i=1 (Xi − X̄ ) và S̃ = n ni=1 (Xi − X̄ )2 là các ước lượng của σ 2 .
2 Pn 2 2 n Pn
1 1
S 2 = n−1
1 2 2 1 2 2
P
i=1 (Xi − X̄ ) và S̃ = n i=1 (Xi − X̄ ) là các ước lượng của σ .
Ta có: Ta có:
1 X̄ là một ước lượng không chệch của µ 1 X̄ là một ước lượng không chệch của µ
n Pn n Pn
1 X
i=1 EXi nµ 1 X
i=1 EXi nµ
E(X̄ ) = E Xi =
= = µ. E(X̄ ) = E Xi =
= = µ.
n i=1 n n n i=1 n n
E(S 2 ) = σ 2 .
Ví dụ 12
Xét X ∼ N (µ, σ 2 ) và X̄ = n1 ni=1 Xi là một ước lượng của µ,
P
n Pn
S 2 = n−1
1 2 2 1 2 2
P
i=1 (Xi − X̄ ) và S̃ = n i=1 (Xi − X̄ ) là các ước lượng của σ . Ví dụ 13
Ta có:
i.i.d
1 X̄ là một ước lượng không chệch của µ Xét X1 , X2 , . . . , Xn ∼ B(1, p). Các ước lượng dưới đây đều là ước lượng không
chệch của p:
n Pn
1 X
i=1 EXi nµ X1 + Xn
E(X̄ ) = E Xi = = = µ. T1 (X) = X̄ , T2 (X) = X1 , T3 (X) = ,
n i=1 n n 2
vì E(T1 ) = E(T2 ) = E(T3 ) = p.
2 S 2 là một ước lượng không chệch của σ 2 ,
E(S 2 ) = σ 2 .
3 S̃ 2 là ước lượng chệch của σ 2 vì
n−1 2
E(S̃ 2 ) = σ 6= σ 2 .
n
Bài toán ước lượng điểm Ước lượng không chệch Bài toán ước lượng điểm Ước lượng không chệch
Các phương pháp ước lượng điểm Ước lượng hiệu quả Các phương pháp ước lượng điểm Ước lượng hiệu quả
Các tiêu chuẩn đánh giá ước lượng Ước lượng vững Các tiêu chuẩn đánh giá ước lượng Ước lượng vững
Ước lượng không chệch: ví dụ Ước lượng tiệm cận không chệch
Một số ước lượng điểm là ước lượng chệch nhưng độ chệch giảm dần khi
cỡ mẫu n tăng.
Ví dụ 13 Định nghĩa 9
i.i.d
Xét X1 , X2 , . . . , Xn ∼ B(1, p). Các ước lượng dưới đây đều là ước lượng không Xét T (X) là một ước lượng điểm của tham số θ. Nếu
chệch của p:
lim E[T (X)] = θ,
X1 + Xn n→+∞
T1 (X) = X̄ , T2 (X) = X1 , T3 (X) = ,
2 thì ước lượng T (X) được gọi là ước lượng tiệm cận không chệch
vì E(T1 ) = E(T2 ) = E(T3 ) = p. (asymptotically unbiased estimator) của θ.
Chú ý rằng một ước lượng không chệch không nhất thiết phải là một ước
lượng tốt, chẳng hạn như ước lượng T2 và T3 trong ví dụ 5.
Ước lượng tiệm cận không chệch Ước lượng hiệu quả
Một số ước lượng điểm là ước lượng chệch nhưng độ chệch giảm dần khi
cỡ mẫu n tăng. Giả sử θ̂ = T1 (X) và θ̃ = T2 (X) là hai ước lượng không chệch cho tham số
θ. Câu hỏi đặt ra là ước lượng nào tốt hơn?
Định nghĩa 9
Xét T (X) là một ước lượng điểm của tham số θ. Nếu
thì ước lượng T (X) được gọi là ước lượng tiệm cận không chệch
(asymptotically unbiased estimator) của θ.
Ví dụ 14
1 Pn
S̃ 2 = (Xi − X̄ )2 là một ước lượng tiệm cận không chệch cho σ 2 vì
n − 1 i=1
n−1 2
lim E(S̃ 2 ) = lim σ = σ2 .
n→+∞ n→+∞ n
Bài toán ước lượng điểm Ước lượng không chệch Bài toán ước lượng điểm Ước lượng không chệch
Các phương pháp ước lượng điểm Ước lượng hiệu quả Các phương pháp ước lượng điểm Ước lượng hiệu quả
Các tiêu chuẩn đánh giá ước lượng Ước lượng vững Các tiêu chuẩn đánh giá ước lượng Ước lượng vững
Giả sử θ̂ = T1 (X) và θ̃ = T2 (X) là hai ước lượng không chệch cho tham số Giả sử θ̂ = T1 (X) và θ̃ = T2 (X) là hai ước lượng không chệch cho tham số
θ. Câu hỏi đặt ra là ước lượng nào tốt hơn? θ. Câu hỏi đặt ra là ước lượng nào tốt hơn?
Var (θ̂) < Var (θ̃). Var (θ̂) < Var (θ̃).
Định nghĩa 11
Ước lượng không chệch có phương sai bé nhất (Minimum Variance Unbiased
Estimator - MVUE) là một ước lượng không chệch mà có phương sai nhỏ hơn
phương sai của tất cả những ước lượng không chệch có thể có của tham số θ.
Ước lượng này còn được gọi là ước lượng hiệu quả nhất.
Trung bình bình phương sai số Trung bình bình phương sai số
Xét hai ước lượng θ̂ = T1 (X) và θ̃ = T2 (X) của một tham số θ, trong đó Xét hai ước lượng θ̂ = T1 (X) và θ̃ = T2 (X) của một tham số θ, trong đó
θ̂ là ước lượng không chệch và θ̃ là ước lượng chệch. Mặc dù θ̃ là ước θ̂ là ước lượng không chệch và θ̃ là ước lượng chệch. Mặc dù θ̃ là ước
lượng chệch nhưng nếu nó có độ phân tán nhỏ hơn nhiều so với θ̂, trong lượng chệch nhưng nếu nó có độ phân tán nhỏ hơn nhiều so với θ̂, trong
trường hợp này θ̃ có thể một ước lượng tốt hơn cho tham số θ thay vì θ̂. trường hợp này θ̃ có thể một ước lượng tốt hơn cho tham số θ thay vì θ̂.
Tiêu chuẩn không chệch không luôn luôn nhất thiết cho ta một ước lượng
tốt. Do vậy, ta cần dùng một độ đo khác để đảm bảo thu được một ước
lượng tốt.
Bài toán ước lượng điểm Ước lượng không chệch Bài toán ước lượng điểm Ước lượng không chệch
Các phương pháp ước lượng điểm Ước lượng hiệu quả Các phương pháp ước lượng điểm Ước lượng hiệu quả
Các tiêu chuẩn đánh giá ước lượng Ước lượng vững Các tiêu chuẩn đánh giá ước lượng Ước lượng vững
Trung bình bình phương sai số Trung bình bình phương sai số
Xét hai ước lượng θ̂ = T1 (X) và θ̃ = T2 (X) của một tham số θ, trong đó Xét hai ước lượng θ̂ = T1 (X) và θ̃ = T2 (X) của một tham số θ, trong đó
θ̂ là ước lượng không chệch và θ̃ là ước lượng chệch. Mặc dù θ̃ là ước θ̂ là ước lượng không chệch và θ̃ là ước lượng chệch. Mặc dù θ̃ là ước
lượng chệch nhưng nếu nó có độ phân tán nhỏ hơn nhiều so với θ̂, trong lượng chệch nhưng nếu nó có độ phân tán nhỏ hơn nhiều so với θ̂, trong
trường hợp này θ̃ có thể một ước lượng tốt hơn cho tham số θ thay vì θ̂. trường hợp này θ̃ có thể một ước lượng tốt hơn cho tham số θ thay vì θ̂.
Tiêu chuẩn không chệch không luôn luôn nhất thiết cho ta một ước lượng Tiêu chuẩn không chệch không luôn luôn nhất thiết cho ta một ước lượng
tốt. Do vậy, ta cần dùng một độ đo khác để đảm bảo thu được một ước tốt. Do vậy, ta cần dùng một độ đo khác để đảm bảo thu được một ước
lượng tốt. lượng tốt.
Một độ đo kết hợp giữa độ chệch (bias) và phương sai (variance) của một Một độ đo kết hợp giữa độ chệch (bias) và phương sai (variance) của một
ước lượng là trung bình bình phương sai số (Mean squared error - MSE). ước lượng là trung bình bình phương sai số (Mean squared error - MSE).
Trung bình bình phương sai số Trung bình bình phương sai số: ví dụ
Xét hai ước lượng θ̂ = T1 (X) và θ̃ = T2 (X) của một tham số θ, trong đó
θ̂ là ước lượng không chệch và θ̃ là ước lượng chệch. Mặc dù θ̃ là ước
lượng chệch nhưng nếu nó có độ phân tán nhỏ hơn nhiều so với θ̂, trong
trường hợp này θ̃ có thể một ước lượng tốt hơn cho tham số θ thay vì θ̂.
Tiêu chuẩn không chệch không luôn luôn nhất thiết cho ta một ước lượng
tốt. Do vậy, ta cần dùng một độ đo khác để đảm bảo thu được một ước Ví dụ 15
lượng tốt. i.i.d
Xét X1 , X2 , . . . , Xn ∼ N (µ, σ 2 ). Hai ước lượng điểm cho phương sai là:
Một độ đo kết hợp giữa độ chệch (bias) và phương sai (variance) của một
n n
ước lượng là trung bình bình phương sai số (Mean squared error - MSE). 1 X 1X
S2 = (Xi − X̄ )2 và S̃ 2 = (Xi − X̄ )2 .
n − 1 i=1 n i=1
Định nghĩa 12
Hãy so sánh trung bình bình phương sai số của S 2 và S̃ 2 .
Trung bình bình phương sai số (MSE) của một ước lượng điểm θ̂ = T (X) của
một tham số θ được định nghĩa như sau:
h i
MSE(θ̂) = E (θ̂ − θ)2 .
Ta có:
MSE(θ̂) = bias(θ̂)2 + Var (θ̂).
Bài toán ước lượng điểm Ước lượng không chệch Bài toán ước lượng điểm Ước lượng không chệch
Các phương pháp ước lượng điểm Ước lượng hiệu quả Các phương pháp ước lượng điểm Ước lượng hiệu quả
Các tiêu chuẩn đánh giá ước lượng Ước lượng vững Các tiêu chuẩn đánh giá ước lượng Ước lượng vững
• Cho trước hai ước lượng, θ̂ và θ̃, tiêu chuẩn MSE cho phép ta chọn θ̃ nếu,
với cùng cỡ mẫu n
MSE(θ̃) < MSE(θ̂). Ví dụ 16
2 2
hoặc Var (θ̂) − Var (θ̃) > (bias(θ̃)) − (bias(θ̂)) . Xét θ̂1 và θ̂2 là hai ước lượng điểm cho tham số θ. Giả sử rằng
• Nếu cả θ̂ và θ̃ là ước lượng không chệch, tiêu chuẩn MSE trở thành tiêu E(θ̂1 ) = E(θ̂2 ) = θ và Var (θ̂1 ) = σ12 và Var (θ̂2 ) = σ22 . Đặt
chuẩn so sánh dựa trên phương sai mẫu. θ̂3 = αθ̂1 + (1 − α)θ̂2 với 0 < α < 1.
• Tiêu chuẩn MSE tương đương với việc so sánh tỷ số a) Chứng tỏ rằng θ̂3 là một ước lượng không chệch.
b) Nếu θ̂1 và θ̂2 độc lập với nhau, cần chọn hằng số α bằng bao nhiêu để cực
MSE(θ̃) tiểu hóa phương sai của θ̂3 ?
Eff(θ̂, θ̃) =
MSE(θ̂)
Sai số chuẩn (Standard Error - SE) của một ước lượng θ̂ = T (X) của tham số Sai số chuẩn (Standard Error - SE) của một ước lượng θ̂ = T (X) của tham số
θ chính là độ lệch tiêu chuẩn của nó, cho bởi θ chính là độ lệch tiêu chuẩn của nó, cho bởi
q q
SE (θ̂) = Var (θ̂) SE (θ̂) = Var (θ̂)
Bài toán ước lượng điểm Ước lượng không chệch Bài toán ước lượng điểm Ước lượng không chệch
Các phương pháp ước lượng điểm Ước lượng hiệu quả Các phương pháp ước lượng điểm Ước lượng hiệu quả
Các tiêu chuẩn đánh giá ước lượng Ước lượng vững Các tiêu chuẩn đánh giá ước lượng Ước lượng vững
Định nghĩa 14
Xét X = (X1 , . . . , Xn ) là một mẫu ngẫu nhiên chọn từ Fθ , θ ∈ Θ. Thống kê Định lý 1
Tn = Tn (X) được gọi là một ước lượng vững (consistent estimator) cho tham Giả sử rằng θ̂n = Tn (X1 , X2 , . . . , Xn ), n ≥ 1 là một dãy các ước lượng điểm cho
số θ nếu tham số θ. Nếu E(θ̂n ) → θ và Var (θ̂n ) → 0 khi n → +∞ thì θ̂n là một ước
P
Tn −→ θ khi n → +∞, lượng vững cho θ.
tức là ∀ > 0,
lim P |Tn − θ| < = 1.
n→+∞
Ví dụ 17
i.i.d 1
Pn
Xét X1 , X2 , . . . , Xn ∼ B(1, p). Ta có X̄n = n i=1 Xi là một ước lượng vững
cho p vì theo luật yếu số lớn
P
X̄n −→ E(X1 ) = p.
Định lý 1
Ví dụ 18
Giả sử rằng θ̂n = Tn (X1 , X2 , . . . , Xn ), n ≥ 1 là một dãy các ước lượng điểm cho
i.i.d
tham số θ. Nếu E(θ̂n ) → θ và Var (θ̂n ) → 0 khi n → +∞ thì θ̂n là một ước Xét X1 , X2 , . . . , Xn ∼ U(0, θ), θ không biết. Định nghĩa
lượng vững cho θ.
θ̂n = max{X1 , X2 , . . . , Xn }.
Hệ quả 1
Xét θ̂1 , θ̂2 , . . . là một dãy các ước lượng điểm của tham số θ, nếu a) Tìm độ chệch bias(θ̂n ).
b) Tìm MSE(θ̂n ).
lim MSE (θ̂n ) = 0,
n→+∞ c) Chứng tỏ rằng θ̂n là một ước lượng vững cho θ.
thì θ̂n là một ước lượng vững cho θ.
Bài toán ước lượng điểm Ước lượng không chệch Giới thiệu
Các phương pháp ước lượng điểm Ước lượng hiệu quả Khoảng tin cậy cho kỳ vọng
Các tiêu chuẩn đánh giá ước lượng Ước lượng vững Khoảng tin cậy cho tỷ lệ
Khoảng tin cậy cho phương sai
Tính chất của Ước lượng hợp lý cực đại (MLE) Bài tập
• Gọi θ̂n là ước lượng hợp lý cực đại (MLE) của tham số θ, ta có các tính chất
sau:
P
1 MLE là ước lượng vững: θ̂n −→ θ.
2 MLE là ước lượng bất biến: Nếu Θ̂n là MLE của θ thì g (θ̂n ) là MLE của
Chương 2 (tt): Khoảng tin cậy
g (θ).
p
Nếu θ̂ là một MLE cho phương sai, thì θ̂ là một ước lượng cho độ lệch
chuẩn. Hoàng Văn Hà
3 MLE hội tụ chuẩn: University of Science, VNU - HCM
hvha@hcmus.edu.vn
θ̂n − θ
N (0, 1).
SE (θ̂n )
4 MLE là ước lượng hội tụ tối ưu: nghĩa là, trong số tất cả các ước lượng
tốt, MLE là ước lượng có phương sai bé nhất, ít nhất là đối với trường hợp
mẫu lớn.
1 Giới thiệu
Giả sử cần khảo sát một đặc tính X trên một tổng thể xác định.
Biến ngẫu nhiên X có phân phối F (x; θ), tham số θ chưa biết.
2 Khoảng tin cậy cho kỳ vọng
Chọn một mẫu ngẫu nhiên cỡ n: X = (X1 , . . . , Xn ).
Trường hợp biết phương sai
Trường hợp không biết phương sai
Định nghĩa 1
3 Khoảng tin cậy cho tỷ lệ Một ước lượng khoảng (interval estimator) của một tham số θ là một cặp các
thống kê L(X1 , . . . , Xn ) và U(X1 , . . . , Xn ) của một mẫu ngẫu nhiên thỏa
4 Khoảng tin cậy cho phương sai L(X ) ≤ U(X ), và L(X ) ≤ θ ≤ U(X ). Nếu một mẫu thực nghiệm
x = (x1 , . . . , xn ) được quan trắc, [l(x), u(x)] gọi là một khoảng ước lượng
(interval estimate) cho θ.
5 Bài tập
Xét biến ngẫu nhiên X = (X1 , . . . , Xn ) là biến ngẫu nghiên có hàm mật độ Xét biến ngẫu nhiên X = (X1 , . . . , Xn ) là biến ngẫu nghiên có hàm mật độ
đồng thời phụ thuộc vào tham số θ ∈ R và L(X ) và U(X ) là hai thống kê sao đồng thời phụ thuộc vào tham số θ ∈ R và L(X ) và U(X ) là hai thống kê sao
cho L(X ) ≤ U(X ). Khi đó, khoảng ngẫu nhiên [L(X ), U(X )] gọi là khoảng tin cho L(X ) ≤ U(X ). Khi đó, khoảng ngẫu nhiên [L(X ), U(X )] gọi là khoảng tin
cậy cho tham số θ với độ tin cậy 100(1 − α)% nếu cậy cho tham số θ với độ tin cậy 100(1 − α)% nếu
P L(X ) ≤ θ ≤ U(X ) = 1 − α P L(X ) ≤ θ ≤ U(X ) = 1 − α
Với mẫu thực nghiệm x = (x1 , . . . , xn ), ta có khoảng tin cậy cụ thể cho
tham số θ là
l(x) ≤ θ ≤ u(x).
Định nghĩa 2
Xét biến ngẫu nhiên X = (X1 , . . . , Xn ) là biến ngẫu nghiên có hàm mật độ
đồng thời phụ thuộc vào tham số θ ∈ R và L(X ) và U(X ) là hai thống kê sao Đối với một mẫu khảo sát X = (X1 , . . . , Xn ), ta sẽ khảo sát các dạng khoảng
cho L(X ) ≤ U(X ). Khi đó, khoảng ngẫu nhiên [L(X ), U(X )] gọi là khoảng tin tin cậy sau:
cậy cho tham số θ với độ tin cậy 100(1 − α)% nếu
1 Khoảng tin cậy cho kỳ vọng µ:
P L(X ) ≤ θ ≤ U(X ) = 1 − α Trường hợp biết phương sai σ 2 (dùng thống kê Z )
Trường hợp không biết phương sai σ 2 (dùng thống kê t - Student)
Với mẫu thực nghiệm x = (x1 , . . . , xn ), ta có khoảng tin cậy cụ thể cho 2 Khoảng tin cậy cho tỷ lệ p.
tham số θ là 3 Khoảng tin cậy cho phương sai.
l(x) ≤ θ ≤ u(x).
Ý nghĩa: Nếu lặp nhiều lần việc lấy mẫu từ một tổng thể, giả sử 100 lần,
thì sẽ có 100(1 − α)% lần số khoảng được xây dựng theo công thức trên
sẽ chứa giá trị thực sự của tham số θ, và có α% lần số khoảng được tính
theo cách này không chứa giá trị thực của θ.
KTC cho kỳ vọng: trường hợp biết phương sai KTC cho kỳ vọng: trường hợp biết phương sai
KTC cho kỳ vọng: trường hợp biết phương sai KTC cho kỳ vọng: trường hợp biết phương sai
• Xây dựng khoảng tin cậy: • Xây dựng khoảng tin cậy:
i.i.d 2 i.i.d
Chọn mẫu ngẫu nhiên cỡ n: X1 , . . . , Xn ∼ N (µ, σ ). Chọn mẫu ngẫu nhiên cỡ n: X1 , . . . , Xn ∼ N (µ, σ 2 ).
Tính thống kê trung bình mẫu Tính thống kê trung bình mẫu
n n
1X 1X
X̄ = Xi . X̄ = Xi .
n i=1 n i=1
KTC cho kỳ vọng: trường hợp biết phương sai KTC cho kỳ vọng: trường hợp biết phương sai
KTC cho kỳ vọng: trường hợp biết phương sai KTC cho kỳ vọng: tìm zα/2
Định nghĩa 3
Nếu x̄ là trung bình mẫu của một mẫu ngẫu nhiên cỡ n được chọn từ một tổng
thể có phương sai σ 2 đã biết, khoảng tin cậy 100(1 − α)% cho kỳ vọng µ được
xác đinh như sau
σ σ
x̄ − zα/2 √ ≤ µ ≤ x̄ + zα/2 √
n n
α
với zα/2 là phân vị trên (upper percentile) mức 2
của Z ∼ N (0, 1).
KTC cho kỳ vọng: độ tin cậy thường dùng KTC cho kỳ vọng: ý nghĩa
KTC cho kỳ vọng: sai số và xác định cỡ mẫu KTC cho kỳ vọng: trường hợp biết phương sai
KTC cho kỳ vọng: TH không biết phương sai KTC cho kỳ vọng: TH không biết phương sai
KTC cho kỳ vọng: TH không biết phương sai KTC cho kỳ vọng: TH không biết phương sai
• Xây dựng khoảng tin cậy: • Xây dựng khoảng tin cậy:
i.i.d 2 i.i.d
Chọn mẫu ngẫu nhiên cỡ n: X1 , . . . , Xn ∼ N (µ, σ ). Chọn mẫu ngẫu nhiên cỡ n: X1 , . . . , Xn ∼ N (µ, σ 2 ).
Tính thống kê trung bình mẫu và phương sai mẫu Tính thống kê trung bình mẫu và phương sai mẫu
n n n n
1X 1 X 2 1X 1 X 2
X̄ = Xi , S 2 = Xi − X̄ . X̄ = Xi , S 2 = Xi − X̄ .
n i=1 n − 1 i=1 n i=1 n − 1 i=1
X̄ − µ
T = √
S/ n
KTC cho kỳ vọng: TH không biết phương sai KTC cho kỳ vọng: TH không biết phương sai
KTC cho kỳ vọng: TH không biết phương sai, cỡ mẫu lớn KTC cho kỳ vọng: TH không biết phương sai
Ví dụ 2
Một trường đại học muốn ước lượng tuổi của những sinh viên đang theo học
Khi cỡ mẫu lớn (n > 30), đại lượng tại trường. Một mẫu gồm 10 sinh viên được chọn để khảo sát, cho số liệu sau:
X̄ − µ 22, 22, 25, 23, 25, 30, 29, 27, 25, 27
√
S/ n
Hãy tìm khoảng tin cậy 95% cho độ tuổi trung bình của những sinh viên đang
sẽ xấp xỉ với phân phối chuẩn hóa N (0, 1) theo định lý giới hạn trung tâm. Do theo học tại trường.
đó, khoảng tin cậy cho kỳ vọng µ với độ tin cậy 100(1 − α)% cho bởi
s s
x̄ − zα/2 √ ≤ µ ≤ x̄ + zα/2 √ .
n n
Ví dụ 2 • Bài toán: tìm khoảng tin cậy cho tỷ lệ phần tử thỏa một tính chất A của
tổng thể mà ta quan tâm nghiên cứu.
Một trường đại học muốn ước lượng tuổi của những sinh viên đang theo học
tại trường. Một mẫu gồm 10 sinh viên được chọn để khảo sát, cho số liệu sau: Khảo sát n phần tử, đặt
(
22, 22, 25, 23, 25, 30, 29, 27, 25, 27 1, nếu phần tử thứ i thỏa tính chất A,
Yi =
0, nếu không thỏa,
Hãy tìm khoảng tin cậy 95% cho độ tuổi trung bình của những sinh viên đang
theo học tại trường. Ta có Yi ∼ B(p), i = 1, . . . , n.
Ví dụ 3
Một trường đại học muốn đo chỉ số IQ của những sinh viên đang học tại
trường. 120 sinh viên được chọn ngẫu nhiên để thực hiện khảo sát. Mỗi sinh
viên được yêu cầu làm một bài kiểm tra về logic. Tính được điểm IQ trung bình
của 120 sinh viên là 108.25 và độ lệch chuẩn mẫu là 4.5. Hãy lập khoảng tin
cậy 99% cho điểm IQ trung bình của sinh viên trường đại học học này.
• Bài toán: tìm khoảng tin cậy cho tỷ lệ phần tử thỏa một tính chất A của • Bài toán: tìm khoảng tin cậy cho tỷ lệ phần tử thỏa một tính chất A của
tổng thể mà ta quan tâm nghiên cứu. tổng thể mà ta quan tâm nghiên cứu.
Khảo sát n phần tử, đặt Khảo sát n phần tử, đặt
( (
1, nếu phần tử thứ i thỏa tính chất A, 1, nếu phần tử thứ i thỏa tính chất A,
Yi = Yi =
0, nếu không thỏa, 0, nếu không thỏa,
Ta có Yi ∼ B(p), i = 1, . . . , n. Ta có Yi ∼ B(p), i = 1, . . . , n.
Pn Pn
Đặt Y = Yi Số phần tử thỏa tính chất A trong n phần tử khảo sát. Ta Đặt Y = Yi Số phần tử thỏa tính chất A trong n phần tử khảo sát. Ta
i=1 i=1
có Y ∼ B(n, p). có Y ∼ B(n, p).
Đặt
Y
P̂ = .
n
với zα/2 là phân vị trên mức α/2 của biến ngẫu nhiên Z ∼ N (0, 1). • Nếu muốn ít nhất 100(1 − α)% độ tin cậy rằng độ chính xác trong ước lượng
p bởi p̂ bé hơn thì cỡ mẫu là
z1−α/2 2
n= (0.25).
• Điều kiện: cỡ mẫu n đủ lớn.
Khoảng tin cậy cho tỷ lệ: ví dụ Khoảng tin cậy cho phương sai
Ví dụ 4
Trong một khu rừng nguyên sinh, người ta theo dõi một loài chim bằng cách đeo vòng Các giả định: Mẫu ngẫu nhiên X1 , . . . , Xn được chọn từ tổng thể có phân
cho chúng. Thực hiện đeo vòng cho 1000 con. Sau một thời gian bắt lại 200 con thì phối chuẩn với kỳ vọng µ và phương sai σ 2 .
thấy có 40 con có đeo vòng. Hãy ước lượng số chim trong khu rừng đó với độ tin cậy Công thức tính khoảng tin cậy: khoảng tin cậy 100(1 − α)% cho σ 2 có
95%. dạng
(n − 1)S 2 (n − 1)S 2
2
≤ σ2 ≤ 2 ,
Ví dụ 5 χα/2,n−1 χ1−α/2,n−1
Trong một nhà máy, ở khâu kiểm tra chất lượng sản phẩm, người ta lấy ngẫu nhiên trong đó χ2α/2,n−1 và χ21−α/2,n−1 lần lượt là phân vị trên và phân vị dưới
100 sản phẩm trong một lô hàng thì phát hiện được 20 sản phẩm kém chất lượng.
mức α/2 và 1 − α/2 của biến ngẫu nhiên Chi bình phương với n − 1 bậc
Hãy tìm KTC 95% cho tỷ lệ sản phẩm kém chất lượng của mỗi lô hàng.
tự do.
Với độ tin cậy 99%, nếu muốn độ chính xác bằng 0.04 thì phải kiểm tra bao
nhiêu sản phẩm?
Phân phối Chi bình phương Phân vị của phân phối Chi bình phương
Định nghĩa 6
Xét X1 , X2 , . . . , Xn là một mẫu ngẫu nhiên được chọn từ một tổng thể có phân
phối chuẩn với kỳ vọng µ và phương sai σ 2 . Xét S 2 là phương sai mẫu, thì biến
ngẫu nhiên
(n − 1)S 2
X2 =
σ2
có phân phối Chi-bình phương (χ2 ) với n − 1 bậc tự do.
Phân vị trên (upper percentile) mức α: P(X 2 > χ2α,n−1 ) = α (hình (a)).
Phân vị dưới (lower percentile) mức 1 − α: P(X 2 > χ21−α,n−1 ) = 1 − α
(hình (b)).
Xây dựng KTC cho phương sai Khoảng tin cậy cho phương sai
Cho độ tin cậy 100(1 − α)%, bởi vì X 2 = (n − 1)S 2 /σ 2 có phân phối Chi
bình phương với n − 1 bậc tự do nên ta có
Ví dụ 6
P χ21−α/2,n−1 ≤ X 2 ≤ χ2α/2,n−1 = 1 − α.
Trong một nhà máy sản xuất kẹo, dây chuyền tự động được lập trình để đóng
gói những bịch kẹo có trọng lượng là 52 g, độ lệch chuẩn cho phép là ±1 g.
Do vậy ta có
Một kỹ sư kiểm tra chất lượng có nghi vấn rằng máy đóng bịch tự động hoạt
động không tốt, và trọng lượng một số bịch kẹo do dây chuyền đóng gói có
!
(n − 1)S 2
P χ21−α/2,n−1 ≤ ≤ χ2α/2,n−1 = 1 − α. trọng lượng nhỏ hơn hoặc lớn hơn nhiều so với quy định. Để kiểm tra, kỹ sư
σ2
này chọn ngẫu nhiên 10 bịch kẹo trong 1 lô hàng, và tính được phương sai mẫu
Ta thu được bằng 4.2 g. Hãy tìm khoảng tin cậy 95% cho độ lệch chuẩn và cho kết luận
! xem máy đóng bịch có hoạt động tốt hay không?
(n − 1)S 2 (n − 1)S 2
P 2
≤ σ2 ≤ 2 = 1 − α.
χα/2,n−1 χ1−α/2,n−1
Bài tập 2
Đo chiều cao X (đv: cm) của một nhóm thanh nhiên ở một khu vực, ghi nhận
Bài tập 1 được
Đem cân một số trái cây vừa thu hoạch, ta thu được kết quả sau: X (cm) 140-145 145-150 150-155 155-160 160-165 165-170
X (g) 200 - 210 210 - 220 220 - 230 230-240 240-250 Số người 1 3 7 9 5 2
Số trái 12 17 20 18 15 a. Sử dụng 1 loại đồ thị thích hợp để chứng tỏ rằng số liệu mẫu chọn từ một
biến ngẫu nhiên có phân phối chuẩn.
(a) Tính trung bình mẫu và độ lệch chuẩn mẫu.
b. Tính các tham số mẫu.
(b) Tìm khoảng tin cậy 99% cho trọng lượng trung bình của trái cây.
c. Ước lượng chiều cao trung bình của thanh nhiên khu vực này với độ tin
(c) Với độ tin cậy 99%, nếu muốn sai số ước lượng không quá 2 g thì phải cậy 99%. Nếu muốn sai số ước lượng bằng 1 (cm) thì phải khảo sát thêm
quan sát ít nhất bao nhiêu trái? bao nhiêu người.
d. Những thanh niên có chiều cao trên 160 (cm) được xếp loại sức khỏe loại
A. Hãy tìm khoảng tin cậy cho tỷ lệ thanh niên có sức khỏe loại A với độ
tin cậy 95%.
Bài tập
Bài tập 3
Một loại thuốc mới đem điều trị cho 50 người bị bệnh B, kết quả có 40 người
khỏi bệnh. Kiểm định giả thuyết thống kê (P. 1)
(a) Ước lượng tỷ lệ người khỏi bệnh khi dùng thuốc với độ tin cậy 95% và
99%.
(b) Nếu muốn sai số ước lượng không quá 0.02 ở độ tin cậy 95% thì phải Hoàng Văn Hà
University of Science, VNU - HCM
khảo sát ít nhất bao nhiêu trường hợp. hvha@hcmus.edu.vn
Bài tập 4
Tỷ lệ Titan trong một hợp kim được sử dụng trong việc đúc các bộ phận hàng
không vũ trụ được đo bằng 51 mẫu chọn ngẫu nhiên có độ lêch chuẩn mẫu
s = 0.37. Xây dựng khoảng tin cậy 95% cho σ.
Định nghĩa
Bài toán kiểm định giả thuyết thống kê Bài toán kiểm định giả thuyết thống kê Giả thuyết không và đối thuyết
Bổ đề Neyman - Pearson Bổ đề Neyman - Pearson Cách đặt giả thuyết
Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test) Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test) Miền bác bỏ - Tiêu chuẩn kiểm định
Sai lầm loại I và loại II
Định nghĩa 1
1 Bài toán kiểm định giả thuyết thống kê
Định nghĩa Giả thuyết thống kê là những phát biểu về các tham số, quy luật phân phối,
Giả thuyết không và đối thuyết hoặc tính độc lập của các đại lượng ngẫu nhiên. Việc tìm ra kết luận để bác bỏ
Cách đặt giả thuyết hay chấp nhận một giả thuyết gọi là kiểm định giả thuyết thống kê.
Miền bác bỏ - Tiêu chuẩn kiểm định
Sai lầm loại I và loại II
Ví dụ 1
2 Bổ đề Neyman - Pearson Giám đốc một nhà máy sản xuất bo mạch chủ máy vi tính tuyên bố rằng tuổi
thọ trung bình của một bo mạch chủ do nhà máy sản xuất ra là 5 năm; đây là
một giả thuyết về kỳ vọng của biến ngẫu nhiên X = tuổi thọ của một bo mạch
3 Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test) chủ. Để đưa ra kết luận là chấp nhận hay bác bỏ giả thuyết trên, ta cần dựa
vào mẫu điều tra và quy tắc kiểm định thống kê.
Định nghĩa 2 Tổng quát, một bài toán kiểm định giả thuyết cho tham số θ sẽ có một trong 3
dạng dưới đây (θ0 là giá trị kiểm định đã biết):
Trong bài toán kiểm định giả thuyết, giả thuyết cần được kiểm định gọi là Giả
Hai phía:
thuyết không (null hypothesis), ký hiệu là H0 . Mệnh đề đối lập với H0 gọi là đối (
H0 : θ = θ0
thuyết (alternative hypothesis), ký hiệu là H1 (hoặc Ha ).
H1 : θ 6= θ0
Xét bài toán kiểm định tham số, giả sử ta quan trắc mẫu ngẫu nhiên
Một phía bên trái:
(X1 , . . . , Xn ) từ biến ngẫu nhiên X có hàm mật độ xác suất f (x; θ) phụ thuộc (
vào tham số θ. Gọi Θ là không gian tham số, và Θ0 và Θc0 là hai tập con rời H0 : θ = θ0 (hoặc θ ≥ θ0 )
nhau của Θ sao cho Θ0 ∪ Θc0 = Θ. Giả thuyết (giả thuyết không) và đối thuyết H1 : θ < θ 0
của bài toán có dạng như sau
Một phía bên phải: (
(
H0 : θ ∈ Θ0 H0 : θ = θ0 (hoặc θ ≤ θ0 )
(1) H1 : θ > θ 0
H1 : θ ∈ Θc0
Ví dụ 2 1 Giả thuyết được đặt ra với ý đồ bác bỏ nó, nghĩa là giả thuyết đặt ra
1. Gọi µ là độ thay đổi trung bình trong huyết áp của một bệnh nhân sau khi ngược lại với điều ta muốn chứng minh, muốn thuyết phục.
dùng thuốc. Bác sĩ điều trị cần quan tâm đến giả thuyết sau: 2 Giả thuyết được đặt ra sao cho khi chấp nhận hay bác bỏ nó sẽ có tác
( dụng trả lời bài toán thực tế đặt ra.
H0 : µ = 0 Không có ảnh hưởng của thuốc lên huyết áp của bệnh nhân 3 Giả thuyết được đặt ra sao cho nếu nó đúng thì ta sẽ xác định được quy
H1 : µ 6= 0 Có ảnh hưởng của thuốc lên huyết áp của bệnh nhân luật phân phối xác suất của đại lượng ngẫu nhiên được chọn làm tiêu
chuẩn kiểm định.
2. Một khách hàng quan tâm đến tỷ lệ sản phẩm kém chất lượng trong một lô 4 Khi đặt giả thuyết, ta thường so sánh cái chưa biết với cái đã biết. "Cái
hàng mua của một nhà cung cấp. Giả sử tỷ lệ sản phấm kém tối đa được phép chưa biết" là điều mà ta cần kiểm định, kiểm tra, làm rõ. "Cái đã biết" là
là 5%. Khách hàng cần quan tâm đến giả thuyết sau: những thông tin trong quá khứ, các định mức kinh tế, kỹ thuật.
(
H0 : p = 0.05 Tỷ lệ sản phẩm kém ở mức chấp nhận được 5 Giả thuyết H0 đặt ra thường mang ý nghĩa: "không khác nhau" hoặc
H1 : p > 0.05 Tỷ lệ sản phẩm kém cao hơn mức cho phép "khác nhau không có ý nghĩa" hoặc "bằng nhau".
Miền bác bỏ - Tiêu chuẩn kiểm định Miền bác bỏ - Tiêu chuẩn kiểm định
Định nghĩa 3
Xét bài toán kiểm định giả thuyết có giả thuyết H0 và đối thuyết H1 . Giả sử
rằng H0 đúng, từ mẫu ngẫu nhiên X = (X1 , . . . , Xn ) chọn hàm
T = T (X1 , . . . , Xn ; θ0 ) sao cho với số α > 0 bé tùy ý ta có thể tìm được tập Thực hiện quan trắc dựa trên mẫu ngẫu nhiên (X1 , . . . , Xn ) ta thu được mẫu
hợp Wα thỏa điều kiện thực nghiệm (x1 , . . . , xn ). Từ mẫu thực nghiệm này, ta tính được giá trị của T
P (T ∈ Wα ) = α. (2) là t = T (x1 , . . . , xn ; θ0 ).
Tập hợp Wα gọi là miền bác bỏ (rejection/critical region) của giả thuyết H0 và Nếu t ∈ Wα thì ta bác bỏ giả thuyết H0 .
phần bù Wαc gọi là miền chấp nhận (acceptance region). Đại lượng ngẫu nhiên Nếu t ∈ Wαc thì ta kết luận chưa đủ cơ sở để bác bỏ H0 .
T = T (X1 , . . . , Xn ; θ0 ) gọi là thống kê kiểm định (test statistic). Giá trị α gọi
là mức ý nghĩa (significance level) của bài toán kiểm định.
Trong bài toán kiểm định giả thuyết thống kê, ta có thể mắc phải các sai lầm
sau
a. Sai lầm loại I: là sai lầm mắc phải khi ta bác bỏ H0 trong khi thực tế giả ```
``` Thực tế
thuyết H0 đúng. Sai lầm loại I ký hiệu là α, chính là mức ý nghĩa của kiểm ``` H0 đúng H0 sai
Quyết định ```
định. Không có sai lầm Sai lầm loại II
Không bác bỏ H0
α = P T ∈ Wα |H0 . (3) (1 − α) β
b. Sai lầm loại II: là sai lầm mắc phải khi ta chấp nhận giả thuyết H0 trong Sai lầm loại I Không có sai lầm
Bác bỏ H0
khi thực tế H0 sai. Sai lầm loại II ký hiệu là β. α (1 − β)
β = P T ∈ Wαc |H1 .
(4)
Ta có,
Ví dụ 3
Khảo sát tốc độ cháy của một loại nhiên liệu rắn dùng để đẩy tên lửa ra khỏi α = P(X̄ < 48.5|µ = 50) + P(X̄ > 51.5|µ = 50)
! !
giàn phóng. Giả sử biến ngẫu nhiên X = tốc độ cháy của nhiên liệu (cm/s) có X̄ − 50 48.5 − 50 X̄ − 50 51.5 − 50
phân phối chuẩn với kỳ vọng µ và độ lệch chuẩn σ = 2.5. =P √ < √ +P √ < √
2.5/ 10 2.5/ 10 2.5/ 10 2.5/ 10
Ta cần kiểm định giả thuyết
( = P(Z < −1.90) + P(Z > 1.90) = 0.0287 + 0.0287 = 0.0574.
H0 : µ = 50
H1 : µ 6= 50 nghĩa là có 5.74% số mẫu ngẫu nhiên khảo sát được sẽ dẫn đến kết luận bác bỏ
giả thuyết H0 : µ = 50 (cm/s) khi tốc độ cháy trung bình thực sự là 50 (cm/s).
Vì X̄ là một ước lượng điểm tự nhiên của µ, nên có vẻ hợp lý để chấp nhận H0 Ta có thể giảm sai lầm α bằng cách mở rộng miền chấp nhận. Giả sử với cỡ
nếu X̄ không quá xa µ0 = 50. Giả sử miền bác bỏ có dạng mẫu n = 10, miền chấp nhận là 48 ≤ x̄ ≤ 52, khi đó giá trị của α là
{(X1 , X2 , . . . , Xn ) : |X̄ − 50| > 1.5}, tức là bác bỏ H0 khi: X̄ < 48.5 hoặc ! !
X̄ > 51.5. Các giá trị 48.5 và 51.5 gọi là giá trị tới hạn (critical value). Giả sử 48 − 50 52 − 50
α=P Z < √ +P Z > √
khảo sát mẫu ngẫu nhiên cỡ n = 10, ta tìm xác suất sai lầm loại I: 2.5/ 10 2.5/ 10
Giả sử với cỡ mẫu n = 10, miền chấp nhận của giả thuyết H0 là
48.5 ≤ X̄ ≤ 51.5 trong khi giá trị thực sự của µ = 52. Sai lầm β cho bởi
Cách
√ thứ hai √
để giảm α là tăng cỡ mẫu khảo sát, giả sử cỡ mẫu n = 16, ta có
σ/ n = 2.5/ 16 = 0.625. Với miền bác bỏ là X̄ < 48.5 hoặc X̄ > 51.5, ta có β = P(48.5 ≤ X̄ ≤ 51.5|µ = 52)
!
48.5 − 52 X̄ − 52 51.5 − 52
α = P(X̄ < 48.5|µ = 50) + P(X̄ > 51.5|µ = 50) =P √ ≤ √ ≤ √
2.5/ 10 2.5/ 10 2.5/ 10
48.5 − 50 51.5
=P Z < +P Z > = P(−4.43 ≤ Z ≤ −0.63) = P(Z ≤ −0.63) − P(Z ≤ −4.43)
0.625 0.625
= 0.0082 + 0.0082 = 0.0164. = 0.2643 − 0.0000 = 0.2643.
Xác suất sai lầm loại II β được tính như sau Giả sử giá trị thực sự µ = 50.5, khi đó
Sai lầm loại I và loại II Sai lầm loại I và loại II - Nhận xét
Tương tự α, tăng cỡ mẫu sẽ làm giảm sai lầm β, với cỡ mẫu n = 16 và miền
chấp nhận là 48 < X̄ < 52, ta tính được β = 0.229. 1 Ta có thể giảm kích thước của miền bác bỏ (tương ứng tăng kích thước
Bảng 1 tổng kết sai lầm lầm loại I và loại II với miền chấp nhận và cỡ mẫu miền chấp nhận), và xác suất sai lầm loại I α bằng cách chọn những điểm
khác nhau tới hạn thích hợp.
Miền chấp nhận n α β với µ = 52 β với µ = 50.5 2 Xác suất sai lầm loại I và loại II có liên quan với nhau. Với một cỡ mẫu cố
48.5 < x̄ < 51.5 10 0.0574 0.2643 0.8923 định, việc giảm sai lầm loại này sẽ làm tăng sai lầm loại kia.
48 < x̄ < 52 10 0.0114 0.5000 0.9705 3 Cố định các điểm tới hạn, tăng cỡ mẫu n sẽ làm giảm xác suất sai lầm loại
48.5 < x̄ < 51.5 16 0.0164 0.2119 0.9445 I α và loại II β.
48 < x̄ < 52 16 0.0014 0.5000 0.9918 4 Nếu H0 sai, sai lầm β sẽ tăng khi giá trị thực của tham số tiến gần đến giá
Bảng 1: Sai lầm loại I và loại II trị được phát biểu trong giả thuyết H0 .
Bài toán kiểm định giả thuyết thống kê Bài toán kiểm định giả thuyết thống kê
Bổ đề Neyman - Pearson Bổ đề Neyman - Pearson
Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test) Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test)
Định nghĩa 5
Định nghĩa 4 Xét bài toán kiểm định giả thuyết thống kê có giả thuyết H0 , đối thuyết H1 ,
Gọi T = T (X1 , . . . , Xn ; θ) và Wα lần lượt là thống kê kiểm định và miền bác miền bác bỏ Wα và miền chấp nhận Wαc . α và β lần lượt là sai lầm loại I và
bỏ của một bài toán kiểm định giả thuyết liên quan đến tham số θ. Độ mạnh loại II của bài toán kiểm định. Cố định giá trị α nhỏ, trong tất cả các thống kê
(power) của kiểm định là xác suất bác bỏ giả thuyết H0 khi đối thuyết H1 kiểm định T = T (X1 , . . . , Xn ; θ) có cùng mức sai lầm α thì thống kê kiểm định
đúng, ký hiệu π: nào có độ mạnh π = 1 − β lớn nhất thì được gọi là kiểm định có độ mạnh lớn
nhất (most powerful test).
π = P(T ∈ Wα |H1 ) = 1 − P(T ∈ Wαc |H1 ) = 1 − β.
Kiểm định có độ mạnh lớn nhất: làm sao xác định được miền bác bỏ của
Một thống kê kiểm định tốt sẽ có độ mạnh cao.
một kiểm định có độ mạnh lớn nhất có mức ý nghĩa α?
⇒ sử dụng bổ đề Neyman-Pearson.
Bổ đề Neyman-Pearson Bổ đề Neyman-Pearson - ví dụ
Ví dụ 4
Định lý 1 (Bổ đề Neyman-Pearson) Xét X1 , X2 , . . . , Xn là một mẫu ngẫu nhiên chọn từ tổng thể có phân phối
Poisson với trung bình λ. Tìm kiểm định có độ mạnh lớn nhất cho giả thuyết
Xét bài toán kiểm định giả thuyết đơn (simple hypothesis) có H0 : θ = θ0 và H0 : λ = 2 và đối thuyết H1 : λ = 1/2.
H1 : θ = θ1 . Gọi L(θ|x) là hàm hợp lý (likelihood function) dựa trên mẫu ngẫu
nhiên X = (X1 , X2 , . . . , Xn ) được chọn từ phân phối Pθ . Nếu tồn tại một hằng
e −λ λx
số dương C và tập con W ⊂ Rn sao cho: Hàm khối xác suất của X ∼ P(λ) là: p(x) = , x = 0, 1, 2, . . .
x!
L(θ0 |x)
1 ≤ C với x = (x1 , x2 , . . . , xn ) ∈ W , Hàm hợp lý là
L(θ1 |x)
−1
L(θ0 |x) n n n
2 > C với x = (x1 , x2 , . . . , xn ) ∈ W c , Y Y X
L(θ1 |x) L(λ|x) = p(xi ) = λm e −λn xi ! , với m = xi .
i=1 i=1 I =1
3 P (X1 , X2 , . . . , Xn ) ∈ W ; θ0 = α,
thì kiểm định với miền bác bỏ W sẽ có độ mạnh lớn nhất. Ta gọi α là độ lớn Với λ = 2, −1
(size) của kiểm định và W là miền bác bỏ tốt nhất với độ lớn α. n
Y
L(2|x) = 2m e −2n xi ! .
i=1
Bài toán kiểm định giả thuyết thống kê Bài toán kiểm định giả thuyết thống kê
Bổ đề Neyman - Pearson Bổ đề Neyman - Pearson
Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test) Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test)
Theo bổ đề Neyman-Pearson, miền bác bỏ thỏa trong đó θ là tham số chưa biết của tổng thể nhận giá trị trong không gian
L(2|x) 2 e m −2n
3n
tham số Θ, Θ0 ⊂ Θ. Xét mẫu ngẫu nhiên cỡ n: X = (X1 , X2 , . . . , Xn ) và hàm
= = 4m e − 2 ≤ C . hợp lý L(θ|x1 , x2 , . . . , xn ) = L(θ|x).
L(1/2|x) (1/2)m e −n/2
Lấy Logarit 2 vế, ta được Định nghĩa 6
3n log(C ) + (3n/2) Tỷ lệ hợp lý (likelihood ratio) cho kiểm định thống kê với gỉả thuyết
m log(4) − ≤ log(C ) ⇒ m ≤ .
2 log(4) H0 : θ ∈ Θ0 và đối thuyết H1 : θ ∈ Θc0 được định nghĩa bởi
log(C )+(3n/2)
Đặt C 0 = log(4)
.
Vậy miền bác bỏ sẽ có dạng: sup L(θ|x)
θ∈Θ0
λ(x) = . (5)
n sup L(θ|x)
θ∈Θ
X
W = (X1 , X2 , . . . , Xn ) : Xi ≤ C 0 .
i=1
Chú ý rằng 0 ≤ λ(x) ≤ 1.
Ví dụ 5
i.i.d
Xét X1 , X2 , . . . , Xn ∼ N (µ, σ 2 ). Giả sử σ 2 đã biết. Với mức ý nghĩa α, thực hiện
Gọi θ̂0 và θ̂ lần lượt là các ước lượng hợp lý cực đại của tham số θ xác định kiểm định H0 : µ = µ0 và H1 : µ 6= µ0 . Hãy tìm một kiểm định tỷ lệ hợp lý.
trên các không gian tham số Θ0 và Θ. Khi đó, tỷ lệ hợp lý được xác định bởi
Với σ 2 đã biết, hàm hợp lý có dạng
L(θ̂0 |x)
n
λ(x) = . (6) 1 1 X
L(θ̂|x) L(µ|x) = √ exp − 2 (xi − µ)2 .
(σ 2π)n 2σ
i=1
Khi đó, miền bác bỏ cho bài toán kiểm định tỷ lệ hợp lý sẽ có dạng Các không gian tham số: Θ0 = {µ0 }, Θc0 = R\{µ0 }. Khi đó,
W = x = (x1 , x2 , . . . , xn ) : λ(x) ≤ C . 1 1 X
n
2
L(µ0 |x) = √ exp − 2 (xi − µ0 ) .
(σ 2π)n 2σ
Hằng số C được chọn sao cho kiểm định có mức ý nghĩa cho trước bằng α. i=1
Bài toán kiểm định giả thuyết thống kê Bài toán kiểm định giả thuyết thống kê
Bổ đề Neyman - Pearson Bổ đề Neyman - Pearson
Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test) Kiểm định tỷ lệ hợp lý (Likelihood Ratio Test)
Mục lục
Hoàng Văn Hà 2 Kiểm định giả thuyết - TH hai mẫu độc lập
University of Science, VNU - HCM So sánh hai kỳ vọng
hvha@hcmus.edu.vn So sánh hai tỷ lệ
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết cho kỳ vọng Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
1 Kiểm định giả thuyết - Trường hợp một mẫu 1 Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết cho kỳ vọng Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
2 Kiểm định giả thuyết - TH hai mẫu độc lập 2 Kiểm định giả thuyết - TH hai mẫu độc lập
So sánh hai kỳ vọng So sánh hai kỳ vọng
So sánh hai tỷ lệ So sánh hai tỷ lệ
3 So sánh hai mẫu không độc lập 3 So sánh hai mẫu không độc lập
4 Kiểm định Chi-bình phương về tính độc lập 4 Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2 Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết cho kỳ vọng Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2 p - giá trị (p - value)
Định nghĩa 1
Giả thuyết Miền bác bỏ Tương ứng với một giá trị thống kê kiểm định được tính toán trên một mẫu
H 0 : µ = µ0 n o
các giá trị quan trắc xác định, p - giá trị là mức ý nghĩa nhỏ nhất dùng để bác
Wα = z0 : |z0 | > zα/2
H1 : µ 6= µ0 bỏ giả thuyết H0 .
H 0 : µ = µ0 n o
Wα = z0 : z0 < −zα Dựa vào đối thuyết H1 , các bước tính p-giá trị như sau:
H1 : µ < µ0
H 0 : µ = µ0 n o 1 Xác định thống kê kiểm định: T = T (X1 , . . . , Xn ). Tính giá trị thống kê
Wα = z0 : z0 > zα
H1 : µ > µ0 kiểm định dựa trên mẫu (x1 , . . . , xn ), giả sử bằng a.
Bảng 1: Miền bác bỏ với đối thuyết tương ứng
2 p-giá trị cho bởi
P(|T | > |a||H0 ), kiểm định hai phía
5. Kết luận: Bác bỏ H0 / Chưa đủ cơ sở để bác bỏ H0 . p = P(T < a|H0 ), kiểm định một phía - bên trái (2)
P(T > a|H0 ), kiểm định một phía - bên phải
Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2 Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2
• Sử dụng p-giá trị (p - value): tính p-giá trị dựa theo đối thuyết và kết luận
bác bỏ H0 khi p -giá trị ≤ α, với mức ý nghĩa α cho trước. Công thức tính p -
Ví dụ 1 (Kiểm định 2 phía)
giá trị theo các trường hợp xem ở bảng 2.
Một dây chuyền sản xuất kem đánh răng được thiết kế để đóng hộp những ống
Giả thuyết p - giá trị kem có trọng lượng trung bình là 170g. Một mẫu gồm 30 ống kem được chọn
H 0 : µ = µ0
ngẫu nhiên để kiểm tra định kỳ. Bộ phận điều khiển dây chuyền phải đảm bảo
p = 2 1 − Φ(|z0 |)
H1 : µ 6= µ0 để trọng lượng trung bình mỗi ống kem là 170g; nếu nhiều hơn hoặc ít hơn,
H 0 : µ = µ0 dây chuyền phải được điều chỉnh lại.
p = Φ(z0 )
H1 : µ < µ0 Giả sử trung bình mẫu của 30 ống kem là 174g và độ lệch tiêu chuẩn của tổng
H 0 : µ = µ0 thể σ = 5.6g.
p = 1 − Φ(z0 )
H1 : µ > µ0 Thực hiện kiểm định giả thuyết với mức ý nghĩa 3% để xác định xem dây
chuyền sản xuất có vận hành tốt hay không?
Bảng 2: p-giá trị với đối thuyết tương ứng
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết cho kỳ vọng Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2 Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2
Gọi X là trọng lượng của một ống kem đánh răng, giả sử X ∼ N (µ, 5.62 ). Các Gọi X là trọng lượng của một ống kem đánh răng, giả sử X ∼ N (µ, 5.62 ). Các
bước kiểm định như sau: bước kiểm định như sau:
1 Phát biểu giả thuyết: (
1 Phát biểu giả thuyết: (
H0 : µ = 170 H0 : µ = 170
. .
H1 : µ 6= 170 H1 : µ 6= 170
2 Xác định mức ý nghĩa: α = 0.03
Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2 Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2
Gọi X là trọng lượng của một ống kem đánh răng, giả sử X ∼ N (µ, 5.62 ). Các Gọi X là trọng lượng của một ống kem đánh răng, giả sử X ∼ N (µ, 5.62 ). Các
bước kiểm định như sau: bước kiểm định như sau:
1 Phát biểu giả thuyết: (
1 Phát biểu giả thuyết: (
H0 : µ = 170 H0 : µ = 170
. .
H1 : µ 6= 170 H1 : µ 6= 170
2 Xác định mức ý nghĩa: α = 0.03 2 Xác định mức ý nghĩa: α = 0.03
3 Tính giá trị thống kê kiểm định 3 Tính giá trị thống kê kiểm định
x̄ − µ0 174 − 170 x̄ − µ0 174 − 170
z0 = √ = √ = 3.91. z0 = √ = √ = 3.91.
σ/ n 5.6/ 30 σ/ n 5.6/ 30
4 Xác định miền bác bỏ: Bác bỏ H0 khi |z0 | > zα/2 .
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết cho kỳ vọng Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2 Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2
α = 3% nên zα/2 = z0.015 = 2.17. Vậy bác bỏ H0 nếu α = 3% nên zα/2 = z0.015 = 2.17. Vậy bác bỏ H0 nếu
z0 < −2.17 hoặc z0 > 2.17. z0 < −2.17 hoặc z0 > 2.17.
5. Kết luận: do z0 = 3.912 > 2.17 nên bác bỏ H0 . Ta kết luận với 97% độ tin
cậy rằng trọng lượng trung bình mỗi ống kem không bằng 170.
Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2 Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2
α = 3% nên zα/2 = z0.015 = 2.17. Vậy bác bỏ H0 nếu α = 3% nên zα/2 = z0.015 = 2.17. Vậy bác bỏ H0 nếu
z0 < −2.17 hoặc z0 > 2.17. z0 < −2.17 hoặc z0 > 2.17.
5. Kết luận: do z0 = 3.912 > 2.17 nên bác bỏ H0 . Ta kết luận với 97% độ tin 5. Kết luận: do z0 = 3.912 > 2.17 nên bác bỏ H0 . Ta kết luận với 97% độ tin
cậy rằng trọng lượng trung bình mỗi ống kem không bằng 170. cậy rằng trọng lượng trung bình mỗi ống kem không bằng 170.
• Sử dụng p - giá trị:
4a. Tính p-giá trị, bài toán kiểm định hai phía
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết cho kỳ vọng Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2 Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2
Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2 Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2
2. Xác định mức ý nghĩa: α = 0.05. 2. Xác định mức ý nghĩa: α = 0.05.
3. Tính giá trị thống kê kiểm định
x̄ − 12 13.25 − 12
z0 = √ = √ = 2.47.
σ/ n 3.2/ 40
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết cho kỳ vọng Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2 Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2
2. Xác định mức ý nghĩa: α = 0.05. 2. Xác định mức ý nghĩa: α = 0.05.
3. Tính giá trị thống kê kiểm định 3. Tính giá trị thống kê kiểm định
x̄ − 12 13.25 − 12 x̄ − 12 13.25 − 12
z0 = √ = √ = 2.47. z0 = √ = √ = 2.47.
σ/ n 3.2/ 40 σ/ n 3.2/ 40
4. Xác định miền bác bỏ: bác bỏ H0 nếu z0 > zα = z0.05 = 1.645. 4. Xác định miền bác bỏ: bác bỏ H0 nếu z0 > zα = z0.05 = 1.645.
5. Kết luận: z0 = 2.47 > 1.645 nên bác bỏ H0 . Ta kết luận rằng với 95% độ
tin cậy, bệnh viện không đáp ứng được mục tiêu thời gian phục vụ khách
hàng từ 12 phút trở xuống.
Kiểm định giả thuyết cho kỳ vọng: TH biết σ 2 Kiểm định giả thuyết cho kỳ vọng: σ 2 không biết, mẫu nhỏ
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết cho kỳ vọng Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết cho kỳ vọng: σ 2 không biết, mẫu nhỏ Kiểm định giả thuyết cho kỳ vọng: σ 2 không biết, mẫu nhỏ
Kiểm định giả thuyết cho kỳ vọng: σ 2 không biết, mẫu nhỏ Kiểm định giả thuyết cho kỳ vọng:σ 2 không biết , mẫu lớn
• Sử dụng p-giá trị (p - value): tính p-giá trị dựa theo đối thuyết và kết luận • Các giả định:
bác bỏ H0 khi p -giá trị ≤ α, với mức ý nghĩa α cho trước. Công thức tính p - Mẫu ngẫu nhiên X1 , . . . , Xn được chọn từ tổng thể có kỳ vọng µ và
giá trị theo các trường hợp xem ở bảng 4. phương sai σ 2 không biết.
Sử dụng ước lượng không chệch S thay cho σ.
Giả thuyết p - giá trị
H 0 : µ = µ0 Cỡ mẫu lớn: n > 30.
p = 2P(Tn−1 ≥ |t0 |)
H1 : µ 6= µ0 • Khi cỡ mẫu lớn biến ngẫu nhiên
H 0 : µ = µ0
p = P(Tn−1 ≤ t0 ) X̄ − µ0
H1 : µ < µ0 Z0 = √ (4)
H 0 : µ = µ0 S/ n
p = P(Tn−1 ≥ t0 )
H1 : µ > µ0
sẽ hội tụ về phân phối chuẩn hóa Z ∼ N (0, 1). Khi đó miền bác bỏ Wα hoặc
Bảng 4: p-giá trị với đối thuyết tương ứng (trường hợp mẫu nhỏ) p-giá trị sẽ được tính tương tự như trường hợp biết phương sai, chỉ thay thế
X̄ − µ0
√ bằng Z0 ở phương trình (4).
σ/ n
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết cho kỳ vọng Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết cho kỳ vọng: TH không biết σ 2 Kiểm định giả thuyết cho kỳ vọng: TH không biết σ 2
Ví dụ 3
Một công ty sản xuất pin tuyên bố rằng tuổi thọ trung bình của một loại pin
Ví dụ 4
do công ty sản xuất ra tối thiểu bằng 240 giờ. Khảo sát một mẫu gồm 18 cục
pin cho kết quả Tốc độ giới hạn trên một đoạn đường là 80 km/h. Trạm cảnh sát giao thông
phụ trách đoạn đường tìm kiếm một vị trí phù hợp để đặt một camera bắn tốc
237 242 244 262 225 218 độ, với mục đích kiểm soát tốc độ của các phương tiện trên đoạn đường này.
242 258 243 234 236 228 Tại một địa điểm F, một mẫu gồm tốc độ của 64 phương tiện được bắn tốc độ
232 230 254 220 232 240 ngẫu nhiên có trung bình là 81.5 km/h và độ lệch tiêu chuẩn 6.5 km/h. Với
Giả sử rằng tuổi thọ loại pin này tuân theo phân phối chuẩn. α = 5%, hãy kiểm định xem địa điểm F có phù hợp để đặt một camera bắn tốc
độ hay không?
a) Vẽ đồ thị thân và lá cho tập dữ liệu trên. Nhận xét.
b) Với mức ý nghĩa 5%, ta có thể bác bỏ tuyên bố của công ty sản xuất pin
hay không?
Kiểm định giả thuyết cho kỳ vọng: TH không biết σ 2 Kiểm định giả thuyết cho kỳ vọng: TH không biết σ 2
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết cho kỳ vọng Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết cho kỳ vọng: TH không biết σ 2 Kiểm định giả thuyết cho kỳ vọng: TH không biết σ 2
4 Xác định miền bác bỏ: Bác bỏ H0 khi z0 > zα = z0.05 = 1.65.
Kiểm định giả thuyết cho kỳ vọng: TH không biết σ 2 Mục lục
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết cho kỳ vọng Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
• Quan sát sự xuất hiện của biến cố "phần tử mang đặc tính A" trong n phép
• Bài toán:
thử độc lập. Gọi Y là số lần xuất hiện biến cố trên thì Y ∼ B(n, p). Và
Cho tổng thể X , trong đó tỷ lệ phần tử mang đặc tính A nào đó là trong tổng
thể là p (p chưa biết). Từ mẫu ngẫu nhiên (X1 , X2 , ..., Xn ) hãy kiểm định Y
P̂ =
n
( ( (
H0 : p = p0 H0 : p = p0 H0 : p = p0 là một ước lượng không chệch cho p.
(a) (b) (c)
H1 : p 6= p0 H1 : p < p0 H1 : p > p0
• Nếu H0 đúng, thống kê
với mức ý nghĩa α.
P̂ − p0
• Giả định: Z0 = r
p0 (1 − p0 )
Cỡ mẫu n lớn, để phân phối chuẩn xấp xỉ phân phối nhị thức tốt cần có n
np0 ≥ 5 và n(1 − p0 ) ≥ 5.
có phân phối chuẩn tắc N (0, 1). Chọn Z0 làm tiêu chuẩn kiểm định.
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết cho kỳ vọng Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
Ví dụ 5 Ví dụ 5
Trong kỳ nghỉ lễ đầu năm mới, Cục An toàn giao thông đã thống kê được rằng Trong kỳ nghỉ lễ đầu năm mới, Cục An toàn giao thông đã thống kê được rằng
có 500 người chết và 25000 người bị thương do các vụ tại nạn giao thông trên có 500 người chết và 25000 người bị thương do các vụ tại nạn giao thông trên
toàn quốc. Theo thông cáo của Cục ATGT thì khoảng 50% số vụ tai nạn có toàn quốc. Theo thông cáo của Cục ATGT thì khoảng 50% số vụ tai nạn có
liên quan đến rượu bia. liên quan đến rượu bia.
Khảo sát ngẫu nhiên 120 vụ tai nạn thấy có 67 vụ do ảnh hưởng của rượu bia. Khảo sát ngẫu nhiên 120 vụ tai nạn thấy có 67 vụ do ảnh hưởng của rượu bia.
Sử dụng số liệu trên để kiểm định lời khẳng định của Cục An toàn giao thông Sử dụng số liệu trên để kiểm định lời khẳng định của Cục An toàn giao thông
với mức ý nghĩa α = 5%. với mức ý nghĩa α = 5%.
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
3. Tính giá trị thống kê kiểm định 3. Tính giá trị thống kê kiểm định
r r r r
p0 (1 − p0 ) 0.5(1 − 0.5) p0 (1 − p0 ) 0.5(1 − 0.5)
σp̂ = = = 0.045644, σp̂ = = = 0.045644,
n 120 n 120
p̂ − p0 (67/120) − 0.5 p̂ − p0 (67/120) − 0.5
z0 = = = 1.28. z0 = = = 1.28.
σp̂ 0.045644 σp̂ 0.045644
4. Xác định miền bác bỏ: bác bỏ H0 khi |z0 | > z0.025 = 1.96 hoặc tính p-giá
trị
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết cho kỳ vọng Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
5. Kết luận: do z0 = 1.28 < 1.96 (hoặc p = 0.2006 > 0.05) nên kết luận
chưa đủ cơ sở để bác bỏ giả thuyết H0 .
1 Kiểm định giả thuyết - Trường hợp một mẫu • Các giả định:
Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết cho tỷ lệ Mẫu ngẫu nhiên X1 , . . . , Xn được chọn từ tổng thể có phân phối chuẩn
Kiểm định giả thuyết cho phương sai N (µ, σ 2 ) với kỳ vọng µ và phương sai σ 2 chưa biết.
Cho trước giá trị σ02 , cần so sánh phương sai σ 2 với σ02 .
2 Kiểm định giả thuyết - TH hai mẫu độc lập
So sánh hai kỳ vọng • Bài toán kiểm định có 3 trường hợp:
So sánh hai tỷ lệ ( ( (
H0 : σ 2 = σ02 H0 : σ 2 = σ02 H0 : σ 2 = σ02
(a) (b) (c)
3 So sánh hai mẫu không độc lập H1 : σ 2 6= σ02 H1 : σ 2 < σ02 H1 : σ 2 > σ02
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết cho kỳ vọng Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
Nếu H0 đúng, X02 ∼ χ2 (n − 1). trong đó χ2α,n−1 là phân vị trên mức α của biến ngẫu nhiên Chi bình phương
4 Xác định miền bác bỏ Wα : bảng 6. với n − 1 bậc tự do.
5. Kết luận: Bác bỏ H0 / Chưa đủ cơ sở để bác bỏ H0 .
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
Ví dụ 7
Xenical là một loại thuốc dùng để điều trị béo phì ở những người có các bệnh nền
nguy hiểm như tiểu đường, huyết áp cao hoặc thừa cholesterol. Xenical hoạt động
trong ruột, nó sẽ ngăn không cho cơ thể hấp thụ các chất béo từ thức ăn khi một
người ăn vào. Trong một đơn thuốc tiêu chuẩn, khối lượng một viên nang Xenical
được quy định là 120 mg. Mặc dù khối lượng viên nang có thể thay đổi đôi chút từ
120 mg nhưng việc giữ cho sự thay đổi tương đối nhỏ là rất quan trọng vì các lý do y
Miền bác bỏ cho đối thuyết H1 : σ 2 < σ02 Miền bác bỏ cho đối thuyết H1 : σ 2 > σ02
tế khác nhau. Theo quy định của Hiệp hội Dược phẩm Hoa kỳ, độ lệch chuẩn của
trong lượng một viên nang Xenical dưới 2 mg là chấp nhận được. Trong một xưởng
sản xuất thuốc, người ta chọn một gồm 10 viên nang Xenical có trọng lượng cho bởi
bảng bên dưới:
120.94 118.58 119.41 120.23 121.13
118.22 119.71 121.09 120.56 119.11
Với mức ý nghĩa α = 5%, hãy kiểm định xem những viên nang Xenical được sản xuất
ra bởi xưởng sản xuất thuốc có đạt tiêu chuẩn hay không?
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết - TH hai mẫu độc lập So sánh hai kỳ vọng Kiểm định giả thuyết - TH hai mẫu độc lập So sánh hai kỳ vọng
So sánh hai mẫu không độc lập So sánh hai tỷ lệ So sánh hai mẫu không độc lập So sánh hai tỷ lệ
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
1 Kiểm định giả thuyết - Trường hợp một mẫu 1 Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết cho kỳ vọng Kiểm định giả thuyết cho kỳ vọng
Kiểm định giả thuyết cho tỷ lệ Kiểm định giả thuyết cho tỷ lệ
Kiểm định giả thuyết cho phương sai Kiểm định giả thuyết cho phương sai
2 Kiểm định giả thuyết - TH hai mẫu độc lập 2 Kiểm định giả thuyết - TH hai mẫu độc lập
So sánh hai kỳ vọng So sánh hai kỳ vọng
So sánh hai tỷ lệ So sánh hai tỷ lệ
3 So sánh hai mẫu không độc lập 3 So sánh hai mẫu không độc lập
4 Kiểm định Chi-bình phương về tính độc lập 4 Kiểm định Chi-bình phương về tính độc lập
So sánh hai kỳ vọng, trường hợp biết phương sai So sánh hai kỳ vọng, trường hợp biết phương sai
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết - TH hai mẫu độc lập So sánh hai kỳ vọng Kiểm định giả thuyết - TH hai mẫu độc lập So sánh hai kỳ vọng
So sánh hai mẫu không độc lập So sánh hai tỷ lệ So sánh hai mẫu không độc lập So sánh hai tỷ lệ
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
So sánh hai kỳ vọng, trường hợp biết phương sai So sánh hai kỳ vọng
Ví dụ 8
Một công ty sản xuất sơn nghiên cứu về 1 loại phụ gia làm giảm thời gian khô
của sơn. Thực hiện thí nghiệm trên 2 mẫu: mẫu thứ nhất gồm 10 mẫu vật
4 Xác định miền bác bỏ: miền bác bỏ và p-giá trị tương ứng
được sơn bằng loại sơn bình thường; mẫu thứ hai gồm 10 mẫu vật được sơn với
Đối thuyết Miền bác bỏ p - giá trị sơn có chất phụ gia mới. Trong những nghiên cứu trước, biết rằng độ lệch tiêu
H1 : µ1 6= µ2 |z0 | > zα/2 p = 2[1 − Φ(|z0 |)] chuẩn của thời gian khô sau khi quét sơn là 8 phút và không thay đổi khi thêm
H 1 : µ1 < µ 2 z0 < −zα p = Φ(z0 ) phụ gia vào. Trung bình của mẫu 1 và 2 lần lượt là x̄ = 121 phút và ȳ = 112
H 1 : µ1 > µ 2 z0 > zα p = 1 − Φ(z0 ) phút. Với mức ý nghĩa 5%, hãy cho kết luận về loại sơn với chất phụ gia mới.
5 Kết luận: Nếu bác bỏ H0 , ta kết luận H1 đúng với (1 − α)100% độ tin cậy.
Ngược lại ta kết luận chưa đủ cơ sở để bác bỏ H0 với α cho trước. 1 Phát biểu giả thuyết và đối thuyết
(
H0 : µ1 = µ2 chất phụ gia mới không có hiệu quả
H1 : µ1 > µ2 chất phụ gia mới có hiệu quả
So sánh hai kỳ vọng So sánh hai kỳ vọng, trường hợp không biết phương sai, mẫu lớn
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết - TH hai mẫu độc lập So sánh hai kỳ vọng Kiểm định giả thuyết - TH hai mẫu độc lập So sánh hai kỳ vọng
So sánh hai mẫu không độc lập So sánh hai tỷ lệ So sánh hai mẫu không độc lập So sánh hai tỷ lệ
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
So sánh hai kỳ vọng, trường hợp không biết phương sai, mẫu lớn So sánh hai kỳ vọng, trường hợp không biết phương sai, mẫu lớn
Đối với trường hợp mẫu lớn, khi phương sai tổng thể σ12 và σ22 không biết,
ta thay thế bằng các phương sai mẫu S12 và S22 mà không tạo ra nhiều
khác biệt.
Ví dụ 9
Khi cả n > 30 và m > 30, dưới giả thuyết H0 , đại lượng
Khảo sát về chiều cao của sinh viên hai khoa Toán và CNTT: chọn ngẫu nhiên
X̄ − Ȳ 50 sinh viên khoa Toán, tính được chiều cao trung bình là 163 (cm) và độ lệch
Z0 = r (7)
S12 S2 tiêu chuẩn 5 (cm). Đo chiều cao 50 khoa CNTT, có trung bình mẫu là 166
+ 2 (cm) và độ lệch tiêu chuẩn 8 (cm). Với mức ý nghĩa α = 1%, hãy cho kết luận
n m
về chiều cao của sinh viên hai khoa.
sẽ xấp xỉ phân phối chuẩn hóa N (0, 1).
Miền bác bỏ (hoặc p - giá trị) trong trường hợp này được tính tương tự
như trường hợp biết phương sai (thay thế σ1 và σ2 bởi S1 và S2 ).
So sánh hai kỳ vọng, trường hợp không biết phương sai, mẫu nhỏ So sánh hai phương sai
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết - TH hai mẫu độc lập So sánh hai kỳ vọng Kiểm định giả thuyết - TH hai mẫu độc lập So sánh hai kỳ vọng
So sánh hai mẫu không độc lập So sánh hai tỷ lệ So sánh hai mẫu không độc lập So sánh hai tỷ lệ
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
So sánh hai kỳ vọng, mẫu nhỏ, trường hợp σ12 = σ22 = σ 2 So sánh hai kỳ vọng, mẫu nhỏ, trường hợp σ12 = σ22 = σ 2
Trường hợp σ12 = σ22 = σ 2 , ta sử dụng một ước lượng chung cho cả σ12 và
σ22 là Sp2 gọi là phương sai mẫu chung (pooled sample variance) Đặt df = n + m − 2, miền bác bỏ và p - giá trị trong trường hợp này có
dạng
(n − 1)S12 + (m − 1)S22
Sp2 = . (14) Đối thuyết Miền bác bỏ p - giá trị
n+m−2
df
H1 : µ1 6= µ2 |t0 | > tα/2 p = 2P(Tdf ≥ |t0 |)
Thống kê
X̄ − Ȳ H 1 : µ1 < µ 2 t0 < −tαdf p = P(Tdf ≤ t0 )
T0 = s (15)
1 1
H 1 : µ1 > µ 2 t0 > tαdf p = P(Tdf ≥ t0 )
2
Sp +
n m Kết luận: Bác bỏ H0 /Chưa đủ cơ sở để bác bỏ H0 .
có phân phối Student với n + m − 2 bậc tự do.
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết - TH hai mẫu độc lập So sánh hai kỳ vọng Kiểm định giả thuyết - TH hai mẫu độc lập So sánh hai kỳ vọng
So sánh hai mẫu không độc lập So sánh hai tỷ lệ So sánh hai mẫu không độc lập So sánh hai tỷ lệ
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
So sánh hai kỳ vọng, mẫu nhỏ, trường hợp σ12 6= σ22 So sánh hai kỳ vọng, trường hợp không biết phương sai
X̄ − Ȳ
T0 = r . (16)
S12 S22
+ Ví dụ 10
n m
Khi đó T0 có phân phối Student với bậc tự do df được xác định như sau Tại một thành phố, ở khu vực A, người ta chọn ngẫu nhiên 17 sinh viên và cho
làm 1 bài kiểm tra để đo chỉ số IQs, thu được trung bình mẫu là 106 và độ lệch
i2
tiêu chuẩn bằng 10. Tại khu vực B, chỉ số IQs trung bình của một mẫu gồm 14
h
(s12 /n) + (s22 /m)
df = 2 . (17) sinh viên bằng 109 với độ lệch tiêu chuẩn là 7. Giả sử phương sai bằng nhau.
(s1 /n)2 (s 2 /m)2 Có sự khác biệt về chỉ số IQs của sinh viên ở hai khu vực A và B hay không?
+ 2
n−1 m−1 α = 0.02.
Miền bác bỏ trong trường hợp này giống như trường hợp phương sai bằng
nhau, chỉ thay bậc tự do df cho bởi phương trình (17).
So sánh hai kỳ vọng, trường hợp không biết phương sai Mục lục
Với α = 0.05, hãy kiểm tra xem có sự khác biệt về hàm lượng thạch tín ở hai
khu vực này. 4 Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết - TH hai mẫu độc lập So sánh hai kỳ vọng Kiểm định giả thuyết - TH hai mẫu độc lập So sánh hai kỳ vọng
So sánh hai mẫu không độc lập So sánh hai tỷ lệ So sánh hai mẫu không độc lập So sánh hai tỷ lệ
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
• Khảo sát những phần tử thỏa một tính chất A nào đó trên hai tổng thể độc Các bước kiểm định
lập với tỷ lệ tương ứng là p1 và p2 . Từ hai tổng thể chọn ra hai mẫu với cỡ lần
lượt là n và m. Gọi X và Y là số phần tử thỏa tính chất A trong mẫu 1 và mẫu 1 Phát biểu giả thuyết H0 và đối thuyết H1
2. Khi đó, ta có X ∼ B(n, p1 ) và Y ∼ B(m, p2 ). 2 Xác định mức ý nghĩa α
• Bài toán: so sánh tỷ lệ p1 và p2 . 3 Tính thống kê kiểm định
• Bài toán kiểm định giả thuyết gồm các trường hợp sau:
Pˆ1 − Pˆ2
( ( ( Z0 = s (18)
H0 : p1 = p2 H0 : p1 = p2 H0 : p1 = p2
1 1
(a) (b) (c) P̂(1 − P̂) +
H1 : p1 6= p2 H1 : p1 < p2 H1 : p1 > p2 n m
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
Mục lục So sánh hai mẫu không độc lập (paired t - test)
So sánh hai mẫu không độc lập (paired t - test) So sánh hai mẫu không độc lập (paired t - test)
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
So sánh hai mẫu không độc lập (paired t - test) So sánh hai mẫu không độc lập (paired t - test)
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết về tính độc lập Kiểm định giả thuyết về tính độc lập
• Bài toán:
Giả sử mỗi phần tử trong một tổng thể có thể được phân loại theo hai đặc
tính khác nhau, gọi là đặc tính X và đặc tính Y . X có r giá trị và Y có s
giá trị. Gọi pi là xác suất chọn được một phần tử của tổng thể có đặc tính X bằng xi ,
pij = P(X = xi , Y = yj ), qj là xác suất chọn được môt phần tử của tổng thể có đặc tính Y bằng yj .
Ta cần kiểm định xem X có độc lập với Y hay không?
với i = 1, . . . , r và j = 1, . . . , s. pij là xác suất chọn được một phần tử
Phát biểu giả thuyết
trong tổng thể có đặc tính X bằng i và đặc tính Y bằng j.
Gọi H0 : pij = pi qj ∀i = 1, . . . , r , j = 1, . . . , s,
s
X
pi = P(X = xi ) = pij , i = 1, . . . , r , và đối thuyết
j=1 H1 : ∃ (i, j) sao cho pij 6= pi qj
và
r
X
qj = P(Y = yj ) = pij , j = 1, . . . , s.
i=1
Kiểm định giả thuyết về tính độc lập Kiểm định giả thuyết về tính độc lập
Khảo sát N phần tử, ta được bảng kết quả, trong bài toán này gọi là bảng Ước lượng của pi và qj lần lượt bằng
ngẫu nhiên (contingency table):
ni
p̂i = , i = 1, . . . , r ,
HH Y N
y1 y2 ··· ys Tổng hàng mj
X HH q̂j = , j = 1, . . . , s.
N
H
x1 n11 n12 ··· n1s n1
x2 n21 n22 ··· n2s n2 Gọi Nij là số phần tử có đặc tính (xi , yj ) trong N phần tử khảo sát, thì
.. .. .. .. .. .. Nij ∼ B(N, pij ). Khi đó,
. . . . . .
xr nr 1 nr 2 ··· nrs nr E(Nij ) = Npij = Npi qj khi H0 đúng.
Tổng cột m1 m2 ··· ms N
Đặt
Bảng 7 ni mj
eij = N p̂i q̂j =
N
trong đó, các nij gọi là tần số thực nghiệm. eij gọi là tần số lý thuyết.
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết về tính độc lập Kiểm định giả thuyết về tính độc lập
Kiểm định giả thuyết về tính độc lập Kiểm định giả thuyết về tính độc lập
Xr X s
(nij − eij )2 Xr X s
nij2 Một báo cáo khoa học trong y khoa tuyên bố rằng việc sở hữu một thú cưng
2
Q = = − N. (23) trong nhà (chó hoặc mèo) sẽ làm tăng khả năng sống sót của chủ nuôi mà bị
eij eij
i=1 j=1 i=1 j=1 đột quỵ do lên nhồi máu cơ tim. Một mẫu ngẫu nhiên gồm 95 người đã đột
quỵ do đau tim được khảo sát. Dữ liệu của mỗi người khảo sát được chia làm 2
Nếu H0 đúng, thống kê Q 2 có phân phối Chi bình phương với loại:
(r − 1)(s − 1) bậc tự do
- Những người sống sót/tử vong 1 năm sau khi lên đột quỵ (do nhồi máu cơ
4 Bác bỏ H0 khi tim).
Q 2 > χ2(r −1)(s−1) (α). (24)
- Người sống sót/tử vong có nuôi thú cưng trong nhà hay không.
Nếu sử dụng p-giá trị: Kết quả cho bởi bảng sau
p = P χ2(r −1)(s−1) ≥ Q 2 . (25) Có nuôi thú cưng Không nuôi thú cưng
Sống sót 28 44
Bác bỏ H0 khi: p ≤ α. Tử vong 8 15
Kiểm định giả thuyết - Trường hợp một mẫu Kiểm định giả thuyết - Trường hợp một mẫu
Kiểm định giả thuyết - TH hai mẫu độc lập Kiểm định giả thuyết - TH hai mẫu độc lập
So sánh hai mẫu không độc lập So sánh hai mẫu không độc lập
Kiểm định Chi-bình phương về tính độc lập Kiểm định Chi-bình phương về tính độc lập
Kiểm định giả thuyết về tính độc lập Kiểm định giả thuyết về tính độc lập
1 Phát biểu giả thuyết H0 : sự sống sót/tử vong của một người sau khi bị đột
3 Tính giá trị thống kê Q 2
quỵ do đau tim độc lập với việc nuôi thú cưng.
2 X 2
!
2 Tính tần số thực nghiệm: với n1 = 72, n2 = 23, m1 = 36, m2 = 59 2
X nij2 282 442 82 152
Q = −N = + + + −95 = 0.125.
n1 m1 72 × 36 i=1 j=1
eij 27.284 44.716 8.716 15.284
e11 = = = 27.284,
N 95
n1 m2 72 × 59 4 Bác bỏ H0 khi: Q 2 > χ2(r −1)(s−1) (α) = χ21 (0.05).
e12 = = = 44.716,
N 95 Tra bảng Chi - bình phương, ta được χ21 (0.05) = 3.841.
n2 m1 23 × 36 Q 2 = 0.125, suy ra Q 2 < 3.841.
e21 = = = 8.716,
N 95 Ta kết luận chưa đủ cơ sở để bác bỏ H0 tức là sự sống sót/tử vong của
n2 m2 23 × 59 một người sau khi bị đột quỵ do đau tim độc lập với việc nuôi thú cưng.
e22 = = = 14.284.
N 95
Ví dụ 15
Vé máy bay của hãng hàng không Việt Nam Airline được chia làm 3 loại: Hạng
thường (C), hạng trung (B) và hạng doanh nhân (A). Hành khách đi máy bay
của VN Airlines nằm trong 1 trong 2 dạng sau: bay nội địa hoặc quốc tế. Khảo
sát 920 hành khách đã bay của hãng, cho kết quả sau:
Có ý kiến cho rằng hành khách mua loại vé nào (A, B, C) sẽ phụ thuộc vào
việc người đó bay nội địa hay quốc tế. Với mức ý nghĩa 5%, hãy kiểm tra ý kiến
trên.