You are on page 1of 46

Probability & Statistic

Inferential Statistics
TS Nguyễn Thị Huỳnh Trâm - nthtram@hcmus.edu.vn
Tiến hành nghiên cứu cước phí trung bình hàng tháng của 59 sinh viên trong một
lớp học. Đơn vị là 1000 đồng
STT(xi) Số tiền STT Số tiền STT Số tiền STT Số tiền STT Số tiền STT Số tiền

x1 14 x11 22 x21 36 x31 42 x41 36 x51 15


x2 95 x12 27 x22 37 x32 127 x42 31 x52 27
x3 30 x13 72 x23 25 x33 33 x43 35 x53 48
x4 29 x14 26 x24 26 x34 57 x44 18 x54 28
x5 22 x15 60 x25 35 x35 20 x45 33 x55 35
x6 18 x16 30 x26 28 x36 79 x46 52 x56 47
x7 16 x17 111 x27 63 x37 23 x47 70 x57 11
x8 147 x18 37 x28 7 x38 29 x48 41 x58 15
x9 73 x19 15 x29 31 x39 40 x49 85 x59 32
x10 36 x20 41 x30 26 x40 58 x50 23
Mức lương 𝝁, 𝝈 ഥ,s
𝒙
Chiều cao

Cân nặng

Thu nhập

Thu nhập năm 2020

Số tập mẫu có thể có của bài toán lấy một mẫu gồm 30 phần tử trong bài toán một tổng thể gồm 59 phần tử, mỗi
phần tử là cước phí điện thoại hàng tháng, là bao nhiêu? Nêu giá trị cụ thể chi tiết đến hàng đơn vị

Số tập mẫu có thể có của bài toán lấy một mẫu gồm 10 phần tử trong bài toán một tổng thể gồm 59 phần tử, mỗi
phần tử là cước phí điện thoại hàng tháng, là bao nhiêu? Nêu giá trị cụ thể chi tiết đến hàng đơn vị
Measures of Location for Group Data
Trung bình Trung bình cho dữ liệu nhóm Variance Phương sai cho dữ liệu Standard
(Mean) (The Weighted Mean for (Phương sai) nhóm ( Sample Variance Deviation
Group Data) for Group Data) (Độ lêch chuẩn)
Population σ𝑵
𝑖=1 𝑥𝑖
𝝁= 𝑁
σ𝑵 𝑓𝑀
𝝁 = 𝑖=1𝑁 𝑖 𝑖 𝝈𝟐 =
σ𝑵
𝑖=1 𝑥𝑖 −𝝁
𝟐
𝟐
σ𝑵𝑖=1 𝑓𝑖 𝑀𝑖 − 𝝁
𝟐 𝝈
(Tổng thể ) 𝑁 𝝈 =
𝑁
Sample ഥ=
σ𝑛
𝑖=1 𝑥𝑖 σ𝑛𝑖=1 𝑓𝑖 𝑀𝑖 σ𝒏𝑖=1 𝑥𝑖 − 𝒙ഥ 𝟐 σ𝒏𝑖=1 𝑓𝑖 𝑀𝑖 − 𝒙
ഥ 𝟐 𝒔
𝒙 ഥ=
𝒙 𝒔𝟐 = 𝟐
𝒔 =
(Mẫu) 𝑛
𝑛 𝑛−1 𝑛−1
Mi là trị số giữa nhóm σ𝒏
𝑥 𝟐
− 𝒏ഥ𝒙 𝟐
𝑖=1 𝑖
fi: tần số của mỗi nhóm 𝒔𝟐 =
𝑛−1
Cho một tập dữ liệu là độ tuổi của 4 người lập thành một tổng thể N ={18,20,22,24}
18 + 20 + 22 + 24
𝜇= = 21
4

Lập bảng lấy mẫu cỡ 2 người có hoàn lại


Mẫu 18 20 22 24
1) {18,20} => 𝒙𝟏 =(18+20)/2=19 18 (18,18) ഥ =(18+20)/2=19
𝒙
20
2) {18,22} => 𝒙𝟐 =(18+22)/2=20
22
3) … 24 (24,24)

16)….
Dựa vào bảng trên ഥ = trung bình (của 1) mẫu
𝒙
a) Tính độ tuổi trung bình của các tập mẫu trên.
b) Tính trung bình của các trung bình mẫu trên (Rút ra kết luận gì?)
c) Vẽ biểu đồ phân bố tần số của các trung bình mẫu.
Ước lượng khoảng tin cậy của 𝝁 cho trường hợp đã biết 𝝈
Based on a sample of size n from a N μ, 𝜎 2 population with unknown mean µ & known
variance 𝜎 2 , a 100(1 − 𝛼) " confident interval for µ is given by

𝜎 𝜎 𝜎
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼 where 𝑥ҧ is the sample mean
2 𝑛 2 𝑛 2 𝑛
30
𝐶59 = 59,132,290,782,430,700

𝝁
ഥ=30tr
𝒙 ഥ=30tr
𝒙 ഥ=30tr
𝒙
Confidence interval (c.i) Confidence
(Khoảng tin cậy, độ tin cậy) coefficient
(1 − 𝛼) 100%

Confidence coefficient (Hệ số tin cậy)


1−𝛼

(𝟏 − 𝜶)𝟏𝟎𝟎% 𝒛𝜶
𝟐
𝛼 𝛼
80% 1.28
mức ý nghĩa mức ý nghĩa
85% 1.44
90% 1.645
95% 1.96
98% 2.33
99% 2.58
99.8% 3.08
99.90% 3.27
Ước lượng khoảng tin cậy của 𝝁 cho trường hợp đã biết 𝝈
Based on a sample of size n from a N μ, 𝜎 2 population with unknown mean µ & known
variance 𝜎 2 , a 100(1 − 𝛼) " confident interval for µ is given by

𝜎 𝜎 𝜎
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼 where 𝑥ҧ is the sample mean
2 𝑛 2 𝑛 2 𝑛
(𝟏 − 𝜶)𝟏𝟎𝟎% 𝒛𝜶
𝟐

80% 1.28
85% 1.44
90% 1.645
95% 1.96
98% 2.33
99% 2.58
99.8% 3.08
99.90% 3.27
27.732
𝜎𝑥ҧ =
30

𝜇𝑥ҧ = 41.101 ഥ
𝒙

𝑥30 𝑥30 𝑥10 𝑥10


33.33 38.33 38.7 39.2

28.4 𝑥ҧ = 38,33 48.25


𝜎0
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼/2 =
𝑛 Vậy cước phí trung bình (𝝁) điện thoại hàng tháng
27.731579 của sinh viên khoảng 28.4 nghìn đến 48.25 nghìn
= 38.33 ± 1.96
30 đồng với độ tin cậy 95%
= 38.33 ± 9.923
𝜎2
30
30 𝐶59 = 59,132,290,782,430,700
95%= 56,175,676,243,309,200.00
5%= 2,956,614,539,121,540.00
𝜇 = 41,101

𝑥ҧ
28.4 𝑥ҧ = 38,33 48.25

Vậy cước phí trung bình (𝝁) điện thoại hàng tháng
của sinh viên khoảng 28.4 nghìn đến 48.25 nghìn
đồng với độ tin cậy 95%

Vậy cước phí trung bình điện thoại hàng tháng của
sinh viên khoảng 26.8 nghìn đến 39.78 nghìn đồng
với độ tin cậy 80%
𝜎2
30

𝜇 = 41,106

𝑥ҧ
31,85 𝑥ҧ = 38,33 44,81

28,4 𝑥ҧ = 38,33 48.25


,
25,27 𝑥ҧ = 38,33 51.39
𝜎2
𝑛

𝜇?

𝑥ҧ
? 𝑥ҧ = 30𝑡𝑟 ?

Vậy mức lương trung bình của sinh viên IT khoảng 5 tr đến 55.5 tr đồng với
độ tin cậy 95%

Vậy mức lương trung bình của sinh viên IT khoảng 39 tr đến 41 tr đồng với
độ tin cậy 95%
30
𝐶59 = 59,132,290,782,430,700
30
95% 𝐶59 = 56,175,676,243,309,200.00
30
5% 𝐶59 = 2,956,614,539,121,540.00

Vậy cước phí trung bình điện thoại hàng tháng của sinh viên
khoảng 30.51 nghìn đến 43.48 nghìn đồng với độ tin cậy 95%
(Bộ dữ liệu này của em có chứa giá trị trung bình của tổng thể là
41,101. Vậy bộ dữ liệu này thuộc 56,175,676,243,309,200.00.
bộ dữ liệu có chứa giá trị trung bình của tổng thể. Vậy dự đoán này
của em là đúng)

Vậy cước phí trung bình điện thoại hàng tháng của sinh viên
khoảng 29.51 nghìn đến 40.48 nghìn đồng với độ tin cậy 95%
(Bộ dữ liệu này của em không chứa giá trị trung bình của tổng thể
là 41,101. Vậy bộ dữ liệu này thuộc 2,956,614,539,121,540.00
bộ dữ liệu không chứa giá trị trung bình của tổng thể. Vậy dự đoán
này của em là sai)
Ước lượng khoảng tin cậy của 𝝁 cho trường hợp đã biết 𝝈
Based on a sample of size n from a N μ, 𝜎 2 population with unknown mean µ & known
variance 𝜎 2 , a 100(1 − 𝛼) " confident interval for µ is given by

𝜎 𝜎 𝜎
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼
2 𝑛 2 𝑛 2 𝑛

where 𝑥ҧ is the sample mean


Start with the following exact probability statement, for any 0 < 𝛼 < 1,
𝑥ҧ − μ
𝑃 −𝑧𝛼 < 𝜎 < 𝑧𝛼 = 1 − 𝛼 Vậy cước phí trung bình
2 2
𝑛 (𝝁) điện thoại hàng tháng
𝜎 𝜎
𝑃 −𝑧𝛼 < 𝑥ҧ − μ < 𝑧𝛼 = 1−𝛼 của sinh viên khoảng 28.4
2 𝑛 2 𝑛
nghìn đến 48.25 nghìn
𝜎 𝜎
𝑃 𝑥ҧ − 𝑧𝛼 < μ < 𝑥ҧ + 𝑧𝛼 =1−𝛼 đồng với độ tin cậy 95%
2 𝑛 2 𝑛
30
𝐶59 = 59,132,290,782,430,700
Thống kê suy diễn
Ước lượng khoảng
𝜎0 𝜎0 𝜎0
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼
2 𝑛 2 𝑛 2 𝑛

𝝁, 𝝈, 𝒑 ഥ,s, 𝒑
𝒙 ഥ
Mức lương Ước
lượng
điểm

Chiều cao
Thu nhập năm 2020

Thu nhập

Cân nặng Thu nhập năm 2020

Thu nhập
Ước lượng khoảng tin cậy của 𝝁 cho trường hợp đã biết 𝝈
Based on a sample of size n from a N μ, 𝜎 2 population with unknown mean µ & known
variance 𝜎 2 , a 100(1 − 𝛼) " confident interval for µ is given by

𝜎 𝜎 𝜎
𝐿, 𝑈 = 𝑥ҧ ± 𝑧 𝛼 = 𝑥ҧ − 𝑧 𝛼 , 𝑥ҧ +𝑧 𝛼 where 𝑥ҧ is the sample mean
2 𝑛 2 𝑛 2 𝑛
Ước lượng khoảng tin cậy của 𝝁 cho trường hợp chưa biết 𝝈
Based on a sample of size n from a N μ, 𝜎 2 population with unknown mean µ &
unknown variance 𝜎 2 , a 100(1 − 𝛼) " confident interval for µ is given by

𝑠 𝑠 𝑠
𝐿, 𝑈 = 𝑥ҧ ± 𝑡𝛼,𝑛−1 = 𝑥ҧ − 𝑡𝛼,𝑛−1 , 𝑥ҧ + 𝑡𝛼,𝑛−1
2 𝑛 2 𝑛 2 𝑛
where 𝑥ҧ is the sample mean and 𝑠 is the sample variance, n-1 is degrees of freedom
Ước lượng khoảng tin cậy của 𝝁

𝜎 𝜎 𝜎
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼
2 𝑛 2 𝑛 2 𝑛

𝑠 𝑠 𝑠
𝐿, 𝑈 = 𝑥ҧ ± 𝑡𝛼,𝑛−1 = 𝑥ҧ − 𝑡𝛼,𝑛−1 , 𝑥ҧ + 𝑡𝛼,𝑛−1
2 𝑛 2 𝑛 2 𝑛
Ước lượng khoảng tin cậy của sự khác biệt 𝝁𝟏
𝝁𝟐 cho trường hợp đã biết 𝝈𝟏 , 𝝈𝟐
Based on a sample of size n from a N μ1 , 𝜎12 population with unknown mean μ1 &
unknown variance 𝜎12 , and a sample of size m from a N μ2 , 𝜎22 population with
unknown mean μ2 , a 100(1 − 𝛼) " confident interval for μ1 - μ2 is given by

𝜎12 𝜎22
𝐿, 𝑈 = 𝑥ҧ − 𝑦ത ± 𝑧𝛼 + where 𝑥,ҧ 𝑦ത are the sample mean from the 2 populations
2 𝑛 𝑚

ĐHSP ĐH KHTN μ1 - μ2 < 0 → μ2 > μ1


N μ1 , 𝜎12 N μ2 , 𝜎22
𝑚
𝑛
Ước lượng khoảng tin cậy của sự khác biệt 𝝁𝟏
𝝁𝟐 cho trường hợp chưa biết 𝝈𝟏 , 𝝈𝟐
Based on a sample of size n from a N μ1 , 𝜎12 population with unknown mean μ1 &
unknown variance 𝜎12 , and a sample of size m from a N μ2 , 𝜎22 population with
unknown mean μ2 , a 100(1 − 𝛼) " confident interval for μ1 - μ2 is given by

𝑠12 𝑠22
𝐿, 𝑈 = 𝑥ҧ − 𝑦ത ± 𝑧𝛼 +
2 𝑛 𝑚

where 𝑥,ҧ 𝑦ത are the sample mean from the 2 populations and s1, s2 are the sample
variance respectively
Ước lượng khoảng tin cậy của sự khác biệt 𝝁𝟏
𝝁𝟐 cho trường hợp chưa biết 𝝈 nhưng 𝝈𝟏 = 𝝈𝟐
Based on a sample of size n from a N μ1 , 𝜎12 population with unknown mean μ1 &
unknown variance 𝜎12 , and a sample of size m from a N μ2 , 𝜎12 population with
unknown mean μ2 , a 100(1 − 𝛼) " confident interval for μ1 - μ2 is given by

1 1
𝐿, 𝑈 = 𝑥ҧ − 𝑦ത ± 𝑡 𝛼
,𝑛+𝑚−2 𝑠𝑝 +
2 𝑛 𝑚

where 𝑥,ҧ 𝑦ത are the sample mean and s1, s2 are the sample variance respectively

𝑛 − 1 𝑠12 + (𝑚 − 1)𝑠22
𝑠𝑝 =
𝑛+𝑚−2
Ước lượng khoảng tin cậy của sự khác biệt 𝝁𝟏
𝝁𝟐 cho trường hợp chưa biết 𝝈 nhưng 𝝈𝟏 ≠ 𝝈𝟐
Based on a sample of size n from a N μ1 , 𝜎12 population with unknown mean μ1 &
unknown variance 𝜎12 , and a sample of size m from a N μ2 , 𝜎12 population with
unknown mean μ2 , a 100(1 − 𝛼) " confident interval for μ1 - μ2 is given by

𝑠2 𝑠2 2
1+ 2
𝑠12 𝑠22 𝑛 𝑚
𝐿, 𝑈 = 𝑥ҧ − 𝑦ത ± 𝑡𝛼,𝑑𝑓 + with df= 2 2 2
2 𝑛 𝑚 𝑠2
1 𝑠2
𝑛 + 𝑚
𝑛−1 𝑚−1

where 𝑥,ҧ 𝑦ത are the sample mean and s1, s2 are the sample variance respectively
Ước lượng khoảng tin cậy của sự khác biệt
𝝁𝟏 & 𝝁𝟐 cho trường hợp chưa biết 𝝈
Based on a sample of size n from a N μ1 , 𝜎12 population with unknown mean μ1 &
unknown variance 𝜎12 , and a sample of size m from a N μ2 , 𝜎22 population with
unknown mean μ2 & unknown variance 𝜎22 , a 100(1 − 𝛼) " confident interval for μ1 - μ2 is

𝜎12 𝜎22
given by 𝐿, 𝑈 = 𝑥ҧ − 𝑦ത ± 𝑧𝛼 + where 𝑥,ҧ 𝑦ത are the sample mean and s1, s2 are the
2 𝑛 𝑚

sample variance respectively


Central limit theorem (Định lý giới hạn trung tâm)
Khi cỡ mẫu n đủ lớn thì phân
phối của trung bình mẫu 𝑥ҧ sẽ
xấp xỉ phân phối bình thường
bất chấp tổng thể có phân phối
bất kỳ
Xác định cỡ mẫu n cho bài toán ước lượng
𝜎 𝜎 𝜎
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼
2 𝑛 2 𝑛 2 𝑛

𝜎
𝑒 = 𝑧𝛼
2 𝑛

𝑒 𝑧𝛼 𝜎 2
2
𝑛=
𝑒
Thống kê suy diễn

𝜎0 𝜎0 𝜎0
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼
2 𝑛 2 𝑛 2 𝑛

𝝁, 𝝈, 𝒑 ഥ,s, 𝒑
𝒙 ഥ
Mức lương

Chiều cao
Thu nhập năm 2020

Thu nhập

Cân nặng Thu nhập năm 2020

Thu nhập
Statistical Hypothesis Test
330ml 1000 lon
5% lỗi ➔ 50 lon

𝐻𝑎 : 𝜇 < 330𝑚𝑙 𝐻𝑎 : 𝜇 > 330𝑚𝑙 𝐻𝑎 : 𝜇 ≠ 330𝑚𝑙

Giả thuyết không (null hypothesis) H0: Mô tả hiện tượng lúc bình thường, tình trạng
nguyên thủy, hoặc tình trạng không chịu tác động gì của hiện tượng.
Giả thuyết đối(alternative hypothesis)Ha: Có nội dung đối lập với giả thuyết không H0.
Ha thể hiện những nghi ngờ, các nhận định về hiện tượng mà bạn đang muốn chứng
minh trong bài toán kiểm định của mình.
Quyết định:
+ Bác bỏ H0 (tức chấp nhận Ha): có bằng chứng thống kê để cho rằng Ha đúng
+ Không bác bỏ H0 (tức loại Ha): không có bằng chứng thống kê để cho rằng Ha đúng
Statistical
Hypothesis Test
330ml

𝐻𝑎 : 𝜇 < 330𝑚𝑙 𝐻𝑎 : 𝜇 > 330𝑚𝑙 𝐻𝑎 : 𝜇 ≠ 330𝑚𝑙


𝜎0 27.731579
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼/2 = 38.33 ± 1.96
𝜎2 𝑛 30
30 Vậy cước phí trung bình (𝝁) điện
thoại hàng tháng của sinh viên
khoảng 28.4 nghìn đến 48.25 nghìn
𝜇 = 41,101 đồng với độ tin cậy 95% (Không
biết đúng hay sai)
𝑥ҧ
28.4 𝑥ҧ = 38,33 48.25

𝑯𝟎 : 𝝁 > 𝝁𝟎 = 𝟑𝟗
𝑯𝒂 : 𝝁 < 𝝁𝟎 = 𝟑𝟗

𝒙−𝝁𝟎 𝟑𝟖.𝟑𝟑−𝟑𝟗
Test thống kê 𝒄 = 𝝈/ 𝑛
= 𝟐𝟕.𝟕𝟑/30
= −𝟎. 𝟏𝟑𝟐

Với độ tin cậy 95% thì 𝒛𝟎.𝟎𝟓 = −𝟏. 𝟔𝟓

Theo phương pháp giá trị tới hạn z = -0.132 > 𝒛𝟎.𝟎𝟓 = −𝟏. 𝟔𝟓
Vậy không đủ bằng chứng thống kê để bác bỏ 𝑯𝟎 : 𝝁 > 𝝁𝟎 = 𝟑𝟗
(Nghĩa là tạm thời chấp nhận H 𝝁 > 𝟑𝟗 )
𝜎 27.731579
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼/2 = 38.33 ± 1.96
𝜎 𝑛 30
30
Vậy cước phí trung bình (𝝁) điện
thoại hàng tháng của sinh viên
khoảng 28.4 nghìn đến 48.25 nghìn
𝜇 = 41,101 đồng với độ tin cậy 95% (Không
biết đúng hay sai)
𝑥ҧ
28.4 𝑥ҧ = 38,33 48.25
𝑯𝟎 : 𝝁 > 𝝁𝟎 = 𝟑𝟗
𝑯𝒂 : 𝝁 < 𝝁𝟎 = 𝟑𝟗

𝒙−𝝁𝟎 𝟑𝟖.𝟑𝟑−𝟑𝟗
Test thống kê 𝒄 = 𝝈/ 𝑛
= 𝟐𝟕.𝟕𝟑/30
= −𝟎. 𝟏𝟑𝟐
𝑯𝟎 : 𝝁 > 𝝁𝟎 = 𝟒𝟐
Với độ tin cậy 95% thì 𝒛𝟎.𝟎𝟓 = −𝟏. 𝟔𝟓
𝑯𝒂 : 𝝁 < 𝝁𝟎 = 𝟒𝟐 (Đú𝒏𝒈)
Theo phương pháp giá trị tới hạn z = -0.132 > 𝒛𝟎.𝟎𝟓 = −𝟏. 𝟔𝟓
Vậy không đủ bằng chứng thống kê để bác
Vậy không đủ bằng chứng thống kê để bác bỏ 𝑯𝟎 : 𝝁 > 𝝁𝟎 = 𝟑𝟗 bỏ 𝑯𝟎 : 𝝁 > 𝝁𝟎 = 𝟒𝟐
(Nghĩa là tạm thời chấp nhận H0 𝝁 > 𝟑𝟗 ) (Nghĩa là tạm thời chấp nhận H0 𝝁 > 𝟒𝟐 )
Type Error(Sai lầm)
Mức ý nghĩa 𝜶 là xác suất gặp sai lầm loại 1:

+ Sai lầm loại 1 (Type I error): Khi kiểm định 1 giả thuyết thống kê

ta có thể phạm phải những sai lầm sau: dựa trên những thông tin

từ mẫu ta có thể bác bỏ một giả thuyết mà thực ra giả thuyết này đúng 𝐻0 : 𝜇 > 330𝑚𝑙
𝐻𝑎 : 𝜇 < 330𝑚𝑙
+ 𝛼 là xác suất để chúng ta bác bỏ giả thuyết H0 trong khi thật sự nó đúng

Việc lựa chọn 𝛼 lớn hay bé (𝛼 = 0.1; 𝛼=0.05 hoặc 𝛼=0.01…) tuỳ thuộc vào mức độ tổn thất mà người

làm kiểm định có thể chịu đựng nếu sai lầm loại I diễn ra. Nếu sai lầm loại I gây tổn thất không cao thì

chọn 𝛼 lớn
𝜷 xác suất gặp sai lầm loại 2: là xác suất ta không bác bỏ H0 khi H0 sai

Nếu ta bác bỏ H0 thì chúng ta đang đứng trước nguy cơ phạm sai lầm loại 1 còn nếu ta không

bác bỏ H0 thì ta đối mặt với sai lầm loại 2


Statistical Hypothesis Test
ഥ = 290 (L,U) =(270,310)
𝒙

Vậy lượng nước trung bình trong


lon Pepsi sẽ từ 270ml đến 310ml
với độ tin cậy 95%

(Người quản lý thị trường tin rằng câu kết luận của họ ഥ=290 𝝁𝟎 = 𝟑𝟑𝟎
𝝁 𝒙

có khả năng đúng 95%, rằng công ty sản xuất dối).


(Nhưng có 5% là người quản lý thị trường sai, cty đúng
nhưng người quản lý thị trường không chấp nhận họ sai)
L=270 U=310
𝐻0 : 𝜇 > 330𝑚𝑙 + Bác bỏ H0 (tức chấp nhận Ha): có bằng
𝐻𝑎 : 𝜇 < 330𝑚𝑙 chứng thống kê để cho rằng Ha đúng 𝒛ഥ𝒙
Statistical
Hypothesis Test
ഥ = 310
𝒙 (L,U) =(300,330)
Vậy lượng nước trung bình
trong lon Pepsi sẽ từ 300ml đến
330ml với độ tin cậy 95% 𝝁𝟎 = 𝟑𝟑𝟎
ഥ=310 𝝁
𝒙
(Người quản lý thị trường tin rằng câu kết luận của
họ đúng 95%, rằng công ty sản xuất đúng)
𝐻0 : 𝜇 > 330𝑚𝑙 + Không bác bỏ H0 (tức loại Ha):
L U
𝐻𝑎 : 𝜇 < 330𝑚𝑙 không đủ bằng chứng thống kê để
cho rằng Ha đúng
𝒛ഥ𝒙
Statistical
Hypothesis Test
Ước lượng khoảng tin cậy của 𝝁

𝜎 𝜎 𝜎
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼
2 𝑛 2 𝑛 2 𝑛

𝑠 𝑠 𝑠
𝐿, 𝑈 = 𝑥ҧ ± 𝑡𝛼,𝑛−1 = 𝑥ҧ − 𝑡𝛼,𝑛−1 , 𝑥ҧ + 𝑡𝛼,𝑛−1
2 𝑛 2 𝑛 2 𝑛
Tiến hành nghiên cứu cước phí trung bình 01 tháng của một mẫu gồm 59 sinh
viên trong một lớp học. Đơn vị là 1000 đồng
STT(xi) Số tiền STT Số tiền STT Số tiền STT Số tiền STT Số tiền STT Số tiền

x1 14 x11 22 x21 36 x31 42 x41 36 x51 15


x2 95 x12 27 x22 37 x32 127 x42 31 x52 27
x3 30 x13 72 x23 25 x33 33 x43 35 x53 48
x4 29 x14 26 x24 26 x34 57 x44 18 x54 28
x5 22 x15 60 x25 35 x35 20 x45 33 x55 35
x6 18 x16 30 x26 28 x36 79 x46 52 x56 47
x7 16 x17 111 x27 63 x37 23 x47 70 x57 11
x8 147 x18 37 x28 7 x38 29 x48 41 x58 15
x9 73 x19 15 x29 31 x39 40 x49 85 x59 32
x10 36 x20 41 x30 26 x40 58 x50 23
? sv ? 𝝁? 𝝈

59 sv
𝒙𝟓𝟗 , 𝒔𝟓𝟗
59 sv 𝝁, 𝝈 N? sv ? 𝝁? 𝝈

30 sv
𝒙𝟑𝟎 , 𝒔𝟑𝟎 59 sv
𝒙𝟓𝟗 , 𝒔𝟓𝟗

30
𝐶𝑁59 = ?
𝐶59 = 59,132,290,782,430,700

95% 56,175,676,243,309,200

5% 2,956,614,539,121,540
𝜎 𝜎 𝜎 𝑠 𝑠 𝑠
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼 𝐿, 𝑈 = 𝑥ҧ ± 𝑡𝛼,𝑛−1 = 𝑥ҧ − 𝑡𝛼,𝑛−1 , 𝑥ҧ + 𝑡𝛼,𝑛−1
2 𝑛 2 𝑛 2 𝑛 2 𝑛 2 𝑛 2 𝑛

59 sv N? sv ? 𝝁? 𝝈
𝝁, 𝝈

30 sv
𝒙𝟑𝟎 , 𝒔𝟑𝟎 59 sv
𝒙𝟓𝟗 , 𝒔𝟓𝟗

𝐶𝑁59 = ?
30
𝐶59 = 59,132,290,782,430,700

95% 56,175,676,243,309,200

5% 2,956,614,539,121,540
𝜎 𝜎 𝜎
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼
2 𝑛 2 𝑛 2 𝑛 ? sv ? 𝝁? 𝝈

59 sv 𝝁, 𝝈

59 sv
𝒙𝟓𝟎 , 𝒔𝟓𝟎
30 sv
𝒙𝟑𝟎 , 𝒔𝟑𝟎

𝑠 𝑠 𝑠
𝐿, 𝑈 = 𝑥ҧ ± 𝑡𝛼,𝑛−1 = 𝑥ҧ − 𝑡𝛼,𝑛−1 , 𝑥ҧ + 𝑡𝛼,𝑛−1
2 𝑛 2 𝑛 2 𝑛
? sv ? 𝝁? 𝝈

59 sv
𝒙𝟓𝟎 , 𝒔𝟓𝟎

𝑠 𝑠 𝑠
𝐿, 𝑈 = 𝑥ҧ ± 𝑡𝛼,𝑛−1 = 𝑥ҧ − 𝑡𝛼,𝑛−1 , 𝑥ҧ + 𝑡𝛼,𝑛−1
2 𝑛 2 𝑛 2 𝑛
Type Error(Sai lầm)
Mức ý nghĩa 𝜶 là xác suất gặp sai lầm loại 1:

+ Sai lầm loại 1 (Type I error): Khi kiểm định 1 giả thuyết thống kê

ta có thể phạm phải những sai lầm sau: dựa trên những thông tin

từ mẫu ta có thể bác bỏ một giả thuyết mà thực ra giả thuyết này đúng 𝐻0 : 𝜇 > 330𝑚𝑙
𝐻𝑎 : 𝜇 < 330𝑚𝑙
+ 𝛼 là xác suất để chúng ta bác bỏ giả thuyết H0 trong khi thật sự nó đúng

Việc lựa chọn 𝛼 lớn hay bé (𝛼 = 0.1; 𝛼=0.05 hoặc 𝛼=0.01…) tuỳ thuộc vào mức độ tổn thất mà người

làm kiểm định có thể chịu đựng nếu sai lầm loại I diễn ra. Nếu sai lầm loại I gây tổn thất không cao thì

chọn 𝛼 lớn
𝜷 xác suất gặp sai lầm loại 2: là xác suất ta không bác bỏ H0 khi H0 sai

Nếu ta bác bỏ H0 thì chúng ta đang đứng trước nguy cơ phạm sai lầm loại 1 còn nếu ta không

bác bỏ H0 thì ta đối mặt với sai lầm loại 2


Test For Equality of 2 Normal Means (Known 𝝈𝟏 , 𝝈𝟐 )
Consider the α level test based on a sample of size n from N(µ1, 𝜎12 ) & a sample of size
m from N(µ2, 𝜎22 ), where the samples are indept & both population variances are known
H0 : µ1 = µ2 H0 : µ1 = µ2 H0 : µ1 = µ2
H1 : µ1 ≠ µ2 H1 : µ1 > µ2 H1 : µ1 < µ2
test xത − yത
TS =
statistics σ12 σ22
+
n m
critical TS > zα TS > zα TS < zα
2
region
p-value 2P(Z ≥ v) P(Z ≥ v) 2P(Z ≤ v)

You might also like