Professional Documents
Culture Documents
Inferential Statistics
TS Nguyễn Thị Huỳnh Trâm - nthtram@hcmus.edu.vn
Tiến hành nghiên cứu cước phí trung bình hàng tháng của 59 sinh viên trong một
lớp học. Đơn vị là 1000 đồng
STT(xi) Số tiền STT Số tiền STT Số tiền STT Số tiền STT Số tiền STT Số tiền
Cân nặng
Thu nhập
Số tập mẫu có thể có của bài toán lấy một mẫu gồm 30 phần tử trong bài toán một tổng thể gồm 59 phần tử, mỗi
phần tử là cước phí điện thoại hàng tháng, là bao nhiêu? Nêu giá trị cụ thể chi tiết đến hàng đơn vị
Số tập mẫu có thể có của bài toán lấy một mẫu gồm 10 phần tử trong bài toán một tổng thể gồm 59 phần tử, mỗi
phần tử là cước phí điện thoại hàng tháng, là bao nhiêu? Nêu giá trị cụ thể chi tiết đến hàng đơn vị
Measures of Location for Group Data
Trung bình Trung bình cho dữ liệu nhóm Variance Phương sai cho dữ liệu Standard
(Mean) (The Weighted Mean for (Phương sai) nhóm ( Sample Variance Deviation
Group Data) for Group Data) (Độ lêch chuẩn)
Population σ𝑵
𝑖=1 𝑥𝑖
𝝁= 𝑁
σ𝑵 𝑓𝑀
𝝁 = 𝑖=1𝑁 𝑖 𝑖 𝝈𝟐 =
σ𝑵
𝑖=1 𝑥𝑖 −𝝁
𝟐
𝟐
σ𝑵𝑖=1 𝑓𝑖 𝑀𝑖 − 𝝁
𝟐 𝝈
(Tổng thể ) 𝑁 𝝈 =
𝑁
Sample ഥ=
σ𝑛
𝑖=1 𝑥𝑖 σ𝑛𝑖=1 𝑓𝑖 𝑀𝑖 σ𝒏𝑖=1 𝑥𝑖 − 𝒙ഥ 𝟐 σ𝒏𝑖=1 𝑓𝑖 𝑀𝑖 − 𝒙
ഥ 𝟐 𝒔
𝒙 ഥ=
𝒙 𝒔𝟐 = 𝟐
𝒔 =
(Mẫu) 𝑛
𝑛 𝑛−1 𝑛−1
Mi là trị số giữa nhóm σ𝒏
𝑥 𝟐
− 𝒏ഥ𝒙 𝟐
𝑖=1 𝑖
fi: tần số của mỗi nhóm 𝒔𝟐 =
𝑛−1
Cho một tập dữ liệu là độ tuổi của 4 người lập thành một tổng thể N ={18,20,22,24}
18 + 20 + 22 + 24
𝜇= = 21
4
16)….
Dựa vào bảng trên ഥ = trung bình (của 1) mẫu
𝒙
a) Tính độ tuổi trung bình của các tập mẫu trên.
b) Tính trung bình của các trung bình mẫu trên (Rút ra kết luận gì?)
c) Vẽ biểu đồ phân bố tần số của các trung bình mẫu.
Ước lượng khoảng tin cậy của 𝝁 cho trường hợp đã biết 𝝈
Based on a sample of size n from a N μ, 𝜎 2 population with unknown mean µ & known
variance 𝜎 2 , a 100(1 − 𝛼) " confident interval for µ is given by
𝜎 𝜎 𝜎
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼 where 𝑥ҧ is the sample mean
2 𝑛 2 𝑛 2 𝑛
30
𝐶59 = 59,132,290,782,430,700
𝝁
ഥ=30tr
𝒙 ഥ=30tr
𝒙 ഥ=30tr
𝒙
Confidence interval (c.i) Confidence
(Khoảng tin cậy, độ tin cậy) coefficient
(1 − 𝛼) 100%
(𝟏 − 𝜶)𝟏𝟎𝟎% 𝒛𝜶
𝟐
𝛼 𝛼
80% 1.28
mức ý nghĩa mức ý nghĩa
85% 1.44
90% 1.645
95% 1.96
98% 2.33
99% 2.58
99.8% 3.08
99.90% 3.27
Ước lượng khoảng tin cậy của 𝝁 cho trường hợp đã biết 𝝈
Based on a sample of size n from a N μ, 𝜎 2 population with unknown mean µ & known
variance 𝜎 2 , a 100(1 − 𝛼) " confident interval for µ is given by
𝜎 𝜎 𝜎
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼 where 𝑥ҧ is the sample mean
2 𝑛 2 𝑛 2 𝑛
(𝟏 − 𝜶)𝟏𝟎𝟎% 𝒛𝜶
𝟐
80% 1.28
85% 1.44
90% 1.645
95% 1.96
98% 2.33
99% 2.58
99.8% 3.08
99.90% 3.27
27.732
𝜎𝑥ҧ =
30
𝜇𝑥ҧ = 41.101 ഥ
𝒙
𝑥ҧ
28.4 𝑥ҧ = 38,33 48.25
Vậy cước phí trung bình (𝝁) điện thoại hàng tháng
của sinh viên khoảng 28.4 nghìn đến 48.25 nghìn
đồng với độ tin cậy 95%
Vậy cước phí trung bình điện thoại hàng tháng của
sinh viên khoảng 26.8 nghìn đến 39.78 nghìn đồng
với độ tin cậy 80%
𝜎2
30
𝜇 = 41,106
𝑥ҧ
31,85 𝑥ҧ = 38,33 44,81
𝜇?
𝑥ҧ
? 𝑥ҧ = 30𝑡𝑟 ?
Vậy mức lương trung bình của sinh viên IT khoảng 5 tr đến 55.5 tr đồng với
độ tin cậy 95%
Vậy mức lương trung bình của sinh viên IT khoảng 39 tr đến 41 tr đồng với
độ tin cậy 95%
30
𝐶59 = 59,132,290,782,430,700
30
95% 𝐶59 = 56,175,676,243,309,200.00
30
5% 𝐶59 = 2,956,614,539,121,540.00
Vậy cước phí trung bình điện thoại hàng tháng của sinh viên
khoảng 30.51 nghìn đến 43.48 nghìn đồng với độ tin cậy 95%
(Bộ dữ liệu này của em có chứa giá trị trung bình của tổng thể là
41,101. Vậy bộ dữ liệu này thuộc 56,175,676,243,309,200.00.
bộ dữ liệu có chứa giá trị trung bình của tổng thể. Vậy dự đoán này
của em là đúng)
Vậy cước phí trung bình điện thoại hàng tháng của sinh viên
khoảng 29.51 nghìn đến 40.48 nghìn đồng với độ tin cậy 95%
(Bộ dữ liệu này của em không chứa giá trị trung bình của tổng thể
là 41,101. Vậy bộ dữ liệu này thuộc 2,956,614,539,121,540.00
bộ dữ liệu không chứa giá trị trung bình của tổng thể. Vậy dự đoán
này của em là sai)
Ước lượng khoảng tin cậy của 𝝁 cho trường hợp đã biết 𝝈
Based on a sample of size n from a N μ, 𝜎 2 population with unknown mean µ & known
variance 𝜎 2 , a 100(1 − 𝛼) " confident interval for µ is given by
𝜎 𝜎 𝜎
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼
2 𝑛 2 𝑛 2 𝑛
𝝁, 𝝈, 𝒑 ഥ,s, 𝒑
𝒙 ഥ
Mức lương Ước
lượng
điểm
Chiều cao
Thu nhập năm 2020
Thu nhập
Thu nhập
Ước lượng khoảng tin cậy của 𝝁 cho trường hợp đã biết 𝝈
Based on a sample of size n from a N μ, 𝜎 2 population with unknown mean µ & known
variance 𝜎 2 , a 100(1 − 𝛼) " confident interval for µ is given by
𝜎 𝜎 𝜎
𝐿, 𝑈 = 𝑥ҧ ± 𝑧 𝛼 = 𝑥ҧ − 𝑧 𝛼 , 𝑥ҧ +𝑧 𝛼 where 𝑥ҧ is the sample mean
2 𝑛 2 𝑛 2 𝑛
Ước lượng khoảng tin cậy của 𝝁 cho trường hợp chưa biết 𝝈
Based on a sample of size n from a N μ, 𝜎 2 population with unknown mean µ &
unknown variance 𝜎 2 , a 100(1 − 𝛼) " confident interval for µ is given by
𝑠 𝑠 𝑠
𝐿, 𝑈 = 𝑥ҧ ± 𝑡𝛼,𝑛−1 = 𝑥ҧ − 𝑡𝛼,𝑛−1 , 𝑥ҧ + 𝑡𝛼,𝑛−1
2 𝑛 2 𝑛 2 𝑛
where 𝑥ҧ is the sample mean and 𝑠 is the sample variance, n-1 is degrees of freedom
Ước lượng khoảng tin cậy của 𝝁
𝜎 𝜎 𝜎
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼
2 𝑛 2 𝑛 2 𝑛
𝑠 𝑠 𝑠
𝐿, 𝑈 = 𝑥ҧ ± 𝑡𝛼,𝑛−1 = 𝑥ҧ − 𝑡𝛼,𝑛−1 , 𝑥ҧ + 𝑡𝛼,𝑛−1
2 𝑛 2 𝑛 2 𝑛
Ước lượng khoảng tin cậy của sự khác biệt 𝝁𝟏
𝝁𝟐 cho trường hợp đã biết 𝝈𝟏 , 𝝈𝟐
Based on a sample of size n from a N μ1 , 𝜎12 population with unknown mean μ1 &
unknown variance 𝜎12 , and a sample of size m from a N μ2 , 𝜎22 population with
unknown mean μ2 , a 100(1 − 𝛼) " confident interval for μ1 - μ2 is given by
𝜎12 𝜎22
𝐿, 𝑈 = 𝑥ҧ − 𝑦ത ± 𝑧𝛼 + where 𝑥,ҧ 𝑦ത are the sample mean from the 2 populations
2 𝑛 𝑚
𝑠12 𝑠22
𝐿, 𝑈 = 𝑥ҧ − 𝑦ത ± 𝑧𝛼 +
2 𝑛 𝑚
where 𝑥,ҧ 𝑦ത are the sample mean from the 2 populations and s1, s2 are the sample
variance respectively
Ước lượng khoảng tin cậy của sự khác biệt 𝝁𝟏
𝝁𝟐 cho trường hợp chưa biết 𝝈 nhưng 𝝈𝟏 = 𝝈𝟐
Based on a sample of size n from a N μ1 , 𝜎12 population with unknown mean μ1 &
unknown variance 𝜎12 , and a sample of size m from a N μ2 , 𝜎12 population with
unknown mean μ2 , a 100(1 − 𝛼) " confident interval for μ1 - μ2 is given by
1 1
𝐿, 𝑈 = 𝑥ҧ − 𝑦ത ± 𝑡 𝛼
,𝑛+𝑚−2 𝑠𝑝 +
2 𝑛 𝑚
where 𝑥,ҧ 𝑦ത are the sample mean and s1, s2 are the sample variance respectively
𝑛 − 1 𝑠12 + (𝑚 − 1)𝑠22
𝑠𝑝 =
𝑛+𝑚−2
Ước lượng khoảng tin cậy của sự khác biệt 𝝁𝟏
𝝁𝟐 cho trường hợp chưa biết 𝝈 nhưng 𝝈𝟏 ≠ 𝝈𝟐
Based on a sample of size n from a N μ1 , 𝜎12 population with unknown mean μ1 &
unknown variance 𝜎12 , and a sample of size m from a N μ2 , 𝜎12 population with
unknown mean μ2 , a 100(1 − 𝛼) " confident interval for μ1 - μ2 is given by
𝑠2 𝑠2 2
1+ 2
𝑠12 𝑠22 𝑛 𝑚
𝐿, 𝑈 = 𝑥ҧ − 𝑦ത ± 𝑡𝛼,𝑑𝑓 + with df= 2 2 2
2 𝑛 𝑚 𝑠2
1 𝑠2
𝑛 + 𝑚
𝑛−1 𝑚−1
where 𝑥,ҧ 𝑦ത are the sample mean and s1, s2 are the sample variance respectively
Ước lượng khoảng tin cậy của sự khác biệt
𝝁𝟏 & 𝝁𝟐 cho trường hợp chưa biết 𝝈
Based on a sample of size n from a N μ1 , 𝜎12 population with unknown mean μ1 &
unknown variance 𝜎12 , and a sample of size m from a N μ2 , 𝜎22 population with
unknown mean μ2 & unknown variance 𝜎22 , a 100(1 − 𝛼) " confident interval for μ1 - μ2 is
𝜎12 𝜎22
given by 𝐿, 𝑈 = 𝑥ҧ − 𝑦ത ± 𝑧𝛼 + where 𝑥,ҧ 𝑦ത are the sample mean and s1, s2 are the
2 𝑛 𝑚
𝜎
𝑒 = 𝑧𝛼
2 𝑛
𝑒 𝑧𝛼 𝜎 2
2
𝑛=
𝑒
Thống kê suy diễn
𝜎0 𝜎0 𝜎0
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼
2 𝑛 2 𝑛 2 𝑛
𝝁, 𝝈, 𝒑 ഥ,s, 𝒑
𝒙 ഥ
Mức lương
Chiều cao
Thu nhập năm 2020
Thu nhập
Thu nhập
Statistical Hypothesis Test
330ml 1000 lon
5% lỗi ➔ 50 lon
Giả thuyết không (null hypothesis) H0: Mô tả hiện tượng lúc bình thường, tình trạng
nguyên thủy, hoặc tình trạng không chịu tác động gì của hiện tượng.
Giả thuyết đối(alternative hypothesis)Ha: Có nội dung đối lập với giả thuyết không H0.
Ha thể hiện những nghi ngờ, các nhận định về hiện tượng mà bạn đang muốn chứng
minh trong bài toán kiểm định của mình.
Quyết định:
+ Bác bỏ H0 (tức chấp nhận Ha): có bằng chứng thống kê để cho rằng Ha đúng
+ Không bác bỏ H0 (tức loại Ha): không có bằng chứng thống kê để cho rằng Ha đúng
Statistical
Hypothesis Test
330ml
𝑯𝟎 : 𝝁 > 𝝁𝟎 = 𝟑𝟗
𝑯𝒂 : 𝝁 < 𝝁𝟎 = 𝟑𝟗
ഥ
𝒙−𝝁𝟎 𝟑𝟖.𝟑𝟑−𝟑𝟗
Test thống kê 𝒄 = 𝝈/ 𝑛
= 𝟐𝟕.𝟕𝟑/30
= −𝟎. 𝟏𝟑𝟐
Theo phương pháp giá trị tới hạn z = -0.132 > 𝒛𝟎.𝟎𝟓 = −𝟏. 𝟔𝟓
Vậy không đủ bằng chứng thống kê để bác bỏ 𝑯𝟎 : 𝝁 > 𝝁𝟎 = 𝟑𝟗
(Nghĩa là tạm thời chấp nhận H 𝝁 > 𝟑𝟗 )
𝜎 27.731579
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼/2 = 38.33 ± 1.96
𝜎 𝑛 30
30
Vậy cước phí trung bình (𝝁) điện
thoại hàng tháng của sinh viên
khoảng 28.4 nghìn đến 48.25 nghìn
𝜇 = 41,101 đồng với độ tin cậy 95% (Không
biết đúng hay sai)
𝑥ҧ
28.4 𝑥ҧ = 38,33 48.25
𝑯𝟎 : 𝝁 > 𝝁𝟎 = 𝟑𝟗
𝑯𝒂 : 𝝁 < 𝝁𝟎 = 𝟑𝟗
ഥ
𝒙−𝝁𝟎 𝟑𝟖.𝟑𝟑−𝟑𝟗
Test thống kê 𝒄 = 𝝈/ 𝑛
= 𝟐𝟕.𝟕𝟑/30
= −𝟎. 𝟏𝟑𝟐
𝑯𝟎 : 𝝁 > 𝝁𝟎 = 𝟒𝟐
Với độ tin cậy 95% thì 𝒛𝟎.𝟎𝟓 = −𝟏. 𝟔𝟓
𝑯𝒂 : 𝝁 < 𝝁𝟎 = 𝟒𝟐 (Đú𝒏𝒈)
Theo phương pháp giá trị tới hạn z = -0.132 > 𝒛𝟎.𝟎𝟓 = −𝟏. 𝟔𝟓
Vậy không đủ bằng chứng thống kê để bác
Vậy không đủ bằng chứng thống kê để bác bỏ 𝑯𝟎 : 𝝁 > 𝝁𝟎 = 𝟑𝟗 bỏ 𝑯𝟎 : 𝝁 > 𝝁𝟎 = 𝟒𝟐
(Nghĩa là tạm thời chấp nhận H0 𝝁 > 𝟑𝟗 ) (Nghĩa là tạm thời chấp nhận H0 𝝁 > 𝟒𝟐 )
Type Error(Sai lầm)
Mức ý nghĩa 𝜶 là xác suất gặp sai lầm loại 1:
+ Sai lầm loại 1 (Type I error): Khi kiểm định 1 giả thuyết thống kê
ta có thể phạm phải những sai lầm sau: dựa trên những thông tin
từ mẫu ta có thể bác bỏ một giả thuyết mà thực ra giả thuyết này đúng 𝐻0 : 𝜇 > 330𝑚𝑙
𝐻𝑎 : 𝜇 < 330𝑚𝑙
+ 𝛼 là xác suất để chúng ta bác bỏ giả thuyết H0 trong khi thật sự nó đúng
Việc lựa chọn 𝛼 lớn hay bé (𝛼 = 0.1; 𝛼=0.05 hoặc 𝛼=0.01…) tuỳ thuộc vào mức độ tổn thất mà người
làm kiểm định có thể chịu đựng nếu sai lầm loại I diễn ra. Nếu sai lầm loại I gây tổn thất không cao thì
chọn 𝛼 lớn
𝜷 xác suất gặp sai lầm loại 2: là xác suất ta không bác bỏ H0 khi H0 sai
Nếu ta bác bỏ H0 thì chúng ta đang đứng trước nguy cơ phạm sai lầm loại 1 còn nếu ta không
(Người quản lý thị trường tin rằng câu kết luận của họ ഥ=290 𝝁𝟎 = 𝟑𝟑𝟎
𝝁 𝒙
𝜎 𝜎 𝜎
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼
2 𝑛 2 𝑛 2 𝑛
𝑠 𝑠 𝑠
𝐿, 𝑈 = 𝑥ҧ ± 𝑡𝛼,𝑛−1 = 𝑥ҧ − 𝑡𝛼,𝑛−1 , 𝑥ҧ + 𝑡𝛼,𝑛−1
2 𝑛 2 𝑛 2 𝑛
Tiến hành nghiên cứu cước phí trung bình 01 tháng của một mẫu gồm 59 sinh
viên trong một lớp học. Đơn vị là 1000 đồng
STT(xi) Số tiền STT Số tiền STT Số tiền STT Số tiền STT Số tiền STT Số tiền
59 sv
𝒙𝟓𝟗 , 𝒔𝟓𝟗
59 sv 𝝁, 𝝈 N? sv ? 𝝁? 𝝈
30 sv
𝒙𝟑𝟎 , 𝒔𝟑𝟎 59 sv
𝒙𝟓𝟗 , 𝒔𝟓𝟗
30
𝐶𝑁59 = ?
𝐶59 = 59,132,290,782,430,700
95% 56,175,676,243,309,200
5% 2,956,614,539,121,540
𝜎 𝜎 𝜎 𝑠 𝑠 𝑠
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼 𝐿, 𝑈 = 𝑥ҧ ± 𝑡𝛼,𝑛−1 = 𝑥ҧ − 𝑡𝛼,𝑛−1 , 𝑥ҧ + 𝑡𝛼,𝑛−1
2 𝑛 2 𝑛 2 𝑛 2 𝑛 2 𝑛 2 𝑛
59 sv N? sv ? 𝝁? 𝝈
𝝁, 𝝈
30 sv
𝒙𝟑𝟎 , 𝒔𝟑𝟎 59 sv
𝒙𝟓𝟗 , 𝒔𝟓𝟗
𝐶𝑁59 = ?
30
𝐶59 = 59,132,290,782,430,700
95% 56,175,676,243,309,200
5% 2,956,614,539,121,540
𝜎 𝜎 𝜎
𝐿, 𝑈 = 𝑥ҧ ± 𝑧𝛼 = 𝑥ҧ − 𝑧𝛼 , 𝑥ҧ + 𝑧𝛼
2 𝑛 2 𝑛 2 𝑛 ? sv ? 𝝁? 𝝈
59 sv 𝝁, 𝝈
59 sv
𝒙𝟓𝟎 , 𝒔𝟓𝟎
30 sv
𝒙𝟑𝟎 , 𝒔𝟑𝟎
𝑠 𝑠 𝑠
𝐿, 𝑈 = 𝑥ҧ ± 𝑡𝛼,𝑛−1 = 𝑥ҧ − 𝑡𝛼,𝑛−1 , 𝑥ҧ + 𝑡𝛼,𝑛−1
2 𝑛 2 𝑛 2 𝑛
? sv ? 𝝁? 𝝈
59 sv
𝒙𝟓𝟎 , 𝒔𝟓𝟎
𝑠 𝑠 𝑠
𝐿, 𝑈 = 𝑥ҧ ± 𝑡𝛼,𝑛−1 = 𝑥ҧ − 𝑡𝛼,𝑛−1 , 𝑥ҧ + 𝑡𝛼,𝑛−1
2 𝑛 2 𝑛 2 𝑛
Type Error(Sai lầm)
Mức ý nghĩa 𝜶 là xác suất gặp sai lầm loại 1:
+ Sai lầm loại 1 (Type I error): Khi kiểm định 1 giả thuyết thống kê
ta có thể phạm phải những sai lầm sau: dựa trên những thông tin
từ mẫu ta có thể bác bỏ một giả thuyết mà thực ra giả thuyết này đúng 𝐻0 : 𝜇 > 330𝑚𝑙
𝐻𝑎 : 𝜇 < 330𝑚𝑙
+ 𝛼 là xác suất để chúng ta bác bỏ giả thuyết H0 trong khi thật sự nó đúng
Việc lựa chọn 𝛼 lớn hay bé (𝛼 = 0.1; 𝛼=0.05 hoặc 𝛼=0.01…) tuỳ thuộc vào mức độ tổn thất mà người
làm kiểm định có thể chịu đựng nếu sai lầm loại I diễn ra. Nếu sai lầm loại I gây tổn thất không cao thì
chọn 𝛼 lớn
𝜷 xác suất gặp sai lầm loại 2: là xác suất ta không bác bỏ H0 khi H0 sai
Nếu ta bác bỏ H0 thì chúng ta đang đứng trước nguy cơ phạm sai lầm loại 1 còn nếu ta không