You are on page 1of 12

TRƯỜNG ĐẠI HỌC THƯƠNG MẠI

KHOA THƯƠNG MẠI ĐIỆN TỬ VÀ MARKETING SỐ

BÀI THẢO
LUẬN

Môn: Lý thuyết xác suất thống kê


Giảng viên giảng dạy: Nguyễn Thu Thủy
Nhóm: 3
Lớp học phần: 22104AMAT0111

Hà Nội - 2022

PHIẾU ĐÁNH GIÁ THÀNH VIÊN TRONG NHÓM


Môn: Lý thuyết xác suất thống kê
Nhóm: 3
Lớp HP: 22104AMAT0111
STT STT Họ và tên Mã sinh Nhiệm vụ Đánh giá Chữ ký
viên (điểm 10)
1 23 Phạm Đức Anh 21K610024 Tổng hợp và làm lý 10 anh
thuyết kiểm định,
thuyết trình
2 24 Phạm Vân Anh 21K610028 Tổng hợp và xây dựng 10 anh
bài toán ước lượng,
thuyết trình
3 25 Phạm Xuân Hoàng 21K610010 Làm bài toán ước lượng 9 anh
Anh phương sai
4 26 Phùng Lan Anh 21K610013 Thư ký nhóm, Làm bài 9 anh
toán kiểm định phương
sai
5 27 Trần Hoàng Anh 21K610025 Làm bài toán kiểm định 7 anh
vọng toán
6 28 Trần Thùy Anh 21K610019 Làm bài toán ước lượng 9 anh
phương sai
7 29 Trần Trúc Anh 21K610026 Làm bài toán ước lượng 9 anh
tỷ lệ

8 30 Trần Vân Anh 21K610011 Làm bài toán ước lượng 8 anh
tỷ lệ
9 31 Tưởng Phương 21K610020 Tổng hợp và làm lý 9,5 anh
Anh thuyết kiểm định
10 32 Nguyễn Minh Ánh 21K610032 Trưởng nhóm, giao 10 ánh
việc, tổng hợp bài, làm
slide, thuyết trình
11 33 Nguyễn Ngọc Ánh 21K610030 Làm bài tập kiểm định 9 ánh
tỉ lệ
MỤC LỤC
Phần I: Đặt vấn đề......................................................................................................4
Phần II: Tổng quan về ước lượng.............................................................................4
Phần III: Tổng quan về kiểm định............................................................................4
Phần IV: Xây dựng và giải các bài toán ước lượng.................................................5
Phần V: Xây dựng và giải các bài toán kiểm định..................................................8

PHẦN I: ĐẶT VẤN ĐỀ

1. Vấn đề
Lấy số liệu về số ca covid mới theo ngày ở một quốc gia Châu Á trong giai đoạn đang
diễn ra đại dịch Covid-19 tại https://www.ourworldindata/covid-cases. Tự xây dựng
và giải các bài toán ước lượng, kiểm định vọng toán, tỷ lệ, phương sai.

2. Triển khai vấn đề


Quốc gia Châu Á được lựa chọn: Việt Nam.
Số ngày thống kê: 31 ngày (ngày 8/2 – ngày 10/3)

PHẦN II: TỔNG QUAN VỀ ƯỚC LƯỢNG

1. Ước lượng kỳ vọng toán của một ĐLNN


(TH3 - Chưa biết quy luật phân phối của ĐLNN X, n>30)
- Ước lượng đối xứng: Khoảng tin cậy đối xứng của μlà: ( X -ε ; X +ε )
- Ước lượng chệch trái: (-∞ ; X +ε )
- Ước lượng chệch phải: ( X -ε ; +∞ )

2. Ước lượng phương sai


a. Trường hợp biết trung bình tổng thể
Gọi σ 2 là phương sai tổng thể, với trung bình tổng thể μ, độ tin cậy 1 – α cho trước
Khi đó, khoảng ước lượng phương sai tổng thể được xác định bởi
n n

∑ (x i−μ) 2
∑ ( x i−μ)2
σ ∈ ( i=1
2
; i=1 )
2 2
χ α χ α
(n , ) (n , 1− )
2 2

Trong đó x i là giá trị của đại lượng được khảo sát trong mẫu
b. Trường hợp chưa biết trung bình tổng thể
Gọi σ 2 là phương sai tổng thể. Quan sát n phần tử từ tổng thể với độ lệch chuẩn hiệu
chỉnh s và độ tin cậy 1 – α cho trước

1
Khi đó khoảng ước lượng của phương sai tổng thể là
2 2
(n−1) s (n−1) s
2
σ ∈ ( χ
2 ; χ2 )
α α
(n ;1− ) (n−1 ;1− )
2 2

Khoảng tin cậy :


- Khoảng tin cậy 2 phía của σ 2:
(n−1) S ' 2 (n−1) S ' 2
( 2(n−1) ; 2(n−1) )
χ α/ 2 χ 1−α/ 2

- Khoảng tin cậy phải của σ 2


(n−1) S ' 2
( 2(n−1) ;+∞ )
χα

- Khoảng tin cậy trái của σ 2 :


(n−1) S ' 2
(0; )
χ 2(n−1)
1−∝

3. Ước lượng tỷ lệ
Trên đám đông kích thước N, trong đó có M phần tử mang dấu hiệu A, kí hiệu tỉ lệ
M
các phần tử mang dấu hiệu A trên đám đông là P ( A )= =p
N
+ Bài toán đặt ra: từ mẫu ngẫu nhiên thu được, ước lượng p
+ Để ước lượng p, từ đám đông ta lấy mẫu ngẫu nhiên kích thước n. Kí hiệu n A là số
n
phần tử mang dấu hiệu A trong mẫu. Khi đó ta tính được tần suất f = A hay tỉ lệ phần
n
tử đều mang dấu hiệu A trong mẫu.
f−p
( )
pq U= N (0 ; 1)
+ Vì n đủ lớn nên f N p ;
n
khi pq
n √
Xác suất Khoảng tin cậy
Hai phía
(
P |U|< u α =1−α =γ
2
) ( f −u α
2 √ pq
n
; f +u α
2 √ pq
n
)

Trái P (−uα <U ) =1−α =γ


(0 ; f +uα
√ pq
n
)

Phải P ( U <uα ) =1−α =γ


(f −u α
√ pq
n
; 1)

2
PHẦN III: TỔNG QUAN VỀ KIỂM ĐỊNH
1. Kiểm định giả thuyết về kỳ vọng toán của một ĐLNN
Giả sử ĐLNN X có E(X)=μ, Var(X)=σ2 với μ chưa biết.
Với mức ý nghĩa α ta kiểm định giả thuyết H0: μ=μ0
'2
Lấy mẫu W=(X1,X2,…Xn ) ta có: X ; S
ĐLNN X có phân phối chuẩn với σ2 đã biết
Do X có phân phối chuẩn với σ2 đã biết nên ta có:
2 X  0
X ~ N (; ) U
n 
XDTCKĐ: n

Nếu H0 đúng thì U~N(0,1)

2. Kiểm định giả thuyết về tỷ lệ của đám đông


Giả sử trên một đám đông tỷ lệ phần tử mang dấu hiệu A là p. Với mức ý nghĩa α ta
cần kiểm định giả thuyết H0: p=p0
Chọn từ đám đông mẫu có kích thước n từ đó ta tìm được f là tỷ lệ phần tử mang dấu
hiệu A trên mẫu.
pq
f  N ( p; )
Khi n đủ lớn ta có: n
f  p0
U
p0 q0
XDTCKĐ: n
Nếu H0 đúng thì U≈N(0,1)

3. Kiểm định giả thuyết về phương sai của ĐLNN phân phối chuẩn
Giả sử ĐLNN X có phân phối chuẩn với E(X)=μ, Var(X)=σ2 với σ2 chưa biết.
Với mức ý nghĩa α ta cần kiểm định giả thuyết H0: σ2 = σ02
'2
Lấy mẫu W=(X1,X2,…Xn ) từ đó ta tìm được X ; S
(n  1) S '2
2
 
Do X có phân phối chuẩn nên XDTCKĐ:
 02

Nếu H0 đúng thì


 2 ~  2( n 1)

PHẦN IV: XÂY DỰNG VÀ GIẢI CÁC BÀI TOÁN VỀ ƯỚC LƯỢNG

3
A. Ước lượng kỳ vọng toán:
1. Xây dựng bài toán:
Ước lượng Số ca mắc Covid 19 mới:
a. Trung bình trong ngày.
b. Trung bình tối thiểu trong ngày.
c. Trung bình tối đa trong ngày.

2. Giải bài toán


a. Khảo sát tình hình số ca mắc Covid mới từ 8/2/2022-10/3/2022. Thấy trung bình số
ca mắc mới mỗi ngày là 91739 ca và phương sai mẫu điều chỉnh về số ca mắc mới là
4551483135. Với độ tin cậy 95% bằng khoảng tin cậy đối xứng hãy ước lượng số ca
mắc trung bình trong ngày. Biết độ lệch chuẩn mẫu điều chỉnh là 67464.

b. Bài giải:
Gọi X là số ca mắc mới trong ngày (đơn vị: ca)
Gọi X là số ca mắc trung bình trong ngày ở trên mẫu (đơn vị: ca)
Gọi μ là số ca mắc trung bình trong ngày ở trên đám đông (đơn vị: ca)
2
σ
Vì n= 31>30 nên X có phân phối xấp xỉ chuẩn: X ≅ N( μ; )
n
X−μ
Do đó: U= σ ≅ N(0;1) . Ta cần phải tìm phân vị u α sao cho:
2
√n

P ( -u α < U < u α ) = 1 – α
2 2

X−μ
→ P ( -u α < σ < uα ) = 1 – α
2 2
√n

σ σ
→ P ( X - uα . < μ < X + uα . )=1–α
2 √n 2 √n

→ P ( X -ε < μ < X +ε ) = 1 – α .
σ
Với ε =u α .
2 √n

Với γ=0,95 → α =0,05 → u α = u =1,96  ; 0,025


'
σ ≈ s = 67464
2

4
σ 67464
→ ε =u α . = 1,96.
2 √n √ 31
Vậy với độ tin cậy 95%, khoảng tin cậy đối xứng của μ là :
67464 67464
( 91739 - 1,96. ; 91739 + 1,96. )
√ 31 √ 31
= ( 67989,89149 ; 115488, 1085) ca.

B. Ước lượng phương sai.


1. Xây dựng bài toán: Ước lượng độ phân tán:
a. Trung bình của số ca mắc mới trong ngày.
b. Tối thiểu số ca mắc mới trong ngày.
c. Tối đa số ca mắc mới trong ngày.

2.Giải bài toán c:


Khảo sát số ca mắc COVID-19 từ ngày 8.2 tới 10.3 (31 ngày) thấy trung bình mẫu
bằng 91739 ca và độ lệch chuẩn mẫu bằng 67464. Biết rằng số ca nhiễm là biến ngẫu
nhiên phân phối chuẩn.
Ước lượng độ phân tán tối đa số ca mắc mới trong ngày với độ tin cậy 95%.
Giải
n = 31, s = 67464
Ước lượng độ phân tán tối đa về số ca nhiễm trong một ngày với độ tin cậy 95%
2
2
(n−1) S
0 < σ < 2(n−1)
χ 1−∝
1 – α = 0.95
 χ 21−∝
(n−1)
= χ 20.95
(30)
= 18.4926
2
(31−1)67464
0<σ < 2
18.4926
 0 < σ 2 < 7383587969
 0 < σ < 85927.80673
Với độ tin cậy 95%, độ phân tán về số ca nhiễm COVID-19 tối đa trong ngày nằm
trong khoảng (0; 85927.80673)

C. Ước lượng tỷ lệ.


1. Xây dựng bài toán :
a. Tỉ lệ các ngày có số ca mắc mới lơn hơn 50,000 ca
b. Tỉ lệ tối đa các ngày có số ca mắc mới nhỏ hơn 50,000 ca
c. Tỉ lệ tối thiểu các ngày có số ca mắc mới nhỏ hơn 50,000 ca

5
2. Giải bài toán c:
Khảo sát tình hình số ca mắc Covid mới trong 1 tháng (31 ngày) kể từ 8/2/2022 –
10/3/2022 thì thấy có 50,000 ca mắc mới mỗi ngày và tổng số ca mắc trong 31 ngày là
2,843,936 ca. Với độ tin cậy 95% hãy ước lượng tỉ lệ số ca mắc tối thiểu mỗi ngày tại
Việt Nam.
Bài giải :
Gọi f là tỷ lệ số ca mắc Covid trên mẫu
Gọi p là tỷ lệ số ca mẵ Covid mỗi ngày

Vì n khá lớn nên : f N p ;( pq


n )
f−p
U= N (0 ; 1)
Xây dựng thống kê:
√ pq
n
Với độ tin cậy γ=1−α ta cần tìm phân vị uα sao cho:
P ( U <uα ) =1−α =γ

Thay vào biểu thức U ta được: P p> f − ( √ )


pq
∙ u =1−α
n α
nA 50000
Vì p chưa biết và n khá lớn nên p ≈ f =
= =0,0175
n 2843936
q ≈ 1−f =1−0,0175=0,9825
γ=0,95→ α =0,05 →u α =u0,05=1,65
Ta có khoảng tin cậy bên phải của p là:

(0,0175−
√ 0,0175 ∙ 0,9825
2843936
∙ 1,65; 1) hay (0,0173 ;1)

Vậy với độ tin cậy γ=0,95 tỉ lệ số ca mắc Covid tối thiểu mỗi ngày là (0,0173 ;1)

PHẦN V: XÂY DỰNG VÀ GIẢI CÁC BÀI TOÁN VỀ KIỂM ĐỊNH

A. Kiểm định kì vọng toán


1. Khảo sát tình hình số ca mắc Covid mới từ 8/2/2022-10/3/2022. Thấy trung bình số
ca mắc mới mỗi ngày là 91739 ca và phương sai mẫu điều chỉnh về số ca mắc mới là
4551483135. Với độ tin cậy 95% bằng khoảng tin cậy đối xứng hãy ước lượng số ca
mắc trung bình trong ngày. Biết độ lệch chuẩn mẫu điều chỉnh là 67464.

2. Bài giải:
Gọi X là số ca mắc mới trong ngày (đơn vị: ca)
Gọi X là số ca mắc trung bình trong ngày ở trên mẫu (đơn vị: ca)
Gọi μ là số ca mắc trung bình trong ngày ở trên đám đông (đơn vị: ca)

6
2
σ
Vì n= 31>30 nên X có phân phối xấp xỉ chuẩn: X ≅ N( μ; )
n
X−μ
Do đó: U= σ ≅ N(0;1). Ta cần phải tìm phân vị u α sao cho:
2
√n

P ( -u α < U < u α ) = 1 – α
2 2

X−μ
→ P ( -u α < σ < uα ) = 1 – α
2 2
√n

σ σ
→ P ( X - uα . < μ < X + uα . )=1–α
2 √n 2 √n

→ P ( X -ε < μ < X +ε ) = 1 – α .
σ
Với ε =u α .
2 √n

Với γ=0,95 → α =0,05 → u α = u =1,96  ; 0,025


'
σ ≈ s = 67464
2

σ 67464
→ ε =u α . = 1,96.
2 √n √ 31
Vậy với độ tin cậy 95%, khoảng tin cậy đối xứng của μ là :
67464 67464
( 91739 - 1,96. ; 91739 + 1,96. )
√ 31 √ 31
= ( 67989,89149 ; 115488, 1085) ca

B. Kiểm định tỉ lệ 


1. Kiểm định tỷ lệ ngày có số ca mắc Covid-19 mới
Bài toán 1: Điều tra 31 ngày (từ ngày 8/2/2022 đến ngày 10/3/2022), số mắc Covid-
19 được thu thập trong file excel. Với mức ý nghĩa 5%, có thể nói rằng tỷ lệ ngày có
số mắc Covid-19 mới từ 50000 ca đến 100000 ca là 20% hay không?
Bài toán 2: Điều tra 31 ngày (từ ngày 8/2/2022 đến ngày 10/3/2022), số mắc Covid-
19 được thu thập trong file excel. Có ý kiến cho rằng, tỷ lệ ngày có số ca mắc Covid-
19 mới lớn hơn 100000 ca là cao hơn 35%. Với mức ý nghĩa 5%, hãy kiểm định ý
kiến trên có đúng không?
Bài toán 3: Điều tra 31 ngày (từ ngày 8/2/2022 đến ngày 10/3/2022), số mắc Covid-
19 được thu thập trong file excel. Có ý kiến cho rằng, tỷ lệ ngày có số mắc Covid-19
mới ít hơn 50000 ca là 40%. Với mức ý nghĩa 5%, hãy kiểm định ý kiến trên có đúng
không?

7
2. Giải Bài toán 2:
Giải:
Gọi f là tỷ lệ ngày có số ca mắc Covid-19 mới lớn hơn 100000 ca trên mẫu
Gọi p là tỷ lệ ngày có số ca mắc Covid-19 mới lớn hơn 100000 ca trên đám đông
pq
Vì n khá lớn nên:    f ≅ N ( p ; )
n

Với mức ý nghĩa α =0,05 , cần kiểm định { H 0: p= p0 ( ¿ 0,35 )


H 1 : p> p0 (¿ 0,35)

f − p0
U=
XDTCKĐ:    
√ p0 q0  
n

Nếu H 0 đúng thì U ≅ N (0; 1). Ta tìm được phân vị chuẩn U sao cho ¿. Vì α khá bé,
nên theo nguyên lý xác suất nhỏ ta có miền bác bỏ:
W α ={ utn :utn >U α }
Trong đó:
f − p0
utn =

Ta có:
√ p0 q 0
n

U α =U 0.05=1,65
Theo mẫu số liệu ta có:
12
f=
31

Trong đó: m là số ngày có số ca mắc Covid-19 mới lớn hơn 100000 ca trên mẫu. 
Trong file excel ta tìm m bằng hàm =COUNTIF(B2:B32,”>100000”) với B2:B32 là
cột chứa dữ liệu số ca Covid-19 mới mỗi ngày.

Suy ra:
12
−0,35
31
utn = =0,433

√ 0,35.0,65
31

=> utn ∉ W α => Chưa có cơ sở bác bỏ H 0

Kết luận: Với mức ý nghĩa 5%, có thể nói rằng tỷ lệ ngày có số ca mắc Covid-19 mới
lớn hơn 100000 ca là KHÔNG cao hơn 35%. (Ở bài toán này, ta có thể kết luận tỷ lệ
ngày có số ca mắc Covid-19 mới lớn hơn 100000 ca là 35% với mức ý nghĩa 5%)

8
C. Kiểm định phương sai
1. XÂY DỰNG BÀI TOÁN: Kiểm định số ca mắc covid
Với mức ý nghĩa 0,05, ta có thể nói rằng:

a. Độ đồng đều của số ca mắc mới trong ngày đang thay đổi?

b. Phương sai của số ca mắc mới là nhỏ hơn 50,000 ca?

c. Phương sai của số ca mắc mới là lớn hơn 50,000 ca?

2. Giải bài toán c:


Đặt X là số ca mắc mới trong ngày, theo giả thiết, X ~ N(μ ;  2 ), trong đó µ là số ca
trung bình, 2 là phương sai của số ca mắc, cả hai đại lượng này đều chưa biết. n = 31

Với bộ số liệu này, tính các thống kê đặc trưng mẫu được kết quả:
2
x=91739,87 ; s =80645172,04 ; s=8980,27

Câu hỏi yêu cầu kiểm định xem số ca mắc trong ngày có lớn hơn 50,000 hay không,
với α = 0,05. Cặp giả thuyết là:

{ H 0 : μ=50000
H 1 : μ> 50000

Trong đó giả thuyết H0 nghĩa là số ca trung bình không tăng, H1 là số ca trung bình
có tăng lên

( x−μ ) √n
Tiêu chuẩn kiểm định T = ; miền bác bỏ H 0:
s

W α ={T :T >t α }
( n−1)

Với mẫu cụ thể trên,

( x−μ0 ) √ n ( 91739,87−50000 ) √ 31
T qs= = =25,88
s 8980,27
t α =t 0,025 =2,048 ⇒ W α ={ T :|T |>2,048 }
( n−1) ( 30 )

Do đó |Tqs| < 2,048, chưa có cơ sở bác bỏ H0, hay có thể hiểu H0 được coi là đúng,
có thể nói là đạt tiêu chuẩn

9
10

You might also like