You are on page 1of 11

ĐẠI HỌC QUỐC GIA TP.

HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

Xác suất thống kê


Project 1

Topic 1

Lớp CN01 | Nhóm A

Nguyễn Phan Duy Minh - 2052171


Nguyễn Thành Danh - 2052417
Hoàng Nghĩa Hiếu - 2052989

GVHD: Phan Thị Khánh Vân

Tp. Hồ Chí Minh, ngày 1 tháng 5 năm 2022


Lời nói đầu
Xác suất Thống kê là môn học nghiên cứu về toán học nền tảng quan trọng của các mô hình
học máy và phân tích dữ liệu, nghiên cứu các sự việc, hiện tượng ngẫu nhiên và ứng dụng chúng
vào thực tế.

Đối tượng nghiên cứu Xác suất Thống kê là các hiện tượng ngẫu nhiên, các quy luật ngẫu
nhiên mà chúng ta thường gặp trong thực tế, là cơ sở để nghiên cứu Thống kê - môn học nghiên
cứu các các phương pháp thu thập thông tin chọn mẫu, xử lý thông tin, nhằm rút ra các kết luận
hoặc quyết định cần thiết.

Bài báo cáo gồm 4 phần:


1. Bài 1
2. Bài 2

3. Bài 3
4. Bài 4
Chúng em xin cảm ơn cô đã hỗ trợ nhóm chúng em trong quá trình làm bài tập lớn này. Chúng
em mong nhận được nhiều ý kiến đóng góp từ cô để có thể hoàn thiện hơn nữa những bài tập lớn
sau này.

1
Mục lục
1 Bài 1 3
1.1 Đề bài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Bài giải . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Giải thích . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Bài 2 4
2.1 Đề bài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.1 Bài giải . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.2 Giải thích . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3 Bài 3 5
3.1 Đề bài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1.1 Bài giải . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.1.2 Giải thích . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4 Bài 4 8
4.1 Đề bài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.1.1 Bài giải . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.1.2 Giải thích . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

5 Tài liệu tham khảo 10

2
1 Bài 1
1.1 Đề bài
A study was conducted in one city to identify how people use motorcycles, bicycles, and buses.
The records are given in the following table

Motorcycles Bicycles Buses


Female 25 125 100
Male 75 205 120

At the significance level of 5% , can we conclude that there is a difference in the use of means
of transport to work in the two groups of men and women?

1.1.1 Bài giải

1.1.2 Giải thích


• Do đây là bài kiểm tra đánh giá xem liệu có mối quan hệ giữa hai biến định tính hay biến
phân loại (categorical variables) trong một tập dữ liệu hay không, trong trường hợp này là
giữa giới tính và phương tiện, nên dùng kiểm tra Chi-Bình phương hai mẫu.

3
• Dùng công thức :
X (O − E)
x2 =
E
• Trong đó, O là tần suất quan sát được, E là tuần suất ô kì vọng.

• Giải thích code:

– Bước 1: Nhập bảng số liệu vào R với số hàng nrow là 2. Sau đó view bảng để kiểm tra
lỗi nhập xuất.

– Bước 2: Dùng lệnh chisq.test(data) có sẵn trong R.

– Bước 3: Dựa vào output p-value để đánh giá có thể bác bỏ được Null hypothesis hay
không.

2 Bài 2
2.1 Đề bài
A sociological survey was conducted in 5 cities A, B, C, D, E asking the respondents about
their level of satisfaction with the city where they live. The results are as follows:

City Levels of satisfaction


Very Satisfied Relatively Satisfied Very Satisfied
A 220 121 65
B 130 207 75
C 84 54 24
D 156 95 43
E 122 164 73
At the significance level of 3% , test whether the level of life satisfaction is equally distributed
in the 5 cities above.

2.1.1 Bài giải


The problem’s requirement gives us the significance level alpha of 3%
We assume that Level of Satisfaction means the percent of Very Satisfied out of total number
of people in a city. Also, the value n will be assumed to be the number of cities.
We are given n = 5, alpha = 3%.
We are required to test the hypothesis if the level of satisfaction is equally distributed in 5
cities. It also means that the Very Satisfied one would account for 50% of the population.
Null hypothesis: the table is unchanged

Cities A B C D E
Result 0.702 0.498 0.666 0.677 0.543

4
Alternative hypothesis: the table should like this

Cities A B C D E
Result 0.5 0.5 0.5 0.5 0.5

Normal distribution representation


Let’s test the null hypo using Z-test:
X slash = 0.6172 (mean), n = 5, variance = 0.006573, standard deviation = 0.081071, Zob = 0.04,
miu O = 0.5 Z = (X slash – miu O)/(standard deviation/sqrt(n)) = 3.232551
The Z value situated within the far-left side; it means that the null hypothesis is rejected.
It means that if the table remain unchanged, it will always show that the percent of Very
Satisfied is not equally distributed.
Therefore, the alternative hypothesis (it said the table should change) is true.

2.1.2 Giải thích


• Bài toán yêu cầu kiểm định giả thuyết phần trăm người thỏa mãn (very satisfied) của từng
thành phố.

• Ta sẽ gọi giả thuyết không là giả thuyết phần trăm người very satisfied không đều.

• Giả thuyết đối là giả thuyết phần trăm người người very satisfied đều.

3 Bài 3
3.1 Đề bài
The following table shows the number of daily newspapers sold in 5 urban districts:

5
Day Districts
District 1 District 2 District 3 District 4 District 5
Monday 22 18 22 18 18
Tuesday 21 18 22 18 19
Wednesday 25 25 25 19 20
Thursday 24 24 18 20 22
Friday 28 19 15 22 25
Saturday 30 22 28 25 25
Is there any significant difference in the amount of newspapers sold in the 5 districts at
α = 2% ?
Is the amount of newspapers sold affected by days of week?

6
3.1.1 Bài giải

3.1.2 Giải thích


• Trong phần (a) ta phải kiểm tra giả thuyết để xác định được phương pháp kiểm định là F
test và rồi dùng one-way ANOVA để giải quyết bài toán và kết luận.

• Tương tự phần(a) ta cũng xácđịnh được phương pháp kiểm định là F test nhưng ta sử dụng
two-way ANOVA

7
4 Bài 4
4.1 Đề bài
The following table shows the rental rates in 5 cities

City A 900 1200 850 1320 1400 1150 975


City B 625 640 775 1000 690 550 840 750
City C 415 400 420 560 780 620 800 390
City D 410 310 320 280 500 385 440
Cities E 340 425 275 210 575 360

At the significance level of 5% , is there any significant difference in rental rates in the five
cities mentioned above?

8
4.1.1 Bài giải

4.1.2 Giải thích


• Do yêu cầu đề bài và tính chất của bảng tính nên dùng ANOVA để thực hiện

• Tạo giả thuyết NULL và H1:

– Dùng F test, với significant 5 % , tính p-value.

– Dựa vào p-value để kết luận theo yêu cầu đề bài


• Giải thích code:

9
– Bước 1: Nhập bảng số liệu vào, tạo 1 vector hoặc list và kết hợp số liệu bằng c(data)
cho từng hàng.

– Bước 2: Tạo một đối tượng để lưu data và gán tên CG.

– Bước 3: Tạo biến SG và stack up các vector đã tạo ở bước trên.

– Bước 4: Dùng cú pháp tính ANOVA : aov(values ind,data=SG).

– Bước 5: Dùng summary() để trả kết quả

5 Tài liệu tham khảo


• Giáo trình xác suất và thống kê. Nguyễn Đình Huy (chủ biên), Đậu Thế Cấp, Lê Xuân
Đại.(NXB Đại học Quốc gia TPHCM, 2015)

• Xác suất - Thống kê phân tích số liệu. Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy.(NXB
Đại học Quốc gia TPHCM, 2019)

• R for Data Science Authors Hadley Wickham and Garrett Grolemund (2016)

• Applied Statistics and Probability for Engineers. Douglas C. Montgomery, George C. Runger.
(Hoboken, NJ: Wiley, 2007)

10

You might also like