You are on page 1of 24

TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM

TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG


KHOA CÔNG NGHỆ THÔNG TIN

BÀI THI CUỐI KÌ MÔN XÁC SUẤT THỐNG KÊ CNTT

PROBABILITY STATISTICS
FINAL EXAMINATION

Người hướng dẫn: ThS NGUYỄN THỊ HUỲNH TRÂM


Người thực hiện: LÂM QUỐC HUY – 52000216
Lớp : 20050301
Khoá : 24

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022


TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM
TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG
KHOA CÔNG NGHỆ THÔNG TIN

BÀI THI CUỐI KÌ MÔN XÁC SUẤT THỐNG KÊ CNTT

PROBABILITY STATISTICS
FINAL EXAMINATION

Người hướng dẫn: ThS NGUYỄN THỊ HUỲNH TRÂM


Người thực hiện: LÂM QUỐC HUY – 52000216
Lớp : 20050301
Khoá : 24

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022


1

LỜI CẢM ƠN
Em là Lâm Quốc Huy thay mặt mọi người viết lên những dòng tri ân này. Những
lời nói cao đẹp xin gửi đến Cô đã giúp đỡ nhóm chúng em nói riêng và cả lớp nói chung
trong suốt quá trình học tập và làm bài, thầy đã giúp đỡ rất nhiều trong công tác định
hình về góc nhìn thực tế của bài báo cáo về đề tài. Những khía cạnh và công việc thực
tế mà có lẽ chúng em sẽ không nêu ra được nếu không có đầy đủ sự trải nghiệm và thấu
hiểu quy trình vận hành. Đồng thời, chúng em cũng muốn gửi lời cảm ơn chân thành đến
tập thể khoa CNTT và toàn thể cán bộ công nhân viên chức trường Đại Học Tôn Đức
Thắng. Những sự cống hiến đóng góp thầm lặng của những con người anh hùng không
tên, bỏ đi lợi ích của mình góp phần tạo nên giá trị to lớn của cả một thể hoàn chỉnh. Xin
chân thành cảm ơn tất cả.
2

ĐỒ ÁN ĐƯỢC HOÀN THÀNH


TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG

Tôi xin cam đoan đây là sản phẩm đồ án của riêng tôi và được sự hướng dẫn của
ThS Nguyễn Thị Huỳnh Trâm; Các nội dung nghiên cứu, kết quả trong đề tài này là
trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây. Những số liệu trong
các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập
từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo.
Ngoài ra, trong đồ án còn sử dụng một số nhận xét, đánh giá cũng như số liệu của
các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc.
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm
về nội dung đồ án của mình. Trường đại học Tôn Đức Thắng không liên quan đến
những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếu có).
TP. Hồ Chí Minh, ngày 12 tháng 06 năm 2022
Tác giả

Lâm Quốc Huy


3

PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN


Phần xác nhận của GV hướng dẫn
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
Tp. Hồ Chí Minh, ngày tháng năm

Nguyễn Thị Huỳnh Trâm

Phần đánh giá của GV chấm bài


_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
_________________________________________________________
Tp. Hồ Chí Minh, ngày tháng năm

Nguyễn Thị Huỳnh Trâm


4

TÓM TẮT

Trình bày tóm tắt vấn đề nghiên cứu, các hướng tiếp cận, cách giải quyết vấn đề
và một số kết quả đạt được, những phát hiện cơ bản trong vòng 1 -2 trang.
1

MỤC LỤC
LỜI CẢM ƠN i
PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN i
TÓM TẮT i
MỤC LỤC 1
DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ, ĐỒ THỊ 1
CHƯƠNG 1 – GIẢ SỬ TẬP DỮ LIỆU THỨ NHẤT 1
1.1 Câu 1 1
1.2 Câu 2 1
1.2 Câu 3 1
1.2 Câu 4 1
1.2 Câu 5 1
1.2 Câu 6 1
1.2 Câu 7 1
1.2 Câu 8 1
CHƯƠNG 2 – GIẢ SỬ TẬP DỮ LIỆU THỨ HAI 1
2.1 Câu 9 1
TÀI LIỆU THAM KHẢO 1
2

DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT

CÁC KÝ HIỆU
M Giới tính nam
W Giới tính nữ
% Đơn vị phần tram.
S Độ lệch chuẩn.
CÁC THUẬT NGỮ
Mean Giá trị trung bình
Median Giá trị trung tâm hay giá trị chính giữa.
Mode Giá trị xuất hiện nhiều nhất.
Standard deviation Độ lệch chuẩn

CÁC CHỮ VIẾT TẮT


SV Sinh viên
3

DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ, ĐỒ THỊ


DANH MỤC HÌNH
Hình 2.1: Kiến trúc FTP 1

DANH MỤC BẢNG


Bảng 3.1 Ví dụ cho chèn bảng 1
4

CHƯƠNG 1 – GIẢ SỬ TẬP DỮ LIỆU THỨ NHẤT


➢ ĐỀ BÀI :
Khảo sát mức lương khởi điểm của sinh viên vừa ra trường của một lớp học
gồm 65 sinh viên. Kết quả được đánh số thứ tự như bảng sau.
● Giới tính :
W là nữ.
M là nam.

STT 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

W M M W M M W M M W M W M W M M M
Giới tính
27 61 52 69 88 85 99 90 77 145 41 83 140 74 143 131 34
Tiền lương

STT 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

W M M M W W W M M W M M W M M W W
Giới tính
59 46 108 61 128 114 138 24 67 130 56 79 145 87 40 119 40
Tiền lương

STT 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51

M M W M M M W W W W M M W M M M W
Giới tính
15 44 113 45 25 94 86 128 69 102 91 106 119 139 67 47 42
Tiền lương

STT 52 53 54 55 56 57 58 59 60 61 62 63 64 65

W W M M M W W W M M M W W M
Giới tính
102 124 31 39 68 105 138 100 84 76 66 128 146 41
Tiền lương
5

1.1 Câu 1 :
➢ Bảng phân bố tần số cho giới tính sinh viên bảng dữ liệu :
● Giới tính :
Số lượng nam giới trong lớp là : 37 M
Số lượng nữ giới trong lớp là : 28 W
Tổng số lượng sinh viên là : 65 WM

Công thức tần suất:


𝑆ố 𝑙ượ𝑛𝑔 đạ𝑖 𝑙ượ𝑛𝑔
𝑇ầ𝑛 𝑠𝑢ấ𝑡 =
𝑇ổ𝑛𝑔 𝑠ố 𝑙ượ𝑛𝑔 𝑐ủ𝑎 𝑡ậ𝑝 𝑑ữ 𝑙𝑖ệ𝑢

37 740
Tần suất nam giới = × 100 = = 56.92%
65 13

28 560
Tần số nữ giới = × 100 = = 43.07%
65 13

GIỚI TÍNH TẦN SỐ TẦN SUẤT

M 37 56.92%
W 28 43.07%

Số mode trong hệ quy chiếu giới tính = 37 M


6

● Biểu đồ phân bố tần số giới tính :

● Source code python :

txt = "W M M W M M W M M W M W
M W M M M W M M M W W W
M M W M M W M M W W M M
W M M M W W W W M M W M
M M W W W M M M W W W M
M M W W M"

data = txt.split(" ")


#1:W
#0:M
7

import matplotlib
from matplotlib import pyplot as plt

for idx,val in enumerate(data):


if val == 'W':
data[idx] = 1
elif val == 'M':
data[idx] = 0

plt.hist(data,bins = 3)
plt.ylim([0,65])
plt.xticks([0.15,0.84],['Nam','Nữ'])
plt.title("Biểu đồ phân bố tần số giới tính",fontsize=14)
plt.ylabel("Số lượng người nam hoặc nữ",fontsize=12)
plt.xlabel("Giới tính",fontsize = 12)
plt.show()

● Kết luận :
■ Vậy chúng ta có tổng cộng 37 sinh viên nam và 28 sinh viên nữ trong
tổng số 65 sinh viên theo học. Trong đó sinh viên nam chiếm tỷ lệ
56.92% và sinh viên nữ chiếm 43.07% và tỷ lệ nam là cao nhất trong
tập dữ liệu này.
8

● Tập dữ liệu tiền lương :


○ Bảng phân bố tần số của tập dữ liệu lương :
■ Giá trị tiền lương nhỏ nhất = 15
■ Giá trị tiền lương lớn nhất = 146
STT KHOẢNG TẦN SỐ TẦN SUẤT
1
1 1-20 1 65 0.015
8
2 21-40 8 65 0.123
10
3 41-60 10 65 0.153
12
4 61-80 12 65 0.184
11
5 81-100 11 65 0.169
9
6 101-120 9 65 0.138
10
7 121-140 10 65 0.153
4
8 141-160 4 65 0.061
Tổng 65 1
9

○ Biểu đồ phân bố tần số của tập dữ liệu tiền lương khởi điểm :

■ Source code python :


inp = "27 61 52 69 88 85 99 90 77 145 41 83 140 74 143 131 34 59 46
108 61 128 114 138 24 67 130 56 79 145 87 40 119 40 15 44 113 45
25 94 86 128 69 102 91 106 119 139 67 47 42 102 124 31 39 68 105
138 100 84 76 66 128 146 41"

data = inp.split(" ")

for idx,val in enumerate(data):


data[idx] = int(val)
10

import matplotlib
from matplotlib import pyplot as plt
plt.hist(data,bins=[0,21,41,61,81,101,121,141,160],rwidth=0.9)
plt.title("Biểu đồ phân bố tần số mức lương khởi điểm SV",fontsize = 14)
plt.ylabel("Số lần xuất hiện",fontsize=12)
plt.xlabel("Khoảng giá trị mức lương",fontsize=12)
plt.show()

○ Tính giá trị trung bình ( Mean )


■ Công thức tính giá trị trung bình :
𝑙ươ𝑛𝑔1 + 𝑙ươ𝑛𝑔2 + …. +𝑙ượ𝑛𝑔𝑁
Trung bình lương = 𝑡ổ𝑛𝑔 𝑠ố 𝑙ượ𝑛𝑔 sinh 𝑣𝑖ê𝑛

27+61+52+69+88+85+99+90+77+145+41+83+140+74+143+131+34+59+46
+108+61+128+114+138+24+67+130+56+79+145+87+40+119+40+15+44+113
+45+25+94+86+128+69+102+91+106+119+139+67+47+42+102+124+31+39+68+105
+138+100+84+76+66+128+146+41
= 65

5460
= = 84
65

○ Tính giá trị trung vị ( Median )


𝑆ố 𝑙ượ𝑛𝑔 sinh 𝑣𝑖ê𝑛
Vị trí trung vị =
2

Nếu vị trí trung vị là số chẵn:


+ Sắp xếp lại dữ liệu theo tứ tự tăng dần
+ Lấy ra dữ liệu ở trị trí tương ứng.
Nếu vị trí trung bị là số lẻ :
+ Sắp xếp lại dữ liệu theo thứ tự tăng dần
+ Tính tổng 2 phần tử ở giữa
+ Chia tổng vừa rồi cho 2
11

𝟔𝟓
= = 𝟑𝟐. 𝟓 =32
𝟐
Do 32 là số chẵn thế cho nên :

Mảng dữ liệu lương chúng ta được sắp xếp lại như sau :

15 24 25 27 31 34 39 40 40 41 41 42 44 45 46 47 52 56 59 61
61 66 67 67 68 69 69 74 76 77 79 83 84 85 86 87 88 90 91 94
99 100 102 102 105 106 108 113 114 119 119 124 128 128 128
130 131 138 138 139 140 143 145 145 146

Median = giá trị ở vị trí 32 = 84

○ Tìm giá trị xuất hiện nhiều nhất (Mode )


■ Giá Trị mode được định nghĩa là giá trị xuất hiện nhiều nhất trong tập
dữ liệu.
● Mode lương sinh viên = 128

○ Tính độ lệch chuẩn của bộ dữ liệu ( standard deviation )


■ Công thức tính độ lệch chuẩn :
𝟏
● 𝑺 = √𝑺Ố 𝑳ƯỢ𝑵𝑮 𝑺𝑰𝑵𝑯 𝑽𝑰Ê𝑵 ∑𝟔𝟓
𝒊=𝟏(𝒍ươ𝒏𝒈𝒊 − 𝑴𝒆𝒂𝒏)
𝟐

● 𝑀𝑒𝑎𝑛 = 84
12

(27−84)2 +(61−84)2 +(52−84)2 +(69−84)2 +(88−84)2 +(85−84)2 +(99−84)2 +(90−84)2


+(77−84)2 +(145−84)2 +(41−84)2 +(83−84)2 +(140−84)2 +(74−84)2 +(143−84)2 +(131−84)2
+(34−84)2 +(59−84)2 +(46−84)2 +(108−84)2 +(61−84)2 +(128−84)2 +(114−84)2 +(138−84)2 +(24−84)2
+(67−84)2 +(130−84)2 +(56−84)2 +(79−84)2 +(145−84)2 +(87−84)2 +(40−84)2 +(119−84)2 +(40−84)2
+(15−84)2 +(44−84)2 +(113−84)2 +(45−84)2 +(25−84)2 +(94−84)2 +(86−84)2 +(128−84)2 +(69−84)2
+(102−84)2 +(91−84)2 +(106−84)2 +(119−84)2 +(139−84)2 +(67−84)2 +(47−84)2 +(42−84)2 +(102−84)2
+(124−84)2 +(31−84)2 +(39−84)2 +(68−84)2 +(105−84)2 +(138−84)2 +(100−84)2 +(84−84)2
+(76−84)2 +(66−84)2 +(128−84)2 +(146−84)2 +(41−84)2
√ 65

= 36.91153665809023
● Kết luận :
○ Vậy trung bình tiền lương sinh viên khi ra trường khởi điểm của sinh
viên vừa ra trường sẽ là 8.400.000 VNĐ
○ Vậy giá trị trung vị của tiền lương sinh viên chính là 8.400.000
VNĐ
○ Vậy giá trị xuất hiện nhiều nhất trong tập dữ liệu là 12.800.000 VNĐ
○ Vậy độ lệch chuẩn của tập dữ liệu lương khởi điểm sinh viên là
36.91153665809023 VNĐ.

1.2 Câu 2 :
Sắp xếp tăng dần 3 số khác không, khác nhau và từ bên phải qua trong MSSV
của bạn. Gọi 3 số đó là abc với a<b<c. Chọn ngẫu nhiên c sinh viên để phỏng
vấn. Tính xác suất để có
a) Có a sinh viên nam
b) Có ít nhất b sinh viên nữ
Ví dụ: Nếu mã số sinh viên của bạn là 64433550 thì a=3 b=4 c=5

MSSV : 52000216

Thì a = 1 , b = 2 , c = 6
13

○ Phát biểu lại đề bài như sau :


Chọn ngẫu nhiên 6 sinh viên để phỏng vấn. Tính xác suất để có :
a ) Có 1 sinh viên là nam.
b ) Có ít nhất 2 sinh viên là nữ.

Thông tin của tập dữ liệu :


65 sinh viên :
+ 37 sinh viên Nam
+ 28 sinh viên Nữ

GIẢI
a. Xác suất có 1 sinh viên là nam :
Gọi A là biến cố có « 1 sinh viên là nam khi lấy ra 6 sinh
viên để phỏng vấn ».

Công thức tính xác suất :


𝑛(𝐴)
P(A) =
𝑛(Ω)
1
Chọn ngẫu nhiên 1 sinh viên nam trong 37 SV nam của lớp : 𝐶37
5
Chọn ngẫu nhiên 5 sinh viên nữ trong 28 SV nữ của lớp : 𝐶28

1 ×𝐶 5
𝐶37 333
28
P(A) = 6 = = 0.044024
𝐶65 7564

Vậy xác suất để chọn ngẫu nhiên 6 sinh viên phỏng vấn có 1 người sinh
viên là nam là : 0.04424.
14

b. Xác suất có ít nhất 2 sinh viên là nữ :


Gọi B là biến cố có « có ít nhất 2 sinh viên là nữ ».

Công thức tính xác suất :


𝑛(𝐵)
P(A) =
𝑛(Ω)
4
Chọn ngẫu nhiên 4 sinh viên nam trong 37 SV nam của lớp : 𝐶37
2
Chọn ngẫu nhiên 2 sinh viên nữ trong 28 SV nữ của lớp : 𝐶28

3
Chọn ngẫu nhiên 3 sinh viên nam trong 37 SV nam của lớp : 𝐶37
3
Chọn ngẫu nhiên 3 sinh viên nữ trong 28 SV nữ của lớp : 𝐶28

2
Chọn ngẫu nhiên 2 sinh viên nam trong 37 SV nam của lớp : 𝐶37
4
Chọn ngẫu nhiên 4 sinh viên nữ trong 28 SV nữ của lớp : 𝐶28

1
Chọn ngẫu nhiên 1 sinh viên nam trong 37 SV nam của lớp : 𝐶37
5
Chọn ngẫu nhiên 5 sinh viên nữ trong 28 SV nữ của lớp : 𝐶28

0
Chọn ngẫu nhiên 0 sinh viên nam trong 37 SV nam của lớp : 𝐶37
6
Chọn ngẫu nhiên 6 sinh viên nữ trong 28 SV nữ của lớp : 𝐶28

1 ×𝐶 5 + 𝐶0 ×𝐶6
𝐶437 ×𝐶228 + 𝐶337 × 𝐶328 +𝐶237 × 𝐶428 + 𝐶37 28 37 28
P(A) = 6
𝐶65
= 0.8240908351

Vậy xác suất để chọn ngẫu nhiên 6 sinh viên phỏng vấn có ít nhất 2 người
sinh viên là nữ là : 0.8240908351.
15

1.3 Câu 3 :
Bảng dữ liệu trên bao gồm hai nhóm nam và nữ. Từ nhóm đã chọn, chọn ngẫu
nhiên 1 bạn để phỏng vấn.
a. Vẽ sơ đồ cây.
b. Tính xác suất chọn được bạn có mức lương thấp hơn mức lương trung
bình.
c. Xem xét 01 chữ số cuối cùng khác không trong MSSV của bạn. Nếu là
số chẵn thì giới tính được chọn là nữ, nếu là số lẻ thì giới tính được chọn
là nam. Tính xác suất chọn được một bạn có mức lương cao hơn mức
lương trung bình mà bạn đó có giới tính theo giới tính vừa được chọn.

Ví dụ: Nếu mã số sinh viên của bạn là 64433550 thì số được chọn là 5. Vậy
giới tính được chọn là nam.

GIẢI
b. Tính xác suất chọn được bạn có mức lương thấp hơn mức lương
trung bình.

Gọi C là biến cố « chọn được bạn có mức lương thấp hơn


mức lương trung bình ».

Công thức tính xác suất :

𝑛(𝐶)
P(C) =
𝑛(Ω)
16

➢ Mức lương trung bình = 84


Danh sách tiền lương sau khi đã được sắp xếp :
15, 24, 25, 27, 31, 34, 39, 40, 40, 41, 41, 42, 44, 45, 46,
47, 52, 56, 59, 61, 61, 66, 67, 67, 68, 69, 69, 74, 76, 77,
79, 83, 84, 85, 86, 87, 88, 90, 91, 94, 99, 100, 102, 102,
105, 106, 108, 113, 114, 119, 119, 124, 128, 128, 128, 130,
131, 138, 138, 139, 140, 143, 145, 145, 146.

Danh sách tiền lương thấp hơn mức lương trung bình :
15, 24, 25, 27, 31, 34, 39, 40, 40, 41, 41, 42, 44, 45,
46, 47, 52, 56, 59, 61, 61, 66, 67, 67, 68, 69, 69, 74,
76, 77, 79, 83

Số lượng mức lương khởi điểm của sinh viên thấp hơn mức lương trung bình
= n(C ) = 32
Không gian mẫu của biến cố C là = n(Ω) = 𝑪𝟏𝟔𝟓

𝟑𝟐 𝟑𝟐
P( C ) = = = 0.4923076923
𝑪𝟏𝟔𝟓 𝟔𝟓

Vậy xác suất để chọn được bạn có mức lương thấp hơn mức lương trình bình
là 0.4923076923

c. Xem xét 01 chữ số cuối cùng khác không trong MSSV của bạn. Nếu là số chẵn
thì giới tính được chọn là nữ, nếu là số lẻ thì giới tính được chọn là nam. Tính x
ác suất chọn được một bạn có mức lương cao hơn mức lương trung bình mà bạ
n đó có giới tính theo giới tính vừa được chọn :

■ MSSV = 52000216
● Số cuối = 6
○ Vậy giới tính được chọn là nữ.

■ Đề bài được phát biểu lại như sau :


● Tính xác suất chọn được một bạn sinh viên nữ có mức lương
cao hơn mức lương trung trình.
17

CHƯƠNG 3 – CƠ SỞ LÝ THUYẾT / NGHIÊN CỨU THỰC


18

TÀI LIỆU THAM KHẢO


Tiếng Việt
1. Quách Ngọc Ân (1992), “Nhìn lại hai năm phát triển lúa lai”, Di tuyền học
ứng dụng, 98(1), tr. 10-16.
2. Bộ nông nghiệp & PTNT (1996), Báo cáo tổng kết 5 năm (1992-1996) phát
triển lúa lai, Hà Nội.
3. Nguyễn Hữu Đống, Đào Thanh Bằng, Lâm Quang Dụ, Phan Đức Trực
(1997), Đột biến – Cơ sở lý luận và ứng dụng, Nhà xuất bản nông nghiệp,
Viện khoa học kỹ thuật nông nghiệp Việt Nam, Hà Nội.
4. Nguyễn Thị Gấm (1996), Phát hiện và đánh giá một số dòng bất dục đực
cảm ứng nhiệt độ, Luận văn thạc sĩ khoa học nông nghiệp, Viện khoa học kỹ
thuật nông nghiệp Việt Nam, Hà Nội.
……….
23. Võ Thị Kim Huệ (2000), Nghiên cứu chẩn đoán và điều trị bệnh…, Luận án
Tiến sĩ y khoa, Trường đại học y Hà Nội, Hà Nội.

Tiếng Anh
28. Anderson J.E. (1985), The Relative Inefficiency of Quota, The Cheese Case,
American Economic Review, 75(1), pp. 178-90.
29. Borkakati R. P.,Virmani S. S. (1997), Genetics of thermosensitive genic
male sterility in Rice, Euphytica 88, pp. 1-7.
30. Boulding K.E. (1955), Economics Analysis, Hamish Hamilton, London.
31. Burton G. W. (1988), “Cytoplasmic male-sterility in pearl millet (penni-
setum glaucum L.)”, Agronomic Journal 50, pp. 230-231.
32. Central Statistical Oraganisation (1995), Statistical Year Book, Beijing.

You might also like