Báo Cáo Bài Tập Lớn: Giảng Viên Hướng Dẫn: Ths. Nguyễn Kiều Dung Danh Sách Nhóm

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

KHOA KỸ THUẬT HOÁ HỌC
BÁO CÁO BÀI TẬP LỚN
MÔN HỌC XÁC SUẤT THỐNG KÊ HỌC KỲ 211
NHÓM: HH08 - ĐỀ TÀI: 02
GIẢNG VIÊN HƯỚNG DẪN: ThS. NGUYỄN KIỀU DUNG

DANH SÁCH NHÓM:
STT Họ và tên MSSV Lớp/Tổ Ngành học Kí tên

1 Phạm Nguyễn Tú Anh 2010873 L12/A Kỹ thuật hoá học
2 Nguyễn Châu Nhả Trang 2010712 L14/A Kỹ thuật hoá học
3 Nguyễn Trần Tú Anh 2010125 L19/A Kỹ thuật hoá học
4 Ngô Trần Phương Nhung 2010493 L19/A Kỹ thuật hoá học
5 Nguyễn Ngọc Minh Thư 2012170 L19/B Kỹ thuật hoá học
Tp. Hồ Chí Minh, Tháng 01/11/2021

BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm HH08
PHÂN CÔNG LÀM VIỆC
STT Họ và tên Nội dung Nhiệm vụ

1 Phạm Nguyễn Tú Anh
2 Nguyễn Châu Nhả Trang
3 Nguyễn Trần Tú Anh
4 Ngô Trần Phương Nhung
5 Nguyễn Ngọc Minh Thư
Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 1

Mục lục
1 HOẠT ĐỘNG 1: 6
1.1 Đề bài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Cơ sở lý thuyết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Thực hiện . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1 Đọc dữ liệu (Import data) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.2 Làm sạch dữ liệu (Data cleaning) . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.3 Làm rõ dữ liệu: (Data visualization) . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng
đến điểm thi cuối kỳ của sinh viên . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.5 Thực hiện dự báo cho điểm Toán của học sinh . . . . . . . . . . . . . . . . . . 19
2 Hoạt động 2 20
2.1 Đề bài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Danh sách bảng

Danh sách hình vẽ

1 Kết quả khi xem 3 dòng đầu tiên của tệp tin "grade.csv".
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Kết quả khi xem 3 dòng đầu tiên của tệp tin "new_DF"
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Kết quả khi kiểm tra dữ liệu khuyết của tệp tin "new_DF"
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4 Kết quả lại dữ liệu khuyết của tệp tin "new_DF"
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
5 Kết quả tính thống kê mô tả cho các biến G1, G2, G3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
6 Kết quả thống kê số lượng sinh viên ở các nhóm thời gian tự học trên tuần
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
7 Kết quả thống kê số lượng sinh viên về số lần không qua môn
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
8 Kết quả thống kê số lượng sinh viên về việc có tham gia lớp học môn Toán ngoài trường
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
9 Kết quả thống kê số lượng sinh viên Nam và Nữ
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
10 Kết quả đồ thị Histogram cho biến G3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
11 Kết quả đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến
studytime
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
12 Kết quả đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến failures
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
13 Kết quả đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến paid
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
14 Kết quả đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến sex
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
15 Kết quả đồ thị phân tán thể hiện phân phối của biến G3 theo biến G1, G2, absences
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
16 Kết quả mô hình hồi quy tuyến tính model_1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
21 Kết quả so sánh mô hình 1 và mô hình 2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
25 Kết quả khi vẽ các đồ thị phân thị phân tích thặng dư
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

26 Kết quả khi thực hiện dự báo

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

ĐỀ TÀI 2
1 HOẠT ĐỘNG 1:
1.1 Đề bài
Tập tin "grade.csv" chứa thông tin về điểm toán của các em học sinh trung học thuộc hai trường
học ở Bồ Đào Nha. Các thuộc tính dữ liệu bao gồm điểm học sinh, nơi cư trú, và một số hoạt động
xã hội khác. Dữ liệu được thu thập bằng cách sử dụng báo cáo của các trường và các kết quả khảo
sát sinh viên. Dữ liệu gốc được cung cấp tại:
https://archive.ics.uci.edu/ml/datasets/student+performance
Các biến chính trong bộ dữ liệu:
• G1: Điểm thi học kì 1.
• G2: Điểm thi học kì 2.
• G3: Điểm cuối khoá.
• studytime: Thời gian tự học trên tuần (1 - ít hơn 2 giờ, 2 - từ 2 đến 5 giờ, 3 - từ 5 đến 10 giờ,
hay 4 - lớn hơn 10 giờ).
• failures: Số lần không qua môn (1, 2, 3, hay 4 chỉ nhiều hơn hoặc bằng 4 lần).
• absences: Số lần nghỉ học.
• paid: Có tham gia các lớp học thêm môn Toán ngoài trường (có / không).
• sex: Giới tính của học sinh. (Nam / nữ).
Các bước thực hiện:
1. Đọc dữ liệu (Import data): "grade.csv"
2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3. Làm rõ dữ liệu: (Data visualization)
(a) Chuyển đổi biến (nếu cần thiết).
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.
4. Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến điểm thi cuối
kỳ của sinh viên.
5. Thực hiện dự báo cho điểm Toán của học sinh.
1.2 Cơ sở lý thuyết

1.3 Thực hiện

1.3.1 Đọc dữ liệu (Import data)
Đọc tệp tin "grade.csv".
CODE:
grade <- read.csv("∼/Desktop/BTL_HK211/Data/grade.csv")

head(grade,3) # xem 3 dong dau tien cua tep tin
RESULT:
Hình 1: Kết quả khi xem 3 dòng đầu tiên của tệp tin "grade.csv".
1.3.2 Làm sạch dữ liệu (Data cleaning)

Trích dữ ra dữ liệu con đặt tên là "new_DF" bao gồm các biến chính mà đề bài đưa ra.
CODE:
new_DF <- grade[,c("G1","G2","G3","studytime","failures","absences","paid","sex")]

head(new_DF,3) # xem 3 dong dau tien cua tep tin
RESULT:
Hình 2: Kết quả khi xem 3 dòng đầu tiên của tệp tin "new_DF"
Kiểm tra dữ liệu khuyết trong tệp tin "new_DF".

CODE:
apply(is.na(new_DF),2,sum) # kiem tra va dem du lieu khuyet

apply(is.na(new_DF),2,which) # xuat vi tri dong chua du lieu khuyet
apply(is.na(new_DF),2,mean) # tinh ti le du lieu khuyet
RESULT:

Hình 3: Kết quả khi kiểm tra dữ liệu khuyết của tệp tin "new_DF"
Nhận xét: Ta nhận thấy có 5 dữ liệu khuyết ở biến G2 (cụ thể ở dòng thứ 2, 6, 9, 80 và 100) và số
lượng dữ liệu khuyết chiếm 1.2658% so với tổng số quan sát của dữ liệu. Vì lượng dữ liệu khuyết trong
tệp tin thấp (dưới 10%) nên ta chọn phương pháp xoá các quan sát mà biến nào chứa dữ liệu khuyết.
CODE:
new_DF <- na.omit(new_DF) # xoa quan sat ma bien G2 chua du lieu khuyet
apply(is.na(new_DF),2,sum) # kiem tra lai xem con du lieu khuyet hay khong
RESULT:
Hình 4: Kết quả lại dữ liệu khuyết của tệp tin "new_DF"
1.3.3 Làm rõ dữ liệu: (Data visualization)

Thực hiện tính các giá trị thống kê mô tả cho các biến G1, G2, G3. Xuất kết quả dưới dạng bảng.
CODE:
mean <- apply(new_DF[,c("G1","G2","G3")],2,mean) # Tinh trung bình mau

sd <- apply(new_DF[,c("G1","G2","G3")],2,sd) # Tinh do lech chuan mau (hieu chinh)
Q1 <- apply(new_DF[,c("G1","G2","G3")],2,quantile,probs=0.25) # Tinh diem phan vi 1
median <- apply(new_DF[,c("G1","G2","G3")],2,median) # Tinh trung vi
Q3 <- apply(new_DF[,c("G1","G2","G3")],2,quantile,probs=0.75) # Tinh diem phan vi 3
min <- apply(new_DF[,c("G1","G2","G3")],2,min) # Tinh gia tri nho nhat
max <- apply(new_DF[,c("G1","G2","G3")],2,max) # Tinh gia tri lon nhat
data.frame(mean,sd,Q1,median,Q3,min,max) # Xuat ket qua duoi dang bang
RESULT:

Hình 5: Kết quả tính thống kê mô tả cho các biến G1, G2, G3
Thống kê số lượng sinh viên ở các nhóm thời gian tự học trên tuần.
CODE:
table(new_DF[,"studytime"]) # Lap bang thong ke so luong cho cac phan loai
RESULT:
Hình 6: Kết quả thống kê số lượng sinh viên ở các nhóm thời gian tự học trên tuần
Thống kê số lượng sinh viên về số lần không qua môn.

CODE:
table(new_DF[,"failures"]) # Lap bang thong ke so luong cho cac phan loai
RESULT:
Hình 7: Kết quả thống kê số lượng sinh viên về số lần không qua môn
Thống kê số lượng sinh viên về việc có tham gia lớp học môn Toán ngoài trường.
CODE:
table(new_DF[,"paid"]) # Lap bang thong ke so luong cho cac phan loai
RESULT:
Hình 8: Kết quả thống kê số lượng sinh viên về việc có tham gia lớp học môn Toán ngoài trường
Thống kê số lượng sinh viên Nam và Nữ.

CODE:
table(new_DF[,"sex"]) # Lap bang thong ke so luong cho cac phan loai
RESULT:

Hình 9: Kết quả thống kê số lượng sinh viên Nam và Nữ
Vẽ đồ thị Histogram cho biến G3.

CODE:
hist(new_DF[,"G3"],xlab="G3",main="Histogram of G3",label=T,col="pink")
# Ve do thi Historgram
RESULT:
Hình 10: Kết quả đồ thị Histogram cho biến G3
Vẽ đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến studytime.
CODE:
boxplot(new_DF[,"G3"]∼new_DF[,"studytime"], xlab="studytime", ylab="G3", main="Boxplot of
G3 for a category of studytime",col=c(2,3,5,7))
# Ve do thi Boxplot
RESULT:

Hình 11: Kết quả đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến studytime
Vẽ đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến failures.
CODE:
boxplot(new_DF[,"G3"]∼new_DF[,"failures"], xlab="failures", ylab="G3", main="Boxplot of G3

for a category of failures",col=c(2,3,5,7))
# Ve do thi Boxplot
RESULT:
Hình 12: Kết quả đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến failures
Vẽ đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến paid.
CODE:

boxplot(new_DF[,"G3"]∼new_DF[,"paid"], xlab="paid", ylab="G3", main="Boxplot of G3 for a

category of paid",col=c(2,3))
# Ve do thi Boxplot
RESULT:
Hình 13: Kết quả đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến paid
Vẽ đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến sex.
CODE:
boxplot(new_DF[,"G3"]∼new_DF[,"sex"], xlab="sex", ylab="G3", main="Boxplot of G3 for a cat-

egory of sex",col=c(5,7))
# Ve do thi Boxplot
RESULT:
Hình 14: Kết quả đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến sex

Vẽ đồ thị phân tán thể hiện phân phối của biến G3 theo của biến G1, G2, absences.
CODE:
par(mfrow = c(1,3))
plot(new_DF[,"G1"],new_DF[,"G3"], xlab="G1", ylab="G3", main="G1 and G3", col="blue")
# ve do thi phan tan G3 theo bien G1
plot(new_DF[,"G2"],new_DF[,"G3"], xlab="G2", ylab="G3", main="G2 and G3", col="red")
# ve do thi phan tan G3 theo bien G2
plot(new_DF[,"absences"],new_DF[,"G3"], xlab="absences", ylab="G3", main="Absences and G3",
col="green")
# ve do thi phan tan G3 theo bien absences
RESULT:
Hình 15: Kết quả đồ thị phân tán thể hiện phân phối của biến G3 theo biến G1, G2, absences
Nhận xét: Từ các đồ thị phân tán, ta có thể nhận xét rằng các biến G1, G2 có mối quan hệ tuyến
tính với biến G3 (nói rõ hơn là mối quan hệ đồng biến vì G1, G2 tăng thì G3 cũng tăng theo), tuy
nhiên với biến absences lại không có quan hệ tuyến tính với biến G3.
1.3.4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng
đến điểm thi cuối kỳ của sinh viên
Ta xây dựng hình hồi quy bội (gọi là mô hình 1) bao gồm:
Biến phụ thuộc: G3.
Biến dư báo (biến độc lập): G1, G2, studytime, failures, absences, paid, sex.
Mô hình được biểu diễn như sau:
G3 = β0 +β1 ×G1+β2 ×G2+β3 ×studytime+β4 ×f ailures+β5 ×absences+β6 ×paidyes+β7 ×sexM
Ta thực hiện ước lượng các hệ số βi , i = 0, ..., 7:
CODE:

model_1 <- lm(G3∼G1+G2+studytime+failures+absences+paid+sex,new_DF)

# Xay dung mo hinh 1
summary(model_1) # Tom tat ket qua mo hinh 1
RESULT:
Hình 16: Kết quả mô hình hồi quy tuyến tính model_1
Nhận xét: Từ kết quả phân tích, ta thu được:
βb0 = −1.68296; βb1 = 0.15705; βb2 = 0.97128; βb3 = −0.15211; βb4 = −0.26358
βb5 = 0.03769; βb6 = 0.12889; βb7 = 0.19834
Như vậy, đường thẳng hồi quy ước lượng cho bởi phương trình sau:
G3 = −1.68296 + 0.15705 × G1 + 0.97128 × G2 − 0.15211 × studytime − 0.26358 × f ailures + 0.03769 ×
absences + 0.12889 × paidyes + 0.19834 × sexM
Kiểm định các hệ số hồi quy:

Giả thuyết H0 : Hệ số hồi quy không có ý nghĩa thống kê (βi = 0)
Giả thuyết H1 : Hệ số hồi quy có ý nghĩa thống kê (βi 6= 0)
+ P r(> |t|) của các hệ số ứng với biến G1, G2, absences bé hơn mức ý nghĩa α = 0.05 nên ta bác
bỏ giả thuyết H0 , chấp nhận giả thuyết H1 . Do đó hệ số ứng với các biến này có ý nghĩa với mô hình
hồi quy ta xây dựng.
+ P r(> |t|) của các hệ số ứng với biến studytime, failure, paidyes, sexM lớn hơn mức ý nghĩa
α = 0.05 nên ta chưa đủ cơ sở để bác bỏ giả thuyết H0 . Do đó hệ số ứng với các biến này không có
ý nghĩa với mô hình hồi quy ta xây dựng. Ta có thể cân nhắc việc loại bỏ các biến này ra khỏi mô hình.
Ta xây dựng thêm các mô hình hồi quy tuyến tính:

Mô hình 2: Loại bỏ đi biến paid từ mô hình 1.
CODE:
model_2 <- lm(G3 G1+G2+studytime+failures+absences+sex,new_DF)

# xay dung mo hinh 2 loai bo bien paid từ mo hinh 1
RESULT:

Mô hình 3: Loại bỏ đi biến sex từ mô hình 2.

CODE:
model_3 <- lm(G3 G1+G2+studytime+failures+absences,new_DF)

# xay dung mo hinh 3 loai bo bien sex từ mo hinh 2
RESULT:
Mô hình 4: Loại bỏ đi biến studytime từ mô hình 3.

CODE:

model_4 <- lm(G3 G1+G2+failures+absences,new_DF)

# xay dung mo hinh 4 loai bo bien studytime từ mo hinh 3
RESULT:
Mô hình 5: Loại bỏ đi biến failures từ mô hình 5.

CODE:
model_5 <- lm(G3 G1+G2+absences,new_DF)

# xay dung mo hinh 5 loai bo bien failures từ mo hinh 4
RESULT:
Ta so sánh các mô hình 1 và mô hình 2:

CODE:

anova(model_1,model_2) # So sanh mo hinh 1 va mo hinh 2
RESULT:
Hình 21: Kết quả so sánh mô hình 1 và mô hình 2

CODE:
RESULT:

CODE:
RESULT:

CODE:
RESULT:

Nhận xét: Dựa trên việc so sánh các mô hình, ta thấy p − value đều lớn hơn mức ý nghĩa α = 0.05,
cho thấy các mô hình ta so sánh có hiệu quả giống nhau. Mặt khác, ta nhận thấy hệ số R2 hiệu chỉnh
ở mô hình 3 cao nhất. Do đó ta lựa chọn mô hình hồi quy phù hợp nhất là mô hình 3.
Phân tích sự tác động của các nhân tố lên điểm thi cuối kỳ:
Như vậy mô hình hồi quy tuyến tính về ảnh hưởng của các nhân tố lên điểm thi cuối kỳ G3 được cho
bởi:
G3 = −1.50268 + 0.15530 × G1 + 0.97637 × G2 − 0.17928 × studytime − 0.27224 × f ailures + 0.03687 ×
absences
Trước hết, ta thấy rằng p − value tương ứng với thống kê F bé hơn 2.2e − 16, có ý nghĩa rất cao. Điều
này chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý nghĩa giải thích rất cao cho biến điểm
thi cuối kỳ.
Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét trọng số (hệ số βi ) và p − value tương ứng. Ta
thấy rằng p − value tương ứng với hai biến G2 bé hơn 2e − 16, điều này nói lên rằng ảnh hưởng của
G2 có ý nghĩa rất cao lên điểm thi cuối kỳ G3. Ngoài ra, biến G1, absence, f ailures ít ảnh hưởng lên
điểm thi cuối kỳ G3 và studytime không ảnh hưởng lên điểm thi cuối kỳ G3.
Mặt khác, hệ số hồi quy βi của một biến dự báo cũng có thể được xem như ảnh hưởng trung bình
lên biến phụ thuộc điểm thi cuối kỳ G3 khi tăng một đơn vị của biến dự báo đó, giả sử rằng các biến
dự báo khác không đổi. Cụ thể, βb1 = 0.15530 thì khi điểm thi học kỳ 1 tăng 1đ, ta có thể kỳ vọng
điểm thi cuối kỳ sẽ tăng lên 0.1553đ về mặt trung bình (giả sử rằng các biến dự báo khác không đổi).
Với βb2 = 0.97637 thì khi điểm thi học kỳ 2 tăng 1đ, ta có thể kỳ vọng điểm thi cuối kỳ sẽ tăng lên
0.97637đ về mặt trung bình (giả sử rằng các biến dự báo khác không đổi). Tương tự, đối với các biến
còn lại.
Hệ số R2 hiệu chỉnh bằng 0.824 nghĩa là 82.4% sự biến thiên trong điểm thi cuối kỳ được giải thích
bởi các biến các biến độc lập.
Kiểm tra các giả định của mô hình

Nhắc lại các giả định của mô hình hồi quy: Yi = β0 + β1 .X1 + ...βi .Xi + i , i = 1, ...n.
+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là
tuyến tính.
+ Sai số có phân phối chuẩn
+ Phương sai của các sai số là hằng số: i ∼ N (0, σ 2 )
+ Các sai số 1 , ..., n thì độc lập với nhau.
Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình:
CODE:
par(mfrow = c(2, 2))

plot(model_3) # Ve do thi phan tich thang du
RESULT:

Hình 25: Kết quả khi vẽ các đồ thị phân thị phân tích thặng dư
Nhận xét:
+ Đồ thị Normal Q-Q cho thấy giả định sai số có phân phối chuẩn chưa thực sự thỏa mãn.
+ Đồ thị thứ 1 (Residuals vs Fitted) cho thấy giả định về tính tuyến tính của dữ liệu hơi bị vi phạm,
ta có thể thấy rằng sự vi phạm này bởi vì trong biến G3 xuất hiện nhiều giá trị ngoại lai.
+ Đồ thị thứ 1 và thứ 3 (Scale - Location) cho ta thấy rằng giả định về tính đồng nhất của phương
sai cũng hơi bị vi phạm. Tuy nhiên, ta cũng thấy này sự vi phạm này tương đối nhỏ và có thể chấp
nhận được.
+ Đồ thị thứ 4 chỉ ra có các quan trắc thứ 141, 260 và 277 có thể là các điểm có ảnh hưởng cao trong
bộ dữ liệu.
1.3.5 Thực hiện dự báo cho điểm Toán của học sinh
Dự báo điểm thi cuối kỳ môn Toán nếu một sinh viên có điểm thi học kỳ 1 là 18, điểm thi cuối học
kỳ 2 là 10, sinh viên này dành từ 5 đến 10 giờ một tuần cho việc tự học, chưa rớt môn lần nào, và số
lần nghỉ học là 3.
CODE:
X = data.frame("G1"=18,"G2"=10,"studytime"=3,"failures"=0,"absences"=3)
predict(model_3,X,interval="confidence")
RESULT:
Hình 26: Kết quả khi thực hiện dự báo
Nhận xét: Điểm thi cuối kỳ trung bình dự báo được là 10.62923đ, khoảng tin cậy cho giá trị dự báo
(9.756087; 11.50236).

2 Hoạt động 2
2.1 Đề bài
Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh viên sử dụng
dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án,... trong chuyên ngành của mình. Ngoài ra
sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung
cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx".
Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình,
nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô hình dữ liệu (model fitting).

TÀI LIỆU THAM KHẢO
1. Hoàng Văn Hà, Bài giảng Xác suất Thống Kê.

2. Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất - Thống kê & Phân tích số liệu, 2019

Báo Cáo Bài Tập Lớn: Giảng Viên Hướng Dẫn: Ths. Nguyễn Kiều Dung Danh Sách Nhóm

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Báo Cáo Bài Tập Lớn: Giảng Viên Hướng Dẫn: Ths. Nguyễn Kiều Dung Danh Sách Nhóm

Uploaded by

Copyright:

Available Formats

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

BÁO CÁO BÀI TẬP LỚN

MÔN HỌC XÁC SUẤT THỐNG KÊ HỌC KỲ 211

NHÓM: HH08 - ĐỀ TÀI: 02

GIẢNG VIÊN HƯỚNG DẪN: ThS. NGUYỄN KIỀU DUNG

STT Họ và tên MSSV Lớp/Tổ Ngành học Kí tên

Tp. Hồ Chí Minh, Tháng 01/11/2021

PHÂN CÔNG LÀM VIỆC

STT Họ và tên Nội dung Nhiệm vụ

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 1

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 2

Danh sách bảng

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 3

Danh sách hình vẽ

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 4

26 Kết quả khi thực hiện dự báo

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 5

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 6

1.3 Thực hiện

grade <- read.csv("∼/Desktop/BTL_HK211/Data/grade.csv")

1.3.2 Làm sạch dữ liệu (Data cleaning)

new_DF <- grade[,c("G1","G2","G3","studytime","failures","absences","paid","sex")]

Kiểm tra dữ liệu khuyết trong tệp tin "new_DF".

apply(is.na(new_DF),2,sum) # kiem tra va dem du lieu khuyet

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 7

1.3.3 Làm rõ dữ liệu: (Data visualization)

mean <- apply(new_DF[,c("G1","G2","G3")],2,mean) # Tinh trung bình mau

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 8

Thống kê số lượng sinh viên về số lần không qua môn.

Thống kê số lượng sinh viên Nam và Nữ.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 9

Hình 9: Kết quả thống kê số lượng sinh viên Nam và Nữ

Vẽ đồ thị Histogram cho biến G3.

Hình 10: Kết quả đồ thị Histogram cho biến G3

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 10

boxplot(new_DF[,"G3"]∼new_DF[,"failures"], xlab="failures", ylab="G3", main="Boxplot of G3

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 11

boxplot(new_DF[,"G3"]∼new_DF[,"paid"], xlab="paid", ylab="G3", main="Boxplot of G3 for a

boxplot(new_DF[,"G3"]∼new_DF[,"sex"], xlab="sex", ylab="G3", main="Boxplot of G3 for a cat-

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 12

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 13

model_1 <- lm(G3∼G1+G2+studytime+failures+absences+paid+sex,new_DF)

Nhận xét: Từ kết quả phân tích, ta thu được:

Kiểm định các hệ số hồi quy:

Ta xây dựng thêm các mô hình hồi quy tuyến tính:

model_2 <- lm(G3 G1+G2+studytime+failures+absences+sex,new_DF)

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 14

Mô hình 3: Loại bỏ đi biến sex từ mô hình 2.

model_3 <- lm(G3 G1+G2+studytime+failures+absences,new_DF)

Mô hình 4: Loại bỏ đi biến studytime từ mô hình 3.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 15

model_4 <- lm(G3 G1+G2+failures+absences,new_DF)

Mô hình 5: Loại bỏ đi biến failures từ mô hình 5.

model_5 <- lm(G3 G1+G2+absences,new_DF)

Ta so sánh các mô hình 1 và mô hình 2:

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 16

anova(model_1,model_2) # So sanh mo hinh 1 va mo hinh 2

Hình 21: Kết quả so sánh mô hình 1 và mô hình 2

Ta so sánh các mô hình 2 và mô hình 3:

anova(model_2,model_3) # So sanh mo hinh 2 va mo hinh 3

Hình 22: Kết quả so sánh mô hình 2 và mô hình 3

Ta so sánh các mô hình 3 và mô hình 4: