Professional Documents
Culture Documents
Phần 2: Xử lý số liệu Bài tập 6. Tập tin "diem - so.csv" chứa thông tin về điểm toán của các em học sinh trung
Phần 2: Xử lý số liệu Bài tập 6. Tập tin "diem - so.csv" chứa thông tin về điểm toán của các em học sinh trung
Bài tập 6. Tập tin "diem_so.csv" chứa thông tin về điểm toán của các em học sinh trung
học thuộc hai trường học ở Bồ Đào Nha. Các thuộc tính dữ liệu bao gồm điểm học sinh,
nơi cư trú, và một số hoạt động xã hội khác. Dữ liệu được thu thập bằng cách sử dụng báo
cáo của các trường và các kết quả khảo sát sinh viên. Dữ liệu gốc được cung cấp tại:
https://archive.ics.uci.edu/ml/datasets/student+performance.
• studytime: Thời gian tự học trên tuần (1- ít hơn 2 giờ, 2 - từ 2 đến 5 giờ, 3 - từ 5-
• failures: số lần không qua môn ( 1,2,3, hoặc 4 chỉ nhiều hơn hoặc bằng 4 lần).
• paid - Có tham gia các lớp học thêm môn Toán ngoài trường (có/không).
4. Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến
điểm thi cuối kỳ của sinh viên.
Giải thích:
- Đọc dữ liệu và lưu với tên diem_so
- Trích 3 dòng đầu của dữ liệu diem_so
Output:
Hình 1: Kết quả khi xem 3 dòng đầu của dữ liệu “diem_so.csv”
2. Làm sạch dữ liệu (Data cleaning)
Từ dữ liệu tổng ta trích ra các biến mà ta cần quan tâm như đã trình bày trong phần
giới thiệu và lưu lại với tên “new_DF” từ giờ ta chỉ làm việc trên dữ liệu
“new_DF” này.
Input:
new_DF <-
diem[,c("G1","G2","G3","studytime","failures","absences","paid","sex")]
head(new_DF,3) #xem 3 dong dau tien cua tep tin
Giải thích:
- Trích ra dữ liệu con đặt tên là new_DF bao gồm các biến chính.
- Trích ra 3 dòng đầu của new_DF.
Output:
Hình 2: Kết quả khi xuất 3 dòng đầu của dữ liệu “new_DF”
Nhận xét: Từ kết quả trên ta thấy rằng dòng số 2 của biến G2 trong dữ liệu bị
khuyết (NA) và có thể có nhiều dữ liệu bị khuyết hơn nên ta sẽ kiểm tra.
Kiểm tra các dữ liệu bị khuyết trong tập tin. (Các câu lệnh tham khảo: is.na (),
which (), apply ()).
Input:
apply(is.na(new_DF),2,which) #kiem tra NA va xuat vi tri dong chua NA
apply(is.na(new_DF),2,sum) #kiem tra va dem gia tri NA
apply(is.na(new_DF),2,mean) #tinh ti le NA
Giải thích:
- Kiểm tra và xuất vị trí giá trị khuyết của các biến trong dữ liệu new_DF.
- Đếm số lượng giá trị khuyết trong dữ liệu.
- Tính tỷ lệ giá trị khuyết trong dữ liệu.
Output:
Hình 3: Kết quả sau khi kiểm tra dữ liệu khuyết
Nhận xét; Ta nhận thấy có 5 dữ liệu khuyết ở biến G2. Cụ thể là các quan sát 2, 6,
9, 80, 100. Dữ liệu khuyết chiếm 1,2658% so với tổng số quan sát của dữ liệu. Do
dữ liệu bị khuyết là hoàn toàn ngẫu nhiên và chiếm một tỷ lệ thấp. Nên trong bài
này ta sẽ xóa các dữ liệu khuyết này đi.
Xóa dữ liệu khuyết trong tệp tin “new_DF” và kiểm tra lại.
CODE:
new_DF <- na.omit(new_DF) #xoa quan sat chua NA va luu lai vao tep tin
apply(is.na(new_DF),2,sum) #kiem tra lai NA
KẾT QUẢ:
Hình 4: Kết quả kiểm tra sau khi xóa các dữ liệu khuyết
Nhận xét: Nhận xét: Sau khi xóa, quan sát 10 dòng đầu của tệp tin "new_DF" thì ta
thấy các dòng chứa dữ liệu khuyết đã biến mất khỏi dữ liệu của tệp tin.
3. Làm rõ dữ liệu (Data visualization)
Đối với các biến liên tục G1, G2, G3 thì ta thực hiện thống kê mô tả bao gồm: trung
bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất. Còn đối với các biến
studytime, paid, sex, failures thì ta tiến hành lập bảng thống kê số lượng cho từng biến.
Thống kê mô tả cho các biến G1, G2, G3:
CODE:
Hình 5: Kết quả tính thống kê mô tả cho các biến G1, G2, G3
Thống kê số lượng cho các biến studytime, paid, sex, failures
CODE:
KẾT QUẢ:
studytime failures paid sex
Hình 6: Kết quả thống kê số lượng cho từng biến studytime, paid, sex, failures
Vẽ đồ thị histogram cho biến G3
CODE
KẾT QUẢ:
KẾT QUẢ:
Hình 8: Biểu đồ boxplot thể hiện phân phối của biến G3 theo phân loại của biến
studytime
Nhận xét:
● Với nhóm học sinh có thời gian tự học ít hơn 2 giờ (nhóm 1):
+ Điểm cuối khóa cao nhất khoảng 19 điểm.
+ Điểm cuối khóa thấp nhất là 0 điểm.
+ Có 25% học sinh có điểm cuối khóa khoảng dưới 8 điểm.
+ Có 50% học sinh có điểm cuối khóa dưới 10 điểm.
+ Có 75% học sinh có điểm cuối khóa khoảng dưới 13 điểm.
● Với nhóm học sinh có thời gian tự học từ 2 đến 5 giờ (nhóm 2):
+ Điểm cuối khóa cao nhất khoảng 19 điểm.
+ Điểm cuối khóa thấp nhất là 0 điểm.
+ Có 25% học sinh có điểm cuối khóa khoảng dưới 8 điểm.
+ Có 50% học sinh có điểm cuối khóa khoảng dưới 12 điểm.
+ Có 75% học sinh có điểm cuối khóa khoảng dưới 13 điểm.
● Với nhóm học sinh có thời gian tự học từ 5 đến 10 giờ (nhóm 3):
+ Điểm cuối khóa cao nhất khoảng 19 điểm.
+ Điểm cuối khóa thấp nhất là 0 điểm.
+ Có 25% học sinh có điểm cuối khóa dưới 10 điểm.
+ Có 50% học sinh có điểm cuối khóa khoảng dưới 12 điểm.
+ Có 75% học sinh có điểm cuối khóa khoảng dưới 15 điểm.
● Với nhóm học sinh có thời gian tự học từ 10 giờ trở lên (nhóm 4):
+ Điểm cuối khóa cao nhất là 20 điểm.
+ Điểm cuối khóa thấp nhất là 0 điểm.
+ Có 25% học sinh có điểm cuối khóa khoảng dưới 9 điểm.
+ Có 50% học sinh có điểm cuối khóa khoảng dưới 12 điểm.
+ Có 75% học sinh có điểm cuối khóa khoảng dưới 14.5 điểm.
Ta thấy, nhóm học sinh có thời gian tự học nhiều hơn thì có điểm trung bình cuối
khóa cao hơn. Điểm cuối khóa cao nhất là nhóm học sinh có thời gian tự học từ 10
giờ trở lên, điểm cuối khóa nhỏ nhất là nhóm học sinh có thời gian tự học từ 2 đến
5 giờ. Điều này cho thấy ở các nhóm học sinh có thời gian tự học trên 5 giờ thì
điểm số có xu hướng sẽ cao hơn nhóm học ít hơn 5 giờ.
Vẽ biểu đồ Boxplot thể hiện phân phối của biến G3 theo phân loại của biến Failures
CODE:
Nhận xét:
● Với nhóm học sinh có 0 lần không qua môn:
+ Điểm cuối khóa cao nhất khoảng 20 điểm.
+ Điểm cuối khóa thấp nhất là 0 điểm.
+ Có 25% học sinh có điểm cuối khóa khoảng dưới 9 điểm.
+ Có 50% học sinh có điểm cuối khóa khoảng dưới 12 điểm.
+ Có 75% học sinh có điểm cuối khóa khoảng dưới 14 điểm.
● Với nhóm học sinh có 1 lần không qua môn:
+ Điểm cuối khóa cao nhất khoảng 17 điểm.
+ Điểm cuối khóa thấp nhất là 0 điểm.
+ Có 25% học sinh có điểm cuối khóa khoảng dưới 7 điểm.
+ Có 50% học sinh có điểm cuối khóa khoảng dưới 9 điểm.
+ Có 75% học sinh có điểm cuối khóa khoảng dưới 12 điểm.
● Với nhóm học sinh có 2 lần không qua môn:
+ Điểm cuối khóa cao nhất khoảng 15 điểm.
+ Điểm cuối khóa thấp nhất là 0 điểm.
+ Có 50% học sinh có điểm cuối khóa khoảng dưới 8 điểm.
+ Có 75% học sinh có điểm cuối khóa khoảng dưới 9 điểm.
● Với nhóm học sinh có 3 lần không qua môn:
+ Điểm cuối khóa cao nhất khoảng 10 điểm.
+ Điểm cuối khóa thấp nhất là 0 điểm.
+ Có 50% học sinh có điểm cuối khóa khoảng dưới 7 điểm.
+ Có 75% học sinh có điểm cuối khóa khoảng dưới 9.5 điểm.
Ta thấy, điểm trung bình cuối khóa dao động trong khoảng từ 7 – 11. Nhóm học
sinh có số lần không qua môn nhiều có xu hướng chủ quan vì nghĩ rằng đã học
qua kiến thức đó rồi nên trong quá trình học sẽ không chú ý nghe thầy cô giảng,
hoặc là có tư tưởng chán nản vì độ khó của môn học. Tuy nhiên ở nhóm học sinh
có số lần không qua môn là 1 có điểm số đồng đều hơn ba nhóm còn lại. Điểm
cuối khóa thấp nhất ở nhóm học sinh 2 và 3 lần không qua môn. Điều này cho
thấy ở các nhóm học sinh có số lần không qua môn dưới 1 lần thì điểm số có xu
hướng sẽ cao hơn nhóm học sinh có số lần không qua môn lớn hơn 1 lần.
Vẽ biểu đồ Boxplot thể hiện phân phối của biến G3 theo phân loại của biến
paid
CODE:
KẾT QUẢ:
Hình 10: biểu đồ Boxplot thể hiện phân phối của biến G3 theo phân loại của biến paid
Nhận xét:
● Với nhóm học sinh không tham gia các lớp học Toán ngoài trường:
+ Điểm cuối khóa cao nhất là 20 điểm.
+ Điểm cuối khóa thấp nhất là 0 điểm.
+ Có 25% học sinh có điểm cuối khóa khoảng 8 điểm.
+ Có 50% học sinh có điểm cuối khóa khoảng 11 điểm.
+ Có 75% học sinh có điểm cuối khóa khoảng 14 điểm.
● Với nhóm học sinh có tham gia các lớp học Toán ngoài trường:
+ Điểm cuối khóa cao nhất 18 điểm.
+ Điểm cuối khóa thấp nhất là 4 điểm.
+ Có 25% học sinh có điểm cuối khóa khoảng dưới 9 điểm.
+ Có 50% học sinh có điểm cuối khóa khoảng dưới 11 điểm.
+ Có 75% học sinh có điểm cuối khóa khoảng dưới 13 điểm.
Nhìn chung, nhóm học sinh chọn học thêm ở các lớp Toán ngoài trường thì có điểm trung
bình cuối khóa cao hơn, sức học đồng đều hơn nhóm không tham gia các lớp học Toán
ngoài trường.
Vẽ biểu đồ Boxplot thể hiện phân phối của biến G3 theo phân loại của biến
sex
CODE:
Hình 11: biểu đồ Boxplot thể hiện phân phối của biến G3 theo phân loại của biến
sex
Nhận xét:
● Với nhóm học sinh Nữ:
+ Điểm cuối khóa cao nhất khoảng dưới 19 điểm.
+ Điểm cuối khóa thấp nhất là 4 điểm.
+ Có 25% học sinh có điểm cuối khóa khoảng trên 8 điểm.
+ Có 50% học sinh có điểm cuối khóa khoảng trên 11 điểm.
+ Có 75% học sinh có điểm cuối khóa khoảng dưới 14 điểm.
● Với nhóm học sinh Nam:
+ Điểm cuối khóa cao nhất 20 điểm.
+ Điểm cuối khóa thấp nhất là 5 điểm.
+ Có 25% học sinh có điểm cuối khóa khoảng trên 9 điểm.
+ Có 50% học sinh có điểm cuối khóa khoảng trên 11 điểm.
+ Có 75% học sinh có điểm cuối khóa khoảng dưới 14 điểm.
Như vậy ta thấy, nhóm học sinh Nữ có điểm trung bình cuối khóa thấp hơn nhóm học
sinh Nam. Điều này cho thấy các học sinh Nam có học lực cao hơn các bạn Nữ.
Vẽ đồ thị phân tán thể hiện phân phối của biến G3 theo biến G1, G2 và
absences\
CODE:
Hình 12: đồ thị phân tán thể hiện phân phối của biến G3 theo biến G1, G2 và
absences
Nhận xét: Từ các đồ thị phân tán của biến G3 theo G1, G2 và absences. Ta nhận
thấy:
- Đối với biến absences thì không có mối quan hệ tuyến tính với G3 vì dựa
vào biểu đồ phân tán ta có thể thấy những điểm trên 2 biểu đồ này phân tán
không có quy luật.
4: Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng
đến điểm thi cuối kỳ của sinh viên.
CODE:
Nhận xét: Vì p_value = 0.5264 lớn hơn mức ý nghĩa α = 0.05 nên chưa bác bỏ được giả
thuyết H0, hai mô hình 1 và 2 có hiệu quả giống nhau.
* So sánh giữa mô hình 2 và mô hình 3.
Giả thuyết H0: Mô hình 2 và mô hình 3 có hiệu quả như nhau
Giả thuyết H1: Mô hình 2 và mô hình 3 có hiệu quả khác nhau
CODE:
Nhận xét: Vì p_value = 0.3689 lớn hơn mức ý nghĩa α = 0.05 nên chưa bác bỏ được giả
thuyết H0, hai mô hình 2 và 3 có hiệu quả giống nhau.
* So sánh giữa mô hình 3 và mô hình 4.
Giả thuyết H0: Mô hình 3 và mô hình 4 có hiệu quả như nhau
Giả thuyết H1: Mô hình 3 và mô hình 4 có hiệu quả khác nhau
CODE:
Nhận xét: Vì p_value = 0.1294 lớn hơn mức ý nghĩa α = 0.05 nên chưa bác bỏ được giả
thuyết H0, hai mô hình 3 và 4 có hiệu quả giống nhau.
* So sánh giữa mô hình 4 và mô hình 5.
Giả thuyết H0: Mô hình 4 và mô hình 5 có hiệu quả như nhau
Giả thuyết H1: Mô hình 4 và mô hình 5 có hiệu quả khác nhau.
CODE:
Nhận xét:
Đồ thị 1 vẽ các giá trị sai số tương ứng với các giá trị dự báo, kiểm tra giả định tuyến
tính dữ liệu và giả định các sai số có kỳ vọng bằng 0.
* Ta nhận thấy đường màu đỏ gần như là đường thẳng nên giả định tuyến tính của dữ
liệu thỏa mãn.
* Các sai số tập trung xung quanh đường thẳng y = 0 (ngoại trừ một số ngoại lai) nên
giả định các sai số có kỳ vọng bằng 0 thỏa mãn.
Đồ thị 2 vẽ các sai số đã được chuẩn hóa kiểm tra giả định phân phối chuẩn.
Ta nhận thấy các sai số đã được chuẩn hóa chưa nằm trên một đường thẳng nên giả định
này chưa thỏa mãn.
Đồ thị 3 vẽ căn bậc hai của sai số, kiểm tra giả định phương sai của sai số là hằng số.
Ta nhận thấy các căn bậc hai sai số tập trung quanh đường thẳng màu đỏ, mặc dù có
ngoại lai nhưng tạm chấp nhận được.
Đồ thị 4 xác định các điểm có ảnh hưởng cao nếu nó hiện diện trong bộ dữ liệu.
Các điểm 141, 260, 277 có thể là các điểm có ảnh hưởng cao. Tuy nhiên các điểm này
chưa vượt qua đường Cook’s distance nên chưa thật sự là điểm ảnh hưởng cao do đó
không cần loại bỏ khi phân tích
5 Thực hiện dự báo cho điểm Toán của học sinh
Dự báo điểm thi cuối kỳ môn Toán nếu một học sinh có điểm thi học kỳ 1 là 14, điểm thi
cuối học kỳ 2 là 13, học sinh này dành trên 10 giờ một tuần cho việc tự học, chưa rớt môn
lần nào và số lần nghỉ học là 3.
CODE:
Nhận xét: Điểm thi cuối kỳ trung bình dự báo được là 11.89991đ, khoảng tin cậy cho giá
trị dự báo (11.32455; 12.47527).