Professional Documents
Culture Documents
Nguyễn-văn-sơn KHDL fi
Nguyễn-văn-sơn KHDL fi
Từ các dữ liệu thu thập những yếu tố liên qua và kết quả học tập của sinh viên. Qua các học
máy giúp dự đoán kết quả học tập của sinh viên.
II, Xử lý dữ liệu:
1. Tổng quan về data:
Data thu thập được qua ghi chép trường đại học USA Univercity về các sinh viên.
Đây là tập dữ liệu giáo dục được thu thập từ hệ thống quản lý học tập (LMS) có tên Kalboard
360. Kalboard 360 là một LMS đa tác nhân, được thiết kế để tạo điều kiện học tập thông qua
việc sử dụng công nghệ tiên tiến nhất. Hệ thống này cung cấp cho người dùng quyền truy cập
đồng bộ vào các tài nguyên giáo dục từ bất kỳ thiết bị nào có kết nối Internet.
- Các thuộc tính trong data:
1. Giới tính - giới tính của học sinh (danh nghĩa: 'Nam' hoặc 'Nữ')
2. Nationality - quốc tịch của sinh viên (danh nghĩa: 'Kuwait', 'Lebanon', 'Egypt',
'SaudiArabia', 'USA', 'Jordan', '
Venezuela', 'Iran', 'Tunis', 'Morocco', 'Syria ',' Palestine ',' Iraq ',' Lybia ')
3. PlaceofBirth- Nơi sinh của học sinh (danh nghĩa: 'Kuwait', 'Lebanon', 'Egypt',
'SaudiArabia', 'USA', 'Jordan', '
Venezuela', 'Iran', 'Tunis', 'Morocco ',' Syria ',' Palestine ',' Iraq ',' Lybia ')
4. StageID - trình độ học vấn của học sinh (danh nghĩa: 'lowlevel', 'MiddleSchool',
'HighSchool')
5. Grade - học sinh thuộc lớp (danh nghĩa: 'G-01', 'G-02', 'G-03', 'G-04', 'G-05', 'G-06', 'G-
07 ',' G-08 ',' G-09 ',' G-10 ',' G-11 ',' G-12 ')
6. Topic - chủ đề khóa học (danh nghĩa: 'Tiếng Anh', 'Tây Ban Nha', 'Pháp', 'Ả Rập',
'CNTT', 'Toán học', 'Hóa học', 'Sinh học', 'Khoa học', 'Lịch sử', 'Kinh Qur'an ',' Địa chất
học')
7. Semester - học kỳ năm học (danh nghĩa: 'Thứ nhất', 'Thứ hai')
8. Phụ huynh chịu trách nhiệm về học sinh (danh nghĩa: 'mẹ', 'bố')
9. Raised hand- số lần học sinh giơ tay trong lớp học (số: 0-100)
10. VisitedResource- số lần sinh viên truy cập một nội dung khóa học (số: 0-100)
11. Announcement View -số lần học sinh kiểm tra thông báo mới (số: 0-100)
12. Discussion - số lần học sinh tham gia vào các nhóm thảo luận (số: 0-100)
13. ParentsAnserwSurvay- phụ huynh đã trả lời các khảo sát được cung cấp từ trường học
hay không
(danh nghĩa: 'Có', 'Không')
14. ParentschoolSatisfaction - Mức độ hài lòng của phụ huynh đối với trường học (danh
nghĩa: 'Có', 'Không')
15. StudentAbSenceDays- số ngày vắng mặt của mỗi học sinh (danh nghĩa: trên 7 tuổi, dưới
7 tuổi)
16. Học sinh được phân loại thành ba khoảng số dựa trên tổng điểm / điểm của chúng:
- Mức thấp(L): khoảng bao gồm các giá trị từ 0 đến 69,
- Mức trung bình(M): khoảng bao gồm các giá trị từ 70 đến 89,
- Mức cao(H): khoảng bao gồm các giá trị từ 90-100.
2. Code:
a. Import các thư viện:
- Output:
- Output:
Không có trường miss dữ liệu.
c. View data:
+ đếm số học sinh mỗi xếp loại:
- Code:
- Output:
Có thể thấy xếp bậc trung bình là cao nhất. Số lượng học sinh ở 3 xếp loại khá tương đương nhau.
+ mối tương quan giữa các chiều dữ liệu theo từng cặp:
- Code:
- OutPut:
d. Xử lý data:
+ Thay thế cột giới tính qua 0 và 1:
g. Training Models:
- Thuật toán Random Forest:
Accuracy là 89 %.
- Support Vector:
Output:
Accuracy là 82 %.
- Desicion Tree:
Output:
Accuracy là 89 %.
- Các thuộc tính quan trọng:
Có thể thấy, thuộc tính VisitedResources (Số lần truy cập các khóa học) quan trọng
nhất. Tiếp đến là 2 thuộc tính là raisedhands (Số lần dơ tay) và AnnouncementView
(Số lần xem thông báo của lớp học).
III, Tổng kết