You are on page 1of 11

I, Tổng quan đề tài:

Từ các dữ liệu thu thập những yếu tố liên qua và kết quả học tập của sinh viên. Qua các học
máy giúp dự đoán kết quả học tập của sinh viên.
II, Xử lý dữ liệu:
1. Tổng quan về data:
Data thu thập được qua ghi chép trường đại học USA Univercity về các sinh viên.

Đây là tập dữ liệu giáo dục được thu thập từ hệ thống quản lý học tập (LMS) có tên Kalboard
360. Kalboard 360 là một LMS đa tác nhân, được thiết kế để tạo điều kiện học tập thông qua
việc sử dụng công nghệ tiên tiến nhất. Hệ thống này cung cấp cho người dùng quyền truy cập
đồng bộ vào các tài nguyên giáo dục từ bất kỳ thiết bị nào có kết nối Internet.
- Các thuộc tính trong data:
1. Giới tính - giới tính của học sinh (danh nghĩa: 'Nam' hoặc 'Nữ')
2. Nationality - quốc tịch của sinh viên (danh nghĩa: 'Kuwait', 'Lebanon', 'Egypt',
'SaudiArabia', 'USA', 'Jordan', '
Venezuela', 'Iran', 'Tunis', 'Morocco', 'Syria ',' Palestine ',' Iraq ',' Lybia ')
3. PlaceofBirth- Nơi sinh của học sinh (danh nghĩa: 'Kuwait', 'Lebanon', 'Egypt',
'SaudiArabia', 'USA', 'Jordan', '
Venezuela', 'Iran', 'Tunis', 'Morocco ',' Syria ',' Palestine ',' Iraq ',' Lybia ')
4. StageID - trình độ học vấn của học sinh (danh nghĩa: 'lowlevel', 'MiddleSchool',
'HighSchool')
5. Grade - học sinh thuộc lớp (danh nghĩa: 'G-01', 'G-02', 'G-03', 'G-04', 'G-05', 'G-06', 'G-
07 ',' G-08 ',' G-09 ',' G-10 ',' G-11 ',' G-12 ')
6. Topic - chủ đề khóa học (danh nghĩa: 'Tiếng Anh', 'Tây Ban Nha', 'Pháp', 'Ả Rập',
'CNTT', 'Toán học', 'Hóa học', 'Sinh học', 'Khoa học', 'Lịch sử', 'Kinh Qur'an ',' Địa chất
học')
7. Semester - học kỳ năm học (danh nghĩa: 'Thứ nhất', 'Thứ hai')
8. Phụ huynh chịu trách nhiệm về học sinh (danh nghĩa: 'mẹ', 'bố')
9. Raised hand- số lần học sinh giơ tay trong lớp học (số: 0-100)
10. VisitedResource- số lần sinh viên truy cập một nội dung khóa học (số: 0-100)
11. Announcement View -số lần học sinh kiểm tra thông báo mới (số: 0-100)
12. Discussion - số lần học sinh tham gia vào các nhóm thảo luận (số: 0-100)
13. ParentsAnserwSurvay- phụ huynh đã trả lời các khảo sát được cung cấp từ trường học
hay không
(danh nghĩa: 'Có', 'Không')
14. ParentschoolSatisfaction - Mức độ hài lòng của phụ huynh đối với trường học (danh
nghĩa: 'Có', 'Không')
15. StudentAbSenceDays- số ngày vắng mặt của mỗi học sinh (danh nghĩa: trên 7 tuổi, dưới
7 tuổi)

16. Học sinh được phân loại thành ba khoảng số dựa trên tổng điểm / điểm của chúng:
- Mức thấp(L): khoảng bao gồm các giá trị từ 0 đến 69,
- Mức trung bình(M): khoảng bao gồm các giá trị từ 70 đến 89,
- Mức cao(H): khoảng bao gồm các giá trị từ 90-100.

2. Code:
a. Import các thư viện:

- Thư viện numpy: Giúp hỗ trợ xử lý các mảng đa triều.


- Thư viện pandas: Giúp đọc ghi dữ liệu giữa bộ nhớ và nhiều định dạng file:Csv, text,
excel,…
- Thư viện matplotlib: Nó là một thư viện vẽ đồ thị rất mạnh mẽ hữu ích cho những
người làm việc với Python.
- Thư viện Seaborn: Seaborn là một thư viện Python được sử dụng để tạo biểu đồ trực
quan hóa cho tập dữ liệu.
- sklearn.preprocessing import StandardScaler: Hỗ trợ việc scale dữ liệu phục vụ cho
thuật toán.
- Các thư viện hỗ trợ các thuật toán:
b. Loading data:
+ Đọc file:
- Code:
Đọc từ file xAPI-Edu-Data.csv gán vào biến student.

- Output:

+ Check các trường miss dữ liệu:


- Code:

- Output:
Không có trường miss dữ liệu.
c. View data:
+ đếm số học sinh mỗi xếp loại:
- Code:

- Output:

Có thể thấy xếp bậc trung bình là cao nhất. Số lượng học sinh ở 3 xếp loại khá tương đương nhau.
+ mối tương quan giữa các chiều dữ liệu theo từng cặp:
- Code:

- OutPut:
d. Xử lý data:
+ Thay thế cột giới tính qua 0 và 1:

+ Tạo biến giả:

+ Bỏ đi các cột đã tạo:


+ Tiếp theo sẽ kết hợp lại với student:

+ Check lại các cột:

+ Chia giá trị muốn dự đoán:

e. Giảm chiều dữ liệu (PCA):

f. Chia dữ liệu train:

g. Training Models:
- Thuật toán Random Forest:

Đưa vào X_train và y_train .


Output:

Accuracy là 89 %.

- Support Vector:

Output:
Accuracy là 82 %.
- Desicion Tree:

Output:
Accuracy là 89 %.
- Các thuộc tính quan trọng:
Có thể thấy, thuộc tính VisitedResources (Số lần truy cập các khóa học) quan trọng
nhất. Tiếp đến là 2 thuộc tính là raisedhands (Số lần dơ tay) và AnnouncementView
(Số lần xem thông báo của lớp học).
III, Tổng kết

You might also like