Professional Documents
Culture Documents
Mã đề thi: 2214
Thời gian phát đề: 16/12/2022, 12:00 PM
Thời gian thu bài: 18/12/2022, 11:59 PM
Sinh viên làm bài trên máy tính của mình và GOOGLE COLAB, sau đó nén toàn bộ các file thành file
nén (rar/zip/7z..) và nộp lên LMS. File nén có định dạng như sau: HoTen_MSSV.rar (hoặc .zip, .7z…)
Lưu ý quan trọng: đây là bài tập mở, mang tính chất tự tìm kiếm và tự tìm tòi về vấn đề liên quan đến
kinh tế xã hội, khoa học công nghệ, thông qua nguồn dữ liệu mở của kaggle, nên dữ liệu của mỗi sinh
viên chọn lựa để sử dụng trong bài tập này sẽ là duy nhất, không được trùng lắp và giống nhau. Ngoài
ra, việc lựa chọn trình bày các thông số của dữ liệu (cột dữ liệu) cũng không được trùng lắp và duy
nhất trong lớp. Cách trình bày và tiếp cận cũng phụ thuộc vào mức độ hiểu biết và ứng dụng tin học
của sinh viên, do đó, nội dung bài nộp hoàn toàn không thể trùng khớp với nhau. Trong đề, có sử dụng
cụm từ “duy nhất trong lớp” sẽ được hiểu là duy nhất trong các lớp học cùng môn học này (bao gồm
các hệ đào tạo, các ngành học khác nhau… nhưng học cùng nội dung này) của học kỳ này, học kỳ 1
năm học 2022-2023.
Về việc kiểm tra tính trung thực: sinh viên cần lưu lại toàn bộ nội dung, thông tin và tất cả những gì
liên quan đến bài làm của mình trong vòng ít nhất 24 tháng. Tất cả những minh chứng này sẽ được sử
dụng khi GV và PĐT nghi ngờ hay có người khiếu kiện về tính chất trung thực của bài làm này không
do chính sinh viên (chủ thể của bài thi) thực hiện. Do đó, trong trường hợp sinh viên rơi vào diện bị
nghi ngờ gian lận hay sao chép, sẽ phải cung cấp đầy đủ minh chứng về quá trình làm bài của cá nhân
mình, trình bày với GV hay các bên liên quan về tính trung thực của mình. Gợi ý là quay video màn
hình quá trình làm (những giai đoạn quan trọng) hoặc làm file ppt thuyết trình về bài làm của mình có
quay video, để đề phòng trường hợp bị nghi ngờ gian lận.
Phần 1 – Tìm kiếm dữ liệu: (2 điểm) Sinh viên làm theo các yêu cầu sau:
1.2 Sau khi đã tải được data từ trang Kaggle cung cấp, tìm hiểu và trình bày
ngắn gọn các thông tin của bộ data mà sinh viên lựa chọn để làm bài.
Trình bày ngắn gọn.
Phần 2 – Xử lý và tạo báo cáo trên Excel: (4.0 điểm) Sinh viên mở file dữ liệu
tải về ở phần 1 bằng excel, thực hiện các yêu cầu sau:
2.1 Sắp xếp lại dữ liệu theo dạng hợp lý hơn, sử dụng các hàm và các thao
tác đã học trên excel. Sau đó, xử lý dữ liệu bằng cách loại bỏ các giá trị
NULL hoặc thay thế bằng các giá trị phù hợp, loại bỏ các dòng dữ liệu
không có giá trị
(lưu ý trình bày giải thích tại sao xử lý dữ liệu như vậy trong file báo cáo)
Phần 3 – Phân tích dữ liệu đã xử lý trên GOOGLE COLAB: (4.0 điểm) Sinh
viên tải lên drive file .csv (đã tạo được ở phần 1 và xử lý thích hợp ở phần 2),
thực hiện các yêu cầu sau:
- Tải lên, và kết nối được google drive với google colab (0.5 điểm)
- Chạy các lệnh đọc file bằng pandas, sau đó cho biết kích thức của bộ dữ
liệu (0.5 điểm)
- Mô tả các trường dữ liệu. Nếu trường nào là số, thì thống kê mô tả sơ
bộ cho các trường đó. Sau đó nhận xét (1 điểm)
- Vẽ biểu đồ phân bố cho ít nhất 2 cột, nhận xét (1.0 điểm)
- Vẽ ít nhất 5 biểu đồ bằng seaborn, trong đó 5 biểu đồ này không được
trùng loại với nhau và bắt buộc phải có 1 biểu đồ boxplot. Sau đó, nhận
xét cho các biểu đồ này (1.0 điểm)
(Lưu ý: nếu biểu đồ được vẽ mà không có nhận xét thì điểm tối đa không quá
50% số điểm của câu)
(Hết)