You are on page 1of 3

Cộng Hòa Xã hội Chủ nghĩa Việt Nam

Độc lập – Tự do – Hạnh phúc


---oOo---

ĐỀ THI KẾT THÚC HỌC PHẦN


TIN HỌC ỨNG DỤNG (APCP220307)
HÌNH THỨC: BÀI TẬP LỚN CÁ NHÂN

Mã đề thi: 2214
Thời gian phát đề: 16/12/2022, 12:00 PM
Thời gian thu bài: 18/12/2022, 11:59 PM

THÔNG TIN LƯU Ý


Đề thi và file dữ liệu đề thi được cung cấp trên hệ thống LMS của trường (đối với hệ CLC là trang
https://fhqx.hcmute.edu.vn/ và hệ đại trà là trang https://utex.hcmute.edu.vn/), các file dữ liệu bao gồm
- 1 file PDF đề thi, thông tin về đề thi và điểm thành phần

Sinh viên làm bài trên máy tính của mình và GOOGLE COLAB, sau đó nén toàn bộ các file thành file
nén (rar/zip/7z..) và nộp lên LMS. File nén có định dạng như sau: HoTen_MSSV.rar (hoặc .zip, .7z…)

Các file nộp lên bao gồm:


- 1 file data (định dạng là excel hoặc csv), bao gồm phần dữ liệu download về từ trang kaggle
- 1 file excel xử lý và tổng hợp dữ liệu theo yêu cầu đề bài, lưu ý file này có phần vba, nên phần mở
rộng của file excel này phải đúng định dạng
- 1 file python notebook, download từ GOOGLE COLAB để xử lý các yêu cầu của đề bài
- 1 file word, là báo cáo tổng hợp các nội dung đã làm. Đây là file quan trọng nhất của bài tập này,
trình bày rõ ràng dễ hiểu, và có đề mục rõ ràng, mạch lạc và có mục đích.

Lưu ý quan trọng: đây là bài tập mở, mang tính chất tự tìm kiếm và tự tìm tòi về vấn đề liên quan đến
kinh tế xã hội, khoa học công nghệ, thông qua nguồn dữ liệu mở của kaggle, nên dữ liệu của mỗi sinh
viên chọn lựa để sử dụng trong bài tập này sẽ là duy nhất, không được trùng lắp và giống nhau. Ngoài
ra, việc lựa chọn trình bày các thông số của dữ liệu (cột dữ liệu) cũng không được trùng lắp và duy
nhất trong lớp. Cách trình bày và tiếp cận cũng phụ thuộc vào mức độ hiểu biết và ứng dụng tin học
của sinh viên, do đó, nội dung bài nộp hoàn toàn không thể trùng khớp với nhau. Trong đề, có sử dụng
cụm từ “duy nhất trong lớp” sẽ được hiểu là duy nhất trong các lớp học cùng môn học này (bao gồm
các hệ đào tạo, các ngành học khác nhau… nhưng học cùng nội dung này) của học kỳ này, học kỳ 1
năm học 2022-2023.

Về việc kiểm tra tính trung thực: sinh viên cần lưu lại toàn bộ nội dung, thông tin và tất cả những gì
liên quan đến bài làm của mình trong vòng ít nhất 24 tháng. Tất cả những minh chứng này sẽ được sử
dụng khi GV và PĐT nghi ngờ hay có người khiếu kiện về tính chất trung thực của bài làm này không
do chính sinh viên (chủ thể của bài thi) thực hiện. Do đó, trong trường hợp sinh viên rơi vào diện bị
nghi ngờ gian lận hay sao chép, sẽ phải cung cấp đầy đủ minh chứng về quá trình làm bài của cá nhân
mình, trình bày với GV hay các bên liên quan về tính trung thực của mình. Gợi ý là quay video màn
hình quá trình làm (những giai đoạn quan trọng) hoặc làm file ppt thuyết trình về bài làm của mình có
quay video, để đề phòng trường hợp bị nghi ngờ gian lận.

Phần 1 – Tìm kiếm dữ liệu: (2 điểm) Sinh viên làm theo các yêu cầu sau:

Đề thi kết thúc học phần THUD - 2214 1|Page


Tạo và lấy dữ liệu từ trang databank của Kaggle, Truy cập vào trang
https://www.kaggle.com/datasets?tags=12107-Computer+Science, sau đó
tạo data với các yêu cầu sau:
1.1 Dữ liệu riêng của cá nhân là duy nhất trong lớp, phải khác với dữ liệu các
sinh viên khác. Có 8,084 bộ dữ liệu nên Dữ liệu mỗi sinh viên mỗi khác
nhau, không được trùng nhau. Việc xác định trùng này thông qua việc
lựa chọn các yếu tố sau:
- Sinh viên có STT từ 1 – 10 sẽ chọn 1 trong các dataset từ trang 1 – 5.
- Sinh viên có STT từ 11 – 20 sẽ chọn 1 trong các dataset từ trang 6 – 10.
- Sinh viên có STT từ 21 – 30 sẽ chọn 1 trong các dataset từ trang 11 – 15.
- Sinh viên có STT từ 31 – 40 sẽ chọn 1 trong các dataset từ trang 16 – 20.
- Sinh viên có STT từ 41 – 50 sẽ chọn 1 trong các dataset từ trang 21 – 25.
- Sinh viên có STT từ 51 – 60 sẽ chọn 1 trong các dataset từ trang 26 – 30.
- Sinh viên có STT từ 61 – 70 sẽ chọn 1 trong các dataset từ trang 31 – 35.
- Sinh viên cũng có thể chọn dataset ở các trang khác, đảm bảo không trùng.
Lưu ý: Trong bài làm sinh viên phải chụp hình lại minh chứng số trang như
hình. Phải thấy được đường link như dưới đây.

1.2 Sau khi đã tải được data từ trang Kaggle cung cấp, tìm hiểu và trình bày
ngắn gọn các thông tin của bộ data mà sinh viên lựa chọn để làm bài.
Trình bày ngắn gọn.

Phần 2 – Xử lý và tạo báo cáo trên Excel: (4.0 điểm) Sinh viên mở file dữ liệu
tải về ở phần 1 bằng excel, thực hiện các yêu cầu sau:
2.1 Sắp xếp lại dữ liệu theo dạng hợp lý hơn, sử dụng các hàm và các thao
tác đã học trên excel. Sau đó, xử lý dữ liệu bằng cách loại bỏ các giá trị
NULL hoặc thay thế bằng các giá trị phù hợp, loại bỏ các dòng dữ liệu
không có giá trị
(lưu ý trình bày giải thích tại sao xử lý dữ liệu như vậy trong file báo cáo)

Đề thi kết thúc học phần THUD - 2214 2|Page


2.2 Sử dụng Conditional Formating để highlight dữ liệu theo yêu cầu tự đưa
ra như sau: số lượng phải từ 3 câu trở lên tương ứng với yêu cầu mà
mình tự đưa ra. Mỗi câu sinh viên tự đưa ra ít nhất 2 điều kiện trở lên.
2.3 Tạo dashboard và báo cáo phù hợp với dữ liệu đã có. Yêu cầu: Phải có
Pivot table và Chart.
2.4 Viết hàm VBA cho việc tìm kiếm và highlight dữ liệu. số lượng phải từ 3
câu trở lên (tương ứng với 3 hàm trở lên)

Phần 3 – Phân tích dữ liệu đã xử lý trên GOOGLE COLAB: (4.0 điểm) Sinh
viên tải lên drive file .csv (đã tạo được ở phần 1 và xử lý thích hợp ở phần 2),
thực hiện các yêu cầu sau:
- Tải lên, và kết nối được google drive với google colab (0.5 điểm)
- Chạy các lệnh đọc file bằng pandas, sau đó cho biết kích thức của bộ dữ
liệu (0.5 điểm)
- Mô tả các trường dữ liệu. Nếu trường nào là số, thì thống kê mô tả sơ
bộ cho các trường đó. Sau đó nhận xét (1 điểm)
- Vẽ biểu đồ phân bố cho ít nhất 2 cột, nhận xét (1.0 điểm)
- Vẽ ít nhất 5 biểu đồ bằng seaborn, trong đó 5 biểu đồ này không được
trùng loại với nhau và bắt buộc phải có 1 biểu đồ boxplot. Sau đó, nhận
xét cho các biểu đồ này (1.0 điểm)
(Lưu ý: nếu biểu đồ được vẽ mà không có nhận xét thì điểm tối đa không quá
50% số điểm của câu)

(Hết)

Đề thi kết thúc học phần THUD - 2214 3|Page

You might also like