You are on page 1of 3

BÀI THI CUỐI KỲ

Lớp chia nhóm (mỗi nhóm 3 sinh viên), mỗi nhóm chọn một đề tài trong mục 3 để
giải một bài toán trong thực tế. Không có quá 3 nhóm cùng đề tài. Bài toán thực tế của
các nhóm phải khác nhau (dữ liệu phải khác nhau). Công việc của đề tài gồm:

1. Đăng ký đề tài trong sheet “Bài thi hết môn” của link đăng kí. Chú ý điền đầy
đủ và đúng thông tin trong sheet “Bài thi hết môn”. Link đăng kí
https://docs.google.com/spreadsheets/d/1_yzjybE6kd0Qg8Ksbdl0G6a6X1HVH
iZTT8_K0y9IyE4/edit#gid=1614973412

2. Mô tả bài toán: Tên bài toán, tóm tắt công việc thực hiện của bài toán. Input,
Output của bài toán.

3. Phương pháp học máy: Mỗi nhóm chọn 1 trong số các đề tài sau:

- Đề tài 1: Hồi quy tuyến tính và Phân tích thành phần chính (PCA)

- Đề tài 2: Perceptron Learning Agorithm và Cross-Validation

- Đề tài 3: ID3 và Phân tích thành phần chính (PCA)

- Đề tài 4: Cart và Phân tích thành phần chính (PCA)

- Đề tài 5: ID3 và Cart

- Đề tài 6: Logistic Regression và Cross-Validation

- Đề tài 7: SVM và Cross-Validation

- Đề tài 8: Clustering và Phân tích thành phần chính (PCA)

4. Trình bày các phương pháp trong mỗi đề tài:

- Mục đích của phương pháp.

- Input:

- Output:

- Cách thực hiện: Cách xây dựng hàm mất mát, cách giải bài toán tối ưu,
nghiệm của bài toán tối ưu, ...

- Đánh giá phương pháp.


Ví dụ, chọn nhóm Hồi quy tuyến tính và Phân tích thành phần chính, cần trình
bày:

a. Phương pháp Hồi quy tuyến tính cần trình bày: Mục đích của phương pháp,
input, output, cách thực hiện của phương pháp (cách xây dựng hàm mất
mát, cách giải bài toán tối ưu hàm mất mát, nghiệm của bài toán tối ưu),
đánh giá phương pháp.

b. Phương pháp Phân tích thành phần chính: Mục đích của phương pháp, cách
thực hiện phương pháp để lựa chọn được thành phần chính quan trọng, đánh
giá phương pháp.

5. Thực nghiệm:

a. Mô tả tập dữ liệu của bài toán, dữ liệu gồm những chiều thông tin gì
(mỗi mẫu (vertor) dữ liệu có những thông tin gì), có bao nhiêu mẫu dữ liệu
(ít nhất là 100 vector dữ liệu). Mô tả nhãn lớp của dữ liệu.

b. Mô tả ma trận dữ liệu (X), nhãn lớp (Y)

c. Chia tập dữ liệu thành 2 phần: training data dùng để huấn luyện mô hình
và test data dùng để kiểm tra sự phù hợp của mô hình.

d. Dùng phương pháp học máy mà nhóm lựa chọn để tìm mô hình tốt cho
bài toán thực tế:

Trường hợp 1: Nếu trong đề tài có phương pháp thành phần chính (PCA)

Bước 1: Dùng phương pháp Phân tích thành phần chính để lựa chọn tập các
thuộc tính tốt nhất cho bài toán (sử dụng vòng lặp để xác định bao nhiêu thuộc
tính là tốt nhất). Từ tập training data và test data ban đầu, sử dụng các thành
phần chính tốt nhất đã chọn để tạo ra tập training data và test data mới.

Bước 2: Dùng phương pháp học máy còn lại trong nhóm để xây dựng mô hình
và đánh giá mô hình trên tập dữ liệu mới.

Trường hợp 2: Nếu trong đề tài có phương pháp CROSS-VALIDATION

Bước 1: Chia toàn bộ tập dữ liệu thành k phần (phương pháp k-fold cross
validation).
Bước 2: Chọn ngẫu nhiên k-1 phần làm training data, 1 phần còn lại làm test
data. Sử dụng phương pháp học máy đã lựa chọn trên tập training data và test
data để xây dựng và đánh giá mô hình. Bước 2 này được làm k lần.

Bước 3: Chọn mô hình có (train error + validation error) là nhỏ nhất.

Ví dụ:

Bước 1: Chia tập dữ liệu thành 3 tập A, B, C.

Bước 2: Huấn luyện và đánh giá mô hình trên tập training data và test data.

- Lần 1: training data: A, B; test data: C.

- Lần 2: training data: A, C; test data: B.

- Lần 3: training data: B, C; test data: A.

Trong 3 lần trên, lần nào có (train error + validation error) nhỏ nhất thì mô hình
huấn luyện của lần đó được chọn làm mô hình dự đoán cho dữ liệu mới.

6. Đánh giá mô hình:

Dùng tập test data để đánh giá chất lượng của mô hình được lựa chọn theo các độ
đo (bài toán hồi quy: NSE, R2, MAE, RMSE; bài toán phân lớp: Accuracy, Precision,
Recall, F1-score, bài toán phân cụm: Silhouette, Davies – Bouldin).

7. Viết giao diện người dùng (form) cho phép nhập vào dữ liệu mới để mô hình
dự đoán kết quả của dữ liệu mới này. Trên form có hiển thị các thông tin về độ
tin cậy của mô hình dự đoán.

8. Báo cáo làm trên file word theo mẫu báo cáo, bài trình bày gồm files code và
files dữ liệu, file báo cáo, file các slide trình bày. Các files này upload lên
https://drive.google.com/drive/folders/1Nyzgn74_XT3GqR1RxIU6gdQ_cGdO
JfYl?usp=sharing. Trong mỗi nhóm của link này, nhóm sẽ tự tạo 1 thư mục có
tên là “Bai thi het mon”, để phân biệt với các bài tập khác. Ví dụ, Nhóm 1\Bai
thi het mon\, upload các files của nhóm vào thư mục này.

9. Thời gian nộp bài: 27/10/2022

10. Thời gian báo cáo bài tập: Theo lịch thi của lớp

You might also like