You are on page 1of 3

DAT704 – Học Máy

BÀI TẬP ÔN TẬP HỌC MÁY

Câu 1: Cho bảng dữ liệu ảnh hưởng dùng thuốc với việc bị rám nắng như sau.

TT Màu Chiều cao Cân nặng Dùng Kết quả


tóc thuốc?
1 Đen Tầm thước Nhẹ Không Bị rám
2 Đen Cao Vừa phải Có Không
3 Râm Thấp Vừa phải Có Không
4 Đen Thấp Vừa phải Không Bị rám
5 Bạc Tầm thước Nặng Không Bị rám
6 Râm Cao Nặng Không Không
7 Râm Tầm thước Nặng Không Không
8 Đen Thấp Nhẹ Có Không
9 Râm Cao Nặng Có Không
10 Bạc Thấp Nhẹ Không Bị Rám
11 Đen Thấp Nặng Có Bị Rám
12 Râm Cao Nặng Không Không
Cho biết:
- Train set: {1, … , 8}
- Test set : {9, …, 12}

Yêu cầu: Sử dụng các mô hình dự đoán đã học để dự đoán cho test set.Vẽ ma trận
nhầm lẫn, Tính độ chính xác (accuracy), precision, recall và F1-score.

a. Sử dụng thuật toán k-NN


b. Sử dụng thuật toán Naïve Bayes
c. Sử dụng thuật toán cây quyết định (ID3)
d. (*) Lập trình để giải các câu trên bằng python

Câu 2:

Student ID Hours of Mid-term Final grade


study grade
1 10 80 90
2 8 75 85
3 5 60 70
4 12 90 95
5 6 65 75
6 9 85 88
7 7 70 80
8 11 88 92
9 4 50 60
(*) Không bắt buộc

GV: Vương Trọng Nhân


DAT704 – Học Máy
10 8 72 78
11 10 78 87
12 3 45 55
Cho biết:

- Train set: {1, 2, …, 9}

- Test set : {10,11,12}

Yêu cầu: Sử dụng mô hình k-NN với k = 3.

a. Dự đoán cho kết quả cho test set


b. Tính MSE, RMSE, MAE của mô hình trên tập test set
c. (*) Lập trình để giải các câu trên bằng pythonFinal grade

Câu 3. Cho tập dữ liệu S ghi lại những ngày mà một người chơi (không chơi) tennis
Day Outlook Temperature Humidity Wind Play
Tennis
D1 Sunny Hot High Weak No
D2 Sunny Hot High Strong No
D3 Overcast Hot High Weak Yes
D4 Rain Mild High Weak Yes
D5 Rain Cool Normal Weak Yes
D6 Rain Cool Normal Strong No
D7 Overcast Cool Normal Strong Yes
D8 Sunny Mild High Weak No
D9 Sunny Cool Normal Weak Yes
D10 Rain Mild Normal Weak Yes
D11 Sunny Mild Normal Strong Yes
D12 Overcast Mild High Strong Yes
D13 Overcast Hot Normal Weak Yes
D14 Rain Mild High Strong No
D15 Sunny High High Weak ?
D16 Rain Mild Normal Strong ?
D17 Overcast Cool Normal Strong ?
D18 Rain Cool High Weak ?
Áp dụng thuật toán phân lớp Naïve Bayes.
Train data = {D1,… , D14}
Test data = {D15, .., D16}
a. Dự đoán kết quả cho mẫu D15, D16, D17, D18
b. Lập ma trận nhằm lẫn (confusion matrix), tính accuracy, error, precision, recall, F1-
score của kết quả dự đoán trên.

(*) Không bắt buộc

GV: Vương Trọng Nhân


DAT704 – Học Máy
Câu 4: Sử dụng thuật toán k-mean và khoảng cách Euclid để gom nhóm các mẫu sau
thành 3 nhóm:

A1(2, 10), A2(2,5), A3(8,4), A4(5,8), A5(7,5), A6(6,4), A7(1,2), A8(4,9)


a. Giả sử các tâm được khởi tạo ban đầu là A1, A4, và A7. Chạy k-mean.
b. Ứng với mỗi lần lặp, cho biết các cụm mới (các điểm thuộc về mỗi nhóm) và
tâm của các cụm mới.
c. Vẽ điểm các ban đầu và vẽ các cụm sau mỗi lần lặp.
d. Cho biết số lần lặp tối thiểu để thuật toán đạt được sự hội tụ (dừng).
e. Cho biết SSE tại thời điểm thuật toán hội tụ.
f. (*) Giải lại các câu trên bằng cách lập trình.

Câu 5: Thực hiện lại Câu 4 với khoảng cách Manhattan thay cho Euclid.

(*) Không bắt buộc

GV: Vương Trọng Nhân

You might also like