Professional Documents
Culture Documents
1
NỘI DUNG
2
TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU
3
Các thuật toán phân lớp
4
• Ví dụ 1: Ông A (TID = 11) có vi phạm?
Marital Taxable
TID Refund Evade
Status Income
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
5
• Xây dựng mô hình phân lớp
6
• Áp dụng mô hình phân lớp để dự đoán nhãn cho dữ liệu mới
7
• Ví dụ 2: Dự đoán khả năng tốt nghiệp của sinh viên.
8
• Ví dụ 2: Dự đoán khả năng khách sẽ mua hàng.
9
Thuật toán K-NN: Học dựa trên các láng giềng gần nhất
10
Ý tưởng của thuật toán K-NN
• Ý tưởng: phân loại dữ liệu dựa trên nhãn của các láng giềng
gần nhất.
• Với một tập các ví dụ (mẫu, sample) trong dữ liệu để học
─ Lưu lại các mẫu
─ Không cần xây dựng một mô hình (mô tả) rõ ràng và tổng
quát của hàm mục tiêu cần học
• Đối với một mẫu cần phân loại/dự đoán nhãn
─ Xét quan hệ giữa mẫu đó với các mẫu trong dữ liệu học để
gán giá trị của hàm mục tiêu (một nhãn lớp, hoặc một giá trị
thực).
11
Thuật toán học dựa trên các láng giềng gần nhất
12
Ví dụ: bài toán phân lớp
13
Giải thuật phân lớp k-NN
14
Tham số k: chọn như thế nào?
15
CÁC ĐỘ ĐO KHOẢNG CÁCH
16
•
17
•
18
Chuẩn hóa giá trị thuộc tính của dữ liệu
19
Trọng số của các thuộc tính
20
Khi nào thì nên dùng k-NN?
•
•
•
•
21
K-NN cho phân loại
22
K-NN cho phân loại
23
K-NN cho phát hiện bất thường
Towarddatascience
24
• Iris data
25
• Câu hỏi
• Bài tập.
26