Welcome to Scribd!

Skip carousel

L6-Phân Lớp Dữ Liệu - K-NN

Uploaded by

nguyenhoai04102003

0% found this document useful (0 votes)

2 views26 pages

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

2 views26 pages

L6-Phân Lớp Dữ Liệu - K-NN

Uploaded by

nguyenhoai04102003

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 26

Search inside document

Phân lớp dữ liệu với thuật toán

k-láng giềng gần nhất (K-NN)

1
NỘI DUNG

1. Tổng quan về phân lớp dữ liệu

2. Phân lớp dữ liệu với k-NN
• Thuật toán k-NN
• Xây dựng độ đo tương tự
• Đánh giá
3. Ứng dụng

2
TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU

• Phân lớp dữ liệu (classification)

– Là dạng phân tích dữ liệu nhằm xây dựng các mô hình mô tả
các lớp dữ liệu để dự đoán nhãn lớp hoặc xu hướng của dữ
liệu.
• Quá trình gồm hai bước
– Bước học (giai đoạn huấn luyện): xây dựng bộ phân lớp
(classifier) bằng việc phân tích/ huấn luyện
– Bước phân lớp (classification): thực hiện phân lớp cho dữ liệu
mới (dự đoán nhãn).

3
Các thuật toán phân lớp

• K- láng giềng gần nhất (kNN)

• Cây phân lớp (Decision Tree)
• Support Vector Machines (SVM)
• Naïve Bayes
• Các mô hình mạng nơ-ron
• …

4
• Ví dụ 1: Ông A (TID = 11) có vi phạm?

Marital Taxable
TID Refund Evade
Status Income
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes

5
• Xây dựng mô hình phân lớp

6
• Áp dụng mô hình phân lớp để dự đoán nhãn cho dữ liệu mới

7
• Ví dụ 2: Dự đoán khả năng tốt nghiệp của sinh viên.

8
• Ví dụ 2: Dự đoán khả năng khách sẽ mua hàng.

9
Thuật toán K-NN: Học dựa trên các láng giềng gần nhất

• K-NN: k Nearest Neighbors

Là 1 phương pháp học có giám sát
• Một số tên gọi khác:
• Instance-based learning (học dựa trên ví dụ)
• Lazy learning
• Memory-based learning (học dựa trên ghi nhớ)

10
Ý tưởng của thuật toán K-NN

• Ý tưởng: phân loại dữ liệu dựa trên nhãn của các láng giềng
gần nhất.
• Với một tập các ví dụ (mẫu, sample) trong dữ liệu để học
─ Lưu lại các mẫu
─ Không cần xây dựng một mô hình (mô tả) rõ ràng và tổng
quát của hàm mục tiêu cần học
• Đối với một mẫu cần phân loại/dự đoán nhãn
─ Xét quan hệ giữa mẫu đó với các mẫu trong dữ liệu học để
gán giá trị của hàm mục tiêu (một nhãn lớp, hoặc một giá trị
thực).

11
Thuật toán học dựa trên các láng giềng gần nhất

12
Ví dụ: bài toán phân lớp

13
Giải thuật phân lớp k-NN

14
Tham số k: chọn như thế nào?

15
CÁC ĐỘ ĐO KHOẢNG CÁCH

16
•

17
•

18
Chuẩn hóa giá trị thuộc tính của dữ liệu

19
Trọng số của các thuộc tính

20
Khi nào thì nên dùng k-NN?

•
•
•
•

21
K-NN cho phân loại

• Ví dụ: iris.csv (view data)

– Bước 1: Chuẩn bị dữ liệu và biểu diễn trực quan hoá

22
K-NN cho phân loại

• Ví dụ: tập dữ liệu iris.csv

Bước 2: Mô hình hoá (modeling) dùng k-NN
– Lựa chọn/ tìm kiếm các (bộ) tham số phù hợp
– Giá trị k trong k-NN
– Độ (hàm) đo khoảng cách

23
K-NN cho phát hiện bất thường

• K-NN thường dùng

cho bài toán phân lớp
• K-NN có thể dùng cho
phát hiện bất thường
khi có phần từ dữ liệu
nằm một mình, cách
xa các phần tử khác

Towarddatascience

24
• Iris data

25
• Câu hỏi

• Bài tập.

L13 - Phân Cụm Dữ Liệu
Document37 pages
L13 - Phân Cụm Dữ Liệu
nguyenhoai04102003
No ratings yet
Clustering VNA Hien (M6M7)
Document171 pages
Clustering VNA Hien (M6M7)
Huy Hoàng Lê Đức
No ratings yet
TÌM HIỂU GOM CỤM DỮ LIỆU VÀ HỌ
Document23 pages
TÌM HIỂU GOM CỤM DỮ LIỆU VÀ HỌ
hosyky
No ratings yet
NMHocMay08 KNN
Document20 pages
NMHocMay08 KNN
no mo
No ratings yet
Slide
Document10 pages
Slide
ngquocthai2703
No ratings yet
Bai5 PhanLop CayQuyetDinh PDF
Document65 pages
Bai5 PhanLop CayQuyetDinh PDF
kiet nguyen
No ratings yet
2.mayhoc Hocgiamsat
Document49 pages
2.mayhoc Hocgiamsat
Thành Thai
No ratings yet
L3-Tiền Xử Lý Dữ Liệu
Document32 pages
L3-Tiền Xử Lý Dữ Liệu
nguyenhoai04102003
No ratings yet
4 Phan Lop Du Lieu Final
Document51 pages
4 Phan Lop Du Lieu Final
Nguyệt Minh
No ratings yet
Phan Lop Du Lieu-Final
Document51 pages
Phan Lop Du Lieu-Final
Phương Nguyễn Mai
No ratings yet
4 - Phan Lop Du Lieu-Final
Document51 pages
4 - Phan Lop Du Lieu-Final
Vy Ngô
No ratings yet
Báo Cáo Mining
Document34 pages
Báo Cáo Mining
Bảo Anh Dương
No ratings yet
4 - Phan Lop Du Lieu-Final
Document51 pages
4 - Phan Lop Du Lieu-Final
minpu543
No ratings yet
AI Ch5 MachineLearning DM New
Document32 pages
AI Ch5 MachineLearning DM New
Thanh Trí
No ratings yet
Gom Cụm Dữ Liệu: Ha Le Hoai Trung
Document45 pages
Gom Cụm Dữ Liệu: Ha Le Hoai Trung
Phuong Nguyen Thi Bich
No ratings yet
L2 Preprocess
Document52 pages
L2 Preprocess
Dương Đào Kim
No ratings yet
4 - Phan Lop Du Lieu-Final
Document65 pages
4 - Phan Lop Du Lieu-Final
nhinguyen.31231026864
No ratings yet
Báo Cáo Mining
Document33 pages
Báo Cáo Mining
Việt Anh
No ratings yet
KHDL
Document9 pages
KHDL
THANH HỒ THÁI
No ratings yet
Thuật Toán Cây Quyết Định C4.5
Document22 pages
Thuật Toán Cây Quyết Định C4.5
Kim Yến
50% (2)
Thuyettrinh
Document13 pages
Thuyettrinh
8706Đặng Hoài Phương
No ratings yet
L5-Tổng Quan Về Học Máy
Document31 pages
L5-Tổng Quan Về Học Máy
nguyenhoai04102003
No ratings yet
C8 Machine Learning PDF
Document76 pages
C8 Machine Learning PDF
Phú Nguyễn Đình
No ratings yet
AI Ch6 Classification New
Document97 pages
AI Ch6 Classification New
Thanh Trí
No ratings yet
Xây D NG Mô Hình Phân C M
Document40 pages
Xây D NG Mô Hình Phân C M
anhnguyen.31211020809
No ratings yet
L7 Phan Nhom
Document35 pages
L7 Phan Nhom
Loan Pia
No ratings yet
Bài 4
Document55 pages
Bài 4
Thanh Thiện Trần Châu
No ratings yet
Weka
Document14 pages
Weka
Jb Khoi
No ratings yet
Thuc Hanh 1
Document49 pages
Thuc Hanh 1
Hoang Minh Quan
No ratings yet
Phan Lop
Document48 pages
Phan Lop
Nguyễn Hoàng Khả Di
100% (1)
Bài 9 - Học máy
Document26 pages
Bài 9 - Học máy
Nguyễn Đạt
No ratings yet
Chuong 2. Cơ bản về Lập trình HDT (done)
Document36 pages
Chuong 2. Cơ bản về Lập trình HDT (done)
vanlam
No ratings yet
232 CO2003 Assignment VI
Document16 pages
232 CO2003 Assignment VI
cuong.lephu
No ratings yet
Bai Giang 01
Document24 pages
Bai Giang 01
Thành Tài Nguyen
No ratings yet
Khai phá dữ liệu
Document20 pages
Khai phá dữ liệu
Nguyen Linh
No ratings yet
Chuong 5
Document54 pages
Chuong 5
Cao Hoàng Anh Thư
No ratings yet
Bai Tap Ptit
Document10 pages
Bai Tap Ptit
Đức Minh
No ratings yet
câu-hỏi phân tích dữ liệu
Document2 pages
câu-hỏi phân tích dữ liệu
Mai Lê Trương Trúc
No ratings yet
Slide 4.1 Tiền Xử Lý Dữ Liệu
Document31 pages
Slide 4.1 Tiền Xử Lý Dữ Liệu
Điển Hoàng
No ratings yet
Bai 10 Gom Cum Du Lieu (Tiep)
Document8 pages
Bai 10 Gom Cum Du Lieu (Tiep)
Lu Lu
No ratings yet
Bai 5 - Phan Tich Va Thiet Ke Kho Du Lieu
Document21 pages
Bai 5 - Phan Tich Va Thiet Ke Kho Du Lieu
Tiến Hồ Mạnh
No ratings yet
Chuong Trinh Tu Duy Dinh Luong 2022
Document18 pages
Chuong Trinh Tu Duy Dinh Luong 2022
Chandler M. Bing
No ratings yet
Chương 1. Khái Niệm Cơ Bản Và Đánh Giá Thuật Toán
Document82 pages
Chương 1. Khái Niệm Cơ Bản Và Đánh Giá Thuật Toán
Hà Trần
No ratings yet
L6-Phan Lop 2
Document78 pages
L6-Phan Lop 2
Loan Pia
No ratings yet
Data Mining Project Guideline
Document4 pages
Data Mining Project Guideline
hung hung
No ratings yet
Orange
Document4 pages
Orange
chiem hoi
No ratings yet
L12 Generative Models
Document65 pages
L12 Generative Models
caominhmap123
No ratings yet
Gioi Thieu Kali Linux
Document18 pages
Gioi Thieu Kali Linux
Jessica Walker
No ratings yet
S09 GiaiThuatTimKiem Full
Document41 pages
S09 GiaiThuatTimKiem Full
tranquochuwng
No ratings yet
KPDL Diamond
Document20 pages
KPDL Diamond
Thi Xuan Rin Le
No ratings yet
C1 SQL-TongQuan
Document50 pages
C1 SQL-TongQuan
nguyenvanduy1310
No ratings yet
9 Clustering
Document42 pages
9 Clustering
Vũ Tuấn Anh
No ratings yet
K Means
Document29 pages
K Means
Lê Trần Thị Mai
No ratings yet
L11 - Phân L P SVM
Document23 pages
L11 - Phân L P SVM
nguyenhoai04102003
No ratings yet
L11 - Phân L P SVM
Document23 pages
L11 - Phân L P SVM
nguyenhoai04102003
No ratings yet
L9 - Phân L P Bayes
Document17 pages
L9 - Phân L P Bayes
nguyenhoai04102003
No ratings yet
L3-Tiền Xử Lý Dữ Liệu
Document32 pages
L3-Tiền Xử Lý Dữ Liệu
nguyenhoai04102003
No ratings yet