You are on page 1of 31

Tổng quan về Học máy

ứng dụng trong Khai phá dữ liệu


Nhập môn
1. Khái niệm về học máy
2. Các thành phần của mô hình học máy
3. Bài toán phân lớp
4. Bài toán phân cụm
5. Học máy ứng dụng trong Khai phá dữ liệu

2
Trí tuệ nhân tạo và Học máy

Source: https://ospreydata.com
3
Tại sao cần “máy học”?
Big data everywhere
• Google processes 20 PB a day (2008)
• Wayback Machine has 3 PB + 100 TB/month (3/2009)
• Facebook has 2.5 PB of user data + 15 TB/day (4/2009)
• eBay has 6.5 PB of user data + 50 TB/day (5/2009)
• CERN’s Large Hydron Collider (LHC) generates 15 PB a year
• …

 Mô hình hóa, phân tích, khai phá các dữ liệu này

4
Machine learning?

5
HỌC MÁY: CÁC KHÁI NIỆM VÀ PHƯƠNG PHÁP

• Học máy: cho phép chương trình có khả năng tự động, tối ưu hóa dựa trên dữ liệu
hoặc kinh nghiệm thay vì các thuật toán.
• Machine learning = Improve the performance at a task with experiences
– Bài toán (Task): T
– Dữ liệu (Experience/ data): E
– Hiệu năng (Performance/ evaluation): P

4/20/2022 6
Ví dụ bài toán học máy

• Example 1: Spam filter


– T: Predict (filter) spam emails
– P: % of email accurately predicted/filtered.
– E (data?): set of emails represented by
features

7
• Example 2: Webpage classification
– T: Classify webpages into a predefined topics
– P: % of webpage correctly classified
– E: Set of webpages with labeled topics

8
• Example 3: Phân loại/sắp xếp tập ảnh
– T?
– P?
– E?

9
• Example 4: Xe tự lái
– T?
– P?
– E?

• Example 5: Dự đoán giá thị trường

• Example 6: Phân loại khách hàng

10
Học như thế nào

• Phải có dữ liệu
• Tạo ra các mô hình từ dữ liệu thực tế thay vì lập trình theo thuật toán cứng.
• Dữ liệu rất nhiều và có thể rẻ (data warehouse, data marts)
• Tri thức là hữu hạn và đắt đỏ (đặc biệt tri thức chuyên gia)
• Ví dụ: Bác sĩ chẩn đoán bệnh, đọc MRI

• Nhiệm vụ: Xây dựng mô hình để xấp xỉ dữ liệu.

11
Các phương pháp học máy

12
CÁC PHƯƠNG PHÁP HỌC MÁY

• Học có giám sát (Supervised learning)


– Bài toán phân lớp đơn giản kNN và Hồi quy tuyến tính
– Cây phân lớp (Decision Tree)
– Support Vector Machines (SVM)
– Naïve Bayes

14
Ví dụ 1: Bài toán phân loại ảnh

Training Training
Labels
Training
Images
Image Learned
Training
Features model

Testing
Image Learned
Prediction
Features model
Test Image Slide credit: D. Hoiem and L. Lazebnik
Ví dụ 2: Bài toán phân loại email, phát hiện spam

• T: Phân loại email


• P: Tỷ lệ phân loại đúng
• E: Dữ liệu emails đã thu thập được (trong quá khứ)

• E: Thu thập? Biểu diễn?


• E = (X,Y), X = (thông tin về email), Y = nhãn (Y/N)
• X = (thông tin về email)
= (tiêu_đề, địa_chỉ, IP, domain, nội_dung, tệp_đính_kèm,…)

16
Ví dụ 3: Bài toán hồi quy?
• Given 2 vectors x and y, determine y = f(x)?
y = f(x) = 2x
given x=7 y=14
• Change the data:
y = f(x) = ?
given x=7 y=?

• Collect data {(x,y)}, x can be multi dimensions, where x is input, y is output


• Train a machine, i.e., ANN: y = fANN(x) . This is a machine or the program.
• Then, for each xi: yi = fANN(xi) ~ f(xi)

17
• Học không có giám sát (Unsupervised learning)
– K-means
– Mean-shift
– Phân cụm phổ (Spectral Clustering)

18
Dữ liệu cho học không có giám sát

Cặp D= {(Xi,-)}, i=1..n


Trong đó: X Là ma trận dữ liệu, không có nhãn Y
X1 = (x11 x12… x1m), không có nhãn
X2 = (x21 x22… x2m)

|xn1 xn2… xnm|

19
• Lớp bài toán Phân cụm (clustering): Dữ liệu không có nhãn (vd: phân
nhóm loại cá, cà chua)
• khác với bài toán Phân loại (classification)

ML for Pattern Recognition


• Slides: Introduction to PR

20
• Học sâu (Deep Learning) thuộc Supervised learning
– Mạng nơ-ron nhân tạo nhiều lớp (Multiple Layer Perceptron)
– Auto encoder
– Deep learning
– Các mạng học sâu tích chập

21
• Sơ đồ quá trình học máy

22
Quá trình huấn luyện mô hình (Training/ Learning)

4/20/2022 23
Đánh giá mô hình

24
• Thành phần của một mô hình ML?
• T
• E
• P

• E: D = (X, Y) cho bài toán học có giám sát


• D = (X,-) cho bài toán học không có giám sát
• D được chia thành D_train, D_test, D_valid

25
Ví dụ dữ liệu D

• X1 = (Low, Blond, Blue), Y1 = +


• X2 = (Low, Brown, Blue), Y1 = -
26
Dữ liệu D = (X, Y)
Nhãn: label

• Cột: Thuộc tính/ trường


Feature/ field
• Hàng: Phần tử dữ liệu/
điểm dữ liệu/ Bản ghi/
mẫu/ ví dụ
Data point / record/
sample/ example
• Kiểu dữ liệu: nhị phân,
định danh (category/
nominal), số
(numeric),…
• Nhãn (ground truth): Y

4/20/2022 27
X1= (x1,y1) = (Male, 19, 1900), y1 = 0
X2= (x2,y2) = (Male, 35,20000;0)

28
29
Các phần mềm công cụ
• Weka
• R
• Matlab
• Python
• Scikit learn
• Tensorflow

• Tài liệu hướng dẫn sử dụng.

30
QUESTION?

31

You might also like