Professional Documents
Culture Documents
2
Trí tuệ nhân tạo và Học máy
Source: https://ospreydata.com
3
Tại sao cần “máy học”?
Big data everywhere
• Google processes 20 PB a day (2008)
• Wayback Machine has 3 PB + 100 TB/month (3/2009)
• Facebook has 2.5 PB of user data + 15 TB/day (4/2009)
• eBay has 6.5 PB of user data + 50 TB/day (5/2009)
• CERN’s Large Hydron Collider (LHC) generates 15 PB a year
• …
4
Machine learning?
5
HỌC MÁY: CÁC KHÁI NIỆM VÀ PHƯƠNG PHÁP
• Học máy: cho phép chương trình có khả năng tự động, tối ưu hóa dựa trên dữ liệu
hoặc kinh nghiệm thay vì các thuật toán.
• Machine learning = Improve the performance at a task with experiences
– Bài toán (Task): T
– Dữ liệu (Experience/ data): E
– Hiệu năng (Performance/ evaluation): P
4/20/2022 6
Ví dụ bài toán học máy
7
• Example 2: Webpage classification
– T: Classify webpages into a predefined topics
– P: % of webpage correctly classified
– E: Set of webpages with labeled topics
8
• Example 3: Phân loại/sắp xếp tập ảnh
– T?
– P?
– E?
9
• Example 4: Xe tự lái
– T?
– P?
– E?
10
Học như thế nào
• Phải có dữ liệu
• Tạo ra các mô hình từ dữ liệu thực tế thay vì lập trình theo thuật toán cứng.
• Dữ liệu rất nhiều và có thể rẻ (data warehouse, data marts)
• Tri thức là hữu hạn và đắt đỏ (đặc biệt tri thức chuyên gia)
• Ví dụ: Bác sĩ chẩn đoán bệnh, đọc MRI
11
Các phương pháp học máy
12
CÁC PHƯƠNG PHÁP HỌC MÁY
14
Ví dụ 1: Bài toán phân loại ảnh
Training Training
Labels
Training
Images
Image Learned
Training
Features model
Testing
Image Learned
Prediction
Features model
Test Image Slide credit: D. Hoiem and L. Lazebnik
Ví dụ 2: Bài toán phân loại email, phát hiện spam
16
Ví dụ 3: Bài toán hồi quy?
• Given 2 vectors x and y, determine y = f(x)?
y = f(x) = 2x
given x=7 y=14
• Change the data:
y = f(x) = ?
given x=7 y=?
17
• Học không có giám sát (Unsupervised learning)
– K-means
– Mean-shift
– Phân cụm phổ (Spectral Clustering)
18
Dữ liệu cho học không có giám sát
19
• Lớp bài toán Phân cụm (clustering): Dữ liệu không có nhãn (vd: phân
nhóm loại cá, cà chua)
• khác với bài toán Phân loại (classification)
20
• Học sâu (Deep Learning) thuộc Supervised learning
– Mạng nơ-ron nhân tạo nhiều lớp (Multiple Layer Perceptron)
– Auto encoder
– Deep learning
– Các mạng học sâu tích chập
21
• Sơ đồ quá trình học máy
22
Quá trình huấn luyện mô hình (Training/ Learning)
4/20/2022 23
Đánh giá mô hình
24
• Thành phần của một mô hình ML?
• T
• E
• P
25
Ví dụ dữ liệu D
4/20/2022 27
X1= (x1,y1) = (Male, 19, 1900), y1 = 0
X2= (x2,y2) = (Male, 35,20000;0)
28
29
Các phần mềm công cụ
• Weka
• R
• Matlab
• Python
• Scikit learn
• Tensorflow
30
QUESTION?
31