Professional Documents
Culture Documents
Chap01-Tong Quan
Chap01-Tong Quan
MACHINE LEARNING
TỔNG QUAN VỀ HỌC MÁY
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.1. Tổng quan về học máy
1.2. Định nghĩa học máy
Chương 1: Tổng quan về học máy
1.3. Dữ liệu
1.4. Các bài toán cơ bản
1.5. Phân loại thuật toán học máy
1.6. Hàm mất mát và tham số mô hình
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.1. Tổng quan về học máy
– Một lĩnh vực nhỏ của Khoa học máy tính
Chương 1: Tổng quan về học máy
Khoa học máy tính (tiếng Anh: computer science) là ngành nghiên
cứu các cơ sở lý thuyết về thông tin và tính toán cùng sự thực hiện và
ứng dụng của chúng trong các hệ thống máy tính
– Một lĩnh vực nghiên cứu của Trí tuệ nhân tạo
Trí tuệ nhân tạo (tiếng Anh: artificial intelligence), đôi khi được gọi là trí
thông minh nhân tạo, là trí thông minh được thể hiện bằng máy móc,
trái ngược với trí thông minh tự nhiên của con người.
Thuật ngữ “trí tuệ nhân tạo” thường được sử dụng để mô tả các máy
móc (hoặc máy tính) có khả năng bắt chước các chức năng “nhận
thức” mà con người thường phải liên kết với tâm trí, như “học tập” và
“giải quyết vấn đề”
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.1. Tổng quan về học máy
Định nghĩa về học máy
Chương 1: Tổng quan về học máy
– Một quá trình nhờ đó một hệ thống cải thiện hiệu suất
(hiệu quả hoạt động) của nó [Simon, 1983]
– Một quá trình mà một chương trình máy tính cải thiện
hiệu suất của nó trong một công việc thông qua kinh
nghiệm [Mitchell, 1997]
– Việc lập trình các máy tính để tối ưu hóa một tiêu chí
hiệu suất dựa trên các dữ liệu mẫu hoặc kinh nghiệm
trong quá khứ [Alpaydin, 2020]
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.1. Tổng quan về học máy
Biểu diễn một bài toán học máy
Chương 1: Tổng quan về học máy
Học máy = Cải thiện hiệu quả một công việc thông
qua kinh nghiệm
– Một công việc (nhiệm vụ) Task
– Đối với các tiêu chí đánh giá hiệu năng Performance
– Thông qua (sử dụng) kinh nghiệm Experience
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.2. Dữ liệu
– Nhiệm vụ trong ML được mô tả thông qua việc một
Chương 1: Tổng quan về học máy
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.2. Dữ liệu
• Phân loại
Chương 1: Tổng quan về học máy
– Yêu cầu: chia dữ liệu X thành các cụm nhỏ dựa trên sự
liên quan giữa các dữ liệu trong mỗi cụm.
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.4. Các thuật toán học máy cơ bản
• Tiêu chí
Chương 1: Tổng quan về học máy
• Phân loại
– Học có giám sát
– Học không có giám sát
– Học bán giám sát (*)
– Học củng cố (*)
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.4. Các thuật toán học máy cơ bản
• Học có giám sát (supervised learning)
Chương 1: Tổng quan về học máy
– Tập huấn luyện gồm các cặp dữ liệu (đầu vào, đầu ra)
– Các thuật toán phổ biến
• Thuật toán phân loại
• Thuật toán hồi quy
• Thuật toán dịch
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.4. Các thuật toán học máy cơ bản
• Học không có giám sát (unsupervised learning)
Chương 1: Tổng quan về học máy
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.5. Hàm mất mát và tham số mô hình
– Mỗi mô hình ML được mô tả bởi bộ các tham số mô
Chương 1: Tổng quan về học máy
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.1. Vector đặc trưng
2.2. Mô hình chung cho các bài toán học máy
Chương 1: Tổng quan về học máy
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.1. Vector đặc trưng
• Mỗi điểm dữ liệu trong ML thường được biểu diễn
Chương 1: Tổng quan về học máy
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.3. Một số kỹ thuật trích chọn đặc trưng
– Trực tiếp lấy dữ liệu thô
Chương 1: Tổng quan về học máy
• Xét bài toán với dữ liệu là các bức ảnh xám có kích thước m×n
điểm ảnh
• Cách đơn giản nhất để tạo ra vector đặc trưng cho bức ảnh này
là xếp chồng các cột của ma trận điểm ảnh để được một vector
m×n phần tử.
• Vector này có thể được coi là vector đặc trưng với mỗi đặc
trưng là giá trị của một điểm ảnh.
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.3. Một số kỹ thuật trích chọn đặc trưng
– Lựa chọn đặc trưng
Chương 1: Tổng quan về học máy
• Chọn ra các thành phần phù hợp trong dữ liệu ban đầu.
• Việc làm này thường xuyên được áp dụng khi một lượng dữ
liệu thu được không có đầy đủ các thành phần hoặc dữ liệu có
quá nhiều chiều mà phần lớn không mang nhiều thông tin hữu
ích.
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.3. Một số kỹ thuật trích chọn đặc trưng
– Giảm chiều dữ liệu
Chương 1: Tổng quan về học máy
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.3. Một số kỹ thuật trích chọn đặc trưng
– Túi từ (bag of words – BoW)
Chương 1: Tổng quan về học máy
• Đưa các từ, các câu, đoạn văn ở dạng ký tự trong các văn bản
về một vector mà mỗi phần tử là một số
• Lập danh sách các từ (từ điển) được sử dụng trong văn bản
• Mỗi vector ứng với một văn bản, với số lần xuất hiện của các từ
trong từ điển (0 nếu từ đó không xuất hiện)
Vấn đề đặt ra là …
túi từ không thể hiện thứ tự xuất hiện các từ trong văn bản
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.4. Chuẩn hóa vector đặc trưng
• Vector cùng số lượng chiều, không đạt chuẩn
Chương 1: Tổng quan về học máy
• Chuẩn hóa
– Chuyển khoảng giá trị
– Chuẩn hóa theo phân phối chuẩn
– Chuẩn hóa về cùng norm
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.4. Chuẩn hóa vector đặc trưng
• Chuyển khoảng giá trị
Chương 1: Tổng quan về học máy
𝑥𝑖 − min(𝑥𝑖 )
𝑥𝑖′ =
max 𝑥𝑖 − min(𝑥𝑖 )
– 𝒙𝒊 và 𝒙′𝒊 giá trị đặc trưng thứ i trước và sau khi được
chuẩn hóa
– max(𝒙𝒊 ) và min(𝒙𝒊 ) là giá trị lớn nhất, nhỏ nhất của đặc
trưng thứ i trên toàn bộ dữ liệu huấn luyện
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.4. Chuẩn hóa vector đặc trưng
• Chuẩn hóa theo phân phối chuẩn
Chương 1: Tổng quan về học máy
′ 𝑥𝑖 − 𝑥ഥ𝑖
𝑥𝑖 =
𝜎𝑖
– 𝒙𝒊 và 𝒙′𝒊 giá trị đặc trưng thứ i trước và sau khi được
chuẩn hóa
– 𝒙ഥ𝒊 và 𝝈𝒊 là kỳ vọng và độ lệch chuẩn của đặc trưng thứ i
trên toàn bộ dữ liệu huấn luyện
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.1. Giới thiệu
3.2. Xây dựng và tối ưu hàm mất mát
Chương 1: Tổng quan về học máy
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.1. Giới thiệu
– Hồi quy tuyến tính (linear regression) là một thuật toán
Chương 1: Tổng quan về học máy
hồi quy mà đầu ra là một hàm tuyến tính của đầu vào.
– Đây là thuật toán đơn giản nhất trong nhóm các thuật
toán học có giám sát.
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.1. Giới thiệu
– Tình huống: Một căn nhà rộng x1 m2, có x2 phòng ngủ
Chương 1: Tổng quan về học máy
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.1. Giới thiệu
– Phương trình hồi quy tuyến tính
Chương 1: Tổng quan về học máy
𝑦ො ≈ 𝑦 = 𝑓 𝑥 = 𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝑤3 𝑥3 + 𝑤0
– y là giá trị thực của outcome (dựa trên số liệu thống kê trong
tập huấn luyện), 𝑦ො là giá trị mà mô hình hồi quy tuyến tính dự
đoán; hai giá trị khác nhau do có sai số mô hình, tuy nhiên,
chúng ta mong muốn rằng sự khác nhau này rất nhỏ
– Tuyến tính được hiểu là thẳng / phẳng
• Không gian hai chiều -> đồ thị dạng đường thẳng
• Không gian ba chiều -> đồ thị dạng mặt phẳng
• Không gian hơn ba chiều -> đồ thị dạng siêu mặt phẳng
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.2. Xây dựng và tối ưu hàm mất mát
𝑦ො ≈ 𝑦 = 𝑓 𝑥 = 𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝑤3 𝑥3 + 𝑤0 = 𝑥𝑤
ҧ
Chương 1: Tổng quan về học máy
• Sai số dự đoán 𝑒 = 𝑦ො − 𝑦
1 2 1
– Mong đợi 𝑒 = (𝑦ො − 𝑦)2 càng nhỏ càng tốt
2 2
𝐿 𝑤 = 𝑦𝑖 − 𝑥ഥ𝑖𝑤 2
2𝑁
𝑖=1
• Nhiệm vụ tìm w để L(w) đạt giá trị nhỏ nhất
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.3. Minh họa bằng Python
• Mô tả dữ liệu
Chương 1: Tổng quan về học máy
– Cho bộ dữ liệu Bảo hiểm với 7 thuộc tính (tuổi, giới tính, chỉ
số khối cơ thể, số con, hút thuốc lá, khu vực sống, tổng chi
phí phải trả) (xem insurance.csv)
• Yêu cầu: Dự đoán tổng chi phí phải trả dựa vào
1. Tuổi của khách hàng không hút thuốc.
2. Tuổi của khách hàng không hút thuốc và chỉ số khối cơ thể
3. Tuổi, chỉ số khối cơ thể, tình trạng hút thuốc
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.3. Minh họa bằng Python
Chương 1: Tổng quan về học máy
Regression-Ví dụ 1
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.3. Minh họa bằng Python
Chương 1: Tổng quan về học máy
Regression-Ví dụ 2
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.3. Minh họa bằng Python
Chương 1: Tổng quan về học máy
Regression-Ví dụ 3
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.3. Minh họa bằng Python
Chương 1: Tổng quan về học máy
Regression-Ví dụ 4
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.3. Minh họa bằng Python
Chương 1: Tổng quan về học máy
Regression-Ví dụ 4
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.1. Giới thiệu
4.2. Dấu hiệu nhận biết
Chương 1: Tổng quan về học máy
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.1. Giới thiệu
– Quá khớp không phải là một thuật toán trong Học máy,
Chương 1: Tổng quan về học máy
Nguồn: Internet
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.1. Giới thiệu
– Trong học có giám sát, cần tìm một hàm số f sao cho
Chương 1: Tổng quan về học máy
𝑦𝑖 ≈ 𝑓(𝑥𝑖 ), ∀𝑖=1,2,3,⋯𝑁
=> quá trình huấn luyện có xu hướng tìm các tham số của mô
hình sao cho việc xấp xỉ có sai số càng nhỏ càng tốt
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.2. Dấu hiệu nhận biết
– Sai số huấn luyện (training error)
Chương 1: Tổng quan về học máy
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.2. Dấu hiệu nhận biết
– Một mô hình được coi là tốt nếu cả sai số huấn luyện và
Chương 1: Tổng quan về học máy
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.3. Xác thực
– Trích một phần tập huấn luyện làm tập xác thực
Chương 1: Tổng quan về học máy
Tạo nhiều kịch bản dựa trên tập xác thực khác nhau.
Kịch bản được chọn là kịch bản cho sai số xác thực nhỏ nhất
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.3. Xác thực
• Xác thực chéo (k-fold cross validation)
Chương 1: Tổng quan về học máy
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.3. Xác thực
• Xác thực chéo (k-fold cross validation)
Chương 1: Tổng quan về học máy
Nguồn: Scikit-learn.org
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.4. Cơ chế kiểm soát (Regularization)
– Ý tưởng: thay đổi mô hình một chút để tránh quá khớp
Chương 1: Tổng quan về học máy
trong khi vẫn giữ được tính tổng quát của nó (tính tổng
quát là tính mô tả được nhiều dữ liệu)
– Giải pháp: Di chuyển nghiệm của bài toán tối ưu hàm
mất mát tới một điểm gần nó. Hướng di chuyển sẽ là
hướng làm cho mô hình ít phức tạp hơn mặc dù giá trị
của hàm mất mát có tăng lên một chút.
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.4. Cơ chế kiểm soát (Regularization)
• Dừng sớm (Early stopping), dừng thuật toán trước
Chương 1: Tổng quan về học máy
khi hàm mất mát đạt giá trị quá nhỏ, giúp tránh quá
khớp
Nguồn: Internet
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.4. Cơ chế kiểm soát (Regularization)
• Thêm số hạng vào hàm mất mát, số hạng này
Chương 1: Tổng quan về học máy
𝐽𝑟𝑒𝑔 𝜃 = 𝐽 𝜃 + 𝜆𝑅(𝜃)
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.4. Cơ chế kiểm soát (Regularization)
• Hồi quy Ridge (l2 regularization)
Chương 1: Tổng quan về học máy
• Trong kỹ thuật này, số hạng chính quy R định nghĩa như sau
2
𝑅 𝑤 = 𝑤 2
• Hàm này có đặc điểm
– Có đạo hàm tại mọi điểm, đạo hàm của nó đơn giản là w
– Việc tối thiểu R(w) đồng nghĩa làm cho các giá trị của hệ số w trở nên gần
với 0, nhờ vậy tránh hiện tượng quá khớp
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.4. Cơ chế kiểm soát (Regularization)
• Hồi quy LASSO (l1 regularization)
Chương 1: Tổng quan về học máy
• Trong kỹ thuật này, số hạng chính quy R định nghĩa như sau
𝑑
𝑅 𝑤 = 𝑤 1 = 𝑤𝑖
1
• Hàm này có đặc điểm
– Có đạo hàm tại mọi điểm, đạo hàm của nó đơn giản là w
– Việc tối thiểu R(w) đồng nghĩa làm cho nhiều hệ số w có giá trị bằng 0,
nhờ vậy tránh hiện tượng quá khớp
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
TÓM TẮT
1. Một số khái niệm
2. Các kỹ thuật xây dựng đặc trưng cơ bản
Chương 1: Tổng quan về học máy
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam