You are on page 1of 50

HỌC MÁY

MACHINE LEARNING
TỔNG QUAN VỀ HỌC MÁY

TS. TRỊNH HOÀNG NAM


NỘI DUNG
1. Một số khái niệm
2. Các kỹ thuật xây dựng đặc trưng cơ bản
Chương 1: Tổng quan về học máy

3. Hồi quy tuyến tính


4. Quá khớp

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.1. Tổng quan về học máy
1.2. Định nghĩa học máy
Chương 1: Tổng quan về học máy

1.3. Dữ liệu
1.4. Các bài toán cơ bản
1.5. Phân loại thuật toán học máy
1.6. Hàm mất mát và tham số mô hình

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.1. Tổng quan về học máy
– Một lĩnh vực nhỏ của Khoa học máy tính
Chương 1: Tổng quan về học máy

Khoa học máy tính (tiếng Anh: computer science) là ngành nghiên
cứu các cơ sở lý thuyết về thông tin và tính toán cùng sự thực hiện và
ứng dụng của chúng trong các hệ thống máy tính

– Một lĩnh vực nghiên cứu của Trí tuệ nhân tạo
Trí tuệ nhân tạo (tiếng Anh: artificial intelligence), đôi khi được gọi là trí
thông minh nhân tạo, là trí thông minh được thể hiện bằng máy móc,
trái ngược với trí thông minh tự nhiên của con người.

Thuật ngữ “trí tuệ nhân tạo” thường được sử dụng để mô tả các máy
móc (hoặc máy tính) có khả năng bắt chước các chức năng “nhận
thức” mà con người thường phải liên kết với tâm trí, như “học tập” và
“giải quyết vấn đề”
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.1. Tổng quan về học máy
Định nghĩa về học máy
Chương 1: Tổng quan về học máy

– Một quá trình nhờ đó một hệ thống cải thiện hiệu suất
(hiệu quả hoạt động) của nó [Simon, 1983]
– Một quá trình mà một chương trình máy tính cải thiện
hiệu suất của nó trong một công việc thông qua kinh
nghiệm [Mitchell, 1997]
– Việc lập trình các máy tính để tối ưu hóa một tiêu chí
hiệu suất dựa trên các dữ liệu mẫu hoặc kinh nghiệm
trong quá khứ [Alpaydin, 2020]

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.1. Tổng quan về học máy
Biểu diễn một bài toán học máy
Chương 1: Tổng quan về học máy

Học máy = Cải thiện hiệu quả một công việc thông
qua kinh nghiệm
– Một công việc (nhiệm vụ) Task
– Đối với các tiêu chí đánh giá hiệu năng Performance
– Thông qua (sử dụng) kinh nghiệm Experience

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.2. Dữ liệu
– Nhiệm vụ trong ML được mô tả thông qua việc một
Chương 1: Tổng quan về học máy

điểm dữ liệu đầu vào được xử lý như thế nào


– Một điểm dữ liệu có thể là một bức ảnh, một đoạn âm
thanh, một văn bản, hoặc một tập các hành vi của
người dùng trên Internet.
– Để máy tính có thể học được, các điểm dữ liệu thường
được đưa về dạng tập hợp các con số mà mỗi số được
gọi là một đặc trưng
– Kinh nghiệm trong ML là bộ dữ liệu được sử dụng để
xây dựng mô hình

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.2. Dữ liệu
• Phân loại
Chương 1: Tổng quan về học máy

– Tập học (huấn luyện)


• Các điểm dữ liệu được sử
dụng trực tiếp trong việc
xây dựng mô hình
– Tập thử nghiệm (kiểm tra)
• Các điểm dữ liệu được
dùng để đánh giá hiệu quả
của mô hình
– Tập tối ưu (xác thực)
• Các điểm dữ liệu được sử
dụng trong việc lựa chọn
các siêu tham số mô hình
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.3. Các bài toán cơ bản
• Bài toán phân loại
Chương 1: Tổng quan về học máy

– Yêu cầu: xác định lớp/nhãn (class/label) của một điểm


dữ liệu trong số C nhãn khác nhau.

• Bài toán hồi quy


– Yêu cầu: xác định giá trị thực của một điểm dữ liệu
trong tập đích Y (có thể vô hạn).
• Bài toán máy dịch
– Yêu cầu: dịch một đoạn văn trong ngôn ngữ này sang
ngôn ngữ khác
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.3. Các bài toán cơ bản
• Bài toán phân cụm
Chương 1: Tổng quan về học máy

– Yêu cầu: chia dữ liệu X thành các cụm nhỏ dựa trên sự
liên quan giữa các dữ liệu trong mỗi cụm.

• Bài toán hoàn thiện dữ liệu


– Yêu cầu: dự đoán các trường dữ liệu còn thiếu trong dữ
liệu đầu vào.

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.4. Các thuật toán học máy cơ bản
• Tiêu chí
Chương 1: Tổng quan về học máy

– Dựa trên đặc điểm của tập huấn luyện

• Phân loại
– Học có giám sát
– Học không có giám sát
– Học bán giám sát (*)
– Học củng cố (*)

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.4. Các thuật toán học máy cơ bản
• Học có giám sát (supervised learning)
Chương 1: Tổng quan về học máy

– Tập huấn luyện gồm các cặp dữ liệu (đầu vào, đầu ra)
– Các thuật toán phổ biến
• Thuật toán phân loại
• Thuật toán hồi quy
• Thuật toán dịch

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.4. Các thuật toán học máy cơ bản
• Học không có giám sát (unsupervised learning)
Chương 1: Tổng quan về học máy

– Tập huấn luyện chỉ bao gồm dữ liệu đầu vào


– Các thuật toán phổ biến
• Thuật toán phân cụm
• Thuật toán giảm chiều dữ liệu

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
1. MỘT SỐ KHÁI NIỆM
1.5. Hàm mất mát và tham số mô hình
– Mỗi mô hình ML được mô tả bởi bộ các tham số mô
Chương 1: Tổng quan về học máy

hình (model parameter), ký hiệu 


– Hàm mất mát thể hiện sự khác biệt giữa giá trị thực tế
và kết quả dự báo của mô hình, ký hiệu L( )
– Mục tiêu của việc học là tìm kiếm bộ  để mô hình có
các phép đánh giá đạt kết quả cao nhất, ít sai sót nhất,
ít mất mát nhất, hay L( ) nhỏ nhất, đây chính là quá
trình học của máy

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.1. Vector đặc trưng
2.2. Mô hình chung cho các bài toán học máy
Chương 1: Tổng quan về học máy

2.3. Một số kỹ thuật trích chọn đặc trưng


2.4. Chuẩn hóa vector đặc trưng

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.1. Vector đặc trưng
• Mỗi điểm dữ liệu trong ML thường được biểu diễn
Chương 1: Tổng quan về học máy

bằng một vector được gọi là vector đặc trưng.


– Trong cùng một mô hình, các vector đặc trưng của các
điểm thường có kích thước như nhau.
• Tuy nhiên, dữ liệu thực tế thường ở dạng thô
– Kích thước khác nhau hoặc
– Kích thước như nhau nhưng số chiều quá lớn
Việc lựa chọn, tính toán đặc trưng phù hợp
cho mỗi bài toán là một bước quan trọng
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.2. Mô hình chung cho các bài toán học máy
Chương 1: Tổng quan về học máy

Nguồn: Vũ Huy Tiệp (2019)


… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.3. Một số kỹ thuật trích chọn đặc trưng
– Trực tiếp lấy dữ liệu thô
Chương 1: Tổng quan về học máy

– Lựa chọn đặc trưng


– Giảm chiều dữ liệu
– Túi từ

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.3. Một số kỹ thuật trích chọn đặc trưng
– Trực tiếp lấy dữ liệu thô
Chương 1: Tổng quan về học máy

• Xét bài toán với dữ liệu là các bức ảnh xám có kích thước m×n
điểm ảnh
• Cách đơn giản nhất để tạo ra vector đặc trưng cho bức ảnh này
là xếp chồng các cột của ma trận điểm ảnh để được một vector
m×n phần tử.
• Vector này có thể được coi là vector đặc trưng với mỗi đặc
trưng là giá trị của một điểm ảnh.

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.3. Một số kỹ thuật trích chọn đặc trưng
– Lựa chọn đặc trưng
Chương 1: Tổng quan về học máy

• Chọn ra các thành phần phù hợp trong dữ liệu ban đầu.
• Việc làm này thường xuyên được áp dụng khi một lượng dữ
liệu thu được không có đầy đủ các thành phần hoặc dữ liệu có
quá nhiều chiều mà phần lớn không mang nhiều thông tin hữu
ích.

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.3. Một số kỹ thuật trích chọn đặc trưng
– Giảm chiều dữ liệu
Chương 1: Tổng quan về học máy

• Giả sử dữ liệu ban đầu là một vector x ∈ RD,

• A là một ma trận trong Rd×D và z = Ax ∈ Rd


• Nếu d < D, z là một vector với số chiều nhỏ hơn.
• Đây là một kỹ thuật phổ biến trong giảm chiều dữ liệu

Vấn đề đặt ra là … ma trận A được xác định như thế nào?

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.3. Một số kỹ thuật trích chọn đặc trưng
– Túi từ (bag of words – BoW)
Chương 1: Tổng quan về học máy

• Đưa các từ, các câu, đoạn văn ở dạng ký tự trong các văn bản
về một vector mà mỗi phần tử là một số
• Lập danh sách các từ (từ điển) được sử dụng trong văn bản
• Mỗi vector ứng với một văn bản, với số lần xuất hiện của các từ
trong từ điển (0 nếu từ đó không xuất hiện)

Vấn đề đặt ra là …
túi từ không thể hiện thứ tự xuất hiện các từ trong văn bản
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.4. Chuẩn hóa vector đặc trưng
• Vector cùng số lượng chiều, không đạt chuẩn
Chương 1: Tổng quan về học máy

– Dữ liệu được do bằng các đơn vị khác nhau


– Hai dữ liệu thành phần có khoảng chênh lệch lớn

• Chuẩn hóa
– Chuyển khoảng giá trị
– Chuẩn hóa theo phân phối chuẩn
– Chuẩn hóa về cùng norm

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.4. Chuẩn hóa vector đặc trưng
• Chuyển khoảng giá trị
Chương 1: Tổng quan về học máy

𝑥𝑖 − min(𝑥𝑖 )
𝑥𝑖′ =
max 𝑥𝑖 − min(𝑥𝑖 )
– 𝒙𝒊 và 𝒙′𝒊 giá trị đặc trưng thứ i trước và sau khi được
chuẩn hóa
– max(𝒙𝒊 ) và min(𝒙𝒊 ) là giá trị lớn nhất, nhỏ nhất của đặc
trưng thứ i trên toàn bộ dữ liệu huấn luyện

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
2. CÁC KỸ THUẬT XÂY DỰNG ĐẶC TRƯNG
2.4. Chuẩn hóa vector đặc trưng
• Chuẩn hóa theo phân phối chuẩn
Chương 1: Tổng quan về học máy

′ 𝑥𝑖 − 𝑥ഥ𝑖
𝑥𝑖 =
𝜎𝑖
– 𝒙𝒊 và 𝒙′𝒊 giá trị đặc trưng thứ i trước và sau khi được
chuẩn hóa
– 𝒙ഥ𝒊 và 𝝈𝒊 là kỳ vọng và độ lệch chuẩn của đặc trưng thứ i
trên toàn bộ dữ liệu huấn luyện

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.1. Giới thiệu
3.2. Xây dựng và tối ưu hàm mất mát
Chương 1: Tổng quan về học máy

3.3. Minh họa bằng Python

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.1. Giới thiệu
– Hồi quy tuyến tính (linear regression) là một thuật toán
Chương 1: Tổng quan về học máy

hồi quy mà đầu ra là một hàm tuyến tính của đầu vào.
– Đây là thuật toán đơn giản nhất trong nhóm các thuật
toán học có giám sát.

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.1. Giới thiệu
– Tình huống: Một căn nhà rộng x1 m2, có x2 phòng ngủ
Chương 1: Tổng quan về học máy

và cách trung tâm thành phố x3 km có giá là bao nhiêu?


– Giả sử chúng ta đã có số liệu thống kê từ 1000 căn nhà
trong thành phố đó, liệu rằng khi có một căn nhà mới
với các thông số về diện tích, số phòng ngủ và khoảng
cách tới trung tâm, chúng ta có thể dự đoán được giá
của căn nhà đó không?
– Phương trình hồi quy tuyến tính
𝑦ො ≈ 𝑦 = 𝑓 𝑥 = 𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝑤3 𝑥3 + 𝑤0

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.1. Giới thiệu
– Phương trình hồi quy tuyến tính
Chương 1: Tổng quan về học máy

𝑦ො ≈ 𝑦 = 𝑓 𝑥 = 𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝑤3 𝑥3 + 𝑤0
– y là giá trị thực của outcome (dựa trên số liệu thống kê trong
tập huấn luyện), 𝑦ො là giá trị mà mô hình hồi quy tuyến tính dự
đoán; hai giá trị khác nhau do có sai số mô hình, tuy nhiên,
chúng ta mong muốn rằng sự khác nhau này rất nhỏ
– Tuyến tính được hiểu là thẳng / phẳng
• Không gian hai chiều -> đồ thị dạng đường thẳng
• Không gian ba chiều -> đồ thị dạng mặt phẳng
• Không gian hơn ba chiều -> đồ thị dạng siêu mặt phẳng
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.2. Xây dựng và tối ưu hàm mất mát
𝑦ො ≈ 𝑦 = 𝑓 𝑥 = 𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝑤3 𝑥3 + 𝑤0 = 𝑥𝑤
ҧ
Chương 1: Tổng quan về học máy

• Sai số dự đoán 𝑒 = 𝑦ො − 𝑦
1 2 1
– Mong đợi 𝑒 = (𝑦ො − 𝑦)2 càng nhỏ càng tốt
2 2

• Hàm mất mát 1


𝑁

𝐿 𝑤 = ෍ 𝑦𝑖 − 𝑥ഥ𝑖𝑤 2
2𝑁
𝑖=1
• Nhiệm vụ tìm w để L(w) đạt giá trị nhỏ nhất

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.3. Minh họa bằng Python
• Mô tả dữ liệu
Chương 1: Tổng quan về học máy

– Cho bộ dữ liệu Bảo hiểm với 7 thuộc tính (tuổi, giới tính, chỉ
số khối cơ thể, số con, hút thuốc lá, khu vực sống, tổng chi
phí phải trả) (xem insurance.csv)

• Yêu cầu: Dự đoán tổng chi phí phải trả dựa vào
1. Tuổi của khách hàng không hút thuốc.
2. Tuổi của khách hàng không hút thuốc và chỉ số khối cơ thể
3. Tuổi, chỉ số khối cơ thể, tình trạng hút thuốc

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.3. Minh họa bằng Python
Chương 1: Tổng quan về học máy

Regression-Ví dụ 1
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.3. Minh họa bằng Python
Chương 1: Tổng quan về học máy

Regression-Ví dụ 2
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.3. Minh họa bằng Python
Chương 1: Tổng quan về học máy

Regression-Ví dụ 3
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.3. Minh họa bằng Python
Chương 1: Tổng quan về học máy

Regression-Ví dụ 4
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
3. HỒI QUY TUYẾN TÍNH
3.3. Minh họa bằng Python
Chương 1: Tổng quan về học máy

Regression-Ví dụ 4
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.1. Giới thiệu
4.2. Dấu hiệu nhận biết
Chương 1: Tổng quan về học máy

4.3. Xác thực


4.4. Cơ chế kiểm soát

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.1. Giới thiệu
– Quá khớp không phải là một thuật toán trong Học máy,
Chương 1: Tổng quan về học máy

mà là một hiện tượng không mong muốn thường gặp


– Người xây dựng mô hình Học máy cần nắm được các
kỹ thuật để tránh hiện tượng này

Nguồn: Internet
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.1. Giới thiệu
– Trong học có giám sát, cần tìm một hàm số f sao cho
Chương 1: Tổng quan về học máy

𝑦𝑖 ≈ 𝑓(𝑥𝑖 ), ∀𝑖=1,2,3,⋯𝑁
=> quá trình huấn luyện có xu hướng tìm các tham số của mô
hình sao cho việc xấp xỉ có sai số càng nhỏ càng tốt

– Tuy nhiên, nếu mô hình quá khớp với dữ liệu huấn


luyện thì nó có thể phản tác dụng.
– Điều này xảy ra thường xuyên khi dữ liệu huấn luyện
quá nhỏ hoặc độ phức tạp của mô hình quá cao

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.2. Dấu hiệu nhận biết
– Sai số huấn luyện (training error)
Chương 1: Tổng quan về học máy

• Mức độ sai khác giữa đầu ra thực và đầu ra dự đoán của mô


hình. Trong hồi quy, đại lượng này thường được xác định bởi
sai số trung bình bình phương (mean squared error – MSE)

– Sai số kiểm tra (test error):


• Tương tự như sai số huấn luyện, áp dụng mô hình tìm được
vào dữ liệu kiểm tra. Chú ý rằng dữ liệu kiểm tra không được
sử dụng khi xây dựng mô hình.

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.2. Dấu hiệu nhận biết
– Một mô hình được coi là tốt nếu cả sai số huấn luyện và
Chương 1: Tổng quan về học máy

sai số kiểm tra đều thấp.


– Nếu sai số huấn luyện thấp nhưng sai số kiểm tra cao,
ta nói mô hình bị quá khớp.
– Nếu sai số huấn luyện cao và sai số kiểm tra cao, ta nói
mô hình bị chưa khớp (hiếm gặp).

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.3. Xác thực
– Trích một phần tập huấn luyện làm tập xác thực
Chương 1: Tổng quan về học máy

– Phần còn lại là tập huấn luyện mới


– Ba sai số trong quá trình học
• Sai số huấn luyện
• Sai số xác thực
• Sai số kiểm tra

Tạo nhiều kịch bản dựa trên tập xác thực khác nhau.
Kịch bản được chọn là kịch bản cho sai số xác thực nhỏ nhất

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.3. Xác thực
• Xác thực chéo (k-fold cross validation)
Chương 1: Tổng quan về học máy

– Chia tập huấn luyện ra k tập con không có phần tử


chung, có kích thước gần bằng nhau
– Mỗi lần kiểm thử, một trong số k tập con được lấy ra
làm tập kiểm thử (validate set). Mô hình được xây dựng
dựa vào hợp của k-1 tập con còn lại
– Mô hình cuối được xác định dựa trên trung bình của
các train error và validation error.

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.3. Xác thực
• Xác thực chéo (k-fold cross validation)
Chương 1: Tổng quan về học máy

Nguồn: Scikit-learn.org
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.4. Cơ chế kiểm soát (Regularization)
– Ý tưởng: thay đổi mô hình một chút để tránh quá khớp
Chương 1: Tổng quan về học máy

trong khi vẫn giữ được tính tổng quát của nó (tính tổng
quát là tính mô tả được nhiều dữ liệu)
– Giải pháp: Di chuyển nghiệm của bài toán tối ưu hàm
mất mát tới một điểm gần nó. Hướng di chuyển sẽ là
hướng làm cho mô hình ít phức tạp hơn mặc dù giá trị
của hàm mất mát có tăng lên một chút.

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.4. Cơ chế kiểm soát (Regularization)
• Dừng sớm (Early stopping), dừng thuật toán trước
Chương 1: Tổng quan về học máy

khi hàm mất mát đạt giá trị quá nhỏ, giúp tránh quá
khớp

Nguồn: Internet
… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.4. Cơ chế kiểm soát (Regularization)
• Thêm số hạng vào hàm mất mát, số hạng này
Chương 1: Tổng quan về học máy

thường dùng để đánh giá độ phức tạp của mô hình


• Số hạng này càng lớn, thì mô hình càng phức tạp
• Hàm mất mát mới này thường được gọi là regularized loss
function, và được định nghĩa như sau

𝐽𝑟𝑒𝑔 𝜃 = 𝐽 𝜃 + 𝜆𝑅(𝜃)

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.4. Cơ chế kiểm soát (Regularization)
• Hồi quy Ridge (l2 regularization)
Chương 1: Tổng quan về học máy

• Trong kỹ thuật này, số hạng chính quy R định nghĩa như sau
2
𝑅 𝑤 = 𝑤 2
• Hàm này có đặc điểm
– Có đạo hàm tại mọi điểm, đạo hàm của nó đơn giản là w
– Việc tối thiểu R(w) đồng nghĩa làm cho các giá trị của hệ số w trở nên gần
với 0, nhờ vậy tránh hiện tượng quá khớp

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
4. QUÁ KHỚP
4.4. Cơ chế kiểm soát (Regularization)
• Hồi quy LASSO (l1 regularization)
Chương 1: Tổng quan về học máy

• Trong kỹ thuật này, số hạng chính quy R định nghĩa như sau
𝑑

𝑅 𝑤 = 𝑤 1 = ෍ 𝑤𝑖
1
• Hàm này có đặc điểm
– Có đạo hàm tại mọi điểm, đạo hàm của nó đơn giản là w
– Việc tối thiểu R(w) đồng nghĩa làm cho nhiều hệ số w có giá trị bằng 0,
nhờ vậy tránh hiện tượng quá khớp

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam
TÓM TẮT
1. Một số khái niệm
2. Các kỹ thuật xây dựng đặc trưng cơ bản
Chương 1: Tổng quan về học máy

3. Hồi quy tuyến tính


4. Quá khớp

… những bước chập chững vào thế giới Khoa học dữ liệu … TS. Trịnh Hoàng Nam

You might also like