You are on page 1of 8

Nội dung chính

1. Supervised Learning là gì?


2. Phân loại Supervised Learning

3. Ưu nhược điểm của Supervised Learning

4. Thách thức khi tiếp cận Supervised Learning

1
1. Supervised Learning là gì?

• Supervised learning là thuật toán dự đoán đầu ra (outcome) của một dữ liệu mới (new input) dựa
trên các cặp (input, outcome) đã biết từ trước. Cặp dữ liệu này còn được gọi là (data, label), tức (dữ
liệu, nhãn). Supervised learning là nhóm phổ biến nhất trong các thuật toán Machine Learning.
• Một cách toán học, Supervised learning là khi chúng ra có một tập hợp biến đầu vào
X = {x1,x2,…,xN} và một tập hợp nhãn tương ứng Y = {y1,y2,…,yN}, trong đó  xi, yi là các vector. Các
cặp dữ liệu biết trước (xi,yi) ∈ X×Y được gọi là tập training data (dữ liệu huấn luyện). Từ tập training
data này, chúng ta cần tạo ra một hàm số ánh xạ mỗi phần tử từ tập X sang một phần tử (xấp xỉ)
tương ứng của tập Y:
yi ≈ f(xi),   ∀i=1,2,…,N
• Mục đích là xấp xỉ hàm số f thật tốt để khi có một dữ liệu x mới, chúng ta có thể tính được nhãn
tương ứng của nó y = f(x).

2
2. Phân loại Supervised Learning

• Thuật toán supervised learning còn được tiếp tục chia nhỏ ra thành hai loại:
 Regression (hồi quy): giá trị của output cần dự đoán là các giá trị thực và liên tục, ví dụ
như giá tiền, cân nặng, số lượng...
 Classification (phân loại): giá trị của output cần dự đoán là các giá trị rời rạc, ví dụ như
màu sắc, đúng/sai... Ví dụ về việc phân loại spam/non-spam email là 1 bài toán
Classification.

3
2. Phân loại Supervised Learning

 Regression (hồi quy): giá trị của output cần dự đoán là các giá trị thực và liên tục, ví dụ như
giá tiền, cân nặng, số lượng...
 Ví dụ: Với biểu đồ trên, làm sao chúng ta có thể dự đoán được giá của 1 ngôi nhà có diện tích
750 feet2? Dựa vào các dữ liệu đã thu thập được chúng ta có thể vẽ một đồ thị biểu
diễn mối quan hệ giữa giá nhà - diện tích.

4
2. Phân loại Supervised Learning

 Regression (hồi quy): giá trị của output cần dự đoán là các giá trị thực và liên tục, ví dụ như
giá tiền, cân nặng, số lượng...

Trong trường hợp này, giả sử đồ thị đó là 1 đường thẳng dạng y = ax + b chẳng hạn, từ đó ta
có thể thấy giá của ngôi nhà có thể rơi vào khoảng $150000.

5
2. Phân loại Supervised Learning

 Classification (phân loại): giá trị của output cần dự đoán là các giá trị rời rạc, ví dụ như màu
sắc, đúng/sai...
 Ví dụ về việc phân loại spam/non-spam email là 1 bài toán Classification.

6
3. Ưu nhược điểm của Supervised Learning

 Ưu điểm 
• Supervised Learning hay học có giám sát cho phép thu thập dữ liệu đầu vào và tạo ra dữ liệu đầu ra từ
những đào tạo trước đó.
• Giúp tối ưu hóa các tiêu chí với sự trợ giúp của kinh nghiệm đã cài đặt.
• Học có giám sát giúp giải quyết nhiều loại vấn đề tính toán khác nhau trong thế giới thực.

 Nhược điểm
• Phân loại với nguồn dữ liệu lớn có thể là một thách thức.
• Mô hình cần quyết định trước các cấu trúc và thuật toán học.
• Mô hình cần nhiều ví dụ hay sử dụng nhiều loại nếu sử dụng thuật toán phân loại.
• Đào tạo cho việc học có giám sát cần nhiều thời gian tính toán.  

7
4. Thách thức khi tiếp cận Supervised Learning

Mặc dù học có giám sát có thể mang lại cho doanh nghiệp những lợi thế, chẳng hạn như hiểu biết
sâu rộng về dữ liệu và cải thiện khả năng tự động hóa, nhưng vẫn còn nhiều thách thức khi xây dựng
mô hình Supervised Learning.
• Tính khả thi của mô hình: phụ thuộc vào tính năng mà bạn muốn hướng tới và những yếu tố khác như số
lượng dữ liệu, chi phí tính toán..
• Mô hình học tập có giám sát có thể yêu cầu mức độ chuyên môn nhất định để cấu trúc chính xác.
• Chuẩn bị dữ liệu và xử lý trước khi đưa vào mô hình luôn là một thách thức.
• Đào tạo các mô hình Supervised Learning có thể rất tốn thời gian.
• Tập dữ liệu khi thực hiện bằng máy có thể có khả năng xảy ra lỗi cao hơn việc thực hiện thuật toán hoàn
toàn do con người, dẫn đến các thuật toán học không chính xác.
• Không giống như các mô hình học tập không giám sát, học tập có giám sát không thể tự phân cụm hoặc
phân loại dữ liệu.

You might also like