You are on page 1of 5

Họ và tên: Lê Chí Bảo

MSSV: 2054020061

1. Mô tả bài toán phân lớp dữ liệu và quy trình giải quyết

 Bài toán phân lớp dữ liệu là một bài toán học máy có giám sát
(supervised machine learning), trong đó mục tiêu là dự đoán nhãn (label) cho một tập
dữ liệu mới dựa trên các thuộc tính (feature) của dữ liệu.

Ví dụ, phân loại email thành spam hoặc không spam, phân loại hình ảnh thành mèo
hoặc chó, v.v.

 Quy trình giải quyết bài toán phân lớp:

1. Thu thập dữ liệu: Thu thập dữ liệu có nhãn, bao gồm các thuộc tính và
nhãn tương ứng.
2. Tiền xử lý dữ liệu: Xử lý các giá trị thiếu, chuẩn hóa dữ liệu, loại bỏ các
thuộc tính không liên quan.
3. Chọn mô hình: Chọn mô hình phân lớp phù hợp với bài toán, ví dụ như
Logistic Regression, K-Nearest Neighbors, Support Vector Machines,
Decision Trees, Random Forest, v.v.
4. Huấn luyện mô hình: Sử dụng dữ liệu đã được xử lý để huấn luyện mô
hình.
5. Đánh giá mô hình: Sử dụng dữ liệu chưa được sử dụng (test data) để
đánh giá hiệu quả của mô hình.
6. Điều chỉnh mô hình: Điều chỉnh các tham số của mô hình hoặc chọn mô
hình khác nếu hiệu quả không tốt.
7. Triển khai mô hình: Sử dụng mô hình đã được huấn luyện để dự đoán
nhãn cho dữ liệu mới.
2. Phân biệt overfitting và underfitting

 Overfitting là hiện tượng mô hình học quá tốt dữ liệu huấn luyện, dẫn đến việc
dự đoán sai trên dữ liệu mới. Mô hình overfitting sẽ có độ chính xác cao trên dữ liệu
huấn luyện nhưng độ chính xác thấp trên dữ liệu test.

Ví dụ:

 Một mô hình học để phân loại các loại hoa được huấn luyện trên một tập
dữ liệu gồm 100 hình ảnh hoa hồng và 100 hình ảnh hoa tulip. Mô hình học quá tốt
các chi tiết cụ thể của các hình ảnh hoa trong tập huấn luyện, dẫn đến việc mô hình
phân loại sai các hình ảnh hoa mới mà nó chưa từng gặp trước đây.
 Một mô hình học để dự đoán giá nhà được huấn luyện trên một tập dữ liệu
gồm các ngôi nhà trong một khu vực cụ thể. Mô hình học quá tốt các đặc điểm cụ
thể của các ngôi nhà trong khu vực này, dẫn đến việc mô hình dự đoán sai giá nhà
ở các khu vực khác.

 Underfitting là hiện tượng mô hình học chưa đủ tốt dữ liệu huấn luyện, dẫn đến
việc dự đoán sai trên cả dữ liệu huấn luyện và dữ liệu test. Mô hình underfitting sẽ có độ
chính xác thấp trên cả dữ liệu huấn luyện và dữ liệu test.

Ví dụ:

 Một mô hình học để phân loại các loại trái cây được huấn luyện trên một
tập dữ liệu gồm 10 hình ảnh quả táo và 10 hình ảnh quả cam. Mô hình không học
được các đặc điểm quan trọng để phân biệt hai loại trái cây này, dẫn đến việc mô
hình phân loại sai cả hai loại trái cây.
 Một mô hình học để dự đoán giá cổ phiếu được huấn luyện trên một tập
dữ liệu gồm giá cổ phiếu của một công ty trong một khoảng thời gian ngắn. Mô
hình không học được các yếu tố ảnh hưởng đến giá cổ phiếu, dẫn đến việc mô hình
dự đoán sai giá cổ phiếu trong tương lai.

3. Các phương pháp phân loại nào được nêu trong bài học

3.1. K-Nearest Neighbors (KNN)

Ý tưởng chính: KNN dựa trên nguyên tắc tìm kiếm K điểm gần nhất với điểm cần
phân loại và dựa vào nhãn của K điểm này để dự đoán nhãn của điểm cần phân loại.

Ưu điểm:

 Đơn giản và dễ hiểu


 Không yêu cầu dữ liệu phải tuân theo phân phối xác suất cụ thể
 Có thể xử lý dữ liệu đa chiều

Nhược điểm:

 Độ chính xác có thể bị ảnh hưởng bởi nhiễu trong dữ liệu


 Tốn thời gian tính toán khi K lớn
 Khó khăn trong việc lựa chọn giá trị K

3. 2. Naive Bayes

Ý tưởng chính: Naive Bayes dựa trên định lý Bayes và giả định rằng các thuộc tính
của dữ liệu độc lập với nhau. Naive Bayes dự đoán nhãn cho điểm dữ liệu dựa trên xác
suất của các thuộc tính của điểm dữ liệu đó.

Ưu điểm:

 Đơn giản và hiệu quả


 Có thể xử lý dữ liệu đa chiều

Nhược điểm:
 Giả định về tính độc lập của các thuộc tính có thể không đúng trong thực tế
 Độ chính xác có thể bị ảnh hưởng bởi nhiễu trong dữ liệu

3. 3. Decision Tree

Ý tưởng chính: Decision Tree xây dựng một cây quyết định để phân loại dữ liệu.
Cây quyết định bao gồm các nút nội bộ đại diện cho các thuộc tính của dữ liệu, các nhánh
đại diện cho các giá trị của thuộc tính, và các nút lá đại diện cho các nhãn phân loại

Ưu điểm:

 Dễ hiểu và trực quan


 Có thể xử lý dữ liệu đa chiều
 Có thể xử lý dữ liệu thiếu

Nhược điểm:

 Có thể bị overfitting nếu cây quyết định quá phức tạp


 Khó khăn trong việc lựa chọn các thuộc tính để xây dựng cây quyết định

3.4. Support Vector Machine (SVM)

Ý tưởng chính: SVM tìm kiếm một mặt phẳng phân cách tối ưu giữa các lớp dữ
liệu để phân loại dữ liệu. SVM sử dụng các vectơ hỗ trợ để xác định mặt phẳng phân
cách này.

Ưu điểm:

 Hiệu quả và mạnh mẽ


 Có thể xử lý dữ liệu đa chiều
 Có thể xử lý dữ liệu không tuyến tính

Nhược điểm:
 Tốn thời gian tính toán
 Khó khăn trong việc lựa chọn các tham số

3.5. Logistic Regression

Ý tưởng chính: Logistic Regression là một phương pháp thống kê được sử dụng để
mô hình hóa xác suất của một sự kiện xảy ra. Logistic Regression sử dụng một hàm
sigmoid để mô tả mối quan hệ giữa các biến độc lập và biến phụ thuộc.

Ưu điểm:

 Dễ hiểu và trực quan


 Có thể xử lý dữ liệu đa chiều
 Có thể xử lý dữ liệu không tuyến tính
 Có thể được sử dụng để dự đoán giá trị xác suất

Nhược điểm:

 Giả định về phân phối của dữ liệu có thể không đúng trong thực tế
 Có thể bị overfitting nếu mô hình quá phức tạp
 Khó khăn trong việc lựa chọn các tham số

You might also like