thêm (1)

Dữ liệu đầu vào ở bước này là một tập dữ liệu mẫu khác, cũng được gán nhãn và tiền
xử lý.
Tuy nhiên lúc đưa vào mô hình phân lớp, ta sẽ “lờ” đi thuộc tính đã được gán nhãn.
So sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình để xác
định tính đúng đắn. Nếu độ chính xác của mô hình là chấp nhận được, thì mô hình được sử
dụng để phân lớp những dữ liệu tương lai, hoặc những dữ liệu mà giá trị của thuộc tính
phân lớp là chưa biết
Khi dữ liệu đầu vào bị “khuyết” thuộc tính cần dự đoán lớp (nhãn). Thông qua những gì
được huấn luyện ở bước 1, mô hình phân lớp sẽ tự động phân lớp (gán nhãn) cho các đối
tượng dữ liệu này.
Định nghĩa: Hồi quy Logistic là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một
tập giá trị đầu vào mà các giá trị này được biểu diễn dưới dạng vector.
Kết quả của hồi quy logistic là bất kỳ giá trị nhị phân nào như Nam hoặc Nữ, Có hoặc
Không, 1 hoặc 0, Thư rác hoặc Không phải là Thư rác. Ngày nay nó được sử dụng rộng rãi
để phân loại mọi thứ.
Định nghĩa: Cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ
trợ quá trình ra quyết định.
Trong lĩnh vực khai thác, cây quyết định cung cấp kết quả tốt cho các nhiệm vụ phân loại
hoặc tổng quát hóa tập dữ liệu cho trước.
Ma trận chỉ ra có bao nhiêu điểm dữ liệu thực sự thuộc vào một lớp cụ thể và được dự đoán
là rơi vào lớp nào. Có kích thước k x k, với k là số lượng lớp của dữ liệu.
Để hiểu hơn về ma trận nhầm lẫn, ta đặt giả sử bài toán chẩn đoán ung thư, có 2 lớp. Lớp bị
ung thư được chẩn đoán Positive, lớp không bị ung thư được chẩn đoán Negative
Hình ảnh
Trong bảng trên, có 4 thuật ngữ ta cần để ý đến:
● True Positive (TP): Số lượng dự đoán chính xác. Những bệnh nhân ta đoán là có
bệnh đúng là đang mang bệnh.
● True Negative (TN): Số lương dự đoán chính xác một cách gián tiếp. Những bệnh
nhân ta đoán là không có bệnh đúng là đang khỏe mạnh.
● False Positive (FP – Type 1 Error): Số lượng các dự đoán sai lệch.Những bệnh nhân
ta đoán là có bệnh thật ra đang khỏe mạnh.
● False Negative (FN – Type 2 Error): Số lượng các dự đoán sai lệch một cách gián
tiếp. Những bệnh nhân ta đoán là không có bệnh thật ra đang mang bệnh.
- Tính chính xác (Accuracy): là tỷ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu.
Nó chỉ cho chúng ta biết tỷ lệ dữ liệu được phân loại đúng chứ không chỉ ra chính xác được
dữ liệu được phân loại như thế nào.
accuracy=(TP+TN)/(P+N)
- Độ chính xác (Precision): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao
nhiêu mẫu có đúng (tránh nhầm lẫn với tính chính xác accuracy).
precision= (TP+TN)/(P+N)
- Độ phủ (Recall) hay còn gọi là độ nhạy (sensitivity): đo lường tỷ lệ dự báo chính xác
các trường hợp positive trên toàn bộ các mẫu thuộc nhóm positive.
recall=(TP)/(TP+FN)
- F1-score là trung bình điều hòa của hai độ đo Precision và Recall

ROC và AUC (Understanding AUC - ROC Curve - Sarang Nakhede - Jun 2018)
● ROC (Receiver Operating Characteristic): là một đồ thị được sử dụng khá phổ biến
trong đánh giá các mô hình phân loại Đường cong ROC được tạo ra dựa trên tỷ lệ
TPR (True Positive Rate) và FPR (False Positive Rate), với TPR nằm trên trục y và
FPR nằm trên trục x.
● Một mô hình hiệu quả là khi có FPR thấp và TPR cao hoặc ROC càng tiệm cận với
điểm (0,1) trong đồ thị.
Hình ảnh
AUC (Area Under the Curve): là diện tích nằm dưới đường ROC. AUC đại diện cho mức độ
hoặc thước đo khả năng phân tách. Nó cho biết mô hình có khả năng phân biệt giữa các lớp
như thế nào. Giá trị này là một số dương nhỏ hơn hoặc bằng 1. Giá trị AUC càng lớn thì mô
hình càng tốt.

thêm (1)

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

thêm (1)

Uploaded by

Copyright:

Available Formats

Dữ liệu đầu vào ở bước này là một tập dữ liệu mẫu khác, cũng được gán nhãn và tiền

- F1-score là trung bình điều hòa của hai độ đo Precision và Recall

You might also like