“ROC (Receiver Operating Characteristic): Là một đồ thị được sử dụng khá
phổ biến trong đánh giá các mô hình phâ loại nhị phân. Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo TPR dựa trên tỷ lệ dự báo FPR tại các ngưỡng khác nhau. Một mô hình hiệu quả là khi có FPR thấp, TPR cao hay ROC càng tiệm cận với điểm (0;1) trong đồ thị.” “AUC (Area Under the Curve): là diện tích nằm dưới đường cong ROC. Giá trị này (số dương >1) càng lớn thì mô hình càng tốt” “Precision (độ chính xác): Cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao nhiêu mẫu có đúng” “Recall (độ phủ): còn được gọi là độ phủ hay độ nhạy hay TPR” “F1-score: giá trị trung bình điều hòa của hai độ đo Precision và Recall”
Ma trận nhầm lẫn (Confusion matrix)
Ma trận nhầm lẫn được mô tả dưới dạng bảng đo lường hiệu suất của thuật toán về việc đưa ra phán đoán phân lớp. Kích thước của ma trận nhầm lẫn là ? × ? với k là số lượng lớp của dữ liệu Một số thuật ngữ: TP (True Positive): Số lượng dự đoán chính xác TN (True Negative): Số lượng dự đoán chính xác một cách gián tiếp FP (False Positive – Type 1 Error): Số lượng các dự đoán sai lệch (Sai lầm loại 1) FN (False Negative – Type 2 Error): Số lượng các dự đoán sai lệch một cách gián tiếp (Sai lầm loại 2)
Accuracy (tính chính xác)
Với n là số quan sát, Accuracy là tỷ lệ số mẫu được phân lớp đúng xét trên toàn bộ tập dữ liệu: acc = TP + TN n Suy ra, độ lỗi của mô hình là: Error rate = 1 − acc Accuracy là độ đo một cách tổng quát chỉ ra tỷ lệ dữ liệu được phân loại đúng Precision (độ chính xác): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao nhiêu mẫu có đúng. precision = TP TP + FP Recall (độ phủ) còn gọi là độ nhạy (sensitivity) hay TPR (True Positive Rate) recall = TP TP + FN