Professional Documents
Culture Documents
Thuyết trình
Thuyết trình
+ Neural Network
+ SVM
→ Ta thấy được tỉ lệ dự đoán đúng TP và TN lần lượt là 94% và 94 %
và tỉ lệ sai lệch giữa hai loài versicolor và virginica lần lượt là 6% và
6%).
* Nhận xét: Qua các ma trận nhầm lẫn của các phương pháp phân lớp ta
thấy được phương pháp Logistic Regression tốt nhất trong bộ dữ liệu
này vì có tỉ lệ dự đoán sai lệch thấp nhất và ta sẽ dùng phương pháp
Logistic Regression để phân lớp dữ liệu.
2. K-fold
+ AUC
Là diện tích nằm dưới đường cong ROC.
Giá trị này là một số dương nhỏ hơn hoặc bằng 1.
Giá trị này càng lớn thì mô hình càng tốt.
+ CA
Classification Accuracy (tính chính xác): Là tỷ lệ số mẫu được phân lớp đúng
trong toàn bộ tập dữ liệu.
Giá trị này chỉ cho chúng ta biết được tỷ lệ dữ liệu được phân loại đúng mà không
chỉ ra được cụ thể mỗi loại được phân loại như thế nào, lớp nào được phân loại
đúng nhiều nhất, và dữ liệu thuộc lớp nào thường bị phân loại nhầm vào lớp khác.
+ F1
F1-score: giá trị trung bình điều hòa (harmonic mean) của hai độ
đo Precision và Recall.
( precision× recall )
F 1=2
( precision+recall )
F1 có giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị Precision và Recall. F1 sẽ có
giá trị lớn nếu cả 2 giá trị Precision và Recall đều lớn.
+ Recision
Precision (độ chính xác): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ
bao nhiêu mẫu có đúng (tránh nhầm lẫn với tính chính xác accuracy)
TP
precision=
(TP+ FP)
+ Recall
Recall (độ phủ) còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive
Rate)
TP
recall=
(TP+ FN )
→ Phương pháp K-fold: Chia dữ liệu thành 5 phần được kết quả như bảng sau
Ở đây, chúng ta quan tâm đến AUC và Precision. Từ bảng kết quả => mô hình
Logistic Regression là tốt nhất trong 3 mô hình vì có chỉ số AUC lớn nhất (0.998)
và có độ chính xác Precision cao nhất (0.967).