You are on page 1of 6

Thuyết trình

I. Giới thiệu dữ liệu


Iris flower dataset là một bộ dữ liệu nhỏ (nhỏ hơn rất nhiều so với
MNIST. Bộ dữ liệu này bao gồm thông tin của ba loại hoa Iris
(một loài hoa lan) khác nhau: Iris setosa, Iris virginica và Iris
versicolor. Mỗi loại có 50 bông hoa được đo với dữ liệu là 4 thông
tin: chiều dài, chiều rộng đài hoa (sepal), và chiều dài, chiều rộng
cánh hoa (petal). Dưới đây là ví dụ về hình ảnh của ba loại hoa:

II. Tổng quan về phân lớp dữ liệu


- Định nghĩa:
Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp
(loại) đã cho trước nhờ một mô hình phân lớp. Mô hình này
được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước
đó ( thuộc về lớp nào ). Quá trình gán nhãn( thuộc lớp nào) cho
đối tượng dữ liệu chính là quá trình phân lớp dữ liệu
- Quá trình:
B1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hay
“huấn luyện”)
B2: Sử dụng mô hình chia thành 2 bước nhỏ:
1. Đánh giá mô hình ( kiểm tra tính đúng đắn của mô hình)
2. Phân lớp dữ liệu mới.

III. Một số phương pháp phân lớp


- Logistic: mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một
tập các giá trị đầu vào ( biểu diễn dưới dạng vector)
- Tree:
o Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết
định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình
ra quyết định.
o Trong lĩnh vực khai phá dữ liệu, cây quyết định là phương
pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu
cho trước
- SVM: một thuật toán có giám sát, SVM nhận dữ liệu vào, xem
chúng như những vector trong không gian và phân loại chúng
vào các lớp khác nhau bằng cách xây dựng một siêu phẳng
trong không gian nhiều chiều làm mặt phân cách các lớp dữ
liệu.
IV. Phương pháp đánh giá mô hình
1. Ma trận nhầm lẫn (Confusion Matrix)
- Ma trận nhầm lẫn: là ma trận chỉ ra có bao nhiêu điểm dữ liệu
thực sự thuộc vào một lớp cụ thể, và được dự đoán là rơi vào
lớp nào.
- Confusion matrix là có kích thước k x k với k là số lượng lớp
của dữ liệu.
VD: Ở bộ dữ liệu Iris có 3 nhãn dữ liệu là: Sentosa, versicolor và
virginica phân thành 3 lớp vì thế ma trận nhầm lẫn có kích thước
3x3.
- Bài toán có 3 lớp trong đó loài Sentosa không có sự nhầm lẫn,
lớp loài versicolor được chuẩn đoán Positive và lớp loài
virginica được chuẩn đoán Negative. TP (True Positive): Số
lượng dự đoán chính xác. TN (True Negative): Số lương dự
đoán chính xác một cách gián tiếp. FP (False Positive - Type 1
Error): Số lượng các dự đoán sai lệch. FN (False Negative -
Type 2 Error): Số lượng các dự đoán sai lệch một cách gián
tiếp.
+ Hồi quy Logistic Regression

→ Ta thấy được tỉ lệ dự đoán đúng TP và TN lần lượt là 95.5% và


94.1% và tỉ lệ sai lệch giữa hai loài versicolor và virginica lần lượt là
4.1% và 5.9%).

+ Neural Network

→ Ta thấy được tỉ lệ dự đoán đúng TP và TN lần lượt là 90.4% và 93.9


% và tỉ lệ sai lệch giữa hai loài versicolor và virginica lần lượt là 7.7%
và 6.1%).

+ SVM
→ Ta thấy được tỉ lệ dự đoán đúng TP và TN lần lượt là 94% và 94 %
và tỉ lệ sai lệch giữa hai loài versicolor và virginica lần lượt là 6% và
6%).
* Nhận xét: Qua các ma trận nhầm lẫn của các phương pháp phân lớp ta
thấy được phương pháp Logistic Regression tốt nhất trong bộ dữ liệu
này vì có tỉ lệ dự đoán sai lệch thấp nhất và ta sẽ dùng phương pháp
Logistic Regression để phân lớp dữ liệu.

2. K-fold
+ AUC
Là diện tích nằm dưới đường cong ROC.
Giá trị này là một số dương nhỏ hơn hoặc bằng 1.
Giá trị này càng lớn thì mô hình càng tốt.
+ CA
Classification Accuracy (tính chính xác): Là tỷ lệ số mẫu được phân lớp đúng
trong toàn bộ tập dữ liệu.

acc=(TP+TN)⁄n => Error rate=1 −acc là độ lỗi của mô hình

Giá trị này chỉ cho chúng ta biết được tỷ lệ dữ liệu được phân loại đúng mà không
chỉ ra được cụ thể mỗi loại được phân loại như thế nào, lớp nào được phân loại
đúng nhiều nhất, và dữ liệu thuộc lớp nào thường bị phân loại nhầm vào lớp khác.

+ F1
F1-score: giá trị trung bình điều hòa (harmonic mean) của hai độ
đo Precision và Recall.
( precision× recall )
F 1=2
( precision+recall )

F1 có giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị Precision và Recall. F1 sẽ có
giá trị lớn nếu cả 2 giá trị Precision và Recall đều lớn.

+ Recision
Precision (độ chính xác): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ
bao nhiêu mẫu có đúng (tránh nhầm lẫn với tính chính xác accuracy)
TP
precision=
(TP+ FP)

+ Recall
Recall (độ phủ) còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive
Rate)
TP
recall=
(TP+ FN )

→ Phương pháp K-fold: Chia dữ liệu thành 5 phần được kết quả như bảng sau

Ở đây, chúng ta quan tâm đến AUC và Precision. Từ bảng kết quả => mô hình
Logistic Regression là tốt nhất trong 3 mô hình vì có chỉ số AUC lớn nhất (0.998)
và có độ chính xác Precision cao nhất (0.967).

3. Đánh giá và kết luận


 Thuyết trình (Linh)
 Ppt ( Ly )
Sáng thứ 2 xong nội dung
Chiều thứ 3 xong ppt
Tối 7h thứ 3 họp thuyết trình

You might also like