You are on page 1of 13

Hệ thống lọc thư rác

Sinh viên thực hiện:


• Lê Đình Khoa
• Nguyễn Trung Hiếu
• Nguyễn Tống Sang
• Lang Thành Long
• Trần Minh Nghĩa
1. Giới thiệu và mô tả bài toán:

• Hệ thống lọc thư rác

3
1. Giới thiệu và mô tả bài toán:

• Các vấn đề cơ bản:


• Chuẩn bị tệp dữ liệu (tập train, test)

• Áp dụng thuật toán vào hệ thống

• Giao diện cơ bản

• Dự đoán 1 mail mới

• Đánh giá hiệu quả của hệ thống và cải thiện

4
2. Phương pháp giải quyết bài toán

• Thuật toán phân lớp Naive Bayes

5
2. Phương pháp giải quyết bài toán

• Xử lý vấn đề bằng Multinomial Naive Bayes (Laplace Smoothing)

=> Cải thiện độ hiểu quả bằng cách điều chỉnh các tham số phù hợp

6
3. Thiết kế chương trình

• Chuẩn bị tập dữ liệu train: Gồm 5172 email đã được chuyển hóa
dưới dạng vector 3000 chiều (3000 từ thông dụng trong tiếng
anh)

• Áp dụng thuật toán MultinomialNB (thư viện sklearn) để train.

7
3. Thiết kế chương trình

Dự đoán 1 mail mới:


Xử lý dữ liệu đầu vào:
• Loại bỏ các đường dẫn, số, ký tự lạ

• Loại bỏ “stop words”

• Xác định các biến thể và trọng số của các từ trong email

• Tổng hợp kết quả và biểu diễn email thành vector

8
3. Thiết kế chương trình

Biểu diễn dữ liệu:


• Dữ liệu được biểu diễn dưới dạng Bag Of Word.

• Mỗi email sẽ được biểu diễn dưới dạng 1 vector

9
3. Thiết kế chương trình
Email chưa được chuẩn hóa:

Email sau khi được chuẩn hóa:

10
3. Thiết kế chương trình

Giao diện để dự đoán 1 mail mới:

11
3. Thiết kế chương trình

Đánh giá hiệu quả của hệ thống:


• Tập test gồm 5730 emails chưa qua xử lý

• Điểm Accuracy :

12
THANK
YOU !

13

You might also like