6D3313D32098

Machine Translated by Google
Tạp chí Quốc tế về Khoa học Vật lý Vol. 5 (12), trang 1869-1882, ngày 4 tháng 10 năm
2010 Có sẵn trực tuyến tại http://www.academicjournals.org/IJPS ISSN 1992 - 1950 © 2010
Tạp chí Học thuật
Giấy nghiên cứu độ dài đầy đủ
Tổng quan về các kỹ thuật lọc chống thư rác dạng văn bản
Thamarai Subramaniam, Hamid A. Jalab và Alaa Y. Taqa *
Hệ thống và Công nghệ Máy tính, Lỗi của Khoa học Máy tính và Công nghệ Thông tin, Đại học Malaya, Malaysia.
Được chấp nhận ngày 31 tháng 8 năm 2010
Thư điện tử (E-mail) là một công cụ liên lạc thiết yếu đã bị những kẻ gửi thư rác lạm dụng rất nhiều để phổ biến thông tin không
mong muốn (tin nhắn) và phát tán nội dung độc hại cho người dùng Internet.
Công nghệ Internet hiện tại càng làm tăng tốc độ phát tán thư rác. Các biện pháp kiểm soát hiệu quả cần được triển khai để đối phó
với vấn đề thư rác ngày càng gia tăng. Học máy cung cấp các cơ chế bảo vệ tốt hơn có thể kiểm soát thư rác. Bài báo này tóm tắt
hầu hết các kỹ thuật phổ biến được sử dụng để lọc chống thư rác bằng cách phân tích nội dung e-mail và cũng xem xét các thuật toán
học máy như Naïve Bayesian, máy vectơ hỗ trợ và mạng nơ-ron đã được áp dụng để phát hiện và kiểm soát thư rác. Mỗi máy học đều có
những điểm mạnh và hạn chế riêng, do đó, việc xử lý trước thích hợp cần được xem xét cẩn thận để tăng hiệu quả của bất kỳ máy học
nhất định nào.
Từ khóa: Bộ lọc chống thư rác, phân loại văn bản, thư điện tử (E-mail), học máy.
GIỚI THIỆU
Thư điện tử hay thư điện tử là một hệ thống nhắn tin điện tử truyền gửi e-mail và chi phí gần như không tồn tại đặt ra một vấn đề
thông điệp qua các mạng máy tính. Người dùng chỉ cần nhập tin nhắn, khác: Thư rác. Spam đề cập đến số lượng lớn e-mail thương mại
thêm (các) địa chỉ e-mail của người nhận và nhấp vào nút gửi. không được yêu cầu được gửi một cách bừa bãi đến người dùng.
Bảng 1 liệt kê một số trong số chúng.
Người dùng có thể truy cập bất kỳ dịch vụ e-mail miễn phí nào như Dựa trên Nghiên cứu về Ferris (2009), thư rác có thể được phân
Yahoo mail, Gmail, Hotmail hoặc đăng ký với ISP (Nhà cung cấp dịch loại thành những loại sau:
vụ Internet) để có được tài khoản e-mail miễn phí ngoại trừ phí kết
nối Internet. 1. Sức khoẻ; chẳng hạn như dược phẩm giả; 2.
Bên cạnh đó, e-mail cũng có thể được người nhận nhận gần như ngay Sản phẩm khuyến mại; chẳng hạn như các mặt hàng thời trang giả (ví
lập tức sau khi nó được gửi đi. dụ, đồng hồ); 3. Nội dung người lớn; chẳng hạn như nội dung khiêu
Thư điện tử cho phép người dùng liên lạc với nhau với chi phí dâm và mại dâm; 4, Tài chính và tái cấp vốn; chẳng hạn như kiting
thấp cũng như cung cấp một hệ thống gửi thư hiệu quả. Độ tin cậy, chứng khoán, các giải pháp thuế, các gói cho vay; 5. Lừa đảo và
thân thiện với người dùng và tính khả dụng của một loạt các dịch gian lận khác; chẳng hạn như “Nigerian 419” và “Spanish Prisoner”;
vụ e-mail miễn phí khiến nó trở nên phổ biến nhất và trở thành một 6. Phần mềm độc hại và vi rút; Trojan Horse đang cố gắng lây nhiễm
công cụ liên lạc được ưa thích. Do đó, các doanh nghiệp cũng như phần mềm độc hại vào PC của bạn; 7. Giáo dục; chẳng hạn như bằng
người dùng cá nhân phụ thuộc rất nhiều vào công cụ giao tiếp này tốt nghiệp trực tuyến; 8. Tiếp thị; chẳng hạn như tài liệu tiếp
để chia sẻ thông tin và kiến thức. thị trực tiếp, các sản phẩm tăng cường tình dục; 9. Chính trị;
Các doanh nghiệp có thể cắt giảm đáng kể chi phí liên lạc vì e-mail Tổng thống Mỹ bỏ phiếu.
cực kỳ nhanh chóng và không tốn kém; hơn nữa nó là một công cụ tiếp
thị rất mạnh mẽ.
Các doanh nghiệp có thể tận dụng công nghệ này vì nó là một công
cụ quảng cáo rất phổ biến. Tuy nhiên, sự đơn giản của
CẤU TRÚC E-MAIL
*Đồng tác giả. E-mail: alaa_taqa@um.edu.my. Thư điện tử được chia thành 2 phần: Header
1870 Int. J. Vật lý. Khoa học.
Bảng 1. Các định nghĩa khác nhau về thư rác.
Tác giả / (năm) Sự định nghĩa
Thư điện tử không mong muốn: Về cơ bản, nó là phiên bản điện tử của thư rác được chuyển bởi dịch
Vapnik và cộng sự. (1999)
vụ bưu chính.
Tương đương điện tử của e-mail rác thường bao gồm một loạt các quảng cáo không được yêu cầu và
Oda và trắng (2003)
không mong muốn và các tin nhắn e-mail hàng loạt.
Thông điệp điện tử được đăng tải một cách mù quáng đến hàng nghìn người nhận, và là một trong
Lazzari và cộng sự. (2005)
những vấn đề quá tải thông tin cấp bách và nghiêm trọng nhất.
Zhao và Zhang (2005) Thư rác hoặc thư rác, là sự xâm nhập trái phép vào một không gian ảo - hộp thư điện tử.
Spam dưới dạng e-mail hàng loạt - e-mail không được yêu cầu được gửi cho nhiều người nhận.
Youn và McLeod (2007)
Thư rác, còn được gọi là 'thư rác', là những thư không được yêu cầu được gửi hàng loạt (thư gửi
Wu và Deng (2008)
hàng loạt không mong muốn) với danh tính ẩn hoặc giả mạo của người gửi, địa chỉ và thông tin
tiêu đề.
Các e-mail rác có thể được nhận dạng theo nội dung hoặc cách thức gửi và chỉ ra rằng các e-mail
Amayri và Bouguil (2009) rác được nhận dạng theo khối lượng phát tán và phân phối được phép.
Một tin nhắn điện tử là "thư rác" nếu (A) nhận dạng cá nhân và ngữ cảnh của người nhận là không
liên quan vì tin nhắn có thể áp dụng như nhau cho nhiều người nhận tiềm năng khác; VÀ (B) người
Spamhaus (2010)
nhận đã không cấp phép có chủ ý, rõ ràng, và vẫn có thể thu hồi để gửi đi một cách có thể xác
minh được
thông tin và nội dung tin nhắn. Thông tin tiêu đề hoặc trường tiêu 5. Reply to: địa chỉ trả lời;
đề bao gồm thông tin về quá trình vận chuyển của thông báo, thông 6. Chủ đề: chủ đề của tin nhắn do người gửi chỉ định; 6. Id tin
tin này thường hiển thị các thông tin sau; nhắn: id duy nhất của tin nhắn và những người khác
1. Từ: hiển thị thông tin chi tiết của người gửi như địa chỉ e- Nội dung thư có chứa thông điệp của e-mail.
mail; 2. To: hiển thị thông tin chi tiết của người nhận như địa Thư điện tử được trình bày dưới dạng văn bản thuần túy hoặc HTML.
chỉ e-mail; 3. Ngày: hiển thị ngày mà e-mail được gửi đến người Một e-mail cũng có thể có các tệp đính kèm như đồ họa, video hoặc
nhận; 4. Đã nhận: thông tin của máy chủ trung gian và ngày thông loại định dạng khác và để tạo điều kiện thuận lợi cho các tệp đính
điệp e-mail được xử lý; kèm này, MIME (tiện ích mở rộng thư internet đa năng) được sử dụng.
THAM KHẢO SPAMMER
Để gửi thư rác, đầu tiên những kẻ gửi thư rác có được địa chỉ e- TÁC ĐỘNG CỦA SPAM
mail bằng cách thu thập địa chỉ thông qua Internet bằng phần mềm
chuyên dụng. Phần mềm này thu thập một cách có hệ thống các địa Báo cáo MessageLabs Intelligence năm 2009 cho thấy mức độ thư rác
chỉ e-mail từ các nhóm thảo luận hoặc trang web (Schaub, 2002), lên tới 87,7%, với các máy tính bị xâm nhập phát hành trung bình
ngoài ra, kẻ gửi thư rác còn có thể mua hoặc thuê bộ sưu tập địa 83,4% trong số 107 tỷ thư rác được phát tán trên toàn cầu mỗi ngày
chỉ e-mail từ những người gửi thư rác hoặc nhà cung cấp dịch vụ (Báo cáo bảo mật hàng năm của MessageLabs Intelligence, 2009). Thư
khác. Bảng 2 chỉ ra nhiều thủ thuật được những kẻ gửi thư rác sử rác đến hộp thư đến của người dùng đang tăng dần kể từ năm 2004
dụng để tránh bị bộ lọc thư rác phát hiện. như trong Hình 1 (dữ liệu là
Subramaniam và cộng sự. 1871
Bảng 2. Các thủ thuật được những kẻ gửi thư rác sử dụng để gửi thư rác.
Thủ thuật Mô tả Các PC

Zombies hoặc Botnet bị xâm nhập trên Internet đã gửi một lượng lớn thư rác, vi rút và phần mềm độc hại.
Bayesian lén lút và đầu độc Viết tin nhắn rác để nó không chứa bất kỳ từ nào thường được sử dụng trong tin nhắn rác, hoặc “đầu độc” cơ sở dữ
liệu của bộ lọc Bayes.
địa chỉ IP Mượn hoặc sử dụng địa chỉ IP có danh tiếng tốt hoặc trung tính.
ISP nước ngoài Sử dụng ISP ở nước ngoài thiếu các biện pháp bảo mật proxy
mở / máy chủ chuyển tiếp mở Máy chủ bị xâm nhập để chuyển hướng thư rác tới người dùng không nghi ngờ.
Phần mềm gửi lại thư của bên thứ Sử dụng các ứng dụng gửi lại thư được bảo mật không đúng cách trên các trang web vô tội
ba Thông tin tiêu đề bị sai lệch Thêm thông tin tiêu đề không có thật vào thư rác
Che khuất các từ trong tin nhắn rác bằng cách chia nhỏ các từ hoặc tin nhắn bằng những thứ vô nghĩa
Obfuscation
Thẻ HTML hoặc các ký hiệu 'sáng tạo' khác
Cắt dọc Viết tin nhắn rác theo chiều dọc
Thao tác HTML Thao tác định dạng HTML để tránh bị phát hiện
Sử dụng lược đồ mã hóa như Base64 để biến tệp đính kèm nhị phân thành các ký tự văn bản thuần túy
Mã hóa HTML
Đặt toàn bộ nội dung của thư rác bên trong đoạn mã JavaScript được kích hoạt khi thư được mở
Tin nhắn JavaScript
Nghệ thuật ASCII Sử dụng các ký tự chữ cái của các chữ cái tiêu chuẩn để viết tin nhắn rác
Dựa trên hình ảnh Sử dụng hình ảnh để gửi thông tin văn bản
Chỉ thêm địa chỉ URL để bỏ qua việc phát hiện / sử dụng các “cổng thông tin” có thể sử dụng để trỏ đến các
Địa chỉ URL hoặc URL chuyển hướng
trang web thực của chúng
Tin nhắn được mã hóa Mã hóa thư trong đó thư chỉ được giải mã khi đến hộp thư
100,00%
86,20% 84,60% 87,70% 89,30%
81,20%
90,00%
72,30%
80,00% 68,60%
70,00%
60,00%
50,00%
40,00%
30,00%
20,00%
10,00%
0,00%
2004 2005 2006 2007 2008 2009 Tháng 6-10
Thư rác trung bình
Hình 1. Thư rác trung bình từ năm 2004 đến năm 2010.
được biên dịch từ các báo cáo MessageLabs Intelligence cho các năm năm 2005 được đóng góp do chiến dịch nâng cao nhận thức được phát
2005, 2006, 2007, 2008, 2009, 2010). Sự suy giảm trong động vào năm 2004 nhằm gây áp lực cho dịch vụ internet
Bảng 3. Môi trường pháp lý chống thư rác (Moustakas và cộng sự, 2010).
Quốc gia Luật pháp - Quy chế chống thư rác

Châu Úc Đạo luật thư rác năm 2003
Đạo luật viễn thông năm 1997
Úc Phần IVA, V và VC của Đạo luật Thông lệ Thương mại năm 1974
Canada Đạo luật Bảo vệ Thông tin Cá nhân và Tài liệu Điện tử (PIPEDA)
Luật Cạnh tranh.
Điều lệ về Quyền tự do Bộ luật
Hình sự và Đạo luật Cạnh tranh Bộ luật Thực hành
về Bảo vệ Người tiêu dùng trong Thương mại Điện tử của Canada
EU Quy định về Quyền riêng tư và Giao tiếp Điện tử 2003 (Vương quốc Anh)
Đạo luật bảo vệ dữ liệu năm 1998 (Vương quốc Anh)
Các Quy định Thương mại Điện tử năm 2002 (tất cả đều được điều chỉnh từ các Chỉ thị của EC, ví dụ: Chỉ
thị về Quyền riêng tư và Truyền thông Điện tử 2002/58 / EC)
Nhật Bản Luật quy định về truyền thư điện tử cụ thể tháng 7 năm 2002
Luật Giao dịch Thương mại Cụ thể, 2002
Hoa Kỳ Đạo luật CAN-SPAM năm 2003
Luật do Ủy ban Thương mại Liên bang thực thi

Mục 5 của Đạo luật Ủy ban Thương mại Liên bang
các nhà cung cấp và các tổ chức internet khác có vai trò chịu trách hàng triệu e-mail bị nhiễm phần mềm độc hại, chứa hơn 2.500 chủng phần
nhiệm trong việc giúp ngăn chặn các cuộc tấn công bằng thư điện tử mềm độc hại khác nhau, đã bị chặn (Wood et al., 2010).
(Báo cáo Bảo mật Thường niên của MessageLabs Intelligence, 2005).
Những kẻ gửi thư rác cũng triển khai thư rác để lấy thông tin cá
Một nghiên cứu năm 2009 của Ferris Research ước tính chi phí thư nhân của người dùng cho các đề xuất lừa đảo.
rác tăng lên tổng cộng 130 tỷ đô la trên toàn thế giới. Con số này Hoạt động lừa đảo liên quan đến việc xác định hành vi trộm cắp và các
tăng 30% so với năm 2007 (Ferris Research, 2009). Nghiên cứu chỉ ra hành vi gian lận liên quan đến Internet khác (ví dụ: Nigeria 419) đang
rằng chi phí chính xảy ra do: trở thành một trong những mối quan tâm lớn đối với cộng đồng Internet.
Các nhà nghiên cứu của MessageLabs chỉ ra rằng tỷ lệ các cuộc tấn công
lừa đảo trong lưu lượng truy cập e-mail là 1 trong 325,2 (0,31%) e-
1. Mất năng suất do kiểm tra và xóa thư rác bị các sản phẩm kiểm soát mail và ước tính 161 tỷ cuộc tấn công lừa đảo qua e-mail đã được lưu
thư rác bỏ sót (âm tính giả), 2. Mất năng suất do tìm kiếm e-mail hợp hành trong năm 2009. Các mối đe dọa thư rác ngày càng tăng chắc chắn
pháp bị xóa do nhầm lẫn bởi các sản phẩm kiểm soát thư rác (âm tính đòi hỏi các biện pháp kiểm soát quyết liệt .
giả)
3. Hoạt động và chi phí vận hành quầy trợ giúp (Nghiên cứu Ferris, CÁC GIẢI PHÁP HIỆN CÓ CHO SPAM
2009).
Theo truyền thống, có nhiều cách tiếp cận có sẵn để kiểm soát thư rác
Tác động của thư rác ngày càng trở nên nghiêm trọng hơn nhiều so với như sử dụng kiểm tra miền người gửi, kiểm tra nội dung, cấm chuyển
những phiền toái đơn thuần. Thư rác tràn ngập hộp thư đến của người tiếp mở và kiểm tra địa chỉ IP hoặc tên miền (Hideo, 2009). Tuy nhiên,
dùng, do đó khiến người dùng mất hàng giờ không hiệu quả để xóa những những kẻ gửi thư rác dễ dàng vượt qua những biện pháp đơn giản này
e-mail không mong muốn này, gây ra sự thay thế các e-mail quan trọng bằng những biến thể phức tạp hơn của thư rác để tránh bị phát hiện.
hoặc hợp pháp. Bên cạnh đó, thư rác cũng làm giảm hiệu suất internet
và băng thông do tải trọng trên mạng tăng lên (Ferris Research, 2010) Các biện pháp kiểm soát thư rác được thảo luận dưới đây.
và nó làm tắc nghẽn các máy chủ e-mail đến mức đôi khi bị treo.
Thư rác làm gia tăng sự lây lan của phần mềm độc hại và vi rút gây Cách tiếp cận pháp luật
ra các mối đe dọa lớn hơn đối với an ninh mạng và quyền riêng tư cá
nhân (Lai et al., 2009). Dựa trên báo cáo nghiên cứu của MessageLabs, Guzella (2009) trích dẫn rằng tác động kinh tế của thư rác đã khiến
thư rác có chứa vi rút trong năm 2009 là 1 trong 286,4 e-mail và hơn một số quốc gia phải thông qua luật. Nhiều quốc gia (Bảng 3) đã ban
73,1 hành các luật khác nhau và
pháp luật để bảo vệ các doanh nghiệp và cá nhân chống lại thư rác. Các quy tắc này được ấn định một số điểm có trọng số xác suất thư
Đan Mạch đã ban hành Đạo luật Thực hành Tiếp thị Đan Mạch, Đạo luật rác. Mỗi tin nhắn nhận được sẽ được xác minh dựa trên các quy tắc
Bảo vệ Dữ liệu và Đạo luật Đan Mạch về các miền Internet (Frost và lọc heuristic.
Udsen, 2006) cấm những kẻ gửi thư rác thu thập và gửi e-mail spam.
So với ngưỡng được xác định trước, kết quả xác minh quyết định
Tại Hoa Kỳ, Đạo luật CAN-SPAM năm 2003 được ban hành vào tháng liệu thư có phải là thư rác hay không (Xie và cộng sự, 2006). Điểm
12 năm 2003. Đạo luật CAN-SPAM là chữ viết tắt để kiểm soát việc số của trọng số sau đó được chia sẻ giữa những người dùng để lọc
tấn công các nội dung khiêu dâm và tiếp thị không được gạ gẫm. Nó các e-mail. Ngược lại, những kẻ gửi thư rác sử dụng sự xáo trộn để
đặt ra các hạn chế và quy định để kiểm soát hoạt động của những kẻ đánh lừa các quy tắc nhằm tránh bị phát hiện và sửa đổi các bài
gửi thư rác. Ví dụ, nó cấm những kẻ gửi thư rác thu thập địa chỉ e- kiểm tra theo kinh nghiệm để đối phó với các vectơ tấn công mới do
mail và tạo Botnet. những kẻ gửi thư rác nghĩ ra có thể phức tạp, để lại một khoảng
Việc không tuân thủ Đạo luật CAN-Spam có thể bị phạt 16.000 đô la thời gian không có biện pháp bảo vệ (Heron, 2009).
cho mỗi sự cố.
Tuy nhiên, Đạo luật CAN-Spam không cho phép những kẻ gửi thư rác
gửi e-mail không được yêu cầu. McAfee Research đã báo cáo vào năm
2009 bất chấp Đạo luật CAN-SPAM đã có hiệu lực sáu năm, những kẻ Phương pháp tiếp cận máy học
gửi thư rác vẫn thường xuyên lạm dụng luật và tiếp tục gửi thư rác
(Wosotowsky và Winkler, 2009). Học máy (ML) là một ngành khoa học liên quan đến việc thiết kế và
phát triển các thuật toán cho phép máy tính điều chỉnh hành vi của
chúng dựa trên dữ liệu. ML tự động học cách nhận ra các mẫu phức
Danh sách đen và danh sách trắng tạp và đưa ra quyết định thông minh dựa trên dữ liệu.
Bên cạnh luật pháp, các phương pháp phát hiện thư rác công nghệ
cũng đã được sử dụng trong những năm qua. ML có khả năng tự động xây dựng một bộ phân loại cho một danh
Các kỹ thuật phổ biến nhất được sử dụng để chặn thư rác là danh mục bằng cách quan sát các đặc điểm của một bộ tài liệu hoặc kho
sách trắng và danh sách đen. Kỹ thuật dựa trên nội dung này nhận dữ liệu được phân loại theo cách thủ công bởi một chuyên gia tên
dạng các từ hoặc mẫu của một thư được định nghĩa là thư hợp pháp
miền. Từ những đặc điểm này, quy trình quy nạp thu thập các đặc
hoặc thư rác.
điểm mà một tài liệu mới, chưa từng thấy cần phải có để được phân
Thư hợp pháp được liệt kê trong danh sách trắng và thư rác được
loại theo
liệt kê trong danh sách đen. Sau đó, thông điệp e-mail được phân
tích dựa trên danh sách và các e-mail hợp pháp được cho phép trong (Sebastiani, 2002).
khi các thư rác bị chặn. Thật không may, vì bối cảnh của e-mail Công cụ phân loại tự động của ML (người học) được coi là ưu điểm
không được xem xét, một số e-mail hợp pháp có thể bị chặn hoặc đưa chính khi phân loại thư rác. Việc tự động phân loại một bộ tài liệu
thuận tiện hơn và dễ dàng hơn là xây dựng và điều chỉnh một bộ quy
vào danh sách đen (Dalkilic et al., 2009; Heron, 2009).
tắc.
Thư từ nguồn spam đã biết trước đây bị chặn bằng cách sử dụng
danh sách đen IP thời gian thực. Danh sách đen IP theo thời gian
thực thường kiểm tra nguồn gốc của thư rác. Thông tin tiêu đề từ
PHÂN LOẠI NAÏVE BAYESIAN
các thư chứa nguồn IP hoặc miền được so sánh với danh sách đen theo
thời gian thực và các địa chỉ IP phù hợp sẽ bị chặn.
Naïve Bayesian là một phương pháp thống kê cơ bản dựa trên xác suất
Mặt khác, những kẻ gửi thư rác đang sử dụng các Botnet lớn để được đề xuất ban đầu bởi Sahami et al.
gửi thư rác, do đó tạo ra một số lượng cực lớn các địa chỉ IP bị (1998). Thuật toán Bayes dự đoán phân loại e-mail mới bằng cách xác
đưa vào danh sách đen. Danh sách đen IP thời gian thực thường chỉ định e-mail là thư rác hay hợp pháp. Điều này đạt được bằng cách
chặn được 80 - 90% thư rác (Green, 2005). xem xét các tính năng sử dụng 'tập huấn luyện' đã được phân loại
Đôi khi, ứng dụng bộ lọc chặn những người dùng hợp pháp (dương tính trước một cách chính xác và sau đó kiểm tra xem một từ cụ thể có
giả), những người đã vô tình bị lợi dụng để tạo ra thư rác hoặc đã xuất hiện trong e-mail hay không. Khả năng cao cho thấy e-mail mới
bị báo cáo sai (Heron, 2009). Thời gian và nỗ lực cần thiết để loại là e-mail spam.
bỏ những dương tính giả này có thể rất nhiều.

Lai (2007) mô tả thuật toán Bayes khá ngây thơ như sau: Cho một
vectơ đặc trưng
Phương pháp tiếp cận heuristic

của một e-mail, trong đó giá trị của các thuộc
Một cách tiếp cận khác được sử dụng để kiểm soát thư rác là tính và n là số thuộc tính trong kho tài liệu. Mỗi thuộc tính là
heuristics. Phương pháp heuristic kiểm tra nội dung của e-mail và một từ cụ thể xuất hiện hoặc không xuất hiện trong e-mail.
so sánh nó với hàng nghìn quy tắc được xác định trước. Gọi c là danh mục được dự đoán, nghĩa là
theo định luật Bayes xác suất
thuộc về c như đã cho trong
(1)
ở đâu biểu thị xác suất tiên nghiệm của một e-mail
được chọn ngẫu nhiên có vectơ là đại diện của nó, P (c) cũng
là xác suất tiên nghiệm của lớp c (nghĩa là xác suất mà một e-
mail được chọn ngẫu nhiên là từ lớp đó ), và biểu thị xác
suất của một e-mail được
của chọn
nó. ngẫu nhiên có lớp c là đại diện
Androutsopoulos và cộng sự. lưu ý rằng xác suất hầu như Hình 2. Máy vector hỗ trợ.
không thể tính được vì thực tế là số lượng các vectơ
có thể có là quá cao. Để giảm bớt vấn đề này, người ta thường

tách siêu phẳng giữa hai lớp dữ liệu (Hình 2). Nó là một hàm
đưa ra giả thiết rằng các thành phần của vector độc lập trong
phi tuyến tính và thuật toán ước tính mật độ.
lớp. Do đó, bị phân hủy thành Chúng tôi
có thể Sun và cộng sự. (2002) chỉ ra rằng trình phân loại được xây
dựng trên SVM đã cho thấy những kết quả đầy hứa hẹn với tính
hiệu quả và hiệu quả của nó. SVM có thể đạt được bằng ánh xạ
phi tuyến tính, các hàm đa thức và hàm sigmoidal.
(2)
SVM vượt qua lời nguyền về kích thước bằng cách sử dụng các
hàm nhân và cho phép phân tích thẳng dữ liệu chiều cao, khả
Vì vậy, sử dụng trình phân loại NB để lọc thư rác, nó có thể năng xác định lề hoàn toàn cũng như khả năng xử lý các vấn đề
được tính là về chiều cao và mẫu nhỏ (Yu et al., 2008) . SVM cũng có khả
năng tổng quát hóa tuyệt vời (Sebastiani, 2002).
) (3)
Trong siêu phẳng SVM tách biệt việc đào tạo, dữ liệu (thư
Phương pháp Naïve Bayesian rất ổn định, tốt hơn và có hiệu
rác hoặc e-mail hợp pháp) được đo bằng lề tối đa, do đó tất
suất nhanh hơn, do đó làm cho nó trở nên rất phổ biến (Dong,
cả các vectơ nằm trên một mặt của siêu phẳng được gắn nhãn là
2004) để sử dụng trong các lĩnh vực phân loại khác nhau.
-1 (wx - b = -1) và mặt khác là +1 (wx - b = 1). Do đó, khi
NB hoạt động ổn định hợp lý và tốt trong các môi trường thử
dữ liệu mới được đưa vào, nó sẽ ánh xạ tới vectơ hỗ trợ gần
nghiệm khác nhau (Lai, 2007). Nó đơn giản để thực hiện và
nhất dựa trên lề tối đa. Để tìm lợi nhuận tối đa, các thuật
tính độc lập cho phép các tham số được ước tính trên các tập
toán sau được sử dụng, cho các vectơ phân tách tuyến tính có
dữ liệu khác nhau. Bên cạnh đó, NB cũng có một lộ trình học
nhãn
tập rất ngắn (Ko và cộng sự, 2009). Thiếu sót chính của bộ
phân loại NB là nó chỉ có thể học các hàm phân biệt tuyến
tính và do đó nó luôn là tối ưu đối với các khái niệm phân , và đối với không gian phân tách tuyến tính, bề
biệt không tuyến tính (Rish, 2001). Phương pháp Naïve Bayesian mặt quyết định là một siêu phẳng có thể được viết là:
đã được kết hợp thành công vào các phương pháp học máy khác
để tăng hiệu quả của việc phân loại văn bản.
(4)
Và phương trình là
HỖ TRỢ PHÂN LOẠI MÁY VECTOR

MIN (5)
Máy vectơ hỗ trợ (SVM) là một khuôn khổ của lý thuyết thống
Với một ràng buộc
kê và giảm thiểu rủi ro cấu trúc được phát triển bởi Vapnik
và các đồng nghiệp của ông. SVM dựa trên siêu phẳng phân loại
tối ưu của tình huống phân loại tuyến tính. SVM tìm thấy mức
(6)
ký quỹ tối đa
phương trình sau.
(số 8)
Điều này sau đó được chuyển qua chức năng kích hoạt lưỡng cực
sigmoid
(9)
Đầu ra của chức năng kích hoạt quảng bá đến sau đó là

Hình 3. Mạng nơ-ron: Cho biết lớp đầu vào, lớp ẩn và lớp đầu
ra tạo nên mạng nơ-ron. tất cả các nút trên lớp đầu ra
(10)
Tính toán siêu phẳng tối ưu như sau
ở đâu và là các độ lệch trong lớp ẩn và lớp đầu ra, tương ứng.
(7)
Giá trị đầu ra sẽ được so sánh với mục tiêu bằng sai số tuyệt
đối trung bình dưới dạng hàm lỗi
PHÂN LOẠI MẠNG NÔNG THÔN
Mạng nơ-ron (NN) được McCulloch và Pitts giới thiệu lần đầu (11)
tiên vào năm 1943, kể từ khi giới thiệu nó ngày càng được sử
dụng nhiều hơn trong phân loại văn bản. Mạng lưới thần kinh mô
Số lượng các mẫu đào tạo ở đâu, và
phỏng chức năng của não người, trong đó các tế bào thần kinh
(tế bào thần kinh) giao tiếp với nhau bằng cách gửi thông điệp là giá trị đầu ra và giá trị mục tiêu. Cân nặng
giữa chúng. Mạng nơ-ron nhân tạo (ANN) đại diện cho mô hình toán
được điều chỉnh theo biểu thức sau:
học của những nơ-ron sinh học này.
(12)
Nó là một cấu trúc xử lý thông tin phân tán song song bao gồm
một số đơn vị xử lý phi tuyến (tế bào thần kinh) (Ko và cộng
sự, 2009) có thể được huấn luyện để nhận ra các tính năng và số kỷ nguyên ở đâu và việc học là ở đâu
xác định các tính năng / dữ liệu không hoàn chỉnh. Mạng nơ-ron tỷ lệ.
có khả năng lập bản đồ tuyệt vời hoặc liên kết mẫu, do đó thể
hiện tính tổng quát, mạnh mẽ, khả năng chịu lỗi cao và xử lý
Các phương pháp học thuật toán NN có thể được chia rộng rãi
thông tin song song tốc độ cao.
thành các phương pháp học có giám sát, không giám sát và học
tăng cường.
Khả năng tự học của NN bằng các ví dụ cho phép các nhà nghiên
cứu đào tạo NN với các tính năng từ thư điện tử để có được kiến
thức phân loại thư điện tử thành thư rác hay thư hợp pháp. Kiến CÁC NGHIÊN CỨU TRƯỚC VỀ VIỆC HỌC MÁY
trúc mạng nơron nói chung có thể được phân loại thành mạng
truyền tiếp cấp một lớp, mạng chuyển tiếp cấp nhiều lớp và mạng Sự phát triển theo cấp số nhân của e-mail spam trong những năm
lặp lại. Tuy nhiên trong những năm qua, nhiều loại khác đã xuất gần đây dẫn đến nhu cầu lọc thư rác chính xác và hiệu quả hơn.
hiện như perceptron, mạng lan truyền ngược, bản đồ tự tổ chức, Học máy (ML) là một cách tiếp cận rất hiệu quả đã được sử dụng
lý thuyết cộng hưởng thích nghi và hàm cơ sở xuyên tâm. thành công trong phân loại văn bản. Cách tiếp cận này ngày càng
được áp dụng nhiều hơn để chống lại thư rác.
Hình 3 chỉ ra lớp đầu vào, lớp ẩn và lớp đầu ra tạo nên mạng Bằng cách cho phép máy móc phân loại e-mail thành thư rác
nơ-ron. và thư không phải thư rác, nó giảm bớt sự can thiệp của con
Các chức năng của mạng như sau (Goyal, 2007): Mỗi nút trong người, do đó giảm chi phí giám sát thư rác.
lớp đầu vào nhận một tín hiệu làm đầu vào của mạng, nhân với Máy vectơ hỗ trợ (SVM) là một trong những cách tiếp cận
một giá trị trọng số giữa lớp đầu vào và lớp ẩn. Mỗi nút trong ML phổ biến đang được áp dụng trong phân loại chống thư rác.
Vapnik và các đồng nghiệp của ông vào năm 1999 lần đầu
lớp ẩn nhận tín hiệu
tiên áp dụng kỹ thuật ML này để phân loại thư rác. Họ đã
theo thử nghiệm nó với ba kỹ thuật khác; Ripper, thúc đẩy quyết định
cây và Rocchio. Cả hai cây thúc đẩy và SVM đều cung cấp hiệu suất việc sử dụng mạng nơ-ron dựa trên LVQ để phân loại e-mail spam. Các
“chấp nhận được”, với SVM được ưu tiên hơn do yêu cầu đào tạo ít hơn e-mail được phân loại thành nhiều lớp con để dễ nhận dạng và dựa
(Vapnik et al., 1999). Năng suất kết quả tốt nhất cho SVM thu được trên NN dựa trên lượng tử hóa vectơ học (LVQ). Các thí nghiệm của họ
bằng cách sử dụng biểu diễn nhị phân và cơ sở tần số để tăng cường. cho thấy LVQ-NN có độ chính xác và tỷ lệ nhớ tốt hơn so với NN-BP và
Naïve Bayesian, trong đó Naïve Bayesian cho thấy tỷ lệ thấp nhất.
Phương pháp Naïve Bayesian (NB) ban đầu được đề xuất bởi Sahami
(1998) để phân loại e-mail tự động bằng cách sử dụng khung lý thuyết Wang và cộng sự. (2006) đã sử dụng sự tích hợp của hai bộ phân
quyết định và kể từ khi nghiên cứu này, các nhà nghiên cứu đã thực loại tuyến tính, Perceptron và Winnow. Họ kết luận rằng Winnow tạo
hiện nhiều nghiên cứu tập trung vào việc Naïve Bayes đánh bại thư ra kết quả tốt hơn một chút so với Perceptron, tuy nhiên cả hai
rác. trình phân loại đều hoạt động rất tốt và vượt trội hơn đáng kể so
Androutsopoulos và cộng sự. (2000) đã điều tra tác động của kích với trình phân loại Naïve Bayesian.
thước tập thuộc tính, kích thước tập hợp-tập tin, hiện tượng Ichimura và cộng sự. (2007) đề xuất bản đồ tự tổ chức (SOM) để
lemmatization và danh sách dừng đối với các hoạt động của bộ lọc Naïve Bayesian.
phân loại thư rác và nhóm được xác định tự động (ADG) để trích xuất
Họ kết luận rằng sau khi giới thiệu đánh giá nhạy cảm về chi phí, các quy tắc phán đoán chính xác. Họ đã sử dụng 3007 e-mail được phân
cần có thêm mạng lưới an toàn để bộ lọc chống thư rác Naïve Bayes có loại là thư rác từ SpamAssassin, SOM được sử dụng để phân loại các
thể hoạt động trong thực tế. thư rác này nhằm thu được bản phân phối trực quan và ADG trích xuất
Graham (2002, 2003) sau đó đã triển khai bộ lọc Bayes để bắt 99,5% các quy tắc phân loại đểcủa
nghiệm đánh
họgiá
kếtthư rác
luận mộtSOM
rằng cách chính
cải xác.
thiện quáThí
trình
thư rác với 0,03% dương tính giả. phân loại và ADG làm giảm đáng kể âm tính giả. Yang và Elfayoumy
Kun-Kan Li và cộng sự (2002) đã phân loại thư rác bằng Máy vectơ (2007) đã đánh giá hiệu quả của Mạng nơron lan truyền ngược nguồn
hỗ trợ đơn giản hóa sử dụng học tích cực dựa trên nhóm bao gồm việc cấp dữ liệu và bộ phân loại Bayesian để phát hiện thư rác.
chọn một tập hợp các ví dụ đào tạo từ một nhóm các ví dụ không được
gắn nhãn.
Soonthornphisaj và cộng sự. (2002) đã điều tra cation phân loại thư
rác bằng cách sử dụng phương pháp dựa trên Centroid, trong đó các Kết quả của họ kết luận rằng NN truyền ngược nguồn cấp dữ liệu cung
mục dữ liệu được biểu diễn bằng mô hình không gian vectơ, Naïve cấp độ chính xác tương đối cao so với trình phân loại Bayes.
Bayesian và K-Neighbor gần nhất (kNN). Kết quả của họ kết luận rằng
trình phân loại dựa trên Centroid hoạt động tốt hơn Naïve Bayesian Lobato và Lobato (2008) đã sử dụng phân loại nhị phân dựa trên
và kNN. phần mở rộng của máy điểm Bayes. Bằng cách sử dụng phương pháp Bayes
Clark và cộng sự. (2003) đã phân loại thư rác bằng cách sử dụng với truyền kỳ vọng suy luận (EP), họ đã tạo ra một kết quả tốt hơn
LINGER, một hệ thống dựa trên mạng nơ-ron sử dụng perceptron nhiều SVM. Ye và cộng sự. (2008) đề xuất mô hình phân biệt thư rác dựa
lớp. LINGER bao gồm 2 bộ chọn tính năng: Độ khuếch đại tín hiệu (IG) trên SVM và lý thuyết DS. Họ đã sử dụng SVM với xác suất để phân
và phương sai (V). Kết quả của họ cho thấy rằng các bộ lọc dựa trên loại thư theo các đặc điểm của tiêu đề thư và nội dung văn bản của
mạng nơ-ron đạt được độ chính xác tốt hơn trong giai đoạn huấn luyện nội dung thư và Lý thuyết DS để xác định thư rác giúp cải thiện độ
nhưng có tính di động không ổn định trên các kho dữ liệu khác nhau chính xác của bộ lọc thư rác. Yu và Xu (2008) đã so sánh bốn thuật
(Clark và cộng sự, 2003). Woitaszek và cộng sự. (2003) đã sử dụng toán ML; Naïve Bayes (NB), mạng nơ-ron (NN), máy vectơ hỗ trợ (SVM)
SVM đơn giản cùng với từ điển được cá nhân hóa để đào tạo mô hình. và máy vectơ liên quan (RVM). Kết quả thử nghiệm của họ cho thấy
Sau đó, họ đã triển khai trình phân loại như một phần bổ trợ cho trình phân loại NN nhạy cảm hơn với kích thước tập huấn luyện và
Microsoft Outlook XP, cung cấp khả năng sắp xếp và nhóm bằng cách sử không thích hợp để sử dụng một mình làm công cụ từ chối thư rác, SVM
dụng giao diện của Outlook cho e-mail trên máy tính để bàn điển hình và RVM vượt trội hơn NB và RVM có thời gian thử nghiệm nhanh hơn
nhiều.
người sử dụng.
Matsumoto và cộng sự. (2004), đã mô tả kết quả của một nghiên cứu
thực nghiệm về hai phương pháp phát hiện thư rác: Máy Vector Hỗ trợ
(SVMs) và Naive Bayesian Classifier (NBC). Họ đã sử dụng cả tần số Wu (2009) đã sử dụng một phương pháp kết hợp giữa xử lý dựa trên
thuật ngữ (TF) và tần suất thuật ngữ với tần số tài liệu nghịch đảo quy tắc và mạng nơ-ron lan truyền ngược để lọc thư rác. Trước tiên,
(TF-IDF) để xây dựng vectơ đối tượng. Kết quả của họ phản ánh rằng một quy trình dựa trên quy tắc được sử dụng để xác định và số hóa
Naïve Bayesian có hiệu suất nhất quán cho tất cả các tập dữ liệu các hành vi gửi thư rác được quan sát thấy từ tiêu đề và nhật ký của
khác nhau. e-mail. Sau đó, họ sử dụng các hành vi gửi thư rác như các tính năng
để mô tả e-mail. Thông tin này sau đó được sử dụng để huấn luyện BPNN.
Zhao và Zhang (2005) đã thực hiện một mô hình dựa trên tập hợp thô
để phân loại e-mail thành ba loại: Spam, không phải spam và đáng ngờ Hệ thống tạo ra tỷ lệ âm tính và dương tính giả rất thấp và cho kết
và so sánh nó với Naïve Bayesian Classifier. Kết quả cho thấy rằng quả tốt hơn so với phân loại dựa trên nội dung (Guzella, 2009).
phương pháp dựa trên Tập hợp thô có tỷ lệ chính xác tốt hơn so với
phương pháp Naïve Bayesian. Chuan và cộng sự. (2005) đề xuất Wang và cộng sự. (2009) đã phát triển và thử nghiệm hệ thống lọc
chống thư rác bằng cách kết hợp Naïve Bayesian với
Bảng 4. Tóm tắt các nghiên cứu trước đây về các Thuật toán ML được sử dụng và độ chính xác (Ngôn ngữ Anh).
(Các) đại lý Thuật toán được Độ chính xác (%) Dương sai
sử dụng Soonthornphisaj et al. (2002) Phương pháp dựa trên 83 NA
trung tâm Graham (2002, 2003) Bộ lọc Bayesian 99,5 0,03% FP
Woitaszek et al. (2003) Máy vector hỗ trợ đơn giản với từ điển cá nhân hóa Zhao và 95,26 6,80% FP
Zhang (2005) Dựa trên tập hợp 97,37 NA
thô Chuan et al. (2005) Perceptron mạng thần kinh 98,97 NA
dựa trên LVQ 98,89

Wang et el. (2006) NA
Winnow 99,31
0,81% FP
Yang và Elfayoumy (2007) Cung cấp mạng lưới thần kinh lan truyền ngược trở lại 90,24
0,84% FN
Lobato và Lobato (2008) Lý thuyết SVM và DS 98,35 NA
Sun và cộng sự. (2009) LPP và LS-SVM 94 NA
Meizhen và cộng sự. (2009) Nhận dạng hành vi dựa trên cây quyết định mờ (FDT) 97 NA
nhà thanh toán bù trừ tổng kiểm tra phân tán (DCC) để tránh độ chính xác của nó.
dương tính giả quá mức. Sự kết hợp này đạt được rất Có nhiều nghiên cứu được thực hiện về lọc thư rác
thu hồi cao, tỷ lệ chính xác và trưng bày xuất sắc hiệu quả và hiệu quả trong việc phát hiện và ngăn chặn
độ tin cậy và hiệu quả. thư rác e-mail, tuy nhiên những nghiên cứu này chủ yếu thực hiện
Yong và cộng sự. (2009) đề xuất lọc chống thư rác dựa trên dựa trên thư rác dựa trên ngôn ngữ tiếng Anh (e-mail).
trên thuật toán phân cụm mờ thay vì phân loại Các phương pháp (tiền xử lý và thuật toán ML) được sử dụng cho
thuật toán thực hiện lọc mà không cần đào tạo trước Khả năng phát hiện thư rác bằng tiếng Anh có thể không cao hơn
các quy trình. Họ đã tính toán chi phí chuẩn hóa (NC) bằng cách biểu diễn cho bản chất của con người khác nhau
đặt 11 giá trị của ngưỡng t, từ 0,0 đến 1,0 và = 1, ngôn ngữ (Bảng 5).
= 9, = 999. Kết quả cho thấy rằng để thiết lập mức cao
giá trị của ngưỡng t đạt được chi phí thấp hơn trong các tình huống SƠ CHẾ
nơi mà việc ngăn chặn quá mức sẽ bị phạt rất nặng.

Sun và cộng sự. (2009) đề xuất dự báo theo đuổi địa phương Một e-mail được chia thành phần tiêu đề và phần nội dung
(LPP) và phiên bản SVM nhỏ nhất (LS-SVM) cho tiết diện. Phần tiêu đề chứa thông tin chung
chống thư rác theo đó thuật toán LPP được sử dụng để trích xuất chẳng hạn như thông tin người gửi, thông tin (các) người nhận,
các tính năng từ e-mail và sau đó được phân loại là hợp pháp hoặc thông tin chủ đề và tuyến đường, nơi khác nội dung
thư rác bằng cách sử dụng bộ phân loại LS-SVM. Kết quả của chứa thông điệp thực tế. Thông tin này cần
nghiên cứu của họ cho thấy hiệu suất tốt hơn nhiều so với được trích xuất trước khi chạy quy trình lọc bằng
các bộ phân loại khác.
sơ chế. Mục đích của việc xử lý trước là để
Meizhen và cộng sự. (2009) đề xuất một mô hình cho thư rác chuyển đổi các thư trong thư thành một định dạng thống nhất có thể
nhận dạng hành vi dựa trên cây quyết định mờ (FDT). được hiểu bởi thuật toán học tập (Zhang và cộng sự,
Mô hình này có thể phát hiện và phân tích hiệu quả những người gửi thư rác ' Năm 2004).
các mẫu hành vi và tự động phân loại e-mail. Các

hệ thống tính toán thông tin thu được để phân tích và lựa chọn Các bước liên quan đến tiền xử lý như sau:
tính năng hành vi của e-mail. Họ kết luận rằng kể từ khi
các thuộc tính hoàn toàn rõ ràng không phải lúc nào cũng tồn tại trong 1. Tính năng trích xuất (Tokenization): Giải nén các tính năng
thế giới thực, mức độ phụ thuộc tính nhiều hơn từ e-mail; tiêu đề hoặc nội dung e-mail vào một không gian vectơ.
tự nhiên và hợp lý để mô tả các đặc điểm của 2. Tính năng lựa chọn: Giảm kích thước; sự giảm bớt
hành vi. Cây quyết định mờ thích nghi hơn so với Crisp của vectơ đối tượng địa lý.
cây quyết định. 3. Dừng loại bỏ từ: Loại bỏ các từ không cung cấp thông tin.
Kết quả cho thấy tỷ lệ chính xác tốt hơn với tính năng phát hiện 4. Loại bỏ tiếng ồn: Loại bỏ văn bản hoặc ký hiệu tối nghĩa
tỷ lệ hơn 70% cho thấy rằng mờ từ các tính năng
mô hình cây quyết định là một triển vọng tốt và hiệu quả. 5. Các tính năng biểu diễn các tính năng thành phù hợp
Bảng 4 trình bày tóm tắt các Thuật toán ML được sử dụng và định dạng cho lọc ML.
Bảng 5. Các ngôn ngữ và thuật toán khác.
(Các) tác giả Các thuật toán phân loại ngôn ngữ được sử dụng Sự chính xác (%)
Ozgur và cộng sự. (2004) Thổ nhĩ kỳ Mạng nơron nhân tạo và Bayesian 90
Dong et al. (2006) người Trung Quốc

Bộ lọc thư rác Bayes dựa trên N-gram chéo 93
người Trung Quốc

Hỗ trợ mô hình ngôn ngữ tri-gram dựa trên máy vectơ và làm mịn chiết khấu 98
Pang Xiu-Li và cộng sự. (2007)
Tuah và cộng sự. (2008) Phân đoạn tiếng Việt tiếng Việt dựa trên phân loại ngôn ngữ và 98,5
Bayesian
Na Songkhla và Piromsopa (2010) Thái lan Dựa trên quy tắc thống kê 80,8
Qiu và cộng sự. (2010) người Trung Quốc Bộ phân loại tuyến tính trực tuyến;
Perceptron, 97,56
Winnow và 97,33
Naïve Bayesian 94,2
TOKENIZATION Các tính năng không đáng kể không góp phần vào phân loại
được bỏ qua do đó cải thiện hiệu quả của trình phân loại.
Tokenization là quá trình giảm một thông điệp thành thành Dạng toán học của DF như sau:
phần thông tục của nó (Zdziarski, 2005). Nó nhận thông điệp
và chia nhỏ nó thành một loạt các mã thông báo (từ).
Các từ được lấy từ nội dung thư của e-mail mặc dù các (13)
trường tiêu đề và chủ đề cũng có thể được xem xét. Sau đó,
các từ / đặc trưng này được thêm vào không gian vectơ để
xây dựng không gian đối tượng để phân loại. Quá trình mã
Thu được thông tin
hóa sẽ trích xuất tất cả các tính năng từ thư mà không quan
tâm đến tầm quan trọng của nó. Các tính năng mã hóa rất dễ
Thông tin thu được dựa trên tác động của tính năng đối với
bị che khuất nội dung (Guzella và Carminhas, 2009), do đó
việc giảm entropy (Chen và cộng sự, 2008). IG đo lường số
cần phải có các quy trình giảm kích thước, cắt gốc và loại
lượng bit thông tin thu được cho danh mục bằng cách biết
bỏ từ dừng.
sự hiện diện hoặc vắng mặt của một thuật ngữ trong tài
liệu. Hãy biểu thị tập hợp các danh mục trong
không gian mục tiêu. IG của thuật ngữ được định nghĩa là:
KỸ THUẬT GIẢM KÍCH THƯỚC KÍCH THƯỚC
Kích thước của vectơ chứa các đối tượng địa lý gốc có thể
quá lớn để bộ lọc có thể xử lý. Vì một kỹ thuật giảm kích
thước như vậy được áp dụng cho vector đặc trưng. Có nhiều
loại kỹ thuật giảm kích thước chủ yếu là tần số tài liệu
(14)
(DF), độ lợi thông tin, Chi-square, Thông tin lẫn nhau, độ
mạnh của thuật ngữ, bổ sung và loại bỏ từ dừng.
Chi-square
Tần suất tài liệu Chi-Square là một bài kiểm tra thống kê đo lường sự xuất
hiện của các đối tượng so với số lần xuất hiện dự kiến của
Tần suất tài liệu đề cập đến số lượng tài liệu mà một đối các đối tượng đó (Yerazunis et al., 2005). Trong Chi-square,
tượng địa lý xuất hiện. Trọng lượng của các đối tượng địa các biến độc lập là các tính năng và các biến phụ thuộc là
lý được đo theo tần số và tần số thấp hơn, nhỏ hơn ngưỡng các danh mục (đó là e-mail hợp pháp và sp0am).
xác định trước, sẽ bị loại bỏ.
có tần suất cao nhưng mang ít ý nghĩa hơn các từ khóa. Thư điện
(15) tử bao gồm một số lượng lớn các từ không mang tính thông tin,
chẳng hạn như mạo từ (ví dụ: “a”, “an” và “the”), giới từ (ví
dụ: “với” hoặc “bên cạnh”) và các liên từ (ví dụ: “và”, “Hoặc”
Công thức trên đo lường mức độ tốt, một thuật ngữ và một danh hoặc “cho”) và những từ này sẽ làm tăng kích thước của không
mục, trong đó A là số lần gian vectơ do đó làm phức tạp quá trình phân loại. Một danh
sách các từ dừng được tạo và sau đó được so sánh với vectơ không
và xảy ra cùng nhau, B là số lần
gian để loại bỏ các từ được ánh xạ vào danh sách.
xảy ra mà không có , C là số lần xảy ra
không có , và D là số lần không cũng như
xảy ra. Công thức chi-bình phương để tính danh mục như sau: Loại bỏ tiếng ồn
Các từ bị xáo trộn trong e-mail đại diện cho tiếng ồn. Một hành
(16) động cố ý viết sai chính tả, đặt khoảng cách không đúng chỗ
hoặc nhúng các ký tự đặc biệt vào một đối tượng địa lý được gọi
là làm xáo trộn. Ví dụ, những kẻ gửi thư rác đã nhầm lẫn từ
(17) Viagra thành “V1agra”, “V | iagra” hoặc Free thành “fr33”. Những
kẻ gửi thư rác sử dụng kỹ thuật này nhằm cố gắng bỏ qua việc
xác định chính xác các thuật ngữ này bằng bộ lọc thư rác
Thông tin lẫn nhau (Guzella và Carminhas, 2009). Các kỹ thuật khử xáo trộn biểu
thức chính quy và thống kê được sử dụng để đối chiếu các cụm từ
sai chính tả này.
Thông tin tương hỗ là một đại lượng đo lường sự phụ thuộc lẫn
nhau của hai biến số. Nếu một đối tượng không phụ thuộc vào một
lớp thì nó bị xóa khỏi không gian vectơ. Đối với mỗi thuộc tính ĐẠI DIỆN
đặc trưng X với biến danh mục C, MI có thể được tính như sau:
Các tính năng trích xuất từ e-mail thường được biểu diễn dưới
dạng mô hình không gian vectơ (VSM) hoặc “túi từ”. Các tính
năng từ vựng được biểu diễn dưới dạng nhị phân hoặc số. Mô hình
(18) không gian vectơ biểu diễn thông điệp dưới dạng vectơ trong đó
,
là các giá trị của thuộc tính ,…,. Tất cả

Thông tin tương hỗ chính xác trong các dự đoán và một mô hình
dễ thực hiện hơn. thuộc tính là nhị phân: nếu tương ứng là hiện tại
tính năng / thông báo;
trong. đó
Biểu
là diễn số cho
một số
trong của các
xuấtbiết thuộc
hiện
tần tính
củasuất
đối
từ khác tượng địa lý trong e-mail. Ví dụ: nếu từ
Nhét đầy
“Viagra” xuất hiện trong tin nhắn thì giá trị nhị phân 1 sẽ
Rút gọn là một quá trình rút gọn các từ về dạng cơ bản của nó được gán cho đối tượng địa lý.
bằng cách loại bỏ số nhiều từ danh từ (ví dụ: “táo” thành
“táo”), các hậu tố của động từ (ví dụ: “đo” thành “đo”) hoặc
các phụ tố khác. Được Porter đề xuất ban đầu vào năm 1980, nó Một biểu diễn tính năng thường được sử dụng khác là mô hình n-
định nghĩa xuất phát là một quá trình để loại bỏ các hình thái gram ký tự thu được các chuỗi ký tự và tần suất tài liệu nghịch
thông thường và kết thúc in-flexional khỏi các từ trong tiếng đảo tần số thuật ngữ (tf-idf). n-gram là phần n ký tự của một từ.
Anh. Một tập hợp các quy tắc được áp dụng lặp đi lặp lại để
biến đổi các từ thành gốc hoặc gốc của chúng. Cách tiếp cận này Nó cũng có thể được coi là bất kỳ tập hợp ký tự nào cùng xuất
làm giảm số lượng các đối tượng trong vectơ không gian và tăng hiện trong một từ. n-gam bao gồm bi-gam, tri gam và qua gam. tf-
tốc độ học và các giai đoạn phân loại cho nhiều bộ phân loại. idf là một thước đo thống kê được sử dụng để tính toán mức độ
Tuy nhiên, việc ghép gốc có thể khiến hai từ khác nhau được quan trọng của một từ đối với tài liệu trong kho dữ liệu tính
ghép thành một từ giống nhau. năng. Tần suất từ được thiết lập bằng tần suất thuật ngữ (tf),
số lần từ xuất hiện trong thông báo mang lại ý nghĩa của từ đó
đối với tài liệu. Sau đó, tần số thuật ngữ được nhân với tần số
tài liệu nghịch đảo (idf) đo tần suất xuất hiện của từ trong
Loại bỏ từ dừng tất cả các thông báo (Robertson, 2004).
Loại bỏ từ dừng là loại bỏ các từ phổ biến

ĐO LƯỜNG HIỆU SUẤT do đó giúp cho việc điều khiển trở nên dễ dàng và chính xác
hơn. Hiệu quả của bộ lọc thư rác có thể được tăng lên nhờ các
Các bộ phân loại cần được đánh giá dựa trên hiệu suất của việc bước tiền xử lý được áp dụng cho việc đào tạo và thử nghiệm các
truy xuất thông tin (thu hồi, độ chính xác và các biện pháp thu vectơ đặc trưng.
được) và lý thuyết quyết định (dương tính giả và âm tính giả) Dựa trên nghiên cứu này, Bayesian và mạng nơ-ron ngây thơ cho
(Guzella và Caminhas, 2009). thấy những kỹ thuật đầy hứa hẹn và tốt hơn có thể được áp dụng
Độ chính xác, độ chính xác của thư rác và thu hồi thư rác là để chống lại thư rác. Các nhà nghiên cứu đang có kế hoạch triển
các thông số hoạt động quan trọng nhất. Nhớ lại cho biết số khai các kỹ thuật mạng nơ-ron và Bayes ngây thơ để lọc thư rác
lượng thư rác được phân loại chính xác chống lại thư rác bị cho các e-mail bằng tiếng Malay.
phân loại sai là hợp pháp và số lượng thư rác được công nhận là
thư rác.
Độ chính xác thể hiện tỷ lệ giữa số lượng thư rác được phân SỰ NHÌN NHẬN
loại chính xác với số lượng tất cả các thư được đánh dấu là thư
rác. Độ chính xác thể hiện tỷ lệ giữa số lượng thư rác và thư Nhóm tác giả xin chân thành cảm ơn những ý kiến đóng góp của
hợp pháp được phân loại chính xác trên tổng số thư được sử dụng các nhà phản biện đã giúp hoàn thiện hơn phần trình bày của bài
để kiểm tra là tất cả các thư được phân loại chính xác bởi bộ báo.
phân loại. Các thông số này có thể được đo bằng các phương
trình sau:
NGƯỜI GIỚI THIỆU
Amayri O, Bouguil N (2009). Hỗ trợ lọc thư rác trực tuyến
(19) Máy Vector. IEEE., Trang 337-340.

Androutsopoulos I, Koutsias J, Chandrinos KV, Paliouras G, Spyropoulos C (2000).
Một đánh giá về khả năng lọc chống thư rác của Bayes khá ngây thơ. Proc. Về
hội thảo về máy học trong thời đại thông tin mới: 11 Hội nghị châu Âu về máy
(20) học, trang 9-17.
thứ tự
Chen C, Tian Y, Zhang C (2008). Lọc thư rác với một số tiểu thuyết
(21) Máy phân loại Bayes. IEEE.
Chuan Z, Xianliang L, Mengshu H, Xu Z (2005). Một phương pháp chống thư rác mạng
nơ-ron dựa trên LVQ. ACM SIGOPS Hệ điều hành.
Rev., trang 34-39.
(22) Clark J, Koprinska I, Poon J (2003). Một cách tiếp cận dựa trên mạng nơ-ron để
phân loại e-mail tự động. Hội nghị quốc tế IEEE về Web Intelligence, trang
702-705.
Các e-mail rác được phân loại là e-mail hợp pháp được gọi là âm Dalkilic G, Sipahi D, Ozcanhan MH (2009). Một phương pháp chặn thư rác đơn giản
nhưng hiệu quả. Kỷ yếu hội thảo quốc tế lần thứ 2 về An toàn thông tin và
tính giả (FN) trong khi các e-mail hợp pháp khác được phân loại
mạng, trang 179-185.
là thư rác được gọi là xác thực giả (FP). True positive (TP) có Đông YS (2004). So sánh một số phương pháp tổng hợp để phân loại văn bản. Hội
nghĩa là các e-mail spam được dự đoán chính xác là spam; Đúng nghị quốc tế IEEE về Máy tính Dịch vụ.
phủ định (TN) là số lượng e-mail hợp pháp và thực sự được dự
Dong J, Cao H, Liu P, Ren L (2006). Bộ lọc thư rác của Trung Quốc Bayes dựa trên
đoán là hợp pháp.
N-gram chéo. Thiết kế và Ứng dụng Hệ thống Thông minh, 2006. ISDA '06. Hội
nghị quốc tế lần thứ sáu về, 3: 103-108.
Dựa trên nghiên cứu này, Bayesian và mạng nơ-ron ngây thơ cho
thấy những kỹ thuật đầy hứa hẹn và tốt hơn có thể được áp dụng Ferris Reseacrh (2009). Thư rác, người gửi thư rác và kiểm soát thư rác Sách
thứ tự
trắng của Ferris Research (tháng 3 năm 2009). Truy cập ngày 8 tháng
2010
2 năm
http://
để chống lại thư rác.
apac.trendmicro.com/imperia/md/content/us/pdf/products/enter Prize /
intercanmessagingsecuritysuite / wp01_antispamferris_090311 us.pdf.
thứ tự
PHẦN KẾT LUẬN Ferris Reseacrh (2010). Thống kê ngành. Đã truy xuất 8 http:// Tháng 2 năm 2010
www.ferris.com/research-library/industry-stosystem/.
Frost K, Udsen H (2006). Quy định chống thư rác trong Demark. Luật Máy tính và
Thư rác đang trở thành một trong những bổ sung khó chịu và độc Bảo mật, 22: 241-249.
hại nhất cho công nghệ Internet. Phần mềm lọc thư rác truyền Goyal RD (2007). Mạng nơ ron dựa trên tri thức Để phân loại văn bản. Hội nghị
thống không thể đối phó với khối lượng lớn thư rác đã vượt qua quốc tế IEEE về máy tính dạng hạt, trang 542-247.
các biện pháp bảo vệ chống thư rác. Khi các vấn đề về thư rác
Graham P (2002). Một kế hoạch cho thư rác. Lấy ra từ
ngày càng leo thang, cần có các công cụ hữu hiệu và hiệu quả để http://www.paulgraham.com/spam.html.
kiểm soát chúng. Các phương pháp tiếp cận máy học đã cung cấp
thứ tự
Graham P (2003). Lọc Bayes tốt hơn. Lấy 10 http:// Tháng 3 năm 2010
cho các nhà nghiên cứu một cách tốt hơn để chống lại thư rác. www.paulgraham.com/better.html.
T xanh (2005). Cách lọc thư rác URL Beats Bayesian / Heuristics dẹp bỏ.
Học máy đã được áp dụng thành công trong phân loại văn bản. Vì
Truy cập vào tháng10
3 năm 2010 http://
thứ tự
e-mail có chứa văn bản, nên cách tiếp cận ML có thể được áp dụng
www.spamstopshere.com/resources/documents/whitepaper.ht ml? Task = doc_download
liền mạch cho các thư rác đã được phân loại. & gid = 2.
Giờ đây, e-mail có thể được phân loại với ít sự can thiệp của con người hơn Guzella TS, Caminhas WM (2009). Đánh giá về học máy
các cách tiếp cận để lọc thư rác. Hệ thống chuyên gia với Ứng dụng, 36: Khảo sát Máy tính ACM, 34 (1): 1-47.
10206-10222. Soonthornphisaj N, Chaikulseriwat K, Tang-On P (2002). Lọc chống thư rác: Phương
Heron S (2009). Công nghệ phát hiện thư rác. An ninh mạng tháng 1 năm 2009, pháp tiếp cận phân loại dựa trên Centroid. IEEE, ICSP'02 Proceedings, trang
trang 11-15. 1096-1099. thứ tự
Hideo A (2009). Báo cáo Nghiên cứu về Hệ thống Chống thư rác với Khối lượng 99% Spamhaus (2010). Định nghĩa về Thư rác. Truy cập 8 http:// Tháng 2 năm 2010
Tỷ lệ (nov 2009). Đã truy xuất http://

thứ 27 Tháng 2 năm 2010 từ www.spamhaus.org/definition.html.
gabacho.reto.jp/en/anti-spam/anti-spam-system.html#1. Sun A, Lim EP, Ng WK (2002). Cổ điển hóa web sử dụng máy vectơ hỗ trợ Kỷ yếu
Ichimura T, Hara A, Kurosawa Y (2007). "Một phương pháp phân loại e-mail spam của Int. Hội thảo về Quản lý Dữ liệu và Thông tin Web (WIDM 2002).
bằng Bản đồ tự tổ chức và các nhóm được xác định tự động," Systems, Man and
Cybernetics, 2007. ISIC. Hội nghị quốc tế IEEE về, trang 2044-2049. Sun X, Zhang Q, Wang Z (2009). Sử dụng LPP và LS-SVM để lọc thư rác. ISECS
International Colloquium về Máy tính, Truyền thông, Điều khiển và Quản lý,
Ko M, Tiwari A, Mehnen J (2009). Đánh giá về các ứng dụng máy tính mềm trong trang 451-454.
quản lý chuỗi cung ứng. Máy tính phần mềm ứng dụng, trên báo chí, Bằng chứng Tuah AN, Quang AT, Ngoc BT (2008). Phát hiện thư rác tiếng Việt dựa trên phân
sửa chữa, ngày 15 tháng 9 năm 2009, trang 1-14. loại ngôn ngữ. Truyền thông và Điện tử, 2008. ICCE 2008. Hội nghị quốc tế
Kun L, Kai L, Kuanwang H, Fengtian S (2002). Học tập tích cực với Svms được đơn lần thứ hai về, 4 (6): 74-79.
giản hóa để phân loại thư rác. Kỷ yếu Hội nghị Quốc tế đầu tiên về Máy cán Vapnik VN, Druck H, Wu D (1999). Hỗ trợ Máy Véc tơ để Phân loại Thư rác. Giao
và Điều khiển từ, trang 1198-1202. dịch IEEE trên mạng thần kinh, 10 (5): 1048- 1054.
Lai CC (2007). Một nghiên cứu thực nghiệm về ba phương pháp học máy để lọc thư Wang B, Jones GJF, Pan W (2006). Sử dụng bộ phân loại tuyến tính trực tuyến để
rác. Hệ thống dựa trên tri thức. Elsevier, 20: 249-254. lọc e-mail spam. Phân tích mẫu và ứng dụng, 9: 339–351.
Lai GH, Chen CM, Laih CS, Chan T (2009). Một hệ thống hợp tác chống thư rác. Hệ Wang H, Zhou R, Wang Y (2009). Một bộ lọc chống thư rác dựa trên Naïve Bayesian
thống Chuyên gia với Ứng dụng. Elsevier, 36: 6645-6653. Classifier và Distributed Checksum Clearinghouse. 3 Hội nghị chuyên đề quốc
tế về ứng dụng công nghệ thông tin .
Lazzari L, Mari M, Poggi A (2005). Một cách tiếp cận hợp tác và đa tác nhân để
lọc e-mail. Hội nghị Quốc tế IEEE / WIC / ACM về Công nghệ Tác nhân Thông Xã hội máy tính IEEE. trang 128-131.
minh (IAT'05), trang 238-241. Woitaszek M, Shaaban M, Czernikowski R (2003). Xác định Thư điện tử Rác trong
Lobato DH, Lobato JM (2008). Máy Bayes để phân loại nhị phân. Microsoft Outlook bằng Máy Véc tơ hỗ trợ.
Chữ cái nhận dạng mẫu. Elsevier, 29: 1466-1473. IEEE Proceedings of the 2003 Symposium on Applications and Internet
Matsumoto R, Zhang D, Lu M (2004). Một số kết quả thực nghiệm về hai phương (SAINT'03), trang 166.
pháp phát hiện thư rác. IEEE, trang 198-203. Wood P, Bleaken D, Nisbet M, Zhang J, Johnston N, Lee M, Lewis D (2010). Thông
Meizhen W, Zhitang L, Sheng Z (2009). Phương pháp Nhận biết Hành vi Thư rác Dựa tin về MessageLabs: (2009) Báo cáo Bảo mật Thường niên. (2009)
trên Cây Quyết định Mờ. IEEE, Hội nghị Quốc tế về Máy tính và Công nghệ Thông Truy cập tháng 2 năm 2010
thứ 8 http://www.messagelabs.co.uk/
tin lần thứ IX, trang 236-241. intelligence.aspx

MessageLabs thông minh (2005). Báo cáo Bảo mật hàng năm. (2005) 2010 Wosotowsky A, Winkler E (2009). Báo cáo Thư rác McAfee Labs Phát hiện và Thảo thứ tự
Truy cập vào tháng 2 http://www.messagelabs.co.uk/

Thứ 8 luận về các Xu hướng Thư rác Chính (2009). Truy cập ngày 10 tháng 2http://
năm 2010
intelligence.aspx. www.mcafee.com/us/local_content/reports/7736rpt_spam_1209 .pdf
Báo cáo bảo mật hàng năm của MessageLabs (2009). (2009) 2010
Truy cập vào tháng 2 http://www.messagelabs.co.uk/
Thứ 8 Wu CH (2009). Phát hiện thư rác dựa trên hành vi sử dụng phương pháp kết hợp
intelligence.aspx. giữa kỹ thuật dựa trên quy tắc và mạng thần kinh. Hệ thống Chuyên gia với
Moustakas E, Ranganathan C, Duquenoy P (2010). Chống thư rác thông qua luật Ứng dụng. Elsevier, trang 4321-4330.
pháp: phân tích so sánh giữa chúng tôi và các phương pháp tiếp cận của châu Wu J, Deng T (2008). Nghiên cứu về phương pháp chống thư rác dựa trên bộ lọc
Âu. Truy cập ngày 10 tháng 2 http://www.ceas.cc/2005/ Bayes. IEEE, Hội thảo Châu Á Thái Bình Dương về Trí tuệ Tính toán và Ứng
papers/146.pdf. dụng Công nghiệp, trang 887 - 891.
Na Songkhla C, Piromsopa K (2010). Quy tắc thống kê để phát hiện thư rác ở Thái Xie M, Yin H, Wang H (2006). Một biện pháp bảo vệ chính thức chống lại việc rửa thư
Lan. Mạng tương lai, 2010. ICFN '10. Hội nghị quốc tế lần thứ hai về mạng rác bằng e-mail. ACM. Lấy từ http://
tương lai, 22-24: 238-242. citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.95.9653&re p = rep1 & type
Oda T, White T (2003). Tăng độ chính xác của hệ thống miễn dịch Aritical của = pdf.
thư rác. IEEE, trang 390-396. Yang Y, Elfayoumy S (2007). Lọc chống thư rác bằng cách sử dụng mạng thần kinh
Ozgur L, Gungor T, Gurgen F (2004). Phát hiện thư rác bằng mạng thần kinh nhân và bộ phân loại Baysian. Kỷ yếu Hội thảo Quốc tế IEEE 2007 về Trí tuệ Tính
tạo và bộ lọc Bayes. Springer, trang 505-510. toán trong Robot và Tự động hóa, trang 272-278.
Pang X, Feng Y, Jiang W (2007). Phương pháp tiếp cận bộ lọc chống thư rác của
Trung Quốc dựa trên máy hỗ trợ vector. Khoa học và Kỹ thuật Quản lý, 2007. Ye M, Jiang QX, Mai FJ (2008). Công nghệ lọc thư rác dựa trên Hội thảo lý thuyết
ICMSE 2007. Hội nghị Quốc tế về, 20-22: 97-102, tháng 8 năm 2007. SVM và DS về Khám phá tri thức và Khai thác dữ liệu. IEEE, trang 562-565.
Porter MF (1980). Một thuật toán cho tước hậu tố. Có sẵn tại: Yerazunis SW, Chhabra S, Siefkes C, Assis F, Gunopulos D (2005). Một mô hình
http://tartarus.org/~martin/PorterStemmer/def.txt. lọc Spam thống nhất. Các phòng thí nghiệm nghiên cứu của Mitsubishi Electric .
Truy cập ngày 15 tháng 3 năm 2010 http://
Qiu Y, Xu Y, Wang B (2010). Hệ thống lọc e-mail thư rác kiểu Trung Quốc tuyến www.merl.com.
tính. Kinh doanh điện tử và Bảo mật hệ thống thông tin (EBISS), Hội nghị Yong H, Guo C, Zhang X, Guo Z, Zhang J, He X (2009). Hệ thống lọc thư rác thông
quốc tế lần thứ 2 năm 2010, trang 1-4: 22-23. minh dựa trên phân cụm mờ. IEEE, Hội nghị quốc tế lần thứ sáu về hệ thống mờ
Rish I (2001). Một nghiên cứu thực nghiệm về trình phân loại bayes ngây thơ. Có và khám phá tri thức, trang 515-519.
tại: http://www.cc.gatech.edu/~isbell/classes/reading/papers/Rish.pdf Robertson
S (2004). Tìm hiểu tần suất tài liệu nghịch đảo: Về các đối số lý thuyết cho Youn S, McLeod D (2007). Lọc Email Spam hiệu quả bằng cách sử dụng Ontology
ID; J. Doc., 60 (5): 503-520. thích ứng. Hội nghị quốc tế IEEE về công nghệ thông tin (ITNG'07), trang
Sahami M, Dumais S, Heckerman D, Horvitz E (1998). Phương pháp tiếp cận của 249-254.
Bayes để lọc e-mail rác. Đang tìm hiểu về phân loại văn bản - Các tài liệu Yu B, Xu Z (2008). Một nghiên cứu so sánh để phân loại thư rác động dựa trên
từ Hội thảo AAAI, trang 55-62, có tại: ftp://ftp.research.microsoft.com/pub/ nội dung bằng cách sử dụng bốn thuật toán học máy.
ejh/junkfilter.pdf. Hệ thống dựa trên tri thức. ScienceDirect, 21: 355-362.
Schaub MY (2002). Email không được yêu cầu: Châu Âu có cho phép thư rác không? Yu J, Cheng F, Xiong H, Qu W, Chen XW (2008). Một cách tiếp cận Bayes để hỗ trợ
Tình trạng hiện đại của luật pháp Châu Âu liên quan đến các giao tiếp thương máy vectơ cho việc phân loại nhị phân.
mại không được yêu cầu. Báo cáo Luật và Bảo mật Máy tính. 18 (2): 99-105. Máy tính thần kinh. Tập 72, Số 1-3, tháng 12 năm 2008, trang 177-185.
Sebastiani F (2002). Học máy trong phân loại văn bản tự động. Zdziarski JA (2005). Tokenization: Khối xây dựng Spam. Ở trong
Pollock W, Zinkann E (Eds.), Ending Spam: Bayesian Content Filtering Zhao W, Zhang Z (2005). Mô hình phân loại e-mail dựa trên
and the Art of Statistical Language Analysis San Francisco: No Starch SetTheory thô sơ. IEEE, trang 403-408.
Press, trang 97-110.
Zhang L, Zhu J, Yao T (2004). Đánh giá các kỹ thuật lọc thư rác thống
kê. Giao dịch ACM về Xử lý Thông tin Ngôn ngữ Châu Á. 3 (4): 243-269.

6D3313D32098

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

6D3313D32098

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

Giấy nghiên cứu độ dài đầy đủ

Được chấp nhận ngày 31 tháng 8 năm 2010

CẤU TRÚC E-MAIL

1870 Int. J. Vật lý. Khoa học.

Bảng 1. Các định nghĩa khác nhau về thư rác.

Tác giả / (năm) Sự định nghĩa

THAM KHẢO SPAMMER

Subramaniam và cộng sự. 1871

Thủ thuật Mô tả Các PC

Cắt dọc Viết tin nhắn rác theo chiều dọc

2004 2005 2006 2007 2008 2009 Tháng 6-10

Thư rác trung bình

1872 Int. J. Vật lý. Khoa học.

Quốc gia Luật pháp - Quy chế chống thư rác

Hoa Kỳ Đạo luật CAN-SPAM năm 2003

Luật do Ủy ban Thương mại Liên bang thực thi

Subramaniam và cộng sự. 1873

bỏ những dương tính giả này có thể rất nhiều.

Phương pháp tiếp cận heuristic

1874 Int. J. Vật lý. Khoa học.

theo định luật Bayes xác suất

thuộc về c như đã cho trong

có thể có là quá cao. Để giảm bớt vấn đề này, người ta thường

HỖ TRỢ PHÂN LOẠI MÁY VECTOR

Subramaniam và cộng sự. 1875

phương trình sau.

Đầu ra của chức năng kích hoạt quảng bá đến sau đó là

1876 Int. J. Vật lý. Khoa học.

Subramaniam và cộng sự. 1877

sử dụng Soonthornphisaj et al. (2002) Phương pháp dựa trên 83 NA

trung tâm Graham (2002, 2003) Bộ lọc Bayesian 99,5 0,03% FP

Zhang (2005) Dựa trên tập hợp 97,37 NA

thô Chuan et al. (2005) Perceptron mạng thần kinh 98,97 NA

dựa trên LVQ 98,89

Lobato và Lobato (2008) Lý thuyết SVM và DS 98,35 NA

Sun và cộng sự. (2009) LPP và LS-SVM 94 NA

nơi mà việc ngăn chặn quá mức sẽ bị phạt rất nặng.

các mẫu hành vi và tự động phân loại e-mail. Các

1878 Int. J. Vật lý. Khoa học.

Bảng 5. Các ngôn ngữ và thuật toán khác.

Dong et al. (2006) người Trung Quốc

người Trung Quốc

Pang Xiu-Li và cộng sự. (2007)

Naïve Bayesian 94,2

Subramaniam và cộng sự. 1879

không có , và D là số lần không cũng như

là các giá trị của thuộc tính ,…,. Tất cả

Loại bỏ từ dừng là loại bỏ các từ phổ biến

1880 Int. J. Vật lý. Khoa học.

Amayri O, Bouguil N (2009). Hỗ trợ lọc thư rác trực tuyến

(19) Máy Vector. IEEE., Trang 337-340.

Subramaniam và cộng sự. 1881

Tỷ lệ (nov 2009). Đã truy xuất http://

tin lần thứ IX, trang 236-241. intelligence.aspx

Truy cập vào tháng 2 http://www.messagelabs.co.uk/

1882 Int. J. Vật lý. Khoa học.

You might also like