Professional Documents
Culture Documents
Универзитет Синергија
Факултет за рачунаство и информатику
Rakesh Nayak
Salim Amirali
Jiwani B.Rajitha
https://www.sciencedirect.com/science/article/pii/S2214785321021660
редмет:Дигитална форензика
рофесор:др.Марина Марјановић Јаковљевић
тудент:Марко Живановић 230021/2021
ецембар 2021.године,Бијељина
Проблем?
Е-пошта, позната и као електронска пошта, постала је једно од важних средстава
комуникације у професионалцимакао и лични аспекти. Е-поруке се могу класификовати као
нежељена пошта и маилови. Огласи и масовне поште,познато као нежељена пошта,
процењује се да 62% светског интернет саобраћаја. Данас се врше и сајбер нападипреко ових
нежељених е-порука. Како се број корисника интернета повећава, повећава се и генерисање
нежељене поште.
За руковање можемо направити разне класификаторе машинског учења. Овај рад упоређује
три различите машине:Класификатори за учење, односно Наивни Бајесов класификатор,
алгоритам Машине вектора подршке (СВМ) и алгоритам Најближи суседи (КНН). Резултат
се добија на основу тачности, f1 резултата и ефикасности давање резултата за тестне
податке. За ефикаснији се узима класификатор који задовољава све ове захтеве један за
класификацију нежељене поште.
Keywords: Spam Mail classification, KNN, SVM, Naïve Bayes, Classification Algorithms, Machine
Learning, Mail Classification.
Недостаци тренутног истраживања
Брз раст нежељене поште створио је проблеме као што су препуна поштанског сандучета
корисника, потрошња пропусног опсега и простора за складиштење.
Такође је потребно доста времена кориснику да би ову пошту разврстала као нежељену
пошту и спам. Ови проблеми су повећали потребу за ефикасним и ефективним филтерима
е-поште који филтрирају е-пошту у нежељену пошту или ваљану пошту.
Алгоритми машинског учења граде моделе на основу датих узорака података, који су познати
као подаци о обуци. Подаци о обуци се користе за предвиђање или доношење одлука, а да
нису експлицитно програмирани да то раде.
У моделу филтрирања нежељене поште, систем је обучен да класификује нежељену пошту и
е-пошту на основу е-поште на датом скупу података. Ово чини систем довољно
интелигентним да класификује нежељену е-пошту.
Однос успешности одови алгоритми машинског учења варирају.Машинско учење се користи
за проучавање компјутерских алгоритама који се могу аутоматски побољшати искуством и
употребом података. Алгоритам машинског учења гради модел на основу података узорка
које даје корисник, познати као подаци о обуци, који помажу у доношењу предвиђања или
одлука без постојања експлицитно програмиран да то уради.
Алгоритми описани научним радом
Постериорна вероватноћа се израчунава као P(c|x) из P(c), P(x) и P(x|c) методама које
обезбеђује Бајесова теорема.
Support Vector Machine је алгоритам за учење под надзором који се користи за класификацију
као и за регресију проблема. SVM алгоритам има за циљ да створи најбољу линију или границу
одлуке која може да одвоји димензионални простор у класе тако да можемо да ставимо нове
тачке података у исправну категорију.
Сваки објекат у SVM је уцртан у односу на н-димензионални простор где је n број
разликовних карактеристика које су извучено за потребе класификације.Концепт хиперравни
се користи за раздвајање скупа података у две класе са вектором подршке. Подршка вектор
је податак учесника који се даље класификује у посебну класу. SVM ради на проналажењу
најближније хиперравни која дели потпорне векторе у њихову одговарајућу класу. Хиперраван
је ограничена као граница вектора подршке.
K-NEAREST NEIGHBOR (KNN)
Након чишћења подаци се векторизују и деле надва скупа, скуп података за обуку и скуп
података за тестирање.
Скуп података је обучен коришћењем три различита машинског учења алгоритми, наиме,
Наивни Бајес, машина за подршку и к-најближи алгоритми.
Након успешне обуке, модел се тестира коришћењем скупа података за тестирање. Тачност
сваког модела узима се за поређење који алгоритам је тачнији у класификацији нежељене е-
поште. Након успешног завршетка сва три класификације, јасно је да је наивни Бајесов
класификатор најтачнији са тачношћу од 98,67% следи SVM и најмање тачан алгоритам је
КNN.
Matplotlib