You are on page 1of 26

Босна и Херцеговина

Универзитет Синергија
Факултет за рачунаство и информатику

Spam email detection using machine learning algorith

Rakesh Nayak
Salim Amirali
Jiwani B.Rajitha
https://www.sciencedirect.com/science/article/pii/S2214785321021660

редмет:Дигитална форензика
рофесор:др.Марина Марјановић Јаковљевић
тудент:Марко Живановић 230021/2021
ецембар 2021.године,Бијељина
Проблем?
 Е-пошта, позната и као електронска пошта, постала је једно од важних средстава
комуникације у професионалцимакао и лични аспекти. Е-поруке се могу класификовати као
нежељена пошта и маилови. Огласи и масовне поште,познато као нежељена пошта,
процењује се да 62% светског интернет саобраћаја. Данас се врше и сајбер нападипреко ових
нежељених е-порука. Како се број корисника интернета повећава, повећава се и генерисање
нежељене поште.

 За руковање можемо направити разне класификаторе машинског учења. Овај рад упоређује
три различите машине:Класификатори за учење, односно Наивни Бајесов класификатор,
алгоритам Машине вектора подршке (СВМ) и алгоритам Најближи суседи (КНН). Резултат
се добија на основу тачности, f1 резултата и ефикасности давање резултата за тестне
податке. За ефикаснији се узима класификатор који задовољава све ове захтеве један за
класификацију нежељене поште.

 Keywords: Spam Mail classification, KNN, SVM, Naïve Bayes, Classification Algorithms, Machine
Learning, Mail Classification.
Недостаци тренутног истраживања

 Тежи се да се постигне модел чија је тачност 100%,тј.мера f1 да буде 100. Циљ


је постизање идеалног класификатора који може да класификује спамове без и
једне једине грешке у класификовању.
Досадашњи радови
Увод
 У данашњем свету, е-пошта је кључно и неопходно средство за омогућавање
брзе и јефтине комуникације.
 Електронска пошта (Е-маил)- је успоставила значајно место у преношењу
информација у животу корисника. Е-пошта игра важну улогу у комуникацији
како у личном тако и у професионалном аспекту нечијег живота. Брзо
повећање у броју налога и повећање обима поште такође су изазвали озбиљне
проблеме.
 Имејлови су класификовани као спамови и нежељене е-поруке. Пошта са
спамовима су легитимне е-поруке које прималац жели.Спам маилови су веома
незгодни у комуникацији. Нежељена пошта садржи нежељене поруке које
садрже злонамерне кодове и вирусе, рекламе, претеће поруке кориснику.
Увод

 Брз раст нежељене поште створио је проблеме као што су препуна поштанског сандучета
корисника, потрошња пропусног опсега и простора за складиштење.

 Такође је потребно доста времена кориснику да би ову пошту разврстала као нежељену
пошту и спам. Ови проблеми су повећали потребу за ефикасним и ефективним филтерима
е-поште који филтрирају е-пошту у нежељену пошту или ваљану пошту.

 Филтери за нежељену пошту спречавају нежељене е-поруке да уђу у пријемно сандуче


корисника. Ови филтери се аутоматски класификују нежељене е-поруке и е-поруке које
користе технике машинског учења постају све популарније међу истраживачима.
Увод

 Машинско учење је проучавање компјутерских алгоритама који се могу аутоматски


побољшати кроз искуство икоришћењем података.

 Алгоритми машинског учења граде моделе на основу датих узорака података, који су познати
као подаци о обуци. Подаци о обуци се користе за предвиђање или доношење одлука, а да
нису експлицитно програмирани да то раде.
 У моделу филтрирања нежељене поште, систем је обучен да класификује нежељену пошту и
е-пошту на основу е-поште на датом скупу података. Ово чини систем довољно
интелигентним да класификује нежељену е-пошту.
 Однос успешности одови алгоритми машинског учења варирају.Машинско учење се користи
за проучавање компјутерских алгоритама који се могу аутоматски побољшати искуством и
употребом података. Алгоритам машинског учења гради модел на основу података узорка
које даје корисник, познати као подаци о обуци, који помажу у доношењу предвиђања или
одлука без постојања експлицитно програмиран да то уради.
Алгоритми описани научним радом

 Наивни Баес алгоритам


 Методе вектора ослонца (SVM)
 K-NEAREST NEIGHBOR (KNN)
Наивни Бајесов класификациони алгоритам
 Наивни Бајесов класификациони алгоритам је пробабилистички алгоритам који се користи у
моделима машинског учења за пројектовање модела класификације који користе Бајесову
теорему. Претпоставља се да присуство било које карактеристике у систему не утиче на
друге карактеристике система.
 Наивни Бајесов модел је лак за ослањање и од помоћи је за скоро све велике скупове
података. Наивни Бајесов класификатор надмашује чак и неке модерне софистициране
алгоритме.

 Постериорна вероватноћа се израчунава као P(c|x) из P(c), P(x) и P(x|c) методама које
обезбеђује Бајесова теорема.

P(c|X) = P(x1|c) x P(x2|c) x ….. x P(xn|c) x P(c)


P(c|X) : постериорна вероватноћа
P(x|c) : вероватноћа
P(c):претходна вероватноћа класе
P(x) : претходна вероватноћа предиктора
Support Vector Machine (SVM)

 Support Vector Machine је алгоритам за учење под надзором који се користи за класификацију
као и за регресију проблема. SVM алгоритам има за циљ да створи најбољу линију или границу
одлуке која може да одвоји димензионални простор у класе тако да можемо да ставимо нове
тачке података у исправну категорију.
 Сваки објекат у SVM је уцртан у односу на н-димензионални простор где је n број
разликовних карактеристика које су извучено за потребе класификације.Концепт хиперравни
се користи за раздвајање скупа података у две класе са вектором подршке. Подршка вектор
је податак учесника који се даље класификује у посебну класу. SVM ради на проналажењу
најближније хиперравни која дели потпорне векторе у њихову одговарајућу класу. Хиперраван
је ограничена као граница вектора подршке.
K-NEAREST NEIGHBOR (KNN)

 Класификатор К-најближег суседа (КНН) је ефикасна техника за класификацију и


препознавање. Подаци о обуци се користе за поређење, а не за категоризацију.

 Понекад се појам лењи ученик повезује и саовај класификатор. За класификацију, KNN


проналази К ближих докумената, користи њихов профил да пронађе нову тежину документа
који се посматра.
МЕТОДОЛОГИЈА
 Овде је пројекат заснован на откривању нежељене е-поште на основу машинског учења које
користимо различите машинеалгоритам учења за откривање нежељене е-поште.
 На основу екстракције обележја користимо различите студије и проналазимокоји метод је
погоднији за издвајање обележја и проналажење тачнијег резултата у поређењу са другим
методама.

 За откривање нежељене е-поште, она пролази кроз 3 фазе:


1.Чишћење података
2. Откривање нежељене е-поште
а. Наивни Бајес
б. Support Vector Machine
в.K-nearest Neighbor
3. Издвајање својставаа
а). Спам емаил
б. Хам емаил
4. Поређење
МОДЕЛИРАЊЕ И АНАЛИЗА

 Класификација е-поште може да се уради коришћењем и надзираних алгоритама


класификације и ненадзиране класификације алгоритми.
 Надзирана класификација користи податке о обуци заједно са људском интервенцијом, док
уненадзирана класификација људска интервенција није потребна јер је потпуно компјутерски
управљана. Надгледана класификација има две фазе и то фазу обуке и фазу класификације.
У обуци фаза, класификатору се даје информација о класама. Ово би могла бити фаза у којој
траје учење модела. Фаза класификације користи знање добијено из података о обуци и
класификује мејлове уједна од унапред дефинисаних класа.
Spam /Ham Classification
 Преузети скуп података треба очистити пре него што га обучите.

 Након чишћења подаци се векторизују и деле надва скупа, скуп података за обуку и скуп
података за тестирање.

 Скуп података је обучен коришћењем три различита машинског учења алгоритми, наиме,
Наивни Бајес, машина за подршку и к-најближи алгоритми.

 Након успешне обуке, модел се тестира коришћењем скупа података за тестирање. Тачност
сваког модела узима се за поређење који алгоритам је тачнији у класификацији нежељене е-
поште. Након успешног завршетка сва три класификације, јасно је да је наивни Бајесов
класификатор најтачнији са тачношћу од 98,67% следи SVM и најмање тачан алгоритам је
КNN.
Matplotlib

 Matplotlib је један од најпопуларнијих Python пакета који се користе за визуелизацију


података. Tо је платформе за креирање 2Д дијаграма од података у низовима. Написана је у
Python и користи NumPy, проширење нумеричке математике за Python.
 Једна од најбољих предности визуелизације је то што нам омогућава визуелно приступ
великим количинама знања у лако сварљивим визуелним приказима.
 Matplotlib се састоји од неколико дијаграма као што су линија,трака, расути деаграм,
хистограм итд.
 На основу тачности и f1 резултата утврђено је да је Naivni Baes тачнији од осталих
класификатора.
 Има тачност од 98,69%. Такође сам нацртао матрицу конфузије за сваки алгоритам са и
безнормализација
Закључак

 Из овога можемо закључити да је најефикаснији метод за


класификацију алгоритма за нежељену пошту умашинско учење је
наивно Бајес, јер упоређивањем алгоритма на основу његове
тачности и f1 резултата је виши, односно 98,86 и 97,68. SVM
алгоритам такође има сличну тачност као код Наивног Бајеса.
Будућа истраживања
 Стручњаци из ове области желе да достигну квалитетан класификатор који ће радити са
идеалном тачношћу.За сада не постоји ни један идеалан класификатор,али тежи се
постизању и креирању најбољег класификатора тачности.
Референце
[1] Syed Ishfaq Manzoor , Dr Jimmy Singla, “A Comparative Analysis of Machine Learning Techniques for
Spam Detection”, International Journal of Advanced Trends in Computer Science and Engineering,
8(3), May - June 2019, Volume 8, No.3, May - June 2019.
[2] Jaydip Nakarani , Ajay Vandra , Aayush Vaishnav , Ayush Trivedi , Atul Kumar, “Classification of E-mail
(Phishy or Ham)”, International Journal for Research in Applied Science & Engineering Technology
(IJRASET) , Volume 8 Issue VI June 2020
[3] Shivam Pandey , Ashish Taralekar , Ruchi Yadav , Shreyas Deshmukh , Prof. Shubhangi Suryavanshi, “E-
Mail Spam Detection using Machine Learning and Deep Learning” , International Journal for Research
in Applied Science & Engineering Technology (IJRASET), Volume 8 Issue VI June 2020
[4] Mehran Sahami, Susan Dumais ,David Heckerman and Eric Horvitz, “A Bayesian Approach to Filtering
Junk E-Mail”, AAAI Workshop on Learning for Text Categorization (1998).
[5] Dengyong Zhou, Christopher J.C. Burges and Tao Tao, “Transductive Link Spam Detection”, Proceedings
of the 3rd international workshop on Adversarial information retrieval on the web, pp. 21–28 (2007).
[6] Rakesh Nayak, Salim Amirali Jiwani and B.Rajitha, “Spam email detection using machine learning
algorithm”, Materialstoday Proceedings April 2021.
[7] U.Murugavel and R.Santhi, “Detection of spam and threads identification in E-mail spam corpus using
content based text analytics method”, Materialstoday Proceedings, Volume 33, Part 7, 2020, Pages
3319-3323
[8] Shrawan Kumar Trivedi, “A study of machine learning classifiers for spam detection”, 4th International
Symposium on Computational and Business Intelligence (ISCBI), September 201
Хвала на пажњи!

You might also like