!!!ИСПИТ

Босна и Херцеговина
Универзитет Синергија
Факултет за рачунаство и информатику
Spam email detection using machine learning algorith
Rakesh Nayak
Salim Amirali
Jiwani B.Rajitha
https://www.sciencedirect.com/science/article/pii/S2214785321021660
редмет:Дигитална форензика
рофесор:др.Марина Марјановић Јаковљевић
тудент:Марко Живановић 230021/2021
ецембар 2021.године,Бијељина
Проблем?
 Е-пошта, позната и као електронска пошта, постала је једно од важних средстава
комуникације у професионалцимакао и лични аспекти. Е-поруке се могу класификовати као
нежељена пошта и маилови. Огласи и масовне поште,познато као нежељена пошта,
процењује се да 62% светског интернет саобраћаја. Данас се врше и сајбер нападипреко ових
нежељених е-порука. Како се број корисника интернета повећава, повећава се и генерисање
нежељене поште.
 За руковање можемо направити разне класификаторе машинског учења. Овај рад упоређује
три различите машине:Класификатори за учење, односно Наивни Бајесов класификатор,
алгоритам Машине вектора подршке (СВМ) и алгоритам Најближи суседи (КНН). Резултат
се добија на основу тачности, f1 резултата и ефикасности давање резултата за тестне
податке. За ефикаснији се узима класификатор који задовољава све ове захтеве један за
класификацију нежељене поште.
 Keywords: Spam Mail classification, KNN, SVM, Naïve Bayes, Classification Algorithms, Machine
Learning, Mail Classification.
Недостаци тренутног истраживања
 Тежи се да се постигне модел чија је тачност 100%,тј.мера f1 да буде 100. Циљ

је постизање идеалног класификатора који може да класификује спамове без и
једне једине грешке у класификовању.
Досадашњи радови
Увод
 У данашњем свету, е-пошта је кључно и неопходно средство за омогућавање
брзе и јефтине комуникације.
 Електронска пошта (Е-маил)- је успоставила значајно место у преношењу
информација у животу корисника. Е-пошта игра важну улогу у комуникацији
како у личном тако и у професионалном аспекту нечијег живота. Брзо
повећање у броју налога и повећање обима поште такође су изазвали озбиљне
проблеме.
 Имејлови су класификовани као спамови и нежељене е-поруке. Пошта са
спамовима су легитимне е-поруке које прималац жели.Спам маилови су веома
незгодни у комуникацији. Нежељена пошта садржи нежељене поруке које
садрже злонамерне кодове и вирусе, рекламе, претеће поруке кориснику.
Увод
 Брз раст нежељене поште створио је проблеме као што су препуна поштанског сандучета
корисника, потрошња пропусног опсега и простора за складиштење.
 Такође је потребно доста времена кориснику да би ову пошту разврстала као нежељену
пошту и спам. Ови проблеми су повећали потребу за ефикасним и ефективним филтерима
е-поште који филтрирају е-пошту у нежељену пошту или ваљану пошту.
 Филтери за нежељену пошту спречавају нежељене е-поруке да уђу у пријемно сандуче

корисника. Ови филтери се аутоматски класификују нежељене е-поруке и е-поруке које
користе технике машинског учења постају све популарније међу истраживачима.
Увод
 Машинско учење је проучавање компјутерских алгоритама који се могу аутоматски

побољшати кроз искуство икоришћењем података.
 Алгоритми машинског учења граде моделе на основу датих узорака података, који су познати
као подаци о обуци. Подаци о обуци се користе за предвиђање или доношење одлука, а да
нису експлицитно програмирани да то раде.
 У моделу филтрирања нежељене поште, систем је обучен да класификује нежељену пошту и
е-пошту на основу е-поште на датом скупу података. Ово чини систем довољно
интелигентним да класификује нежељену е-пошту.
 Однос успешности одови алгоритми машинског учења варирају.Машинско учење се користи
за проучавање компјутерских алгоритама који се могу аутоматски побољшати искуством и
употребом података. Алгоритам машинског учења гради модел на основу података узорка
које даје корисник, познати као подаци о обуци, који помажу у доношењу предвиђања или
одлука без постојања експлицитно програмиран да то уради.
Алгоритми описани научним радом
 Наивни Баес алгоритам

 Методе вектора ослонца (SVM)
 K-NEAREST NEIGHBOR (KNN)
Наивни Бајесов класификациони алгоритам
 Наивни Бајесов класификациони алгоритам је пробабилистички алгоритам који се користи у
моделима машинског учења за пројектовање модела класификације који користе Бајесову
теорему. Претпоставља се да присуство било које карактеристике у систему не утиче на
друге карактеристике система.
 Наивни Бајесов модел је лак за ослањање и од помоћи је за скоро све велике скупове
података. Наивни Бајесов класификатор надмашује чак и неке модерне софистициране
алгоритме.
 Постериорна вероватноћа се израчунава као P(c|x) из P(c), P(x) и P(x|c) методама које
обезбеђује Бајесова теорема.
P(c|X) = P(x1|c) x P(x2|c) x ….. x P(xn|c) x P(c)

P(c|X) : постериорна вероватноћа
P(x|c) : вероватноћа
P(c):претходна вероватноћа класе
P(x) : претходна вероватноћа предиктора
Support Vector Machine (SVM)
 Support Vector Machine је алгоритам за учење под надзором који се користи за класификацију
као и за регресију проблема. SVM алгоритам има за циљ да створи најбољу линију или границу
одлуке која може да одвоји димензионални простор у класе тако да можемо да ставимо нове
тачке података у исправну категорију.
 Сваки објекат у SVM је уцртан у односу на н-димензионални простор где је n број
разликовних карактеристика које су извучено за потребе класификације.Концепт хиперравни
се користи за раздвајање скупа података у две класе са вектором подршке. Подршка вектор
је податак учесника који се даље класификује у посебну класу. SVM ради на проналажењу
најближније хиперравни која дели потпорне векторе у њихову одговарајућу класу. Хиперраван
је ограничена као граница вектора подршке.
K-NEAREST NEIGHBOR (KNN)
 Класификатор К-најближег суседа (КНН) је ефикасна техника за класификацију и

препознавање. Подаци о обуци се користе за поређење, а не за категоризацију.
 Понекад се појам лењи ученик повезује и саовај класификатор. За класификацију, KNN

проналази К ближих докумената, користи њихов профил да пронађе нову тежину документа
који се посматра.
МЕТОДОЛОГИЈА
 Овде је пројекат заснован на откривању нежељене е-поште на основу машинског учења које
користимо различите машинеалгоритам учења за откривање нежељене е-поште.
 На основу екстракције обележја користимо различите студије и проналазимокоји метод је
погоднији за издвајање обележја и проналажење тачнијег резултата у поређењу са другим
методама.
 За откривање нежељене е-поште, она пролази кроз 3 фазе:

1.Чишћење података
2. Откривање нежељене е-поште
а. Наивни Бајес
б. Support Vector Machine
в.K-nearest Neighbor
3. Издвајање својставаа
а). Спам емаил
б. Хам емаил
4. Поређење
МОДЕЛИРАЊЕ И АНАЛИЗА
 Класификација е-поште може да се уради коришћењем и надзираних алгоритама

класификације и ненадзиране класификације алгоритми.
 Надзирана класификација користи податке о обуци заједно са људском интервенцијом, док
уненадзирана класификација људска интервенција није потребна јер је потпуно компјутерски
управљана. Надгледана класификација има две фазе и то фазу обуке и фазу класификације.
У обуци фаза, класификатору се даје информација о класама. Ово би могла бити фаза у којој
траје учење модела. Фаза класификације користи знање добијено из података о обуци и
класификује мејлове уједна од унапред дефинисаних класа.
Spam /Ham Classification
 Преузети скуп података треба очистити пре него што га обучите.
 Након чишћења подаци се векторизују и деле надва скупа, скуп података за обуку и скуп
података за тестирање.
 Скуп података је обучен коришћењем три различита машинског учења алгоритми, наиме,
Наивни Бајес, машина за подршку и к-најближи алгоритми.
 Након успешне обуке, модел се тестира коришћењем скупа података за тестирање. Тачност
сваког модела узима се за поређење који алгоритам је тачнији у класификацији нежељене е-
поште. Након успешног завршетка сва три класификације, јасно је да је наивни Бајесов
класификатор најтачнији са тачношћу од 98,67% следи SVM и најмање тачан алгоритам је
КNN.
Matplotlib
 Matplotlib је један од најпопуларнијих Python пакета који се користе за визуелизацију

података. Tо је платформе за креирање 2Д дијаграма од података у низовима. Написана је у
Python и користи NumPy, проширење нумеричке математике за Python.
 Једна од најбољих предности визуелизације је то што нам омогућава визуелно приступ
великим количинама знања у лако сварљивим визуелним приказима.
 Matplotlib се састоји од неколико дијаграма као што су линија,трака, расути деаграм,
хистограм итд.
 На основу тачности и f1 резултата утврђено је да је Naivni Baes тачнији од осталих
класификатора.
 Има тачност од 98,69%. Такође сам нацртао матрицу конфузије за сваки алгоритам са и
безнормализација
Закључак
 Из овога можемо закључити да је најефикаснији метод за

класификацију алгоритма за нежељену пошту умашинско учење је
наивно Бајес, јер упоређивањем алгоритма на основу његове
тачности и f1 резултата је виши, односно 98,86 и 97,68. SVM
алгоритам такође има сличну тачност као код Наивног Бајеса.
Будућа истраживања
 Стручњаци из ове области желе да достигну квалитетан класификатор који ће радити са
идеалном тачношћу.За сада не постоји ни један идеалан класификатор,али тежи се
постизању и креирању најбољег класификатора тачности.
Референце
[1] Syed Ishfaq Manzoor , Dr Jimmy Singla, “A Comparative Analysis of Machine Learning Techniques for
Spam Detection”, International Journal of Advanced Trends in Computer Science and Engineering,
8(3), May - June 2019, Volume 8, No.3, May - June 2019.
[2] Jaydip Nakarani , Ajay Vandra , Aayush Vaishnav , Ayush Trivedi , Atul Kumar, “Classification of E-mail
(Phishy or Ham)”, International Journal for Research in Applied Science & Engineering Technology
(IJRASET) , Volume 8 Issue VI June 2020
[3] Shivam Pandey , Ashish Taralekar , Ruchi Yadav , Shreyas Deshmukh , Prof. Shubhangi Suryavanshi, “E-
Mail Spam Detection using Machine Learning and Deep Learning” , International Journal for Research
in Applied Science & Engineering Technology (IJRASET), Volume 8 Issue VI June 2020
[4] Mehran Sahami, Susan Dumais ,David Heckerman and Eric Horvitz, “A Bayesian Approach to Filtering
Junk E-Mail”, AAAI Workshop on Learning for Text Categorization (1998).
[5] Dengyong Zhou, Christopher J.C. Burges and Tao Tao, “Transductive Link Spam Detection”, Proceedings
of the 3rd international workshop on Adversarial information retrieval on the web, pp. 21–28 (2007).
[6] Rakesh Nayak, Salim Amirali Jiwani and B.Rajitha, “Spam email detection using machine learning
algorithm”, Materialstoday Proceedings April 2021.
[7] U.Murugavel and R.Santhi, “Detection of spam and threads identification in E-mail spam corpus using
content based text analytics method”, Materialstoday Proceedings, Volume 33, Part 7, 2020, Pages
3319-3323
[8] Shrawan Kumar Trivedi, “A study of machine learning classifiers for spam detection”, 4th International
Symposium on Computational and Business Intelligence (ISCBI), September 201
Хвала на пажњи!

!!!ИСПИТ

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

!!!ИСПИТ

Uploaded by

Copyright:

Available Formats

Босна и Херцеговина

Spam email detection using machine learning algorith

 Тежи се да се постигне модел чија је тачност 100%,тј.мера f1 да буде 100. Циљ

 Филтери за нежељену пошту спречавају нежељене е-поруке да уђу у пријемно сандуче

 Машинско учење је проучавање компјутерских алгоритама који се могу аутоматски

 Наивни Баес алгоритам

P(c|X) = P(x1|c) x P(x2|c) x ….. x P(xn|c) x P(c)

 Класификатор К-најближег суседа (КНН) је ефикасна техника за класификацију и

 Понекад се појам лењи ученик повезује и саовај класификатор. За класификацију, KNN

 За откривање нежељене е-поште, она пролази кроз 3 фазе:

 Класификација е-поште може да се уради коришћењем и надзираних алгоритама

 Matplotlib је један од најпопуларнијих Python пакета који се користе за визуелизацију

 Из овога можемо закључити да је најефикаснији метод за

You might also like