You are on page 1of 7

Jurnal Ilmiah Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri

DETEKSI SPAM EMAIL DENGAN NAÏVE BAYES DAN PARTICAL


SWARM OPTIMIZATION
Muhamad Abdul Ghani1), AgusSubekti2)
1) Program
Pascasarjana Magister Ilmu Komputer
Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri (STMIK Nusa Mandiri)
Jl. Salemba Raya No. 5 Jakarta Pusat
http://www.nusamandiri.ac.id
ganiabdul691@gmail.com

2) PusatPenelitianInformatika -LIPI
Jl. Cisitu no 21/154D, Bandung
Agus.subekti@lipi.go.id

Abstract
Internet-based technology has become a primary need. Based on the results of a survey by the
Central Bureau of Statistics in cooperation with APJII, email sending and receiving activities have
outperformed the position of social media by reaching 95.75%. The use of e-mail that is very intense
can have positive and negative impacts. Because other than as a means of communication, in fact not
everyone uses email well and there is even a lot of email abuse that has the potential to harm others.
This misused email is commonly known as spam or junkmail (junk e-mail) which contains e-mail, fraud
and even viruses. In this study, processing data from gmail e-mail with mining text then testing with
several data mining classification methods including the Naïve Bayes Algorithm, SVM, Random Forest
and combined with Partical Swarm Optimization in predicting spam e-mail with the aim that the
selected algorithm is the most accurate. From the results of testing using measuring the performance
of the four algorithms using Confusion Matrix and ROC, it is known that the Naïve Bayes algorithm
with Partical Swarm Optimization (PSO) has the highest accuracy value, namely 81.40% and
AUC0.78.

Keyword: Spam email, Naive Bayes Algorithm, Support Vector Machine, Random forest, Teks Mining.

1. PENDAHULUAN semuaaktifitas di internet


Saatiniteknologiberbasis internet dapatdenganmudahditemukan spam.
sudahmenjadikebutuhan primer. Keberadaan dan sifat spam yang
MenurutlaporanterbaruAsosiasiPenyelenggaraJ dilakukanterusmenerus dan menyampaikanhal
asa Internet Indonesia (APJII), lebihdari 50% yangkurangpentingsangatmenggangu dan
atausekitar 143 juta orang penduduk Indonesia dapatdibilangcukupmeresahkanpengguna
telahterhubungjaringan internet sepanjang 2017 internet. (Imran, 2014)Misalnya,
(Bohang, 2018). Dalampenggunaan internet di ketikapenggunamenerimajumlah spam email
Indonesia, suratelektronik (email) yang cukupbesar, banyakpengguna email
mengalahkanposisi media sosial (social media), harusmenghabiskanwaktumerekauntukmengha
haltersebutberdasarkanhasilsurvei Badan Pusat puspesan yang tidakdiinginkantersebut.
Statistikbekerjasamadengan APJII, denganhasil Bahkankarenaitu, bisajadipesan yang
survey kegiatanpengiriman dan penerimaane- pentingterhapus.
mail mencapai 95,75%, Saatinibelumdiketahuinmetodeklasifikasi yang
sedangkanakseslayanan media sosialmencapai akuratdalammengklasifikasikan email, apakah
61,23%. (Sinaga, 2014). Penggunaan email email yang diterimaberupa spam atau email
yang sangatintensinimenimbulkandampakpositif yang benar.
dan negatif. Karena Sehinggaperludiketahuibagaimanaakurasidarim
selainsebagaialatkomunikasi, pada etodeklasifikasi data mining yaituNaïve Bayes,
kenyataannyatidaksemua orang SVM, Random Forest dan perticalswrm
menggunakanemail denganbaik dan optimization.
bahkanadabanyaksekalipenyalahgunaan Maksuddaripenelitianiniadalahuntukmelakukan
emailsehinggaberpotensiuntukmerugikan orang analisis dan
lain. Email yang mendapatkannilaiakuratdarikomparasialgoritma
disalahgunakaninibiasadikenalsebagai spam Naïve Bayes, SVM, Random Forestdan
ataujunkmail(email sampah) yang mana email PSOdalamklasifiaksispam email.
tersebutberisikaniklan, penipuan dan bahkan
virus. (Pratiwi & Ulama, 2016). Hampir di 2. LANDASAN TEORI

1
Jurnal Ilmiah Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri

A. EMAIL SPAM Algoritme Random Forest (RF)


Email adalahsingkatandarielectronic merupakanpengembangandarimetode
mail yang merupakansuratataupesandengan Classification and Regression Tree (CART)
format digital. (Zakaria) Email denganmenerapkanmetode bootstrap
banyakdapatdiaksesdenganmudahdenganberba aggregating (bagging) dan random feature
gai gadget selection (Breiman 2001). Algoritme RF
sepertikomputermaupunponselsmartphone.Ema merupakanalgoritme yang
il spam atau juga dikenaldengan email cocokdigunakanuntukklasifikasi data yang
sampahadalahpesanmassal yang tidakdiminta, besar dan pada algoritme RF tidakterdapat
yang dikirimmelalui email. Penggunaan spam pruning ataupemangkasanvariabelseperti pada
telahmemakin popular sejakawal 1990-an dan algoritmedecision tree. Metode RF
merupakanmasalah yang dihadapi oleh menggabungkanbanyakpohon (tree)
sebagianbesarpengguna email. Spammer tidakseperti single tree yang
biasanyamengirim email kejutaan email, hanyaterdiridarisatupohonuntukmembuatklasifik
denganharapanbahwasejumlahkecilakanmeresp asi dan prediction class. Pada RF pembentukan
onatuberinteraksidenganpesantersebut. (Rouse, tree dilakukandengancaramelakukan training
2017).Seorang marketer asal Amerika Serikat, sampel data. Sampling with replacement
Gary Thuerkadalah orang pertama yang adalahcara yang
memberondongpesantakdiinginkan, ke 400 digunakanuntukmengambilsampel data.
penerima pada tahun 1978. Thuerk, yang kala Pemilihanvariabel yang digunakanuntuk split
itumenjabatsebagaimanajerpemasaranperusaha diambilsecaraacak.
an Digital Equipment Corporation, Klasifikasidijalankansetelahsemua tree
mengirimkanpromosiprodukkomputerperusahaa terbentuk. Penentuanklasifikasi pada RF
nnya. Alhasil, pesanpromosi yang inidiambilberdasarkan vote darimasing-masing
dikirimThuerkmenuaiamarahdari para tree dan vote terbanyak yang
penerimanyaPesan email yang menjadipemenang. Arsitekturumumdari RF
dikirimThuerkitulah yang dapatdilihat pada Gambar dibawahini.
dinobatkansebagaicontoh email spam pertama
di dunia. (Periwi, 2018).

B. Data mining

Dataminingadalahprosesmencaripolaatauinf
ormasimenarikdalamdata
terpilihdenganmenggunakanteknikataumetodete
rtentu. Interpretation/Evaluation
Polainformasiyangdihasilkandariprosesdatamini
ng
diterjemahkanmenjadibentukyanglebihmudahdi Gambar 1.ArsitekturumumRandom Forest
mengertiolehpihakyang berkepentingan. Data (Verikaset al.2011)
mining merupakansebuahproses,
sehinggadalammelakukan proses D. Naïve Bayes
tersebutharussesuaidenganproseduryaituyang Naïve Bayes
disebutdenganCRISP-DM(Cross-Industry merupakansebuahpengklasifikaianprobablistikse
Standard Process forData derhana yang
Mining)yaitusebagaikeseluruhanproses, menghitungsekumpulanprobabilitasdenganmenj
preprocessingdata, pembentukanmodel,model umlahkanfrekuensi dan kombinasinilaidari
evaluasidan dataset yang diberikan.
akhirnyapenyebaranmodel(Larose,2005). Algoritmamenggunakanteorema Bayes dan
Enamfasetahapan Crispmenurut (Larose, 2005): mengamsusikansemuaatributindependenatautid
aksalingketergantungan yang diberikan oleh
1. Fasepemahamanbisnis nilai pada variabelkelas. Definisi lain yang
2. Fasepemahaman data dikemukakan oleh ilmuanInggris Thomas Bayes,
3. Fasepengolahan data yaitumemprediksipeluang di masa
4. Fasepemodelam depanberdasarkanpengalaman di masa
5. Faseevaluasi sebelumnya. (Bustami, 2013). Naïve Bayes
6. Fasepenyebaran seringbekerjajauhlebihbaikdalamkebanyakansitu
asi dunia nyata yang kompleksdari pada yang
C. Algoritma Random Forest diharapkan (Pattekari,2012)

2
Jurnal Ilmiah Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri

Persamaandariteorema Naïve Bayes PSO adalah metode berbasis populasi


adalah: seperti GA, tetapi konsep dasarnya adalah
P(H|X)=P(x|H).P(H) kooperatif, bukan kompetitif . Dalam teknik PSO
(X) terdapat beberapa cara untuk melakukan
Dimana: pengoptimasian diantaranya meningkatkan
X : Data dengan class yang bobot atribut (attribute weight) terhadap semua
belumdiketahui atribut atau variabel yang dipakai, menseleksi
H : Hipotesis data yang merupakansuatu atribut (attribute selection) dan feature selection
class spesifik .
P(H|X) : Probabilitashipotesisis H Formulasi matematika yang
berdasarkankondisi X (posteriori menggambarkan posisi dan kecepatan partikel
probabilitas) suatu ruang dimensi tertentu sebagai berikut :
P(H) : Probabilitashipotesisis H (prior 𝑋𝑖 (𝑡) = 𝑥𝑖1 (𝑡), 𝑥𝑖2 (𝑡), … , 𝑥𝑖𝑛 (𝑡)
probabilitas)) 𝑉𝑖(𝑡) = 𝑣𝑖1 (𝑡), 𝑣𝑖2 (𝑡), … , 𝑣𝑖𝑛 (𝑡)
P(X\H) : Probabilitas X berdasarkankondisi
pada hipotesis H Dimana,
P(X) : Probabilitas X X = posisi partikel, V= kecepatan partikel, I=
indeks partikel, T= iterasi dari t, N = ukuran
E. AlgoritmaSupport Vector Machine dimensi ruang.
SVM
adalahmetoderegresiataupengklasifikasian data 𝑉𝑖 (𝑡) = 𝑣𝑖1 (𝑡 − 1) + 𝑐1 𝑟1 (𝑋𝑖𝐿 − 𝑋𝑖 (𝑡 − 1)
berdasarkan data-data sebelumnya dan + 𝑐2 𝑟2 (𝑋𝑖𝐺 − 𝑋𝑖 (𝑡 − 1))
permodelannya di supervisiterlebihdahulu. SVM 𝑋𝑖 (𝑡) = 𝑣𝑖 (𝑡) + 𝑋𝑖 (𝑡 − 1)
termasukkedalamjenisklasifikator yang biner,
linier dan non probabilistik. SVM menggunakan Dimana :
decision boundary (bataskeputusan) yang 𝑉𝑖 (𝑡)= Kecepatan partikel ke-i pada iterasi ke-i
akanmenentukanklasifikasidari data-data 𝑋𝑖 (𝑡) = Posisi partikel saat ini pada partikel ke –i
pelatihansehinggadapatdibentuksebuah model
pada iterasi ke-i
linier atau hyperplane yang paling optimal
t = Iterasi
untukmengklasifikasikan data datatersebut.
𝑋𝑖𝐿 = local best dari particle ke-i
Secaramatematika, konsepdasar SVM yaitu:
𝑋 𝐺 = global best dari seluruh kawanan
(Widiastuti)
𝑐1 = learning factor
𝑐2 = learning factor
𝑟1 = bilangan random yang bernilai antara 0 s/d
1
𝑟2 = bilangan random yang bernilai antara 0 s/d
1
Dimana (xi.w+b)≥1 untukkelas 1, dan
(xi.w+b) ≤ -1 untuk 2, xiadalah data set, adalah
G. Validasi (K-Fold Cross Validation)
output dari data xi, dan w,badalah parameter
Validasi digunakan untuk memperoleh
yang dicarinilainya. Formulasioptimasi SVM
prediksi menggunakan model yang ada dan
untukkausklasifikasiduakelasdibedakanmenjadik
kemudian membandingkan hasil tersebut
lassifikasi linier dan non-linier.
dengan hasil yang sudah diketahui, ini mewakili
langkah paling penting dalam proses
F. Particle Swarm Optimization (PSO)
membangun sebuah model. Menurut Han,
Dalam bukunya yang berjudul Jaringan
Kamber & Pei (2012), Cross Validation adalah
Saraf Tiruan dan Pemrograman menggunakan
teknik validasi dengan membagi data secara
Matlab, Jong Jek Seng (2009) menyebutkan
acak kedalam k bagian dan masing masing
bahwa Particle Swarm Optimization (PSO)
bagian akan dilakukan proses klasifikasi .
diperkenalkan oleh Dr. Eberhart dan Dr.
10 fold cross validation adalah salah satu
Kennedy pada tahun 1995, merupakan
K- fold cross validation yang direkomendasikan
algoritma optimasi yang meniru proses yang
untuk pemilihan model terbaik karena
terjadi dalam kehidupan populasi burung (flock
cenderung memberikan estimasi akurasi yang
of bird) dan ikan (school of fish) dalam bertahan
kurang bias dibandingkan dengan fold cross
hidup. Sejak diperkenalkan pertama kali,
validation biasa, leave-one-out CV dan
algoritma PSO berkembang cukup pesat, baik
bootstrap .
dari sisi aplikasi maupun dari sisi
pengembangan metode yang digunakan pada
H. Confusion Matrix (Accuracy)
algoritma tersebut .

3
Jurnal Ilmiah Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri

Confusion Matrix [ adalah metode grafik ROC, itu menggunakan teknik AUC (Area
evaluasi model klasifikasi berdasarkan Under Curve), teknik ini dapat dibagi menjadi
perhitungan objek testing, dimana data hasil beberapa kelompok [27] yaitu:
prediksi ada diantara dua kelas (mislabeling) 1) 0.90-1.00 = Excellent Classification
yaitu menghasilkan kelas positif dan kelas 2) 0.80-0.90 = Good Classification
negatif. Selain itu, Confusion Matrix merupakan 3) 0.70-0.80 = Fair Classification
alat yang sangat berguna untuk menganalisa 4) 0.60-0.70 = Poor Classification
seberapa bias mengenali tuple dari class yang 5) 0.50-0.60 = Failure
berbeda. Metode ini menggunakan tabel matriks
yang dinyatakan kedalam kelas positif dan 3. METODOLOGI PENELITIAN
negatif :
Data yang digunakan pada penelitian ini
menggunakan data premier. Data penelitian
Tabel 1. Model Confusion Matrix diambil darihasil pemeriksaan datadari email,
Assigned class diperoleh sebanyak 287 data dari 86 spam dan
Classs

201 non spam, setelah dilakukan proses


Actual

Positive Negative
cleaning maka dataset berjumlah 281 data,
Positive TP FN
penentuan label kriteria dari 281 data maka
Negative FP TN
spam sebanyak 86 dan 195 non spam, maka
data yang digunakan 86 spam dan 86 non spam
True positives adalah jumlah record
Dalam penelitian ini digunakan model
positif yang diklasifikasikan sebagai positif, Cross Industry Standard Process for Data
false positives adalah jumlah record negatif
Mining(CRISP-DM) yang terdiri dari enam
yang diklasifikasikan sebagai positif, false tahap, yaitu bussines understanding, data
negatives adalah jumlah record positif yang understanding, data preparation, modelling,
diklasifikasikan sebagai negatif, true negatives evaluation, dan deployment.
adalah jumlah record negatif yang
diklasifikasikan sebagai negative. A. Tahap Bussines Understanding
Pada tahap evaluasi menggunakan Padatahapanbusinessunderstanding,dilaku
confusion matrix yang dilakukan menggunakan
kanpemahamanterhadapobjek penelitian.
tools RapidMiner akan diperoleh nilai accuracy,
Pemahaman mengenai objek penelitian
sensitivity, specificity, PPV dan NPV.
dilakukan dengan menggali informasi melalui
Akurasi dapat dihitung menggunakan rumus:
beberapa akun gmail dan melihat folder spam
𝑇𝑃+𝑇𝑁 dan kotak masuk Periode Jan- Sep 2018.
Accuracy= Motivasi pada fase ini yaitusubject email yang
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁
berbahasa inggris di dalam folder spam dan
Dimana: kotak masuk. Pada tahap ini juga dilakukan
TP : Jumlah kasus positif yang diklasifikasikan pemahaman untuk mencari metode klasifikasi
sebagai positif yang terbaik agar dapat membantu pada saat
FP : Jumlah kasus negatif yang diklasifikasikan proses pengolahan data yang akan dilakukan
sebagai positif dengan cara membandingkan hasil dari
TN : Jumlah kasus negatif yang diklasifikasikan algoritma yang digunakan dan untuk
sebagai negatif meningkatkan performa dari metodeklasifikasi.
FN : Jumlah kasus positif yang diklasifikasikan
sebagai negatif B. Tahap Data Understanding
Pada tahap data understanding, dilakukan
I. ROC Curve proses pengambilan data mentah (subject
Secara teknik, kurva ROC juga disebut email) sesuai dengan atribut yang dibutuhkan.
grafik ROC, grafik ROC terdiri dari dua dimensi Data diperoleh dari 8 akun gmail. Data primer
grafik yaitu TP rate diletakan pada sumbu Y, yang diperoleh sebanyak 287 data dari 86
sedangkan FP rate diletakan pada sumbu X. spam dan 201 non spam, setelah dilakukan
Vercellis (2009) dalam Bukunya Bussines proses cleaning maka dataset berjumlah 281
Intelegence: Data Mining and Optimization for data, penentuan label kriteria dari 281 data
Decision Making menyebutkan bahwa Kurva maka spam sebanyak 86 dan 195 non spam,
Receiver Operasi Karakteristik (ROC) maka data yang digunakan 86 spam dan 86
digunakan untuk mengevaluasi akurasi non spam. Semua data tersebut dikelompokan
klasifikasi dan untuk membandingkan klasifikasi menjadi satu, baik itu spam atau non spam dan
yang berbeda model, sehingga semakin besar disimpan dalam bentuk ekstensi text
area yang berada di bawah kurva, semakin baik document(.txt).
pula hasil prediksi [24].Untuk mengukur nilai

4
Jurnal Ilmiah Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri

C. Tahap Data Preparation


Tahap data preparation merupakan tahap Gambar 4. Desainawal SVM+PSO,
dengan proses penyiapan data yang bertujuan NB+PSO,RF+PSO
untuk mendapatkan data yang bersih dan siap
untuk digunakan dalam penelitian. Dalam text E. Tahap Evaluation
mining tahapan awal yang akan dilakukan Pada tahapan ini, dilakukan pengujian
adalah tahap preprocessing. Berikut ini terhadap model yang dihasilkan untuk
merupakan tahap desain model preprocessing mendapatkan informasi model yang akurat.
yang digunakan peneliti dalam tahapan awal Evaluasi dan validasi dilakukan dengan
pengolahan data :
True Non True Spam
Spam
Pred. Non 67 30
Spam
Pred. Spam 19 56
menggunakan metode Confusion Matrix dan
Kurva ROC. Proses pengujian metode yang
diusulkan dilakukan dengan mengevaluasi
perbandingan hasil Accuracy dan AUC seluruh
Gambar 2. desain model preprocessing percobaan yang dilakukan antara
menggunakan algoritma svm,naïvebayes,
random forest dan PSO, dan memvalidasi
D. TahapModelling model prediksi yang dianggap paling optimal,
semakin tinggi nilai Accuracy semakin baik
Pada fase ini secara langsung
pula metode yang digunakan.
melibatkan teknik data mining yaitu
dengan cara melakukan pemilihan teknik
F. Tahap Deployment
data mining dan menetapkan algoritma
Pada tahap Deployment, model yang
yang akan digunakan. Tool yang
memiliki akurasi tinggi atau yang paling baik
digunakan pada fase pemodelan ini
akan diimplementasikan dalam pembuatan
adalah Rapidminer versi 9.0. Adapun hasil
program Grapic User Interface (GUI) agar
dalam pengujian model yang dilakukan
dapat mendiagnosis atau memprediksi spam
adalah mengklasifikasi spam dan non
dan non spam dengan menggunakan data
spam menggunakan algoritma Support
baru. Dengan menggunakan data baru,
Vector Machine, Naïve Bayes,Random
program tersebut kemudian diuji coba dan
Forest dan penambahan Particle Swarm
dievaluasi untuk kesempurnaan program.
Optimization.
4. HASILPENELITIAN
DANPEMBAHASAN
Pada
bagianinidijelaskanhasiltujuanpenelitianinimelak
ukananaslisis dan
komparasiuntukmemperolehhasil yang paling
akuratdarikomparasiNaïve Bayes, SVM,Random
Forestdan PSOuntukklasifikasi spam email.

A. Hasil Ekperimenmenggunakan SVM


Hasil yang
diperolehdenganmenggunakanalgoritma Naïve
Bayes adalahnilai accuracy 74,42% .seperti
Gambar 3. Desain awal SVM, NB, dan RF pada tabel 3 sebanyak 172 data diprediksi, data
spam yang sesuaiprediksiyaitu 69 data. Data
spam yang termasukkedalamprediksipositifyaitu
17 data, data non spam yang
termasukkedalamprediksi negative yaitu 27 data
dan data non spam yang sesuaiprediksi 59 data.

Tabel2. Confusion matrix algoritmasvm

5
Jurnal Ilmiah Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri

True Spam Truenon


B. Hasil Ekperimenmenggunakan naïve bayes
Spam
Hasil yang Pred. Spam 69 27
diperolehdenganmenggunakanalgoritma Naïve Pred.Non 17 59
Bayes adalahnilai accuracy 71,51% .seperti Spam
pada tabel 4 sebanyak 172 data diprediksi, data Tabel5. Confusion matrix algoritma SVM
spam yang sesuaiprediksiyaitu 67 data. Data +PSO
spam yang termasukkedalamprediksipositifyaitu
19 data, data non spam yang
termasukkedalamprediksi negative yaitu 30 data E. Hasil Ekperimenmenggunakan naïve
dan data non spam yang sesuaiprediksi 56 data. bayes +PSO

Tabel3. Confusion matrix algoritma naïve Hasil yang


bayes diperolehdenganmenggunakanalgoritma Naïve
C. Hasil Ekperimenmenggunakanrandom Bayes +PSO adalahnilai accuracy 81,40%
Forest .seperti pada tabel 7sebanyak 172 data
diprediksi, data spam yang sesuaiprediksiyaitu
Hasil yang 72 data. Data spam yang
diperolehdenganmenggunakanalgoritma termasukkedalamprediksipositifyaitu 14 data,
data non spam yang termasukkedalamprediksi
True Non True Spam negative yaitu 18 data dan data non spam yang
Spam sesuaiprediksi 68 data.
Pred. Non 72 18
Spam Tabel 6. Confusion matrix algoritma naïve
Pred. Spam 14 68 bayes+ PSO
random Forest adalahnilai accuracy 60,47%
.seperti pada tabel 5 sebanyak 172 data F. Hasil Ekperimenmenggunakan random
diprediksi, data spam yang sesuaiprediksiyaitu forest +PSO
66 data. Data spam yang
termasukkedalamprediksipositifyaitu 20 data, Hasil yang
diperolehdenganmenggunakanalgoritma
True Non True Spam random forest +PSO adalahnilai accuracy
Spam 70,93% . seperti pada tabel 8 sebanyak 172
Pred. Non 66 48 data diprediksi, data spam yang
Spam sesuaiprediksiyaitu 70 data. Data spam yang
Pred. Spam 20 38 termasukkedalamprediksipositifyaitu 16 data,
data non spam yang termasukkedalamprediksi data non spam yang termasukkedalamprediksi
negative yaitu 48 data dan data non spam yang negative yaitu 34 data dan data non spam yang
sesuaiprediksi 38 data. sesuaiprediksi 52 data.

Tabel4. Confusion matrix algoritma random Tabel7. Confusion matrix algoritma random
forest forest + PSO

D. Hasil Ekperimenmenggunakansvm+ PSO True Non True Spam


Spam
Hasil yang Pred. Non 70 34
diperolehdenganmenggunakanalgoritma Spam
SVM+PSO adalahnilai accuracy 77,91% .seperti Pred. Spam 16 52
pada tabel 6 sebanyak 172 data diprediksi, data
spam yang sesuaiprediksiyaitu 77 data. Data
spam yang termasukkedalamprediksipositifyaitu 5. KESIMPULAN DAN SARAN
9 data, data non spam yang
True Non True Spam A. Kesimpulan
Spam Dalam penelitian ini dilakukan
Pred. Non 77 29 pengklasifikasian teks mining dan pengujian
Spam model dengan membandingkan metode
Pred. Spam 9 57 algoritma Naïve Bayes, SVM, Random Forest
termasukkedalamprediksi negative yaitu 29 data dan penambahan Partical Swarm Optimization,
dan data non spam yang sesuaiprediksi 57 data. hasil dari evaluasi dan validasi, diketahui
bahwa Naïve Bayes dengan PSO yang

6
Jurnal Ilmiah Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri

memiliki akurasi yang paling tinggi diantara Spam Mail using Feature Selection
metode yang dikomparasikan sebesar 81.40 % Categorization, 80(October), 42–47.
dan AUC sebesar 78,7 %, Dapat disimpulkan
bahwa penggunaan metode Naïve Bayes Mongkareng, D., Setiawan, N. A., &
dengan PSO merupakan metode yang cukup Permanasari, A. E. (2017). Implementasi
baik dalam memprediksi spam email gmail. Data Mining dengan Seleksi Fitur untuk
Klasifikasi Serangan pada Intrusion
B. Saran Detection System ( IDS ), (gambar 2), 314–
Berdasarkan pengujian dan kesimpulan 321.
yang telah dilakukan maka ada beberapa saran
dalam peneltian ini diantarnya: Novelia, S., Pratiwi, D., Sutijo, B., & Ulama, S.
1. Menggunakan metode lain sepertiAdaBost (2016). Klasifikasi Email Spam dengan
Menggunakan Metode Support Vector
2. Melakukan pengembangan dengan feature Machine dan k- Nearest, 5(2), 344–349.
selection yang lain seperti genetic algorithm
dan metode feature selection lainnya untuk Parveen, P., & Halse, P. G. (2016). Spam Mail
menyeleksi atribut yang berpengaruhkuat. Detection using Classification,5(6),347–
349.
3. Penelitian ini dapat dikembangkan dengan https://doi.org/10.17148/IJARCCE.2016.567
penambahan jumlah data yang 4
diperbanyak
Radhakrishnan, A., & Vaidhehi, V. (2017). Email
DAFTAR PUSTAKA
Classification Using Machine Learning
Algorithms, 9(2), 335–
Bhowmick, A., & Hazarika, S. M. (2016).
340.https://doi.org/10.21817/ijet/2017/v9i1/1
Machine Learning for E-mail Spam
70902310
Filtering : Review , (November).
Rusland, N. F., Wahid, N., & Kasim, S. (2017).
Breiman, L. E. O. (2001). Random Forests, 5–
Analysis of Naïve Bayes Algorithm for Email
32.
Spam Filtering across Multiple Datasets
Dan, B., Untuk, C., Sms, K., & Sari, R.
Analysis of NaNaıve Bayes Algorithm for
(2017). Komparasi Algoritma Support
Email Spam Filtering across Multiple
Vector Machine , Naïve, 2(2), 7–13.
Datasets. https://doi.org/10.1088/1757-
899X/226/1/012091
Dang, V., & Croft, W. B. (n.d.). Feature
Selection for Document Ranking using Best Sharma, A. K. (2011). A Comparative Study of
First Search and Coordinate Ascent, 2–5. Classification Algorithms for Spam Email
Data Analysis, 3(5), 1890–1895.
Email Spam Filtering using Classifiers in Data
Mining. (2017), 7(11), 15474– 15478. Tree-j, A. D. (2017). Algoritma decision tree-j48,
k-nearest, dan zero-r pada kinerja
Gaikwad, B. U., & Halkarnikar, P. P. (2013). akademik, 12–18.
Spam E-mail Detection by Random Forests
Algorithm, 1–8.

Hayuningtyas, R. Y. (2017). Aplikasi Filtering of


Spam Email Menggunakan Naïve Bayes,
2(1), 53–60.

Kalaibar, S. M. (2014). Spam filtering by using


Genetic based Feature Selection,
3(12), 839–843.

Kumar, M. (2016). Effective Spam Filtering


using Random Forest, 3200–3205.
https://doi.org/10.15680/IJIRCCE.2016

Mishra, M. R., & Bhopal, M. P. (2013). Analysis


of Random Forest and Naïve Bayes for

You might also like