Professional Documents
Culture Documents
2) PusatPenelitianInformatika -LIPI
Jl. Cisitu no 21/154D, Bandung
Agus.subekti@lipi.go.id
Abstract
Internet-based technology has become a primary need. Based on the results of a survey by the
Central Bureau of Statistics in cooperation with APJII, email sending and receiving activities have
outperformed the position of social media by reaching 95.75%. The use of e-mail that is very intense
can have positive and negative impacts. Because other than as a means of communication, in fact not
everyone uses email well and there is even a lot of email abuse that has the potential to harm others.
This misused email is commonly known as spam or junkmail (junk e-mail) which contains e-mail, fraud
and even viruses. In this study, processing data from gmail e-mail with mining text then testing with
several data mining classification methods including the Naïve Bayes Algorithm, SVM, Random Forest
and combined with Partical Swarm Optimization in predicting spam e-mail with the aim that the
selected algorithm is the most accurate. From the results of testing using measuring the performance
of the four algorithms using Confusion Matrix and ROC, it is known that the Naïve Bayes algorithm
with Partical Swarm Optimization (PSO) has the highest accuracy value, namely 81.40% and
AUC0.78.
Keyword: Spam email, Naive Bayes Algorithm, Support Vector Machine, Random forest, Teks Mining.
1
Jurnal Ilmiah Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri
B. Data mining
Dataminingadalahprosesmencaripolaatauinf
ormasimenarikdalamdata
terpilihdenganmenggunakanteknikataumetodete
rtentu. Interpretation/Evaluation
Polainformasiyangdihasilkandariprosesdatamini
ng
diterjemahkanmenjadibentukyanglebihmudahdi Gambar 1.ArsitekturumumRandom Forest
mengertiolehpihakyang berkepentingan. Data (Verikaset al.2011)
mining merupakansebuahproses,
sehinggadalammelakukan proses D. Naïve Bayes
tersebutharussesuaidenganproseduryaituyang Naïve Bayes
disebutdenganCRISP-DM(Cross-Industry merupakansebuahpengklasifikaianprobablistikse
Standard Process forData derhana yang
Mining)yaitusebagaikeseluruhanproses, menghitungsekumpulanprobabilitasdenganmenj
preprocessingdata, pembentukanmodel,model umlahkanfrekuensi dan kombinasinilaidari
evaluasidan dataset yang diberikan.
akhirnyapenyebaranmodel(Larose,2005). Algoritmamenggunakanteorema Bayes dan
Enamfasetahapan Crispmenurut (Larose, 2005): mengamsusikansemuaatributindependenatautid
aksalingketergantungan yang diberikan oleh
1. Fasepemahamanbisnis nilai pada variabelkelas. Definisi lain yang
2. Fasepemahaman data dikemukakan oleh ilmuanInggris Thomas Bayes,
3. Fasepengolahan data yaitumemprediksipeluang di masa
4. Fasepemodelam depanberdasarkanpengalaman di masa
5. Faseevaluasi sebelumnya. (Bustami, 2013). Naïve Bayes
6. Fasepenyebaran seringbekerjajauhlebihbaikdalamkebanyakansitu
asi dunia nyata yang kompleksdari pada yang
C. Algoritma Random Forest diharapkan (Pattekari,2012)
2
Jurnal Ilmiah Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri
3
Jurnal Ilmiah Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri
Confusion Matrix [ adalah metode grafik ROC, itu menggunakan teknik AUC (Area
evaluasi model klasifikasi berdasarkan Under Curve), teknik ini dapat dibagi menjadi
perhitungan objek testing, dimana data hasil beberapa kelompok [27] yaitu:
prediksi ada diantara dua kelas (mislabeling) 1) 0.90-1.00 = Excellent Classification
yaitu menghasilkan kelas positif dan kelas 2) 0.80-0.90 = Good Classification
negatif. Selain itu, Confusion Matrix merupakan 3) 0.70-0.80 = Fair Classification
alat yang sangat berguna untuk menganalisa 4) 0.60-0.70 = Poor Classification
seberapa bias mengenali tuple dari class yang 5) 0.50-0.60 = Failure
berbeda. Metode ini menggunakan tabel matriks
yang dinyatakan kedalam kelas positif dan 3. METODOLOGI PENELITIAN
negatif :
Data yang digunakan pada penelitian ini
menggunakan data premier. Data penelitian
Tabel 1. Model Confusion Matrix diambil darihasil pemeriksaan datadari email,
Assigned class diperoleh sebanyak 287 data dari 86 spam dan
Classs
Positive Negative
cleaning maka dataset berjumlah 281 data,
Positive TP FN
penentuan label kriteria dari 281 data maka
Negative FP TN
spam sebanyak 86 dan 195 non spam, maka
data yang digunakan 86 spam dan 86 non spam
True positives adalah jumlah record
Dalam penelitian ini digunakan model
positif yang diklasifikasikan sebagai positif, Cross Industry Standard Process for Data
false positives adalah jumlah record negatif
Mining(CRISP-DM) yang terdiri dari enam
yang diklasifikasikan sebagai positif, false tahap, yaitu bussines understanding, data
negatives adalah jumlah record positif yang understanding, data preparation, modelling,
diklasifikasikan sebagai negatif, true negatives evaluation, dan deployment.
adalah jumlah record negatif yang
diklasifikasikan sebagai negative. A. Tahap Bussines Understanding
Pada tahap evaluasi menggunakan Padatahapanbusinessunderstanding,dilaku
confusion matrix yang dilakukan menggunakan
kanpemahamanterhadapobjek penelitian.
tools RapidMiner akan diperoleh nilai accuracy,
Pemahaman mengenai objek penelitian
sensitivity, specificity, PPV dan NPV.
dilakukan dengan menggali informasi melalui
Akurasi dapat dihitung menggunakan rumus:
beberapa akun gmail dan melihat folder spam
𝑇𝑃+𝑇𝑁 dan kotak masuk Periode Jan- Sep 2018.
Accuracy= Motivasi pada fase ini yaitusubject email yang
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁
berbahasa inggris di dalam folder spam dan
Dimana: kotak masuk. Pada tahap ini juga dilakukan
TP : Jumlah kasus positif yang diklasifikasikan pemahaman untuk mencari metode klasifikasi
sebagai positif yang terbaik agar dapat membantu pada saat
FP : Jumlah kasus negatif yang diklasifikasikan proses pengolahan data yang akan dilakukan
sebagai positif dengan cara membandingkan hasil dari
TN : Jumlah kasus negatif yang diklasifikasikan algoritma yang digunakan dan untuk
sebagai negatif meningkatkan performa dari metodeklasifikasi.
FN : Jumlah kasus positif yang diklasifikasikan
sebagai negatif B. Tahap Data Understanding
Pada tahap data understanding, dilakukan
I. ROC Curve proses pengambilan data mentah (subject
Secara teknik, kurva ROC juga disebut email) sesuai dengan atribut yang dibutuhkan.
grafik ROC, grafik ROC terdiri dari dua dimensi Data diperoleh dari 8 akun gmail. Data primer
grafik yaitu TP rate diletakan pada sumbu Y, yang diperoleh sebanyak 287 data dari 86
sedangkan FP rate diletakan pada sumbu X. spam dan 201 non spam, setelah dilakukan
Vercellis (2009) dalam Bukunya Bussines proses cleaning maka dataset berjumlah 281
Intelegence: Data Mining and Optimization for data, penentuan label kriteria dari 281 data
Decision Making menyebutkan bahwa Kurva maka spam sebanyak 86 dan 195 non spam,
Receiver Operasi Karakteristik (ROC) maka data yang digunakan 86 spam dan 86
digunakan untuk mengevaluasi akurasi non spam. Semua data tersebut dikelompokan
klasifikasi dan untuk membandingkan klasifikasi menjadi satu, baik itu spam atau non spam dan
yang berbeda model, sehingga semakin besar disimpan dalam bentuk ekstensi text
area yang berada di bawah kurva, semakin baik document(.txt).
pula hasil prediksi [24].Untuk mengukur nilai
4
Jurnal Ilmiah Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri
5
Jurnal Ilmiah Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri
Tabel4. Confusion matrix algoritma random Tabel7. Confusion matrix algoritma random
forest forest + PSO
6
Jurnal Ilmiah Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri
memiliki akurasi yang paling tinggi diantara Spam Mail using Feature Selection
metode yang dikomparasikan sebesar 81.40 % Categorization, 80(October), 42–47.
dan AUC sebesar 78,7 %, Dapat disimpulkan
bahwa penggunaan metode Naïve Bayes Mongkareng, D., Setiawan, N. A., &
dengan PSO merupakan metode yang cukup Permanasari, A. E. (2017). Implementasi
baik dalam memprediksi spam email gmail. Data Mining dengan Seleksi Fitur untuk
Klasifikasi Serangan pada Intrusion
B. Saran Detection System ( IDS ), (gambar 2), 314–
Berdasarkan pengujian dan kesimpulan 321.
yang telah dilakukan maka ada beberapa saran
dalam peneltian ini diantarnya: Novelia, S., Pratiwi, D., Sutijo, B., & Ulama, S.
1. Menggunakan metode lain sepertiAdaBost (2016). Klasifikasi Email Spam dengan
Menggunakan Metode Support Vector
2. Melakukan pengembangan dengan feature Machine dan k- Nearest, 5(2), 344–349.
selection yang lain seperti genetic algorithm
dan metode feature selection lainnya untuk Parveen, P., & Halse, P. G. (2016). Spam Mail
menyeleksi atribut yang berpengaruhkuat. Detection using Classification,5(6),347–
349.
3. Penelitian ini dapat dikembangkan dengan https://doi.org/10.17148/IJARCCE.2016.567
penambahan jumlah data yang 4
diperbanyak
Radhakrishnan, A., & Vaidhehi, V. (2017). Email
DAFTAR PUSTAKA
Classification Using Machine Learning
Algorithms, 9(2), 335–
Bhowmick, A., & Hazarika, S. M. (2016).
340.https://doi.org/10.21817/ijet/2017/v9i1/1
Machine Learning for E-mail Spam
70902310
Filtering : Review , (November).
Rusland, N. F., Wahid, N., & Kasim, S. (2017).
Breiman, L. E. O. (2001). Random Forests, 5–
Analysis of Naïve Bayes Algorithm for Email
32.
Spam Filtering across Multiple Datasets
Dan, B., Untuk, C., Sms, K., & Sari, R.
Analysis of NaNaıve Bayes Algorithm for
(2017). Komparasi Algoritma Support
Email Spam Filtering across Multiple
Vector Machine , Naïve, 2(2), 7–13.
Datasets. https://doi.org/10.1088/1757-
899X/226/1/012091
Dang, V., & Croft, W. B. (n.d.). Feature
Selection for Document Ranking using Best Sharma, A. K. (2011). A Comparative Study of
First Search and Coordinate Ascent, 2–5. Classification Algorithms for Spam Email
Data Analysis, 3(5), 1890–1895.
Email Spam Filtering using Classifiers in Data
Mining. (2017), 7(11), 15474– 15478. Tree-j, A. D. (2017). Algoritma decision tree-j48,
k-nearest, dan zero-r pada kinerja
Gaikwad, B. U., & Halkarnikar, P. P. (2013). akademik, 12–18.
Spam E-mail Detection by Random Forests
Algorithm, 1–8.