Professional Documents
Culture Documents
LATAR BELAKANG
Kerugian yang diakibatkan oleh spam sangat besar. Antara lain waktu yang diperlukan untuk menghapus spam, menghabiskan bandwith jaringan, dan pemborosan biaya. Maka diperlukan suatu pengklasifikasian spam mail salah satunya dengan teknik data mining yang dapat memisahkan antara spam-mail dengan non spam mail Pada penelitian yang sebelumnya algoritma ID3 dan C4.5 mempunyai kinerja yang baik dalam mengidentifikasi apakah suatu email adalah spam atau non-spam. Tetapi belum diketahui algoritma mana diantara keduanya yang lebih unggul kinerjanya
RUMUSAN MASALAH
Maka muncul pertanyaan Apakah algoritma C4.5 lebih baik dibandingkan dengan algoritma ID3?
BATASAN MASALAH
Mengukur dan membandingkan performansi dari kedua algoritma yaitu C4.5 dan ID3 berdasarkan ukuran jumlah data (data size) dan jumlah atribut (feature size). Pengukuran kinerja yang dilakukan adalah denangan menghitung precision, recall, dan accuracy
TUJUAN PENELITIAN
Membandingkan kinerja yang dihasilkan oleh algoritma C4.5 dan ID3 dalam klasifikasi spam-mail
LANGKAH PENELITIAN
Mulai
Mempersiapkan data Transformasi data Data disimpan dalam format *.csv dan kemudian dikonversikan ke *.arff
Selesai
Gunakan WEKA untuk dianalsis dengan menggunakan Modul classify pada subfolder J48 dan ID3
ALGORITMA ID3
Algoritma ID3 atau Iterative Dichotomiser 3 (ID3) adalah salah satu pengembangan dari decision tree Cara kerja Algoritma ID3 adalah Pemilihan atribut dengan menggunakan Information Gain Pilih atribut dimana nilai information gainnya terbesar Buat simpul yang berisi atribut tersebut Proses perhitungan information gain akan terus dilaksanakan sampai semua data telah termasuk dalam kelas yang sama. Atribut yang telah dipilih tidak diikutkan lagi dalam perhitungan nilai information gain.
ALGORITMA C4.5
Algoritma C4.5 adalah pengembangan dari algoritma ID3 karena dari pengembangan inilah algoritma C4.5 mempunyai prinsip dasar kerja yang sama dengan algoritma ID3. Cara kerja algoritma C4.5 hampir sama dengan algoritma ID3 tapi perbedaannya terletak pada pemilihan atributnya yaitu dengan menggunakan gain ratio. Dengan perbedaan dalam pemilihan atribut ini, C4.5 memiliki keunggulan di bandingkan ID3 yaitu dapat mengolah data numerik (kontinyu) dan kategori (diskret), dapat menangani nilai atribut yang hilang, menghasilkan aturan-aturan yang mudah diinterpretasikan dan cepat.
Database spam-mail ini diperoleh dari UCI Machine Learning Repository http://www.ics.uci.edu/~mlearn/MLRepository.html Database terdiri dari total 4601 e-mail, dimana 1813 (39.4%) adalah spam dan 2788 (60.6%) adalah non-spam Setiap e-mail telah di analisa dan terdapat (57 atribut input dan 1 atribut target atau kelas) yang menjelaskan tentang spam-email.
Rincian Atribut
48 atribut bertipe continuous yang beranggotakan kata. Kata yang dimaksud antara lain :
6 atribut bertipe continuous yang beranggotakan karakter. Karakter yang dimaksud adalah
1 atribut bertipe continous real yang berisi nilai rata-rata deret hurup kapital yang tidak bisa dipecahkan. 1 atribut bertipe continous real yang berisi nilai terpanjang deret hurup kapital yang tidak bisa dipecahkan 1 atribut bertipe continous real yang berisi nilai jumlah deret hurup kapital yang tidak bisa dipecahkan
TRANSFORMASI DATA
Tipe data yang didapat dari dataset adalah bertipe numerik sedangkan untuk pengukuran ini memerlukan tipe data kategori. Teknik yang digunakan untuk merubah data numerik menjadi data kategori adalah teknik distribusi frekuensi. Maka dicoba mengelompokkan data tipe numerik ini ke dalam empat grup yaitu 1 , 2, 3, dan 4. Dimana 1 untuk rendah dan 4 untuk tinggi maka nilai 2 dan 3 berada diantara keduanya.
Numerik
word_fre q_make 0 0.21 0.06 0 0 0 0 0 0.15 0.06 word_freq_ address 0.64 0.28 0 0 0 0 0 0 0 0.12 word_freq _all 0.64 0.5 0.71 0 0 0 0 0 0.46 0.77 word_freq _make 1 1 1 1 2 1 4 1 1 1 word_freq _3d. 0 0 0 0 0 0 0 0 0 0
Kategori
word_freq _our. 0.32 0.14 1.23 0.63 0.63 1.85 1.92 1.88 0.61 0.19 word_freq _over. 0 0.28 0.19 0 0 0 0 0 0 0.32 word_freq _all 1 1 1 1 1 4 1 1 1 1 word_freq _remove. 0 0.21 0.19 0.31 0.31 0 0 0 0.3 0.38 word_freq _3d. 1 1 2 1 1 1 1 1 3 1 word_freq _our. 1 1 1 1 1 1 1 1 1 1 word_freq _internet. 0 0.07 0.12 0.63 0.63 1.85 0 1.88 0 0 word_freq _order. 0 0 0.64 0.31 0.31 0 0 0 0.92 0.06 word_freq _over. 1 1 1 1 1 2 3 1 1 1 word_freq _make 0 0.21 0.06 0 0 0 0 0 0.15 0.06 word_freq _remove. 1 1 1 1 1 1 3 1 1 1 word_freq _internet. 2 1 1 1 1 1 1 1 1 1 word_freq _order. 1 1 1 1 1 1 2 1 1 4 word_freq _make 4 1 1 1 1 1 1 2 1 1
word_freq _address 1 1 2 1 1 3 1 1 1 1
Pengukuran dilakukan berdasarkan jumlah data yang akan dibagi menjadi delapan pengujian (Ratheesh Raghavan, 2006) yaitu 50%, 60%, 66.7%, 70%, 80%, 90%, 95% dan 97.5% dari jumlah data yang ada Maka terdiri dari 2301, 2761, 3069, 3221, 3680, 4141, 4371 dan 4486 data.
PRECISION
. . . . . . . . . . I C . % % % % % % % % % % . . . . . . . . . . . . . . . . I C .
RECALL
. . . . . . . . I C . % % % % % % % % . . . . . . . . . . . . . . . . I C .
ACCURACY
73 50 73 00 72 50 72 00 71 50 71 00 3 3 C4 5
2301
2761
3069
3221
3680
4141
4371
4486
73 23 73 09 73 02 72 80 73 23 72 98 73 06 73 10
C4 5 71 79 71 78 71 71 71 41 72 12 72 01 72 14 72 23
Pengukuran kinerja dengan jumlah atribut (feature size) dengan pemilihan atribut (feature selection) menggunakan x2 statistic (CHI). Pemilihan atribut diambil dari nilai chi terbesar ke chi terkecil dengan jumlah persentase 10% sampai 100% dari jumlah atribut yang ada (Feng Tan , 2007). Jumlah atribut yang diperoleh adalah 7, 12, 18, 24, 29, 35, 41, 47, 52, dan 58 atribut.
PRECISION
. . . . . . . . I C . . . . . . . . . . . . . . . . . . . . . I C .
RECALL
. . . . . I C . . . . . . . . . . . . . . . . . . . . .
I C .
ACCURACY
74 00 72 00 70 00 68 00 66 00 3 3 C4 5
12
18
24
29
35
41
47
52
58
67 6 69 1 69 7 70 3 70 7 71 3 72 2 72 9 73 1 73 2
C4 5 67 6 69 0 69 5 70 0 70 4 70 9 71 7 72 1 72 3 72 2
KESIMPULAN
Dari pengukuran kinerja kedua algoritma berdasarkan jumlah data maka dapat disimpulkan algoritma ID3 memiliki kinerja yang lebih baik dibandingkan algoritma C4.5 Algoritma ID3 memiliki kinerja yang lebih unggul dari pada algoritma C4.5 berdasarkan jumlah atribut. Maka secara keseluruhan algoritma ID3 memiliki kinerja yang lebih baik dibandingkan algoritma C4.5
SARAN
Pengukuran kinerja sebuah algoritma data mining dapat dilakukan berdasarkan beberapa kriteria. Penelitian ini menggunakan satu kriteria yaitu berdasarkan keakuratan prediksi . Dengan demikian penelitiasn lain dengan menggunakan kriteria lain dapat dilakukan.
.:TERIMA KASIH:.