You are on page 1of 25

PERBANDINGAN KINERJA ALGORITMA ID3 DAN C4.

5 DALAM PENGKLASIFIKASIAN SPAM MAIL


OLEH : SOFI DEFIYANTI 11104550 PEMBIMBING : Dra. D. L. Crispina Pardede, DEA

LATAR BELAKANG


Kerugian yang diakibatkan oleh spam sangat besar. Antara lain waktu yang diperlukan untuk menghapus spam, menghabiskan bandwith jaringan, dan pemborosan biaya. Maka diperlukan suatu pengklasifikasian spam mail salah satunya dengan teknik data mining yang dapat memisahkan antara spam-mail dengan non spam mail Pada penelitian yang sebelumnya algoritma ID3 dan C4.5 mempunyai kinerja yang baik dalam mengidentifikasi apakah suatu email adalah spam atau non-spam. Tetapi belum diketahui algoritma mana diantara keduanya yang lebih unggul kinerjanya

RUMUSAN MASALAH


Maka muncul pertanyaan Apakah algoritma C4.5 lebih baik dibandingkan dengan algoritma ID3?

BATASAN MASALAH


Mengukur dan membandingkan performansi dari kedua algoritma yaitu C4.5 dan ID3 berdasarkan ukuran jumlah data (data size) dan jumlah atribut (feature size). Pengukuran kinerja yang dilakukan adalah denangan menghitung precision, recall, dan accuracy

TUJUAN PENELITIAN


Membandingkan kinerja yang dihasilkan oleh algoritma C4.5 dan ID3 dalam klasifikasi spam-mail

LANGKAH PENELITIAN
Mulai
Mempersiapkan data Transformasi data Data disimpan dalam format *.csv dan kemudian dikonversikan ke *.arff

Selesai

Gunakan hasil output untuk perbandingan kedua algoritma

Gunakan WEKA untuk dianalsis dengan menggunakan Modul classify pada subfolder J48 dan ID3

ALGORITMA ID3


Algoritma ID3 atau Iterative Dichotomiser 3 (ID3) adalah salah satu pengembangan dari decision tree Cara kerja Algoritma ID3 adalah Pemilihan atribut dengan menggunakan Information Gain Pilih atribut dimana nilai information gainnya terbesar Buat simpul yang berisi atribut tersebut Proses perhitungan information gain akan terus dilaksanakan sampai semua data telah termasuk dalam kelas yang sama. Atribut yang telah dipilih tidak diikutkan lagi dalam perhitungan nilai information gain.

    

ALGORITMA C4.5


Algoritma C4.5 adalah pengembangan dari algoritma ID3 karena dari pengembangan inilah algoritma C4.5 mempunyai prinsip dasar kerja yang sama dengan algoritma ID3. Cara kerja algoritma C4.5 hampir sama dengan algoritma ID3 tapi perbedaannya terletak pada pemilihan atributnya yaitu dengan menggunakan gain ratio. Dengan perbedaan dalam pemilihan atribut ini, C4.5 memiliki keunggulan di bandingkan ID3 yaitu dapat mengolah data numerik (kontinyu) dan kategori (diskret), dapat menangani nilai atribut yang hilang, menghasilkan aturan-aturan yang mudah diinterpretasikan dan cepat.

DATA YANG DIGUNAKAN




Database spam-mail ini diperoleh dari UCI Machine Learning Repository http://www.ics.uci.edu/~mlearn/MLRepository.html Database terdiri dari total 4601 e-mail, dimana 1813 (39.4%) adalah spam dan 2788 (60.6%) adalah non-spam Setiap e-mail telah di analisa dan terdapat (57 atribut input dan 1 atribut target atau kelas) yang menjelaskan tentang spam-email.

Rincian Atribut


48 atribut bertipe continuous yang beranggotakan kata. Kata yang dimaksud antara lain :

6 atribut bertipe continuous yang beranggotakan karakter. Karakter yang dimaksud adalah

  

1 atribut bertipe continous real yang berisi nilai rata-rata deret hurup kapital yang tidak bisa dipecahkan. 1 atribut bertipe continous real yang berisi nilai terpanjang deret hurup kapital yang tidak bisa dipecahkan 1 atribut bertipe continous real yang berisi nilai jumlah deret hurup kapital yang tidak bisa dipecahkan

TRANSFORMASI DATA


Tipe data yang didapat dari dataset adalah bertipe numerik sedangkan untuk pengukuran ini memerlukan tipe data kategori. Teknik yang digunakan untuk merubah data numerik menjadi data kategori adalah teknik distribusi frekuensi. Maka dicoba mengelompokkan data tipe numerik ini ke dalam empat grup yaitu 1 , 2, 3, dan 4. Dimana 1 untuk rendah dan 4 untuk tinggi maka nilai 2 dan 3 berada diantara keduanya.

Numerik
word_fre q_make 0 0.21 0.06 0 0 0 0 0 0.15 0.06 word_freq_ address 0.64 0.28 0 0 0 0 0 0 0 0.12 word_freq _all 0.64 0.5 0.71 0 0 0 0 0 0.46 0.77 word_freq _make 1 1 1 1 2 1 4 1 1 1 word_freq _3d. 0 0 0 0 0 0 0 0 0 0

Kategori
word_freq _our. 0.32 0.14 1.23 0.63 0.63 1.85 1.92 1.88 0.61 0.19 word_freq _over. 0 0.28 0.19 0 0 0 0 0 0 0.32 word_freq _all 1 1 1 1 1 4 1 1 1 1 word_freq _remove. 0 0.21 0.19 0.31 0.31 0 0 0 0.3 0.38 word_freq _3d. 1 1 2 1 1 1 1 1 3 1 word_freq _our. 1 1 1 1 1 1 1 1 1 1 word_freq _internet. 0 0.07 0.12 0.63 0.63 1.85 0 1.88 0 0 word_freq _order. 0 0 0.64 0.31 0.31 0 0 0 0.92 0.06 word_freq _over. 1 1 1 1 1 2 3 1 1 1 word_freq _make 0 0.21 0.06 0 0 0 0 0 0.15 0.06 word_freq _remove. 1 1 1 1 1 1 3 1 1 1 word_freq _internet. 2 1 1 1 1 1 1 1 1 1 word_freq _order. 1 1 1 1 1 1 2 1 1 4 word_freq _make 4 1 1 1 1 1 1 2 1 1

word_freq _address 1 1 2 1 1 3 1 1 1 1

PENGUKURAN KINERJA BERDASARKAN JUMLAH DATA




Pengukuran dilakukan berdasarkan jumlah data yang akan dibagi menjadi delapan pengujian (Ratheesh Raghavan, 2006) yaitu 50%, 60%, 66.7%, 70%, 80%, 90%, 95% dan 97.5% dari jumlah data yang ada Maka terdiri dari 2301, 2761, 3069, 3221, 3680, 4141, 4371 dan 4486 data.

Confusion Matrix Untuk Jumlah Data


Confusion Matrix Algoritma ID3 Untuk Jumlah Data
Jumlah data Non-spam 2301 Spam Non-spam 2761 Spam Non-spam 3069 Spam Non-spam 3221 Spam Non-spam 3680 Spam Non-spam 4141 Spam Non-spam 4371 Spam Non-spam 4486 Spam diidentifikasi sebagai nonspam 1339 564 1605 681 1786 760 1876 801 2162 905 2428 1041 2550 1082 2618 1110 diidentifikasi sebagai spam 52 346 62 413 68 455 75 469 80 533 78 594 96 644 97 662 4486 4371 4141 3680 3221 3069 2761 2301

Confusion Matrix Algoritma C4.5 Untuk Jumlah Data


Jumlah data Non-spam Spam Non-spam Spam Non-spam Spam Non-spam Spam Non-spam Spam Non-spam Spam Non-spam Spam Non-spam Spam diidentifikasi sebagai nonspam 1345 603 1616 728 1794 808 1880 850 2154 938 2408 1061 2536 1108 2608 1139 diidentifikasi sebagai spam 46 307 51 366 60 407 71 420 88 500 98 574 110 618 107 633

PRECISION
. . . . . . . . . . I C . % % % % % % % % % % . . . . . . . . . . . . . . . . I C .

RECALL
. . . . . . . . I C . % % % % % % % % . . . . . . . . . . . . . . . . I C .

ACCURACY
73 50 73 00 72 50 72 00 71 50 71 00 3 3 C4 5

2301

2761

3069

3221

3680

4141

4371

4486

73 23 73 09 73 02 72 80 73 23 72 98 73 06 73 10

C4 5 71 79 71 78 71 71 71 41 72 12 72 01 72 14 72 23

PENGUKURAN KINERJA BERDASARKAN JUMLAH ATRIBUT




Pengukuran kinerja dengan jumlah atribut (feature size) dengan pemilihan atribut (feature selection) menggunakan x2 statistic (CHI). Pemilihan atribut diambil dari nilai chi terbesar ke chi terkecil dengan jumlah persentase 10% sampai 100% dari jumlah atribut yang ada (Feng Tan , 2007). Jumlah atribut yang diperoleh adalah 7, 12, 18, 24, 29, 35, 41, 47, 52, dan 58 atribut.

Confusion Matrix Untuk Jumlah Atribut


Confusion Matrix Algoritma ID3 Untuk Jumlah Atribut
Jumlah Atribut Non-spam 7 Spam Non-spam 12 Spam Non-spam 18 Spam Non-spam 24 Spam Non-spam 29 Spam Non-spam 35 Spam Non-spam 41 Spam Non-spam 47 Spam Non-spam 52 Spam Non-spam 58 Spam diidentifikasi sebagai non-spam 2703 1404 2702 1332 2702 1304 2689 1267 2689 1245 2686 1215 2698 1189 2695 1153 2699 1148 2700 1145 diidentifikasi sebagai spam 85 409 86 481 86 509 99 546 99 568 102 598 90 624 93 660 89 665 88 668 58 52 47 41 35 29 24 18 12 7

Confusion Matrix Algoritma C4.5 Untuk Jumlah Atribut


Jumlah Atribut Non-spam Spam Non-spam Spam Non-spam Spam Non-spam Spam Non-spam Spam Non-spam Spam Non-spam Spam Non-spam Spam Non-spam Spam Non-spam Spam diidentifikasi sebagai non-spam 2702 1404 2700 1335 2695 1309 2680 1272 2679 1251 2674 1221 2682 1194 2667 1159 2674 1157 2670 1157 diidentifikasi sebagai spam 86 409 88 478 93 504 108 541 109 562 114 592 106 619 121 654 114 656 118 656

PRECISION
. . . . . . . . I C . . . . . . . . . . . . . . . . . . . . . I C .

RECALL
. . . . . I C . . . . . . . . . . . . . . . . . . . . .
I C .

ACCURACY
74 00 72 00 70 00 68 00 66 00 3 3 C4 5

12

18

24

29

35

41

47

52

58

67 6 69 1 69 7 70 3 70 7 71 3 72 2 72 9 73 1 73 2

C4 5 67 6 69 0 69 5 70 0 70 4 70 9 71 7 72 1 72 3 72 2

KESIMPULAN


Dari pengukuran kinerja kedua algoritma berdasarkan jumlah data maka dapat disimpulkan algoritma ID3 memiliki kinerja yang lebih baik dibandingkan algoritma C4.5 Algoritma ID3 memiliki kinerja yang lebih unggul dari pada algoritma C4.5 berdasarkan jumlah atribut. Maka secara keseluruhan algoritma ID3 memiliki kinerja yang lebih baik dibandingkan algoritma C4.5

SARAN


Pengukuran kinerja sebuah algoritma data mining dapat dilakukan berdasarkan beberapa kriteria. Penelitian ini menggunakan satu kriteria yaitu berdasarkan keakuratan prediksi . Dengan demikian penelitiasn lain dengan menggunakan kriteria lain dapat dilakukan.

.:TERIMA KASIH:.

You might also like