You are on page 1of 17

BAB III

ANALISA DAN PEMBAHASAN

3.1. Data yang Digunakan


Database spam-mail ini diperoleh dari UCI Machine Learning Repository
http://www.ics.uci.edu/~mlearn/MLRepository.html. Database ini disumbangkan oleh
George Forman dari laboratorium Hewlett-Packard (HP). Database terdiri dari
koleksi e-mail dari bulan juni sampai juli 1999. database terdiri dari total 4601 email, dimana 1813 (39.4%) adalah spam dan 2788 (60.6%) adalah non-spam. Koleksi
spam-email berasal dari HP e-mail dan spam-email individu. Koleksi non-spam email
berasal dari e-mail kantor dan e-mail perseorangan.
Spam e-mail adalah unsolicited bulk e-mails atau e-mail yang dikirimkan
kepada ribuan penerima (recipient). Yang terdiri dari iklan produk dan jasa, cara
cepat mendapatkan uang, surat berantai, pornography dan lain-lain. Ketika spamemail diterima dalam ukuran sedikit, spam-email mengganggu tetapi tidak berbahaya.
Tetapi bila spam-email diterima dalam ukuran cukup banyak , sang penerima akan
dibanjiri dengan e-mail yang tidak diinginkan. Penerima akan membuang waktunya
untuk spam-email dan akan kesulitan dalam surat-menyurat.
Setiap e-mail telah di analisa dan terdapat 58 atribut (57 atribut input dan 1
atribut target atau kelas) yang menjelaskan tentang spam-email. Rincian dari atribut
tersebut adalah :

25

26

1. 48 atribut bertipe continuous [0, 100] yang beranggotakan kata. Kata yang
dimaksud antara lain :
Make

address

all

3d

Our

Over

Remove

Internet

Order

mail

Receive

Will

People

Report

Addresses

Free

Business

Email

You

Credit

Your

Font

000

Money

Hp

Hpl

George

650

Lab

Labs

telnet

857

Data

415

85

Technology

1999

Parts

Pm

Direct

Cs

Meeting

Original

Project

Re

Edu

Table

Conference

Dengan persentasi :

Jumlah Kata Yang Muncul Dalam E mail


x 100%
Total Keseluruha n Kata Dalam E mail

2. 6 atribut bertipe continuous [0, 100] yang beranggotakan karakter.


Karakter yang dimaksud adalah
";"

"("

"$"

"#".

"["

"!"

27

Dengan persentasi :

Jumlah Karakter Yang Muncul Dalam E mail


x 100%
Total Keseluruha n Karakter Dalam E mail

3. 1 atribut bertipe continous real [1,] yang berisi nilai rata-rata deret
hurup kapital yang tidak bisa dipecahkan.
4. 1 atribut bertipe continous real [1,] yang berisi nilai terpanjang deret
hurup kapital yang tidak bisa dipecahkan
5. 1 atribut bertipe continous real [1,] yang berisi nilai jumlah deret hurup
kapital yang tidak bisa dipecahkan

3.2. Transformasi data


Tipe data yang didapat dari dataset adalah bertipe numerik sedangkan untuk
pengujian ini memerlukan tipe data kategori. Teknik yang digunakan untuk merubah
data numerik menjadi data kategori adalah teknik distribusi frekuensi. Maka dicoba
mengelompokkan data tipe numerik ini ke dalam empat grup yaitu 1 , 2, 3, dan 4.
Dimana 1 untuk rendah dan 4 untuk tinggi maka nilai 2 dan 3 berada diantara
keduanya. Pengelompokan data pada masing-masing atribut bisa dilihat pada Tabel
3.1.

28

Tabel 3.1 Pengelompokan Atribut


Atribut
word_freq_make
word_freq_address
word_freq_all
word_freq_3d.
word_freq_our.
word_freq_over.
word_freq_remove.
word_freq_internet.
word_freq_order.
word_freq_mail
word_freq_receive.
word_freq_will
word_freq_people
word_freq_report.
word_freq_addresses.
word_freq_free
word_freq_business
word_freq_email
word_freq_you.
word_freq_credit
word_freq_your.
word_freq_font.
word_freq_000.
word_freq_money.
word_freq_hp.
word_freq_hpl.
word_freq_george.
word_freq_650.
word_freq_lab.
word_freq_labs.
word_freq_telnet.
word_freq_857.
word_freq_data.
word_freq_415.
word_freq_85.
word_freq_technology.
word_freq_1999.
word_freq_parts.
word_freq_pm.
word_freq_direct.

1
0 - 1.14
0 - 4.76
0 - 1.70
0 - 14.27
0 - 3.33
0 - 1.96
0 - 2.42
0 - 3.70
0 - 1.75
0 - 6.06
0 - 0.87
0 - 3.22
0 - 1.85
0 - 3.33
0 - 1.47
0 - 6.67
0 - 2.38
0 - 3.03
0 - 6.25
0 - 6.06
0 - 3.70
0 - 5.70
0 - 1.82
0 - 4.17
0 - 6.94
0 - 5.55
0 - 11.11
0 - 3.03
0 - 4.76
0 - 1.96
0 - 4.17
0 - 1.59
0 - 6.06
0 - 1.59
0 - 6.67
0 - 2.56
0 - 2.30
0 - 2.78
0 - 3.70
0 - 1.59

2
1.15 - 2.27
4.77 - 9.52
1.71 - 3.40
14.28 - 28.54
3.34 - 6.67
1.97 - 3.92
2.43 - 4.85
3.71 - 7.41
1.76 - 3.51
6.07 - 12.12
0.88 - 1.74
3.23 - 6.45
1.86 - 3.70
3.34 - 6.67
1.47 - 2.94
6.68 - 13.33
2.39 - 4.76
3.04 - 6.06
6.26 - 12.50
6.07 - 12.12
3.71 - 7.41
5.71 - 11.40
1.83 - 3.63
4.18 - 8.33
6.95 - 13.89
5.56 - 11.11
11.12 - 22.22
3.04 - 6.06
4.77 - 9.52
1.97 - 3.92
4.18 - 8.33
1.60 - 3.17
6.07 - 12.12
1.60 - 3.17
6.68 - 13.33
2.57 - 5.13
2.31 - 4.59
2.79 - 5.55
3.71 - 7.41
1.60 - 3.17

3
2.28 - 3.41
9.53 - 14.28
3.41 - 5.10
28.55 - 42.81
6.68 - 10.00
3.93 - 5.88
4.86 - 7.27
7.42 - 11.11
3.52 - 5.26
12.13- 18.18
1.75 - 2.61
6.46 - 9.67
3.71 - 5.55
6.68 - 10.00
2.94 - 4.41
13.34 - 20.00
4.77 - 7.14
6.07 - 9.09
12.51 - 18.75
12.13 - 18.18
7.42 11.11
11.41 - 17.10
3.64 - 5.45
8.34 - 12.50
13.90 - 20.83
11.12 - 16.66
22.23 - 33.33
6.07 - 9.09
9.53 - 14.28
3.93 - 5.88
8.34 - 12.50
3.18 - 4.76
12.13 - 18.18
3.18 - 4.76
13.34 - 20.00
5.14 - 7.69
4.60 - 6.89
5.56 - 8.33
7.42 - 11.11
3.18 - 4.76

4
3.42 - 4.54
14.29 - 19.04
5.11 - 6.80
42.82 - 57.08
10.01 - 13.33
5.89 - 7.84
7.28 - 9.69
11.12 - 14.81
5.27 - 7.01
18.19 - 24.24
2.62 - 3.48
9.68 - 12.89
5.56 - 7.40
10.01 - 13.33
4.41 - 5.88
20.01 - 26.67
7.15 - 9.52
9.10 - 12.12
18.76 - 25.00
18.19 - 24.24
11.12 - 14.81
17.11 - 22.80
5.46 - 7.27
12.51 - 16.67
20.84 - 27.77
16.67 - 22.21
33.34 - 44.44
9.10 - 12.12
14.29 - 19.04
5.89 - 7.84
12.51 - 16.67
4.77 - 6.35
18.19 - 24.24
4.77 - 6.35
20.01 - 26.67
7.70 - 10.25
6.90 - 9.19
8.34 - 11.11
11.12 -14.81
4.77 - 6.35

29

Tabel 3.1 (Lanjutan)


Atribut
word_freq_cs.
word_freq_meeting.
word_freq_original.
word_freq_project.
word_freq_re.
word_freq_edu.
word_freq_table.
word_freq_conference.
char_freq_;
char_freq_(
char_freq_[
char_freq_!
char_freq_$
char_freq_#

1
0 - 2.38
0 - 4.76
0 -1.19
0 - 6.67
0 - 7.14
0 - 7.35
0 - 0.72
0 - 3.33
0 - 1.46
0 - 3.25
0 - 1.36
0 - 10.83
0 - 2.00
0 - 6.61

capital_run_length_average

0 - 367.17

capital_run_length_longest

0 - 3329.33

capital_run_length_total

0 - 5280.00

2
2.39 - 4.76
4.77 - 9.52
1.20 - 2.38
6.68 - 13.33
7.15 - 14.28
7.36 - 14.70
0.73 - 1.45
3.34 - 6.67
1.47 - 2.92
3.26 - 6.50
1.37 - 2.72
10.84 - 21.65
2.01 - 4.00
6.62 - 13.22
367.18 734.33
3329.33 6658.67
5280.01 10560.00

3
4.77 -7.14
9.53 - 14.28
2.39 - 3.57
13.14 - 20.00
14.29 - 21.42
14.71 - 22.05
1.46 - 2.17
6.68 - 10.00
2.93 - 4.39
6.51 - 9.75
2.73 - 4.08
21.66 - 32.48
4.01 - 6.00
13.23 - 19.83
734.34 1101.50
6658.68 9988.00
10560.01 15840.00

4
7.15 - 9.52
14.29 -19.04
3.58 - 4.76
20.01 - 26.67
21.43 - 28.56
22.06 - 29.40
2.18 - 2.89
10.01 - 13.33
4.40 - 5.85
9.76 - 13.00
4.09 - 5.44
32.49 - 43.30
6.01 - 8.00
19.84 - 26.44
1101.51 1468.67
9988.01 13317.33
15840.01 21120.00

3.3. Pengukuran Kinerja Algoritma


Proses data mining dilakukan dengan bantuan software data mining yaitu
WEKA. Algoritma yang akan diujikan dalam penulisan ini adalah algoritma ID3 dan
C4.5 yang berada pada modul classify. Pengukuran kinerja dilihat dari spam
precision, spam recall dan accuracy .
Dalam sistem spam filtering, sebuah email spam yang salah identifikasi
memiliki masalah yang tidak terlalu serius dibandingkan dengan email non-spam
yang salah identifikasi. Dengan kata lain salah identifikasi email non-spam lebih
beresiko dibandingkan salah identifikasi email spam, maka precision harus besar dan
recall-nyapun harus besar juga.

30

3.3.1. Pengukuran Kinerja Berdasarkan Jumlah Data


Pengukuran dilakukan berdasarkan jumlah data yang akan dibagi menjadi
delapan pengujian (Ratheesh Raghavan, 2006) yaitu 50%, 60%, 66.7%, 70%, 80%,
90%, 95% dan 97.5% dari jumlah data yang ada. Maka terdiri dari 2301, 2761, 3069,
3221, 3680, 4141, 4371 dan 4486 data. Maka didapat Confusion Matrix atau tabel
penilaian yang dapat menghitung precision, recal dan accuracy untuk pengukuran
kinerja kedua algoritma (Tabel 3.2 dan Tabel 3.3).

Tabel 3.2 Confusion Matrix Algoritma ID3 Untuk Jumlah Data


diidentifikasi sebagai

diidentifikasi sebagai

non-spam

spam

Non-spam

1339

52

Spam

564

346

Non-spam

1605

62

Spam

681

413

Non-spam

1786

68

Spam

760

455

Non-spam

1876

75

Spam

801

469

Non-spam

2162

80

Spam

905

533

Non-spam

2428

78

Spam

1041

594

Non-spam

2550

96

Spam

1082

644

Non-spam

2618

97

Spam

1110

662

Jumlah data

2301

2761

3069
3221

3680
4141

4371

4486

31

Tabel 3.3 Confusion Matrix Algoritma C4.5 Untuk Jumlah Data


diidentifikasi sebagai

diidentifikasi sebagai

non-spam

spam

Non-spam

1345

46

Spam

603

307

Non-spam

1616

51

Spam

728

366

Non-spam

1794

60

Spam

808

407

Non-spam

1880

71

Spam

850

420

Non-spam

2154

88

Spam

938

500

Non-spam

2408

98

Spam

1061

574

Non-spam

2536

110

Spam

1108

618

Non-spam

2608

107

Spam

1139

633

Jumlah data

2301

2761

3069
3221

3680
4141

4371

4486

Berdasarkan data dari Confusion Matrix diperoleh precision, recal dan


accuracy untuk algoritma ID3 dan C4.5 berdasarkan jumlah data (Tabel 3.4)

32

Table 3.4 Pengukuran Kinerja Berdasarkan Jumlah Data


ID3

Algoritma
Jumlah
data
2301

Precision
86.90%

2761

C4.5

Recall

Accuracy

Precision

Recall

Accuracy

38.00%

73.23%

87.00%

33.70%

71.79%

86.90%

37.80%

73.09%

87.80%

33.50%

71.78%

3069

87.00%

37.40%

73.02%

87.20%

33.50%

71.71%

3221

86.20%

36.90%

72.80%

85.50%

33.10%

71.41%

3680

86.90%

37.10%

73.23%

85.00%

34.80%

72.12%

4141

88.40%

36.30%

72.98%

85.40%

35.10%

72.01%

4371

87.00%

37.30%

73.06%

84.90%

35.80%

72.14%

4486

87.20%

37.40%

73.10%

85.50%

35.70%

72.23%

PRECISION
89.00%
88.50%
88.00%
87.50%
87.00%

ID3

86.50%
86.00%
85.50%
85.00%
84.50%

C4.5

2301 2761 3069 3221 3680 4141 4371 4486

Gambar 3.1 Grafik Precision Berdasarkan Jumlah Data


Dari Gambar 3.1 dan Tabel 3.4 dapat dilihat bahwa algoritma ID3 mencapai
nilai precision tertinggi pada jumlah data 4141 dengan nilai precision 88,4%.
Sedangkan algoritma C4.5 mencapai nilai precision tertinggi pada jumlah data 2761

33

dengan nilai precision 87,8%. Secara keseluruhan, algoritma ID3 menunjukkan nilai
pecision lebih tinggi dari pada algoritma C4.5, meskipun pada jumlah data 2301,
2761, dan 3069 algoritma C4.5 memiliki nilai precision yang lebih tinggi
dibandingkan dengan algoritma ID3.

RECALL
39.00%
38.00%
37.00%
36.00%

ID3

35.00%

C4.5

34.00%
33.00%
32.00%
2301 2761 3069 3221 3680 4141 4371 4486

Gambar 3.2 Grafik Recall Berdasarkan Jumlah Data

Dari Gambar 3.2 dan Tabel 3.4 dapat dilihat bahwa algoritma ID3 mencapai
nilai recall tertinggi pada jumlah data 2301 dengan nilai recall 38%. Sedangkan pada
saat jumlah data 4141 algoritma ID3 mencapai titik terendah yaitu sebesar 36.30%.
Sedangkan algoritma C4.5 mencapai nilai recall tertinggi pada jumlah data 4486
dengan nilai recall 35,7%. Sedangkan pada jumlah data 3221 nilai recall pada
algoritma C4.5 adalah yang paling rendah yaitu sebesar 33.10%. Secara keseluruhan,
algoritma ID3 menunjukkan nilai recall lebih tinggi dibandingkan algoritma C4.5.

34

ACCURACY
73.50%
73.00%
72.50%

ID3

72.00%

C4.5

71.50%
71.00%
2301 2761 3069 3221 3680 4141 4371 4486

Gambar 3.3 Grafik Accuacy Berdasarkan Jumlah Data


Dari Gambar 3.3 dan Tabel 3.4 dapat dilihat bahwa algoritma ID3 mencapai
nilai accuracy tertinggi pada jumlah data 2301 dan 3221 dengan nilai accuracy
73.23%. Sedangkan algoritma C4.5 mencapai nilai accuracy tertinggi pada jumlah
data 4486 dari jumlah data dengan nilai accuracy 72.23%. Maka dapat disimpulkan
bahwa nilai accuracy algoritma ID3 lebih baik dari pada algoritma C4.5.
Dari pengukuran kinerja kedua algoritma yang telah dilakukan berdasarkan
jumlah data maka dapat disimpulkan algoritma ID3 memiliki kinerja yang lebih baik
dibandingkan algoritma C4.5.

35

3.3.2. Pengukuran Kinerja Berdasarkan Jumlah Atribut


Selain pengukuran kinerja berdasarkan jumlah data pengukuran kinerja juga
dilakukan dengan jumlah atribut (feature size) dengan pemilihan atribut (feature
selection) menggunakan x2 statistic (CHI). Dimana pemilihan atribut diambil dari
nilai chi terbesar ke chi terkecil dengan jumlah persentase 10% sampai 100% dari
jumlah atribut yang ada (Feng Tan , 2007). Jumlah atribut yang diperoleh adalah 7,
12, 18, 24, 29, 35, 41, 47, 52, dan 58 atribut. Perhitungan X2 statistic(CHI)
ditunjukkan pada Tabel 3.5
Tabel 3.5 X2 Statistic (CHI)
Atribut
word_freq_your
word_freq_000
word_freq_addresses
word_freq_george
word_freq_receive
word_freq_hp
word_freq_remove
word_freq_labs
word_freq_business
word_freq_original
word_freq_650
word_freq_order
word_freq_will
word_freq_meeting
word_freq_857
word_freq_hpl
word_freq_415
word_freq_font
word_freq_technology
word_freq_address

Nilai Chi
187.55488
123.27856
86.542
86.30683
83.08471
63.75786
61.61776
53.18779
50.6991
46.89401
46.62693
45.83283
45.02259
34.20146
30.87892
28.88889
28.37592
28.1994
27.56367
24.32172

36

Tabel 3.5 (Lanjutan)


Atribut
word_freq_cs
word_freq_direct
word_freq_lab
word_freq_edu
word_freq_1999
word_freq_re
word_freq_free
capital_run_length_average
word_freq_all
word_freq_credit
word_freq_pm
char_freq_$
word_freq_i0nternet
word_freq_telnet
word_freq_email
char_freq_;
word_freq_money
word_freq_3d
word_freq_table
word_freq_data
word_freq_our
capital_run_length_total
word_freq_over
word_freq_conference
word_freq_you
char_freq_#
word_freq_people
word_freq_project
word_freq_parts
word_freq_make
char_freq_[
word_freq_report
char_freq_!
char_freq_(
capital_run_length_longest
word_freq_mail
word_freq_85

Nilai Chi
24.25567
23.02589
20.95492
20.95492
20.86921
18.44611
18.39377
16.95615
16.00766
15.41132
14.37505
14.25134
14.1377
13.71864
13.33949
12.8371
12.80323
12.32369
11.09588
9.78621
8.88798
7.74262
7.56638
6.51703
5.2113
5.02643
4.76193
4.55894
3.90682
3.64053
3.25593
2.63468
2.60341
2.28227
1.53812
1.31353
1.30114

Pengujian dengan jumlah atribut yang berbeda memberikan menghasilkan


Confusion Matrix untuk algoritma ID3 dan C4.5 (Tabel 3.6 dan Tabel 3.7).

37

Tabel 3.6Confusion Matrix Algoritma ID3 Untuk Jumlah Atribut


diidentifikasi sebagai

diidentifikasi sebagai

non-spam

spam

Non-spam

2703

85

Spam

1404

409

Non-spam

2702

86

Spam

1332

481

Non-spam

2702

86

Spam

1304

509

Non-spam

2689

99

Spam

1267

546

Non-spam

2689

99

Spam

1245

568

Non-spam

2686

102

Spam

1215

598

Non-spam

2698

90

Spam

1189

624

Non-spam

2695

93

Spam

1153

660

Non-spam

2699

89

Spam

1148

665

Non-spam

2700

88

Spam

1145

668

Jumlah Atribut

7
12
18
24
29
35
41
47
52
58

38

Tabel 3.7 Confusion Matrix Untuk Algoritma C4.5 Untuk Jumlah Atribut
diidentifikasi sebagai

diidentifikasi sebagai

non-spam

spam

Non-spam

2702

86

Spam

1404

409

Non-spam

2700

88

Spam

1335

478

Non-spam

2695

93

Spam

1309

504

Non-spam

2680

108

Spam

1272

541

Non-spam

2679

109

Spam

1251

562

Non-spam

2674

114

Spam

1221

592

Non-spam

2682

106

Spam

1194

619

Non-spam

2667

121

Spam

1159

654

Non-spam

2674

114

Spam

1157

656

Non-spam

2670

118

Spam

1157

656

Jumlah Atribut

7
12

18
24
29
35
41
47
52
58

Berdasarkan data dari Confusion Matrix diperoleh precision, recal dan


accuracy untuk algoritma ID3 dan C4.5 berdasarkan jumlah atribut (Tabel 3.8 )

39

Table 3.8 Hasil Pengukuran Data Berdasarkan Jumlah Atribut


Algoritma

ID3

C4.5

Jumlah
atribut
7

82.80%

22.60%

67.64%

82.60%

22.60%

67.62%

12

84.80%

26.50%

69.18%

84.50%

26.40%

69.07%

18

85.50%

28.10%

69.79%

84.40%

27.80%

69.53%

24

84.70%

30.10%

70.31%

83.40%

29.80%

70.01%

29

85.20%

31.30%

70.79%

83.80%

31.00%

70.44%

35

85.40%

33.00%

71.38%

83.90%

32.70%

70.98%

41

87.40%

34.40%

72.20%

85.40%

34.10%

71.75%

47

87.6%

36.4%

72.92 %

84.40%

36.10%

72.18%

52

88.20%

36.70%

73.11%

85.20%

36.20%

72.38%

58

88.40%

36.80%

73.20%

84.80%

36.20%

72.29%

Precision

Recall

Accuracy

Precision

Recall

Accuracy

PRECISION
89.00%
88.00%
87.00%
86.00%

ID3

85.00%

C4.5

84.00%
83.00%
82.00%
7

12 18 24 29 35 41 47 52 58

Gambar 3.4 Grafik Precision Berdasarkan Jumlah Atribut


Dari Gambar 3.4 dan Tabel 3.8 dapat dilihat bahwa algoritma ID3 mencapai
nilai precision tertinggi pada jumlah atribut 58 dari jumlah atribut yang ada dengan
nilai precision 88.40%. Sedangkan algoritma C4.5 mencapai nilai precision tertinggi

40

pada jumlah atribut 41 dari jumlah atribut dengan nilai precision 85.40%. secara
keseluruhan, algoritma ID3 selalu berada diatas nilai precision algoritma C4.5.

RECALL
38.00%
36.00%
34.00%
32.00%
30.00%

ID3

28.00%
26.00%
24.00%
22.00%
20.00%

C4.5

12 18 24 29 35 41 47 52 58

Gambar 3.5 Grafik Recall Berdasarkan Jumlah Atribut


Dari Gambar 3.5 dan Tabel 3.8 dapat dilihat bahwa algoritma ID3 mencapai nilai
recall tertinggi pada jumlah atribut 58 dengan nilai recall 36.80%. Sedangkan
algoritma C4.5 mencapai nilai recall tertinggi pada jumlah atribut 52 dan 58 dengan
nilai recall 36.20%. Secara keseluruhan, algoritma ID3 menunjukkan nilai recall
lebih tinggi dari pada algoritma C4.5

41

ACCURACY
74.00%
73.00%
72.00%
71.00%
ID3

70.00%

C4.5

69.00%
68.00%
67.00%
66.00%
7

12

18 24 29

35 41

47 52 58

Gambar 3.6 Grafik Accuracy Berdasarkan Jumlah Atribut

Dari Gambar 3.6 dan Tabel 3.10 dapat dilihat bahwa algoritma ID3 mencapai
nilai accuracy tertinggi pada jumlah atribut 58 dari dengan nilai accuracy 73.20%.
Sedangkan algoritma C4.5 mencapai nilai accuracy tertinggi pada jumlah atribut 52
dari jumlah atribut dengan nilai

accuracy 72.38%. Maka dapat disimpulkan

algoritma ID3 memiliki kinerja yang lebih baik dibandingkan algoritma C4.5, terlihat
pada Gambar 3.6 algoritma ID3 selalu berada di atas algoritma C4.5.
Dari pengukuran kinerja kedua algoritma yang telah dilakukan berdasarkan
jumlah atribut secara keseluruhan algoritma ID3 memiliki kinerja yang lebih baik
dibandingkan algoritma C4.5.

You might also like