Bab Iii

BAB III
ANALISA DAN PEMBAHASAN
3.1. Data yang Digunakan

Database spam-mail ini diperoleh dari UCI Machine Learning Repository
http://www.ics.uci.edu/~mlearn/MLRepository.html. Database ini disumbangkan oleh
George Forman dari laboratorium Hewlett-Packard (HP). Database terdiri dari
koleksi e-mail dari bulan juni sampai juli 1999. database terdiri dari total 4601 email, dimana 1813 (39.4%) adalah spam dan 2788 (60.6%) adalah non-spam. Koleksi
spam-email berasal dari HP e-mail dan spam-email individu. Koleksi non-spam email
berasal dari e-mail kantor dan e-mail perseorangan.
Spam e-mail adalah unsolicited bulk e-mails atau e-mail yang dikirimkan
kepada ribuan penerima (recipient). Yang terdiri dari iklan produk dan jasa, cara
cepat mendapatkan uang, surat berantai, pornography dan lain-lain. Ketika spamemail diterima dalam ukuran sedikit, spam-email mengganggu tetapi tidak berbahaya.
Tetapi bila spam-email diterima dalam ukuran cukup banyak , sang penerima akan
dibanjiri dengan e-mail yang tidak diinginkan. Penerima akan membuang waktunya
untuk spam-email dan akan kesulitan dalam surat-menyurat.
Setiap e-mail telah di analisa dan terdapat 58 atribut (57 atribut input dan 1
atribut target atau kelas) yang menjelaskan tentang spam-email. Rincian dari atribut
tersebut adalah :
25
26
1. 48 atribut bertipe continuous [0, 100] yang beranggotakan kata. Kata yang
dimaksud antara lain :
Make
address
all
3d
Our
Over
Remove
Internet
Order
mail
Receive
Will
People
Report
Addresses
Free
Business
Email
You
Credit
Your
Font
000
Money
Hp
Hpl
George
650
Lab
Labs
telnet
857
Data
415
85
Technology
1999
Parts
Pm
Direct
Cs
Meeting
Original
Project
Re
Edu
Table
Conference
Dengan persentasi :
Jumlah Kata Yang Muncul Dalam E mail

x 100%
Total Keseluruha n Kata Dalam E mail
2. 6 atribut bertipe continuous [0, 100] yang beranggotakan karakter.

Karakter yang dimaksud adalah
";"
"("
"$"
"#".
"["
"!"
27
Dengan persentasi :
Jumlah Karakter Yang Muncul Dalam E mail

x 100%
Total Keseluruha n Karakter Dalam E mail
3. 1 atribut bertipe continous real [1,] yang berisi nilai rata-rata deret
hurup kapital yang tidak bisa dipecahkan.
4. 1 atribut bertipe continous real [1,] yang berisi nilai terpanjang deret
hurup kapital yang tidak bisa dipecahkan
5. 1 atribut bertipe continous real [1,] yang berisi nilai jumlah deret hurup
kapital yang tidak bisa dipecahkan
3.2. Transformasi data

Tipe data yang didapat dari dataset adalah bertipe numerik sedangkan untuk
pengujian ini memerlukan tipe data kategori. Teknik yang digunakan untuk merubah
data numerik menjadi data kategori adalah teknik distribusi frekuensi. Maka dicoba
mengelompokkan data tipe numerik ini ke dalam empat grup yaitu 1 , 2, 3, dan 4.
Dimana 1 untuk rendah dan 4 untuk tinggi maka nilai 2 dan 3 berada diantara
keduanya. Pengelompokan data pada masing-masing atribut bisa dilihat pada Tabel
3.1.
28
Tabel 3.1 Pengelompokan Atribut

Atribut
word_freq_make
word_freq_address
word_freq_all
word_freq_3d.
word_freq_our.
word_freq_over.
word_freq_remove.
word_freq_internet.
word_freq_order.
word_freq_mail
word_freq_receive.
word_freq_will
word_freq_people
word_freq_report.
word_freq_addresses.
word_freq_free
word_freq_business
word_freq_email
word_freq_you.
word_freq_credit
word_freq_your.
word_freq_font.
word_freq_000.
word_freq_money.
word_freq_hp.
word_freq_hpl.
word_freq_george.
word_freq_650.
word_freq_lab.
word_freq_labs.
word_freq_telnet.
word_freq_857.
word_freq_data.
word_freq_415.
word_freq_85.
word_freq_technology.
word_freq_1999.
word_freq_parts.
word_freq_pm.
word_freq_direct.
1
0 - 1.14
0 - 4.76
0 - 1.70
0 - 14.27
0 - 3.33
0 - 1.96
0 - 2.42
0 - 3.70
0 - 1.75
0 - 6.06
0 - 0.87
0 - 3.22
0 - 1.85
0 - 3.33
0 - 1.47
0 - 6.67
0 - 2.38
0 - 3.03
0 - 6.25
0 - 6.06
0 - 3.70
0 - 5.70
0 - 1.82
0 - 4.17
0 - 6.94
0 - 5.55
0 - 11.11
0 - 3.03
0 - 4.76
0 - 1.96
0 - 4.17
0 - 1.59
0 - 6.06
0 - 1.59
0 - 6.67
0 - 2.56
0 - 2.30
0 - 2.78
0 - 3.70
0 - 1.59
2
1.15 - 2.27
4.77 - 9.52
1.71 - 3.40
14.28 - 28.54
3.34 - 6.67
1.97 - 3.92
2.43 - 4.85
3.71 - 7.41
1.76 - 3.51
6.07 - 12.12
0.88 - 1.74
3.23 - 6.45
1.86 - 3.70
3.34 - 6.67
1.47 - 2.94
6.68 - 13.33
2.39 - 4.76
3.04 - 6.06
6.26 - 12.50
6.07 - 12.12
3.71 - 7.41
5.71 - 11.40
1.83 - 3.63
4.18 - 8.33
6.95 - 13.89
5.56 - 11.11
11.12 - 22.22
3.04 - 6.06
4.77 - 9.52
1.97 - 3.92
4.18 - 8.33
1.60 - 3.17
6.07 - 12.12
1.60 - 3.17
6.68 - 13.33
2.57 - 5.13
2.31 - 4.59
2.79 - 5.55
3.71 - 7.41
1.60 - 3.17
3
2.28 - 3.41
9.53 - 14.28
3.41 - 5.10
28.55 - 42.81
6.68 - 10.00
3.93 - 5.88
4.86 - 7.27
7.42 - 11.11
3.52 - 5.26
12.13- 18.18
1.75 - 2.61
6.46 - 9.67
3.71 - 5.55
6.68 - 10.00
2.94 - 4.41
13.34 - 20.00
4.77 - 7.14
6.07 - 9.09
12.51 - 18.75
12.13 - 18.18
7.42 11.11
11.41 - 17.10
3.64 - 5.45
8.34 - 12.50
13.90 - 20.83
11.12 - 16.66
22.23 - 33.33
6.07 - 9.09
9.53 - 14.28
3.93 - 5.88
8.34 - 12.50
3.18 - 4.76
12.13 - 18.18
3.18 - 4.76
13.34 - 20.00
5.14 - 7.69
4.60 - 6.89
5.56 - 8.33
7.42 - 11.11
3.18 - 4.76
4
3.42 - 4.54
14.29 - 19.04
5.11 - 6.80
42.82 - 57.08
10.01 - 13.33
5.89 - 7.84
7.28 - 9.69
11.12 - 14.81
5.27 - 7.01
18.19 - 24.24
2.62 - 3.48
9.68 - 12.89
5.56 - 7.40
10.01 - 13.33
4.41 - 5.88
20.01 - 26.67
7.15 - 9.52
9.10 - 12.12
18.76 - 25.00
18.19 - 24.24
11.12 - 14.81
17.11 - 22.80
5.46 - 7.27
12.51 - 16.67
20.84 - 27.77
16.67 - 22.21
33.34 - 44.44
9.10 - 12.12
14.29 - 19.04
5.89 - 7.84
12.51 - 16.67
4.77 - 6.35
18.19 - 24.24
4.77 - 6.35
20.01 - 26.67
7.70 - 10.25
6.90 - 9.19
8.34 - 11.11
11.12 -14.81
4.77 - 6.35
29
Tabel 3.1 (Lanjutan)

Atribut
word_freq_cs.
word_freq_meeting.
word_freq_original.
word_freq_project.
word_freq_re.
word_freq_edu.
word_freq_table.
word_freq_conference.
char_freq_;
char_freq_(
char_freq_[
char_freq_!
char_freq_$
char_freq_#
1
0 - 2.38
0 - 4.76
0 -1.19
0 - 6.67
0 - 7.14
0 - 7.35
0 - 0.72
0 - 3.33
0 - 1.46
0 - 3.25
0 - 1.36
0 - 10.83
0 - 2.00
0 - 6.61
capital_run_length_average
0 - 367.17
capital_run_length_longest
0 - 3329.33
capital_run_length_total
0 - 5280.00
2
2.39 - 4.76
4.77 - 9.52
1.20 - 2.38
6.68 - 13.33
7.15 - 14.28
7.36 - 14.70
0.73 - 1.45
3.34 - 6.67
1.47 - 2.92
3.26 - 6.50
1.37 - 2.72
10.84 - 21.65
2.01 - 4.00
6.62 - 13.22
367.18 734.33
3329.33 6658.67
5280.01 10560.00
3
4.77 -7.14
9.53 - 14.28
2.39 - 3.57
13.14 - 20.00
14.29 - 21.42
14.71 - 22.05
1.46 - 2.17
6.68 - 10.00
2.93 - 4.39
6.51 - 9.75
2.73 - 4.08
21.66 - 32.48
4.01 - 6.00
13.23 - 19.83
734.34 1101.50
6658.68 9988.00
10560.01 15840.00
4
7.15 - 9.52
14.29 -19.04
3.58 - 4.76
20.01 - 26.67
21.43 - 28.56
22.06 - 29.40
2.18 - 2.89
10.01 - 13.33
4.40 - 5.85
9.76 - 13.00
4.09 - 5.44
32.49 - 43.30
6.01 - 8.00
19.84 - 26.44
1101.51 1468.67
9988.01 13317.33
15840.01 21120.00
3.3. Pengukuran Kinerja Algoritma

Proses data mining dilakukan dengan bantuan software data mining yaitu
WEKA. Algoritma yang akan diujikan dalam penulisan ini adalah algoritma ID3 dan
C4.5 yang berada pada modul classify. Pengukuran kinerja dilihat dari spam
precision, spam recall dan accuracy .
Dalam sistem spam filtering, sebuah email spam yang salah identifikasi
memiliki masalah yang tidak terlalu serius dibandingkan dengan email non-spam
yang salah identifikasi. Dengan kata lain salah identifikasi email non-spam lebih
beresiko dibandingkan salah identifikasi email spam, maka precision harus besar dan
recall-nyapun harus besar juga.
30
3.3.1. Pengukuran Kinerja Berdasarkan Jumlah Data

Pengukuran dilakukan berdasarkan jumlah data yang akan dibagi menjadi
delapan pengujian (Ratheesh Raghavan, 2006) yaitu 50%, 60%, 66.7%, 70%, 80%,
90%, 95% dan 97.5% dari jumlah data yang ada. Maka terdiri dari 2301, 2761, 3069,
3221, 3680, 4141, 4371 dan 4486 data. Maka didapat Confusion Matrix atau tabel
penilaian yang dapat menghitung precision, recal dan accuracy untuk pengukuran
kinerja kedua algoritma (Tabel 3.2 dan Tabel 3.3).
Tabel 3.2 Confusion Matrix Algoritma ID3 Untuk Jumlah Data

diidentifikasi sebagai
non-spam
spam
Non-spam
1339
52
Spam
564
346
Non-spam
1605
62
Spam
681
413
Non-spam
1786
68
Spam
760
455
Non-spam
1876
75
Spam
801
469
Non-spam
2162
80
Spam
905
533
Non-spam
2428
78
Spam
1041
594
Non-spam
2550
96
Spam
1082
644
Non-spam
2618
97
Spam
1110
662
Jumlah data
2301
2761
3069
3221
3680
4141
4371
4486
31
Tabel 3.3 Confusion Matrix Algoritma C4.5 Untuk Jumlah Data

non-spam
spam
Non-spam
1345
46
Spam
603
307
Non-spam
1616
51
Spam
728
366
Non-spam
1794
60
Spam
808
407
Non-spam
1880
71
Spam
850
420
Non-spam
2154
88
Spam
938
500
Non-spam
2408
98
Spam
1061
574
Non-spam
2536
110
Spam
1108
618
Non-spam
2608
107
Spam
1139
633
Jumlah data
2301
2761
3069
3221
3680
4141
4371
4486
Berdasarkan data dari Confusion Matrix diperoleh precision, recal dan

accuracy untuk algoritma ID3 dan C4.5 berdasarkan jumlah data (Tabel 3.4)
32
Table 3.4 Pengukuran Kinerja Berdasarkan Jumlah Data

ID3
Algoritma
Jumlah
data
2301
Precision
86.90%
2761
C4.5
Recall
Accuracy
Precision
Recall
Accuracy
38.00%
73.23%
87.00%
33.70%
71.79%
86.90%
37.80%
73.09%
87.80%
33.50%
71.78%
3069
87.00%
37.40%
73.02%
87.20%
33.50%
71.71%
3221
86.20%
36.90%
72.80%
85.50%
33.10%
71.41%
3680
86.90%
37.10%
73.23%
85.00%
34.80%
72.12%
4141
88.40%
36.30%
72.98%
85.40%
35.10%
72.01%
4371
87.00%
37.30%
73.06%
84.90%
35.80%
72.14%
4486
87.20%
37.40%
73.10%
85.50%
35.70%
72.23%
PRECISION
89.00%
88.50%
88.00%
87.50%
87.00%
ID3
86.50%
86.00%
85.50%
85.00%
84.50%
C4.5
2301 2761 3069 3221 3680 4141 4371 4486
Gambar 3.1 Grafik Precision Berdasarkan Jumlah Data

Dari Gambar 3.1 dan Tabel 3.4 dapat dilihat bahwa algoritma ID3 mencapai
nilai precision tertinggi pada jumlah data 4141 dengan nilai precision 88,4%.
Sedangkan algoritma C4.5 mencapai nilai precision tertinggi pada jumlah data 2761
33
dengan nilai precision 87,8%. Secara keseluruhan, algoritma ID3 menunjukkan nilai
pecision lebih tinggi dari pada algoritma C4.5, meskipun pada jumlah data 2301,
2761, dan 3069 algoritma C4.5 memiliki nilai precision yang lebih tinggi
dibandingkan dengan algoritma ID3.
RECALL
39.00%
38.00%
37.00%
36.00%
ID3
35.00%
C4.5
34.00%
33.00%
32.00%
2301 2761 3069 3221 3680 4141 4371 4486
Gambar 3.2 Grafik Recall Berdasarkan Jumlah Data
nilai recall tertinggi pada jumlah data 2301 dengan nilai recall 38%. Sedangkan pada
saat jumlah data 4141 algoritma ID3 mencapai titik terendah yaitu sebesar 36.30%.
Sedangkan algoritma C4.5 mencapai nilai recall tertinggi pada jumlah data 4486
dengan nilai recall 35,7%. Sedangkan pada jumlah data 3221 nilai recall pada
algoritma C4.5 adalah yang paling rendah yaitu sebesar 33.10%. Secara keseluruhan,
algoritma ID3 menunjukkan nilai recall lebih tinggi dibandingkan algoritma C4.5.
34
ACCURACY
73.50%
73.00%
72.50%
ID3
72.00%
C4.5
71.50%
71.00%
2301 2761 3069 3221 3680 4141 4371 4486
Gambar 3.3 Grafik Accuacy Berdasarkan Jumlah Data

nilai accuracy tertinggi pada jumlah data 2301 dan 3221 dengan nilai accuracy
73.23%. Sedangkan algoritma C4.5 mencapai nilai accuracy tertinggi pada jumlah
data 4486 dari jumlah data dengan nilai accuracy 72.23%. Maka dapat disimpulkan
bahwa nilai accuracy algoritma ID3 lebih baik dari pada algoritma C4.5.
Dari pengukuran kinerja kedua algoritma yang telah dilakukan berdasarkan
jumlah data maka dapat disimpulkan algoritma ID3 memiliki kinerja yang lebih baik
dibandingkan algoritma C4.5.
35
3.3.2. Pengukuran Kinerja Berdasarkan Jumlah Atribut

Selain pengukuran kinerja berdasarkan jumlah data pengukuran kinerja juga
dilakukan dengan jumlah atribut (feature size) dengan pemilihan atribut (feature
selection) menggunakan x2 statistic (CHI). Dimana pemilihan atribut diambil dari
nilai chi terbesar ke chi terkecil dengan jumlah persentase 10% sampai 100% dari
jumlah atribut yang ada (Feng Tan , 2007). Jumlah atribut yang diperoleh adalah 7,
12, 18, 24, 29, 35, 41, 47, 52, dan 58 atribut. Perhitungan X2 statistic(CHI)
ditunjukkan pada Tabel 3.5
Tabel 3.5 X2 Statistic (CHI)
Atribut
word_freq_your
word_freq_000
word_freq_addresses
word_freq_george
word_freq_receive
word_freq_hp
word_freq_remove
word_freq_labs
word_freq_business
word_freq_original
word_freq_650
word_freq_order
word_freq_will
word_freq_meeting
word_freq_857
word_freq_hpl
word_freq_415
word_freq_font
word_freq_technology
word_freq_address
Nilai Chi
187.55488
123.27856
86.542
86.30683
83.08471
63.75786
61.61776
53.18779
50.6991
46.89401
46.62693
45.83283
45.02259
34.20146
30.87892
28.88889
28.37592
28.1994
27.56367
24.32172
36
Tabel 3.5 (Lanjutan)

Atribut
word_freq_cs
word_freq_direct
word_freq_lab
word_freq_edu
word_freq_1999
word_freq_re
word_freq_free
capital_run_length_average
word_freq_all
word_freq_credit
word_freq_pm
char_freq_$
word_freq_i0nternet
word_freq_telnet
word_freq_email
char_freq_;
word_freq_money
word_freq_3d
word_freq_table
word_freq_data
word_freq_our
capital_run_length_total
word_freq_over
word_freq_conference
word_freq_you
char_freq_#
word_freq_people
word_freq_project
word_freq_parts
word_freq_make
char_freq_[
word_freq_report
char_freq_!
char_freq_(
capital_run_length_longest
word_freq_mail
word_freq_85
Nilai Chi
24.25567
23.02589
20.95492
20.95492
20.86921
18.44611
18.39377
16.95615
16.00766
15.41132
14.37505
14.25134
14.1377
13.71864
13.33949
12.8371
12.80323
12.32369
11.09588
9.78621
8.88798
7.74262
7.56638
6.51703
5.2113
5.02643
4.76193
4.55894
3.90682
3.64053
3.25593
2.63468
2.60341
2.28227
1.53812
1.31353
1.30114
Pengujian dengan jumlah atribut yang berbeda memberikan menghasilkan

Confusion Matrix untuk algoritma ID3 dan C4.5 (Tabel 3.6 dan Tabel 3.7).
37
Tabel 3.6Confusion Matrix Algoritma ID3 Untuk Jumlah Atribut

non-spam
spam
Non-spam
2703
85
Spam
1404
409
Non-spam
2702
86
Spam
1332
481
Non-spam
2702
86
Spam
1304
509
Non-spam
2689
99
Spam
1267
546
Non-spam
2689
99
Spam
1245
568
Non-spam
2686
102
Spam
1215
598
Non-spam
2698
90
Spam
1189
624
Non-spam
2695
93
Spam
1153
660
Non-spam
2699
89
Spam
1148
665
Non-spam
2700
88
Spam
1145
668
Jumlah Atribut
7
12
18
24
29
35
41
47
52
58
38
Tabel 3.7 Confusion Matrix Untuk Algoritma C4.5 Untuk Jumlah Atribut
non-spam
spam
Non-spam
2702
86
Spam
1404
409
Non-spam
2700
88
Spam
1335
478
Non-spam
2695
93
Spam
1309
504
Non-spam
2680
108
Spam
1272
541
Non-spam
2679
109
Spam
1251
562
Non-spam
2674
114
Spam
1221
592
Non-spam
2682
106
Spam
1194
619
Non-spam
2667
121
Spam
1159
654
Non-spam
2674
114
Spam
1157
656
Non-spam
2670
118
Spam
1157
656
Jumlah Atribut
7
12
18
24
29
35
41
47
52
58
Berdasarkan data dari Confusion Matrix diperoleh precision, recal dan

accuracy untuk algoritma ID3 dan C4.5 berdasarkan jumlah atribut (Tabel 3.8 )
39
Table 3.8 Hasil Pengukuran Data Berdasarkan Jumlah Atribut

Algoritma
ID3
C4.5
Jumlah
atribut
7
82.80%
22.60%
67.64%
82.60%
22.60%
67.62%
12
84.80%
26.50%
69.18%
84.50%
26.40%
69.07%
18
85.50%
28.10%
69.79%
84.40%
27.80%
69.53%
24
84.70%
30.10%
70.31%
83.40%
29.80%
70.01%
29
85.20%
31.30%
70.79%
83.80%
31.00%
70.44%
35
85.40%
33.00%
71.38%
83.90%
32.70%
70.98%
41
87.40%
34.40%
72.20%
85.40%
34.10%
71.75%
47
87.6%
36.4%
72.92 %
84.40%
36.10%
72.18%
52
88.20%
36.70%
73.11%
85.20%
36.20%
72.38%
58
88.40%
36.80%
73.20%
84.80%
36.20%
72.29%
Precision
Recall
Accuracy
Precision
Recall
Accuracy
PRECISION
89.00%
88.00%
87.00%
86.00%
ID3
85.00%
C4.5
84.00%
83.00%
82.00%
7
12 18 24 29 35 41 47 52 58
Gambar 3.4 Grafik Precision Berdasarkan Jumlah Atribut

nilai precision tertinggi pada jumlah atribut 58 dari jumlah atribut yang ada dengan
nilai precision 88.40%. Sedangkan algoritma C4.5 mencapai nilai precision tertinggi
40
pada jumlah atribut 41 dari jumlah atribut dengan nilai precision 85.40%. secara
keseluruhan, algoritma ID3 selalu berada diatas nilai precision algoritma C4.5.
RECALL
38.00%
36.00%
34.00%
32.00%
30.00%
ID3
28.00%
26.00%
24.00%
22.00%
20.00%
C4.5
12 18 24 29 35 41 47 52 58
Gambar 3.5 Grafik Recall Berdasarkan Jumlah Atribut

Dari Gambar 3.5 dan Tabel 3.8 dapat dilihat bahwa algoritma ID3 mencapai nilai
recall tertinggi pada jumlah atribut 58 dengan nilai recall 36.80%. Sedangkan
algoritma C4.5 mencapai nilai recall tertinggi pada jumlah atribut 52 dan 58 dengan
nilai recall 36.20%. Secara keseluruhan, algoritma ID3 menunjukkan nilai recall
lebih tinggi dari pada algoritma C4.5
41
ACCURACY
74.00%
73.00%
72.00%
71.00%
ID3
70.00%
C4.5
69.00%
68.00%
67.00%
66.00%
7
12
18 24 29
35 41
47 52 58
Gambar 3.6 Grafik Accuracy Berdasarkan Jumlah Atribut
nilai accuracy tertinggi pada jumlah atribut 58 dari dengan nilai accuracy 73.20%.
Sedangkan algoritma C4.5 mencapai nilai accuracy tertinggi pada jumlah atribut 52
dari jumlah atribut dengan nilai
accuracy 72.38%. Maka dapat disimpulkan
algoritma ID3 memiliki kinerja yang lebih baik dibandingkan algoritma C4.5, terlihat
pada Gambar 3.6 algoritma ID3 selalu berada di atas algoritma C4.5.
Dari pengukuran kinerja kedua algoritma yang telah dilakukan berdasarkan
jumlah atribut secara keseluruhan algoritma ID3 memiliki kinerja yang lebih baik
dibandingkan algoritma C4.5.

Bab Iii

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bab Iii

Uploaded by

Copyright:

Available Formats

BAB III

ANALISA DAN PEMBAHASAN

3.1. Data yang Digunakan

Jumlah Kata Yang Muncul Dalam E mail

2. 6 atribut bertipe continuous [0, 100] yang beranggotakan karakter.

Jumlah Karakter Yang Muncul Dalam E mail

3.2. Transformasi data

Tabel 3.1 Pengelompokan Atribut

Tabel 3.1 (Lanjutan)

3.3. Pengukuran Kinerja Algoritma

3.3.1. Pengukuran Kinerja Berdasarkan Jumlah Data

Tabel 3.2 Confusion Matrix Algoritma ID3 Untuk Jumlah Data

Tabel 3.3 Confusion Matrix Algoritma C4.5 Untuk Jumlah Data

Berdasarkan data dari Confusion Matrix diperoleh precision, recal dan

Table 3.4 Pengukuran Kinerja Berdasarkan Jumlah Data

2301 2761 3069 3221 3680 4141 4371 4486

Gambar 3.1 Grafik Precision Berdasarkan Jumlah Data

Gambar 3.2 Grafik Recall Berdasarkan Jumlah Data

Gambar 3.3 Grafik Accuacy Berdasarkan Jumlah Data

3.3.2. Pengukuran Kinerja Berdasarkan Jumlah Atribut

Tabel 3.5 (Lanjutan)

Pengujian dengan jumlah atribut yang berbeda memberikan menghasilkan

Tabel 3.6Confusion Matrix Algoritma ID3 Untuk Jumlah Atribut

Berdasarkan data dari Confusion Matrix diperoleh precision, recal dan

Table 3.8 Hasil Pengukuran Data Berdasarkan Jumlah Atribut

Gambar 3.4 Grafik Precision Berdasarkan Jumlah Atribut

Gambar 3.5 Grafik Recall Berdasarkan Jumlah Atribut

Gambar 3.6 Grafik Accuracy Berdasarkan Jumlah Atribut

accuracy 72.38%. Maka dapat disimpulkan

You might also like