Professional Documents
Culture Documents
Analisis Kinerja Decision Tree c45 Dalam 331fa130 PDF
Analisis Kinerja Decision Tree c45 Dalam 331fa130 PDF
Abstrack - In an effort to anticipate the occurrence of errors in the selection of prospective borrowers
while improving the quality of customer service, finance companies need decision making tools that
simplify and speed up the process of predicting prospective borrowers who are able to pay off credit.
The study discusses the application design process in constructing decision tree using C4.5 algorithm
and utilizing a group of training data of motorcycle financing debtor, then interpreted in the form of
decision rule as a reference in estimating potential loan repayment of debtor. The test results through
5 categories of tests performed in the process of the resulting tree required an average time of 112
seconds with the fastest time obtained in the first test category with the amount of data 3000 records
worth 9 seconds. While in the process of generate rule it takes an average time of 1.78 seconds with
the fastest time obtained in the first test category with the amount of data 3000 records worth 1.23
seconds. Comparison of the amount of data in each test category affects the value of execution time,
the more data make longer the process of generating trees and rules. In the data accuracy test
obtained the average percentage of data accuracy value of 51.2% with the highest gain in the first test
category with total data 3000 records worth 54%.
Intisari -. Dalam upaya mengantisipasi terjadinya kesalahan dalam pemilihan calon debitur sekaligus
meningkatkan kualitas layanan konsumen, perusahaan pembiayaan membutuhkan alat bantu
pengambilan keputusan sehingga mempermudah dan mempercepat proses prediksi calon debitur yang
mampu melunasi kredit. Penelitian membahas proses rancangn bangun aplikasi dalam membangun
pohon keputusan menggunakan algoritma C4.5 dan memanfaatkan sekelompok data latih debitur
pembiayaan kendaraan sepeda motor, kemudian diinterpretasikan dalam bentuk aturan keputusan
sebagai acuan dalam memperkirakan potensi pelunasan kredit calon debitur. Hasil pengujian melalui 5
kategori uji yang dilakukan dalam proses generate tree dibutuhkan rata-rata waktu 112 detik dengan
perolehan waktu tercepat pada kategori uji pertama dengan jumlah data 3000 record senilai 9 detik.
Sedangkan dalam proses generate rules dibutuhkan rata-rata waktu 1,78 detik dengan perolehan waktu
tercepat pada kategori uji pertama dengan dengan jumlah data 3000 record senilai 1,23 detik.
Perbandingan jumlah data disetiap kategori uji mempengaruhi nilai execution time, makin banyak
datanya maka semakin lama untuk proses generate tree dan rules. Pada pengujian akurasi data
diperoleh prosentase rata-rata nilai akurasi data 51,2% dengan perolehan tertinggi pada kategori uji
pertama dengan total data 3000 record senilai 54%.
189
JURNAL INOVTEK POLBENG - SERI INFORMATIKA, VOL. 2, NO. 2 , NOVEMBER 2017 ISSN : 2527-9866
190
JURNAL INOVTEK POLBENG - SERI INFORMATIKA, VOL. 2, NO. 2 , NOVEMBER 2017 ISSN : 2527-9866
dengan menyatukan cabang yang memiliki k-nearest neighbor, Metode Rule Based,
efek yang kecil jika diklasifikasikan. Memory based reasoning, dan Support
Penelitian ini berfokus pada penerapan R- vector machines (SVM).
C4.5 untuk penelitian tentang perawatan Klasifikasi data terdiri dari 2 langkah
kesehatan yang memprediksi lama tinggal proses. Pertama adalah learning (fase
para pasien rawat inap. Hasil penelitian ini training), dimana algoritma klasifikasi
dapat membantu institusi kesehatan untuk dibuat untuk menganalisa data training lalu
mengatur dan memanfaatkan dengan direpresentasikan dalam bentuk rule
maksimal fasilitas rumah sakit yang ada [5]. klasifikasi. Proses kedua adalah klasifikasi,
[8] dengan menggabungkan algoritma dimana data tes digunakan untuk
GATS (Genetic Algorithm-Tabu Search) memperkirakan akurasi dari rule klasifikasi
sebagai strategi pencarian dan algoritma [4].
C4.5 sebagai fungsi evaluasi. Algoritma Proses klasifikasi didasarkan pada
menguji kategori dataset www, mail, p2p. empat komponen [3] :
Dengan algoritma ini dapat meningkatkan 1. Kelas. Merupakan variabel dependen
komputasi kinerja tanpa dampak negatif yang berupa kategorikal yang
pada akurasi klasifikasi. Penelitian yang merepresentasikan ‘label’ yang
lain dilakukan [6] menggunakan algoritma terdapat pada objek. Contohnya: resiko
C4.5 yang digunakan untuk peramalan penyakit jantung, resiko kredit,
resiko keuangan pada informasi real dari customer loyalty, jenis gempa.
akuntansi pada perusahaan keuangan pada 2. Predictor. Merupakan variabel
tahun 2005 dan 2006. Penelitian ini independen yang direpresentasikan
melibatkan indeks finansial dan non- oleh karakteristik (atribut) data.
finansial sebagai objek penelitian, dan Contohnya: merokok, minum alkohol,
hasilnya kemampuan peramalan pada tekanan darah, tabungan, aset, gaji.
penelitian ini lebih baik daripada hanya 3. Training dataset. Merupakan satu set
melibatkan indeks finansial saja. data yang berisi nilai dari kedua
Pada penelitian ini dilakukan analisis komponen di atas yang digunakan
untuk kemampuan algoritma C45 dan untuk menentukan kelas yang cocok
pohon keputusan dalam memprediksi berdasarkan predictor.
potensi pelunasan kredit sebagai salah satu 4. Testing dataset. Berisi data baru yang
kriteria kelayakan calon debitur, sehingga akan diklasifikasikan oleh model yang
bermanfaat bagi manajer perusahaan telah dibuat dan akurasi klasifikasi
sebagai pendukung keputusan penilaian dievaluasi.
kelayakan calon debitur baru.
Pohon keputusan merupakan metode
klasifikasi dan prediksi yang sangat
II. SIGNIFIKASI STUDI terkenal. Metode pohon keputusan
A. Studi Literatur mengubah fakta yang sangat besar menjadi
Klasifikasi adalah proses penemuan pohon keputusan yang merepresentasikan
model (atau fungsi) yang menggambarkan aturan. Aturan dapat dengan mudah
dan membedakan kelas data atau konsep dipahami dengan bahasa alami, juga dapat
yang bertujuan agar bisa digunakan untuk diekspresikan dalam bentuk bahasa basis
memprediksi kelas dari objek yang label data seperti Structured Query Language
kelasnya tidak diketahui [4]. Algoritma untuk mencari record pada kategori
klasifikasi yang banyak digunakan secara tertentu. Pohon keputusan juga berguna
luas, yaitu Decision/classification trees, untuk mengeksplorasi data, menemukan
Bayesian classifiers/ Naïve Bayes hubungan tersembunyi antara sejumlah
classifiers, Neural networks, Analisa calon variabel input dengan sebuah variabel
Statistik, Algoritma Genetika, Rough sets, target. Karena pohon keputusan
191
JURNAL INOVTEK POLBENG - SERI INFORMATIKA, VOL. 2, NO. 2 , NOVEMBER 2017 ISSN : 2527-9866
192
JURNAL INOVTEK POLBENG - SERI INFORMATIKA, VOL. 2, NO. 2 , NOVEMBER 2017 ISSN : 2527-9866
Training data
Rekam KASUS
Data kasus 1 Training data
ANALIS
TRAINING DATA
Node, Nilai
3
PEMBENTUKAN
Data Aturan ATURAN
ATURAN
Data
KEPUTUSAN
Testing
193
JURNAL INOVTEK POLBENG - SERI INFORMATIKA, VOL. 2, NO. 2 , NOVEMBER 2017 ISSN : 2527-9866
194
JURNAL INOVTEK POLBENG - SERI INFORMATIKA, VOL. 2, NO. 2 , NOVEMBER 2017 ISSN : 2527-9866
195
JURNAL INOVTEK POLBENG - SERI INFORMATIKA, VOL. 2, NO. 2 , NOVEMBER 2017 ISSN : 2527-9866
menghasilkan rata-rata nilai akurasi data dengan perolehan waktu tercepat pada
yang bernilai benar (akurat) adalah 51,2%. kategori uji pertama dengan dengan
Paling tinggi diperoleh dari kategori uji jumlah data 3000 record yang terdiri
pertama dengan jumlah data 3000 record. dari 2400 record data latih dan 600
record data uji senilai 9 detik.
TABEL IV Sedangkan dalam proses generate rules
DATA PROSENTASE UJI AKURASI DATA BERNILAI dibutuhkan rata-rata waktu 1,78 detik
SESUAI (BENAR)
dengan perolehan waktu tercepat pada
TOTAL PROSENTASE
UJI kategori uji pertama dengan dengan
DATA HASIL BENAR
jumlah data 3000 record yang terdiri
1 3000 54 % dari 2400 record data latih dan 600
2 10000 50 % record data uji senilai 1,23 detik.
3 25000 50 % Perbandingan jumlah data disetiap
4 50000 51 % kategori uji mempengaruhi nilai
5 65000
LI. execution time, makin banyak datanya
maka semakin lama untuk proses
generate tree dan rules. Pada
4. Menghitung Prosentase nilai kelayakan pengujian akurasi data diperoleh
data uji yang tidak sesuai (salah) prosentase rata-rata nilai akurasi data
TABEL V
51,2% dengan perolehan tertinggi pada
DATA PROSENTASE UJI AKURASI DATA BERNILAI kategori uji pertama dengan total data
TIDAK SESUAI (SALAH) 3000 record terdiri dari 2400 record
Prosentase Hasil data latih dan 600 record data uji
Uji Total Data
Salah senilai 54%.
1 3000 46 %
2 10000 50 %
Penelitian yang dilakukan masih
terdapat beberapa kekurangan diantaranya
3 25000 50 %
keterbatasan jumlah training data dan
4 50000 49 %
atribut prediktor sehingga berpengaruh pada
5 65000 49 % kualitas pohon keputusan yang dihasilkan
sebagai dasar aturan untuk memprediksi
Dari Tabel V kelima skenario uji akurasi potensi pelunasan kredit sebagai salah satu
data menghasilkan rata-rata nilai akurasi kriteria kelayakan calon debitur baru.
data yang bernilai tidak akurat adalah Diharapkan pada penelitian selanjutnya
48,8%. Paling rendah diperoleh dari dapat menggunakan training data yang
kategori uji pertama dengan jumlah data lebih variatif dan jumlah atribut predictor
3000 record. lebih, serta dilengkapi dengan proses
pemangkasan pohon (prunning) untuk lebih
IV. KESIMPULAN meningkatkan tingkat akurasi.
Berdasarkan hasil pembahasan diatas,
maka didapatkan kesimpulan: REFERENSI
1. Telah dibangun rancang bangun [1] Berry Michael, J.A., dan Linoff, G.S.,
aplikasi dengan menerapkan algoritma 2004, Data Mining Techniques for
C4.5 pada pohon keputusanuntuk Marketing, Sales, Customer
memprediksi potensi pelunasan kredit Relationship Management, Second
sebagai salah satu kriteria kelayakan Edition, Willey Publishing, Inc.
calon debitur baru. [2] Chen, Y., Dai, L., dan Cheng, X.Q.,
2. Dari hasil pengujian 5 kategori uji yang 2008, GATS-C4.5: An Algorithm for
dilakukan dalam proses generate tree Optimizing Features in Flow
dibutuhkan rata-rata waktu 112 detik Classification, EEE Communications
196
JURNAL INOVTEK POLBENG - SERI INFORMATIKA, VOL. 2, NO. 2 , NOVEMBER 2017 ISSN : 2527-9866
197