Analisis Kinerja Decision Tree c45 Dalam 331fa130 PDF

JURNAL INOVTEK POLBENG - SERI INFORMATIKA, VOL. 2, NO.
2 , NOVEMBER 2017 ISSN : 2527-9866
Analisis Kinerja Decision Tree C4.5 dalam Prediksi

Potensi Pelunasan Kredit Calon Debitur
Bambang Hermanto1, Azhari SN2, Fajri Profesio Putra3

1
Jurusan Ilmu Komputer FMIPA Universitas Lampung
2
Jurusan Ilmu Komputer dan Elektronika, FMIPA UGM Yogyakarta
3
Jurusan Teknik Informatika, Politeknik Negeri Bengkalis
e-mail: 1bbg.hermanto@gmail.com, 2arisn.softcomp@gmail.com, 3fajri@polbeng.ac.id
Abstrack - In an effort to anticipate the occurrence of errors in the selection of prospective borrowers
while improving the quality of customer service, finance companies need decision making tools that
simplify and speed up the process of predicting prospective borrowers who are able to pay off credit.
The study discusses the application design process in constructing decision tree using C4.5 algorithm
and utilizing a group of training data of motorcycle financing debtor, then interpreted in the form of
decision rule as a reference in estimating potential loan repayment of debtor. The test results through
5 categories of tests performed in the process of the resulting tree required an average time of 112
seconds with the fastest time obtained in the first test category with the amount of data 3000 records
worth 9 seconds. While in the process of generate rule it takes an average time of 1.78 seconds with
the fastest time obtained in the first test category with the amount of data 3000 records worth 1.23
seconds. Comparison of the amount of data in each test category affects the value of execution time,
the more data make longer the process of generating trees and rules. In the data accuracy test
obtained the average percentage of data accuracy value of 51.2% with the highest gain in the first test
category with total data 3000 records worth 54%.
Keywords: debtor, credit, c4.5, decision tree
Intisari -. Dalam upaya mengantisipasi terjadinya kesalahan dalam pemilihan calon debitur sekaligus
meningkatkan kualitas layanan konsumen, perusahaan pembiayaan membutuhkan alat bantu
pengambilan keputusan sehingga mempermudah dan mempercepat proses prediksi calon debitur yang
mampu melunasi kredit. Penelitian membahas proses rancangn bangun aplikasi dalam membangun
pohon keputusan menggunakan algoritma C4.5 dan memanfaatkan sekelompok data latih debitur
pembiayaan kendaraan sepeda motor, kemudian diinterpretasikan dalam bentuk aturan keputusan
sebagai acuan dalam memperkirakan potensi pelunasan kredit calon debitur. Hasil pengujian melalui 5
kategori uji yang dilakukan dalam proses generate tree dibutuhkan rata-rata waktu 112 detik dengan
perolehan waktu tercepat pada kategori uji pertama dengan jumlah data 3000 record senilai 9 detik.
Sedangkan dalam proses generate rules dibutuhkan rata-rata waktu 1,78 detik dengan perolehan waktu
tercepat pada kategori uji pertama dengan dengan jumlah data 3000 record senilai 1,23 detik.
Perbandingan jumlah data disetiap kategori uji mempengaruhi nilai execution time, makin banyak
datanya maka semakin lama untuk proses generate tree dan rules. Pada pengujian akurasi data
diperoleh prosentase rata-rata nilai akurasi data 51,2% dengan perolehan tertinggi pada kategori uji
pertama dengan total data 3000 record senilai 54%.
Kata kunci: debitur, kredit, C4.5, pohon keputusan
I. PENDAHULUAN tentang perbankan adalah nasabah yang

memperoleh fasilitas kredit atau
Istilah debitur menurut undang-undang
pembiayaan berdasarkan prinsip syariah
no.10 tahun 1998 tentang perubahan atas
atau yang dipersamakan dengan itu
undang-undang nomor 7 tahun 1992
berdasarkan perjanjian bank dengan
189
JURNAL INOVTEK POLBENG - SERI INFORMATIKA, VOL. 2, NO. 2 , NOVEMBER 2017 ISSN : 2527-9866
nasabah yang bersangkutan. Definisi kredit menggabungkan algoritma GATS (Genetic

menurut kamus besar Bahasa Indonesia Algorithm-Tabu Search) sebagai strategi
adalah pinjaman uang dengan pembayaran pencarian dan algoritma C4.5 sebagai
pengembalian secara mengangsur. fungsi evaluasi dengan percobaan kategori
Penelitian ini membahas proses dataset www, mail, p2p. Dengan algoritma
generate decision tree menggunakan ini dapat meningkatkan komputasi kinerja
algoritma C4.5 dan memanfaatkan tanpa dampak negatif pada akurasi
sekelompok training data debitur klasifikasi. Penelitian lainnya dilakukan [4]
pembiayaan kendaraan sepeda motor. menggunakan algoritma C4.5 untuk
Pohon keputusan tersebut kemudian peramalan resiko keuangan pada informasi
diinterpretasikan kedalam bentuk aturan- real dari akuntansi pada perusahaan
aturan keputusan (rules) yang dapat keuangan pada tahun 2005 dan 2006.
dipahami dan digunakan sebagai acuan Penelitian ini melibatkan indeks finansial
dalam memperkirakan potensi pelunasan dan non-finansial sebagai objek penelitian,
calon debitur sebagai salah satu kriteria dan hasilnya kemampuan peramalan pada
kelayakan calon debitur. penelitian ini lebih baik daripada hanya
Menurut [1] pohon keputusan (decision melibatkan indeks finansial saja. Penelitian
tree) dapat membagi kumpulan data yang selanjutnya menggabungkan algoritma C4.5
besar (training data) menjadi himpunan- dan teori himpunan kasar (rough set
himpunan record yang lebih kecil dengan theory). Teori himpunan ini mengurangi
menerapkan serangkaian aturan keputusan atribut yang digunakan menggunakan data
(rules), sehingga anggota himpunan hasil tadi sebagai input pada algoritma C4.5
menjadi mirip satu dengan lainnya dengan untuk membuat decision tree. Hasil
memperhatikan pada variabel tujuannya penelitian menunjukkan optimasi algoritma
(target variable). Decision tree merupakan C4.5 pada penelitian ini mempunyai
salah satu metoda klasifikasi data mining efisiensi dan akurasi yang lebih tinggi
yang popular digunakan karena mudah dibandingkan hanya menggunakan
diinterprestasikan oleh manusia dengan algoritma C4.5 [5]. Beberapa penelitian
konsep dasar mengubah data menjadi yang telah dilakukan tentang data mining
pohon keputusan dan aturan-aturan menggunakan pendekatan optimasi
keputusan [1], mudah mengintegrasikan algoritma decision tree C4.5 antara lain
dengan sistem basis data dan memiliki penelitian yang dilakukan [6], teknologi
tingkat ketelitian (akurasi) yang baik diatas deteksi gangguan pada keamanan jaringan
90% [2]. Peranan pohon keputusan sebagai menggunakan metode neural network dan
alat bantu pengambilan keputusan (decision C4.5. Ide utama dari penelitian tersebut
support tool) telah dikembangkan oleh adalah memanfaatkan kemampuan
manusia untuk membantu mencari dan klasifikasi dari kedua metode tersebut untuk
membuat keputusan masalah dengan menanggulangi beberapa serangan yang
memperhitungkan berbagai macam faktor berbeda-beda. Penelitian kedua, [7] dengan
yang ada di dalam lingkup masalah menggabungkan decision tree dengan
tersebut. Dengan pohon keputusan, manusia algoritma genetika dan diuji pada 24 basis
dapat dengan mudah mengidentifikasi dan data yang berbeda. Dari hasil penelitian,
melihat hubungan antara faktor-faktor yang didapatkan bahwa tingkat kesalahan pada
mempengaruhi suatu masalah dan dapat penggabungan kedua metode ini lebih kecil
mencari penyelesaian terbaik dengan daripada hanya menggunakan decision tree.
memperhitungkan faktor-faktor tersebut. Penelitian yang lain menggunakan
Beberapa penelitian yang sudah pernah algoritma C4.5 dan ditingkatkan
dilakukan dan berkaitan dengan metoda efisiensinya pada pemilihan atribusi dan
klasifikasi data mining yang digunakan metode partisi (R-C4.5). Model ini
dalam penelitian ini. Menurut [3] menghindari munculnya fragmentasi
190
dengan menyatukan cabang yang memiliki k-nearest neighbor, Metode Rule Based,
efek yang kecil jika diklasifikasikan. Memory based reasoning, dan Support
Penelitian ini berfokus pada penerapan R- vector machines (SVM).
C4.5 untuk penelitian tentang perawatan Klasifikasi data terdiri dari 2 langkah
kesehatan yang memprediksi lama tinggal proses. Pertama adalah learning (fase
para pasien rawat inap. Hasil penelitian ini training), dimana algoritma klasifikasi
dapat membantu institusi kesehatan untuk dibuat untuk menganalisa data training lalu
mengatur dan memanfaatkan dengan direpresentasikan dalam bentuk rule
maksimal fasilitas rumah sakit yang ada [5]. klasifikasi. Proses kedua adalah klasifikasi,
[8] dengan menggabungkan algoritma dimana data tes digunakan untuk
GATS (Genetic Algorithm-Tabu Search) memperkirakan akurasi dari rule klasifikasi
sebagai strategi pencarian dan algoritma [4].
C4.5 sebagai fungsi evaluasi. Algoritma Proses klasifikasi didasarkan pada
menguji kategori dataset www, mail, p2p. empat komponen [3] :
Dengan algoritma ini dapat meningkatkan 1. Kelas. Merupakan variabel dependen
komputasi kinerja tanpa dampak negatif yang berupa kategorikal yang
pada akurasi klasifikasi. Penelitian yang merepresentasikan ‘label’ yang
lain dilakukan [6] menggunakan algoritma terdapat pada objek. Contohnya: resiko
C4.5 yang digunakan untuk peramalan penyakit jantung, resiko kredit,
resiko keuangan pada informasi real dari customer loyalty, jenis gempa.
akuntansi pada perusahaan keuangan pada 2. Predictor. Merupakan variabel
tahun 2005 dan 2006. Penelitian ini independen yang direpresentasikan
melibatkan indeks finansial dan non- oleh karakteristik (atribut) data.
finansial sebagai objek penelitian, dan Contohnya: merokok, minum alkohol,
hasilnya kemampuan peramalan pada tekanan darah, tabungan, aset, gaji.
penelitian ini lebih baik daripada hanya 3. Training dataset. Merupakan satu set
melibatkan indeks finansial saja. data yang berisi nilai dari kedua
Pada penelitian ini dilakukan analisis komponen di atas yang digunakan
untuk kemampuan algoritma C45 dan untuk menentukan kelas yang cocok
pohon keputusan dalam memprediksi berdasarkan predictor.
potensi pelunasan kredit sebagai salah satu 4. Testing dataset. Berisi data baru yang
kriteria kelayakan calon debitur, sehingga akan diklasifikasikan oleh model yang
bermanfaat bagi manajer perusahaan telah dibuat dan akurasi klasifikasi
sebagai pendukung keputusan penilaian dievaluasi.
kelayakan calon debitur baru.
Pohon keputusan merupakan metode
klasifikasi dan prediksi yang sangat
II. SIGNIFIKASI STUDI terkenal. Metode pohon keputusan
A. Studi Literatur mengubah fakta yang sangat besar menjadi
Klasifikasi adalah proses penemuan pohon keputusan yang merepresentasikan
model (atau fungsi) yang menggambarkan aturan. Aturan dapat dengan mudah
dan membedakan kelas data atau konsep dipahami dengan bahasa alami, juga dapat
yang bertujuan agar bisa digunakan untuk diekspresikan dalam bentuk bahasa basis
memprediksi kelas dari objek yang label data seperti Structured Query Language
kelasnya tidak diketahui [4]. Algoritma untuk mencari record pada kategori
klasifikasi yang banyak digunakan secara tertentu. Pohon keputusan juga berguna
luas, yaitu Decision/classification trees, untuk mengeksplorasi data, menemukan
Bayesian classifiers/ Naïve Bayes hubungan tersembunyi antara sejumlah
classifiers, Neural networks, Analisa calon variabel input dengan sebuah variabel
Statistik, Algoritma Genetika, Rough sets, target. Karena pohon keputusan
191
memadukan antara eksplorasi data dan (2)

pemodelan, pohon keputusan sangat bagus Keterangan
sebagai langkah awal dalam proses  X : himpunan kasus
pemodelan bahkan ketika dijadikan sebagai  m : jumlah partisi variabel tujuan dari S
model akhir dari beberapa teknik lain [7].  pi : probabilitas kasus dalam partisi ke-i
Secara umum Algoritma C4.5 untuk
membangun pohon keputusan adalah
sebagai berikut [7]: III. HASIL DAN PEMBAHASAN
a. Pilih atribut sebagai akar
b. Buat cabang untuk masing-masing nilai A. Arsitektur System
c. Bagi kasus dalam cabang Sistem yang dibangun menggunakan
d. Ulangi proses untuk masing-masing arsitektur sistem database tunggal, artinya
cabang sampai semua kasus pada database dan aplikasi diletakkan pada
cabang memiliki kelas yang sama. computer yang sama atau tidak berada
dalam lingkup jaringan computer [9]. Data
Untuk memilih atribut sebagai akar, yang diproses diantaranya adalah data latih
didasarkan pada nilai gain tertinggi dari (training) data) dan data calon debitur baru
atribut-atribut yang ada. Untuk menghitung sebagai data uji (testing data) dengan
gain digunakan rumus seperti yang tertera parameter jenis pekerjaan, besar
berikut: penghasilan, tenor, nilai angsuran dan status
kredit debitur. Data latih (training data)
(1) akan dimanfaatkan sebagai data masukan
Keterangan: untuk proses pembuatan pohon keputusan
S : Himpunan kasus menggunakan algoritma C4.5. Hasilnya
A : Variabel penentu berupa pohon keputusan yang kemudian
n : Jumlah partisi atribut A
|Si| : Jumlah kasus pada partisi ke i
diinterpretasikan dalam aturan keputusan
|S| : Jumlah kasus dalam S yang dapat digunakan untuk
memperkirakan apakah calon debitur baru
Sebelum mendapatkan nilai Gain mampu melunasi kredit. Antarmuka (user
adalah dengan mencari nilai Entropi. interface) disediakan untuk
Entropi digunakan untuk menentukan menghubungkan user dengan aplikasi,
seberapa informatif sebuah masukan atribut dalam mengelola data dan mengetahui
untuk menghasilkan sebuah atribut. Rumus output sistem. Arsitektur sistem dibuat
dasar dari Entropi adalah sebagai berikut: terlihat pada Gambar 1.
Gambar 1. Arsitektur Sistem
192
B. Diagram Konteks C. Diagram Level 1

Diagram konteks sistem prediksi
potensial pelunasan kredit calon debitur Data flow diagram (DFD) level 1
baru terlihat pada Gambar 2. Sistem memiliki beberapa proses diantaranya
melibatkan seseorang user yang memiliki proses pembentukan pohon keputusan,
wewenang dalam melakukan analisis proses pembentukan aturan keputusan dan
kredit calon debitur termasuk wewenang hasil prediksi potensi pelunasan calon
untuk input training data dan testing data. debitur. Training data adalah data input
Dari sejumlah training data, pohon yang akan digunakan untuk proses
keputusan akan dibentuk (generate) pembuatan pohon keputusan. Kemudian
menggunakan metoda algoritma C4.5 oleh diinterpretasikan kedalam bentuk aturan-
sistem yang kemudian diinterpretasikan aturan keputusan. Proses prediksi potensial
kedalam bentuk aturan-aturan (rules) pelunasan kredit merupakan proses
keputusan. Dengan memanfaatkan aturan- pengujian untuk memperkirakan apakah
aturan keputusan, maka dapat diperkirakan calon debitur baru (testing data) yang
potensi pelunasan kredit sebagai salah satu ditentukan mampu melunasi kredit
syarat kelayakan calon debitur. pembelian kendaraan, dan untuk
mengetahuinya dilihat dari nilai parameter
Data Kasus, Data Testing status kreditnya. Bila status kredit bernilai
lunas berarti diperkirakan calon debitur
0 tersebut mampu melunasi kredit, akan
SISTEM
tetapi jika nilai status kredit adalah tidak
ANALIS
lunas berarti diperkirakan calon debitur
tersebut tidak mampu melunasi kredit.
Pohon keputusan, Aturan Keputusan,
Proses perkiraan kredit lunas adalah proses
Hasil prediksi pelunasan kredit calon debitur
yang berfungsi memberikan keputusan
kepada setiap testing data yang masuk.
Gambar 2. Diagram Konteks
DFD level 1 dapat dilihat pada Gambar 3.
Training data
Rekam KASUS
Data kasus 1 Training data
ANALIS
TRAINING DATA
Detail training data Atribut, Gain KERJA
2 Atribut, Entropi SUB_KERJA

PEMBENTUKAN
POHON
KEPUTUSAN Data Tree
TREE
Node, Nilai
3
PEMBENTUKAN
Data Aturan ATURAN
ATURAN
Data
KEPUTUSAN
Testing
Detail Aturan Keputusan

Pohon Keputusan,
Aturan keputusan,
Hasil Perkiraan
Pelunasan Kredit 4
Calon Debitur PERKIRAAN Testing data
POTENSI UJI
PELUNASAN Rekam testing data
KREDIT
Gambar 3. Data Flow Diagram Level 1
193
D. Diagram Level 2 Proses 2 TABEL I

DFD Level 2 Proses 2 menggambarkan PEMETAAN DATA PENGUJIAN
subproses yang terjadi pada proses Uji Total Data Data Latih Data Uji
pembentukan pohon keputusan yang terdiri
1 3000 2400 600
dari proses hitung entropi dan hitung gain.
Proses hitung entropi berfungsi untuk 2 10000 8000 2000
menghitung nilai entropi total dan masing- 3 25000 20000 5000
masing atribut. Proses hitung gain berfungsi 4 50000 40000 10000
untuk menghitung nilai gain untuk masing- 5 65000 52000 13000
masing atribut. Pembentukan pohon
keputusan (Generate tree) dimulai dengan
menghitung jumlah total data dan Proses pemilihan data
menghitung jumlah data kredit lunas dan Data yang akan digunakan ditentukan
tidak lunas untuk tiap atribut di masing- secara secara acak by user yang terdiri dari
masing kategori. Proses dilanjutkan dengan 5 kategori uji, yaitu:
menghitung nilai entropi total, entropi tiap 1. 3000 record dengan pembagian 2400
atribut, dan nilai gain untuk tiap kategori. record data latih terdiri dari 1200
Data flow diagram level 2 proses 2 terlihat record status lunas dan 1200 record
pada Gambar 4. status kredit tidak lunas, 600 record
data uji terdiri dari 300 record status
KASUS kredit lunas dan 300 record status
kredit tidak lunas.
Jumlah kategori
Tiap atribut 2. 10000 record dengan pembagian 8000
record data latih terdiri dari 4000
2.1 Atribut, nilai, entropi record status kredit lunas dan 4000
HITUNG SUB_KERJA
ENTROPI Atribut, nilai, entropi record status kredit tidak lunas, 2000
record data uji terdiri dari 1000
Detail entropi per atribut record status kredit lunas dan 1000
record status kredit tidak lunas.
Atribut, nilai gain
2.2
KERJA 3. 25000 record dengan pembagian
HITUNG GAIN Atribut, nilai gain
20000 record data latih terdiri dari
Node, nilai TREE
10000 record status kredit lunas dan
10000 record status kredit tidak lunas,
5000 record data uji terdiri dari 2500
Gambar 4. Data Flow Diagram Level 2 Proses 2 record status kredit lunas dan 2500
E. Hasil record status kredit tidak lunas.
4. 50000 record dengan pembagian
Proses pengujian akan 40000 record data latih terdiri dari
memanfaatkan sejumlah data latih (training 20000 record status kredit lunas dan
data) dan data uji (testing dataset) yang 20000 record status kredit tidak lunas,
diproses melalui software aplikasi yang 10000 record data uji terdiri dari 5000
sudah dibangun. Data dalam proses record status kredit lunas dan 5000
pengujian akan dibagi dalam 5 kategori uji record status kredit tidak lunas.
berdasarkan pemetaan data pengujian yang 5. 65000 record dengan pembagian
ditetapkan. Hasil pengujian yang dilakukan 52000 record data latih terdiri dari
berupa informasi lama waktu eksekusi 26000 record status kredit lunas dan
(execution time) dalam membangun pohon 26000 record status kredit tidak lunas,
keputusan (generate tree) dan aturan 13000 record data uji terdiri dari 6500
keputusan, serta nilai prosentase akurasi record status kredit lunas dan 6500
data. record status kredit tidak lunas.
194
F. Proses pengujian dan hasil TABEL III

HASIL PEROLEHAN WAKTU EKSEKUSI PEMBUATAN
ATURAN KEPUTUSAN
1. Menghitung lama waktu proses
Waktu Eksekusi
pembentukan pohon keputusan. Uji Total Data
Generate Rules
TABEL II 1 3000 1.23 Detik
HASIL PEROLEHAN WAKTU EKSEKUSI PEMBUATAN 2 10000 1.33 Detik
POHON KEPUTUSAN 3 25000 1.44 Detik
Waktu Eksekusi 4 50000 2.02 Detik
Uji Total Data
Generate Tree 5 65000 2.88 Detik
1 3000 9 Detik
2 10000 43 Detik
3 25000 100 Detik
4 50000 175 Detik
5 65000 235 Detik
Gambar 6. Grafik waktu eksekusi pembuatan aturan

keputusan
Dari Tabel III dan Gambar 6 dapat

disimpulkan bahwa waktu yang dibutuhkan
untuk membuat aturan cukup singkat yakni
rata-rata 1,78 detik. Waktu tercepat
Gambar 5. Grafik waktu eksekusi pembuatan pohon
keputusan diperoleh pada kategori uji pertama dengan
jumlah data 3000 record. Berbeda dengan
Dari Tabel II dan Gambar 5 dapat proses pembentukan pohon keputusan
disimpulkan bahwa makin besar jumlah karena pada proses generate rules sistem
data percobaan maka waktu eksekusi yang tidak perlu melakukan proses perhitungan
dibutuhkan relatif lebih lama untuk nilai gain dan entropi melainkan hanya
membuat suatu pohon keputusan. Waktu membaca record data pada tabel database
rata-rata yang dibutuhkan untuk aturan yang menyimpan informasi guna
membangun pohon keputusan dari 5 menterjemahkan dari tree menjadi rules
kategori uji adalah 112 detik. Waktu (aturan keputusan).
tercepat terjadi pada uji pertama dengan
total data 3000 record. Hasil dipengaruhi 3. Menghitung prosentase akurasi data
oleh makin banyak data maka makin uji yang sesuai (benar)
banyaknya pula proses iterasi data dalam
proses pembuatan semua simpul pohon Untuk mengetahui akurat tidaknya dengan
menggunakan algoritma C4.5 dimana cara membandingkan antara hasil nilai
didalamnya juga terdapat proses status kredit melalui software aplikasi yang
perhitungan nilai entropi dan gain masing- dibangun dengan hasil nilai status kredit
masing simpul. sesuai data riil. Bila hasilnya sama, maka
data tersebut dianggap benar (akurat). Dari
2. Menghitung lama waktu proses Tabel IV dapat disimpulkan bahwa dari
pembentukan aturan keputusan kelima skenario uji akurasi data
195
menghasilkan rata-rata nilai akurasi data dengan perolehan waktu tercepat pada
yang bernilai benar (akurat) adalah 51,2%. kategori uji pertama dengan dengan
Paling tinggi diperoleh dari kategori uji jumlah data 3000 record yang terdiri
pertama dengan jumlah data 3000 record. dari 2400 record data latih dan 600
record data uji senilai 9 detik.
TABEL IV Sedangkan dalam proses generate rules
DATA PROSENTASE UJI AKURASI DATA BERNILAI dibutuhkan rata-rata waktu 1,78 detik
SESUAI (BENAR)
dengan perolehan waktu tercepat pada
TOTAL PROSENTASE
UJI kategori uji pertama dengan dengan
DATA HASIL BENAR
jumlah data 3000 record yang terdiri
1 3000 54 % dari 2400 record data latih dan 600
2 10000 50 % record data uji senilai 1,23 detik.
3 25000 50 % Perbandingan jumlah data disetiap
4 50000 51 % kategori uji mempengaruhi nilai
5 65000
LI. execution time, makin banyak datanya
maka semakin lama untuk proses
generate tree dan rules. Pada
4. Menghitung Prosentase nilai kelayakan pengujian akurasi data diperoleh
data uji yang tidak sesuai (salah) prosentase rata-rata nilai akurasi data
TABEL V
51,2% dengan perolehan tertinggi pada
DATA PROSENTASE UJI AKURASI DATA BERNILAI kategori uji pertama dengan total data
TIDAK SESUAI (SALAH) 3000 record terdiri dari 2400 record
Prosentase Hasil data latih dan 600 record data uji
Uji Total Data
Salah senilai 54%.
1 3000 46 %
2 10000 50 %
Penelitian yang dilakukan masih
terdapat beberapa kekurangan diantaranya
3 25000 50 %
keterbatasan jumlah training data dan
4 50000 49 %
atribut prediktor sehingga berpengaruh pada
5 65000 49 % kualitas pohon keputusan yang dihasilkan
sebagai dasar aturan untuk memprediksi
Dari Tabel V kelima skenario uji akurasi potensi pelunasan kredit sebagai salah satu
data menghasilkan rata-rata nilai akurasi kriteria kelayakan calon debitur baru.
data yang bernilai tidak akurat adalah Diharapkan pada penelitian selanjutnya
48,8%. Paling rendah diperoleh dari dapat menggunakan training data yang
kategori uji pertama dengan jumlah data lebih variatif dan jumlah atribut predictor
3000 record. lebih, serta dilengkapi dengan proses
pemangkasan pohon (prunning) untuk lebih
IV. KESIMPULAN meningkatkan tingkat akurasi.
Berdasarkan hasil pembahasan diatas,
maka didapatkan kesimpulan: REFERENSI
1. Telah dibangun rancang bangun [1] Berry Michael, J.A., dan Linoff, G.S.,
aplikasi dengan menerapkan algoritma 2004, Data Mining Techniques for
C4.5 pada pohon keputusanuntuk Marketing, Sales, Customer
memprediksi potensi pelunasan kredit Relationship Management, Second
sebagai salah satu kriteria kelayakan Edition, Willey Publishing, Inc.
calon debitur baru. [2] Chen, Y., Dai, L., dan Cheng, X.Q.,
2. Dari hasil pengujian 5 kategori uji yang 2008, GATS-C4.5: An Algorithm for
dilakukan dalam proses generate tree Optimizing Features in Flow
dibutuhkan rata-rata waktu 112 detik Classification, EEE Communications
196
Society subject matter experts for Applications, Lviu. Ukraine, Institute

publication in the IEEE CCNC 2008 of Information Technology, Riga
proceedings., 466-470. Technical University, Latvia, 8-10
[3] Gorunescu, F., 2011, Data Mining September 2003, 63-68
Concept Model and Techniques, [7] Larose, D.T., 2005, Discovering
Berlin: Springer. ISBN 978-3-642- knowledge in data : An Introduction
19720-8 to Data Mining, JohnWiley and Sons,
[4] Han, J., and Kamber, M., 2006, Data Inc., New Jersey.
Mining Concept and Tehniques. San [8] Liu, C., dan Jiang, Q., 2009, Mixed
Fransisco: Morgan Kauffman. ISBN Financial Forecasting Index System
13: 978-1-55860-901-3 Construct and Financial Forecasting
[5] Jaber, K.M., Abdullah, R., dan Rashid Study on the C4.5 Decision Tree,
N., 2012, HDT-HS: A Hybrid International Conference
Decision Tree/Harmony Search on Management and Service Science,
Algorithm for Biological Datasets, MASS '09, pp.1-4, 20-22 Sept. 2009
2012 International Conference on [9] Pressman, R.S., 1997, Software
Computer dan Information Science Engineering: A Practitioner’s
(ICCIS), 341-345. Approach, The McGraw-Hill
[6] Kornienko, Y., dan Borisov, A., 2003, Companies, Inc.
Investigation of a Hybrid Algorithm [10] Witten, I. H., Frank, E., dan Hall, M.
for Decision Tree Generation, IEEE A., 2011, Data Mining Practical
lnrernational Workshop 00 lnfelligem Machine Learning Tools and
Dah Acquisition and Advanced Techniques (3rd ed). USA: Elsevier
Coquting System: Techlogy and
197

Analisis Kinerja Decision Tree c45 Dalam 331fa130 PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisis Kinerja Decision Tree c45 Dalam 331fa130 PDF

Uploaded by

Copyright:

Available Formats

JURNAL INOVTEK POLBENG - SERI INFORMATIKA, VOL. 2, NO.

2 , NOVEMBER 2017 ISSN : 2527-9866

Analisis Kinerja Decision Tree C4.5 dalam Prediksi

Bambang Hermanto1, Azhari SN2, Fajri Profesio Putra3

Keywords: debtor, credit, c4.5, decision tree

Kata kunci: debitur, kredit, C4.5, pohon keputusan

I. PENDAHULUAN tentang perbankan adalah nasabah yang

nasabah yang bersangkutan. Definisi kredit menggabungkan algoritma GATS (Genetic

memadukan antara eksplorasi data dan (2)

Gambar 1. Arsitektur Sistem

B. Diagram Konteks C. Diagram Level 1

Detail training data Atribut, Gain KERJA

2 Atribut, Entropi SUB_KERJA

Detail Aturan Keputusan

Gambar 3. Data Flow Diagram Level 1

D. Diagram Level 2 Proses 2 TABEL I

F. Proses pengujian dan hasil TABEL III

Gambar 6. Grafik waktu eksekusi pembuatan aturan

Dari Tabel III dan Gambar 6 dapat

Society subject matter experts for Applications, Lviu. Ukraine, Institute

You might also like