Klasifikasi Lama Masa Studi Mahasiswa Menggunakan Perbandingan Metode Algoritma C.45 Dan Algoritma Classification and Regression Tree

Jurnal EKSPONENSIAL Volume 8, Nomor 2, Nopember 2017 ISSN 2085-7829
Klasifikasi Lama Masa Studi Mahasiswa Menggunakan Perbandingan

Metode Algoritma C.45 dan Algoritma Classification and Regression Tree
Comparison of C4.5 Algorithm and Classification and Regression Tree Algorithm In The
Classification of Study Period of Undergraduate Students
Hadi Dwi Darmawan1, Desi Yuniarti2, dan Yuki Novia Nasution3

1
Laboratorium Statistika Komputasi FMIPA Universitas Mulawarman
2,3
Jurusan Matematika FMIPA Universitas Mulawarman
1
E – mail: hadidwidarmawanstatistika13@gmail.com
Abstract
Classification is the grouping samples based on the characteristics of the similarities and differences using target
variable category. In this study, the decision tree is formed using C4.5 algorithm and Classification and regression tree
(CART) algorithm to classify a student’s study period class of 2016 FMIPA UNMUL. C4.5 algorithm is a non binary
classification tree where the branches of trees can be more than two on C4.5 algorithm, decision tree is established based
on Entropy value. The purpose of CART algorithm is to get an accurate data as group identifier of a classification. CART
can be applied in three main steps, namely the establishment of a classification tree, trimming of the classification tree,
and determination of optimal classification tree. The main goal of this research is to determine factors which may effect
on all predicate graduation who was graduated on 2016 using C4.5 algorithm and CART algorithm and also to know
comparison accuracy of classification result by C4.5 algorithm and CART algorithm. The result showed that factors
which affected the duration of all graduation using C4.5 algorithm are major (X4), region school (X5) and region origin
(X3) and factors affected to the duration of all graduation using CART algorithm are major (X4) and Cumulative
Achievement Index (X1). Precision classification in CART algorithm is better than C4.5 algorithm. C4.5 algorithm was
able to predict with 40% accuracy while the CART algorithm has a predictive accuracy of 60%.
Keywords: C4.5 algorithm, CART algorithm, classification, study periode, decision tree
Pendahuluan klasifikasi pada variabel respon baik yang

Data adalah catatan atas kumpulan fakta. nominal, ordinal maupun kontinu. Algoritma
Dalam penggunaan sehari-hari data berarti suatu CART juga dapat menyeleksi variabel dan
pernyataan yang dapat diterima. Data dapat interaksi-interaksi variabel yang paling penting
diperoleh, disimpan, diolah, dipakai dan dalam menentukan hasil atau variabel prediktor
sebagainya. Salah satu bentuk pengolahan suatu (Breiman et al, 1993). Model yang dihasilkan
data yaitu data mining. Data mining suatu istilah cukup sederhana untuk menerangkan suatu amatan
yang digunakan untuk menguraikan penemuan dikelompokkan atau diduga dalam kelompok
pengetahuan di dalam database. Data mining juga tertentu (Statsoft, 2003). Sedangkan menurut
merupakan proses yang menggunakan teknik Yohannes dan Hoddinott (1999), kelemahan dari
statistik, matematika, kecerdasan buatan, dan Algoritma CART adalah hasil akhirnya tidak
machine learning untuk menguraikan, didasarkan model probabilistik. Tidak ada tingkat
mengidentifikasi informasi yang bermanfaat, dan probabilitas dari selang kepercayaan yang
pengetahuan yang terkait dari berbagai database berhubungan dengan dugaan yang didapat dari
besar (Efraim, 2005). pohon Algoritma CART untuk pengelompokkan
Decision tree (pohon keputusan) adalah pohon data baru. (Yohannes dan Hoddinott, 1999).
klasifikasi yang digunakan sebagai prosedur Penelitian terdahulu mengenai metode
penalaran untuk mendapatkan jawaban dari Algoritma CART dan Algoritma C4.5 telah
masalah yang dikasuskan dalam decision tree, dilakukan antara lain oleh Siahaan (2015) tentang
daerah pengambilan keputusan yang sebelumnya Aplikasi Classification and regression tree dan
kompleks dapat diubah menjadi lebih sederhana. Regresi Logistik Ordinal dalam Bidang Pendidikan
Banyak algoritma yang dapat dipakai dalam dengan studi kasus Predikat Kelulusan Mahasiswa
pembentuknya decision tree seperti ID3, CART, S1 Fakultas Matematika dan Ilmu pengetahuan
C4.5, dan lain-lain. Algoritma adalah urutan Alam Universitas Mulawarman dan Chair (2016)
langkah-langkah yang logis untuk menyelesaikan tentang Aplikasi Klasifikasi Algoritma C4.5
suatu masalah (Prasetyo, 2012). dengan studi kasus Masa Studi Mahasiswa
Algoritma CART adalah salah satu metode Fakultas Matematika Dan Ilmu Pengetahuan Alam
atau Algoritma dari salah satu teknik eksplorasi Universitas Mulawarman Angkatan 2008.
data yaitu teknik pohon keputusan Algoritma Perbedaan penelitian dengan penelitian
CART dikembangkan untuk melakukan analisis
Program Studi Statistika FMIPA Universitas Mulawarman 151

sebelumnya yaitu terletak pada perbandingan Decision tree

metode yang digunakan. Classification decision tree merupakan teknik
klasifikasi yang sederhana dan banyak digunakan.
Data Mining Bagian ini membahas bagaimana decision tree
Data mining adalah suatu proses menemukan bekerja dan bagaimana decision tree dibangun.
hubungan yang berarti, pola, dan kecenderungan Seringkali untuk mengklasifikasikan obyek,
dengan memeriksa dalam sekumpulan besar data diajukan urutan pertanyaan sebelum bisa
yang tersimpan dalam penyimpanan dengan ditentukan kelompoknya. Jawaban pertanyaan
menggunakan teknik pengenalan pola seperti pertama akan mempengaruhi pertanyaan
teknik statistik dan matematika (Larose, 2005). berikutnya dan seterusnya. Dalam decision tree,
Menurut Tan (2006), secara garis besar data pertanyaan pertama akan ditanyakan pada simpul
mining dapat dikelompokkan menjadi 2 kategori akar pada level 0. Jawaban dari pertanyaan ini
utama, yaitu: dikemukakan dalam cabang-cabang. Jawaban
1. Descriptive mining, yaitu proses untuk dalam cabang akan disusul dengan pertanyaan
menemukan karakteristik penting dari data kedua lewat simpul yang berikutnya pada level 1.
dalam suatu basis data. Teknik data mining Dengan memperhatikan decision tree dalam
yang termasuk dalam descriptive mining Gambar 2 akan nampak ada 4 level pertanyaan.
adalah clustering, association, dan sequential Dalam setiap level ditanyakan nilai atribut melalui
mining. sebuah simpul. Jawaban dari pertanyaan itu
2. Predictive, yaitu proses untuk menemukan pola dikemukakan lewat cabang-cabang. Langkah ini
dari data dengan menggunakan beberapa akan berakhir di suatu simpul jika pada simpul
variabel lain di masa depan. Salah satu teknik tersebut sudah ditemukan kelas atau jenis
yang terdapat dalam predictive mining adalah obyeknya. Jika dalam satu tingkat suatu obyek
klasifikasi. sudah diketahui termasuk dalam kelas tertentu,
Secara sederhana data mining bisa dikatakan maka proses berhenti di level tersebut. Jika tidak,
sebagai proses menyaring atau “menambang” maka dilanjutkan dengan pertanyaan di level
pengetahuan dari sejumlah data yang besar. Istilah berikutnya hingga jelas ciri-cirinya dan jenis
lain untuk data mining adalah Knowledge obyek dapat ditentukan (Santosa, 2007).
Discovery in Database atau KDD. Walaupun Karakteristik dari decision tree dibentuk
sebenarnya data mining sendiri adalah bagian dari sejumlah elemen sebagai berikut (Tan, 2006).
tahapan proses dalam KDD, seperti yang terlihat 1. Node, yang menyatakan variabel, Node bisa
pada Gambar 1 (Han dan Kamber, 2001). berupa variabel akar, variabel cabang, dan
kelas.
2. Arm, setiap cabang menyatakan nilai hasil
pengujian di node bukan leaf.
3. NodeRoot, tidak mempunyai input arm yaitu
lengan masukan dan mempunyai nol atau lebih
output arm yaitu lengan keluar.
4. Nodeinternal, setiap node yang bukan leaf (non
terminal) yang mempunyai tepat satu input arm
Gambar 1. Data mining sebagai salah satu tahapan dan dua atau lebih output arm, node ini
dalam proses Knowledge Discovery in menyatakan pengujian yang didasarkan pada
Database nilai fitur.
5. Nodeleaf (terminal) adalah node yang
Menurut Thomas (2004), tujuan dari adanya mempunyai tepat satu input arm dan tidak
data mining adalah : mempunyai output arm. Node ini menyatakan
1. Explanatory, yaitu untuk menjelaskan beberapa label kelas (keputusan).
kegiatan observasi atau suatu kondisi.
2. Confirmatory, yaitu untuk mengkonfirmasi
suatu hipotesis yang telah ada.
3. Exploratory, yaitu untuk menganalisis data
baru suatu relasi yang janggal.
Menurut Larose (2005), data mining dibagi
menjadi beberapa kelompok berdasarkan tugas
yang dapat dilakukan, yaitu deskripsi, estimasi,
prediksi, klaster, asosiasi dan klasifikasi. (Larose,
2005).
Gambar 2.Contoh karateristik decision tree
152 Program Studi Statistika FMIPA Universitas Mulawarman

Algoritma C4.5 jumlah amatan minimum pada tiap-tiap gugus

Algoritma merupakan kumpulan perintah yang amatan berikutnya. Tujuan utama CART ialah
tertulis secara sistematis guna menyelesaikan untuk mendapatkan suatu kelompok data yang
permasalahan logika dari matematika. Pengertian akurat sebagai penciri dari suatu pengklasifikasian
Algoritma C4.5 adalah algoritma yang digunakan (Timofeev, 2004).
untuk membentuk decision tree. Decision tree CART mempunyai beberapa kelebihan
dapat diartikan suatu cara untuk memprediksi atau dibandingkan metode klasifikasi lainnya, yaitu
mengklasifikasi yang sangat kuat. Decision tree hasilnya lebih mudah diintreprestasikan, lebih
dapat membagi kumpulan data yang besar menjadi akurat dan lebih cepat perhitungannya, selain itu
himpunan-himpunan record yang lebih kecil CART bisa diterapkan untuk himpunan data yang
dengan menerapkan serangkaian aturan keputusan mempunyai jumlah besar, variabel yang sangat
(Fayyad, 1996). banyak dengan skala variabel campuran melalui
Secara umum Algoritma C4.5 untuk prosedur pemilahan biner (Lewis, 2000).. Metode
membangun decision tree adalah sebagai berikut CART menurut Lewis (2000) memiliki kelemahan
(Kusrini dan Luthfy, 2009) : sebagai berikut :
1. Pemilihan variabel akar, Untuk memilih 1. CART mungkin tidak stabil dalam decision
variabel akar, didasarkan pada nilai gain tree karena CART sangat sensitif dengan data
tertinggi dari variabel-variabel yang ada. baru.
Berikut adalah cara untuk menghitung nilai 2. CART sangat bergantung dengan jumlah
gain: sampel. Jika sampel data learning dan data
𝑆 testing berubah maka decision tree yang
𝐺𝑎𝑖𝑛 𝑆, 𝐴 = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 − 𝑛𝑖=1 𝑖 ×
𝑆 dihasilkan juga ikut berubah.
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖 ) (1) 3. Tiap pemilahan bergantung pada nilai yang
Sebelum mendapatkan nilai Gain, dicari hanya berasal dari satu variabel penjelas.
terlebih dahulu nilai Entropy. Entropy adalah Decision tree dibentuk dengan menggunakan
informasi mengenai proporsi pembagian kelas, algoritma penyekatan rekursif (berulang) dan
nilai Entropy berkisar mulai dari 0 sampai secara binary recursive partitioning (biner).
dengan 1, jika nilai Entropy = 0, maka Pemilahan dilakukan untuk memilah data menjadi
menandakan jumlah sampel hanya berada di dua kelompok, yaitu kelompok yang masuk simpul
salah satu kelas, sedangkan jika nilai Entropy = kiri dan yang masuk simpul kanan. Pemilahan
1, maka menandakan jumlah sampel berada di dilakukan pada tiap simpul sampai didapatkan
masing-masing kelas dengan jumlah yang suatu simpul terminal atau akhir. Variabel yang
sama. Adapun rumus dasar dari perhitungan memilah pada simpul utama adalah variabel
Entropy adalah sebagai berikut : terpenting dalam menduga kelas amatan (Lewis
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 = − 𝑛𝑖=1 𝑃𝑖 2 𝐿𝑜𝑔 𝑃𝑖 (2) and Roger, 2000).
2. Penentuan cabang untuk masing-masing nilai,
Untuk penentuan cabang sama seperti mencari Pembentukan Pohon Klasifikasi
variabel akar yaitu didasarkan pada nilai gain Proses pembentukan pohon klasifikasi terdiri
tertinggi dari variabel-variabel yang ada. atas tiga tahapan, yaitu(Lewis and Roger, 2000) :
3. Kelas dibagi dalam cabang dan apabila cabang a. Pemilihan (Classifier)
mempunyai dua kelas maka dipilih kelas yang b. Untuk membentuk pohon klasifikasi digunakan
terbanyak sampel data learning (L) yang masih bersifat
4. Proses diulang untuk masing-masing cabang heterogen. Setiap pemilihan hanya bergantung
sampai mana semua kelas pada cabang pada nilai yang berasal dari suatu variabel
memiliki kelasnya masing-masing independen. Struktur pohon klasifikasi dapat
dilihat pada Gambar 3. Penentuan Node
Classification and regression tree Terminal
Classification and regression tree (CART) Suatu node t akan menjadi node terminal
adalah salah satu metode atau algoritma dari salah atau tidak, akan dipilah kembali bila pada node
satu teknik eksplorasi data yaitu teknik decision t tidak terdapat penurunan keheterogenan
tree. CART dikembangkan untuk melakukan secara berarti atau adanya batasan minimum n
analisis klasifikasi pada variabel respon baik yang seperti hanya terdapat satu pengamatan pada
nominal, ordinal, maupun kontinu. CART tiap node anak. Umumnya jumlah kasus
menghasilkan suatu pohon klasifikasi jika variabel minimum dalam suatu terminal akhir adalah 5.
responnya kategorik dan menghasilkan pohon Dan apabila hal itu terpenuhi maka
regresi jika variabel responnya kontinu. Prinsip pengembangan pohon dihentikan.
dari metode pohon klasifikasi ini adalah memilah
seluruh amatan menjadi dua gugus amatan dan
memilah kembali gugus amatan tersebut menjadi
dua gugus amatan berikutnya, hingga diperoleh

perkiraan kesalahan klasifikasi di bawah aturan ini

adalah indeks Gini seperti pada persamaan (4).
Node t dibelah menjadi 2 subset D1dan D2
dengan ukuran masing-masing 𝑛1 dan𝑛2 , indeks
gini dari pembelahan tersebut didefinisikan
sebagai berikut :
𝑛1 𝑛2
𝐺𝑖𝑛𝑖𝑝𝑒𝑚𝑏𝑒𝑙𝑎 ℎ𝑎𝑛 𝑡 = 𝐺𝑖𝑛𝑖 𝐷1 + 𝐺𝑖𝑛𝑖 𝐷2
𝑛 𝑛
(4)
(Breimen dkk, 1993).

Pemangkasan Pohon Klasifikasi
Bagian pohon yang kurang penting dilakukan
Gambar 3. Data mining sebagai salah satu tahapan pemangkasan sehingga didapatkan pohon
dalam proses Knowledge Discover klasifikasi yang optimal. Pemangkasan didasarkan
pada suatu penilaian ukuran sebuah pohon tanpa
c. Penandaan Label Kelas mengorbankan ketepatan melalui pengurangan
Penandaan label node terminal berdasar nodepohon sehingga dicapai ukuran pohon yang
aturan jumlah anggota kelas terbanyak, yaitu : layak. Ukuran pemangkasan yang digunakan untuk
𝑁𝑗 (𝑡) memperoleh ukuran pohon yang layak tersebut
𝑝 𝑗0 𝑡 = 𝑚𝑎𝑥𝑗 𝑝 𝑗 𝑡 = 𝑚𝑎𝑥𝑗 (3) adalah cost complexity minimum (Breimen dkk,
𝑁(𝑡)
dengan 𝑝 𝑗 𝑡 adalah proporsi kelas j pada 1993).
node t, 𝑁𝑗 (𝑡) adalah jumlah pengamatan kelas j Sebagai bayangan, untuk sembarang pohon T
pada node 𝑡 dan 𝑁(𝑡) adalah jumlah yang merupakan sub pohon dari pohon terbesar
pengamatan pada node𝑡. Label kelas node Tmax diperoleh ukuran complexity-nya yaitu 𝑇
terminal 𝑡 adalah 𝑗0 yang memberi nilai dugaan yang menyatakan banyaknya node akhir pada
kesalahan pengklasifikasian node t terbesar. pohon T tersebut. Dalam regresi biasa, 𝑇 analog
Proses pembentukan pohon klasifikasi dengan derajat bebas model. Untuk suatu 𝛼 ≥
berhenti saat terdapat hanya satu pengamatan 0, 𝛼𝜖𝑅1 yang disebut sebagai complexity
dalam tiap simpul anak atau adanya batasan parameter yakni ukuran tentang cost bagi
minimum n, semua pengamatan dalam tiap penambahan satu node akhir pada pohon T, maka
node anak identik, dan adanya batasan jumlah ukuran cost complexity-nya adalah :
kedalaman pohon maksimal. Setelah terbentuk 𝑅𝛼 𝑡 = 𝑅 𝑇 + 𝛼 𝑇 (5)
pohon maksimal tahap selanjutnya adalah dimana 𝑅𝛼 𝑡 merupakan kombinasi linier nilai
pemangkasan pohon untuk mencegahnya dan kompleksitas pohon yang dibentuk dengan
terbentuk pohon klasifikasi yang berukuran menambahkan cost penalty bagi kompleksitas
sangat besar dan kompleks, sehingga diperoleh terhadap nilai bagi kesalahan klasifikasi pohon.
ukuran pohon yang layak.(Lewis and Roger, Cost penalty pruning menentukan suatu pohon
2000). bagian T(α) yang meminimumkan 𝑅𝛼 𝑡 pada
seluruh bagian, atau untuk setiap nilai α, dicari
Indeks Gini pohon bagian T(α) <Tmax yang meminimumkan
Aturan pemisahan Indeks Gini adalah aturan 𝑅𝛼 𝑡 yaitu :
yang paling luas dan yang paling sering
𝑅𝛼 𝑇 𝛼 = 𝑚𝑖𝑛 𝑇<𝑇𝑚𝑎𝑥 𝑅𝛼 (𝑇) (6)
digunakan. Aturan ini mengikuti impurity i(t),
dimana fungsinya adalah suatu fungsi yang Jika R(T) digunakan sebagai kriteria penentuan
digunakan untuk mengukur keakuratan model pohon optimal maka akan cenderung pohon
dengan memberikan indikasi kehomogenan kelas- terbesar adalah T1, sebab semakin besar pohon,
kelas pada data sehingga pada terminal node akhir maka semakin kecil nilai R(T). Jumping-off point
akan didapatkan data yang lebih akurat dalam bagi pemangkasan bukan Tmax melainkan T1 yakni
sebuah node t, misal terdapat 1,2…, j kelas. suatu sub pohon yang memenuhi kriteria R(T1) =
Sebagai penggunaan aturan pluralitas untuk R(Tmax). untuk mendapatkan T1 dan Tmax, ambil 𝑡𝐿
mengklasifikasikan objek dalam tnode, dan 𝑡𝑅 yang merupakan node dari anak kiri dan
menggunakan aturan pluralitas untuk node anak kanan dari Tmaxyang dihasilkan dari
mengklasifikasikan objek dalam t node, nodeinduk t. Kemudian hitung nilai 𝑡𝐿 dan 𝑡𝑅
menggunakan aturan yang memberikan objek yang menggunakan persamaan :
dipilih secara acak dari node atau simpul ke kelas j 𝑅 𝑡 = 𝑟 𝑡 𝑃(𝑡) (7)
dengan probabilitas adalah 𝑝 𝑗 𝑡 . Probabilitas Dengan nilai r(t) = 1 – max j 𝑃(𝑗|𝑡) dan
memperkirakan bahwa item sebenarnya di kelas i 𝑃(𝑗|𝑡)adalah peluang beberapa objek yang berada
adalah 𝑝 𝑖 𝑡 . Oleh karena itu, kemungkinan dalam node, begitu diperoleh dua node anak dan
nodeinduknya yang memenuhi persamaan :
𝑅 𝑡 = 𝑅 𝑡𝐿 + 𝑅(𝑡𝑅 ) (8)

Maka pangkas node anak 𝑡𝐿 dan 𝑡𝑅 tersebut Tabel 1. Matrix Confusion

(Breiman dkk, 1993). Kelompok
Kelompok
Jumlah
Prediksi
Aktual Observasi
Penentuan Pohon Klasifikasi Optimal 1 2
Penentuan klasifikasi yang berukuran besar 1 n11 n12 n1
akan memberikan nilai penduga pengganti paling 2 n21 n22 n2
kecil, sehingga pohon ini cenderung dipilih untuk 𝑛 12 +𝑛 21
menduga nilai respon. Tetapi ukuran pohon yang APER= (3)
𝑛 11 +𝑛 12 +𝑛 21 +𝑛 22
besar akan menyebabkan nilai kompleksitas yang 𝑛11 =banyak data dalam kelompok 1 yang secara
tinggi karena struktur data yang digambarkan benar dipetakan ke kelompok 1
cenderung kompleks, sehingga perlu dipilih pohon 𝑛12 = banyak data dalam kelompok 1 yang secara
optimal yang berukuran sederhana tetapi salah dipetakan ke kelompok 2
memberikan nilai penduga pengganti cukup kecil. 𝑛21 =banyak data dalam kelompok 2 yang secara
Ada dua jenis penduga pengganti yaitu penduga salah dipetakan ke kelompok 1
sampel uji independen dan penduga validasi silang 𝑛22 =banyak data dalam kelompok 2 yang secara
lipat V (cross validation V-fold estimate)(Breiman benar dipetakan ke kelompok 2
dkk, 1993). dapat dilihat perhitungan nilai APER yang telah
diuraikan tersebut, maka dapat dilihat nilai error-
a. Cross Validation V-Fold Estimate nya, sehingga untuk mencari nilai ketepatannya
Penduga validasi silang lipat V sering dapat menggunakan 1 - APER.
digunakan apabila amatan yang tidak cukup
besar. Amatan dalam L dibagi secara acak Lama Masa Studi
menjadi V bagian yang saling lepas dengan Pendidikan adalah suatu aktivitas sosial yang
ukuran kurang lebih sama besar untuk setiap memungkinkan masyarakat berkembang.
kelasnya. Pohon T(V) dibentuk dari L – LV Pendidikan dapat didefinisikan sebagai
dengan v = 1,2…,V. Misalkan 𝑑 𝑣 (𝑥) adalah keseluruhan pengalaman belajar setiap orang
hasil pengklasifikasian, penduga sampel uji sepanjang hidupnya yang berlangsung tidak dalam
(𝑣)
untuk R(𝑇1 ) yaitu : batas usia tertentu tetapi berlangsung sepanjang
𝑅𝑡𝑠 𝑇𝑡
𝑣
=
1
𝑋(𝑑 𝑣 (𝑥𝑛 ) ≠ 𝑗𝑛 )(9) hidup (Mudyaharjo, 2002). Pendidikan di
𝑁𝑣 (𝑥 𝑛 𝑗 𝑛 )
𝑁 Indonesia terdiri dari beberapa jenjang. Salah satu
dengan Nv = adalah jumlah amatan dalam Lv. jenjang pendidikan yang menjadi syarat dasar
𝑉
Kemudian dilakukan prosedur yang sama dalam pekerjaan saat ini adalah perguruan tinggi,
menggunakan seluruh L, maka penduga di mana perguruan tinggi akan mempersiapkan
validasi silang lipat V untuk 𝑇𝑡 𝑣 adalah : calon-calon sarjana yang handal dan mempunyai
1 𝑣 keterampilan di bidangnya(Mudyaharjo, 2002).
𝑅𝐶𝑣 𝑇𝑡 = 𝑅𝑡𝑠 (𝑇 𝑣 ) (10)
𝑉 𝑣=1 Menurut Kamus Besar Bahasa Indonesia
*
Pohon klasifikasi optimum dipilih T dengan, (KBBI), istilah sarjana berasal dari Bahasa
𝑅𝐶𝑣 𝑇 ∗ = 𝑚𝑖𝑛𝑡 𝑅𝐶𝑣 (𝑇𝑡 ) (11) Sangkakerta, yang merupakan sebuah gelar
akademik yang diberikan kepada lulusan program
(Breiman dkk, 1993). pendidikan strata satu atau undergraduate. Untuk
program Strata Satu (S1), persyaratan penyelesaian
Ketepatan Klasifikasi studi ditetapkan sekurang-kurangnya telah
Apparent Error Rate (APER) atau yang disebut menempuh 144 SKS dan sebanyak-banyaknya 160
laju error merupakan ukuran evaluasi yang SKS, dengan lama masa studi paling lama 7 tahun
digunakan untuk melihat peluang kesalahan akademik untuk program sarjana dan program
klasifikasi yang dihasilkan oleh suatu fungsi diploma 4 atau sarjana terapan (Standar Nasional
klasifikasi. Nilai APER menunjukkan proporsi Pendidikan Tinggi Nomor 44 Tahun 2015). Waktu
observasi yang salah diklasifikasikan oleh fungsi yang dibutuhkan untuk memperoleh gelar sarjana
klasifikasi. Semakin kecil nilai APER maka hasil ini sering disebut dengan Lama Masa Studi.
pengklasifikasian semakin baik (Prasetyo, 2012). Apabila terdapat seorang mahasiswa yang lama
Menurut Johnson dan Wichern (2007), terjadinya masa studinya lebih dari 7 tahun, maka mahasiswa
kesalahan klasifikasi suatu observasi merupakan tersebut akan mengalami Drop Out
hal yang sangat mungkin terjadi. Hal ini (DO).(Mudyaharjo, 2002)
dikarenakan terkadang terdapat beberapa observasi
yang tidak berasal dari kelompok tertentu tetapi Hasil dan Pembahasan
dimasukkan ke dalam kelompok tersebut. Analisis Deskriptif
Perhitungan nilai APER dapat dilakukan dengan Data yang digunakan dalam penelitian kali ini
menggunakan matriks konfusi sebagaimana Tabel adalah data pada kelulusan seluruh mahasiswa
1. FMIPA UNMUL tahun 2016. Data kelulusan pada
tahun 2016 ada sebanyak 190 sampel yang diambil

dari akademik FMIPA UNMUL. Variabel respon Analisis deskriptif ini dilakukan untuk
adalah Lama Masa Studi (Y), dengan faktor yang mengetahui karakteristik data Lama Masa Studi
diduga mempengaruhi Lama Masa Studi (Y) dengan melihat nilai tabulasi silang antar variabel.
adalah Indeks Prestasi Kumulatif (IPK) (X1), jenis Berdasarkan Gambar 4, dapat kita lihat hasil
kelamin (X2), asal daerah (X3), Program Studi diagram lingkaran dari variabel Lama Masa Studi.
(X4), dan asal sekolah (X5).
Lama Masa Studi lebih dari 5 tahun ada 74

mahasiswa dari total sebanyak 190 mahasiswa
lulusan tahun 2016 FMIPA UNMUL.
Algoritma C4.5
Pembentukan Pohon Klasifikasi
Tahap pertama dalam pembentukan pohon
klasifikasi adalah pemilihan nodeakar.
Perhitungan untuk menentukan nodeakar
menggunakan Persamaan (1) untuk menentukan
nilai gaindan Persamaan (2) untuk menentukan
Gambar 4. Diagram Lingkaran untuk Variabel nilai entropy. Variabel yang digunakan untuk
Lama Masa Studi menentukan nodeakar adalah Indeks prestasi
mahasiswa (IPK) (𝑋1 ), jenis kelamin (X2), asal
Berdasarkan Gambar 4 dapat diketahui bahwa daerah (X3), Program Studi (X4), dan asal sekolah
mahasiswa yang lulus dengan Lama Masa Studi (X5). Adapun hasil perhitungan gainberdasarkan
kurang dari sama dengan 5 tahun ada 116 Persamaan (2)dan entropy berdasarkan Persamaan
mahasiswa dan mahasiswa yang lulus dengan (1)setiap variabel disajikan dalam Tabel 2
Tabel 2. Hasil Perhitungan Gaindan Entropy Untuk NodeAkar

>5 ≤5
Node Variabel Kategori Jumlah Entropy Gain
tahun tahun
Total 152 61 91 0,97171508
IPK ≥ 3,50 7 36 0,640944185

43
1 IPK 3,00 ≤ IPK < 3,50 46 53 0,996390619 0,0939351
99
IPK < 3,00 8 2 0,721928095
10
Jenis
Perempuan 104 35 69 0,921467669 0,0270315
Kelamin
Laki-laki 48 26 22 0,994984828
Asal
Samarinda 49 23 26 0,997294382 0,0065715
Daerah
Luar Samarinda 103 38 65 0,949848553
Statistika 37 16 21 0,98678672
Program
Biologi 39 19 20 0,999525689 0,1007336
Studi
Kimia 51 9 42 0,672294817
Fisika 25 17 8 0,904381458
Asal
SMA/MA 140 54 86 0,96197806 0,0083246
Sekolah
SMK 12 7 5 0,979868757

untuk menentukan nilai gain dan Persamaan (2)

untuk menentukan entropy.Terus berlanjut sampai
ke node 57 dimana semua node tidak adanya
penurunan lagi. Karena tidak ada lagi node yang
harus diproses, maka decision tree dinyatakan
selesai. Hasil akhir decision tree disajikan pada
Gambar 6.
Analisis Classification and regression tree

(CART)
Dalam pembentukan pohon klasifikasi,
terdapat 3 tahap yaitu pemilihan pemilah,
Gambar 5. Hasil pembentukan cabang di variabel penentuan terminal node, dan penandaan label
akar kelas. Adapun data yang digunakan untuk proses
pembentukan pohon klasifikasi ada 80% sampel
Pada Gambar 5 dapat dilihat bahwa node 2, 3, 4, 5 (data learning) yaitu sebanyak 152 sampel,
membentuk node cabang karena data sampel sedangkan 20% sampel sisanya untuk data testing
masih berada pada masing-masing di dua kelas pohon klasifikasi yang terbentuk yaitu sebanyak
yaitu kelas > 5 tahun dan ≤ 5 tahun. 38 sampel.
Pada Gambar 6 dapat dilihat bahwa pada Pada penelitian ini metode pemilahan yang
program studi Statistika jika IPKnya masuk pada digunakan yaitu metode pemilahan Indeks Gini
kategori 3,00 ≤ IPK < 3,50 berasal sekolah dari sesuai dengan persamaan (2.10). Klasifikasi pada
SMK, berjenis kelamin Laki-Laki dan berasal penelitian ini dibagi menjadi dua kelas, yaitu C1:
daerah dari Samarinda maka bisa diprediksi Jika Lama Masa Studi ≤ 5 tahun = 91 mahasiswa,
bahwa dia akan lulus > 5 tahun masih berada pada C2: Jika Lama Masa Studi > 5 = 61 mahasiswa.
masing-masing di dua kelas yaitu kelas > 5 tahun Variabel IPK mempunyai tiga kategori yaitu IPK
dan ≤ 5 tahun. ≥ 3,50, 3,00 ≤ IPK < 3,50 dan IPK < 3. Maka
Selanjutnya untuk node 2, gain dan entropy kemungkinan pemilah dari variabel ini adalah
dihitung terlebih dahulu seperti pada langkah 23−1 − 1 = 22 − 1 = 3 pemilah yaitu {(IPK ≥
awal mencari node akar namun data yang 3,50, 3,00 ≤ IPK < 3,50), (IPK < 3)}, {(3,00 ≤
digunakan adalah sisa data terhadap komposisi IPK < 3,50, IPK < 3), (IPK ≥ 3,50)}, {(IPK ≥
kelas yang tidak masuk dalam node 3, node 4 dan 3,50, IPK < 3), (3,00 ≤ IPK < 3,50)}.
node 5. Perhitungan untuk menentukan untuk
node selanjutnya menggunakan Persamaan (1)
Gambar 6. Pohon Keputusan node 2 Statistika

Tabel 3. Pemilihan Pemilah Pada Setiap Variabel Prediktor

Pemilihian
Kategori Gini
Pemilah
{(IPK ≥ 3,50, 3,00 ≤ IPK < 3,50)} dan {(IPK < 3,00)} 0,4581
IPK {(3,00 ≤ IPK < 3,50, IPK < 3,00)} dan {(IPK ≥ 3,50)} 0,4356
{IPK ≥ 3,50, IPK < 3,00)} dan {(3,00 ≤ IPK < 3,50)} 0,4655
Jenis Kelamin Perempuan dan Laki-Laki 0,4623
Asal Daerah Samarinda dan Luar Samarinda 0,4741
{Statistika, Biologi, Kimia} dan {Fisika} 0,4499
{Statistika, Biologi, Fisika} dan {Kimia} 0,4295
{Statistika, Kimia, Fisika} dan {Biologi} 0,4754
Program Studi {Biologi, Kimia, Fisika} dan {Statistika} 0,4799
{Statistika, Biologi} dan {Kimia, Fisika} 0,4735
{Statistika, Kimia} dan {Biologi, Fisika} 0,4427
{Statistika, Fisika} dan {Biologi, Kimia} 0,4569
Asal Sekolah SMA/MA dan SMK 0,4748
Dari hasil perhitungan nilai indeks Gini merupakan node anak kiri dari 𝑇𝑀𝑎𝑥 yang
kelima variabel prediktor, dapat diketahui bahwa dihasilkan oleh node induk t. Jika diperoleh dua
variabel yang memiliki nilai indeks Gini terkecil node anak dan node induk yang memenuhi
adalah variabel Program Studi pemilihan Program persamaan (2.14) maka node anak 𝑡𝑅 dan 𝑡𝐿 dapat
Studi kemungkinan ke dua yaitu dengan kategori dipangkas.Terdapat node yang akan dipangkas
{Statistika, Biologi, Fisika} dan {Kimia}, dengan yaitu node pada kedalaman empat sampai dengan
nilai indeks Gini0,4295.Sehingga variabel kedalaman 9. Node tersebut mengalami
Program Studi pemilihan Program Studi pemangkasan karena node induk dan
kemungkinan kedua dipilih sebagai pemilah nodeanaknya memenuhi persamaan (8).Setelah
pertama seperti Gambar 7. dilakukan proses pemangkasan sampai selesai,
Tahap selanjutnya adalah melakukan pohon maka akan terbentuk suatu pohon optimal. Pohon
klasifikasi maksimal. Proses pemangkasan pohon klasifikasi optimal untuk data predikat kelulusan
klasifikasi dimulai dengan mengambil 𝑡𝑅 yang mahasiswa dapat dilihat pada gambar 8.
merupakan node anak kanan dan 𝑡𝐿 yang
Gambar 7. Variabel Pemilah Pertama

Gambar 8. Pohon Klasifikasi Optimal Secara Rinci

1. Faktor-faktor yang berpengaruh pada Lama
Perbandingan Hasil Klasifikasi Algoritma Masa Studi kelulusan seluruh mahasiswa
C4.5 dan Algoritma CART FMIPA UNMUL tahun 2016 dengan
Berdasarkan analisis data yang telah dilakukan menggunakan metode C4.5 adalah Program
maka perbandingan ketepatan klasifikasi antara studi (𝑋4 ),Asal Sekolah (𝑋5 ) dan Asal Daerah
Algoritma C4.5 dan Algoritma CART diberikan (𝑋3 ).
pada Tabel4. 2. Faktor-faktor yang berpengaruh pada Lama
Masa Studi kelulusan seluruh mahasiswa
Tabel 4. Ketepatan Klasifikasi Kedua Metode FMIPA UNMUL tahun 2016 dengan
menggunakan metode CART adalah Program
C4.5 CART
studi (𝑋4 ) dan Indeks Prestasi Kumulatif
APER 60 % 40 % (IPK) (𝑋1 )
Ketepatan 40 % 60 % 3. Hasil ketepatan klasifikasi pada metode
algoritma C4.5 dan algoritma CART,
Dari Tabel 4 dapat diketahui bahwa perbedaan diperoleh nilai persentase ketepatan klasifikasi
hasil klasifikasi antara metode Algoritma C4.5 metode algoritma C4.5 sebesar 40% dan nilai
dan metode Algoritma CART terpaut jauh. persentase ketepatan klasifikasi metode
Ketepatan klasifikasi baik dengan menggunakan algoritma CART sebesar 60%. Dengan
metode Algortima C4.5 dan metode Algoritma demikian metode algoritma CART merupakan
CART, diperoleh nilai persentase ketepatan metode yang lebih baik dibandingkan
klasifikasi metode Algoritma C4.5 sebesar 40 % algoritma C4.5 dalam pengklasifikasian data
dan nilai persentase ketetapatan klasifikasi Lama Masa Studi kelulusan seluruh
metode Algoritma CART sebesar 60 %. mahasiswa FMIPA UNMUL tahun 2016.
Berdasarkan nilai ketepatan klasifikasi, pada
metode Algoritma C4.5 mempunyai ketepatan Daftar Pustaka
yang lebih rendah. Dengan demikian metode Breiman, L., Friedman, J.H. Olsen, R.A. dan
Algoritma CART merupakan metode yang lebih Stone, C.J. (1993). Classification and
baik dibandingkan algoritma C4.5 dalam regression tree, New York: Chapman and
pengklasifikasian data Lama Masa Studi Hall.
kelulusan seluruh mahasiswa FMIPA UNMUL Efraim, Turban, J.E. Aronson, dan T.P. Liang.
tahun 2016. (2005). Decision Support Systems and
Intelligent System. Yogyakarta: Andi
Kesimpulan Offset.
Berdasarkan hasil analisis dan pembahasan Fayyad, U. (1996). Advances in Knowledge
yang dilakukan, diperoleh kesimpulan sebagai Discovery and Data Mining. Yogyakarta:
berikut : MIT Press.

Han J. and Kamber M. (2001). Data Mining, Santosa B. (2007). Data Mining: Menambang
Concepts and Techniques. Simon Fraser Permata Pengetahuan di Gunung Data.
University: Morgan Kaufmann Publisher. Yogyakarta: Graha Ilmu.
Johnson, R.A.and Wichen, D.W. (2002). Apllies Statsoft (2003). Classification and regression
Multivariate Statistical Analysis. USA: trees Theory and
Prentice-Hall. Application.http://www.statsoft.com/textbo
Kusrini, dan E. T. Luthfy. (2009). Algoritma Data ok/stcart.html. Diakses pada tanggal 10
Mining. Yogyakarta: Andi Offset. Februari 2017.
Larose, (2005). Discovering Knowledge in Data: Tan, P. N., M. Steinbach., dan V. Kumar. (2006).
An Introduction to Data Mining. New Introduction to Data Mining. New York :
Jersey: John Willey and Sons. Pearson Education.
Lewis, R.J. (2000). An Introduction to Thomas, E. (2004). Data Mining: Definition and
Classification and regression tree Analysis. Decision tree Examples, USA : Pearson
Annual Meeting of the Society for Education
Academic Emergency Medicine in San Timofeev, R. (2004). Classification an Regresion
Fransisco. California: Departement of Trees Theory and Application. A Master
Emergency Medicine. Thesis. Center Applied Statistics and
Mudyaharjo. (2002). Filsafat ilmu pendidikan. Economics. Berlin: Humboldt University.
Bandung: Remaja Rosdakarya. Yohannes, Y. dan Hoddinott, J. (1999).
Prasetyo, E. (2012). Data Mining: Konsep dan Classification and regression tree: An
Aplikasi Menggunakan Matlab. Introduction. Washington, D.C:
Yogyakarta: Andi Offset. International Food Policy Research
Institute.

Klasifikasi Lama Masa Studi Mahasiswa Menggunakan Perbandingan Metode Algoritma C.45 Dan Algoritma Classification and Regression Tree

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Klasifikasi Lama Masa Studi Mahasiswa Menggunakan Perbandingan Metode Algoritma C.45 Dan Algoritma Classification and Regression Tree

Uploaded by

Copyright:

Available Formats

Jurnal EKSPONENSIAL Volume 8, Nomor 2, Nopember 2017 ISSN 2085-7829

Klasifikasi Lama Masa Studi Mahasiswa Menggunakan Perbandingan

Hadi Dwi Darmawan1, Desi Yuniarti2, dan Yuki Novia Nasution3

Pendahuluan klasifikasi pada variabel respon baik yang

Program Studi Statistika FMIPA Universitas Mulawarman 151

sebelumnya yaitu terletak pada perbandingan Decision tree

152 Program Studi Statistika FMIPA Universitas Mulawarman

Algoritma C4.5 jumlah amatan minimum pada tiap-tiap gugus

Program Studi Statistika FMIPA Universitas Mulawarman 153

perkiraan kesalahan klasifikasi di bawah aturan ini

(Breimen dkk, 1993).

154 Program Studi Statistika FMIPA Universitas Mulawarman

Maka pangkas node anak 𝑡𝐿 dan 𝑡𝑅 tersebut Tabel 1. Matrix Confusion

Program Studi Statistika FMIPA Universitas Mulawarman 155

Lama Masa Studi lebih dari 5 tahun ada 74

Tabel 2. Hasil Perhitungan Gaindan Entropy Untuk NodeAkar

IPK ≥ 3,50 7 36 0,640944185

156 Program Studi Statistika FMIPA Universitas Mulawarman

untuk menentukan nilai gain dan Persamaan (2)

Analisis Classification and regression tree

Gambar 6. Pohon Keputusan node 2 Statistika

Program Studi Statistika FMIPA Universitas Mulawarman 157

Tabel 3. Pemilihan Pemilah Pada Setiap Variabel Prediktor

Asal Sekolah SMA/MA dan SMK 0,4748

Gambar 7. Variabel Pemilah Pertama

158 Program Studi Statistika FMIPA Universitas Mulawarman

Gambar 8. Pohon Klasifikasi Optimal Secara Rinci

Program Studi Statistika FMIPA Universitas Mulawarman 159

160 Program Studi Statistika FMIPA Universitas Mulawarman

You might also like