Data Mining Penerpan Mahasiswa Yang Akan Mengndurkan Diri PDF

Konferensi Nasional Sistem dan Informatika 2011; Bali, November 12, 2011
KNS&I11-009
PENERAPAN DATA MINING UNTUK MENGANALISA KEMUNGKINAN

PENGUNDURAN DIRI CALON MAHASISWA BARU
Tacbir Hendro Pudjiantoro, Faiza Renaldi, dan Age Teogunadi
Universitas jenderal Achmad Yani Cimahi
tacbir23501027@yahoo.com
ABSTRACT
Students are one important asset in a university, especially in private universities. The trends of acquired new students
for private universities in Indonesia has declined and made new-enrollment process more challenging than ever before.
The trend of a late forfeit of registration makes it difficult for one university to predict the number of their new intake
students in every new academic year. This research attempts to predict whether one prospective student will likely to
continue their study or not, using a data mining method called ID3 algorithm. Set of rules will be created as a basis to be
compared with new data which at the end will result in a prediction of whether a student will continue their study
(registration process) or not. This research will be conducted in Universitas Jenderal Achmad Yani (UNJANI) using a 5Year registration data. As for its end product, UNJANI will be able to predict (from the total number of registered
prospective students), the possibility of each student that will continue the process up until they are studying in UNJANI.
The output of this DSS System will be implemented in the Promotion Div of New Student Intake (HUMAS/PPMB
UNJANI) as the management will take further step in anticipating each years new student intake target.
Keywords: Data Mining, ID3 Algorithm, DSS System.
1. Pendahuluan
1.1 Latar Belakang Masalah
Perguruan tinggi kesulitan mendapatkan informasi mengenai jumlah mahasiswa baru yang akan resgistrasi dari daftar
mahasiswa yang sudah dinyatakan lulus dalam seleksi penerimaan mahasiswa baru. Hal ini biasa terjadi di perguruan
tinggi swasta dikarenakan biasanya perguruan tinggi swasta bukan menjadi pilihan pertama, sehingga apabila mereka
diterima di perguran tinggi negeri, maka biasanya perguruan tinggi swasta tersebut ditinggalkan tanpa pemberitahuan
meskipun mereka sudah dinyatakan diterima. Biasanya hal ini baru dapat diketahui pada akhir periode penerimaan
mahasiswa baru, atau pertengahan semester 1. Hal ini akan menjadi sangat terlambat untuk mengambil tindakan apabila
ternyata mahasiswa baru yang registrasi sangat sedikit jumlahnya.
1.2 Tujuan Penelitian
Penelitian ini dilakukan dengan tujuan untuk membantu pihak perguruan tinggi swasta, khususnya dalam hal
memprediksi jumlah kemungkinan mahasiswa yang akan melakukan registrasi ulang secepat mungkin.
1.3 Rumusan Masalah
Pihak perguruan tinggi kesulitan mengetahui jumlah mahasiswa yang akan registrasi dari sejumlah calon mahasiswa yang
sudah dinyatakan lolos seleksi penerimaan mahasiswa baru. Dengan tidak diketahuinya mahasiswa yang akan registrasi,
maka pihak-pihak perguruan tinggi tidak dapat mengetahui dengan pasti kapan jumlah target penerimaan mahasiswa baru
tercapai. Hal ini dikarenakan jumlah mahasiswa yang telah dinyatakan lolos seleksi penerimaan mahasiswa baru, tidak
menggambarkan jumlah mahasiswa yang akan melakukan registrasi. Apabila hal tersebut baru diketahui pada akhir
proses penerimaan mahasiswa baru akan mengakibatkan target menjadi tidak tercapai. Hal ini juga dapat menjadi
gangguan dalam hal finansial, karena biasanya pembiayaan perguruan tinggi swasta sebagian besar dari dana yang
didapatkan dari mahasiswa.
2. Landasan Teori
2.1 Data Mining
Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning
untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari database yang
besar.
Data mining juga sering disebut knowledge discovery in database (KDD), yang semua prosesnya adalah kegiatan yang
meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dengan set data yang
berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan[1].
2.2 Decision Tree Induction
Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Pohon-keputusan bekerja
dengan melibatkan/menggunakan satu set data pelatihan untuk menghasilkan pohon keputusan dengan
mengklasifikasikan data pelatihan yang merepresentasikan aturan-aturan[3]. Jika pembelajaran telah dilakukan, maka
pohon keputusan akan dibandingkan dengan mengklasifikasikan data masukan baru.
51
KNS&I11-009
Data dalam pohon keputusan biasanya dinyatakan dalam bentuk Tabel dengan atribut dan record. Atribut menyatakan
suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon. Misalkan untuk menentukan main tenis, kriteria
yang paling diperhatikan adalah cuaca, angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data
solusi per-item data yang disebut target atribut. Salah satu algoritma pohon keputusan induksi yang terkenal adalah ID3,
yang dikembangkan oleh Quinland pada 1980-an.
2.2 Algoritma ID3
Algoritma ID3 merupakan sebuah metode yang digunakan untuk membangkitkan pohon keputusan. ID3 adalah algoritma
decision tree learning (algoritma pembelajaran pohon keputusan) yang paling dasar[2].
Karakteristik ID3 dalam membangun pohon keputusan adalah secara top-down. Top-down artinya pohon keputusan
dibangun dari simpul akar ke daun. Dalam prosedur algoritma ID3, input adalah berupa sampel training, label training
dan atribut. Algoritma pada metode ini berbasis pada Occams razor: lebih memilih pohon keputusan yang lebih kecil
(teori sederhana) dibanding yang lebih besar. Node dipilih dengan memilih fitur data set pelatihan yang memberikan nilai
informasi yang paling besar. Berikut algoritma dari ID3:
Algoritma ID3
(1) Create node N;
(2) If samples are all of the same class, C then
(3) Return N as a leaf node labeled with the class C;
(4) if atribute-list is empty then
(5) Return N as a leaf node labeled with the most common class in samples; // majority voting
(6) select test-atribute, atribute among atribute-list with the highest information gain;
(7) label node N with test-atribute;
(8) for each known value ai of test-atribute // partition the samples
(9) grow a branch from node N for the condition test-atribute = ai;
(10) let si be the set of samples in samples for which test-atribute = ai; // a partition
(11) if si is empty then
(12) attach a leaf labeled with the ,most common class in samples;
(13) else attach the node returned by Generate_decision_tree(si, attribute-list-test-atribute);
Adapun data sample yang digunakan oleh ID3 memiliki beberapa syarat, yaitu:
1. Deskripsi atribut-nilai.
Atribut yang sama harus mendeskripsikan tiap contoh dan memiliki jumlah nilai yang sudah ditentukan.
2. Kelas yang sudah didefinisikan sebelumnya.
Suatu atribut contoh harus sudah didefinisikan, karena mereka tidak dipelajari oleh ID3.
3. Kelas-kelas yang diskrit.
Kelas harus digambarkan dengan jelas. Kelas yang kontinu dipecah-pecah menjadi kategori-kategori yang relatif,
misalnya saja metal dikategorikan menjadi hard, quite hard, flexible, soft, dan quite soft.
4. Jumlah contoh (example) yang cukup.
Karena pembangkitan induktif digunakan, maka dibutuhkan test case yang cukup untuk membedakan pola yang valid
dari peluang suatu kejadian.
2.3 Entropy
Entropy adalah ukuran dari teori informasi yang dapat mengetahui karakteristik dari impury, dan homogenity dari
kumpulan data. Sebuah obyek yang diklasifikasikan dalam pohon harus dites nilai entropinya. Dari nilai entropy tersebut
kemudian dihitung nilai information gain (IG) masing-masing atribut. Pemillihan atribut pada ID3 dilakukan dengan
properti statistik, yang disebut dengan information gain. Dengan tujuan untuk mendefinisikan gain, pertama-tama
digunakanlah ide dari teori informasi yang disebut entropi. Entropi mengukur jumlah dari informasi yang ada pada
atribut. Rumus menghitung entropi informasi adalah:
Entropy(S) = -p+ log p+ - p- log2 pDimana:
S
= ruang (data) sample yang digunakan untuk training.
P+ = adalah jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu.
P- = adalah jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria tertentu.
(1)
2.4 Infornation Gain

Information Gain adalah ukuran efektivitas suatu atribut dalam mengklasifikasikan data. Gain digunakan untuk
mengukur seberapa baik suatu atribut memisahkan training example ke dalam kelas target. Atribut dengan informasi
tertinggi akan dipilih. Secara matematis, infomation gain dari suatu atribut A, dituliskan sebagai berikut:
52
Gain(S,A) = Entropy(S) -
Dimana:
A
v
|S|
Entropy(Sv)
KNS&I11-009
Entropy(Sv)
(2)
= atribut
= menyatakan suatu nilai yang mungkin untuk atribut A
Values(A): himpunan yang mungkin untuk atribut A
= jumlah seluruh sempel data
= entropy untuk sample-sample yang memiliki nilai v
3. Metode Penelitian
Metode penelitian yang dilakukan seperti yang tergambar pada Gambar 1. Proses awal adalah mengolah data kelulusan
dan registrasi calon mahasiswa baru 5 tahun ke belakang. Data tersebut dijadikan data sample untuk membentuk pohon
keputusan yang akan membentuk aturan dengan menggunakan algoritma ID3. Setelah aturan terbentuk, selanjutnya
adalah memasukkan data calon mahasiswa baru yang sudah lolos seleksi untuk diprediksi dengan menggunakan aturan
tadi.
Gambar 1. Metode Penelitian

3.1 Pembentukan Pohon Keputusan
Proses pembentukan pohon keputusan dalam pengelolaan data digunakan untuk menurunkan atribut-atribut pada data
menjadi pohon keputusan sehingga menghasilkan aturan-aturan.
Misalnya terdapat data sample mahasiswa dari sebuah universitas, kemudian dari data tersebut dipilih atribut-atribut yang
bisa mewakili atribut lain yang ada pada data untuk dicari pola atau informasi yang ada di dalamnya. Karena keterbatasan
sample data yang digunakan, maka terpilihlah 12 atribut yang akan digunakan untuk pembentukan pohon keputusan.
Setelah pemilihan atribut, tahap selanjutnya adalah cleaning terhadap data yang terduplikasi, data yang tidak lengkap
ataupun data yang salah dalam penulisannya.
Adapun data mahasiswa yang dijadikan sebagai sample dengan 12 atribut yang dipilih untuk pembentukan pohon
keputusan, dapat dilihat pada Tabel 1.
Tabel 1. Tabel Sample Pembentukan Tree
JENIS_
KELA
MIN
KOD
E_A
GAM
A
KOD
E_G
OLD
ARA
H
34
16
01
25
18
01
33
18
01
KOD
E_PR
ODI
KODE_
PEKER
JAAN
KODE_P
ENGHA
SILAN
KODE_
JURUS
ANSLT
A
53
KODE_
ASALS
EKOL
AH
000000
00
000002
12
000003
04
KOD
E_PR
ODI1
KOD
E_PR
ODI2
KOD
E_PR
ODI3
GE
LO
MB
AN
G
REGIS
TRASI
41
33
34
Tidak
41
33
25
Tidak
41
33
Tidak
34
JENIS_
KELA
MIN
KOD
E_A
GAM
A
KOD
E_G
OLD
ARA
H
KODE_
PEKER
JAAN
KODE_P
ENGHA
SILAN
KODE_
JURUS
ANSLT
A
33
18
01
34
01
01
71
10
01
71
18
01
33
16
10
26
11
01
33
18
01
33
10
01
25
01
01
34
10
01
25
16
01
KOD
E_PR
ODI
KNS&I11-009
KODE_
ASALS
EKOL
AH
000002
67
000002
62
000002
30
000002
67
000000
00
000002
22
000002
71
000003
04
000001
54
000000
44
000000
00
KOD
E_PR
ODI1
KOD
E_PR
ODI2
KOD
E_PR
ODI3
GE
LO
MB
AN
G
REGIS
TRASI
41
33
71
Tidak
34
25
27
Tidak
41
71
33
Registr
asi
41
71
Tidak
33
41
71
Registr
asi
41
33
26
Tidak
41
33
34
33
71
26
33
25
41
12
41
33
33
34
Registr
asi
Registr
asi
Tidak
34
Tidak
25
Registr
asi
3.2 Perhitungan Entropy dan Information Gain

Penurunan atribut menjadi pohon keputusan menggunakan algoritma ID3 dilakukan dengan konsep Entropy dan
Information gain. Konsep ini digunakan untuk menentukan node induk dan node daun dalam pohon keputusan. Sebuah
obyek yang diklasifikasikan dalam pohon harus dites nilai entropinya. Entropy adalah ukuran dari teori informasi yang
dapat mengetahui karakteristik dari impury, dan homogenity dari kumpulan data. Dari nilai entropy tersebut kemudian
dihitung nilai information gain (IG) masing-masing atribut.
Pemillihan atribut pada ID3 dilakukan dengan properti statistik, yang disebut dengan information gain. Gain mengukur
seberapa baik suatu atribut memisahkan training example ke dalam kelas target. Atribut dengan informasi tertinggi akan
dipilih. Dengan tujuan untuk mendefinisikan gain, pertama-tama digunakanlah ide dari teori informasi yang disebut
entropy. Entropy mengukur jumlah dari informasi yang ada pada atribut. Setelah mendapat nilai entropy untuk suatu
kumpulan data, maka kita dapat mengukur efektivitas suatu atribut dalam mengklasifikasikan data. Ukuran efektifitas ini
disebut information gain.
Untuk penentuan node pertama dalam pembentukan pohon keputusan. Maka harus menghitung nilai entropy terlebih
dahulu. Setelah mendapatkan hasil entropy maka barulah selanjutnya dapat menghitung nilai information gain untuk
mencari node yang akan menjadi node induk. Hasil yang didapatkan untuk penghitungan terhadap entropy dan
information gain terhadap sample data pada Tabel 2, dapat dilihat pada Tabel 3.
Node
Variable
Tabel 2 Tabel Perhitungan Node Induk

Value
Count Yes No
14
Entropy
Gain
0.940285959
0.253883068
KODE_PRODI
25
0.918295834
26
33
0.970950594
34
71
JENIS_KELAMIN
0.04812703
54
Node
0
Variable
JENIS_KELAMIN
KODE_AGAMA
Value
KNS&I11-009
Count
Yes
No
Entropy
0.811278124
Gain
0
I
14
0.940285959
0.269744684
KODE_GOLDARAH
0.906564975
0.970950594
0.029222566
KABUPATEN
Kab. Karawang
0.918295834
Kab. Bandung
Kota. Bandung
0.918295834
Kab. Bogor
0.811278124
0.288899139
KODE_PEKERJAAN
10
0.918295834
11
16
0.918295834
18
0.721928095
0.361724139
KODE_PENGHASILAN
0.970950594
0.811278124
0
0.113400864
KODE_JURUSANSLTA
KODE_MEDIAINFO
13
0.89049164
10
0
0.276081651
11
0.845350937
0.227845355
KODE_PRODI1
33
0.918295834
34
41
10
0.721928095
0.311947996
KODE_PRODI2
12
25
55
Node
Variable
0
KODE_PRODI2
Value
KNS&I11-009
Count
Yes
No
Entropy
33
0.863120569
41
71
0.918295834
Gain
0.083143102
KODE_PRODI3
GELOMBANG
25
26
27
33
34
0.811278124
71
0.918295834
0
14
0.940285959
Dari hasil perhitungan Tabel 2 di atas maka didapatlah node induk dalam pembentukan pohon keputusan, Perhitungan
tersebut dilihat dari nilai perhitungan information gain terbesar dari atribut-atribut yang ada dengan menggunakan data
pada Tabel 1. Node yang dihasilkan dapat dilihat pada Gambar 2.
Gambar 2. Node Induk

Node induk mempunyai empat akar dari node, dimana akar ini dihasilkan dari data yang ada pada atribut kode
penghasilan. Node induk di atas mempunyai empat cabang A, C, D, E yang merupakan class dari data kode penghasilan.
Pencarian nilai entropy dan information gain dari node daun sama dengan perhitungan untuk pencarian node induk, tetapi
untuk perhitungan node daun entropy yang digunakan adalah perhitungan entropy dari node induk yaitu kode
penghasilan. Adapun perhitungan node daun dari akar kode penghasilan yang bernilai A dapat dilihat pada Tabel 3.
Node
Variable
Tabel 3. Perhitungan Node Daun

Value
Count Yes
No
2
Entropy
Gain
0.970950594
0.570950594
KODE_PRODI
25
33
71
0
0.419973094
JENIS_KELAMIN
0.918295834
56
Node
1
Variable
KODE_AGAMA
Value
Count
Yes
KNS&I11-009
No
Entropy
Gain
0
0.970950594
0.419973094
KODE_GOLDARAH
0.918295834
0.170950594
Kab.
Kab. Bandung
Kab. Bogor
Karawang
KABUPATEN
0.970950594
KODE_PEKERJAAN
KODE_JURUSANSLTA
10
16
18
0
0
0.970950594
0.419973094
KODE_MEDIAINFO
0.918295834
0.219973094
KODE_PRODI1
33
0.5
41
0.918295834
0.570950594
KODE_PRODI2
25
33
71
0
0.970950594
KODE_PRODI3
GELOMBANG
25
26
33
34
71
0
0
0.970950594
Hasil dari perhitungan entropy dan information gain di atas menyatakan perhitungan gain yang paling besar adalah kode
pekerjaan, sehingga kode pekerjaan terpilih menjadi node daun dari kode penghasilan dari akar A. Adapun gambar pohon
yang terbentuk seperti pada Gambar 3.
57
KNS&I11-009
Gambar 3 Node Daun Akar A

Dari Gambar 3 terlihat node daun dari kode penghasilan dengan akar A yaitu kode pekerjaan. Kode node daun tersebut
mempunyai beberapa akar yaitu 01, 10, 16, 18. Dari akar ini dicari lagi apakah masih memiliki penurunan node daun.
Dari sample pada Tabel 1 dinyatakan bahwa dari node daun kode pekerjaan tidak akan menghasilkan node daun
dikarenakan data pada atribut kode pekerjaan dengan akar 01, semua data telah mengacu pada hasil akhir yaitu tidak
melakukan registrasi. Untuk kode pekerjaan dengan akar 10, semua data telah mengacu pada hasil akhir registrasi. Untuk
kode pekerjaan dengan akar 16, semua data telah mengacu dengan hasil akhir registrasi, dan untuk node pekerjaan
dengan akar 18, semua data telah mengacu pada hasil akhir tidak registrasi. Adapun pohon keputusan yang dihasilkan
dapat dilihat pada Gambar 4.
Gambar 4 Node Akhir

Untuk perhitungan pada akar lain dari kode penghasilan dapat dilakukan menggunakan cara yang sama pada pencarian
yang dilakukan terhadap akar A dari kode penghasilan. Dari hasil perhitungan nilai entropy dan information gain secara
menyeluruh maka terbentuklah sebuah pohon keputusan, seperti pada Gambar 5.
58
KNS&I11-009
Gambar 5 Pohon Keputusan Akhir

Dari pohon keputusan pada Gambar 5 yang dihasilkan berdasarkan Tabel 1. didapat hasil analisa berdasarkan data
sample yang digunakan yang menyatakan bahwa jika pekerjaaan orang tua dengan kode penghasilan D dengan tingkat
penghasilan yang tinggi cenderung tidak melakukan registrasi karena tidak lulus pada jurusan pilihan pertama yaitu
jurusan kedokteran. Ini membuktikan bahwa kode penghasilan orang tua merupakan faktor yang menentukan dalam
keputusan akan melakukan registrasi atau tidak.
Pohon keputusan yang dihasilkan bersifat dinamis tergantung dari jumlah data dan atribut yang digunakan dalam sample
training. Dari pohon keputusan yang dihasilkan akan terbentuk aturan-aturan dari penurunan data. Dari sample
mahasiswa yang digunakan maka terbentuklah aturan-aturan:
DAFTAR ATURAN:
1
8
9
JIKA KODE_PENGHASILAN = A
DAN KODE_PEKERJAAN = 01
MAKA Tidak
MAKA Registrasi
MAKA Registrasi
MAKA Tidak
JIKA KODE_PENGHASILAN = C
DAN KODE_PRODI = 25
MAKA Tidak
DAN KODE_PRODI = 33
MAKA Registrasi
DAN KODE_PRODI = 34
MAKA Tidak
JIKA KODE_PENGHASILAN = D
MAKA Tidak
JIKA KODE_PENGHASILAN = E
MAKA Registrasi
4. Hasil Penelitian dan Diskusi

Dengan menggunakan data calon mahasiswa 2007-2009 yang digunakan sebagai data sample untuk pembentukan pohon
keputusan, didapatkan hasil kecocokan prediksi dengan menggunakan 600 data calon mahasiswa baru 2010 yang di
ujikan terdapat tingkat kecocokan hasil prediksi dengan hasil nyata sebesar 61,89%. Hasil uji tersebut menyatakan sistem
cukup layak untuk digunakan dalam prediksi calon mahasiswa baru meskipun sistem belum menghasilkan tingkat akurasi
yang maksimal.
59
KNS&I11-009
Untuk mendapatkan nilai yang maksimal, sebaiknya data sampel yang digunakan harus lebih banyak lagi. Data yang
digunakan sebagai data sampel dalam penelitian ini sebanyak 2000 data setelah melalui tahapan cleaning data. Semakin
banyak data sampel yang digunakan, maka semakin baik kualitas pembentukan aturan yang terbentuk.
Daftar Pustaka
[1] Fayyad, Usama. (1996). Advance in Knowledge Discovery and Data Mining. MIT Press.
[2] Wahyudin. Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penerimaan Mahasiswa Baru, Jurnal Program Studi
Ilmu Komputer, Universitas Pendidikan Indonesia, http://file.upi.edu/Direktori/FPMIPA/PRODI._ILMU_
KOMPUTER/WAHYUDIN/metode_ID3_untuk_mhs_baru.pdf, diakses terakhir tanggal 19 )ktober 2011.
[3] Defiyanti, Sofi., Pardede, Crispina, D. L. Perbandingan Kinerja Algoritma Id3 Dan C4.5 Dalam Klasifikasi
Spam-Mail, Jurnal Jurusan Sistem Informasi, Sistem Komputer, Universitas Gunadarma, http://openstorage.
gunadarma.ac.id/~mwiryana/KOMMIT/per-artikel/03-02-004-Perbandingan%5BSofi%5D.pdf, diakses terakhir
tanggal 19 Oktober 2011.
[4] Pussisfo. (2010). Data Calon Mahasiswa Baru, Universitas Jenderal Achmad Yani, Cimahi.
60

Data Mining Penerpan Mahasiswa Yang Akan Mengndurkan Diri PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Data Mining Penerpan Mahasiswa Yang Akan Mengndurkan Diri PDF

Uploaded by

Copyright:

Available Formats

Konferensi Nasional Sistem dan Informatika 2011; Bali, November 12, 2011

PENERAPAN DATA MINING UNTUK MENGANALISA KEMUNGKINAN

2.4 Infornation Gain

Gambar 1. Metode Penelitian

3.2 Perhitungan Entropy dan Information Gain

Tabel 2 Tabel Perhitungan Node Induk

Gambar 2. Node Induk

Tabel 3. Perhitungan Node Daun

Gambar 3 Node Daun Akar A

Gambar 4 Node Akhir

Gambar 5 Pohon Keputusan Akhir

4. Hasil Penelitian dan Diskusi

You might also like