Professional Documents
Culture Documents
051 060 Knsi2011 009 Penerapan Data Mining Untuk Menganalisa Kemungkinan Pengunduran Diri Calon Mahasiswa Baru PDF
051 060 Knsi2011 009 Penerapan Data Mining Untuk Menganalisa Kemungkinan Pengunduran Diri Calon Mahasiswa Baru PDF
KNS&I11-009
ABSTRACT
Students are one important asset in a university, especially in private universities. The trends of acquired new students
for private universities in Indonesia has declined and made new-enrollment process more challenging than ever before.
The trend of a late forfeit of registration makes it difficult for one university to predict the number of their new intake
students in every new academic year. This research attempts to predict whether one prospective student will likely to
continue their study or not, using a data mining method called ID3 algorithm. Set of rules will be created as a basis to be
compared with new data which at the end will result in a prediction of whether a student will continue their study
(registration process) or not. This research will be conducted in Universitas Jenderal Achmad Yani (UNJANI) using a 5Year registration data. As for its end product, UNJANI will be able to predict (from the total number of registered
prospective students), the possibility of each student that will continue the process up until they are studying in UNJANI.
The output of this DSS System will be implemented in the Promotion Div of New Student Intake (HUMAS/PPMB
UNJANI) as the management will take further step in anticipating each years new student intake target.
Keywords: Data Mining, ID3 Algorithm, DSS System.
1. Pendahuluan
1.1 Latar Belakang Masalah
Perguruan tinggi kesulitan mendapatkan informasi mengenai jumlah mahasiswa baru yang akan resgistrasi dari daftar
mahasiswa yang sudah dinyatakan lulus dalam seleksi penerimaan mahasiswa baru. Hal ini biasa terjadi di perguruan
tinggi swasta dikarenakan biasanya perguruan tinggi swasta bukan menjadi pilihan pertama, sehingga apabila mereka
diterima di perguran tinggi negeri, maka biasanya perguruan tinggi swasta tersebut ditinggalkan tanpa pemberitahuan
meskipun mereka sudah dinyatakan diterima. Biasanya hal ini baru dapat diketahui pada akhir periode penerimaan
mahasiswa baru, atau pertengahan semester 1. Hal ini akan menjadi sangat terlambat untuk mengambil tindakan apabila
ternyata mahasiswa baru yang registrasi sangat sedikit jumlahnya.
1.2 Tujuan Penelitian
Penelitian ini dilakukan dengan tujuan untuk membantu pihak perguruan tinggi swasta, khususnya dalam hal
memprediksi jumlah kemungkinan mahasiswa yang akan melakukan registrasi ulang secepat mungkin.
1.3 Rumusan Masalah
Pihak perguruan tinggi kesulitan mengetahui jumlah mahasiswa yang akan registrasi dari sejumlah calon mahasiswa yang
sudah dinyatakan lolos seleksi penerimaan mahasiswa baru. Dengan tidak diketahuinya mahasiswa yang akan registrasi,
maka pihak-pihak perguruan tinggi tidak dapat mengetahui dengan pasti kapan jumlah target penerimaan mahasiswa baru
tercapai. Hal ini dikarenakan jumlah mahasiswa yang telah dinyatakan lolos seleksi penerimaan mahasiswa baru, tidak
menggambarkan jumlah mahasiswa yang akan melakukan registrasi. Apabila hal tersebut baru diketahui pada akhir
proses penerimaan mahasiswa baru akan mengakibatkan target menjadi tidak tercapai. Hal ini juga dapat menjadi
gangguan dalam hal finansial, karena biasanya pembiayaan perguruan tinggi swasta sebagian besar dari dana yang
didapatkan dari mahasiswa.
2. Landasan Teori
2.1 Data Mining
Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning
untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari database yang
besar.
Data mining juga sering disebut knowledge discovery in database (KDD), yang semua prosesnya adalah kegiatan yang
meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dengan set data yang
berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan[1].
2.2 Decision Tree Induction
Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Pohon-keputusan bekerja
dengan melibatkan/menggunakan satu set data pelatihan untuk menghasilkan pohon keputusan dengan
mengklasifikasikan data pelatihan yang merepresentasikan aturan-aturan[3]. Jika pembelajaran telah dilakukan, maka
pohon keputusan akan dibandingkan dengan mengklasifikasikan data masukan baru.
51
Konferensi Nasional Sistem dan Informatika 2011; Bali, November 12, 2011
KNS&I11-009
Data dalam pohon keputusan biasanya dinyatakan dalam bentuk Tabel dengan atribut dan record. Atribut menyatakan
suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon. Misalkan untuk menentukan main tenis, kriteria
yang paling diperhatikan adalah cuaca, angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data
solusi per-item data yang disebut target atribut. Salah satu algoritma pohon keputusan induksi yang terkenal adalah ID3,
yang dikembangkan oleh Quinland pada 1980-an.
2.2 Algoritma ID3
Algoritma ID3 merupakan sebuah metode yang digunakan untuk membangkitkan pohon keputusan. ID3 adalah algoritma
decision tree learning (algoritma pembelajaran pohon keputusan) yang paling dasar[2].
Karakteristik ID3 dalam membangun pohon keputusan adalah secara top-down. Top-down artinya pohon keputusan
dibangun dari simpul akar ke daun. Dalam prosedur algoritma ID3, input adalah berupa sampel training, label training
dan atribut. Algoritma pada metode ini berbasis pada Occams razor: lebih memilih pohon keputusan yang lebih kecil
(teori sederhana) dibanding yang lebih besar. Node dipilih dengan memilih fitur data set pelatihan yang memberikan nilai
informasi yang paling besar. Berikut algoritma dari ID3:
Algoritma ID3
(1) Create node N;
(2) If samples are all of the same class, C then
(3) Return N as a leaf node labeled with the class C;
(4) if atribute-list is empty then
(5) Return N as a leaf node labeled with the most common class in samples; // majority voting
(6) select test-atribute, atribute among atribute-list with the highest information gain;
(7) label node N with test-atribute;
(8) for each known value ai of test-atribute // partition the samples
(9) grow a branch from node N for the condition test-atribute = ai;
(10) let si be the set of samples in samples for which test-atribute = ai; // a partition
(11) if si is empty then
(12) attach a leaf labeled with the ,most common class in samples;
(13) else attach the node returned by Generate_decision_tree(si, attribute-list-test-atribute);
Adapun data sample yang digunakan oleh ID3 memiliki beberapa syarat, yaitu:
1. Deskripsi atribut-nilai.
Atribut yang sama harus mendeskripsikan tiap contoh dan memiliki jumlah nilai yang sudah ditentukan.
2. Kelas yang sudah didefinisikan sebelumnya.
Suatu atribut contoh harus sudah didefinisikan, karena mereka tidak dipelajari oleh ID3.
3. Kelas-kelas yang diskrit.
Kelas harus digambarkan dengan jelas. Kelas yang kontinu dipecah-pecah menjadi kategori-kategori yang relatif,
misalnya saja metal dikategorikan menjadi hard, quite hard, flexible, soft, dan quite soft.
4. Jumlah contoh (example) yang cukup.
Karena pembangkitan induktif digunakan, maka dibutuhkan test case yang cukup untuk membedakan pola yang valid
dari peluang suatu kejadian.
2.3 Entropy
Entropy adalah ukuran dari teori informasi yang dapat mengetahui karakteristik dari impury, dan homogenity dari
kumpulan data. Sebuah obyek yang diklasifikasikan dalam pohon harus dites nilai entropinya. Dari nilai entropy tersebut
kemudian dihitung nilai information gain (IG) masing-masing atribut. Pemillihan atribut pada ID3 dilakukan dengan
properti statistik, yang disebut dengan information gain. Dengan tujuan untuk mendefinisikan gain, pertama-tama
digunakanlah ide dari teori informasi yang disebut entropi. Entropi mengukur jumlah dari informasi yang ada pada
atribut. Rumus menghitung entropi informasi adalah:
Entropy(S) = -p+ log p+ - p- log2 pDimana:
S
= ruang (data) sample yang digunakan untuk training.
P+ = adalah jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu.
P- = adalah jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria tertentu.
(1)
52
Konferensi Nasional Sistem dan Informatika 2011; Bali, November 12, 2011
Gain(S,A) = Entropy(S) -
Dimana:
A
v
|S|
Entropy(Sv)
KNS&I11-009
Entropy(Sv)
(2)
= atribut
= menyatakan suatu nilai yang mungkin untuk atribut A
Values(A): himpunan yang mungkin untuk atribut A
= jumlah seluruh sempel data
= entropy untuk sample-sample yang memiliki nilai v
3. Metode Penelitian
Metode penelitian yang dilakukan seperti yang tergambar pada Gambar 1. Proses awal adalah mengolah data kelulusan
dan registrasi calon mahasiswa baru 5 tahun ke belakang. Data tersebut dijadikan data sample untuk membentuk pohon
keputusan yang akan membentuk aturan dengan menggunakan algoritma ID3. Setelah aturan terbentuk, selanjutnya
adalah memasukkan data calon mahasiswa baru yang sudah lolos seleksi untuk diprediksi dengan menggunakan aturan
tadi.
KOD
E_A
GAM
A
KOD
E_G
OLD
ARA
H
34
16
01
25
18
01
33
18
01
KOD
E_PR
ODI
KODE_
PEKER
JAAN
KODE_P
ENGHA
SILAN
KODE_
JURUS
ANSLT
A
53
KODE_
ASALS
EKOL
AH
000000
00
000002
12
000003
04
KOD
E_PR
ODI1
KOD
E_PR
ODI2
KOD
E_PR
ODI3
GE
LO
MB
AN
G
REGIS
TRASI
41
33
34
Tidak
41
33
25
Tidak
41
33
Tidak
34
Konferensi Nasional Sistem dan Informatika 2011; Bali, November 12, 2011
JENIS_
KELA
MIN
KOD
E_A
GAM
A
KOD
E_G
OLD
ARA
H
KODE_
PEKER
JAAN
KODE_P
ENGHA
SILAN
KODE_
JURUS
ANSLT
A
33
18
01
34
01
01
71
10
01
71
18
01
33
16
10
26
11
01
33
18
01
33
10
01
25
01
01
34
10
01
25
16
01
KOD
E_PR
ODI
KNS&I11-009
KODE_
ASALS
EKOL
AH
000002
67
000002
62
000002
30
000002
67
000000
00
000002
22
000002
71
000003
04
000001
54
000000
44
000000
00
KOD
E_PR
ODI1
KOD
E_PR
ODI2
KOD
E_PR
ODI3
GE
LO
MB
AN
G
REGIS
TRASI
41
33
71
Tidak
34
25
27
Tidak
41
71
33
Registr
asi
41
71
Tidak
33
41
71
Registr
asi
41
33
26
Tidak
41
33
34
33
71
26
33
25
41
12
41
33
33
34
Registr
asi
Registr
asi
Tidak
34
Tidak
25
Registr
asi
Node
Variable
14
Entropy
Gain
0.940285959
0.253883068
KODE_PRODI
25
0.918295834
26
33
0.970950594
34
71
JENIS_KELAMIN
0.04812703
54
Konferensi Nasional Sistem dan Informatika 2011; Bali, November 12, 2011
Node
0
Variable
JENIS_KELAMIN
KODE_AGAMA
Value
KNS&I11-009
Count
Yes
No
Entropy
0.811278124
Gain
0
I
14
0.940285959
0.269744684
KODE_GOLDARAH
0.906564975
0.970950594
0.029222566
KABUPATEN
Kab. Karawang
0.918295834
Kab. Bandung
Kota. Bandung
0.918295834
Kab. Bogor
0.811278124
0.288899139
KODE_PEKERJAAN
10
0.918295834
11
16
0.918295834
18
0.721928095
0.361724139
KODE_PENGHASILAN
0.970950594
0.811278124
0
0.113400864
KODE_JURUSANSLTA
KODE_MEDIAINFO
13
0.89049164
10
0
0.276081651
11
0.845350937
0.227845355
KODE_PRODI1
33
0.918295834
34
41
10
0.721928095
0.311947996
KODE_PRODI2
12
25
55
Konferensi Nasional Sistem dan Informatika 2011; Bali, November 12, 2011
Node
Variable
0
KODE_PRODI2
Value
KNS&I11-009
Count
Yes
No
Entropy
33
0.863120569
41
71
0.918295834
Gain
0.083143102
KODE_PRODI3
GELOMBANG
25
26
27
33
34
0.811278124
71
0.918295834
0
14
0.940285959
Dari hasil perhitungan Tabel 2 di atas maka didapatlah node induk dalam pembentukan pohon keputusan, Perhitungan
tersebut dilihat dari nilai perhitungan information gain terbesar dari atribut-atribut yang ada dengan menggunakan data
pada Tabel 1. Node yang dihasilkan dapat dilihat pada Gambar 2.
Node
Variable
No
2
Entropy
Gain
0.970950594
0.570950594
KODE_PRODI
25
33
71
0
0.419973094
JENIS_KELAMIN
0.918295834
56
Konferensi Nasional Sistem dan Informatika 2011; Bali, November 12, 2011
Node
1
Variable
KODE_AGAMA
Value
Count
Yes
KNS&I11-009
No
Entropy
Gain
0
0.970950594
0.419973094
KODE_GOLDARAH
0.918295834
0.170950594
Kab.
Kab. Bandung
Kab. Bogor
Karawang
KABUPATEN
0.970950594
KODE_PEKERJAAN
KODE_JURUSANSLTA
10
16
18
0
0
0.970950594
0.419973094
KODE_MEDIAINFO
0.918295834
0.219973094
KODE_PRODI1
33
0.5
41
0.918295834
0.570950594
KODE_PRODI2
25
33
71
0
0.970950594
KODE_PRODI3
GELOMBANG
25
26
33
34
71
0
0
0.970950594
Hasil dari perhitungan entropy dan information gain di atas menyatakan perhitungan gain yang paling besar adalah kode
pekerjaan, sehingga kode pekerjaan terpilih menjadi node daun dari kode penghasilan dari akar A. Adapun gambar pohon
yang terbentuk seperti pada Gambar 3.
57
Konferensi Nasional Sistem dan Informatika 2011; Bali, November 12, 2011
KNS&I11-009
58
Konferensi Nasional Sistem dan Informatika 2011; Bali, November 12, 2011
KNS&I11-009
8
9
JIKA KODE_PENGHASILAN = A
DAN KODE_PEKERJAAN = 01
MAKA Tidak
JIKA KODE_PENGHASILAN = A
DAN KODE_PEKERJAAN = 10
MAKA Registrasi
JIKA KODE_PENGHASILAN = A
DAN KODE_PEKERJAAN = 16
MAKA Registrasi
JIKA KODE_PENGHASILAN = A
DAN KODE_PEKERJAAN = 18
MAKA Tidak
JIKA KODE_PENGHASILAN = C
DAN KODE_PRODI = 25
MAKA Tidak
JIKA KODE_PENGHASILAN = C
DAN KODE_PRODI = 33
MAKA Registrasi
JIKA KODE_PENGHASILAN = C
DAN KODE_PRODI = 34
MAKA Tidak
JIKA KODE_PENGHASILAN = D
MAKA Tidak
JIKA KODE_PENGHASILAN = E
MAKA Registrasi
59
Konferensi Nasional Sistem dan Informatika 2011; Bali, November 12, 2011
KNS&I11-009
Untuk mendapatkan nilai yang maksimal, sebaiknya data sampel yang digunakan harus lebih banyak lagi. Data yang
digunakan sebagai data sampel dalam penelitian ini sebanyak 2000 data setelah melalui tahapan cleaning data. Semakin
banyak data sampel yang digunakan, maka semakin baik kualitas pembentukan aturan yang terbentuk.
Daftar Pustaka
[1] Fayyad, Usama. (1996). Advance in Knowledge Discovery and Data Mining. MIT Press.
[2] Wahyudin. Metode Iterative Dichotomizer 3 ( ID3 ) Untuk Penerimaan Mahasiswa Baru, Jurnal Program Studi
Ilmu Komputer, Universitas Pendidikan Indonesia, http://file.upi.edu/Direktori/FPMIPA/PRODI._ILMU_
KOMPUTER/WAHYUDIN/metode_ID3_untuk_mhs_baru.pdf, diakses terakhir tanggal 19 )ktober 2011.
[3] Defiyanti, Sofi., Pardede, Crispina, D. L. Perbandingan Kinerja Algoritma Id3 Dan C4.5 Dalam Klasifikasi
Spam-Mail, Jurnal Jurusan Sistem Informasi, Sistem Komputer, Universitas Gunadarma, http://openstorage.
gunadarma.ac.id/~mwiryana/KOMMIT/per-artikel/03-02-004-Perbandingan%5BSofi%5D.pdf, diakses terakhir
tanggal 19 Oktober 2011.
[4] Pussisfo. (2010). Data Calon Mahasiswa Baru, Universitas Jenderal Achmad Yani, Cimahi.
60