PERBANDINGAN: PREDIKSI PRESTASI BELAJAR MAHASISWA

MENGGUNAKAN TEKNIK DATA MINING
(STUDY KASUS FASILKOM UNSIKA)

Sofi Defiyanti
Fakultas Ilmu Komputer Universitas Singaperbangsa Karawang
Sofi.defiyanti@unsika.ac.id

ABSTRAK
Prestasi belajar merupakan salah satu aspek yang
paling penting dalam bidang pendidikan. Prestasi
belajar yang tinggi selalu menjadi harapan semua
pihak. Bagi pihak perguruan tinggi prestasi belajar
mahasiswanya merupakan salah satu indikator efektif
proses belajar mengajar, yang sekaligus dapat
digunakan untuk meningkatkan citra perguruan tinggi
tersebut. Di perguruan tinggi prestasi belajar yang
dicapainya oleh mahasiswa menggunakan Indeks
Prestasi Kumulatif (IPK). Data akademik, data
ekonomi dan data geografis mahasiswa dapat
digunakan dalam menganalisis dan memprediksi
kinerja mahasiswa dengan menggunakan teknik-teknik
data mining diantaranya adalah teknik decision tree,
Naïve Bayes dan artificial neural network. Dengan
variabel-variabel penentu adalah umur saat masuk
perguruan tinggi, jenis kelamin, suku bangsa, asal
sekolah, sks yang diambil, IPS, pembiayaan kuliah,
status mahasiswa, penghasilan orang tua, penghasilan
pribadi, dan tempat tinggal. Dari penelitian yang telah
dilakukan maka didapat Naïve Bayes merupakan
teknik data mining yang memiliki akurasi yang paling
tinggi jika dibandingkan dengan decision tree dan
artificial neural network. Naïve Bayes juga memiliki
waktu yang paling cepat untuk membangun model
dibandingkan dua model lain. Naïve Bayes termasuk
kedalam good classification dilihat dari ROC Curve.
Kata Kunci : Data Mining, Prestasi Belajar,
Perbandingan

1. Pendahuluan
Salah satu yang menjadi faktor suatu perguruan
tinggi termasuk yang berkualitas atau tidak salah
satunya dapat dilihat dari kinerja mahasiswanya.
Terbukti, dalam borang akreditasi program studi pada
buku 3A standar 3 Mahasiswa dan Lulusan salah satu
faktornya adalah indek prestasi kumulatif. Kinerja
mahasiswa ini dapat dilihat dari Indeks Prestasi
Kumulatif yang didapat oleh mahasiswa tersebut.
dengan semakin banyaknya rata-rata IPK mahasiswa
lebih dari 3,00 maka penilaian pada isian borang inipun
akan mendapat nilai empat, nilai maksimal dari
pengisian borang tersebut. Sehingga kualitas dari suatu
program studi pun akan semakin baik.
Rata-rata IPK didapat dari data akademik
mahasiswa selama masa kuliah sampai dengan lulus.
Dengan memanfaatkan data-data akademik mahasiswa
terdahulu yang sudah ada maka dapat memprediksi
IPK mahasiswa baru dengan menggunakan teknik data
mining. Dengan mengetahui prediksi IPK mahasiswa
baru, maka pihak prodi mendapat peringatan dini agar
lebih perhatian terhadap mahasiswanya, sehingga
kualitas dari prodi tersebut tetap baik atau bahkan lebih
baik.
Data mining memiliki beberapa teknik
diantaranya adalah klasifikasi yang digunakan untuk
penemuan sekumpulan model yang menggambarkan
dan membedakan konsep atau kelas-kelas data, agar
model yang sudah dibentuk dapat digunakan untuk
memprediksi. Teknik klasifikasi dapat dikelompokkan
kedalam beberapa jenis diantaranya pohon keputusan,
Bayesian, jaringan saraf tiruan (ANN), dan lain-lain.
Beberapa penelitian dalam bidang akademik
perguruan tinggi telah banyak dilakukan dengan
menggunakan teknik klasifikasi data mining.
Diantaranya pada tahun 1996 Al Cripps pada
penelitiannya yang berjudul “Using Artificial Neural
Nets to Predict Academic Performance” menggunakan
ANN untuk memprediksi kelulusan berdasarkan data
akademik selama mahasiswa kuliah. Dalam
penelitiannya Al Cripps menggunakan variable-
variabel prediktor yang digunakan dalam penelitiannya
yaitu usia, jenis kelamin, Skor American College
Testing (ACT), ras dan kemampuan membaca. (Cripps,
1996)
Pada tahun 2005 Chandra dan Nandhini pada
penelitiannya yang berjudul “Predicting Student
Performance using Classification Techniques”
menggunakan teknik klasifikasi untuk memprediksi
kinerja siswa dengan menggunakan algoritma induksi
pohon keputusan dan naïve bayes. (Chandra &
Nandhini, 2005)
Pada tahun 2010 ying zhang, dkk dalam
penelitiannya yang berjudul “ (Y & S, 2010)”
menggunakan bebebrapa algoritma klasfifikasi dalam
data mining untuk mengetahui retensi siswa dengan
menggunakan teknik data mining. Retensi siswa akan
menjadi indikator dari kinerja akademik dan untuk
pengambilan keputuan pihak manajemen. Ying Zhang
menggunakan tiga algoritma klasifikasi dalam
penelitiannya diantaranya naïve bayes, support vectore
machine dan decision tree. Dalam penelitiannya
didapat bahwa dari ketiga algoritma tersebut yang
paling akurat adalah naïve bayes dengan 89,5% diikuti
di tempat kedua adalah Support Vectore Machine
dengan 83,5% dan terakhir adalah decision tree dengan
81,3%.
Pada tahun 2012 Surjeet Kumar, dkk dengan
penelitian yang berjudul “Mining Education Data to
Predict
Student’s Retention: A comparative Study”
membandingkan beberapa algoritma dalam teknik
klasifikasi dalam data mining yaitu ID3, C4.5 dan
ADT. Dari penelitiannya tersebut didapat algoritma
yang paling baik kinerjanya adalah ADT dengan
precision yang paling besar dengan 82,8% dan waktu
pengerjaan yang paling singkat yaitu 0,06 detik.
(Yaday, Surjeet, Bharadwaj, Brijesh, & Pal, 2012)
Fumei Weng pada thesisnya yang berjudul
“Modelling IT Student Retention at Taiwanese Higher
Education Institutions” pada tahun 2010 mengatakan
bahwa retensi siswa dapat dilihat berdasarkan variabel
demografi, data akademik dan ekonomi mahasiswa.
Maka di dapat 15 variabel dalam memprediksi retensi
siswa yaitu study major, gender, age, secondary school
type, entrance test score, admission status, residency,
first-semester credit earned, first-semester grade,
second-semester credit earned, second-semester grade,
tuition fee waiver, loan, absenteeism, and outcome.
(Weng, 2010)
Fakultas ilmu Komputer (Fasilkom) Universitas
Singaperbangsa Karawang (UNSIKA) adalah Fakultas
termuda di UNSIKA yang didirikan pada tahun 2008.
Meskipun Fakultas termuda tetapi fasilkom termasuk
fakultas yang memiliki jumlah mahasiswa terbanyak
jika dibandingkan dengan fakultas lain, yaitu pada
tahun 2012 tercatat ada 1000 mahasiswa untuk
program studi tenik informatika. Dengan banyaknya
jumlah mahasiswa yang terdaftar di fasilkom maka
membuktikan bahwa fasilkom termasuk salah satu
fakultas yang di favoritkan di UNSIKA.
Pada Desember 2012, Fasilkom UNSIKA prodi
teknik informatika melakukan akreditasinya yang
pertama dan pada bulan Februari 2013 hasil akreditasi
untuk Fasilkom UNSIKA prodi teknik informatika
keluar dengan hasil yang memuaskan yaitu mendapat
akreditasi „B‟. Dengan hasil akreditasi „B‟ maka
Fasilkom UNSIKA prodi teknik informatika termasuk
prodi terbaik di Indonesia terbukti bahwa hanya 50
prodi teknik informatika di seluruh indonesia yang
memiliki akreditasi „B‟.
Dari latar belakang yang telah di jabarkan
sebelumnya maka disini peneliti ingin melakukan
penelitian untuk menganalisis dan memprediksi kinerja
belajar mahasiswa berdasarkan variabel demografi,
data akademik dan ekonomi mahasiswa dengan
menggunakan teknik data mining pada fakultas ilmu
komputer UNSIKA.

2. Pembahasan
Metodologi yang digunakan dalam
mengembangkan data mining adalah CRISP-DM,
CRISP-DM adalah metodologi yang dibentuk oleh
komisi Eropa pada tahun 1996 yang menerapkan
standar dalam proses data mining. Dalam CRISP-DM
terdapat enam fase yang akan dilakukan dalam
penelitian pengembangan data mining sesuai dengan
ilustrasi pada Gambar 2.1.
Business
Understanding
Data
Understanding
Depyoment
Modeling
Evaluation
Data
Preparation
DATA

Gambar 1 Siklus Hidup CRISP-DM

a. Fase business Understanding (Pemahaman
Bisnis)
Fase ini merupakan fase awal dari tahapan
pemodelan fase ini berfokus pada pemahaman
dan persfektif bisnis proses dari suatu sistem,
yaitu penentuan tujuan proyek,
menerjemahkan tujuan, dan menyiapkan
strategi untuk penyampaian tujuan.
Dengan memanfatkan data-data akademik
mahasiswa terdahulu yang sudah ada maka
akan dianalisi dan dipresikdi IPK mahasiswa
dengan menggunakan teknik data mining.
Dengan mengetahui prediksi IPK mahasiswa
baru, maka pihak prodi akan mendapat
peringatan dini agar lebih perhatian terhadap
mahasiswanya sehingga kualitas dari program
studi tetap terjaga baik atau bahkan lebih baik
dari sebelumnya.
b. Fase Data Understanding (Pemahaman Data)
Pada fase ini berfokus pada pengumpulan data
awal, pembelajaran data yang sudah ada dan
verifikasi kualitas data.
Dalam penelitin ini menggunakan data
EPSBED fakultas ilmu komputer program
studi teknik informatika dati tahun 2008
sampai tahun 2011.
Selain dari data-data akademik penelitian ini
juga menggunakan data ekonomi dan
geografis. Dimana data ekonomi dan geografis
didapat dari penyebaran pertanyaan seputar
ekonomi mahasiswa dan geografis mahasiswa.

c. Fase Data Preparation (Persiapan Data)
Fase persiapan data adalah fase yang terdiri
dari pemilihan data, pembersihan data,
mengintegrasikan data, dan transformasi data
agar dapat dilanjutkan kedalam tahap
pemodelan.
Untuk data akademik, pemilihan data
dilakukan dari sebuah sistem pelaporan yang
diberi nama EPSBED. Dari 24 tabel yang ada
di program EPSBED akan digunakan dua
buah table yaitu table master mahasiswa, dan
table transaksi mahasiswa.
Data ekonomi mahasiswa di dapat dari
beberapa pertanyaan yang diajukan ke
beberapa mahasiswa yaitu terdiri dari
mahasiswa tersebut bekerja atau tidak,
mahasiswa tersebut membiayai perkulihannya,
gaji orang tua dan gaji mahasiswa tersebut jika
mahasiswa tersebut bekerja.
Data geografi mahasiswa didapat dari
beberapa pertanyaan seputar suku bangsa dan
tempat tinggal mahasiswa selama mengikuti
proses belajar mengajar.
Tabel 1 Transformasi Data


d. Fase Modeling (pemodelan) dan Evaluation
(Evaluasi)
Setelah fase persiapan data maka masuk
ketahap pemodelan dan evaluasi. Didalam
tahap ini akan dibagun beberapa model untuk
menganalisis kinerja mahasiswa yaitu dengan
Decision tree, Naïve bayes dan Artificial
Neural Network (ANN). Fase pemodelan
dilakukan bersamaan dengan fase evaluasi.
Fase evaluasi terdiri dari beberapa kegiatan
yaitu: mengevaluasi akurasi yang didapat pada
fase sebelumnya.
Pengujian akan dilakukan dengan tiga cara
yaitu yang pertama adalah confusion matrix,
ROC Curve, dan Waktu dalam pembuatan
model. Dengan masing-masing pengujian
model menggunakan 10-fold cross validation.
1. Confusion Matrix
Evaluasi dengan menggunakan model
confusion matrix pada pengujian untuk
memperkirakan objek prediksi yang benar dari
hasil klasifikasi. Akurasi sebuah klasifikasi
berpengaruh terhadap performa dari suatu
model klasifikasi dengan mendafatkan
ketepatan klasifikasi dataset terhadap kelas
aktif dan tidak aktif. Nilai akurasi dari
beberapa model yang telah di evaluasi seperti
pada tabel 2

Tabel 2. Perbandingan Akurasi
Decision
tree
Naïve
Bayes
ANN
Akurasi 61.4767 % 63.5634
%
60.5136
%

Dari hasil pengujian dengan menggunakan
confusion matrix untuk masing-masing model
di dapat hasil decision tree memiliki akurasi
sebesar 61.4767 %, Naïve Bayes memiliki
akurasi sebesar 63.5634 % dan untuk model
artifisial neural network memiliki akurasi
60.5136 %.

2. ROC Curve

Tabel 3 Perbandingan ROC Curve
Decision
tree
Naïve
Bayes
ANN
AUC 0.793 0.805 0.846

Evaluasi dengan menggunakan ROC Curve di
dapat seperti pada tabel di atas. Dari tabel 3
dapat diketahui nilai ROC curve yang paling
mendekati 1 adalah yang paling baik. Dari
hasil percobaan yang telah dilakukan didapat
bahwa algoritma Artificial Neural Network
mendapati nilai 0,846, nilai tersebut adalah
nilai yang paling tinggi jika dibandingkan
dengan model algoritma lainnya. Algoritma
Naïve Bayes mendapat peringkat kedua
dengan nilai 0,805dengan nilai tersebut model
Naïve Bayes dan Artificial Neural Network
termasuk kedalam good classification.
Sedangkan model decision tree mendapat nilai
0,793 dengan nilai yang di dapat model
decision tree termasuk kedalam Fair
Classsification.

3. Waktu

Tabel 4 Perbandingan Waktu Membangun
Model dalam Hitungan Detik
Decision
tree
Naïve
Bayes
ANN
Time
taken to
build
model
0.06 0.01 13.45

Dari hasil percobaan yang telah dilakukan di
dapat kesimpulan algoritma Naïve Bayes
merupakan algoritma yang paling akurat jika
dibandingkan dengan model yang lainnya.
Dalam uji coba ROC Curve Algoritma Naïve
Bayes bukan merupakan algoritma yang
paling tinggi nilainya jika dibandingkan
dengan algoritma yang lain, tetapi algoritma
Naïve Bayes termasuk salah satu algoritma
yang memiliki good classification. Dan
algoritma native bayes juga merupakan
algoritma yang memiliki waktu pembuatan
model yang paling cepat dibandingkan dengan
algoritma yang lainnya.
Akhir dari fase evaluasi didapat bahwa
algoritma Naïve Bayes merupakan algoritma
yang terbaik dalam kasus analisis dan prediksi
prestasi belajar mahasiswa dengan melibatkan
data akademik, ekonomi dan geografis
mahasiswa jika dibandingkan dengan
algoritma decision tree dan artificial neural
network.

e. Fase Deployment (Penempatan)
Fase yang terakhir adalah fase deployment,
pada fase ini terdapat beberapa kegiatan
diantaranya adalah rencana deployment,
rencana pemantauan dan pemeliharaan, dan
tinjauan akhir.
Dari fase evaluasi maka didapat bahwa
algoritma native bayes merupakan algoritma
yang memiliki akurasi tertinggi, termasuk
good classification dan memiliki waktu
pembangunan model yang paling cepat
diantara dua algoritma yang lainnya.
Model yang telah di dapat akan dimanfaatkan
sebagai sebuah sistem yang dapat digunakan
sebagai salah satukomponen dalam
pengambilan keputusan dalam bidang
akademik baik berupa model pembelajaran
ataupun untuk meningkatkan kualitas dari
mahasiswanya sendiri.

3. Kesimpulan
Kesimpulan yang dapat diambil dari penelitian
tentang analisis dan prediksi kinerja mahasiswa dengan
teknik data mining pada fakultas ilmu komputer
UNSIKA adalah sebagai berikut :
1. Data akademik, data ekonomi dan data geografis
mahasiswa dapat digunakan dalam menganalisis
dan memprediksi kinerja mahasiswa dengan
menggunakan teknik-teknik data mining
diantaranya adalah teknik decision tree, Naïve
Bayes dan artificial neural network. Dengan
variabel-variabel penentu adalah umur saat masuk
perguruan tinggi, jenis kelamin, suku bangsa, asal
sekolah, sks yang diambil, IPS, pembiayaan
kuliah, status mahasiswa, penghasilan orang tua,
penghasilan pribadi, dan tempat tinggal.
2. Dari penelitian yang telah dilakukan maka didapat
Naïve Bayes merupakan teknik data mining yang
memiliki akurasi yang paling tinggi jika
dibandingkan dengan decision tree dan artificial
neural network. Naïve Bayes juga memiliki
waktu yang paling cepat untuk membangun
model dibandingkan dua model lain. Naïve Bayes
termasuk kedalam good classification dilihat dari
ROC Curve.
3. Prediksi kinerja mahasiswa dapat dilakukan
dengan menggunakan teknik Naïve Bayes yang
merupakan teknik terbaik dalam memprediksi
kinerja mahasiswa dengan menggunakan data
akadmik, data ekonomi dan data geografis
mahasiswa yang terdiri dari beberapa variabel
penentu yaitu umur saat masuk perguruan tinggi,
jenis kelamin, suku bangsa, asal sekolah, sks yang
diambil, IPS, pembiayaan kuliah, status
mahasiswa, penghasilan orang tua, penghasilan
pribadi, dan tempat tinggal.

4. Daftar Pustaka

1. brijesh, B., & Saurabh, P. (2011). Mining Educational
Data to Analyze Student's Performance. International
Journal of Advanced Computer Science and Applications
, Vol. 2 No. 6.
2. Chandra, E., & Nandhini, K. (2005). Predicting Student
Performance Using Classification Techniques.
Proceedings of SPIT - IEEE Colloquium and
International Conference, (p. 83). Mumbai, India.
3. Cripps, A. (1996). Using Artificial Neural Nets to Predict
Academic Performance. ACM Symposium on Applied
Computing .
4. Sunita, A., & Lobo. (2011). Data Mining in Educational
System using WEKA. International Conference on
Emerging Technology Trends (ICETT).
5. Weng, F. (2010). Modelling IT student Retention at
Taiwanese Higher Education Institutions. Thesis School
of Business Information Technology and Logistics
College of Business RMIT University.
6. Y, Z., & S, O. (2010). Use Data Mining to Improve
Student Retention in Higher Educational - A Case Study.
ICEIS.
7. Yaday, Surjeet, K., Bharadwaj, Brijesh, & Pal, S. (2012).
Mining Educational Data to predict Student's Retention :
A Comparative Study. International Journal of Computer
Science and Information Security (IJCSIS) , Vol. 10, No.
2.


5. Biodata Penulis
Sofi Defiyanti, Memperoleh Gelar Sarjana
Komputer (S.Kom), Jurusan Sistem Informasi
Universitas Gunadarma Depok, lulus tahun 2009.
Memperoleh gelar Megister Komputer (M.Kom)
Program Pasca Sarjana Megister Ilmu Komputer
STMIK Nusa Mandiri, lulus tahun 2012. Saat ini
menjadi Dosen di Prodi Teknik Informatika
Universitas Singaperbangsa Karawang.