You are on page 1of 7

Volume 2, No.

2, Desember 2018 e-ISSN 2580-9741


p-ISSN 2088-3943

PREDIKSI DALAM PENJURUSAN SISWA BARU TINGKAT


SMA MENGGUNAKAN ALGORITMA NAÏVE BAYES
CLASSIFIER
Sumarni Adi
Informatika
Universitas Amikom Yogyakarta, Jl. Ring Road Utara, Yogyakarta, 55281 Indonesia

sumarni.a@amikom.ac.id

Abstract
Schools every year must receive new students. Acceptance of new students is done at every level, both from
the level of kindergarten to high school. Acceptance of new students through the admission process, the
entrance selection process is also carried out by the high school to determine the appropriate majors
according to the students' academic abilities and the capacity of the school. Every year the number of
applicants for new high school students continues to increase, but the number of students accepted in the
Science or Social Sciences major, each year remains with a certain composition. Thus, it is necessary to
develop a system to do data mining from the stack of data that will be used for certain purposes, one of which
is to analyze the academic feasibility of students to enter the right direction. Naive Bayes Classifier is an
approach that refers to Bayes's theorem that combines previous knowledge with new knowledge. So that it is
one of the simple but high-accuracy classification algorithms to predict further data. For this reason, this
research will prove the ability of Naive Bayes Classifier to predict the selection data of new students' test
results that inform academic feasibility to proceed to science or social studies majors. The selection test
results of the new students are preprocessed, so that the data becomes "clean", so that it is feasible to do the
next process. Then from the preprocessing classification is done with the Naive Bayes Classifier, so as to
produce a classification probability model to predict the class of the next new student registrant. From the
prediction results using the Naïve Bayes Classifier algorithm compared to the real conditions, the results are
appropriate.

Keywords: new students, predictions, naïve bayes classifier

Abstrak
Sekolah setiap tahun pasti melakukan penerimaan siswa baru. Penerimaan siswa baru dilakukan disetiap
tingkatan, baik dari tingkat TK hingga SMA. Penerimaan siswa baru melalui proses seleksi masuk, proses
seleksi masuk juga dilakukan oleh pihak SMA untuk menentukan jurusan yang tepat sesuai kemampuan
akademik siswa dan kapasitas daya tampung sekolah.Setiap tahun jumlah pendaftar siswa barutingkat SMA
ini terus mengalami peningkatan, namun jumlah yang diterima di jurusan IPA atau IPS, setiap tahunnya tetap
dengan komposisi tertentu. Dengan demikian, perlu dikembangkan sistem untuk melakukan data mining dari
tumpukan data tersebut yang akan digunakan untuk kepentingan tertentu, salah satunya adalah untuk
menganalisis kelayakan akademik siswa agar masuk ke jurusan yang tepat. Naive Bayes Classifier merupakan
pendekatan yang mengacu pada teorema Bayes yang mengombinasikan pengetahuan sebelumnya dengan
pengetahuan baru. Sehingga merupakan salah satu algoritma klasifikasi yang sederhana namun memiliki
akurasi tinggi untuk memprediksi data selanjutnya. Untuk itu, dalam penelitian ini akan dibuktikan
kemampuan Naive Bayes Classifier untuk memprediksi data seleksi hasil tes siswa baru yang
menginformasikan kelayakan akademik untuk melanjutkan ke jurusan IPA atau IPS. Data seleksi hasil tes
siswa baru dilakukan preprocessing, agar data tersebut menjadi “bersih”, sehingga layak untuk dilakukan
proses selanjutnya. Kemudian dari preprocessing ini dilakukan klasifikasi dengan Naive Bayes Classifier,
sehingga menghasilkan model probabilitas klasifikasi untuk memprediksi kelas pada pendaftar siswa baru
selanjutnya. Dari hasil prediksi menggunakan algoritma Naïve Bayes Classifierdibandingkan dengan kondisi
nyata, hasilnya sesuai.

Kata Kunci : Siswa baru, prediksi, naïve bayes classifier

I. PENDAHULUAN untuk menjaga kualitas, dengan mengukur


Sekolah setiap tahun pasti melakukan kemampuan akademis calon siswa baru dan
penerimaan siswa baru. Penerimaan siswa baru menyesuaikan daya tampung sekolah. proses
dilakukan disetiap tingkatan, baik dari tingkat TK seleksi masuk juga dilakukan oleh pihak SMA
hingga SMA. Proses penerimaan siswa baru untuk menentukan jurusan yang tepat sesuai
biasanya melalui tahap seleksi berkas dan kemampuan akademik siswa dan kapasitas daya
dilanjutkan tes ujian tertulis. Tahap ini dilakukan tampung sekolah. Setiap tahun jumlah pendaftar

45
Jurnal Mantik Penusa Vol. 2, No. 2 Desember 2018, pp.45-51 Terakreditasi DIKTI No.SK 21/E/KPT/2018
Volume 2, No. 2, Desember 2018 e-ISSN 2580-9741
p-ISSN 2088-3943

siswa baru tingkat SMA ini terus mengalami classifier merupakan salah satu algoritma
peningkatan, namun jumlah yang diterima di klasifikasi yang sederhana namun memiliki
jurusan IPA atau IPS, setiap tahunnya tetap kemampuan dan akurasi tinggi[2].
dengan komposisi tertentu. Dengan teknik klasifikasi menggunakan
Namun perkembangan pola pemikiran algoritma naive bayes classification (NBC) dalam
masyarakat saat ini tentang pentingnya dunia pengolahan data tersebut, diharapkan dapat
pendidikan, serta didukung juga dengan program dibangun sebuah model yang mana model
pemerintah tentang wajibnya masyarakat tersebut dapat digunakan untuk
memperoleh pendidikan hingga tingkat SMA, memprediksipenerimaan siswa barusesui dengan
mengakibatkanjumlah pendaftar siswa baru setiap kemampuan akademiknya dan daya tampung
tahun meningkat drastis. Hal ini mendorong sekolah dengan melakukan sistem peringkat. Hal
terbentuknya suatu timbunan data-data yang ini diharapakan agar siswa dapat terdistribusi
berukuran sangat besar di sekolah. Data-data dengan baiksesuai kemampuan akademisnya.
tersebut pada umumnya berasal dari data entry,
kemudian oleh komputer data tersebut disimpan II. TEORI
ke dalam server. Di dalam server data diubah a. Data Mining
menjadi informasi yang disimpan dalam bentuk Data mining merupakan proses menggali dan
tabel-tabel. Informasi yang didapat dari data menganalisa sejumlah data yang sangat besar
dalam bentuk tabel-tabel tersebut sangat sedikit untuk memperoleh sesuatu yang benar, baru dan
yang dapat dimanfaatkan oleh pihak manajemen bermanfaat dan akhirnya dapat ditemukan suatu
sekolah dalam menganalisis penerimaan siswa corak atau pola dalam data tersebut [1]. Secara
baru, oleh karena itu perlu adanya aktivitas garis besar data mining dapat dikelompokkan
penggalian (ekstraksi) data yang masih menjadi dua kategori utama, yaitu [3] :
tersembunyi untuk selanjutnya diolah menjadi 1. Deskriptif Mining, yaitu proses untuk
pengetahuan yang bermanfaat dalam pengambilan menemukan karakteristik penting dari data
keputusan. Proses yang secara otomatis untuk dalam suatu basis data. Teknik data mining
menemukan informasi yang berharga dari yang termasuk dalam descriptif mining adalah
repositori data yang sangat besar disebut dengan clustering, association, dan sequential mining.
data mining [1]. 2. Prediktif, yaitu proses untuk menemukan pola
Data mining merupakan sebuah proses dari dari data dengan menggunakan beberapa
knowledge discovery (penemuan pengetahuan) variabel untuk membuat prediksi variabel lain
dari data yang sangat besar [1]. Dengan demikian, dimasa depan. Teknik yang termasuk dalam
dari tumpukan data tersebut akan didapat beragam Prediktif mining antara lain klasifikasi, regresi
informasi yang berharga dan penting yang dan deviasi.
sebelumnya tidak diketahui. Data mining adalah bagian integral dari
Ada banyak teknik yang bisa dilakukan untuk penemuan pengetahuan dalam database atau
melakukan klasifikasi data diantaranya decision dikenal dengan Knowledge Discovery in
tree, bayesian classifier, bayesian belief network Databases (KDD) yang merupakan proses
dan rule based classifiers[1]. Namun dalam keseluruhan mengubah data mentah menjadi
penelitian ini akan dikembangkan sistem dengan pola-pola data yang menarik yang merupakan
menggunakan teknik klasifikasi naive bayes informasi yang dibutuhkan oleh pengguna sebagai
classifiers, dimana model yang dihasilkan akan pengetahuan. Berikut adalah langkah-langkah
digunakan untuk prediksi data baru berikutnya. yang terjadi dalam proses KDD [1] :
Pendekatan ini merupakan pendekatan yang 1. Selection, dalam tahap ini dilakukan
mengacu pada teorema bayes, dimana teorema ini pemahaman terhadap permasalahan yang akan
merupakan prinsip peluang statistika untuk dicari solusinya melalui penemuan
mengkombinasikan pengetahuan sebelumnya pengetahuan, pengetahuan sebelumnya yang
dengan pengetahuan baru. Prinsip ini kemudian relevan, penentuan tujuan dan pemilihan data
digunakan untuk memecahkan masalah klasifikasi yang akan dianalisis.
[1]. Data tes siswa baru akan diolah berdasarkan 2. Preprocessing, dalam tahap ini dilakukan proses
data-data variabel yang terdapat dalam komponen preprocessing data termasuk kegiatan
seleksi siswa baruyangmendaftar yang jumlahnya pembersihan data.
ratusan bahkan ribuan record. Dengan demikian, 3. Transformation, dalam tahap ini dilakukan
dalam pengolahan data akan menghasilkan pengurangan dan atau pengubahan tipe data
dimensi yang sangat besar. Oleh sebab itu, menjadi standar, sehingga data siap untuk
diperlukan algoritma yang sederhana agar proses dipresentasikan ke teknik-teknik data mining.
pengolahan dapat efektif dan efisien. Penggunaan 4. Data mining, dalam tahap ini dilakukan
algoritma ini dinilai sesuai karena naive bayes pemilihan tugas data mining yang sesuai

46
Jurnal Mantik Penusa Vol. 2, No. 2 Desember 2018, pp.45-51 Terakreditasi DIKTI No.SK 21/E/KPT/2018
Volume 2, No. 2, Desember 2018 e-ISSN 2580-9741
p-ISSN 2088-3943

dengan tujuan dan algoritma data mining untuk dikembalikan atau dalam kategori aman.
pencarian pola. Dalam klasifikasi terdapat dua tahapan, pada
5. Interpretation,dalam tahap ini dilakukan tahap pertama model classifier akan dibentuk
visualisasi dan interpretasi terhadap pola yang berdasarkan data set atau data training
ditemukan untuk dijadikan pengetahuan. menggunakan algoritma klasifikasi, proses ini
Ilustrasi dari langkah-langkah yang ada di disebut dengan tahap pembelajaran (learning step).
dalam KDD ditunjukkan dalam Gambar 1. Model classifier selanjutnya digunakan untuk
menentukan label class berdasarkan atribut [1].
Data training dapat direpresentasikan
menggunakan database, dimana setiap atribut
ditempatkan pada tiap kolom dalam database.
Tahapan kedua, dilakukan evaluasi terhadap
model classifier untuk mendapatkan nilai
akurasi.Jika nilai akurasi sesuai dengan yang
diharapkan, maka classifier ini sudah bisa
digunakan untuk mendapatkan hasil prediksi
dengan menggunakan tupel data diluar data
training [1]. Bagan proses klasifikasi data sampel
menggunakan model classifier untuk
mendapatkan hasil prediksi [1] dapat dilihat pada
Gambar 2.

Gambar 1 Proses dalam KDD

b. Data Preprocessing
Tujuan dari proses data preprocessing adalah
untuk mengubah data input mentah menjadi
format yang sesuai untuk analisis selanjutnya.
Langkah-langkah yang dilakukan antara lain
dengan memperbaiki data yang „kotor‟, memilih
fitur-fitur dari data yang relevan dengan proses
pengolahan selanjutnya. Karena banyak cara
dalam proses pengumpulandata dan penyimpanan Gambar 2. Bagan Proses Klasifikasi dan Prediksi
data, maka proses pengolahan data mungkin akan
memakan waktu yang lama dalam keseluruhan d. Naive Bayes Classifier
proses penemuan pengetahuan [3]. Salah satu metode klasifikasi yang dapat
Data preprocessing dapat meningkatkan digunakan adalah metode naive bayes yang
kualitas data serta meningkatkan akurasi dan sering disebut sebagai naive bayes classifier
efisiensi proses mining. Terdapat beberapa teknik (NBC). Naive bayesclassifier (NBC) merupakan
pada data preprocessing yaitu data cleaning, data salah satu metode pada teknik klasifikasi dan
integration, data transformation, dan data termasuk dalam classifier statistik yang dapat
reduction [1]. memprediksi probabilitas keanggotaan class.
NBC berprinsip pada teori bayes. NBC
c. Klasifikasi dan Prediksi mengasumsikan bahwa nilai atribut pada sebuah
Klasifikasi merupakan proses menemukan class adalah independen terhadap nilai pada
sebuah model atau fungsi yang mendeskripsikan atribut yang lain. Kelebihan NBC adalah
dan membedakan data ke dalam kelas-kelas atau sederhana tetapi memiliki akurasi yang tinggi
konsep-konsep. Klasifikasi melibatkan proses [4]. Ada dua tahap pada proses klasifikasi
pemeriksaan karakteristik dari objek dan data. Tahap pertama adalah pelatihan terhadap
memasukkan objek ke dalam salah satu kelas himpunan contoh (training example). Sedangkan
yang sudah didefinisikan sebelumnya. Sebagai tahap kedua adalah proses klasifikasi data yang
contoh, sebuah bank ingin menganalisis data belum diketahui kategorinya, yang akan
pengaju dana pinjaman apakah peminjam dana digunakan untuk prediksi data baru berikutnya.
tersebut masuk ke dalam kategori beresiko dalam Naive bayes atau simple bayesian classifier
artian dana yang dipinjamkan akan sulit memiliki prosedur sebagai berikut [1] :

47
Jurnal Mantik Penusa Vol. 2, No. 2 Desember 2018, pp.45-51 Terakreditasi DIKTI No.SK 21/E/KPT/2018
Volume 2, No. 2, Desember 2018 e-ISSN 2580-9741
p-ISSN 2088-3943

1. Setiap sample data direpresentasikan dengan untuk atribut Ak dengan µ𝐶𝑖 dan 𝜎𝐶𝑖
n-dimensionalfeature vector, adalah mean dan standard deviasi untuk
X=(X1,X2,…,Xn), dengan n dibuat dari atribut Ak pada training sample class Ci.
sample n atribut, berturut-turut A1,A2,…,An. 7. Untuk mengklasifikasikan sample X yang
2. Diandaikan terdapat m class, C1,C2,…,Cm. tidak diketahui, P(X | Ci) P(Ci) dievaluasi
Diberikan sebuah data sample, X (yang tidak untuk setiap class Ci. Sample X ditetapkan
diketahui class labelnya), kemudian classifier untuk class Ci jika dan hanya jika
akan memprediksi X ke dalam class yang P (Ci | X) >P (Cj | X) (7)
memiliki probabilitas posterior untuk 1 ≤ j ≤ m, j≠ i
tertinggi,Naive bayes classifier akan Dengan kata lain, ditetapkan sebagai
menentukan sample X ke dalam class Ci jika class Ci untuk P (Ci | X) yang bernilai
dan hanya jika maksimum.
P(Ci | X)> P(Cj | X) untuk 1≤ j ≤ m, j ≠ i
(1) e. Akurasi Klasifikasi Metode Bootstrap
3. Class Ci adalah nilai terbesar, yang disebut Metode bootstrap digunakan untuk
dengan maksimum posteri hypothesis dengan menghitung tingkat akurasi dari suatu statistik,
teorema bayes : yaitu metode yang digunakan untuk mengestimasi
𝑃(Ci | 𝑋) = 𝑃 (𝑋 |𝑃𝐶𝑖) 𝑃 (𝐶𝑖 )
(𝑋 )
(2) suatu distribusi populasi yang tidak diketahui
dengan distribusi empiris yang diperoleh dari
4. P(X) adalah konstan untuk semua class. Jika proses penyampelan ulang [5]. Teknik penarikan
probabilitas class prior tidak diketahui, secara sampel metode bootstrap adalah dengan
umum diasumsikan bahwa class adalah sama, pengembalian dari sebuah sampel asli. Sampel
yaitu P(C1)=P(C2)=…=P(Cm), dan asli merupakan sampel yang diperoleh dari hasil
selanjutnya menghitung nilai P(X|Ci) dan observasi yang diperlakukan seolah-olah sebagai
menghitung nilai P(X|Ci)P(Ci). Probabilitas populasi.
class prior diestimasi dengan Tujuan utama penggunaan bootstrap adalah
𝑃(Ci) = 𝑠𝑠𝑖 (3) untuk memperoleh estimasi parameter
berdasarkan data yang minimal dengan bantuan
dimana si adalah jumlah training sample pada
komputer. Setiap sampel bootstrap berdistribusi
class Ci, dan s adalah jumlah training sample.
sama satu dengan lainnya, atau dapat diasumsikan
5. Apabila dataset terdiri dari banyak atribut,
bahwa sampel bootstrap berasal dari distribusi
akan mengakibatkan komputasi yang rumit
populasi yang sama, tetapi setiap sampel bootstrap
untuk menghitung P(X|Ci). Untuk
saling independen. Dengan kata lain, untuk
mengurangi komputasi, naive bayes
menghitung akurasi populasi tersebut dilakukan
mengasumsikan pada pembuatan class
dengan teknik sampel dengan membagi training
independen. Sehingga nilai pada atribut
set dan testing set. Prinsip dasar pembentukan
dikondisikan bersifat independen antara
sampel bootstrap sebagai berikut :
atribut yang satu dengan atribut yang lain,
1. Konstruksi fungsi distribusi empiris dari
serta diantara atribut tidak terdapat relasi
sampel yaitu Ḟn dengan peluangyang sama
depedensi. 1
𝑃(X | 𝐶𝑖) = 𝑛𝑘 𝑃(𝑋𝑘 | 𝐶𝑖) (4) terambil yaitu 𝑛 untuk masing-masing X1,
6. Probabilitas P(X1 | Ci), P(X2 | Ci),…, P(Xn | X2,...., Xn.
Ci), dapat diestimasi dari training sample, 2. Dengan Ḟn tetap, ambil sampel acak
dimana berukuran n dari Ḟn sebut Xi = xi, Xi ~ Ḟn, i =
a. Jika Ak adalah kategorikal, maka P(xk | 1, 2,…., n. Estimasi akurasi
𝑠𝑖𝑘 bootstrapadalahjumlah keseluruhan
Ci) = (5)
𝑠𝑖 klasifikasi yang benar, dibagi dengan jumlah
sik adalah jumlah dari training sample kasus dalam dataset. Jadi untuk menghitung
pada classCi yang mempunyai nilai Xk nilai akurasinya digunakan persamaan (7)
untuk Ak dan si adalah jumlah training
sample yang termasuk ke dalam class Ci. 𝐽𝑢𝑚𝑙𝑎 𝑕 𝐾𝑙𝑎𝑠𝑖𝑓𝑖𝑘𝑎𝑠𝑖 𝐵𝑒𝑛𝑎𝑟
Akurasi = 𝑥 100% (7)
b. Jika Ak bernilai kontinyu, maka 𝐽𝑢𝑚𝑙𝑎 𝑕 𝐷𝑎𝑡𝑎 𝑈𝑗𝑖
diasumsikan mempunyai sebuah
gaussian distribusi III. METODE PENELITIAN
c. 𝑃 𝑥𝑘 𝐶𝑖 = 𝑔(𝑥𝑘 , µ𝐶𝑖 , 𝜎𝐶𝑖 ) = Metode penelitian yang dilakukan seperti
(𝑥 −µ 𝐶 ) 2 ditunjukka pada Gambar 3.
1 − 𝑘 2 𝑖
𝑒 2 𝜎 𝐶𝑖 (6)
2πσ 𝐶𝑖
𝑔(𝑥𝑘 , µ𝐶𝑖 , 𝜎𝐶𝑖 )adalah fungsi gaussian

48
Jurnal Mantik Penusa Vol. 2, No. 2 Desember 2018, pp.45-51 Terakreditasi DIKTI No.SK 21/E/KPT/2018
Volume 2, No. 2, Desember 2018 e-ISSN 2580-9741
p-ISSN 2088-3943

meliputi proses reduksi dan proses diskretisasi.


Upload Soal tes Pencocokan Data yang sudah diberikan label harus
seleksi masuk jawaban dipreprocessing agar data tersebut layak untuk
dimining, dalam hal ini adalah teknik
klasifikasi. variabel-variabel yang mengalami
preprocessing diskretisasi adalah nilai MTK,
Pelabelan/ nilai IPA, dan nilai IPS. Data-data ini
Kelas Data mengalami proses diskretisasi yaitu dibuat
dalam range pada skala tertentu agar mudah
Preprocessing dalam proses pengklasifikasian. Sedangkan
filed variabel lainnya dilakukan proses
preprocessing reduksi, kecuali variabel nomor
pendaftaran tidak direduksi.
5. Selanjutnya data tersebut dibagi menjadi dua
bagian yaitu Data Training dan Data Testing.
Data Data Komposisi pembagiannya adalah Data Training
Training Testing lebih banyak dari pada Data Testing, misalnya
¾ : ¼. ketika melakukan pembagian, juga perlu
diperhatikan antara data yang mempunyai kelas
“IPA”, “IPS” dan ”Gagal”
6. Model klasifikasi yang digunakan adalah
Algoritma Naive Bayes Classifier. Algoritma
ini akan memberikan label/kelas pada data yang
Model Tidak telah dilakukan penerapan algoritma. Filed yang
Klasifikasi dilakukan perhitungan pada proses klasifikasi
hanya tiga variabel saja yaitu nilai MTK, nilai
IPA dan nilai IPS.
Diterima
7. Hasil pelabelan yang dilakukan oleh algoritma
Naive Bayes Classifier akan ditampilkan
Tampilkan hasilnya berupa kelas “IPA”, “IPS” atau
Hasil “Gagal”. kelas yang masuk kategori “Gagal”
Prediksi akan dilakukan pelabelan kembali
8. Kelas “IPA” atau “IPS” akan dilakukan
perhitungan akurasi hasil dengan menggunakan
metode Bootstrap. Dengan ukuran sampel 1/3
Hitung digunakan untuk training dan 2/3 digunakan
Akurasi untuk testing. Dengan demikian, akan dilakukan
3 kali pengujian akurasi klasifikasi dari data
Gambar 3. Alur Metodologi Penelitian bersih yang dijadikan sampel. Mekanisme
pengujian sistem yang dilakukan :
Dari Gambar 3 dapat dijelaskan sebagai a. Membagi sampel menjadi 1/3bagian yang
berikut: sama rata.
1. Pada bagian Upload soal Tes Masuk, soal yang b. Sebanyak 1/3 dari jumlah sampel tersebut
dipilih untuk dijadikan soal ujian seleksi masuk secara bergantian dijadikan sebagai data
sekolah diupload ke sistem. Soal yang diupload testing dan 2/3 lainnya dijadikan sebagai
adalah : soal matematika, soal IPA dan soal data training.
IPS, masing-masing berjumlah 10 soal. c. Dari 1/3 yang dijadikan data testing
2. Pada bagian pencocokan jawaban ini, antara tersebut kemudian dibandingkan hasil
kunci jawaban yang ada di sistem dicocokkan klasifikasi oleh sistem dengan kelas yang
dengan jawaban calon siswa baru sudah ditentukan sebelumnya.
3. Pelabelan merupakan tahap ketiga setelah d. Dihitung nilai akurasinya menggunakan
jawaban calon siswa baru dicocokan dengan persamaan 7 untuk masing-masing bagian
kunci jawaban. Pada bagian ini, data diberikan sampel.
label sesuai kelasnya, yaitu data calon siswa 9. Informasi calon siswa baru diterima di kelas
baru tersebut masuk kelas IPA, IPS atau Gagal. IPA, IPS atau gagal akan ditampilkan dengan
4. Setelah dilakukan pelabelan, maka selanjutnya persentase tingkat akurasi hasil.
data tersebut dipreprocessing. Pada proses ini
data mengalami proses preprocessing yang

49
Jurnal Mantik Penusa Vol. 2, No. 2 Desember 2018, pp.45-51 Terakreditasi DIKTI No.SK 21/E/KPT/2018
Volume 2, No. 2, Desember 2018 e-ISSN 2580-9741
p-ISSN 2088-3943

IV. HASIL DAN PEMBAHASAN c. Preprocessing


a. Ekstraksi Data calon siswa Baru Pada Tabel 1, ditunjukkan hasil preprocessing
Pada Gambar 4 merupakan data calon siswa data. Dimana data hasil pelabelan mengalami
baru hasil ekstraksi. preprocessing yaitu dilakukan reduksi pada
variabel JK, variabel Tempat lahir, variabel
Tanggal Lahir, variabel nama Ortu, variabel
alamat, variabel pekerjaan, variabel ijazah dan
SKHUN, dan variabel surat keterangan sehat. Hal
ini dilakukan karena variabel-variabel ini
dianggap tidak sebagai faktor penentu dalam
penetuan diterima di kelas IPA atau IPS.
Sedangkan variabel nilai MTK, variabel nilai IPA
dan variabel nilai IPS, dilakukan proses
diskretisasi. Berikut range dari masing-masing
variabel yang mengalami diskretisasi:
1. Variabel nilai MTK, yaitu nilai “rendah”
untuk range nilai MTK 0 - 34, nilai ”sedang”
untuk range nilai MTK>34 - 67, nilai
“tinggi” untuk nilai MTK >67- 100
2. Variabel nilai IPA, yaitu nilai “rendah” untuk
range nilai IPA 0 - 34, nilai ”sedang” untuk
range nilai IPA>34 - 67, nilai “tinggi” untuk
Gambar 4. Data Calon Siswa Baru Hasil Ekstraksi nilai IPA>67- 100
3. Variabel nilai IPS, yaitu nilai “rendah” untuk
Pada Gambar 4 ditunjukkan ada 13 variabel yang range nilai IPS 0 - 34, nilai ”sedang” untuk
dipilih untuk digunakan pada proses selanjutnya. range nilai IPS>34 - 67, nilai “tinggi” untuk
Data yang digunakan pada penelitian ini sebanyak nilai IPS>67- 100
593 Data sampel.
Tabel1Data Calon siswa Baru Hasil
b. Pelabelan/Kelas Data Preprocessing
Pada Gambar 5 ditunjukkan hasil pelabelan
data berdasarkan kelas yang ditentukan, yaitu Nomor Nilai Nilai Nilai Kelas
kelas yang diterima di kelas IPA dengan label Pendaftaran MTK IPA IPS
“IPA”, kelas yang diterima di kelas IPS dengan 201600001 Tinggi Tinggi Tinggi IPA
label “IPS” dan tidak diterima dengan label 201600002 Tinggi Tinggi Tinggi IPA
201600003 Tinggi Tinggi Sedang GAGAL
“Gagal”. Dari data sampel sebanyak 593, yang 201600004 Tinggi Tinggi Tinggi IPS
termasuk kelas “IPA” ada 320 data, yang 201600005 Tinggi Tinggi Tinggi IPA
termasuk kelas “IPS” ada 193 data dan termasuk 201600006 Tinggi Tinggi Sedang GAGAL
kelas “Gagal” ada 80 data. 201600007 Tinggi Sedang Tinggi GAGAL

d. Hasil Pengujian Akurasi Klasifikasi


Tabel 2 merupakan hasil pengujian akurasi
model klasifikasi.

Tabel 2
Hasil Pengujian Akurasi Klasifikasi
Akurasi Model (%)
Sampel Model
Ya Tidak
200 74.25 74.9 74
400 85.10 87.72 86
593 93.74 95.10 95.75
Tabel 2 merupakan tabel nilai akurasi model
untuk masing-masing pengujian dengan berbagai
porsi data. Dari tabel tersebut dapat diketahui
bahwa nilai akurasi tertinggi terdapat pada
pengujian dengan menggunakan sampel data
Gambar 5Data Calon Siswa Baru yang sudah sebanyak 593.
dilabel

50
Jurnal Mantik Penusa Vol. 2, No. 2 Desember 2018, pp.45-51 Terakreditasi DIKTI No.SK 21/E/KPT/2018
Volume 2, No. 2, Desember 2018 e-ISSN 2580-9741
p-ISSN 2088-3943

V. KESIMPULAN VI. REFERENSI


Berdasarkan percobaan-percobaan yang [1] J. Han and M. Kamber, Data Mining:
dilakukan dapat disimpulkan sebagi berikut: Concepts and Techniques, vol. 54, no.
1. Preprocessing sangat membantu sekali Second Edition. 2006.
dalam proses klasifikasi. Karena dengan [2] S. Adi, “Klasifikasi Data Nap ( Nota
melakukan preprocessing maka dapat Analisis Pembiayaan ) Dengan 5C + 1S
mengurangi volume dataset tanpa Untuk Penentuan Tingkat Keamanan
mengurang esensi nilai dataset tersebut. Pembiayaan Menggunkan Algoritma
2. Algoritma Naive bayes classifier sangat Naïve Bayes Classifier Pada Bank
mudah diterapkan pada data yang memiliki Syariah,” Seminar Nasional Teknologi
variabel sedikit maupun banyak. Informasi dan Multimedia 2015, pp. 67–
3. Dari hasil pengujian training yang dilakukan, 72, 2015.
dapat disimpulkan bahwa semakin banyak [3] P.N.Tan, M.Steinbach and
data yang dapat diolah maka semakin besar V.Kumar,Introduction to Data Mining,
nilai akurasi kelas. First edition, no. September. 2006.
4. Dari hasil pengujian akurasi model dari [4] I. Rish, “An empirical study of the naive
sistem yang dikembangkan, menghasil kan Bayes classifier,” Empir. methods Artif.
nilai akurasi terkecil sebesar 74.00% pada Intell. Work. IJCAI, vol. 22230, no.
proses pengujian dengan menggunakan January 2001, pp. 41–46, 2001.
sampel sebanyak 200 dan menghasilkan nilai [5] J. R. Efron, Bradley & Tibshirani,
akurasi tertinggi sebesar 95,75% pada proses Introduction to the Bootstrap World. 2003.
pengujian dengan menggunakan sampel
sebanyak 593. Hal ini menunjukkan bahwa
akurasi model semakin meningkat dengan
bertambahnya data.

51
Jurnal Mantik Penusa Vol. 2, No. 2 Desember 2018, pp.45-51 Terakreditasi DIKTI No.SK 21/E/KPT/2018

You might also like