Professional Documents
Culture Documents
sumarni.a@amikom.ac.id
Abstract
Schools every year must receive new students. Acceptance of new students is done at every level, both from
the level of kindergarten to high school. Acceptance of new students through the admission process, the
entrance selection process is also carried out by the high school to determine the appropriate majors
according to the students' academic abilities and the capacity of the school. Every year the number of
applicants for new high school students continues to increase, but the number of students accepted in the
Science or Social Sciences major, each year remains with a certain composition. Thus, it is necessary to
develop a system to do data mining from the stack of data that will be used for certain purposes, one of which
is to analyze the academic feasibility of students to enter the right direction. Naive Bayes Classifier is an
approach that refers to Bayes's theorem that combines previous knowledge with new knowledge. So that it is
one of the simple but high-accuracy classification algorithms to predict further data. For this reason, this
research will prove the ability of Naive Bayes Classifier to predict the selection data of new students' test
results that inform academic feasibility to proceed to science or social studies majors. The selection test
results of the new students are preprocessed, so that the data becomes "clean", so that it is feasible to do the
next process. Then from the preprocessing classification is done with the Naive Bayes Classifier, so as to
produce a classification probability model to predict the class of the next new student registrant. From the
prediction results using the Naïve Bayes Classifier algorithm compared to the real conditions, the results are
appropriate.
Abstrak
Sekolah setiap tahun pasti melakukan penerimaan siswa baru. Penerimaan siswa baru dilakukan disetiap
tingkatan, baik dari tingkat TK hingga SMA. Penerimaan siswa baru melalui proses seleksi masuk, proses
seleksi masuk juga dilakukan oleh pihak SMA untuk menentukan jurusan yang tepat sesuai kemampuan
akademik siswa dan kapasitas daya tampung sekolah.Setiap tahun jumlah pendaftar siswa barutingkat SMA
ini terus mengalami peningkatan, namun jumlah yang diterima di jurusan IPA atau IPS, setiap tahunnya tetap
dengan komposisi tertentu. Dengan demikian, perlu dikembangkan sistem untuk melakukan data mining dari
tumpukan data tersebut yang akan digunakan untuk kepentingan tertentu, salah satunya adalah untuk
menganalisis kelayakan akademik siswa agar masuk ke jurusan yang tepat. Naive Bayes Classifier merupakan
pendekatan yang mengacu pada teorema Bayes yang mengombinasikan pengetahuan sebelumnya dengan
pengetahuan baru. Sehingga merupakan salah satu algoritma klasifikasi yang sederhana namun memiliki
akurasi tinggi untuk memprediksi data selanjutnya. Untuk itu, dalam penelitian ini akan dibuktikan
kemampuan Naive Bayes Classifier untuk memprediksi data seleksi hasil tes siswa baru yang
menginformasikan kelayakan akademik untuk melanjutkan ke jurusan IPA atau IPS. Data seleksi hasil tes
siswa baru dilakukan preprocessing, agar data tersebut menjadi “bersih”, sehingga layak untuk dilakukan
proses selanjutnya. Kemudian dari preprocessing ini dilakukan klasifikasi dengan Naive Bayes Classifier,
sehingga menghasilkan model probabilitas klasifikasi untuk memprediksi kelas pada pendaftar siswa baru
selanjutnya. Dari hasil prediksi menggunakan algoritma Naïve Bayes Classifierdibandingkan dengan kondisi
nyata, hasilnya sesuai.
45
Jurnal Mantik Penusa Vol. 2, No. 2 Desember 2018, pp.45-51 Terakreditasi DIKTI No.SK 21/E/KPT/2018
Volume 2, No. 2, Desember 2018 e-ISSN 2580-9741
p-ISSN 2088-3943
siswa baru tingkat SMA ini terus mengalami classifier merupakan salah satu algoritma
peningkatan, namun jumlah yang diterima di klasifikasi yang sederhana namun memiliki
jurusan IPA atau IPS, setiap tahunnya tetap kemampuan dan akurasi tinggi[2].
dengan komposisi tertentu. Dengan teknik klasifikasi menggunakan
Namun perkembangan pola pemikiran algoritma naive bayes classification (NBC) dalam
masyarakat saat ini tentang pentingnya dunia pengolahan data tersebut, diharapkan dapat
pendidikan, serta didukung juga dengan program dibangun sebuah model yang mana model
pemerintah tentang wajibnya masyarakat tersebut dapat digunakan untuk
memperoleh pendidikan hingga tingkat SMA, memprediksipenerimaan siswa barusesui dengan
mengakibatkanjumlah pendaftar siswa baru setiap kemampuan akademiknya dan daya tampung
tahun meningkat drastis. Hal ini mendorong sekolah dengan melakukan sistem peringkat. Hal
terbentuknya suatu timbunan data-data yang ini diharapakan agar siswa dapat terdistribusi
berukuran sangat besar di sekolah. Data-data dengan baiksesuai kemampuan akademisnya.
tersebut pada umumnya berasal dari data entry,
kemudian oleh komputer data tersebut disimpan II. TEORI
ke dalam server. Di dalam server data diubah a. Data Mining
menjadi informasi yang disimpan dalam bentuk Data mining merupakan proses menggali dan
tabel-tabel. Informasi yang didapat dari data menganalisa sejumlah data yang sangat besar
dalam bentuk tabel-tabel tersebut sangat sedikit untuk memperoleh sesuatu yang benar, baru dan
yang dapat dimanfaatkan oleh pihak manajemen bermanfaat dan akhirnya dapat ditemukan suatu
sekolah dalam menganalisis penerimaan siswa corak atau pola dalam data tersebut [1]. Secara
baru, oleh karena itu perlu adanya aktivitas garis besar data mining dapat dikelompokkan
penggalian (ekstraksi) data yang masih menjadi dua kategori utama, yaitu [3] :
tersembunyi untuk selanjutnya diolah menjadi 1. Deskriptif Mining, yaitu proses untuk
pengetahuan yang bermanfaat dalam pengambilan menemukan karakteristik penting dari data
keputusan. Proses yang secara otomatis untuk dalam suatu basis data. Teknik data mining
menemukan informasi yang berharga dari yang termasuk dalam descriptif mining adalah
repositori data yang sangat besar disebut dengan clustering, association, dan sequential mining.
data mining [1]. 2. Prediktif, yaitu proses untuk menemukan pola
Data mining merupakan sebuah proses dari dari data dengan menggunakan beberapa
knowledge discovery (penemuan pengetahuan) variabel untuk membuat prediksi variabel lain
dari data yang sangat besar [1]. Dengan demikian, dimasa depan. Teknik yang termasuk dalam
dari tumpukan data tersebut akan didapat beragam Prediktif mining antara lain klasifikasi, regresi
informasi yang berharga dan penting yang dan deviasi.
sebelumnya tidak diketahui. Data mining adalah bagian integral dari
Ada banyak teknik yang bisa dilakukan untuk penemuan pengetahuan dalam database atau
melakukan klasifikasi data diantaranya decision dikenal dengan Knowledge Discovery in
tree, bayesian classifier, bayesian belief network Databases (KDD) yang merupakan proses
dan rule based classifiers[1]. Namun dalam keseluruhan mengubah data mentah menjadi
penelitian ini akan dikembangkan sistem dengan pola-pola data yang menarik yang merupakan
menggunakan teknik klasifikasi naive bayes informasi yang dibutuhkan oleh pengguna sebagai
classifiers, dimana model yang dihasilkan akan pengetahuan. Berikut adalah langkah-langkah
digunakan untuk prediksi data baru berikutnya. yang terjadi dalam proses KDD [1] :
Pendekatan ini merupakan pendekatan yang 1. Selection, dalam tahap ini dilakukan
mengacu pada teorema bayes, dimana teorema ini pemahaman terhadap permasalahan yang akan
merupakan prinsip peluang statistika untuk dicari solusinya melalui penemuan
mengkombinasikan pengetahuan sebelumnya pengetahuan, pengetahuan sebelumnya yang
dengan pengetahuan baru. Prinsip ini kemudian relevan, penentuan tujuan dan pemilihan data
digunakan untuk memecahkan masalah klasifikasi yang akan dianalisis.
[1]. Data tes siswa baru akan diolah berdasarkan 2. Preprocessing, dalam tahap ini dilakukan proses
data-data variabel yang terdapat dalam komponen preprocessing data termasuk kegiatan
seleksi siswa baruyangmendaftar yang jumlahnya pembersihan data.
ratusan bahkan ribuan record. Dengan demikian, 3. Transformation, dalam tahap ini dilakukan
dalam pengolahan data akan menghasilkan pengurangan dan atau pengubahan tipe data
dimensi yang sangat besar. Oleh sebab itu, menjadi standar, sehingga data siap untuk
diperlukan algoritma yang sederhana agar proses dipresentasikan ke teknik-teknik data mining.
pengolahan dapat efektif dan efisien. Penggunaan 4. Data mining, dalam tahap ini dilakukan
algoritma ini dinilai sesuai karena naive bayes pemilihan tugas data mining yang sesuai
46
Jurnal Mantik Penusa Vol. 2, No. 2 Desember 2018, pp.45-51 Terakreditasi DIKTI No.SK 21/E/KPT/2018
Volume 2, No. 2, Desember 2018 e-ISSN 2580-9741
p-ISSN 2088-3943
dengan tujuan dan algoritma data mining untuk dikembalikan atau dalam kategori aman.
pencarian pola. Dalam klasifikasi terdapat dua tahapan, pada
5. Interpretation,dalam tahap ini dilakukan tahap pertama model classifier akan dibentuk
visualisasi dan interpretasi terhadap pola yang berdasarkan data set atau data training
ditemukan untuk dijadikan pengetahuan. menggunakan algoritma klasifikasi, proses ini
Ilustrasi dari langkah-langkah yang ada di disebut dengan tahap pembelajaran (learning step).
dalam KDD ditunjukkan dalam Gambar 1. Model classifier selanjutnya digunakan untuk
menentukan label class berdasarkan atribut [1].
Data training dapat direpresentasikan
menggunakan database, dimana setiap atribut
ditempatkan pada tiap kolom dalam database.
Tahapan kedua, dilakukan evaluasi terhadap
model classifier untuk mendapatkan nilai
akurasi.Jika nilai akurasi sesuai dengan yang
diharapkan, maka classifier ini sudah bisa
digunakan untuk mendapatkan hasil prediksi
dengan menggunakan tupel data diluar data
training [1]. Bagan proses klasifikasi data sampel
menggunakan model classifier untuk
mendapatkan hasil prediksi [1] dapat dilihat pada
Gambar 2.
b. Data Preprocessing
Tujuan dari proses data preprocessing adalah
untuk mengubah data input mentah menjadi
format yang sesuai untuk analisis selanjutnya.
Langkah-langkah yang dilakukan antara lain
dengan memperbaiki data yang „kotor‟, memilih
fitur-fitur dari data yang relevan dengan proses
pengolahan selanjutnya. Karena banyak cara
dalam proses pengumpulandata dan penyimpanan Gambar 2. Bagan Proses Klasifikasi dan Prediksi
data, maka proses pengolahan data mungkin akan
memakan waktu yang lama dalam keseluruhan d. Naive Bayes Classifier
proses penemuan pengetahuan [3]. Salah satu metode klasifikasi yang dapat
Data preprocessing dapat meningkatkan digunakan adalah metode naive bayes yang
kualitas data serta meningkatkan akurasi dan sering disebut sebagai naive bayes classifier
efisiensi proses mining. Terdapat beberapa teknik (NBC). Naive bayesclassifier (NBC) merupakan
pada data preprocessing yaitu data cleaning, data salah satu metode pada teknik klasifikasi dan
integration, data transformation, dan data termasuk dalam classifier statistik yang dapat
reduction [1]. memprediksi probabilitas keanggotaan class.
NBC berprinsip pada teori bayes. NBC
c. Klasifikasi dan Prediksi mengasumsikan bahwa nilai atribut pada sebuah
Klasifikasi merupakan proses menemukan class adalah independen terhadap nilai pada
sebuah model atau fungsi yang mendeskripsikan atribut yang lain. Kelebihan NBC adalah
dan membedakan data ke dalam kelas-kelas atau sederhana tetapi memiliki akurasi yang tinggi
konsep-konsep. Klasifikasi melibatkan proses [4]. Ada dua tahap pada proses klasifikasi
pemeriksaan karakteristik dari objek dan data. Tahap pertama adalah pelatihan terhadap
memasukkan objek ke dalam salah satu kelas himpunan contoh (training example). Sedangkan
yang sudah didefinisikan sebelumnya. Sebagai tahap kedua adalah proses klasifikasi data yang
contoh, sebuah bank ingin menganalisis data belum diketahui kategorinya, yang akan
pengaju dana pinjaman apakah peminjam dana digunakan untuk prediksi data baru berikutnya.
tersebut masuk ke dalam kategori beresiko dalam Naive bayes atau simple bayesian classifier
artian dana yang dipinjamkan akan sulit memiliki prosedur sebagai berikut [1] :
47
Jurnal Mantik Penusa Vol. 2, No. 2 Desember 2018, pp.45-51 Terakreditasi DIKTI No.SK 21/E/KPT/2018
Volume 2, No. 2, Desember 2018 e-ISSN 2580-9741
p-ISSN 2088-3943
1. Setiap sample data direpresentasikan dengan untuk atribut Ak dengan µ𝐶𝑖 dan 𝜎𝐶𝑖
n-dimensionalfeature vector, adalah mean dan standard deviasi untuk
X=(X1,X2,…,Xn), dengan n dibuat dari atribut Ak pada training sample class Ci.
sample n atribut, berturut-turut A1,A2,…,An. 7. Untuk mengklasifikasikan sample X yang
2. Diandaikan terdapat m class, C1,C2,…,Cm. tidak diketahui, P(X | Ci) P(Ci) dievaluasi
Diberikan sebuah data sample, X (yang tidak untuk setiap class Ci. Sample X ditetapkan
diketahui class labelnya), kemudian classifier untuk class Ci jika dan hanya jika
akan memprediksi X ke dalam class yang P (Ci | X) >P (Cj | X) (7)
memiliki probabilitas posterior untuk 1 ≤ j ≤ m, j≠ i
tertinggi,Naive bayes classifier akan Dengan kata lain, ditetapkan sebagai
menentukan sample X ke dalam class Ci jika class Ci untuk P (Ci | X) yang bernilai
dan hanya jika maksimum.
P(Ci | X)> P(Cj | X) untuk 1≤ j ≤ m, j ≠ i
(1) e. Akurasi Klasifikasi Metode Bootstrap
3. Class Ci adalah nilai terbesar, yang disebut Metode bootstrap digunakan untuk
dengan maksimum posteri hypothesis dengan menghitung tingkat akurasi dari suatu statistik,
teorema bayes : yaitu metode yang digunakan untuk mengestimasi
𝑃(Ci | 𝑋) = 𝑃 (𝑋 |𝑃𝐶𝑖) 𝑃 (𝐶𝑖 )
(𝑋 )
(2) suatu distribusi populasi yang tidak diketahui
dengan distribusi empiris yang diperoleh dari
4. P(X) adalah konstan untuk semua class. Jika proses penyampelan ulang [5]. Teknik penarikan
probabilitas class prior tidak diketahui, secara sampel metode bootstrap adalah dengan
umum diasumsikan bahwa class adalah sama, pengembalian dari sebuah sampel asli. Sampel
yaitu P(C1)=P(C2)=…=P(Cm), dan asli merupakan sampel yang diperoleh dari hasil
selanjutnya menghitung nilai P(X|Ci) dan observasi yang diperlakukan seolah-olah sebagai
menghitung nilai P(X|Ci)P(Ci). Probabilitas populasi.
class prior diestimasi dengan Tujuan utama penggunaan bootstrap adalah
𝑃(Ci) = 𝑠𝑠𝑖 (3) untuk memperoleh estimasi parameter
berdasarkan data yang minimal dengan bantuan
dimana si adalah jumlah training sample pada
komputer. Setiap sampel bootstrap berdistribusi
class Ci, dan s adalah jumlah training sample.
sama satu dengan lainnya, atau dapat diasumsikan
5. Apabila dataset terdiri dari banyak atribut,
bahwa sampel bootstrap berasal dari distribusi
akan mengakibatkan komputasi yang rumit
populasi yang sama, tetapi setiap sampel bootstrap
untuk menghitung P(X|Ci). Untuk
saling independen. Dengan kata lain, untuk
mengurangi komputasi, naive bayes
menghitung akurasi populasi tersebut dilakukan
mengasumsikan pada pembuatan class
dengan teknik sampel dengan membagi training
independen. Sehingga nilai pada atribut
set dan testing set. Prinsip dasar pembentukan
dikondisikan bersifat independen antara
sampel bootstrap sebagai berikut :
atribut yang satu dengan atribut yang lain,
1. Konstruksi fungsi distribusi empiris dari
serta diantara atribut tidak terdapat relasi
sampel yaitu Ḟn dengan peluangyang sama
depedensi. 1
𝑃(X | 𝐶𝑖) = 𝑛𝑘 𝑃(𝑋𝑘 | 𝐶𝑖) (4) terambil yaitu 𝑛 untuk masing-masing X1,
6. Probabilitas P(X1 | Ci), P(X2 | Ci),…, P(Xn | X2,...., Xn.
Ci), dapat diestimasi dari training sample, 2. Dengan Ḟn tetap, ambil sampel acak
dimana berukuran n dari Ḟn sebut Xi = xi, Xi ~ Ḟn, i =
a. Jika Ak adalah kategorikal, maka P(xk | 1, 2,…., n. Estimasi akurasi
𝑠𝑖𝑘 bootstrapadalahjumlah keseluruhan
Ci) = (5)
𝑠𝑖 klasifikasi yang benar, dibagi dengan jumlah
sik adalah jumlah dari training sample kasus dalam dataset. Jadi untuk menghitung
pada classCi yang mempunyai nilai Xk nilai akurasinya digunakan persamaan (7)
untuk Ak dan si adalah jumlah training
sample yang termasuk ke dalam class Ci. 𝐽𝑢𝑚𝑙𝑎 𝐾𝑙𝑎𝑠𝑖𝑓𝑖𝑘𝑎𝑠𝑖 𝐵𝑒𝑛𝑎𝑟
Akurasi = 𝑥 100% (7)
b. Jika Ak bernilai kontinyu, maka 𝐽𝑢𝑚𝑙𝑎 𝐷𝑎𝑡𝑎 𝑈𝑗𝑖
diasumsikan mempunyai sebuah
gaussian distribusi III. METODE PENELITIAN
c. 𝑃 𝑥𝑘 𝐶𝑖 = 𝑔(𝑥𝑘 , µ𝐶𝑖 , 𝜎𝐶𝑖 ) = Metode penelitian yang dilakukan seperti
(𝑥 −µ 𝐶 ) 2 ditunjukka pada Gambar 3.
1 − 𝑘 2 𝑖
𝑒 2 𝜎 𝐶𝑖 (6)
2πσ 𝐶𝑖
𝑔(𝑥𝑘 , µ𝐶𝑖 , 𝜎𝐶𝑖 )adalah fungsi gaussian
48
Jurnal Mantik Penusa Vol. 2, No. 2 Desember 2018, pp.45-51 Terakreditasi DIKTI No.SK 21/E/KPT/2018
Volume 2, No. 2, Desember 2018 e-ISSN 2580-9741
p-ISSN 2088-3943
49
Jurnal Mantik Penusa Vol. 2, No. 2 Desember 2018, pp.45-51 Terakreditasi DIKTI No.SK 21/E/KPT/2018
Volume 2, No. 2, Desember 2018 e-ISSN 2580-9741
p-ISSN 2088-3943
Tabel 2
Hasil Pengujian Akurasi Klasifikasi
Akurasi Model (%)
Sampel Model
Ya Tidak
200 74.25 74.9 74
400 85.10 87.72 86
593 93.74 95.10 95.75
Tabel 2 merupakan tabel nilai akurasi model
untuk masing-masing pengujian dengan berbagai
porsi data. Dari tabel tersebut dapat diketahui
bahwa nilai akurasi tertinggi terdapat pada
pengujian dengan menggunakan sampel data
Gambar 5Data Calon Siswa Baru yang sudah sebanyak 593.
dilabel
50
Jurnal Mantik Penusa Vol. 2, No. 2 Desember 2018, pp.45-51 Terakreditasi DIKTI No.SK 21/E/KPT/2018
Volume 2, No. 2, Desember 2018 e-ISSN 2580-9741
p-ISSN 2088-3943
51
Jurnal Mantik Penusa Vol. 2, No. 2 Desember 2018, pp.45-51 Terakreditasi DIKTI No.SK 21/E/KPT/2018