Professional Documents
Culture Documents
PENERAPAN ALGORITMA K-
NEAREST NEIGHBOR UNTUK
KLASIFIKASI DANA DESA
Zemi Badu, zemi badu
Measurement and Comparison of Speed Dat a Processing In XML File by Using Naive Bayes al…
Jalaludin Emilove
IMPLEMENTASI K-NEAREST NEIGHBOR UNT UK MENGENALI POLA CIT RA DALAM MENDET EKSI PENYAK…
Reza Aliff
JURNAL INFORMATIKA, Gorontalo 26 November 2016
ABSTRACT
K-Nearest Neighbor algorithm (k-NN) is a method to perform the classification of objects based
on the learning data that were located closest to the test data. K-Nearest instance Neighbor
including group instance-based learning.
The composition of the training data = 80% and testing data = 20% at random, modification K
values for classification of parameter changes the accuracy of KNN. Where the results of each
changes in the value of k, namely: a) k = 3, accuracy = 78.95%; Based on the evaluation model
of k-nearest neighbor using Confusion Matrix, the use of models k-nearest neighbor to the dataset
taken that are used in the research object gain accuracy of 78.95% or included Failure by using
the parameters k = 2. Then the value of Precision as big as 100% and Recall as big as 100%.
Based on these results it can be stated that classification system that was built to be used as a
decision-making. In the use of k-nearest neighbor algorithm for classification of village funds only
achieve the best value of accuracy score as big as 78.95% on the best K value that is 9.
1. LATAR BELAKANG
Berdasarkan Peraturan Pemerintah Undang – Undang Nomor 60 Tahun 2014 dana desa
adalah dana yang bersumber dari Anggaran Pendapatan Belanja Negara (APBN) yang
diperuntukan bagi desa yang ditransfer melaului Anggaran Pendapatan dan Belanja Daerah
Kabupaten/Kota dan digunakan untuk membiyai penyelenggaraan pemerintah, pelaksanaan
pembangunan, pembinaan kemasyarakatan, dan pemberdayaan masyarakat. Dana desa
diprioritaskan untuk membiyai pembangunan dan pemberdayaan masyarakat sesuai prioritas yang
di tetapkan dalam peraturan pemerintah desa, untuk pembagungan daerah tertinggal.
Dalam Anggaran Pendapatan Belanja Negara (APBN) Tahun 2015 Dana Desa
dialokasikan di Kabupaten Gorontalo sebesar Rp.53.393.232.000 Miliar dan dialokasikan pada
191 Desa (Sumber : BPM-Pemdes Kab. Gorontalo). Pengalokasian dana desa dihitung
berdasarkan jumlah desa dan dialokasikan dengan memperhatikan jumlah penduduk, angka
kemiskinan, luas wilayah, dan tingkat kesulitan geografis. Dalam Peraturan Pemerintah Nomor
60 Tahun 2014 Pasal 11 ayat (3) mengatur bobot untuk jumlah penduduk sebesar 30%, luas
wilayah 20% dan angka kemiskinan 50% dan dikalikan dengan indeks kemahalan konstruksi
kabupaten.
Belum adanya pemodelan K-Nearest Neighbor (K-NN) untuk klasifikasi dana desa.
Kemudian Algoritma K-Nearest Neighbor (K-NN) belum pernah diterapkan dalam klasifikasi
dana desa. Dalam dunia Teknologi Informasi (TI) ada beberapa teknik yang bisa digunakan untuk
mengatasi masalah tersebut, salah satunya adalah teknik Data Mining. Salah satu metode Data
Mining yang bisa digunakan adalah Mining Clasiffication Rule atau metode Klasifikasi Data
Mining. Metede ini merupakan proses penemuan model (atau fungsi) yang menggambarkan dan
JURNAL INFORMATIKA, Gorontalo 26 November 2016
membedakan kelas data atau konsep yang bertujuan agar bisa digunakan untuk memprediksi
kelas dari objek yang label kelasnya tidak diketahui (Gorunescu, 2011).
Dengan demikian, diperlukan suatu metode komputasi cerdas yang dapat melakukan
klasifikasi tersebut. K-Nearest Neighbor (k-NN) adalah sebuah metode untuk melakukan
klasifikasi terhadap obyek baru berdasarkan (K) tetangga terdekatnya (Gorunescu, 2011). k-
Nearest Neighbor (k-NN) termasuk algoritma supervised learning, dimana hasil dari query
instance yang baru, diklasifikasikan berdasarkan mayoritas dari kategori pada k- Nearest Neigbors
(k-NN). Kelas yang paling banyak muncul yang akan menjadi kelas hasil klasifikasi.
Berdasarkan dataset yang diperoleh, bertype Numerik sehingga digunakan metode yang
support terhadap data numerik dengan mengunakan Algoritma K-NN .Dalam teknik klasifikasi
dengan implementasi, K-NN merupakan salah metode yang termasuk algoritma supervised
learning dan bisa memberikan hasil akurasi yang baik. Dibandingkan dengan metode klasifikasi
lainnya, seperti Naïve Bayes Clasiffier yang bias menangani kuantitatif data, data diskrit dan
kokoh terhadap atribut yang tidak relevan, Artificial Neural Network Memiliki fault tolerance,
gangguan dapat dianggap sebagai noise saja dan Mampu melakukan generalisasi dan ekstraksi
dari suatu pola data tertentu, SVM Selanjutnya metode yang tepat dipilih dengan memperhatikan
karakteristik data yang diolah. Dalam hal SVM, walaupun berbagai studi telah menunjukkan
kelebihan metode SVM dibandingkan metode kon vensional lain, SVM juga memiliki berbagai
kelemahan.
Penelitian akan melakukan pengklasifikasian berdasarkan data dana desa yang diperoleh
dari BPM-Pemdes Kabupaten Gorontalo tahun 2015 dengan menggunakan teknik klasifikasi.
Atribut yang akan digunakan dalam melakukan klasifikasi dana desa tahun 2015 adalah Nama
Desa, Jumlah Penduduk, Jumlah Penduduk Miskin, Luas Wilayah, Indeks Kesulitan Geografis,
dan terdiri dari tiga kelas yaitu nilai Tertinggi, Sedang, dan Terendah.
2. LANDASAN TEORI
2.1 Data Mining
Data mining (Connolly dan Begg, 2010) adalah suatu proses ekstraksi atau penggalian
data yang belum diketahui sebelumnya, namun dapat dipahami dan berguna dari database yang
besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat penting. Data mining
(Segall et.all, 2008) biasa juga disebut dengan “Data atau knowledge discovery” atau menemukan
pola tersembunyi pada data. Data mining adalah proses dari menganalisa data dari prespektif yang
berbeda dan menyimpulkannya ke dalam informasi yang berguna.
Pada prosesnya data mining akan mengekstrak informasi yang berharga dengan cara
menganalisis adanya pola-pola ataupun hubungan keterkaitan tertentu dari data-data yang
berukuran besar. Data mining berkaitan dengan bidang ilmu-ilmu lain, seperti Database System,
Data Warehousing, Statistic, Machine Learning, Information Retrieval, dan komputasi tingkat
tinggi. Selain itu data mining didukung oleh ilmu lain seperti Neural Network, Pengenalan Pola,
Spatial Data Analysis, Image Database, Signal Processing.
Beberapa survey tentang proses pemodelan dan metodologi menyatakan bahwa, data
mining digunakan sebagai penunjuk, dimana data mining menyajikan intisari atas sejarah,
deskripsi dan sebagai standar petunjuk mengenai masa depan dari sebuah proses model data
mining (Mariscal, Marba’n dan Ferna’ndes, 2010).
2.2 Proses Dalam Tahapan Data Mining
Proses tahap data mining terdiri dari tiga langkah Utama (Maimon & Rokach, 2010)
yaitu :
ALGORITMA
DATA DATA PREPARATION ANALISIS DATA
DATAMINING
yang harus digunakan untuk mendapatkan hasil yang terbaik, dan biaya komputasi yang cukup
tinggi karena diperlukan perhitungan jarak dari tiap query instance pada keseluruhan training
sample.
4. Euclidean Distance
Eunclidean distance adalah metrika yang paling sering digunakan untuk menghitung
kesamaan dua vektor. Jarak Euclidean menghitung akar dari kuadrat perbedaan 2 vektor (root of
squere differences between 2 vector). Persamaan dari jarak Euclidean adalah (Putra, 2009) :
�
� , = √∑ � − �
�=
5. PENGUJIAN MODEL
5.1 Confusion Matrix
Sebuah sistem yang melakukan klasifikasi diharapkan dapat melakukan klasifikasi semua
dataset dengan benar, tetapi tidak dapat dipungkiri bahwa kinerja suatu sistem tidak bisa 100%
benar, sehingga sebuah sistem klasifikasi harus diukur kinerjanya (Prasetyo, 2012). Umumnya,
pengukuran kinerja klasifikasi dilakukan dengan Confusion Matrix (matrik konfusi) atau Root
Mean Squared Error (RMSE).
Pengujian Confusion Matrix merepresentasikan hasil evaluasi model dengan
menggunakan tabel matriks, jika dataset terdiri dari dua kelas, kelas pertama dianggap positif, dan
kelas kedua dianggap negatif. Evaluasi menggunakan confusion matrix menghasilkan nilai
akurasi, presisi, recall. Akurasi dalam klasifikasi merupakan persentase ketepatan record data
yang diklasifikan secara benar setelah dilakukan pengujian pada hasil klasifikasi. Precision atau
confidence merupakan proporsi kasus yang diprediksi positif yang juga positif benar pada data
yang sebenarnya. Recall atau sensitivity merupakan proporsi kasus positif yang sebenarnya yang
diprediksi secara benar.
Tabel 2.8 Confusion Matrix
Correct Classified as
Classification + -
+ True positives False negatives
- False positives True negatives
True positives (tp) merupakan jumlah record positif dalam dataset yang diklasifikasikan
positive. True negatives (tn) merupakan jumlah record negatif dalam dataset yang
diklasifikasikan negative. False positives (fp) merupakan jumlah record negatif dalam dataset
yang diklasifikasikan positive. False negatives (fn) merupakan jumlah record positif dalam
dataset yang diklasifikasikan negative.
Berikut persamaan model confusion matrix :
1) Nilai akurasi (acc) adalah proporsi jumlah prediksi yang benar, dapat dihitung dengan
persamaan :
�+ �
��� =
�+ �+ �+ �
2) Sensitivity atau recall digunakan untuk membanding proporsi tp terhadap tupel yang positif,
yang dihitung dengan persamaan :
�
���� =
�+ �
JURNAL INFORMATIKA, Gorontalo 26 November 2016
3) Specificity digunakan untuk membandingkan proporsi tn terhadap tupel yang negatif, yang
dihitung dengan menggunakan persamaan :
�
� �� ��� =
�+ �
4) PPV (positive predictive value) atau precision adalah proporsi kasus dengan hasil diagnosa
positif, yang dihitung dengan menggunakan persamaan :
�
��� =
�+ �
5) NPV (negative predictive value) adalah proporsi kasus hasil diagnosa negatif, yang dihitung
dengan persamaan :
�
��� =
�+ �
Selanjutnya, menurut Gorunescu 2011 (Wahono, 2012), klasifikasi akurasi dapat ditunjukan pada
tabel 2.8.
6. KERANGKA PIKIR
Bagaimana hasil penerapan algoritma K-Near est Neighbor untuk klasifikasi
dana desa ?
Seberapa besar tingkat akurasi dalam klasifikasi dana desa dengan menerapkan
algoritma K-Near est Neighbor (k-NN) ?
Pra-Processing (Manual) Accuration (Confusion Matrix)
Data Primer
Data Training
Data Sekunder
Data Testing
1. Construction [VB.Net]
Architecture Design
2. Testing
Sistem Berjalan Use Case Diagram
Interface Design
Sistem Yang Diusulkan Actifity Diagram White Box Testing
Data Design
Sequence Diagr am Black Box Testing
Program Design
3. Instalation
klasifikasi dana desa.
Untuk memperoleh akurasi yang tepat untuk melakukan klasifikasi dana desa
dengan menggunakan algoritma K-Near est Neighbor (k-NN).
8. EXPERIMENT
3.2.1 Data Gathering
a. Data Primer
Pengumpulan data primer yang merupakan data langsung dari objek penelitian, maka data
alumni mahasiswa Program Studi Teknik Informatika 2 tahun terakhir dikumpulkan, untuk
melengkapi pengisian atribut lainnya yang belum ada dari tiap-tiap record pada data tersebut.
Untuk memperoleh data primer yang merupakan data langsung dari objek penelitian, maka
dilakukan dengan teknik:
a) Wawancara.
Metode ini digunakan dengan mengajukan beberapa pertanyaan kepada pimpinan atau staf
yang memiliki keterkaitan dengan masalah yang terjadi. Wawancara memungkinkan
peneliti sebagai pewawancara untuk mengumpulkan data secara tatap muka langsung.
b) Kuisioner.
Peneliti memberikan angket kepada alumni/lulusan guna mendapatkan hasil yang lebih
objektif, karena kuisioner dapat dilakukan kepada banyak orang sekaligus dan tidak
memerlukan waktu yang lama.
b. Data Sekunder
Data-data sekunder diperoleh melalui studi pustaka, yang merupakan upaya pengumpulan
data dan teori melalui buku-buku, surat kabar serta sumber informasi non manusia sebagai
penunjang penelitian (seperti dokumen, agenda, hasil penelitian, catatan, klipping, jurnal) yang
berkaitan dengan penelitian ini. Metode kepustakaan diperlukan untuk mendapatkan data
sekunder dengan tujuan melengkapi data primer.
7.2 Pemodelan (Classification)
Preprocessing
Pembagian Data
Data Testing
Terklasifikasi
Evaluasi Model
[Confusion Matrix]
JUMLAH SALAH 8
5.3.1. EVALUASI DAN ANALISIS MODEL
1. Evaluasi Model
Dalam penelitian ini akan dilakukan eksperimen dengan menggunakan metode klasifikasi
data mining K-Nearest Neighbor terhadap data desa yang terkait dengan klasifikasi dana desa.
Kemudian dilakukan evaluasi dan validasi hasil dengan Confusion Matrix
Evaluasi Model K-NN
Tabel 5.6 : Hasil Evaluasi Model K-Nearest Neighbor
Kelas Prediksi Classification
Tertinggi Sedang Terendah Overall Precicion
Tertinggi 6 3 0 9 66.6%
Aktual
Kelas
Sedang 0 13 5 18 72.22%
Terendah 0 0 11 11 100%
Truth Ovarall 6 15 16
Recall 100% 81.25% 68.75% T = 38
Accuracy 78.95%
DAFTAR PUSTAKA
JURNAL INFORMATIKA, Gorontalo 26 November 2016
[1]Adi Nugroho, 2010, Rekayasa Perangkat Lunak Berbasis Objek dengan Metode USDP, Andi,
Yogyakarta.
[1]Bambang Hariyanto. 2004. Sistem Manajemen Basis Data: Pemodelan, Perancangan, dan
Terapannya. Informatika. Bandung.
[4]Connolly, Thomas and Begg, Carolyn. 2010. Database Systems A Practical Approach to
Design, Implementation, and Management Fifth Edition. Boston: Pearson Education.
[5]Han, Jiawei dan Kamber, Micheline. (2006), Data Mining : Concept and Techniques Second
Edition, Morgan Kaufmann Publishers.
[6]Han, J, Kamber, M, & Pei, J. 2012. Data Mining: Concept and Techniques, Third Edition.
Waltham: Morgan Kaufmann Publishers.
[7]Gorunescu, F. 2011. Data Mining Concept Model and Techniques. Berlin: Springer. ISBN
978-3-642-19720-8.
[8]Prasetyo, Bambang dan Lina Miftahul Jannah, Metode Penelitian Kuantitatif, Teori dan
Aplikasinya, Rajawali Pers, 2010
[9]Witten, Ian H, Frank, Eibe, & Hal, M.A. 2011. Data Mining: Pratical Machine Learning Tools
and Techniques, Third Edition. Burlington: Morgan Kaufmann Publishers.