You are on page 1of 11

Accelerat ing t he world's research.

PENERAPAN ALGORITMA K-
NEAREST NEIGHBOR UNTUK
KLASIFIKASI DANA DESA
Zemi Badu, zemi badu

Related papers Download a PDF Pack of t he best relat ed papers 

Measurement and Comparison of Speed Dat a Processing In XML File by Using Naive Bayes al…
Jalaludin Emilove

UMI-All Proceding FIX 15122016 lengkap cover.pdf


irfan abbas

IMPLEMENTASI K-NEAREST NEIGHBOR UNT UK MENGENALI POLA CIT RA DALAM MENDET EKSI PENYAK…
Reza Aliff
JURNAL INFORMATIKA, Gorontalo 26 November 2016

PENERAPAN ALGORITMA K-NEAREST NEIGHBOR


UNTUK KLASIFIKASI DANA DESA
Zemi S. Badu
Email : Zemibadu@gmail.com

1) Program Studi Teknik Infomatika Fakultas Ilmu Komputer


Universitas Ichsan Gorontalo
2016

ABSTRACT

K-Nearest Neighbor algorithm (k-NN) is a method to perform the classification of objects based
on the learning data that were located closest to the test data. K-Nearest instance Neighbor
including group instance-based learning.
The composition of the training data = 80% and testing data = 20% at random, modification K
values for classification of parameter changes the accuracy of KNN. Where the results of each
changes in the value of k, namely: a) k = 3, accuracy = 78.95%; Based on the evaluation model
of k-nearest neighbor using Confusion Matrix, the use of models k-nearest neighbor to the dataset
taken that are used in the research object gain accuracy of 78.95% or included Failure by using
the parameters k = 2. Then the value of Precision as big as 100% and Recall as big as 100%.
Based on these results it can be stated that classification system that was built to be used as a
decision-making. In the use of k-nearest neighbor algorithm for classification of village funds only
achieve the best value of accuracy score as big as 78.95% on the best K value that is 9.

Keywords: Algorithm K-Nearest Neighbor (KNN), Classification of village funds

1. LATAR BELAKANG
Berdasarkan Peraturan Pemerintah Undang – Undang Nomor 60 Tahun 2014 dana desa
adalah dana yang bersumber dari Anggaran Pendapatan Belanja Negara (APBN) yang
diperuntukan bagi desa yang ditransfer melaului Anggaran Pendapatan dan Belanja Daerah
Kabupaten/Kota dan digunakan untuk membiyai penyelenggaraan pemerintah, pelaksanaan
pembangunan, pembinaan kemasyarakatan, dan pemberdayaan masyarakat. Dana desa
diprioritaskan untuk membiyai pembangunan dan pemberdayaan masyarakat sesuai prioritas yang
di tetapkan dalam peraturan pemerintah desa, untuk pembagungan daerah tertinggal.
Dalam Anggaran Pendapatan Belanja Negara (APBN) Tahun 2015 Dana Desa
dialokasikan di Kabupaten Gorontalo sebesar Rp.53.393.232.000 Miliar dan dialokasikan pada
191 Desa (Sumber : BPM-Pemdes Kab. Gorontalo). Pengalokasian dana desa dihitung
berdasarkan jumlah desa dan dialokasikan dengan memperhatikan jumlah penduduk, angka
kemiskinan, luas wilayah, dan tingkat kesulitan geografis. Dalam Peraturan Pemerintah Nomor
60 Tahun 2014 Pasal 11 ayat (3) mengatur bobot untuk jumlah penduduk sebesar 30%, luas
wilayah 20% dan angka kemiskinan 50% dan dikalikan dengan indeks kemahalan konstruksi
kabupaten.
Belum adanya pemodelan K-Nearest Neighbor (K-NN) untuk klasifikasi dana desa.
Kemudian Algoritma K-Nearest Neighbor (K-NN) belum pernah diterapkan dalam klasifikasi
dana desa. Dalam dunia Teknologi Informasi (TI) ada beberapa teknik yang bisa digunakan untuk
mengatasi masalah tersebut, salah satunya adalah teknik Data Mining. Salah satu metode Data
Mining yang bisa digunakan adalah Mining Clasiffication Rule atau metode Klasifikasi Data
Mining. Metede ini merupakan proses penemuan model (atau fungsi) yang menggambarkan dan
JURNAL INFORMATIKA, Gorontalo 26 November 2016

membedakan kelas data atau konsep yang bertujuan agar bisa digunakan untuk memprediksi
kelas dari objek yang label kelasnya tidak diketahui (Gorunescu, 2011).
Dengan demikian, diperlukan suatu metode komputasi cerdas yang dapat melakukan
klasifikasi tersebut. K-Nearest Neighbor (k-NN) adalah sebuah metode untuk melakukan
klasifikasi terhadap obyek baru berdasarkan (K) tetangga terdekatnya (Gorunescu, 2011). k-
Nearest Neighbor (k-NN) termasuk algoritma supervised learning, dimana hasil dari query
instance yang baru, diklasifikasikan berdasarkan mayoritas dari kategori pada k- Nearest Neigbors
(k-NN). Kelas yang paling banyak muncul yang akan menjadi kelas hasil klasifikasi.
Berdasarkan dataset yang diperoleh, bertype Numerik sehingga digunakan metode yang
support terhadap data numerik dengan mengunakan Algoritma K-NN .Dalam teknik klasifikasi
dengan implementasi, K-NN merupakan salah metode yang termasuk algoritma supervised
learning dan bisa memberikan hasil akurasi yang baik. Dibandingkan dengan metode klasifikasi
lainnya, seperti Naïve Bayes Clasiffier yang bias menangani kuantitatif data, data diskrit dan
kokoh terhadap atribut yang tidak relevan, Artificial Neural Network Memiliki fault tolerance,
gangguan dapat dianggap sebagai noise saja dan Mampu melakukan generalisasi dan ekstraksi
dari suatu pola data tertentu, SVM Selanjutnya metode yang tepat dipilih dengan memperhatikan
karakteristik data yang diolah. Dalam hal SVM, walaupun berbagai studi telah menunjukkan
kelebihan metode SVM dibandingkan metode kon vensional lain, SVM juga memiliki berbagai
kelemahan.
Penelitian akan melakukan pengklasifikasian berdasarkan data dana desa yang diperoleh
dari BPM-Pemdes Kabupaten Gorontalo tahun 2015 dengan menggunakan teknik klasifikasi.
Atribut yang akan digunakan dalam melakukan klasifikasi dana desa tahun 2015 adalah Nama
Desa, Jumlah Penduduk, Jumlah Penduduk Miskin, Luas Wilayah, Indeks Kesulitan Geografis,
dan terdiri dari tiga kelas yaitu nilai Tertinggi, Sedang, dan Terendah.

2. LANDASAN TEORI
2.1 Data Mining
Data mining (Connolly dan Begg, 2010) adalah suatu proses ekstraksi atau penggalian
data yang belum diketahui sebelumnya, namun dapat dipahami dan berguna dari database yang
besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat penting. Data mining
(Segall et.all, 2008) biasa juga disebut dengan “Data atau knowledge discovery” atau menemukan
pola tersembunyi pada data. Data mining adalah proses dari menganalisa data dari prespektif yang
berbeda dan menyimpulkannya ke dalam informasi yang berguna.
Pada prosesnya data mining akan mengekstrak informasi yang berharga dengan cara
menganalisis adanya pola-pola ataupun hubungan keterkaitan tertentu dari data-data yang
berukuran besar. Data mining berkaitan dengan bidang ilmu-ilmu lain, seperti Database System,
Data Warehousing, Statistic, Machine Learning, Information Retrieval, dan komputasi tingkat
tinggi. Selain itu data mining didukung oleh ilmu lain seperti Neural Network, Pengenalan Pola,
Spatial Data Analysis, Image Database, Signal Processing.
Beberapa survey tentang proses pemodelan dan metodologi menyatakan bahwa, data
mining digunakan sebagai penunjuk, dimana data mining menyajikan intisari atas sejarah,
deskripsi dan sebagai standar petunjuk mengenai masa depan dari sebuah proses model data
mining (Mariscal, Marba’n dan Ferna’ndes, 2010).
2.2 Proses Dalam Tahapan Data Mining
Proses tahap data mining terdiri dari tiga langkah Utama (Maimon & Rokach, 2010)
yaitu :
ALGORITMA
DATA DATA PREPARATION ANALISIS DATA
DATAMINING

Gambar 2.1 Langkah – Langkah Proses Dalam Data Mining


JURNAL INFORMATIKA, Gorontalo 26 November 2016

(Maimon & Rokach, 2010)


1. Data Preparation
Pada langkah ini, data dipilih, dibersihkan, dan dilakukan preprocessed mengikuti
pedoman dan knowledge dari ahli domain yang menangkap dan mengintegrasikan data
internal dan eksternal ke dalam tinjauan organisasi secara menyeluruh.
2. Algoritma Data Mining
Penggunaan algoritma data mining dilakukan pada langkah ini untuk menggali data
yang terintegrasi untuk memudahkan identifikasi informasi bernilai.
3. Fase Analisa Data
Keluaran dari data mining dievaluasi untuk melihat apakah knowledge domain
ditemukan dalam bentuk rule yang telah diekstrak dari jaringan.

3. ALGORITMA K-NEAREST NEIGHBORS (K-NN)


Algoritma k-Nearest Neighbor (k-NN) adalah sebuah metode untuk melakukan klasifikasi
terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan data uji. k-
Nearest Neighbor termasuk kelompok instance-based learning. Algoritma ini juga merupakan
salah satu tehnik lazy learning dikarenakan hanya menyimpan sebagian atau seluruh data latih,
kemudian menggunakan data latih tersebut ketika proses prediksi. K-Nearest Neighbor dilakukan
dengan mencari kelompok k objek dalam data training yang paling dekat (mirip) dengan objek
pada data baru atau data testing (Wu, 2009). Adapun K-Nearest Neighbor termasuk kategori
memory based method, yaitu seluruhnya atau sebagian dari training set tetap disimpan dan dipakai
dalam proses klasifikasi.
Pada proses pengklasifikasian, algoritma ini tidak menggunakan model apapun untuk
dicocokkan dan hanya berdasarkan pada memori. Algoritma KNN menggunakan klasifikasi
ketetanggaan sebagai nilai prediksi sampel dari uji yang baru. Pengukuran jarak ketetanggan yang
digunakan seperti : Euclidean Distance, Mikwoski Distance, dan Manhattam Distance. Dan yang
paling sering digunakan adalah Euclidean Distance.
Pada fase training, algoritma ini hanya melakukan penyimpanan vektor-vektor fitur dan
klasifikasi data training sample. Pada fase klasifikasi, fitur-fitur yang sama dihitung untuk testing
data (klasifikasinya belum diketahui). Jarak dari vektor yang baru ini terhadap seluruh vektor
training sample dihitung, dan sejumlah k buah yang paling dekat diambil. Titik yang baru
klasifikasinya diprediksikan termasuk pada klasifikasi terbanyak dari titik-titik tersebut.
Nilai k yang terbaik untuk algoritma ini tergantung pada data, secara umumnya, nilai k
yang lebih tinggi akan mengurangi efek noise pada klasifikasi, tetapi membuat batasan antara
setiap klasifikasi menjadi lebih kabur. Secara umum nilai k optimal yang sering digunakan
berkisar diantara 3-10 atau √� dimana n merupakan jumlah data latih. Itu akan menghasilkan hasil
yang lebih baik dibandingkan dengan 1NN.
Adapun penerapan algoritma K-Nearest Neighbor terdiri dari empat langkah, yaitu :
1. Menentukan parameter k (jumlah ketetanggaan yang paling dekat).
2. Menghitung jarak ketetanggaan (similarity measure) masing-masing objek terhadap data
sampel yang diberikan.
3. Mengurutkan objek-objek tersebut kedalam kelompok yang mempunyai jarak terkecil
sampai terbesar.
4. Mengumpulkan kategori Y (Klasifikasi Nearest Neighbor).
5. Dengan menggunakan kategori Nearest Neighbor yang paling mayoritas maka dapat
diprediksi nilai query instance yang telah dihitung.
K-Nearest Neighbor memiliki beberapa kelebihan yaitu tangguh terhadap data template
yang noisy dan efektif apabila jumlah data template besar. Sedangkan kelemahan dari metode ini
adalah perlunya menentukan nilai parameter k (jumlah ketetanggaan terdekat), pembelajaran
berdasarkan jarak tidak jelas mengenai jenis jarak apa yang harus digunakan dan atribut mana
JURNAL INFORMATIKA, Gorontalo 26 November 2016

yang harus digunakan untuk mendapatkan hasil yang terbaik, dan biaya komputasi yang cukup
tinggi karena diperlukan perhitungan jarak dari tiap query instance pada keseluruhan training
sample.

4. Euclidean Distance
Eunclidean distance adalah metrika yang paling sering digunakan untuk menghitung
kesamaan dua vektor. Jarak Euclidean menghitung akar dari kuadrat perbedaan 2 vektor (root of
squere differences between 2 vector). Persamaan dari jarak Euclidean adalah (Putra, 2009) :

� , = √∑ � − �
�=

5. PENGUJIAN MODEL
5.1 Confusion Matrix
Sebuah sistem yang melakukan klasifikasi diharapkan dapat melakukan klasifikasi semua
dataset dengan benar, tetapi tidak dapat dipungkiri bahwa kinerja suatu sistem tidak bisa 100%
benar, sehingga sebuah sistem klasifikasi harus diukur kinerjanya (Prasetyo, 2012). Umumnya,
pengukuran kinerja klasifikasi dilakukan dengan Confusion Matrix (matrik konfusi) atau Root
Mean Squared Error (RMSE).
Pengujian Confusion Matrix merepresentasikan hasil evaluasi model dengan
menggunakan tabel matriks, jika dataset terdiri dari dua kelas, kelas pertama dianggap positif, dan
kelas kedua dianggap negatif. Evaluasi menggunakan confusion matrix menghasilkan nilai
akurasi, presisi, recall. Akurasi dalam klasifikasi merupakan persentase ketepatan record data
yang diklasifikan secara benar setelah dilakukan pengujian pada hasil klasifikasi. Precision atau
confidence merupakan proporsi kasus yang diprediksi positif yang juga positif benar pada data
yang sebenarnya. Recall atau sensitivity merupakan proporsi kasus positif yang sebenarnya yang
diprediksi secara benar.
Tabel 2.8 Confusion Matrix
Correct Classified as
Classification + -
+ True positives False negatives
- False positives True negatives

True positives (tp) merupakan jumlah record positif dalam dataset yang diklasifikasikan
positive. True negatives (tn) merupakan jumlah record negatif dalam dataset yang
diklasifikasikan negative. False positives (fp) merupakan jumlah record negatif dalam dataset
yang diklasifikasikan positive. False negatives (fn) merupakan jumlah record positif dalam
dataset yang diklasifikasikan negative.
Berikut persamaan model confusion matrix :
1) Nilai akurasi (acc) adalah proporsi jumlah prediksi yang benar, dapat dihitung dengan
persamaan :
�+ �
��� =
�+ �+ �+ �
2) Sensitivity atau recall digunakan untuk membanding proporsi tp terhadap tupel yang positif,
yang dihitung dengan persamaan :

���� =
�+ �
JURNAL INFORMATIKA, Gorontalo 26 November 2016

3) Specificity digunakan untuk membandingkan proporsi tn terhadap tupel yang negatif, yang
dihitung dengan menggunakan persamaan :

� �� ��� =
�+ �
4) PPV (positive predictive value) atau precision adalah proporsi kasus dengan hasil diagnosa
positif, yang dihitung dengan menggunakan persamaan :

��� =
�+ �
5) NPV (negative predictive value) adalah proporsi kasus hasil diagnosa negatif, yang dihitung
dengan persamaan :

��� =
�+ �
Selanjutnya, menurut Gorunescu 2011 (Wahono, 2012), klasifikasi akurasi dapat ditunjukan pada
tabel 2.8.

Selanjutnya, menurut c. Klasifikasi akurasi ditunjukan pada table berikut ini.


Tabel 2.9 Klasifikasi Akurasi
Akurasi (%) Klasifikasi
90 – 100 Excellent
80 – 89 Good
70 – 79 Fair
60 – 69 Poor
50 – 59 Failure
Sumber : Gorunescu 2011

6. KERANGKA PIKIR
 Bagaimana hasil penerapan algoritma K-Near est Neighbor untuk klasifikasi


dana desa ?
Seberapa besar tingkat akurasi dalam klasifikasi dana desa dengan menerapkan
algoritma K-Near est Neighbor (k-NN) ?




Pra-Processing (Manual) Accuration (Confusion Matrix)

Data Primer

Data Training
Data Sekunder
Data Testing


1. Construction [VB.Net]
 

Architecture Design

2. Testing
 
Sistem Berjalan Use Case Diagram

Interface Design
 
Sistem Yang Diusulkan Actifity Diagram White Box Testing

Data Design
Sequence Diagr am Black Box Testing
Program Design
3. Instalation

 Untuk mengetahui hasil penerapan algoritma K-Near est Neighbor untuk


klasifikasi dana desa.
Untuk memperoleh akurasi yang tepat untuk melakukan klasifikasi dana desa
dengan menggunakan algoritma K-Near est Neighbor (k-NN).

Gambar : 2.8 Kerangka Pikir


7. METODE PENELITIAN
7.1 Objek Penelitian
Berdasarkan latar belakang dan kerangka pemikiran seperti yang telah diuraikan dalam
bab I dan bab II, maka yang menjadi objek penelitian ini adalah “Klasifikasi Dana Desa”
JURNAL INFORMATIKA, Gorontalo 26 November 2016

8. EXPERIMENT
3.2.1 Data Gathering
a. Data Primer
Pengumpulan data primer yang merupakan data langsung dari objek penelitian, maka data
alumni mahasiswa Program Studi Teknik Informatika 2 tahun terakhir dikumpulkan, untuk
melengkapi pengisian atribut lainnya yang belum ada dari tiap-tiap record pada data tersebut.
Untuk memperoleh data primer yang merupakan data langsung dari objek penelitian, maka
dilakukan dengan teknik:
a) Wawancara.
Metode ini digunakan dengan mengajukan beberapa pertanyaan kepada pimpinan atau staf
yang memiliki keterkaitan dengan masalah yang terjadi. Wawancara memungkinkan
peneliti sebagai pewawancara untuk mengumpulkan data secara tatap muka langsung.
b) Kuisioner.
Peneliti memberikan angket kepada alumni/lulusan guna mendapatkan hasil yang lebih
objektif, karena kuisioner dapat dilakukan kepada banyak orang sekaligus dan tidak
memerlukan waktu yang lama.

b. Data Sekunder
Data-data sekunder diperoleh melalui studi pustaka, yang merupakan upaya pengumpulan
data dan teori melalui buku-buku, surat kabar serta sumber informasi non manusia sebagai
penunjang penelitian (seperti dokumen, agenda, hasil penelitian, catatan, klipping, jurnal) yang
berkaitan dengan penelitian ini. Metode kepustakaan diperlukan untuk mendapatkan data
sekunder dengan tujuan melengkapi data primer.
7.2 Pemodelan (Classification)
Preprocessing

Pembagian Data

Data Training Data Testing

Klasifikasi Data Testing


(Nearest Neighbor)

Data Testing
Terklasifikasi

Evaluasi Model
[Confusion Matrix]

Gambar 6.1: Pemodelan (Classification)


7.3 Model Testing
Untuk mengukur kinerja (memperoleh akurasi) dari model K-NN untuk Klasifikai Dana
Desa, maka pengujian/evaluasi dilakukan menggunakan teknik confusion matrix.
JURNAL INFORMATIKA, Gorontalo 26 November 2016

9. HASIL PENELITIAN DAN PEMBAHASAN


Tabel 5.1 : Dataset
Jumlah Penduduk
No Nama Desa Penduduk Miskin Luas Wilayah IKG Klasifikasi
1 BULILA 2,541 170 0.58 22.66 Terendah
2 MONGOLATO 2,456 157 0.72 22.06 Terendah
3 LUHU 3,846 416 1.65 27.89 Sedang
4 HULAWA 4,218 345 1.57 22.62 Sedang
5 PILHAYANGA 2,274 304 1.91 31.25 Sedang
6 DULAMAYO SELATAN 2,190 573 33.86 43.81 Tertinggi
7 DULAMAYO BARAT 1,044 420 17.77 58.94 Sedang
… … … … … … …
176 PILOHAYANGAN BARAT 1,280 193 1.53 37.41 Terendah
177 ILUTA 1,998 517 3.12 34.07 Sedang
178 BUA 1,526 311 3.47 27.82 Terendah
189 HUNTA 1,111 132 3.20 38.04 Terendah
190 PAYUNGA 2,112 702 1.03 20.16 Sedang
191 MOMALA 783 321 3.42 54.84 Sedang
Jumlah Data 191
JURNAL INFORMATIKA, Gorontalo 26 November 2016

10. HASIL KLASIFIKASI


Hasil klasifikasi model KNN (K-Nerarest Neighbor) untuk Klasifikasi Dana Desa
Tabel 5.5 :Hasil Klasifikasi Data Testing / Data Uji
Klasifikasi
No Nama Desa JP JPM LW IKG Hasil
Kelas Aktual Kelas Predikat
1 ILOMATA 2.32 2.32 2.32 54.65 Sedang Terendah Salah
2 TAULAA 13.98 13.98 13.98 54.98 Sedang Terendah Benar
3 JURIYA 6.80 6.80 6.80 55.20 Terendah Terendah Benar
4 PELEHU 1.50 1.50 1.50 51.49 Terendah Terendah Benar
5 BUMELA 11.58 11.58 11.58 33.35 Tertinggi Tertinggi Salah
6 LAMAHU 12.79 12.79 12.79 29.07 Terendah Terendah Benar
7 MUSYAWARAH 4.20 4.20 4.20 37.78 Terendah Terendah Benar
8 SUKA DAMAI 9.20 9.20 9.20 51.12 Tertinggi Sedang Benar
9 PILOLALENGA 0.80 0.80 0.80 36.34 Sedang Sedang Benar
10 KALIYOSO 1.15 1.15 1.15 23.76 Sedang Sedang Benar
11 DUNALIYO 7.34 7.34 7.34 32.22 Sedang Sedang Salah
12 AMBARA 7.86 7.86 7.86 46.15 Tertinggi Sedang Benar
13 BONGOMEME 4.84 4.84 4.84 36.97 Sedang Sedang Benar
14 DUWANGA 3.29 3.29 3.29 38.62 Terendah Terendah Benar
15 AYUHULA 7.86 7.86 7.86 46.49 Sedang Sedang Benar
16 PANGADAA 3.44 3.44 3.44 38.49 Sedang Sedang Benar
17 BOTUBULOWE 7.97 7.97 7.97 30.70 Sedang Sedang Salah
18 MOMALA 3.42 3.42 3.42 54.84 Sedang Terendah Salah
19 TRIDARMA 6.77 6.77 6.77 34.13 Terendah Terendah Salah
20 MOLALAHU 9.21 9.21 9.21 26.65 Sedang Sedang Benar
21 MULYONEGORO 32.14 32.14 32.14 35.45 Tertinggi Tertinggi Benar
22 PUNCAK 14.45 14.45 14.45 39.79 Tertinggi Tertinggi Benar
23 TOYIDITO 9.95 9.95 9.95 32.77 Tertinggi Tertinggi Benar
24 AYUMOLINGO 19.24 19.24 19.24 41.70 Sedang Terendah Benar
25 BUKTI AREN 8.34 8.34 8.34 45.91 Tertinggi Sedang Benar
26 PONE 4.59 4.59 4.59 34.48 Sedang Terendah Benar
27 HIUIDU 4.17 4.17 4.17 44.12 Sedang Sedang Benar
28 OMBULO 4.09 4.09 4.09 38.14 Sedang Sedang Benar
29 DAENA 91.82 91.82 91.82 35.06 Tertinggi Tertinggi Benar
30 YOSONEGORO 3.83 3.83 3.83 25.25 Terendah Terendah Benar
31 TUNGGULO 3.37 3.37 3.37 25.06 Sedang Sedang Benar
32 HUTABOHU 5.44 5.44 5.44 28.91 Tertinggi Tertinggi Salah
33 PADENGO 3.83 3.83 3.83 27.88 Terendah Terendah Benar
34 HAYA-HAYA 3.12 3.12 3.12 38.39 Sedang Sedang Benar
35 HUIDU UTARA 6.97 6.97 6.97 47.27 Terendah Terendah Benar
36 TUALANGO 0.54 0.54 0.54 32.40 Terendah Terendah Salah
37 DULOMO 0.38 0.38 0.38 30.01 Terendah Terendah Benar
38 TILETO 0.31 0.31 0.31 34.57 Sedang Sedang Benar
JUMLAH BENAR 30
JURNAL INFORMATIKA, Gorontalo 26 November 2016

JUMLAH SALAH 8
5.3.1. EVALUASI DAN ANALISIS MODEL
1. Evaluasi Model
Dalam penelitian ini akan dilakukan eksperimen dengan menggunakan metode klasifikasi
data mining K-Nearest Neighbor terhadap data desa yang terkait dengan klasifikasi dana desa.
Kemudian dilakukan evaluasi dan validasi hasil dengan Confusion Matrix
Evaluasi Model K-NN
Tabel 5.6 : Hasil Evaluasi Model K-Nearest Neighbor
Kelas Prediksi Classification
Tertinggi Sedang Terendah Overall Precicion
Tertinggi 6 3 0 9 66.6%
Aktual
Kelas

Sedang 0 13 5 18 72.22%
Terendah 0 0 11 11 100%
Truth Ovarall 6 15 16
Recall 100% 81.25% 68.75% T = 38
Accuracy 78.95%

2. Hasil Evaluasi Dan Analisis Model K-Nearest Neighbor


Model KNN untuk klasifikasi dana desa menujukan bahwa parameter eksperimen yang
terbaik adalah :
1. Komposisi data latih = 80% dan data uji = 20% secara acak dengan menggunakan teknik Split
Validation , dimana dataset yang disajikan di Tabel 5.1 akan dibagi kedalam dua bagian yakni
80% (153 record) dari dataset akan dijadikan sebagai data training atau latih dan 20% (38
record) sisanya akan dijadikan sebagai data testing atau uji.
2. Nilai K terbaik yaitu K= 2, dengan Accuracy 78.95, Precicion 100%, Recall 100% di evaluasi
menggunakan Confusion Matrix
11. KESIMPULAN DAN SARAN
Kesimpulan
Berdasarkan hasil penelitian dan pembahasan, maka kesimpulan penelitian ini adalah:
1. Model K-Nearest Neighbor untuk klasifikasi dana desa parameter K yang mendapatkan
Akurasi tertinggi yaitu K = 2.
2. Berdasarkan hasil evaluasi model k-nearest neighbor menggunakan Confussion Matrix,
penggunaan model k-nearest neighbor terhadap dataset yang diambil yang digunakan pada
objek penelitian meperoleh akurasi tertinggi sebesar 78.95% atau termasuk Fair dengan
menggunakan parameter k=2. Kemudian nilai Precision sebesar 100% dan Recall sebesar
100%. Berdasarkan hasil tersebut dapat dinyatakan bahawa system klasifikasi yang
dibangun dapat digunakan untuk mengambil keputusan dalam mengklasifikasi dana desa.
Saran
Berdasarkan hasil penelitian, pembahasan, dan kesimpulan penelitian ini, maka beberapa
saran yang dapat diberikan untuk penelitian ke selanjutnya adalah:
1. Pada penelitian selanjutnya diharapkan dapat menggunakan dataset dengan jumlah yang
lebih besar untuk meningkatkan kinerja k-nearest neighbor, karena jumlah dataset
mempengaruhi kinerja dari metode yang digunakan,
2. Penerapan algoritma klasifikasi lainnya, seperti: SVM, C 4.5, Naïve Bayes, ANN, dsb
yang selanjutnya dapat dikomparasi untuk klasifikasi dana desa.

DAFTAR PUSTAKA
JURNAL INFORMATIKA, Gorontalo 26 November 2016

[1]Adi Nugroho, 2010, Rekayasa Perangkat Lunak Berbasis Objek dengan Metode USDP, Andi,
Yogyakarta.

[1]Bambang Hariyanto. 2004. Sistem Manajemen Basis Data: Pemodelan, Perancangan, dan
Terapannya. Informatika. Bandung.

[2]Anonim. 2015. Himpunan Peraturan Perundang-Undangan Mengenai Desa Direktorat


Jendral Perimbangan Keuangan Kementrian Keuangan. Indonesia.

[3]Ayuliana. 2009. Teknik Pengujian Perangkat Lunak. Maret.

[4]Connolly, Thomas and Begg, Carolyn. 2010. Database Systems A Practical Approach to
Design, Implementation, and Management Fifth Edition. Boston: Pearson Education.

[5]Han, Jiawei dan Kamber, Micheline. (2006), Data Mining : Concept and Techniques Second
Edition, Morgan Kaufmann Publishers.

[6]Han, J, Kamber, M, & Pei, J. 2012. Data Mining: Concept and Techniques, Third Edition.
Waltham: Morgan Kaufmann Publishers.

[7]Gorunescu, F. 2011. Data Mining Concept Model and Techniques. Berlin: Springer. ISBN
978-3-642-19720-8.

[8]Prasetyo, Bambang dan Lina Miftahul Jannah, Metode Penelitian Kuantitatif, Teori dan
Aplikasinya, Rajawali Pers, 2010

[9]Witten, Ian H, Frank, Eibe, & Hal, M.A. 2011. Data Mining: Pratical Machine Learning Tools
and Techniques, Third Edition. Burlington: Morgan Kaufmann Publishers.

You might also like