Professional Documents
Culture Documents
Abstract
Soybeans are one of the types of legumes which are the basic ingredients of many foods
that are useful for body health, this plant has also been cultivated since 3500 years ago.
Judging from the data yield of soybean (Ha) obtained from various provinces, the yield
varies from year to year. But at this time the government is still lacking information in
getting an information about the grouping of agricultural yield data from various
provinces in Indonesia, therefore, the authors conducted a study aimed at grouping the
harvested area of soybean (Ha) in each province in Indonesia with using the K-Means
Clustering algorithm. The data will be divided or clustered into 3 clusters where cluster 1
is a group of provinces with high potential for agricultural output with a yield of 1
province, cluster 2 is a province with medium agricultural yield with a yield of 5
provinces, while cluster 3 is a province with low agricultural yield potential with yields of
27 provinces. The results of this study are as a way to assist the government in
establishing soybean farming development areas (Ha) which is an opportunity for the
government to develop and improve the provincial economy. And it is hoped that this
research can be used as a material for policy making to increase soybean yields in each
province in the future so that it can help maximize government programs in soybean
farming.
1. Pendahuluan
Pertanian merupakan kegiatan pemanfaatan sumber daya hayati yang di lakukan
oleh manusia untuk menghasilkan bahan pangan, bahan baku industri, maupun
sumber energi. Dalam teknologi budidaya kacang kedelai merupakan salah satu
komoditas bahan pangan bergizi tinggi sebagai sumber protein nabati dan rendah
kolesterol. kacang kedelai juga menjadi sarana untuk diet sehari -hari pada
masyarakat di kawasan Asia sejak sekitar 4.000 tahun yang lalu. Namun pada
perengkingan hasil panen pada setiap provinsi dalam hasil luas panen kacang
kedelai pada suatu provinsi masih menggunakan cara manual yaitu perhitungan
masih menggunakan rata-rata seluruh hasil indikator distribusi pada setiap provinsi
dan masih menggunakan sebuah statistik dasar, sehingga menghasilkan output yang
kurang maksimal dan memiliki permasalahan pada konsistensi data pada
pemerintahan provinsi. Dengan permasalahan diatas maka diperlukan sebuah
metode untuk mengelompokkan provinsi-provinsi yang memiliki hasil panen kacang
kedelai (Ha) dari tahun ke tahun berdasarkan provinsi sehingga pemerintah dapat
mengetahui provinsi mana yang hasil luas panen nya harus lebih ditingkatkan lagi
dimasa yang akan datang. Berdasarkan permasalahan diatas maka penulis tertarik
untuk mengangkat judul "Implementasi K-Means Clustering Untuk
Mengelompokkan Hasil Pertanian Kacang Kedelai (Ha) Berdasarkan
Provinsi”.
ISSN: 2686-0260
Copyright ⓒ SENARIS 2020
Prosiding Seminar Nasional Riset Dan Information Science (SENARIS) 2020
Vol. 2, (2020), pp. 192-199
2. Metode Penelitian
2.1. Data Mining
Data Mining merupakan sebuah proses yang mempekerjakan satu atau lebih
teknik pembelajaran komputer (machine learning) untuk menganalisis dan
mengekstraksi pengetahuan (knowledge) secara otomatis. Data mining disebut juga
dengan Knowledge Discovery in Database (KDD) ataupun pattern recognition [1].
2.2. K-Means
K-Means ialah algoritma yang digunakan kedalam suatu pengelompokkan secara
membagi yang memisahkan data ke dalam kelompok yang berbeda – beda. Algoritma ini
mampu memperpendek jarak antara data ke clusternya. pada penentuan pusat cluster ini
dipilih dengan cara acak dari populasi data. Kemudian algoritma k-means akan menguji
setiap komponennya ke dalam jumlah populasi data tersebut dan menandai komponen-
komponen tersebut ke dalam salah satu pusat cluster yang telah dideskripsikan
sebelumnya tergantung dari jarak minimum antar komponen dengan setiap pusat cluster
yang ada [2].
2.3. Clustering
Menurut Baskoro cluster atau klusterisasi adalah salah satu alat bantu pada data
mining yang bertujuan mengelompokkan objek-objek ke dalam cluster - cluster. Cluster
adalah metode penganalisaan data, yang sering dimasukkan sebagai salah satu metode
Data mining, yang tujuannya adalah untuk mengelompokkan data dengan karakteristik
yang sama ke suatu wilayah yang sama dan data dengan karakteristik yang berbeda ke
wilayah yang lain. Cluster berbeda dari klasifikasi karena cluster tidak memiliki variabel
target. Tujuan cluster bukan untuk mengklasifikasikan, memperkirakan, atau
memprediksi nilai variabel taget [3].
Proses dasar algoritma k-means dapat dilihat di bawah ini [4]:
1. Tentukan jumlah cluster (k) pada data set.
2. Tentukan nilai pusat (centroid)
Penentuan nilai centroid pada tahap awal dilakukan secara acak, sedangkan pada tahap
iterasi digunakan rumus seperti berikut ini :
(1)
Keterangan :
Vij = centroid rata-rata cluster ke-I untuk variabel ke-j
Ni = Jumlah anggota cluster ke-i
i, k = indeks dari cluster
j = indeks dari variable
Xkj = nilai data ke-k variabel ke-j untuk cluster tersebut.
3. Pada masing-masing record, hitung jarak terdekat dengan centroid. Jarak centroid
yang digunakan adalah Euclidean Distance, dengan rumus seperti berikut :
(2)
Keterangan :
De = Euclidean Distance
I = banyaknya objek
(x,y) = koordinat objek
(s,t) = koordinat centroid
4. Kelompokkan objek berdasarkan jarak ke centroid terdekat
5. Ulangi langkah ke-2, lakukan iterasi hingga centroid bernilai optimal
193
Prosiding Seminar Nasional Riset Dan Information Science (SENARIS) 2020
Vol. 2, (2020), pp. 192-199
194
Prosiding Seminar Nasional Riset Dan Information Science (SENARIS) 2020
Vol. 2, (2020), pp. 192-199
Provinsi Rata-Rata
Gorontalo 2636
Sulawesi Barat 1811
Maluku 984
Maluku Utara 789
Papua Barat 1128
Papua 4176
2. Menenetapkan nilai K jumlah cluster hasil pertanian kacang kedelai sebanyak 3 cluster
(K-3). Cluster yang dibentuk yaitu cluster tertinggi, cluster sedang, dan cluster rendah.
3. Menentukan nilai centroid (pusat cluster) awal yang telah ditentukan secara random
pada jumlah cluster yang telah ditentukan sebelumnya. Berikut adalah nilai centroid
data awal pada iterasi 1 :
4. Setelah data nilai pusat cluster ditentukan, selanjutnya yaitu menghitung jarak setiap
data hasil pertanian kacang kedelai terhadap pusat cluster dengan mengunakan rumus
sebagai berikut yang dilakukan dengan titik pusat (centroid) pada cluster pertama.
Berikut adalah perhitungannya :
2
D (1.1) = = 207157
2
D (1.2) = = 230947
2
D (1.3) = = 237804
2
D (1.4) = = 236367
2
D (1.5) = = 205816
Lakukan sampai dengan D (1.33)
195
Prosiding Seminar Nasional Riset Dan Information Science (SENARIS) 2020
Vol. 2, (2020), pp. 192-199
2
D (3.4) = = 3104
2
D (3.5) = = 3655
Lakukan sampai dengan D (3.33)
Berikut adalah hasil dari perhitungan rata-rata data pada titik pusat centroid pada setiap
cluster :
196
Prosiding Seminar Nasional Riset Dan Information Science (SENARIS) 2020
Vol. 2, (2020), pp. 192-199
Dan berikut adalah hasil dari perhitungan jarak data ke titik pusat cluster pada iterasi 1 :
5. Selanjutnya lakukan kembali langkah 4 – 5 jika nilai centroid hasil dari iterasi pertama
dengan nilai centroid selanjutnya bernilai sama ataupun nilai centroid sudah optimal
serta posisi cluster pada data hasil pertanian kacang kedelai (Ha) tidak mengalami
perubahan lagi maka proses iterasi berhenti. Namun jika posisi cluster masih berubah-
197
Prosiding Seminar Nasional Riset Dan Information Science (SENARIS) 2020
Vol. 2, (2020), pp. 192-199
ubah maka proses iterasi masih berlanjut pada iterasi berikutnya sampai cluster
bernilai sama.
6. Menghitung titik pusat baru menggunakan hasil dari setiap anggota pada masing-
masing cluster. Berikut contoh perhitungan titik pusat cluster baru pada iterasi ke dua
(x) :
C1x = = 239479
C2x = = 48446
C3x = = 3111
Lakukan proses perhitungan tersebut secara berulang sampai dengan nilai cluster pada
iterasi sebelumnya bernilai sama,jika nilai cluster sudah bernilai sama maka proses
perhitungan sudah bisa dihentikan. Namun jika nilai cluster pada iterasi sebelumnya
masih berbeda, lakukan lagi pada perhitungan-perhitungan berikutnya. Berikut adalah
hasil dari perhitungan diatas :
4. Kesimpulan
Hasil akhir dari penelitian yang menggunakan data sebanyak 33 provinsi ini, dapat
disimpulkan bahwa telah didapatkan masing-masing nilai cluster yakni :
1. Cluster tertinggi (C1) dengan jumlah sebanyak 1 Provinsi yaitu : Jawa Timur.
198
Prosiding Seminar Nasional Riset Dan Information Science (SENARIS) 2020
Vol. 2, (2020), pp. 192-199
2. Cluster Sedang (C2) dengan jumlah sebanyak 5 Provinsi yaitu : Aceh, Jawa Barat,
Jawa Tengah, DI Yogyakarta, Nusa Tenggara Barat.
3. Cluster Rendah (C3) dengan jumlah sebanyak 27 Provinsi yaitu : Sumatera Utara,
Sumatera Barat, Riau, Jambi, Sumatera Selatan, Bengkulu, Lampung, Kep.Bangka
Belitung, Kep.Riau, Banten, Bali, Nusa Tenggara Timur, Kalimantan Barat,
Kalimantan Tengah, Kalimantan Selatan, Kalimantan Timur, Kalimantan Utara,
Sulawesi Utara, Sulawesi Tengah, Sulawesi Selatan, Sulawesi Tenggara, Gorontalo,
Sulawesi Barat, Maluku, Maluku Utara, Papua Barat, Papua.
4. Proses pemberentihan iterasi pada pengujian yang dilakukan pada penelitian ini yaitu
terjadi pada iterasi ke 3.
5. Nilai hasil akurasi yang dilakukan dengan perhitungan manual dan dengan aplikasi
rapidminer bernilai sama.
Daftar Pustaka
[1] M. G. Sadewo, A. Eriza, A. P. Windarto, and D. Hartama, “Algoritma K-Means Dalam
Mengelompokkan Desa / Kelurahan Menurut Keberadaan Keluarga Pengguna Listrik dan Sumber
Penerangan Jalan Utama Berdasarkan Provinsi,” pp. 754–761, 2019.
[2] P. Alkhairi and A. P. Windarto, “Penerapan K-Means Cluster Pada Daerah Potensi Pertanian Karet
Produktif di Sumatera Utara,” pp. 762–767, 2019.
[3] D. Retno and S. Mayangsari, “PENGELOMPOKKAN JUMLAH DESA / KELURAHAN YANG
MEMILIKI DENGAN MENGGUNAKAN METODE K-MEANS CLUSTER,” vol. 3, pp. 370–377,
2019.
[4] K. F. Irnanda, A. P. Windarto, I. S. Damanik, and I. Gunawan, “Penerapan K-Means pada Proporsi
Individu dengan Keterampilan ( Teknologi Informasi dan Komunikasi ) TIK Menurut Wilayah,” no.
c, pp. 452–456, 2019.
[5] S. Kasus, U. Dehasen, S. Haryati, A. Sudarsono, and E. Suryana, “IMPLEMENTASI DATA
MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN
ALGORITMA C4 . 5,” vol. 11, no. 2, pp. 130–138, 2015.
199