You are on page 1of 8

Prosiding Seminar Nasional Riset Dan Information Science (SENARIS) 2020

Vol. 2, (2020), pp. 192-199

Implementasi K-Means Clustering Untuk Mengelompokkan Hasil


Pertanian Kacang Kedelai (Ha) Berdasarkan Provinsi
Masitha1, Solikhun2, Dedi Suhendro3, Irfan Sudahri Damanik4, M. Fauzan5
STIKOM Tunas Bangsa Pematangsiantar
Jl. Jendral Sudirman Blok A No 1-3 Pematangsiantar, Indonesia
Masitha395@gmail.com

Abstract
Soybeans are one of the types of legumes which are the basic ingredients of many foods
that are useful for body health, this plant has also been cultivated since 3500 years ago.
Judging from the data yield of soybean (Ha) obtained from various provinces, the yield
varies from year to year. But at this time the government is still lacking information in
getting an information about the grouping of agricultural yield data from various
provinces in Indonesia, therefore, the authors conducted a study aimed at grouping the
harvested area of soybean (Ha) in each province in Indonesia with using the K-Means
Clustering algorithm. The data will be divided or clustered into 3 clusters where cluster 1
is a group of provinces with high potential for agricultural output with a yield of 1
province, cluster 2 is a province with medium agricultural yield with a yield of 5
provinces, while cluster 3 is a province with low agricultural yield potential with yields of
27 provinces. The results of this study are as a way to assist the government in
establishing soybean farming development areas (Ha) which is an opportunity for the
government to develop and improve the provincial economy. And it is hoped that this
research can be used as a material for policy making to increase soybean yields in each
province in the future so that it can help maximize government programs in soybean
farming.

Keywords: K-Means, Clustering, Agriculture, Soybeans

1. Pendahuluan
Pertanian merupakan kegiatan pemanfaatan sumber daya hayati yang di lakukan
oleh manusia untuk menghasilkan bahan pangan, bahan baku industri, maupun
sumber energi. Dalam teknologi budidaya kacang kedelai merupakan salah satu
komoditas bahan pangan bergizi tinggi sebagai sumber protein nabati dan rendah
kolesterol. kacang kedelai juga menjadi sarana untuk diet sehari -hari pada
masyarakat di kawasan Asia sejak sekitar 4.000 tahun yang lalu. Namun pada
perengkingan hasil panen pada setiap provinsi dalam hasil luas panen kacang
kedelai pada suatu provinsi masih menggunakan cara manual yaitu perhitungan
masih menggunakan rata-rata seluruh hasil indikator distribusi pada setiap provinsi
dan masih menggunakan sebuah statistik dasar, sehingga menghasilkan output yang
kurang maksimal dan memiliki permasalahan pada konsistensi data pada
pemerintahan provinsi. Dengan permasalahan diatas maka diperlukan sebuah
metode untuk mengelompokkan provinsi-provinsi yang memiliki hasil panen kacang
kedelai (Ha) dari tahun ke tahun berdasarkan provinsi sehingga pemerintah dapat
mengetahui provinsi mana yang hasil luas panen nya harus lebih ditingkatkan lagi
dimasa yang akan datang. Berdasarkan permasalahan diatas maka penulis tertarik
untuk mengangkat judul "Implementasi K-Means Clustering Untuk
Mengelompokkan Hasil Pertanian Kacang Kedelai (Ha) Berdasarkan
Provinsi”.

ISSN: 2686-0260
Copyright ⓒ SENARIS 2020
Prosiding Seminar Nasional Riset Dan Information Science (SENARIS) 2020
Vol. 2, (2020), pp. 192-199

2. Metode Penelitian
2.1. Data Mining
Data Mining merupakan sebuah proses yang mempekerjakan satu atau lebih
teknik pembelajaran komputer (machine learning) untuk menganalisis dan
mengekstraksi pengetahuan (knowledge) secara otomatis. Data mining disebut juga
dengan Knowledge Discovery in Database (KDD) ataupun pattern recognition [1].

2.2. K-Means
K-Means ialah algoritma yang digunakan kedalam suatu pengelompokkan secara
membagi yang memisahkan data ke dalam kelompok yang berbeda – beda. Algoritma ini
mampu memperpendek jarak antara data ke clusternya. pada penentuan pusat cluster ini
dipilih dengan cara acak dari populasi data. Kemudian algoritma k-means akan menguji
setiap komponennya ke dalam jumlah populasi data tersebut dan menandai komponen-
komponen tersebut ke dalam salah satu pusat cluster yang telah dideskripsikan
sebelumnya tergantung dari jarak minimum antar komponen dengan setiap pusat cluster
yang ada [2].

2.3. Clustering
Menurut Baskoro cluster atau klusterisasi adalah salah satu alat bantu pada data
mining yang bertujuan mengelompokkan objek-objek ke dalam cluster - cluster. Cluster
adalah metode penganalisaan data, yang sering dimasukkan sebagai salah satu metode
Data mining, yang tujuannya adalah untuk mengelompokkan data dengan karakteristik
yang sama ke suatu wilayah yang sama dan data dengan karakteristik yang berbeda ke
wilayah yang lain. Cluster berbeda dari klasifikasi karena cluster tidak memiliki variabel
target. Tujuan cluster bukan untuk mengklasifikasikan, memperkirakan, atau
memprediksi nilai variabel taget [3].
Proses dasar algoritma k-means dapat dilihat di bawah ini [4]:
1. Tentukan jumlah cluster (k) pada data set.
2. Tentukan nilai pusat (centroid)
Penentuan nilai centroid pada tahap awal dilakukan secara acak, sedangkan pada tahap
iterasi digunakan rumus seperti berikut ini :
(1)
Keterangan :
Vij = centroid rata-rata cluster ke-I untuk variabel ke-j
Ni = Jumlah anggota cluster ke-i
i, k = indeks dari cluster
j = indeks dari variable
Xkj = nilai data ke-k variabel ke-j untuk cluster tersebut.
3. Pada masing-masing record, hitung jarak terdekat dengan centroid. Jarak centroid
yang digunakan adalah Euclidean Distance, dengan rumus seperti berikut :
(2)
Keterangan :
De = Euclidean Distance
I = banyaknya objek
(x,y) = koordinat objek
(s,t) = koordinat centroid
4. Kelompokkan objek berdasarkan jarak ke centroid terdekat
5. Ulangi langkah ke-2, lakukan iterasi hingga centroid bernilai optimal

193
Prosiding Seminar Nasional Riset Dan Information Science (SENARIS) 2020
Vol. 2, (2020), pp. 192-199

2.3. Rapid Miner


Rapid Miner merupakan perangkat lunak yang dibuat oleh Dr. Markus
Hofman dari Institute of Technologi Blanchardstown dan Ralf Klinkenberg dari
rapid-i.com dengan tampilan GUI (Graphical User Interface) sehingga
memudahkan pengguna dalam menggunakan perangkat lunak ini. Perangkat lunak
ini bersifat open source dan dibuat dengan menggunakan program Java di bawah
lisensi GNU Public Licence dan Rapid Miner dapat dijalankan di sistem operasi
manapun. Dengan menggunakan Rapid Miner, tidak dibutuhkan kemampuan koding
khusus, karena semua fasilits sudah disediakan. Rapid Miner dikhususkan untuk
penggunaan data mining. Model yang disediakan juga cukup banyak dan lengkap,
seperti Model Bayesian, Modelling, Tree Induction, Neural Network dan lain-lain
[5].

3. Hasil Dan Pembahasan


Untuk mendapatkan hasil dari penelitian yang dilakukan, berikut uraian
perhitungan manual proses algoritma k-means clustering pada data hasil pertanian
kacang kedelai (Ha) dengan menggunakan sebuah konsep data mining.
1. Menentukan jumlah data yang akan di cluster, dimana sampel data hasil pertanian
kacang kedelai yang akan digunakan dalam proses clustering yaitu data hasil pertanian
kacang kedelai berdasarkan provinsi yang terdapat pada Badan Pusat Statistik pada
tahun 2000-2015 dengan jumlah data sebanyak 33 provinsi. Berikut yaitu rata-rata data
yang akan diolah :

Tabel 1. Nilai Rata-Rata Hasil Pertanian Kacang Kedelai (Ha) Provinsi


Provinsi Rata-Rata
Aceh 32322
Sumatera Utara 8532
Sumatera Barat 1675
Riau 3112
Jambi 3663
Sumatera Selatan 5658
Bengkulu 2909
Lampung 7998
Kep. Bangka Belitung 8
Kep. Riau 10
Jawa Barat 32226
Jawa Tengah 96228
Di Yogyakarta 32226
Jawa Timur 239479
Banten 4691
Bali 6967
Provinsi Rata-Rata
Nusa Tenggara Barat 75520
Nusa Tenggara Timur 2477
Kalimantan Barat 1510
Kalimantan Tengah 1733
Kalimantan Selatan 4091
Kalimantan Timur 1695
Kalimantan Utara 868
Sulawesi Utara 4030
Sulawesi Tengah 3778
Sulawesi Selatan 22153
Sulawesi Tenggara 3959

194
Prosiding Seminar Nasional Riset Dan Information Science (SENARIS) 2020
Vol. 2, (2020), pp. 192-199

Provinsi Rata-Rata
Gorontalo 2636
Sulawesi Barat 1811
Maluku 984
Maluku Utara 789
Papua Barat 1128
Papua 4176

2. Menenetapkan nilai K jumlah cluster hasil pertanian kacang kedelai sebanyak 3 cluster
(K-3). Cluster yang dibentuk yaitu cluster tertinggi, cluster sedang, dan cluster rendah.

3. Menentukan nilai centroid (pusat cluster) awal yang telah ditentukan secara random
pada jumlah cluster yang telah ditentukan sebelumnya. Berikut adalah nilai centroid
data awal pada iterasi 1 :

Tabel 2. Nilai Centroid Awal (Iterasi 1)


C1 Maximum 239479
C2 Average 18516
C3 Minimum 8

4. Setelah data nilai pusat cluster ditentukan, selanjutnya yaitu menghitung jarak setiap
data hasil pertanian kacang kedelai terhadap pusat cluster dengan mengunakan rumus
sebagai berikut yang dilakukan dengan titik pusat (centroid) pada cluster pertama.
Berikut adalah perhitungannya :
2
D (1.1) = = 207157
2
D (1.2) = = 230947
2
D (1.3) = = 237804
2
D (1.4) = = 236367
2
D (1.5) = = 205816
Lakukan sampai dengan D (1.33)

Perhitungan rata-rata data pada titik pusat centroid pada cluster 2 :


2
D (2.1) = = 13806
2
D (2.2) = = 9984
2
D (2.3) = = 16841
2
D (2.4) = = 15404
2
D (2.5) = = 14853
Lakukan sampai dengan D (2.33)

Perhitungan rata-rata data pada titik pusat centroid pada cluster 3 :


2
D (3.1) = = 32314
2
D (3.2) = = 8524
2
D (3.3) = = 1667

195
Prosiding Seminar Nasional Riset Dan Information Science (SENARIS) 2020
Vol. 2, (2020), pp. 192-199

2
D (3.4) = = 3104
2
D (3.5) = = 3655
Lakukan sampai dengan D (3.33)

Berikut adalah hasil dari perhitungan rata-rata data pada titik pusat centroid pada setiap
cluster :

Tabel 3. Hasil Perhitungan Centroid pada setiap cluster (Iterasi 1)


Provinsi Rata-Rata C1 C2 C3
Aceh 32322 207157 13806 32314
Sumatera Utara 8532 230947 9984 8524
Sumatera Barat 1675 237804 16841 1667
Riau 3112 236367 15404 3104
Jambi 3663 235816 14853 3655
Sumatera Selatan 5658 233821 12858 5650
Bengkulu 2909 236570 15607 2901
Lampung 7998 231481 10518 7990
Kep. Bangka Belitung 8 239471 18508 0
Kep. Riau 10 239469 18506 2
Jawa Barat 32226 207253 13710 32218
Jawa Tengah 96228 143251 77712 96220
Di Yogyakarta 32226 207253 13710 32218
Jawa Timur 239479 0 220963 239471
Banten 4691 234788 13825 4683
Bali 6967 232512 11549 6959
Nusa Tenggara Barat 75520 163959 57004 75512
Nusa Tenggara Timur 2477 237002 16039 2469
Kalimantan Barat 1510 237969 17006 1502
Kalimantan Tengah 1733 237746 16783 1725
Provinsi Rata-Rata C1 C2 C3
Kalimantan Selatan 4091 235388 14425 4083
Kalimantan Timur 1695 237784 16821 1687
Kalimantan Utara 868 238611 17648 860
Sulawesi Utara 4030 235449 14486 4022
Sulawesi Tengah 3778 235701 14738 3770
Sulawesi Selatan 22153 217326 3637 22145
Sulawesi Tenggara 3959 235520 14557 3951
Gorontalo 2636 236843 15880 2628
Sulawesi Barat 1811 237668 16705 1803
Maluku 984 238495 17532 976
Maluku Utara 789 238690 17727 781
Papua Barat 1128 238351 17388 1120
Papua 4176 235303 14340 4168

Selanjutnya hitung jarak terdekat dengan centroid dengan menggunakan Euclidean


Distance.

196
Prosiding Seminar Nasional Riset Dan Information Science (SENARIS) 2020
Vol. 2, (2020), pp. 192-199

Tabel 4. Hasil Perhitungan jarak Data Pada Iterasi 1


No. Jarak Terpendek Hasil C1 C2 C3
1 13806 C2 1
2 8524 C3 1
3 1667 C3 1
4 3104 C3 1
5 3655 C3 1
6 5650 C3 1
7 2901 C3 1
8 7990 C3 1
9 0 C3 1
10 2 C3 1
11 13710 C2 1
12 77712 C2 1
13 13710 C2 1
14 0 C1 1
15 4683 C3 1
16 6959 C3 1
17 57004 C2 1
18 2469 C3 1
19 1502 C3 1
20 1725 C3 1
21 4083 C3 1
No. Jarak Terpendek Hasil C1 C2 C3
22 1687 C3 1
23 860 C3 1
24 4022 C3 1
25 3770 C3 1
26 3637 C2 1
27 3951 C3 1
28 2628 C3 1
29 1803 C3 1
30 976 C3 1
31 781 C3 1
32 1120 C3 1
33 4168 C3 1

Dan berikut adalah hasil dari perhitungan jarak data ke titik pusat cluster pada iterasi 1 :

Tabel 5. Hasil Cluster Pada Iterasi 1


Cluster Hasil
C1 1
C2 6
C3 26

5. Selanjutnya lakukan kembali langkah 4 – 5 jika nilai centroid hasil dari iterasi pertama
dengan nilai centroid selanjutnya bernilai sama ataupun nilai centroid sudah optimal
serta posisi cluster pada data hasil pertanian kacang kedelai (Ha) tidak mengalami
perubahan lagi maka proses iterasi berhenti. Namun jika posisi cluster masih berubah-

197
Prosiding Seminar Nasional Riset Dan Information Science (SENARIS) 2020
Vol. 2, (2020), pp. 192-199

ubah maka proses iterasi masih berlanjut pada iterasi berikutnya sampai cluster
bernilai sama.

6. Menghitung titik pusat baru menggunakan hasil dari setiap anggota pada masing-
masing cluster. Berikut contoh perhitungan titik pusat cluster baru pada iterasi ke dua
(x) :

C1x = = 239479

C2x = = 48446

C3x = = 3111

Tabel 6 Nilai Centroid Baru (Iterasi 2)


C1 Maximum 239479
C2 Average 48446
C3 Minimum 3111

Lakukan proses perhitungan tersebut secara berulang sampai dengan nilai cluster pada
iterasi sebelumnya bernilai sama,jika nilai cluster sudah bernilai sama maka proses
perhitungan sudah bisa dihentikan. Namun jika nilai cluster pada iterasi sebelumnya
masih berbeda, lakukan lagi pada perhitungan-perhitungan berikutnya. Berikut adalah
hasil dari perhitungan diatas :

3.1 Tampilan Keluaran Sistem RapidMiner


Keterangan :
1. Jumlah Cluster 0 (Rendah) berjumlah 27 items.
2. Jumlah Cluster 1 (Tinggi) berjumlah 1 items.
3. Jumlah Cluster 2 (Sedang) berjumlah 5 items.
4. Jumlah keseluruhan items adalah 33.

Gambar 1. Nilai Cluster Model RapidMiner

4. Kesimpulan
Hasil akhir dari penelitian yang menggunakan data sebanyak 33 provinsi ini, dapat
disimpulkan bahwa telah didapatkan masing-masing nilai cluster yakni :
1. Cluster tertinggi (C1) dengan jumlah sebanyak 1 Provinsi yaitu : Jawa Timur.

198
Prosiding Seminar Nasional Riset Dan Information Science (SENARIS) 2020
Vol. 2, (2020), pp. 192-199

2. Cluster Sedang (C2) dengan jumlah sebanyak 5 Provinsi yaitu : Aceh, Jawa Barat,
Jawa Tengah, DI Yogyakarta, Nusa Tenggara Barat.
3. Cluster Rendah (C3) dengan jumlah sebanyak 27 Provinsi yaitu : Sumatera Utara,
Sumatera Barat, Riau, Jambi, Sumatera Selatan, Bengkulu, Lampung, Kep.Bangka
Belitung, Kep.Riau, Banten, Bali, Nusa Tenggara Timur, Kalimantan Barat,
Kalimantan Tengah, Kalimantan Selatan, Kalimantan Timur, Kalimantan Utara,
Sulawesi Utara, Sulawesi Tengah, Sulawesi Selatan, Sulawesi Tenggara, Gorontalo,
Sulawesi Barat, Maluku, Maluku Utara, Papua Barat, Papua.
4. Proses pemberentihan iterasi pada pengujian yang dilakukan pada penelitian ini yaitu
terjadi pada iterasi ke 3.
5. Nilai hasil akurasi yang dilakukan dengan perhitungan manual dan dengan aplikasi
rapidminer bernilai sama.

Daftar Pustaka
[1] M. G. Sadewo, A. Eriza, A. P. Windarto, and D. Hartama, “Algoritma K-Means Dalam
Mengelompokkan Desa / Kelurahan Menurut Keberadaan Keluarga Pengguna Listrik dan Sumber
Penerangan Jalan Utama Berdasarkan Provinsi,” pp. 754–761, 2019.
[2] P. Alkhairi and A. P. Windarto, “Penerapan K-Means Cluster Pada Daerah Potensi Pertanian Karet
Produktif di Sumatera Utara,” pp. 762–767, 2019.
[3] D. Retno and S. Mayangsari, “PENGELOMPOKKAN JUMLAH DESA / KELURAHAN YANG
MEMILIKI DENGAN MENGGUNAKAN METODE K-MEANS CLUSTER,” vol. 3, pp. 370–377,
2019.
[4] K. F. Irnanda, A. P. Windarto, I. S. Damanik, and I. Gunawan, “Penerapan K-Means pada Proporsi
Individu dengan Keterampilan ( Teknologi Informasi dan Komunikasi ) TIK Menurut Wilayah,” no.
c, pp. 452–456, 2019.
[5] S. Kasus, U. Dehasen, S. Haryati, A. Sudarsono, and E. Suryana, “IMPLEMENTASI DATA
MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN
ALGORITMA C4 . 5,” vol. 11, no. 2, pp. 130–138, 2015.

199

You might also like