Professional Documents
Culture Documents
ABSTRACT
Cluster validation is a procedure to evaluate the results of cluster analysis quantitively and
objectively on a data. The validation process is very important to get the results of a good and
appropriate grouping. In the validation process, the author uses internal validation, stability, and
discriminant analysis test. This study aims to obtain validation results from the hierarchy and
kmeans method. This data grouping uses “iris” simulation data, which results from the grouping
method used can be applied to the original data to see which vaidation method is used for all data
and produce an optimal grouping. The result of the study show that in the “iris” data, a single
linkage link is an appropriate grouping method because the result of the grouping are optimal for
all validations and classification of group members whose groups are significant. In District
poverty data in Jember Regency with a single linkage link optimal grouping was obtained and
complete linkage links were also used as a method that resulted in optimal groupig for all
validation. Cluster validation discriminant analysis test is appropriate for various types of data in
general annd shows that single linkage methods are better than other methods for grouping and
validation methods for “iris” data and District data in Jember Regency based on variabels of
poverty status.
Keywords: Cluster Analysis, Diskriminant Analysis, Multivariate Analysis, Validation Cluster.
PENDAHULUAN kelompok yang rendah serta tidak adanya
outlier. Metode pengelompokan yang tepat
Analisis Multivariat merupakan salah satu jenis penggunaannya dalam pengelompokan data
analisis statistika yang dapat digunakan untuk dan memenuhi kriteria pengelompokan yang
menganalisis data dengan variabel independent baik, membutuhkan satu proses terakhir yaitu
dan/atau variabel dependent-nya lebih dari proses validasi cluster atau validasi
satu. Analisis cluster bertujuan untuk pengelompokan, sehingga nantinya dari pada
mengelompokkan objek ke dalam suatu pengelompokan data tersebut akan didapatkan
kelompok sehingga objek yang berada dalam hasil yang lebih baik. Menurut Brock, et.al
satu kelompok akan memiliki kesamaan yang (2018) validasi cluster ada 3 macam metode
tinggi daripada objek yang berada di kelompok validasi yang digunakan untuk menentukan
lain(Sharma, 1996). jumlah cluster optimal yaitu validasi internal,
Menurut Shidqon (2012) pada analisis validasi stabilitas, dan validasi biologis. Pada
cluster, tidak ada metode-metode penelitian ini digunakan validasi internal,
pengelompokan yang secara khusus dapat validasi stabilitas dan juga uji analisis
menjelaskan tentang ketepatan sebuah metode diskriminan sebagai salah satu metode untuk
digunakan dalam proses pengelompokan data. memvalidasi hasil solusi cluster.
Masing-masing metode pengelompokan Analisis diskriminan adalah teknik
memiliki kelebihan dan kelemahan, multivariate yang termasuk dependence
diantaranya adalah sensitif terhadap adanya method, yakni adanya variabel dependen dan
outlier, kesulitan menangani variasi bentuk dan variabel independen, sehingga ada variabel
ukuran, serta memisahkan kelompok yang yang hasilnya tergantung dari data variabel
besar. Pengelompokan yang baik yaitu independen (Santosa, 2002). Pada situasi ini,
memiliki kesamaan individu dalam satu solusi cluster menjadi variabel dependen yang
kelompok yang tinggi dan kesamaan antar digunakan untuk mendapatkan pengelompokan
yang optimal. Adapun pengolahan data peubah status kemiskinannya yang juga dapat
dilakukan dengan menggunakan akses web di kelompokkan ke dalam beberapa cluster
online Virtual Statistics Laboratory Fakultas kecamatan yang mempunyai sifat relatif sama
Matematika dan Ilmu Pengetahuan Alam atau kemiripan sifat berdasarkan peubah status
Universitas Jember dengan alamat kemiskinannya. Kemiskinan didefinisikan
http://statslab- sebagai konsekuensi dari suatu struktur
rshiny.fmipa.unej.ac.id/RProg/Multiv/. masyarakat dengan penduduk yang padat,
Penelitian analisis cluster telah dilakukan terbatasnya sumber daya, tingkat kesehatan
oleh beberapa peneliti diantaranya Sitepu yang rendah dan kesempatan pendidikan yang
(2011) yang menggunakan anaisis cluster tidak merata (Ernayati dan Ita, 1996).
terhadap tingkat pencemaran udara pada sektor Tujuan penelitian ini adalah mengetahui
industri, dengan hasil validasi diuji prosedur penentuan metode analisis Cluster
menggunakan parsial F yang akan menjadi terbaik dari metode hirarki dan kmeans;
variabel pembeda dalam peng-cluster-an, mengetahui hasil yang didapatkan dari validasi
Rachmatin (2014) yang menggunakan aplikasi analisis cluster dan hasil validasinya terhadap
metode-metode agglomerative dalam analisis pengelompokan data “iris” dan data
cluster pada data tingkat polusi udara untuk kemiskinan Kecamatan di Kabupaten Jember;
hasil validasi dengan plot RMSSTD (Root serta mengetahui bahwa ujian alisis
Mean Square Standart Deviation) dan CD diskriminan tepat digunakan sebagai salah satu
(Cluster Distance) sehingga hasil plot dari metode untuk memvalidasi hasil solusi dari
jumlah cluster yang digunakan menghasilkan analisis cluster untuk data secara umum.
jumlah cluster yang valid (dapat dipercaya) dan
METODE
dapat dipilih 5 sampai 6 cluster dan Shidqon
(2012) yang menggunakan metode validasi Data yang digunakan dalam penelitian ini adalah
internal untuk validasi cluster pada data simulasi yang ada di web Pusat Belajar dan
pengelompokan Kecamatan di Kabupaten Laboratorium Statistika Virtual yaitu data “iris”
Jember berdasarkan status kemiskinan. Akan (Data dapat dilihat pada lampira C) dan data
sekunder skripsi Muhda Shidqon (2012). Sumber
tetapi setiap data dan metode-metode yg data berasal dari hasil sensus Badan Pusat Statistik
digunakan pada hasil validasi memiliki (BPS) Kabupaten Jember tahun 2010.
karakteristik tersendiri sehingga Pengelompokan ini dilakukan berdasarkan faktor-
memungkinkan adanya pemilihan data dan faktor yang mempengaruhi kemiskinan pada suatu
penentuan metode hasil validasi yang berbeda. kecamatan. Dalam penelitian ini, peneliti memilih
Analisis diskriminan untuk validasi cluster objek pengamatan Kecamatan di Kabupaten Jember
dapat digunakan sebagai pengklasifikasian yang terdiri dari 31 kecamatan, yaitu :
suatu individu atau objek ke dalam suatu = Kepadatan Penduduk (Jiwa/km2).
kelompok yang telah ditentukan sebelumnya = Banyaknya sekolah (SD/MI (Negeri &
berdasarkan variabel-variabel bebasnya[2]. Swasta), SLTP/MTs (Negeri & Swasta),
Penelitian ini, menggunakan data simulasi yang SMA/MA (Negeri & Swasta).
ada di web Pusat Belajar dan Laboratorium = Banyaknya fasilitas kesehatan (Rumah sakit,
Puskesmas).
Statistika Virtual yaitu data “iris” dan data
= Banyaknya Rumah Tangga Pengguna PLN.
Kecamatan di Kabupaten Jember berdasarkan = Banyaknya Rumah Tangga yang Mempunyai
peubah status kemiskinannya. Data “iris” Telepon.
digunakan sebagai salah satu acuan = Banyaknya Industri berbadan hukum (Industri
pengelompokan dalam analisis data ini, karena Kecil, Industri Sedang, dan Industri Besar).
data “iris” mempunyai klasifikasi variabel = Produksi Pertanian (Ton).
kelompok yang asli sehingga dengan lebih Pengolahan data menggunakan akses web online
mudah dilihat ketepatan pengelompokan Virtual Statistics Laboratory Fakultas Matematika
analisis data yang dihasilkan dari beberapa dan Ilmu Pengetahuan Alam Universitas Jember.
metode yang digunakan dengan kelompok Adapun langkah-langkah dalam penelitian
yang telah terdefinisi sebelumnya. Berdasarkan menggunakan Analisis diskriminan untuk validasi
uraian tersebut, pengelompokan dengan cluster yaitu :
a. Input data pada web Pusat Belajar dan
metode analisis data yang tepat digunakan
Laboratorium Statistika Virtual bagian
dalam data “iris” sebelumnya dapat Analisis Multivariat secara online.
diaplikasikkan pada pengelompokan data b. Menentukan prosedur pengelompokan
Kecamatan di Kabupaten Jember berdasarkan Pada langkah menentukan prosedur
Jurnal ILMU DASAR, Vol.20 No. 2, Juli 2019 : 129-138 131
menggunakan metode hirarki tautan single mendekati 1. Pada validasi stabilitas, metode
linkage dan complete linkage merupakan hirarki dengan tautannya complete linkage dan
pengelompokan dengan hasil yang optimal average linkage menghasilkan pengelompokan
pada validasi internal karena terlihat dari nilai yang baik (stabil), karena nilai APN dan FOM
connectivity dan nilai dunn index-nya yang nya menghasilkan nilai yang lebih kecil dari
lebih kecil daripada nilai connectivity untuk yang lain.
tautan metode hiraki yang lainnya dan metode
kmeans serta angka pada nilai silhouette yang
Tabel 1. Perbandingan Hasil Validasi Keseluruhan Data “iris
Validasi
Internal Stabilitas Analisis Diskriminan
Metode Hit
Conne Dunn Silhou Cmax
APN FOM Ratio Press’s Q
ctivity Index ette (%)
(%)
Setosa 50 0 0 50
Klasifikasi sebenarnya Versi
0 98 0 98
Color
Virginica 0 0 2 2
Banyak objek 50 98 2 150
Tabel 4. Ketepatan Klasifikasi Masing-masing kelompok Pada Metode Single Linkage Data
Kemiskinan Kecamatan Kabupaten Jember
Klasifikasi model
Kelompok Banyak Objek
I II III
I 28 0 0 28
Klasifikasi
sebenarnya II 0 1 0 1
III 0 0 2 2
Banyak objek 28 1 2 31
Tabel 5. Ketepatan Klasifikasi Masing-masing kelompok Pada Metode Complete Linkage Data
Kemiskinan Kecamatan Kabupaten Jember
Klasifikasi model
Kelompok Banyak Objek
I II III
I 16 0 0 16
Klasifikasi
sebenarnya II 0 12 0 12
III 0 0 3 3
Banyak objek 16 12 3 31
Direktorat Sejarah dan Nilai Tradisional Technique. Canada: John Wiley & Sons.
Bagian Proyek Pengkajian dan Pembinaan Shidqon, M. 2012. Validasi Metode Kelompok
Kebudayaan Masa Kini, Jakarta. Pada Pengelompokan Kecamatan Di
Rachmatin, D dan Sawitri, K. 2014. Kabupaten Jember Berdasarkan Peubah
Perbandigan Antara Metode Agglomeratif, Status Kemiskinan. Skripsi. Jember:
Metode Divisif, dan Metode K-Means Fakultas Matematika dan Ilmu Pengetahuan
dalam Analisis Klaster. Seminar Nasional Alam Universitas Jember.
Matematika UNPAR. Sitepu, R., Irmeilyana, danGultom, B. 2011.
Santosa, S. 2002. Buku Latihan SPSS Statistik Analisis Cluster terhadap Tingkat
Multivariat. Jakarta: PT Elex Media Pencemaran Udara Pada Sektor Industri di
Komptindo. Sumatera Selatan. Jurnal Penelitian Sains.
Sharma, S. (1996). Applied Multivariate 4(34): 12-17.