You are on page 1of 17

BAB III SINGLE LINKAGE METHOD, COMPLETE LINKAGE METHOD, AVERAGE LINKAGE METHOD DAN WARDS METHOD PADA

ANALISIS KLASTER

Pada bab ini akan dipaparkan beberapa konsep dan teori analisis klaster, metode-metode dalam analisis klaster serta algoritma dari masing-masing metode tersebut. 3.1 ANALISIS KLASTER Selama bertahun-tahun manusia telah berusaha mengelompokkan fenomena yang terjadi di alam menjadi berbagai kelompok kemudian mengklasifikasikan menjadi sebuah kategori. Timbul suatu permasalahan saat manusia harus mengelompokkan ribuan atau bahkan jutaan benda, terlebih jika benda tersebut tidak mempunyai struktur yang jelas. Oleh karena itu, diperlukan suatu prosedur sistematis yang dapat melakukan analisis pengelompokan pada sebuah kumpulan objek yang dikenal sebagai analisis klaster. Analisis klaster dibagi menjadi dua metode yaitu metode hirarki dan metode non-hirarki. Dalam metode hirarki jumlah kelompok yang akan diperoleh belum diketahui. Metode ini dibagi menjadi dua, yaitu metode agglomerative (pemusatan) dan metode divisive (penyebaran). Dalam metode agglomerative ada beberapa metode yang sering digunakan untuk mengklasterkan objek dibedakan berdasarkan ukuran kemiripannya yaitu Single Linkage Method, Complete Linkage Method, Average Linkage Method, Wards Method dan

23

24

sebagainya. Sedangkan dalam metode non-hirarki jumlah kelompok yang akan terbentuk diketahui terlebih dahulu. Metode ini dibedakan menjadi dua yaitu k-means dan fuzzy. Saat ini analisis klaster telah banyak digunakan dalam berbagai bidang ilmu pengetahuan, misalnya biologi, kimia, ekonomi dan bidang lainnya. Sebagai contoh, analisis klaster digunakan untuk mengelompokkan daerah-daerah berdasarkan bencana yang sering melanda daerah tersebut, misalkan gempa bumi, banjir ataupun bencana alam lainnya. Contoh lainnya, misalkan dalam bidang ekonomi, biasanya peneliti akan mengelompokkan konsumen berdasarkan pemakaian produksi dan sebagainya. 3.2 DEFINISI ANALISIS KLASTER Analisis klaster adalah proses pengelompokan objek berdasarkan informasi yang menggambarkan objek tersebut atau hubungannya dengan objek lain. Tujuannya adalah untuk menghasilkan pengelompokan objek yang mirip satu sama lain dalam kelompok-kelompok. Semakin besar kemiripan objek dalam klaster dan semakin besar perbedaan antar klaster, maka kualitas analisis klaster dianggap semakin baik. Terdapat beberapa definisi tentang analisis klaster dari beberapa literatur sebagai berikut:

25

Definisi 1: Analisis klaster adalah suatu analisis statistika yang bertujuan memisahkan objek ke dalam beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu dengan yang lain (Prayudho, 2007:1). Definisi 2: Analisis klaster adalah teknik analisis yang mengelompokkan observasi dalam grup atau klaster, seperti: 1. Masing-masing grup atau klaster bersifat homogen, yakni observasi pada tiap kelompok memiliki kemiripan satu sama lain. 2. Masing-masing grup akan berbeda dengan grup yang lainnya karena mempunyai karakteristik yang berbeda, yakni observasi dari satu kelompok harus berbeda dari observasi kelompok yang lainnya (Sharma, 1996:185). Definisi 3: Analisis klaster adalah suatu teknik yang secara otomatis menilai objek ke dalam kelompok yang belum diketahui berdasarkan pehitungan tingkat kesamaan di antara objek (Santoso, dkk, 2001:334 dalam Arwendria, 2009). Dari beberapa definisi tersebut dapat disimpulkan bahwa tujuan analisis klaster adalah mengelompokkan n objek ke dalam c klaster, di mana objek di dalam satu klaster memiliki tingkat homogenitas yang tinggi dan antar kelompok memiliki

26

tingkat heterogenitas yang tinggi pula sehingga menghasilkan kualitas klaster yang baik.

3.3

PROSES ANALISIS KLASTER Untuk menentukan banyaknya klaster yang akan terbentuk, perlu dilakukan

proses, yaitu proses analisis klaster. Dalam proses analisis klaster ada beberapa tahap yang harus dilakukan, yakni:
Rumuskan Masalah

Pilih Ukuran similaritas

Pilih Metode Pengklasteran

Penentuan Banyaknya Klaster

Interpretasi Klaster Validasi Klaster

Proses Analisis Klaster 1. Merumuskan masalah Langkah menentukan penting variabel dalam yang merumuskan digunakan masalah analisis klaster yaitu

sebagai

dasar

untuk

melakukan

pengelompokan. Selanjutnya mengelompokkan n objek ke dalam c klaster, di mana objek di dalam satu klaster harus memiliki tingkat homogenitas yang tinggi dan antar

27

kelompok memiliki tingkat heterogenitas yang tinggi pula sehingga menghasilkan kualitas klaster yang baik. 2. Memilih ukuran similaritas Karena pada prinsipnya analisis klaster adalah untuk mengelompokkan objek berdasarkan pada kemiripannya, maka diperlukan suatu metode untuk mengukur kemiripan atau perbedaan antar objek. Ukuran yang dapat menerangkan keserupaan atau kedekatan antar data yaitu ukuran similaritas. Ukuran similaritas yang sering digunakan adalah ukuran jarak yaitu jarak Euclid. 3. Memilih metode pengklasteran Dalam analisis klaster, pengelompokan objek dapat dilakukan dengan beberapa metode. Dalam metode hirarki ada tujuh metode yang dapat digunakan untuk proses pengklasteran yaitu Single Linkage Method, Complete Linkage Method, Average Linkage Method, Wards Method, Centroid Method, Median Method dan EqualVariance Maximum Likelihood Method. Sedangkan dalam metode non-hirarki ada dua metode yang dapat digunakan dalam pengklasteran yaitu k-means dan fuzzy. 4. Penentuan banyaknya klaster Hal terpenting dalam analisis klaster adalah menentukan jumlah klaster. Dalam menentukan banyaknya klaster yang akan terbentuk dari masing-masing metode

28

bergantung kepada subjektifitas peneliti hanya dengan melihat gambar dendogram. Inilah salah satu yang membuat solusi analisis klaster tidak unik. 5. Interpretasi klaster yang terbentuk Dalam menginterpretasikan hasil klaster, harus dapat ditentukan variabelvariabel apa yang dapat digunakan untuk membedakan antar klaster yang satu dengan klaster yang lain. Disamping itu juga harus mampu memberikan nama klaster yang terbentuk sesuai dengan variabel-variabel pembentuk klaster tersebut. 6. Validasi analisis klaster Tahap validasi dalam analisis klaster dilakukan untuk menguji apakah klaster yang terbentuk dari hasil subjektifitas peneliti telah valid atau tidak. 3.4 ALGORITMA ANALISIS KLASTER SECARA UMUM Langkah-langkah dalam algoritma klaster hirarki agglomerative untuk mengelompokkan N objek (item/variabel): a. Mulai dengan N klaster, setiap klaster mengandung unsur tunggal dan sebuah matrik simetris dari jarak dengan tipe NxN.

b.

Cari matrik jarak untuk pasangan klaster yang terdekat (paling mirip). Misalkan jarak antara klaster U dan V yang paling mirip adalah .

c.

Gabungkan klaster U dan V. Tandai klaster baru dibentuk dengan (UV).

29

Update unsur-unsur pada matrik jarak dengan cara: i. ii. Hapus baris dan kolom yang bersesuian dengan klaster U dan V. Tambahkan baris dan kolom yang memberikan jarak-jarak antara klaster (UV) dan klaster-klaster yang tersisa. d. Ulangi langkah b dan c sebanyak (N-1) kali. Semua objek akan berada dalam klaster tunggal setelah algoritma berakhir. Berdasarkan ukuran kemiripannya metode agglomerative dibagi menjadi beberapa metode yang akan dibahas dalam tugas akhir ini yaitu: Single Linkage Method, Complete Linkage Method, Average Linkage Method dan Wards Method. 3.5 SINGLE LINKAGE METHOD, COMPLETE LINKAGE METHOD, AVERAGE LINKAGE METHOD DAN WARDS METHOD Single Linkage Method, Complete Linkage Method, Average Linkage Method dan Wards Method merupakan metode hirarki, bagian dari metode agglomerative yang memiliki ukuran kemiripan yang berbeda saat pengklasteran. Single Linkage Method pengelompokannya didasarkan pada jarak terdekat antar klaster, Complete Linkage Method pengelompokannya didasarkan pada jarak terjauh antar klaster, Average Linkage Method pengelompokannya didasarkan pada jarak rata-rata antar klaster, sedangkan untuk Wards Method pengklasteran didasarkan pada error sum of square (ESS) yang minimum. Selanjutnya akan dijelaskan masing-masing metode beserta algoritmanya.

30

3.5.1 Single Linkage Method 3.5.1.1 Definisi Single Linkage Method Single Linkage Method adalah proses pengklasteran yang didasarkan pada jarak terdekat antar objek. Jika dua objek terpisah oleh jarak yang pendek, maka kedua objek tersebut akan digabung menjadi satu klaster dan demikian seterusnya. 3.5.1.2 Algoritma Single Linkage Method Misalkan diberikan data X matriks berukuran n x p (n = jumlah sampel data, p

= variabel setiap data). = data sampel ke-j (j = 1, 2, , n) dan variabel ke-i (i = 1, 2, , p).

1. Bentuk suatu matriks jarak dengan menggunakan jarak Euclid. Rumusnya adalah

; 1, 2, , 2. Asumsikan setiap data dianggap sebagai klaster. Jika diberikan n data dan c klaster maka n = c, maka diperoleh matriks jarak dari langkah dua, yaitu: 1

31

3. Pilih klaster yang mempunyai jarak terdekat kemudian gabungkan. Misalkan klaster U yang mempunyai jarak terdekat dengan klaster V, hasil gabungannya ditulis UV. 4. Dari klaster UV yang telah terbentuk, cari jarak minimum antar klaster UV dengan objek atau klaster lainnya yang belum bergabung atau dengan objek-objek yang berada di luar klaster UV, misalnya objek W. Namakan jarak minimumnya adalah 5. Dari langkah 4 akan diperoleh matriks jarak dinyatakan dengan (2). Cari jarak dan membentuk klaster baru. terdekat dari (2). Objek yang mempunyai jarak terdekat kemudian digabungkan min ,

6. Ulangi langkah 3. Demikian seterusnya sampai semua objek bergabung menjadi satu kelompok.

3.5.2 Complete Linkage Method 3.5.2.1 Definisi Complete Linkage Method Complete Linkage Method adalah proses pengklasteran yang didasarkan pada jarak terjauh antar objek. Jika dua objek terpisah oleh jarak yang jauh, maka kedua objek tersebut akan digabung menjadi satu klaster dan demikian seterusnya.

32

3.5.2.2 Algoritma Complete Linkage Method Misalkan diberikan data X matriks berukuran n x p (n = jumlah sampel data, p

= variabel setiap data). = data sampel ke-j (j = 1, 2, , n) dan variabel ke-i (i = 1, 2, , p).

1. Bentuk suatu matriks jarak dengan menggunakan jarak Euclid. Rumusnya adalah

; 1, 2, , 2. Asumsikan setiap data dianggap sebagai klaster. Jika diberikan n data dan c klaster maka n = c, maka diperoleh matriks jarak dari langkah dua, yaitu: 1

3. Pilih klaster yang mempunyai jarak terdekat kemudian gabungkan. Misalkan klaster U yang mempunyai jarak terdekat dengan klaster V, hasil gabungannya ditulis UV. 4. Dari klaster UV yang telah terbentuk, cari jarak maksimum antar klaster UV dengan objek atau klaster lainnya yang belum bergabung atau dengan objek-objek yang berada di luar klaster UV, misalnya objek W. Namakan jarak maksimumnya adalah max ,

33

5. Dari langkah 4 akan diperoleh matriks jarak dinyatakan dengan (2). Cari jarak dan membentuk klaster baru. terdekat dari (2). Objek yang mempunyai jarak terdekat kemudian digabungkan

6. Ulangi langkah 3. Demikian seterusnya sampai semua objek bergabung menjadi satu kelompok.

3.5.3 Average Linkage Method 3.5.3.1 Definisi Average Linkage Method Average Linkage Method adalah proses pengklasteran yang didasarkan pada jarak rata-rata antar objeknya. 3.5.3.2 Algoritma Average Linkage Method Misalkan diberikan data X matriks berukuran n x p (n = jumlah sampel data, p

2, , p).

= variabel setiap data). = data sampel ke-j (j = 1, 2, , n) dan variabel ke-i (i = 1,

1. Bentuk suatu matriks jarak dengan menggunakan jarak Euclid. Rumusnya adalah

; 1, 2, ,

34

2. Asumsikan setiap data dianggap sebagai klaster. Jika diberikan n data dan c klaster maka n = c, maka diperoleh matriks jarak dari langkah dua, yaitu: 1

3. Pilih klaster yang mempunyai jarak terdekat kemudian gabungkan. Misalkan klaster U yang mempunyai jarak terdekat dengan klaster V, hasil gabungannya ditulis UV. 4. Dari klaster UV yang telah terbentuk, cari jarak rata-rata antar klaster UV dengan objek atau klaster lainnya yang belum bergabung atau dengan objek-objek yang berada di luar klaster UV, misalnya objek W. Namakan jarak rata-ratanya adalah:

5. Dari langkah 4 akan diperoleh matriks jarak dinyatakan dengan (2). Cari jarak dan membentuk klaster baru. terdekat dari (2). Objek yang mempunyai jarak terdekat kemudian digabungkan

6. Ulangi langkah 3. Demikian seterusnya sampai semua objek bergabung menjadi satu kelompok.

35

3.5.4 Wards Method 3.5.4.1 Definisi Wards Method Pada Wards Method jarak antar dua klaster adalah total jumlah kuadrat dua klaster pada masing-masing variabel. Metode ini berbeda dengan metode lainnya karena menggunakan pendekatan analisis varians untuk menghitung jarak antar klaster. Jadi, dalam metode ini akan meminimumkan jumlah kuadrat (ESS). 3.5.4.2 Algoritma Wards Method Misalkan diberikan data X matriks berukuran n x p (n = jumlah sampel data, p

= variabel setiap data). = data sampel ke-j (j = 1, 2, , n) dan variabel ke-i (i = 1, 2, , p).

1. Asumsikan setiap data dianggap sebagai klaster. Jika diberikan n data dan c klaster, maka n = c. 2. Bentuk klaster. Satu klaster berisi dua objek atau klaster. Tulis semua kemungkinan dari pasangan klaster yang banyaknya kemungkinan adalah nC2, selanjutnya menghitung ESS dari semua kemungkinan pasangan klaster dengan
rumus ESS=

3. Pilih nilai ESS yang terkecil kemudian pasangan dari klaster tersebut digabungkan. 4. Ulangi langkah 2 sampai membentuk satu klaster.

36

3.6

VALIDASI ANALISIS KLASTER Tahap validasi dalam analisis klaster dilakukan untuk menguji apakah klaster

yang terbentuk dari hasil subjektifitas peneliti telah valid atau tidak. Uji validasi terhadap klaster yang terbentuk bisa dilihat output program SAS System for Windows v6.12 pada nilai root mean square standard deviation (RMSSTD) of new clusters, Semipartial R-Squared (SPR), R-Squared (RS), Distance between two clusters (CD) yang bertujuan untuk melihat jumlah klaster yang terbentuk. Nilai RMSSTD of new clusters dan Distance between two clusters (CD) diplot dengan jumlah klaster (number of cluster), sementara nilai-nilai Semipartial R-Squared (SPR) dan RSquared (RS) diplot dengan jumlah klaster (number of cluster) yang dapat dilihat pada gambar 3.1 dan gambar 3.2. 3.6.1 RMSSTD (root-mean-square total-standard deviation) RMSSTD (root-mean-square total-standard deviation) didefinisikan sebagai ukuran dari standar deviasi dari semua variabel, yaitu:
1 1

Untuk mencari RMSSTD of new cluster dari masing-masing number of cluster dapat digunakan rumus: Variansi gabungan =

37

3.6.2

Semipartial R-Square (SPR) Klaster yang baru terbentuk pada setiap tahap yang terdiri dari gabungan dua

klaster yang terbentuk pada tahap sebelumnya. Perbedaan antara SSw dari klaster baru dan jumlah dari SSw pada klaster yang bergabung memperoleh klaster baru yang disebut dengan tingkat kerugian homogenitas. Jika tingkat kerugian homogenitas adalah nol maka klaster baru diperoleh dari gabungan dua klaster yang memiliki tingkat homogenitas sempurna. Di sisi lain, jika tingkat kerugian homogenitas besar, maka klaster baru diperoleh dari gabungan dua klaster yang heterogen. 3.6.3 R-Square (RS) R-Square (RS) didefinisikan sebagai:

Sharma (1996:201) menyatakan bahwa:

Statistik

Tabel 3.1 Ringkasan Statistik untuk Mengevaluasi Solusi Klaster Konsep Ukuran Syarat Nilai harus kecil Nilai harus kecil Nilai harus besar Nilai harus kecil

RMSSTD Homogenitas antar klaster SPR RS CD Homogenitas antar klaster yang bergabung Heterogenitas antar klaster Homogenitas antar klaster yang bergabung

Sebagai contoh pada gambar 3.1 dan gambar 3.2.

38

Gambar 3.1 Plot SPR dan RS

Gambar 3.2 Plot RMSSTD dan CD Pada gambar 3.1 terlihat bahwa nilai RS meningkat (besar) artinya perbedaan antar klasternya tinggi dan nilai SPR kecil artinya tingkat homogenitas dalam klaster tersebut adalah tinggi. Pada saat nilai RS tinggi dan nilai SPR kecil terlihat pada gambar tersebut titik yang membedakan titik-titik sebelah kiri dan titik-titik sebelah

39

kanan adalah pada number of cluster ke-3. Selanjutnya pada gambar 3.2 terlihat bahwa nilai RMSSTD dan CD kecil artinya tingkat homogenitas antar klaster yang bergabung adalah tinggi. Pada saat nilai RMSSTD tinggi dan nilai CD kecil terlihat pada gambar tersebut titik yang membedakan titik-titik sebelah kiri dan titik-titik sebelah kanan adalah pada number of cluster ke-4. Jadi berdasarkan perbedaan itulah, maka solusi dari analisis klaster adalah dengan memilih jumlah klaster ke-3 atau jumlah klaster ke-4.

You might also like