Dani

Jurnal EKSPONENSIAL Volume 11, Nomor 1, Mei 2020 ISSN 2085-7829
Pengelompokkan Data Runtun Waktu menggunakan Analisis Cluster

(Studi Kasus: Nilai Ekspor Komoditi Migas dan Nonmigas Provinsi Kalimantan Timur
Periode Januari 2000-Desember 2016)
Grouping of Time Series Data using Cluster Analysis

(Case Study: Export Value of Oil and Non-oilCommodities in East Kalimantan Provinces
Period January 2000-December 2016)
Andrea Tri Rian Dani 1, Sri Wahyuningsih2, dan Nanda Arista Rizki 3
1
Laboratorium Statistika Ekonomi dan Bisnis FMIPA Universitas Mulawarman
2
Laboratorium Statistika Terapan FMIPA Universitas Mulawarman
3
Laboratorium Statistika Komputasi FMIPA Universitas Mulawarman
1
E-mail: andrikadoko@gmail.com
Abstract
The export value of East Kalimantan Province has big data conditions with time series and multivariable
data types. Cluster analysis can be applied to time series data, where there are different procedures and
grouping algorithms compared to grouping cross section data. Algorithms and procedures in the cluster
formation process are done differently, because time series data is a series of observational data that occur
based on a time index in sequence with a fixed time interval. The purpose of this research is to obtain the
best similarity measurement using the cophenetic correlation coefficient and get the optimal c-value using
the silhouete coefficient. In this study, the grouping algorithm used is a single linkage with four
measurements of similarity, namely the Pearson correlation distance, euclidean, dynamic time warping and
autocorrelation based distance. The sample in this study is the data on the export value of oil and non -oil
commodities in East Kalimantan Province from January 2000 to December 2016 consisting of 10 variables.
Based on the results of the analysis, the distance of the best similarity measurement in clustering the export
value of oil and non-oil commodities in East Kalimantan Province is the dynamic time warping distance
with the optimal c-value of 3 clusters.
Keywords: Cluster,copheneticcorrelation coefficient, silhouette coefficient, time series
Pendahuluan database (KDD). Pekerjaan yang berkaitan

Dengan kemajuan teknologi informasi dewasa dengan data mining dapat dibagi menjadi empat
ini, kebutuhan akan informasi yang akurat sangat bagian, yaitu teknik pemodelan (predictive
dibutuhkan dalam kehidupan sehari-hari, sehingga modelling), analisis cluster (cluster
informasi akan menjadi elemen penting dalam analysis),analisis asosiasi (association analysis)
perkembangan masyarakat sekarang ini dan waktu dan deteksi anomali (anomaly detection).
mendatang. Namun kenyataannya kebutuhan Analisis cluster adalah salah satu alat yang
informasi yang tinggi terkadang tidak diimbangi penting dalam pengolahan data statistik untuk
dengan penyajian informasi yang memadai, sering melakukan analisis data. Analisis cluster
kali informasi tersebut hanya menjadi bongkahan merupakan seperangkat metode yang secara
informasi yang terus menerus menumpuk dan otomatis mengelompokkan objek ke dalam sebuah
jumlahnya sangat besar. Menurut Haryati, dkk. cluster berdasarkan kemiripannya. Cluster yang
(2015), pertumbuhan yang sangat pesat dari baik adalah cluster yang mempunyai homogenitas
akumulasi data telah menciptakan kondisi kaya yang tinggi antar anggota dalam satu cluster dan
akan data tetapi minim informasi. Data mining heterogenitas yang tinggi antar cluster yang satu
muncul didasarkan pada kenyataan bahwa jumlah dengan cluster yang lain (Prasetyo, 2012).
data yang tersimpan dalam basis data semakin Analisis cluster dapat diterapkan pada data
besar, sehingga mendorong penerapan teknik runtun waktu, dimana terdapat prosedur dan
pengolahan data dari berbagai bidang algoritma pengelompokkan yang berbeda
pengetahuan seperti statistika. dibandingkan dengan pengelompokkan data cross
Prasetyo (2012) mendefinisikan data mining section. Algoritma dan prosedur dalam proses
sebagai proses untuk mendapatkan informasi yang pembentukan cluster dilakukan berbeda, karena
berguna dari gudang basis data yang besar. Data data runtun waktu merupakan serangkaian data
mining juga dapat diartikan sebagai proses pengamatan yang terjadi berdasarkan indeks
ekstraksi informasi baru yang diambil dari data waktu secara berurutan dengan interval waktu
berskala besar dalam membantu proses yang tetap. Selama berkembangnya proses
pengambilan keputusan. Istilah data mining pengelompokkan pada data runtun waktu, banyak
terkadang disebut juga knowledge discovery in teknik yang dikembangkan di antaranya adalah
Program Studi Statistika FMIPA Universitas Mulawarman 29

penggunaan jarak pengukuran kemiripan yang kedekatannya (Prasetyo, 2012). Menurut Supranto
sesuai dengan karakteristik data runtun waktu. (2010), analisis cluster merupakan suatu teknik
Jarak yang digunakan dalam mengukur kemiripan yang digunakan untuk mengelompokkan objek ke
dua data runtun waktu pada penelitian ini adalah dalam cluster atau kelompok yang relatif
korelasi Pearson, euclidean, dynamic time homogen. Tujuan analisis cluster adalah tidak
warpingdan autocorrelation based distance. untuk menghubungkan ataupun membedakan
Secara umum, penelitian terkait analisis objek yang satu dengan objek lainnya, melainkan
clusterdapat digunakan pada sektor ekonomi di untuk mengidentikasi sekelompok objek yang
antaranya data nilai ekspor, nilai impor dan lain mempunyai kemiripan dan karakteristik tertentu
sebagainya. yang dapat dipisahkan dengan kelompok lainnya.
Menurut Undang-Undang No. 17 tahun 2006 Objek yang berada dalam kelompok yang sama
menjelaskan bahwa ekspor adalah kegiatan relatif lebih homogen daripada objek yang berada
mengeluarkan barang dari daerah pabean. dalam kelompok yang berbeda.
Menurut Sukirno (2010), ekspor suatu negara
terjadi karena adanya manfaat yang diperoleh Normalisasi Data
akibat transaksi perdagangan luar negeri. Tujuan dari analisis cluster adalah
Perdagangan luar negeri dapat memperbesar mengelompokkan objek-objek yang mirip dalam
kapasitas konsumsi suatu negara serta membantu cluster yang sama. Objek dengan jarak yang lebih
berbagai usaha untuk melakukan pembangunan, dekat akan lebih mirip satu sama lain
meningkatkan peranan sektor yang mempunyai dibandingkan jarak yang lebih jauh. Jika rentang
keunggulan kompetitif karena efisiensi dalam nilai antar objek memiliki perbedaan skala yang
faktor produksi. cukup besar yang dapat menyebabkan bias dalam
Berdasarkan uraian tersebut, penulis tertarik analisis cluster, maka data asli perlu dilakukan
untuk membahas mengenai analisis cluster pada normalisasi. Normalisasi dapat menyingkirkan
proses pengelompokkan data runtun waktu nilai atau menghilangkan pengaruh dari unit
ekspor komoditi migas dan nonmigas Provinsi pengukuran dan dapat memperkecil perbedaan
Kalimantan Timur. antara kelompok atau cluster (Supranto, 2010).
Normalisasi data dapat dilakukan dengan cara
Data Mining semua dimensi atau sub-variabel penyusun
Data mining merupakan salah satu bidang ditransformasi ke dalam data standar (nilai rata-
yang berkembang pesat karena besarnya rata sama dengan nol, variansi sama dengan satu).
kebutuhan akan nilai tambah dari data berskala Menurut Sartono, dkk. (2003), cara menentukan
besar (big data). Prasetyo (2012) mendefinisikan nilai normalisasi adalah dengan menghitung nilai
data mining sebagai proses untuk mendapatkan rata-rata dan deviasi standar yaitu:
 
informasi yang berguna dari gudang basis data
yang besar. Data mining juga dapat diartikan 1 n
proses ekstraksi informasi baru yang diambil dari Z  Z (t ) (1)

data berskala besar yang membantu n t 1
dalampengambilan keputusan. Istilah data mining dan

terkadang disebut juga knowledge discovery in 1 n
database (KDD). Menurut Mabrus dan Lubis SZ   ( Z (t )  Z ) 2

(2)
(2012), tahapan dalam proses data mining n 1 t 1
ditampilkan pada Gambar 1 sebagai berikut: Kemudian menghitung data hasil normalisasi
dengan menggunakan Persamaan (3) sebagai
berikut:
Z (t )  Z
Z (t )  , (3)
SZ
dengan:
Z (t ) : data Z pada waktu ke-t
n : banyaknya data
Z : rata-rata dari Z (t )
Gambar 1. Tahapan data mining
SZ : deviasi standar dari Z (t )
Analisis Cluster
Z (t ) : normalisasi data Z pada waktu ke-t.
Analisis cluster merupakan seperangkat
metode yang secara otomatis digunakan untuk
Pengukuran Kemiripan
mengelompokkan objek atau data ke dalam
sebuah cluster berdasarkan kemiripan dan Pada dasarnya proses pembentukancluster
yaitu mencari dan mengelompokkan objek-objek
30 Program Studi Statistika FMIPA Universitas Mulawarman

berdasarkan kemiripan dan kedekatan antar objek n

yang satu dengan objek lainnya. Langkah pertama
adalah mengukur seberapa dekat kemiripan dan
d euclid ( Z , Y )=  ( Z (t )  Y (t )) 2
, (7)
t 1
kedekatan antar objek tersebut. Adapun
pengukuran kemiripan yang digunakan untuk dengan:
mengelompokkan data runtun waktu pada Z (t ) : data Z pada waktu ke-t
penelitian ini adalah sebagai berikut: Z : rata-rata dari Z (t )
1. Jarak korelasi Pearson
Y (t ) : data Y pada waktu ke-t
Jarak korelasi Pearson merupakan salah satu
ukuran korelasi yang digunakan mengukur Y : rata-rata dari Y ( t ) .
kekuatan dan arah hubungan linear dua data
runtun waktu. Jarak korelasi Pearson 3. Jarak dynamic time warping(DTW)
memperhitungkan hubungan linear antara dua Dynamic time warpingdiperkenalkan pertama
data runtun waktu yang didefinisikan sebagai kali oleh Sakoe dan Chiba pada tahun 1978.
berikut: Dynamic time warpingadalah algoritma untuk
cov( Z , Y ) menghitung warping path yang optimal antara
rZ ,Y  (4) dua data runtun waktu sehingga output-nya adalah
S Z SY nilai-nilai warping path dan jarak di antara kedua
data runtun waktu tersebut. Algoritma dynamic
Sehingga diperoleh nilai korelasi Pearson sebagai time warpingdapat digunakan untuk mengukur
berikut: kedekatan dua data runtun waktu dengan jumlah
n n n
data yang berbeda. Misalkan terdapat dua data
n  Z ( t )Y ( t )   Z ( t )  Y ( t ) runtun waktu dengan panjang yang berbeda yaitu
t 1 t 1 t 1 (5
rZ , Y  Z (t )  Z (1), Z (2), Z (3),..., Z (i ),..., Z ( m)
n n n n )
 Z (t )  ( Z (t ))  Y (t )  ( Y (t )) dan
2 2 2 2
n n
t 1 t 1 t 1 t 1
Y (t )  Y (1), Y (2), Y (3),..., Y ( j ),..., Y ( n)
dengan:
Langkah pertama adalah membuat matriks C
rZ , Y : koefisien korelasi Pearson yangberukuran n  m . Elemen ke-(i,j) dalam
Z (t ) : data Z pada waktu ke-t matriks C didefinisikan sebagai selisih antara
Y (t ) : data Y pada waktu ke-t Z (i ) dengan Y ( j ) , kemudian ditambah dengan
n : banyaknya data. nilai minimum tiga elemen yang berdekatan
Ukuran jarak yang memperhitungkan korelasi c( i 1)( j 1) , c( i 1), j , c( i )( j 1)  dengan 0  i  m dan
antara dua data runtun waktu akan menghasilkan
0  j  n . Elemen ke-(i,j) dalam matriks C dapat
nilai jarak terendah untuk dua data runtun waktu
yang berkorelasi positif, karena dua data runtun ditulis menjadi
cij  wij  min c( i 1)( j 1) , c( i 1), j , c( i )( j 1) 

waktu ini memiliki kemiripan terdekat. Jarak
korelasi Pearson didefinisikan sebagai berikut: (8)
Dalam hal ini nilai wij merupakan selisih antara

d cor ( Z , Y )  1  rZ ,Y (6)
Z (i ) terhadap Y ( j ) dengan perhitungan dapat
Alternatif pengukuran kemiripan dengan dituliskan pada Persamaan (9) sebagai berikut:
menggunakan jarak korelasi Pearson adalah
koefisien korelasi Rank Spearman dan koefisien wij  Z (i )  Y ( j ) (9)
korelasi Tau Kendall(Pereira dan Mello, 2013).
Berdasarkan Persamaan (8) dan (9), maka jarak
2. Jarak euclidean dynamic time warping antara dua data runtun
Menurut Johnson dan Wichern (2002), jarak waktu Z (t ) terhadap Y ( t ) dapat didefinisikan:
euclidean merupakan tipe pengukuran jarak dalam
 K

analisis cluster yang paling umum digunakan
untuk mengukur jarak dari objek data ke pusat
d DTW ( Z , Y )  min  c ij , (10)
wP
 i , j 1 
cluster. Jarak euclidean merupakan jarak
di mana P adalah sekumpulan dari semua warping
geometris antar dua objek data. Semakin dekat
jarak, maka semakin mirip suatu objek data path yang mungkin, cij adalah elemen (i,j) pada
tersebut dengan objek lainnya. Jarak euclidean warping path serta K adalah panjang dari warping
dapat diperoleh dengan menggunakan Persamaan path (Montero dan Vilar, 2014).
(7) sebagai berikut:

jarak antara (UV) dengan cluster lainnya,

4. Jarak autocorrelation based distance(ABD) misalnya W sehingga dapat dituliskan sebagai
Galeano dan Pena (2000) melakukan berikut:
penelitian mengenai hubungan dua data runtun
d ( UV ) W  min( dUW , dVW ) , (12)
waktudengan menggunakan pendekatan fungsi
otokorelasi (FOK). Ilustrasi untuk perhitungan dengan d UW adalah jarak tetangga terdekat dari
jarak FOK adalah sebagai berikut, misalkan
diberikan dua data runtun waktudengan ukuran n cluster U dan W serta d VW adalah jarak tetangga
yaitu: terdekat dari cluster V dan W.
Z (t )  Z (1), Z (2), Z (3),..., Z ( n)
Uji Validitas
dan Adapun uji validitas yang digunakan dalam
penelitian ini adalah:
Y (t )  Y (1), Y (2), Y (3),..., Y ( n) . 1. Validitas jarak
Uji validitas jarak diperlukan untuk melihat
Sehingga dapat dicari
kebaikan (goodness) dan kualitas (quality) dari
hasil analisis cluster. Ukuran yang digunakan
ρˆ Z  ( ˆ 1 , ˆ 2 , ˆ 3 ..., ˆ n ) '
untuk menguji validitas jarak pengukuran
dan kemiripan pada penelitian ini adalah koefisien
korelasi cophenetic. Koefisien korelasi cophenetic
ρˆ Y  ( ˆ 1 , ˆ 2 , ˆ 3 ..., ˆ n ) ' merupakan koefisien korelasi antara elemen-
elemen asli matriks ketidakmiripan (dissimilarity
adalah vektor-vektor otokorelasi hasil pendugaan distance) dan elemen-elemen yang dihasilkan oleh
dari data runtun waktu Z (t ) dan Y (t ). Jarak dendogram (matriks cophenetic). Formulasi yang
digunakan untuk menghitung koefisien korelasi
autocorrelation based distancedapat dituliskan cophenetic sebagai berikut:
sebagai berikut: n
 (d  d )( d coph ~ ij  d coph )
d FOK ( Z , Y )  (ρˆ Z  ρˆ Y ) ' Ω(ρˆ Z  ρˆ Y ) ,
ij
(11) i j
rcoph  (13
 n (d  d )   n (d
dengan d FOK ( Z , Y ) adalah jarak otokorelasi antara      coph ~ij  d coph ) 
2 2
)
  i j 
ij
i j
dua data runtun waktu Z (t ) terhadap Y ( t )
sedangkan Ω adalah matriks identitas (Riyadi, dengan:
dkk. 2016).
rcoph : koefisien korelasi cophenetic
Metode dalam Analisis Cluster dij : jarak asli antara objek ke-i dan ke-j
Metode pengklasteran merupakan prosedur
yang relatif sederhana yang tidak didukung d : rata-rata dij
dengan suatu penalaran statistik yang ekstensif.
Terdapat dua metode yang dapat digunakan untuk d coph ~ij : jarak cophenetic objek ke-i dan ke-j
melakukan analisis cluster, yaitu metode
pengelompokkan hierarki dan non-hierarki. d coph : rata-rata d coph ~ij .
Metode pengelompokkan hierarki merupakan
metode pengelompokkan yang berusaha untuk Nilai koefisien korelasi cophenetic berkisar antara
membangun sebuah hierarki kelompok. Strategi -1 hingga 1, nilai koefisien korelasi cophenetic
untuk pengelompokkan hierarki pada umumnya yang mendekati 1 berarti jarak yang digunakan
dibagi menjadi dua jenis yaitu agglomerative dalam proses pembentukan cluster cukup baik.
(pemusatan) dan divisive (penyebaran). Algoritma Ilustrasi dari jarak cophenetic ditampilkan pada
pengelompokkan yang digunakan pada penelitian Gambar 2 sebagai berikut:
ini adalah single linkage(pautan tunggal).
Algoritma single linkage (pautan tunggal)
merupakan prosedur pengelompokkan yang
didasarkan pada jarak minimum atau jarak
terdekat antar objek. Algoritma pengelompokkan
single linkage diawali dengan memilih jarak
terkecil dalam matriks D, kemudian
menggabungkan objek-objek yang bersesuaian
misalnya U dan V untuk mendapatkan cluster
(UV). Langkah selanjutnya adalah mencari nilai Gambar 2. Ilustrasi jarak cophenetic

Berdasarkan Gambar 2, untuk mencari jarak Hasil Penelitian dan Pembahasan

cophenetic dari objek a dengan d maka bisa Variabel yang digunakan dalam penelitian ini
dilihat dari tinggi dendogram di mana kedua objek adalah nilai ekspor komoditi migas dan nonmigas
pertama kali bergabung yaitu 0,36. Jarak Provinsi Kalimantan Timur yang direkapitulasi
cophenetic diperoleh berdasarkan tinggi dari oleh KPw Bank Indonesia Provinsi Kalimantan
dendogram, ketika dua objek tersebut pertama kali Timur, terdiri dari 10 variabel yang dinotasikan
bergabung (Saracli, dkk., 2013). Z i (t ) dengani=1,2,…,10.
2. Validitas cluster Sampel yang digunakan dalam penelitian ini

Menurut Kaufman dan Rousseeuw (1990), adalah data nilai ekspor komoditi migas dan
salah satu metode evaluasi yang dapat digunakan nonmigas Provinsi Kalimantan Timur dari bulan
untuk melihat kualitas dan kekuatan cluster Januari tahun 2000 sampai dengan bulan
adalah metode koefisien silhouette. Tahapan Desember tahun 2016 sebanyak 204 data untuk
perhitungan mencari koefisien silhouette adalah: setiap variabel penelitian.
a. Untuk setiap objek i, hitung rata-rata jarak dari 1. Statistika deskriptif
suatu objek ke-i dengan semua objek pada satu Pembahasan akan diawali dengan
cluster yang sama. menampilkan statistika deskriptif berupa diagram
b. Kemudian untuk setiap objek i, hitung rata- batang.
rata jarak dari suatu objek ke-i dengan semua
data yang berada pada cluster yang berbeda,
kemudian ambil nilai yang paling kecil.
c. Selanjutnya menghitung nilai koefisien
silhouette dengan Persamaan (14)
(bi  ai )
Si  , (14)
max( ai , bi )
dengan:
S i : nilai koefisien silhouette
Gambar 3. Diagram batang untuk data nilai
bi : rata-rata jarak objek ke-i dengan semua ekspor
objek pada satu cluster yang berbeda Berdasarkan Gambar 3, dapat diketahui
a i : rata-rata jarak objek ke-i dengan semua persentasebterbesar untuk kegiatan ekspor
objek pada satu cluster yang sama. Provinsi Kalimantan Timur adalah komoditi
migas yaitu bahan bakar dan mineral sebesar
Hasil perhitungan nilai koefisien silhouette 84,77%. Komoditi-komoditi lainnya selain migas
dapat bervariasi antara -1 hingga 1. Hasil cluster (nonmigas) menyumbang dengan persentase yang
dikatakan baik jika nilai koefisien silhouette relatif lebih kecil.
mendekati 1, yang berarti objek ke-i sudah berada
dalam cluster yang tepat. 2. Normalisasi data
Setiap variabel penelitian memiliki nilai
Ekspor ekspor yang berbeda-beda dengan selisih yang
Perdagangan internasional didefinisikan cukup berjauhan satu sama lain, sehingga perlu
sebagai perdagangan yang dilakukan suatu negara dilakukan normalisasi data. Normalisasi data
dengan negara lain atas dasar saling percaya dan disini bertujuan untuk membuat semua variabel
saling menguntungkan. Undang-Undang Republik penelitian berada dalam jangkauan yang sama dan
Indonesia Nomor 17 tahun 2006 menjelaskan memperkecil perbedaan antar variabel. Dalam
bahwa ekspor adalah kegiatan mengeluarkan normalisasi data digunakan Persamaan (1), (2)
barang dari daerah pabean. Menurut Sukirno dan (3) dan diperoleh hasil sebagai berikut:
(2010), ekspor suatu negara terjadi karena adanya
manfaat yang diperoleh akibat transaksi Z 1 (t ) Z 2 (t ) Z10 (t )
perdagangan luar negeri. Perdagangan dapat
memperbesar kapasitas konsumsi suatu negara  1,16 1,16 0,10 
serta membantu berbagai usaha untuk melakukan  1,16 1, 98 0,15 
pembangunan, meningkatkan peranan sektor yang O 
mempunyai keunggulan komperatif karena  
 
efisiensi dalam faktor produksi.  0, 69 1,11 0, 22 

Matriks O adalah matriks yang berisikan hasil nilai jarak minimum terhadap setiap variabel
normalisasi data nilai ekspor komoditi migas dan lainya berdasarkan Persamaan (12). Proses
nonmigas Provinsi Kalimantan Timur. pengelompokkan akan terus berlanjut sampai
dengan hanya tersisa 2 cluster dan diperoleh
3. Algoritma single linkage dendogram sebagai berikut:
Algoritma single linkage merupakan salah satu
algortima yang didasarkan pada jarak minimum
atau jarak terdekat antar objek. Pengukuran
kemiripan yang digunakan pada penelitian ini
dalam proses pengelompokkan menggunakan
algoritma single linkage sebagai berikut:
a. Jarak korelasi Pearson
Setelah melakukan normalisasi data nilai
ekspor komoditi migas dan nonmigas Provinsi
Kalimantan Timur yang hasil normalisasinya Gambar 4. Dendogram jarak korelasi Pearson
disebut dengan matriks O. Langkah selanjutnya Berdasarkan Gambar 4, diketahui bahwa variabel
menghitung nilai korelasi Pearson menggunakan
Persamaan (5) terhadap setiap variabel penelitian, yang pertama kali bergabung adalah Z1 (t ) yaitu
kemudian membentuk matriks korelasi R. bahan bakar dan mineral dengan variabel Z 5 (t )
Z 1 (t ) Z 2 (t ) Z10 (t ) yaitu lemak hewani dan nabati, kemudian variabel
selanjutnya yang bergabung adalah Z 4 (t ) yaitu
 1, 00 1,16
Z 1 (t ) 0,18 
Z1 (t )  0, 08 1, 00 0, 01
pupuk.Proses pengelompokkan terus berlanjut
R   sampai dengan variabel terakhir yang bergabung
  adalah Z 2 (t ) yaitu kayu dan kerajinan kayu.

Z10 (t )  0,18

0, 01 1, 00 
b. Jarak euclidean
Berdasarkan matriks R di atas yang berisikan Jarak pengukuran kemiripan selanjutnya yang
perhitungan nilai korelasi Pearson untuk masing- digunakan adalah jarak euclidean dengan
masing variabel penelitian, kemudian langkah perhitungan menggunakan Persamaan (7) dan
selanjutnya menghitung jarak korelasi Pearson dilakukan terhadap setiap variabel penelitian,
menggunakan Persamaan (6) dan membentuk kemudian membentuk matriks jarak Dsebagai
matriks jarak D sebagai berikut: berikut:
Z 1 (t ) Z 2 ( t ) Z10 (t )
Z 1 (t ) Z 2 (t ) Z10 (t )
Z1 (t )  0, 00 1, 08 0, 81  0, 00 20, 90
Z 1 (t ) 18, 20 
Z1 (t )  20, 90 0, 00 20, 03
Z1 (t )  1, 08 0, 00 0, 97  D  
D    
   

Z10 (t )  0, 81 0, 97
 Z10 (t ) 18, 20 20, 03 0, 00 
0, 00 
Langkah selanjutnya setelah melakukan
Langkah selanjutnya setelah melakukan
perhitungan jarak euclidean adalah melakukan
perhitungan jarak korelasi Pearson adalah
proses pengelompokkan menggunakan algoritma
melakukan proses pengelompokkan menggunakan
single linkage. Setiap variabel penelitian dimulai
algoritma single linkage. Setiap variabel
sebagai cluster, sehingga awalnya pada penelitian
penelitian dimulai sebagai cluster, sehingga
ini terdapat 10 clusteryang terbentuk. Algoritma
awalnya pada penelitian ini terdapat 10
pengelompokkan single linkage dimulai dengan
clusteryang terbentuk. Algoritma
memilih jarak terkecil dalam matriks D. Jarak
pengelompokkan single linkage dimulai dengan
memilih jarak terkecil dalam matriks D. Jarak variabel Z1 (t ) dengan variabel Z 5 (t ) adalah
variabel Z1 (t ) dengan variabel Z 5 (t ) adalah sebesar 10,34, artinya bahwa kedua variabel
tersebut yang pertama kali bergabung membentuk
sebesar 0,26, artinya bahwa kedua variabel
satu cluster.Langkah selanjutnya adalah
tersebut yang pertama kali bergabung membentuk
satu cluster. Langkah selanjutnya adalah menggabungkan variabel Z1 (t ) dengan variabel
menggabungkan variabel Z1 (t ) dengan variabel Z 5 (t ) ke dalam satu cluster, kemudian mencari
Z 5 (t ) ke dalam satu cluster, kemudian mencari nilai jarak minimum terhadap setiap variabel
lainya berdasarkan Persamaan (12). Proses

pengelompokkan akan terus berlanjut sampai Z10 (t ) ke dalam satu cluster, kemudian mencari
dendogram sebagai berikut: nilai jarak minimum terhadap setiap variabel
lainya berdasarkan Persamaan (12). Proses
pengelompokkan akan terus berlanjut sampai
dendogram sebagai berikut:
Gambar 5. Dendogram jarak euclidean

Berdasarkan Gambar 5, diketahui bahwa variabel
yang pertama kali bergabung adalah Z1 (t ) yaitu
Gambar 6. Dendogram jarak DTW
bahan bakar dan mineral dengan variabel Z 5 (t )
Berdasarkan Gambar 6, diketahui bahwa variabel
yaitu lemak hewani dan nabati, kemudian variabel
yang pertama kali bergabung adalah Z 9 (t ) yaitu
selanjutnya yang bergabung adalah Z 4 (t ) yaitu
kendaraan selain kereta api dengan variabel
pupuk. Proses pengelompokkan terus berlanjut
sampai dengan variabel terakhir yang bergabung Z10 (t ) yaitu barang dari besi dan baja, kemudian
adalah Z 2 (t ) yaitu kayu dan kerajinan kayu. variabel selanjutnya yang bergabung adalah Z1 (t )
Dendogram yang dihasilkan menggunakan jarak yaitu bahan bakar dan mineral dengan Z 5 (t ) yaitu
euclidean mempunyai hasil pengelompokkan
yang sama dengan dendogram yang dihasilkan lemak hewani dan nabati. Proses pengelompokkan
menggunakan jarak korelasi Pearson. terus berlanjut sampai dengan variabel terakhir
yang bergabung adalah Z 2 (t ) yaitu kayu dan
c. Jarak dynamic time warping (DTW) kerajinan kayu.
Jarak pengukuran kemiripan selanjutnya yang
digunakan adalah jarak dynamic time warping d. Jarak autocorrelation based distance(ABD)
(DTW)dengan perhitungan menggunakan Jarak pengukuran kemiripan yang terakhir
Persamaan (8), (9) dan (10) dan digunakan pada penelitian ini adalah jarak
dilakukanterhadap setiap variabel penelitian, autocorrelation based distance (ABD) dengan
kemudian membentuk matriks jarak D sebagai perhitungan menggunakan Persamaan (11) dan
berikut: dilakukan terhadap setiap variabel penelitian,
Z 1 (t ) Z 2 (t ) Z10 (t ) kemudian membentuk matriks jarak D sebagai
berikut:
Z1 (t ) 0, 00 195,13 147, 42 
Z1 (t ) 195,13 170, 59 
Z 1 (t ) Z 2 ( t ) Z10 (t )
0, 00
D   Z1 (t )  0, 00 3, 61 4, 73
 
  Z1 (t )  3, 61 0, 00 1, 43 
Z10 (t ) 147, 72 170, 59 0, 00  D  
 
Langkah selanjutnya setelah melakukan 
Z10 (t )  4, 73 1, 43

0, 00 
perhitungan jarak DTW adalah melakukan proses
pengelompokkan menggunakan algoritma single Langkah selanjutnya setelah melakukan
linkage. Setiap variabel penelitian dimulai sebagai perhitungan jarak ABD adalah melakukan proses
cluster, sehingga awalnya pada penelitian ini pengelompokkan menggunakan algoritma single
terdapat 10 clusteryang terbentuk. Algoritma linkage. Setiap variabel penelitian dimulai sebagai
pengelompokkan single linkage dimulai dengan cluster, sehingga awalnya pada penelitian ini
memilih jarak terkecil dalam matriks D. Jarak terdapat 10 clusteryang terbentuk. Algoritma
variabel Z 9 (t ) dengan variabel Z10 (t ) adalah pengelompokkan single linkage dimulai dengan
sebesar 59,38, artinya bahwa kedua variabel memilih jarak terkecil dalam matriks D. Jarak
tersebut yang pertama kali bergabung membentuk variabel Z 9 (t ) dengan variabel Z10 (t ) adalah
satu cluster. Langkah selanjutnya adalah sebesar 0,31, artinya bahwa kedua variabel
menggabungkan variabel Z 9 (t ) dengan variabel tersebut yang pertama kali bergabung membentuk
satu cluster.Langkah selanjutnya adalah

menggabungkan variabel Z 9 (t ) dengan variabel yang digunakan dalam proses clustering cukup
baik. Berdasarkan Tabel 1, dapat diketahui bahwa
Z10 (t ) ke dalam satu cluster, kemudian mencari jarak pengukuran kemiripan terbaik dalam proses
nilai jarak minimum terhadap setiap variabel pengelompokkan nilai ekspor komoditi migas dan
lainya berdasarkan Persamaan (12).Proses nonmigas Provinsi Kalimantan Timur adalah jarak
pengelompokkan akan terus berlanjut sampai DTW dengan nilai koefisien korelasi cophenetic
dengan hanya tersisa 2 cluster dan diperoleh terbesar yaitu 0,92. Jarak DTWini nantinya akan
dendogram sebagai berikut: digunakan dalam proses analisis selanjutnya untuk
menentukan nilai c-optimal dalam proses
clustering algoritma single linkage.
b. Validitas cluster
Setelah mendapatkan jarak pengukuran
kemiripan terbaik yaitu jarak DTW, langkah
selanjutnya adalah menentukan nilai c-optimal
dalam proses clustering algoritma single linkage.
Uji validitas cluster yang digunakan pada
Gambar 7. Dendogram jarak ABD penelitian ini adalah metode koefisien silhouette
berdasarkan Persamaan (14).
Berdasarkan Gambar 7, diketahui bahwa variabel Nilai koefisien silhouette dapat bervariasi
yang pertama kali bergabung adalah Z 9 (t ) yaitu antara -1 hingga 1. Jumlah cluster dikatakan
kendaraan selain kereta api dengan variabel optimal jika nilai koefisien silhouette mendekati
1. Berdasarkan Gambar 8, dapat diketahui bahwa
Z10 (t ) yaitu barang dari besi dan baja, kemudian
nilai c-optimal dalam mengelompokkan nilai
variabel selanjutnya yang bergabung adalah Z 4 (t ) ekspor komoditi migas dan nonmigas Provinsi
Kalimantan Timur adalah 3 cluster dengan nilai
yaitu pupuk dengan Z 6 (t ) yaitu perikanan. Proses koefisien silhouette terbesar yaitu 0,21.
pengelompokkan terus berlanjut sampai dengan
variabel terakhir yang bergabung adalah Z1 (t )
yaitu bahan bakar dan mineral.
4. Uji Validitas
Pengujian validitas pada penelitian ini
bertujuan untuk menghasilkan proses clustering
yang optimal, artinya proses pembentukan cluster
dengan algoritma single linkage didasarkan
Gambar 8. Diagram garis nilai koefisien silhouette
padajarak pengukuran kemiripan serta jumlah
cluster yang optimal. 5. Profilisasi dan Interpretasi Hasil Cluster
Setelah mendapatkan proses clustering yang
a. Validitas jarak optimal. Langkah selanjutnya adalah melakukan
Setelah melakukan pengukuran kemiripan profilisasi dan interpretasi hasil cluster. Pada
untuk masing-masing variabel penelitian, tahapan proses pengelompokkan nilai ekspor komoditi
selanjutnya adalah melakukan pemilihan jarak migas dan nonmigas Provinsi Kalimantan Timur
pengukuran kemiripan terbaik pada data nilai menggunakan analisis cluster, jarak pengukuran
ekspor komoditi migas dan nonmigas Provinsi kemiripan yang digunakan adalah dynamic time
Kalimantan Timur. Uji validitas jarak yang warping(DTW)dengan nilai c-optimal yaitu 3
digunakan dalam penelitian ini adalah koefisien cluster sehingga diperoleh dendogram hasil
korelasi cophenetic berdasarkan Persamaan (13). pengelompokkan yang ditampilkan pada Gambar
Tabel 1. Nilai Koefisien Korelasi Cophenetic 9.
Koefisien
Jarak Pengukuran Korelasi
Cophenetic
Korelasi Pearson 0,83
Euclidean 0,85
Dynamic Time Warping 0,92
Autocorrelation Based Distance 0,87
Nilai dari koefisien korelasi cophenetic berkisar

antara -1 sampai dengan 1, yang artinya ketika
nilai koefisien korelasi mendekati 1 berarti jarak Gambar 9. Dendogram jarak DTW dengan 3
cluster

Berdasarkan Gambar 9, dapat diketahui hasil Komputer dan Informatika. 1 (1), 53-
pengelompokkan nilai ekspor komoditi migas dan 57.
nonmigas Provinsi Kalimantan Timur. Pada Montero, P. dan Vilar, J. A. (2014). TSclust: An R
cluster 1 terdapat 7 variabel penelitian yang Package for Time Series Clustering.
Journal of Statistical Software. 62 (1),
bergabung diantaranya Z1 (t ) yaitu bahan bakar 01-43.
dan mineral, Z 5 (t ) yaitu lemak hewani dan nabati, Pereira, C. M. M dan Mello, R. F. (2013).
Common Dissimilarity Measures are
Z 6 (t ) yaitu perikanan, Z 4 (t ) yaitu pupuk, Z 8 (t ) Inappropriate for Time Series
Clustering. Revista de Informatica
yaitu bahan reaksi nuklir, Z 3 (t ) yaitu bahan-bahan Teorica e Aplicada (RITA). 20 (1), 25-
kimia anorganik serta Z 7 (t ) yaitu bahan-bahan 48.
Prasetyo, E. (2012). Data Mining:Konsep dan
kimia organik. Pada cluster 2 hanya terdapat 1 Aplikasi Menggunakan MATLAB.
variabel penelitian yang bergabung yaitu Z 2 (t ) Yogyakarta: Penerbit Andi.
atau kayu dan kerajinan kayu, sedangkan pada Riyadi, M. A. A., Fithriasari, K. dan Dwiatmono.
cluster 3 terdapat 2 variabel penelitian yang (2016). Data Mining Peramalan
Konsumsi Listrik dengan Pendekatan
bergabung diantaranya Z 9 (t ) yaitu kendaraan Cluster Time Series sebagai
selain kereta api serta Z10 (t ) yaitu barang dari Preprocessing. Jurnal Sains dan Seni
ITS. 5 (1), 121-126.
besi dan baja. Saracli, S., Dogan, N. dan Dogan, I. (2013).
Comparison of Hierarchical Cluster
Kesimpulan Analysis Methods by Cophenetic
Berdasarkan hasil penelitian dan pembahasan, Correlation. Journal of Inequalities and
maka kesimpulan yang diperoleh adalah sebagai Applications. doi: 10.1186/1029-242X-
berikut: 2013-203.
1. Pengukuran kemiripan terbaik dalam proses Sartono, B., Affendi, F. M., Sumertajaya, I. M.
pembentukan cluster data nilai ekspor dan Angraeni, Y. (2003). Analisis
komoditi migas dan nonmigas Provinsi Peubah Ganda. Bogor: Fakultas
Kalimantan Timur menggunakan algoritma Matematika dan Ilmu Pengetahuan
single linkage adalah jarak dynamic time Alam IPB.
warping (DTW) dengan nilai koefisien Sukirno, S. (2010). Makroekonomi: Teori
korelasi cophenetic sebesar 0,92. Pengantar. Jakarta: Rajawali Pers.
2. Nilai c-optimal dalam proses pembentukan Supranto, J. (2010). Statistik: Teori dan Aplikasi
cluster data nilai ekspor komoditi migas dan Edisi 8. Jakarta: Erlangga.
nonmigas Provinsi Kalimantan Timur
menggunakan algoritma single linkage dengan
jarak dynamic time warping adalah 3 cluster.
Nilai koefisien silhouette yang diperoleh
sebesar 0,21.
Daftar Pustaka
Haryati, S., Sudarsono, A., dan Suryana, E.
(2015). Implementasi Data Mining
untuk Memprediksi Masa Studi
Menggunakan Algoritma C4.5. Jurnal
Media Infotama. 11 (2), 130-138.
Johnson, R. A. dan Wichern, D. W. (2002).
Applied Multivariate
StatisticalAnalysis, Fifth Edition. New
Jersey: Pearson Prentice Inc.
Kaufman, L. dan Rousseeuw, P. J. (1990).
Finding Groups in Data An
Introduction to Cluster Analysis. New
Jersey: John Wiley & Sons Inc
Publication.
Mabrur, A. G. dan Lubis, R. (2012). Penerapan
Data Mining untuk Memprediksi
Kriteria Nasabah Kredit. Jurnal


Dani

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Dani

Uploaded by

Copyright:

Available Formats

Jurnal EKSPONENSIAL Volume 11, Nomor 1, Mei 2020 ISSN 2085-7829

Pengelompokkan Data Runtun Waktu menggunakan Analisis Cluster

Grouping of Time Series Data using Cluster Analysis

Keywords: Cluster,copheneticcorrelation coefficient, silhouette coefficient, time series

Pendahuluan database (KDD). Pekerjaan yang berkaitan

Program Studi Statistika FMIPA Universitas Mulawarman 29

proses ekstraksi informasi baru yang diambil dari Z  Z (t ) (1)

dalampengambilan keputusan. Istilah data mining dan

database (KDD). Menurut Mabrus dan Lubis SZ   ( Z (t )  Z ) 2

30 Program Studi Statistika FMIPA Universitas Mulawarman

berdasarkan kemiripan dan kedekatan antar objek n

cij  wij  min c( i 1)( j 1) , c( i 1), j , c( i )( j 1) 

Dalam hal ini nilai wij merupakan selisih antara

Program Studi Statistika FMIPA Universitas Mulawarman 31

jarak antara (UV) dengan cluster lainnya,

32 Program Studi Statistika FMIPA Universitas Mulawarman

Berdasarkan Gambar 2, untuk mencari jarak Hasil Penelitian dan Pembahasan

2. Validitas cluster Sampel yang digunakan dalam penelitian ini

Program Studi Statistika FMIPA Universitas Mulawarman 33

34 Program Studi Statistika FMIPA Universitas Mulawarman

Gambar 5. Dendogram jarak euclidean

Program Studi Statistika FMIPA Universitas Mulawarman 35

Nilai dari koefisien korelasi cophenetic berkisar

36 Program Studi Statistika FMIPA Universitas Mulawarman

Program Studi Statistika FMIPA Universitas Mulawarman 37

38 Program Studi Statistika FMIPA Universitas Mulawarman

You might also like