Analisis Klastering

Imelda Atastina CS 4333 Data Mining

CS 4333 Data Mining - IMD

1

Definisi

Mengelompokkan objek menjadi satu kelompok jika objek-objek tsb “mirip”(berkaitan/dekat) dan membuat kelompok yang berbeda jika objek itu “berbeda”
Jarak Intracluster minimalkan JarakIntercluster maksimumkan

CS 4333 Data Mining - IMD

2

Kegunaan

Pemahaman Memahami karakteristik objek yang memiliki kelompok yang sama. contoh : protein yang memiliki fungsi yang sama, stock saham yang memiliki fluktuasi yang sama Ringkasan (Summary) Sehingga data yang diolah merupakan dataset yang lebih kecil saja
CS 4333 Data Mining - IMD
3

IMD 4 .Bukan Klaterisasi   Klasifikasi (Supervised classification)  Mempunyai informasi label kelas Membagi kelompok registrasi siswa berdasarkan urutan hasil ujian penerimaan Pengelompokan berdasarkan spesifikasi eksternal Segmentasi Sederhana   Hasil-hasil query   Graph partitioning CS 4333 Data Mining .

Macam-macam Proses Klasterisasi    Hierarchical vs Partitioning Exclusive vs Overlapping vs Fuzzy Complete vs Partial CS 4333 Data Mining .IMD 5 .

Jenis-jenis Klaster      Well-separated Prototype based Graph based Density based Shared property CS 4333 Data Mining .IMD 6 .

K-Means      Merupakan salah satu algoritma Partitional clustering Setiap klaster berkaitan dengan sebuah titik pusat klaster (centroid) Setiap titik dimasukkan ke dalam klaster dengan centroid terdekat.IMD 7 . Jumlah klaster harus ditentukan sebelumnya Algoritma dasar K-Means sangat sederhana CS 4333 Data Mining .

Algoritma K-Means CS 4333 Data Mining .IMD 8 .

0 2.5 3.5 2.IMD 6.5 6 5.5 1.0 3.0 2.Contoh Instance 1 2 3 4 5 X 1.5 4.0 1.0 9 .0 CS 4333 Data Mining .0 Y 1.

41 10 .16 0 2 1.5) sbg centroid awal klaster 2 Hitung jarak masingmasing titik terhadap centroid yg dipilih C1 0 C2 1 3 1 2.Contoh (cont’)    Pilih K=2 Pilih instance 1(1.1.0.24 2.41 6.5) sbg centroid awal klaster 1 and instance 3 (2.02 CS 4333 Data Mining .IMD 5.0.24 3.1.

IMD 3.Contoh cont’     Klaster 1 berisi : 1.6 Hitung ulang centroid masing-masing klaster C1 : (1.3 11 .74 2.3) and C2 : (3.375) Hitung juga jarak masing-masing instance terhadap centroid baru C1 1.4.8 1.06 C2 2.01 0.5 1.12 2.29 2.875 5 CS 4333 Data Mining .5 1.125 1.3.2 Klaster 2 berisi : 3.5.

33.2.2.3 Klaster 2 berisi :4.5.5) C2:(3.IMD 12 .Contoh cont’        Klaster 1 berisi : 1.6 Hitung lagi centroid C1 : (1.4) Hitung jarak masing-masing titik … Berhenti hingga nilai C1 dan C2 tidak berubah (atau memenuhi treshold yang diinginkan) CS 4333 Data Mining .33.

makin baik •Salah satu teknik untuk memperkecil nilai SSE adalah dengan memperbesar nilai K CS 4333 Data Mining .SSE   SSE = Sum Squared Error Digunakan untuk menentukan hasil klasterisasi yang lebih baik.IMD 13 .jika inisialisasi centroidnya berbeda-beda SSE    dist (ci . x) i 1 xCi K 2 1 ci  mi xCi x •Makin kecil nilai SSE.

Agglomerative Hierarchical Clustering   Menghasilkan klaster bersarang yang dapat direpresentasikan sebagai pohon hirarki Juga dapat direpresentasikan sebagai dendogram 0.2 6 4 3 2 5 2 4 5 0.IMD 14 .15 0.1 0.05 1 0 3 1 3 2 5 4 6 1 CS 4333 Data Mining .

IMD 15 . dimulai dengan semua titik dianggap berada pada satu klaster. secara bertahap dibagi hingga setiap klaster berisi satu titik CS 4333 Data Mining . secara bertahap setiap klaster digabungkan hingga akhirnya menjadi satu klaster saja Divisive Kebalikan dari agglomerative.Jenis hierarchical clustering   Agglomerative Dimulai dengan setiap titik dianggap sebagai sebuah klaster.

CS 4333 Data Mining . if necessary 2. Until Only one cluster remains * Cara menghitung jarak antara 2 cluster 1. Merge the closest two cluster 4.IMD 16 . Repeat 3. Update the proximity matrix to reflect the proximity between the new cluster and the original clusters 5.Algoritma Dasar Agglomerative Hierarchical Clustering Compute the proximity matrix.

.IMD 17 ..Bagaimana mendefinisikan Inter-Cluster Similarity p1 p2 p3 p4 p5 .. Similarity? p1 p2 p3 p4      MIN MAX Group Average Distance Between Centroids Other methods driven by an objective function  p5 . Proximity Matrix Ward’s Method uses squared error CS 4333 Data Mining . .

IMD 18 .Bagaimana mendefinisikan Inter-Cluster Similarity p1 p1 p2 p3 p4 p2 p3 p4 p5 . .      MIN MAX Group Average Distance Between Centroids Other methods driven by an objective function  p5 . ... Proximity Matrix Ward’s Method uses squared error CS 4333 Data Mining .

Proximity Matrix Ward’s Method uses squared error CS 4333 Data Mining . ..Bagaimana mendefinisikan Inter-Cluster Similarity p1 p1 p2 p3 p4 p2 p3 p4 p5 .IMD 19 .      MIN MAX Group Average Distance Between Centroids Other methods driven by an objective function  p5 .. .

.. .IMD 20 .Bagaimana mendefinisikan Inter-Cluster Similarity p1 p1 p2 p3 p4 p2 p3 p4 p5 . Proximity Matrix Ward’s Method uses squared error CS 4333 Data Mining .      MIN MAX Group Average Distance Between Centroids Other methods driven by an objective function  p5 . .

Bagaimana mendefinisikan Inter-Cluster Similarity p1 p1   p2 p3 p4 p2 p3 p4 p5 .IMD 21 .      MIN MAX Group Average Distance Between Centroids Other methods driven by an objective function  p5 .. . . Proximity Matrix Ward’s Method uses squared error CS 4333 Data Mining ..

00 0.22 0.30 3 4 5 6 0.22 0.23 0.14 0.20 0.53 0.26 0.35 0.37 0.37 0.14 6 0.00 0.19 0.15 4 0.15 0.22 Y 0.4 0.22 0.00 0.23 0.28 0.39 0.32 0.34 0.11 0.25 0.28 0.20 5 0.24 0.22 0.11 0.29 0.15 0.39 0.41 0.24 2 0.15 0.34 0.00 CS 4333 Data Mining .08 0.25 3 4 5 6 0.Contoh  Diketahui tabel data dan jarak antar klaster sbb : Titik 1 2 X 0.45 0.00 3 0.00 0.29 0.38 1 2 1 0.IMD 22 .

1 0.2 2 3 1 6 0.Hierarchical Clustering: MIN 1 5 3 5 2 4 4 0 3 6 2 5 4 1 0.05 Nested Clusters CS 4333 Data Mining .15 0.IMD Dendrogram 23 .

28.2).15 CS 4333 Data Mining .dist(3.0.{2.25.0.0.5).15.Contoh menghitung jarak antar klaster MIN  Dist({3.dist(6.dist(6.39) = 0.2).5)) = min(0.IMD 24 .5}) = min(dist(3.6}.

05 0 3 6 4 1 2 5 1 Nested Clusters Dendrogram CS 4333 Data Mining .3 0.Hierarchical Clustering: MAX 4 2 5 2 3 3 4 6 1 5 0.IMD 25 .25 0.15 0.35 0.1 0.4 0.2 0.

22) = 0.1)) = max(0.25.4).15.IMD 26 .dist(3.{1}) = max(dist(3.22 Dist({3.dist(6.4)) = max (0.{2.6}.6}.dist(6.dist(6.0.1).0.15.{4}) = max(dist(3.2).22.0.23 CS 4333 Data Mining .39) = 0.5)) = max(0.23) = 0.5).5}) = max(dist(3.0.Contoh menghitung jarak antar klaster MAX    Dist({3.0.6}.dist(6.39 Dist({3.28.2).

Cluster Similarity: Group Average  Proximity dari 2 klaster adalah rata-rata jarak tiap 2 titik pada 2 klaster yang berbeda  proximity(p . p ) i j proximity(Clusteri . Clusterj )  piClusteri p jCluster j |Clusteri ||Clusterj | CS 4333 Data Mining .IMD 27 .

IMD 28 .Hierarchical Clustering: Group Average 5 2 5 2 0.2 3 1 6 0.15 4 1 0.25 0.1 0.05 0 4 3 3 6 4 1 2 5 Nested Clusters Dendrogram CS 4333 Data Mining .

6.15+0.28 dist({2.IMD 29 .4}.23)/(3*1) = 0.29 dist({3.{2.{1}) = (0.6.34)/(2*1) = 0.22+0.37+0.26   CS 4333 Data Mining .20+0.24+0.5}) = (0.Contoh menghitung jarak antar klaster Group Average  dist({3.25+0.28+0.29)/(3*2) = 0.{1}) = (0.39+0.4}.5}.

IMD 30  Kekurangan  .Hierarchical Clustering: Group Average   Merupakan jalan tengah antara MIN dan MAX (Single Linkage & Complete Linkage) Kelebihannya  Tidak terlalu terpengaruh oleh noise & outliers Bias terhadap globular clusters CS 4333 Data Mining .

IMD 31 .Density Based Clustering    Parameter  Eps : radius maksimum lingkungan/ketetanggaan sebuah titik  MinPts : jumlah min titik yang berada pada lingkungan eps NEps(p): {q D | dist(p. yaitu |NEps (q)| >= MinPts q p MinPts = 5 Eps = 1 cm CS 4333 Data Mining . MinPts jika   1) p  NEps(q) 2) q adalah core point condition.q) <= Eps} Directly density-reachable: Titik p dikatakan directly densityreachable dari titik q dengan Eps.

IMD 32 . MinPts jika terdapat barisan titik-titik p1. p dan q density-reachable dari o dgn. p1 = q. pn = p sedemikian shg pi+1 directly density-reachable dari pi Titik p dikatakan density-connected pada titik q dgn Eps. MinPts jika terdapat titik o sdmkn shg. …. p p q p1  Density-connected  q o CS 4333 Data Mining .Density Based Clustering  Density-reachable:  Titik p dikatakan density-reachable dari titik q dgn Eps. pn. Eps dan MinPts.

IMD 33 .DBSCAN: Density Based Spatial Clustering of Applications with Noise  Sebuah cluster didefinsikan sbg maximal set dari titik yang bersifat densityconnected Outlier Border Eps = 1cm MinPts = 5 Core CS 4333 Data Mining .

no points are density-reachable from p and DBSCAN visits the next point of the database. Continue the process until all of the points have been processed. CS 4333 Data Mining . If p is a core point. a cluster is formed.IMD 34    .Algoritma DBSCAN   Arbitrary select a point p Retrieve all points density-reachable from p wrt Eps and MinPts. If p is a border point.

Sign up to vote on this title
UsefulNot useful