DM Chap6 Clustering

Veri Madenciliği
Bu hafta
Kümeleme (Clustering)
 Gözetimsiz (Unsupervised) öğrenme
 Neden Kümeleme?
 Hiyerarşik Kümeleme
 k-Ortalamalar yöntemi
Giriş
• Müşteri İlişkileri Direktörü olduğunuzu ve sizin için çalışan beş yöneticiniz olduğunu
hayal edin.
• Her grubun farklı bir yöneticiye atanabilmesi için şirketin tüm müşterilerini beş gruba
ayırmak istiyorsunuz.
• Stratejik olarak, her gruptaki müşterilerin mümkün olduğunca benzer olmasını istersiniz.
• Ayrıca, çok farklı iş modellerine sahip belirli iki müşteri aynı gruba yerleştirilmemelidir.
• Amacınız, paylaşılan ortak özelliklere dayalı olarak her bir gruba özel kampanyalar
geliştirmek.
Giriş
• Böyle bir problemde sınıflandırmanın (classification) aksine, her müşterinin sınıf
etiketi (veya grup kimliği) bilinmemektedir.
• Çok sayıda müşteri ve müşteri profillerini tanımlayan birçok özellik göz önüne
alındığında, manuel verilerin incelenmesi, gruplara ayırma çok maliyetli veya hatta
imkansız olabilir.
• Bu grupların keşfi için kümelemeye (clustering) ihtiyaç duyarız.

Kümeleme (Clustering)
• Veri madenciliği yöntemleri:
• Tahmin (Prediction)
• Gözetimli (Supervised) öğrenme= Sınıflandırma (clasification)
• Öğrenme kümesindeki sınıfların sayısı ve hangi nesnenin hangi sınıfta olduğu
belli.
• Tanımlayıcı (Descriptive)
• Gözetimsiz (Unsupervised) öğrenme = Kümeleme (clustering)
• Hangi nesnenin hangi sınıfa ait olduğu ve sınıf sayısı belli değil
• Denetimsiz Öğrenme (Unsupervised Learning)
• Denetimsiz öğrenme, verilerdeki gizli kalıpları veya iç yapıları bulur.
• Etiketli yanıtlar olmaksızın girdi verilerinden çıkarımlar yapmak için
kullanılır.
• Kümeleme (clustering), en yaygın kullanılan denetimsiz öğrenme
tekniğidir.
• Örnek uygulamalar:
 Gen dizisi analizi,
 Pazar araştırması,
 Nesne tanıma vb.
• Kümeleme analizi (cluster analysis), verileri birbirleriyle benzer alt kümelere
ayırma işlemi olarak bilinmektedir.
• Küme (demet), birbirine benzeyen nesnelerden oluşan gruplardır.
• Aynı gruptaki nesneler

birbirine daha çok benzer
• Farklı gruptaki nesneler
birbirine daha az benzer
• İyi bir kümeleme yöntemi veri içinde gizlenmiş örüntüleri bulabilmelidir.
• Bu amaçla Veriyi gruplama için uygun kriterler bulunmalı
• Kümeleme,
• Aynı kümedeki nesneler arası benzerliği en büyüten,
• Farklı kümelerdeki nesneler arası benzerliği en küçülten
fonksiyonu bulma işlemidir.
• Kümeleme sonucunun kalitesi seçilen kümelerin şekline ve temsil edilme

yöntemine bağlıdır
Neden kümeleme?
• Verinin dağılımını anlama
• Başka veri madenciliği uygulamaları için ön hazırlık
Kümeleme
• Şekil- Çeşitli küme örnekleri.

Neden kümeleme?
• Örüntü tanıma
 Görüntü işleme
 Aykırılıkları belirleme
• Doküman kümeleme
• Kullanıcı davranışlarını kümeleme
• Önişleme adımı olarak
 Veri azaltma
• Küme içindeki nesnelerin temsil edilmesi için küme merkezlerinin
kullanılması
Kümeleme uygulamaları
• Kümeleme çözümlemeleri pazarlama faaliyetlerinde sıkça kullanılır.
• Örneğin bir mamulden farklı beklentilerine göre müşterileri kümelere

ayrılabilir.
• Bunun dışında belirli ürünleri kullanıcıların davranış biçimine göre

gruplandırmak söz konusu olabilir.
• Böylece çözümleme ile elde edilen sonuçlara bakılarak pazarlama stratejisi

belirlenebilir.
An Effective Sample Preparation Method for Diabetes Prediction
The International Arab Journal of Information Technology
2018
• Bu çalışmada, Diyabet tanısı için yüksek hassasiyetli hibrit bir yöntem önerilmiştir .
Deep learning-based clustering approaches for bioinformatics
Briefings in Bioinformatics
2020
• Kümeleme, veriye dayalı birçok biyoinformatik araştırması için önemli bir

yöntemdir.
Unsupervised text feature selection technique based on hybrid particle swarm
optimization algorithm with genetic operators for the text clustering
The Journal of Supercomputing
2017
• Metin kümeleme, büyük miktarda belgenin gruplara ayrılmasında

kullanılan bir yöntemdir.
• Belgelerin boyutu, performans ve hesaplama süresini olumsuz etkiler.
• Kümeleme, metin içerikli belgelerin özellik seçiminde başarılı bir şekilde
kullanılabilir.
• Bu çalışmada metin öznitelik seçmi için hibrit bir kümeleme yöntemi
önerilmiştir.
Neden Kümeleme
• İyi kümeleme yöntemiyle elde edilen kümelerin özellikleri

• Aynı küme içindeki nesneler arası benzerlik fazla
• Farklı kümelerde bulunan nesneler arası benzerlik az
Olması istenir.
• Oluşan kümelerin kalitesi seçilen benzerlik ölçütüne ve bu ölçütün gerçeklenmesine

bağlıdır.
• Uzaklık / Benzerlik nesnelerin nitelik tipine göre değişir
• Nesneler arası benzerlik : s(i,j)
• Nesneler arası uzaklık : d(i,j) = 1 – s(i,j)
Uzaklık ölçütleri (Distance Metrics)
• Kümeleme yöntemlerinin birçoğu, gözlem değerleri arasındaki uzaklıkların
hesaplanması esasına dayanmaktadır.
• O nedenle iki nokta arasındaki uzaklığı hesaplayan bağıntılara gereksinim vardır.
• Çeşitli değişkenlerden oluşan gözlem değerlerini bir matris biçiminde gösterebiliriz.

• Öklid Uzaklığı
• Bu bağıntı genelleştirilecek olursak, p nitelikli (boyut) i, j
noktaları için şu şekilde bir bağıntıya ulaşılır:
• Manhattan Uzaklığı
• Bu uzaklık, gözlemler arasındaki mutlak uzaklık farklarının
toplamı alınarak hesaplanır.
• Minkowski Uzaklığı
• Öklid uzaklık bağıntısının özelleştirilmiş halidir.
• Burada m=2 olduğunda, Öklid uzaklık bağıntısı elde edilebilir.

Hiyerarşik Kümeleme
• Hiyerarşik kümeleme yöntemleri,
• Kümelerin bir ana küme olarak
ele alınması
• Aşamalı olarak içerdiği alt
kümelere ayrılması
veya
• Ayrı ayrı ele alınan kümelerin
aşamalı olarak bir küme
biçiminde birleştirilmesi
esasına dayanır.
• Gösterim için Dendogram
sıklıkla kullanılır.
Hiyerarşik Kümeleme
• Birleştirici Hiyerarşik Yöntemler
• Ayrı ayrı ele alınan kümelerin aşamalı olarak birleştirilmesini sağlayan
yöntemlerdir.
• Bu grupta aşağıdaki hiyerarşik yöntemler yer alır:
• En yakın komşu algoritması
• En uzak komşu algoritması
En Yakın Komşu Algoritması
• En yakın komşu yöntemine (nearest neighbor method) “tek bağlantı kümeleme” adı
da verilmektedir.
• Başlangıçta tüm gözlem değerleri birer küme olarak değerlendirilir.
• Adım adım bu kümeler birleştirilerek yeni kümeler elde edilir.
• Bu yöntemde öncelikle gözlemler arasındaki uzaklıklar belirlenir.
• i ve j gözlemleri arasındaki uzaklıkların belirlenmesinde Öklid uzaklık bağıntısı
kullanılabilir:
• Uzaklıklar göz önüne alınarak Mind(i,j) seçilir.
• Bu uzaklıkla ilgili satırlar birleştirilerek yeni bir küme elde edilir.
• Yeni duruma göre uzaklıkların yeniden hesaplanması gerekir.
• Tek bir gözlemden oluşan kümeler arasındaki uzaklıkları Öklid ile doğrudan
hesaplayabiliriz.
• İki kümenin içerdiği gözlemler arasında birbirine en yakın olanların uzaklığı iki
kümenin birbirine olan uzaklığı olarak kabul edilir.
• En yakın komşu algoritmasında iki kümenin birbirine en yakın gözlemleri arasındaki

uzaklık iki kümenin birbirine olan uzaklığı olarak değerlendirilir.
• Örnek
• 1. Adım: Uzaklık matrisinin hesaplanması.

• Uzaklık tablosu için çeşitli uzaklık ölçüleri kullanılabilir.
• Öklid uzaklık ölçüsüne göre :

• Bu formül yardımıyla aşağıdaki hesaplamalar yapılır:

• Bu durumda gözlemlere ilişkin uzaklıklar matrisi şu şekilde olacaktır:
• 2. Adım: Uzaklıklar tablosunda Mind(i,j) belirlenmesi

• Uzaklıklar tablosu incelendiğinde Mind(i,j)=1.41 olduğu görülür.
• Bu durumda bu değerin ilgili olduğu 1 ve 3 numaralı gözlemeler ele alınır.
• Bu iki değer birleştirilerek (1,3) kümesi elde edilir.
• 2. Adım: Uzaklıklar tablosunda Mind(i,j) hücresinin belirlenmesi

• Elde edilen kümeye göre uzaklıklar matrisini yeniden gözden geçirilir.
• (1,3) kümesi ile diğer gözlemler arasındaki uzaklıkları belirlememiz söz konusudur.
• Bunun için, söz konusu kümenin elemanları ile diğer gözlemler eşlenerek içlerinden en
küçük olanlar, yani birbirine en yakın olan gözlemlerle ilgili olan uzaklıklar belirlenir.

• Bu amaçla (1,3) kümesi ile 2, 4 ve 5 numaralı gözlemler arasındaki uzaklığı
belirleyelim.

• Bu durumda (1,3) kümesi ile 2 numaralı gözlem arasındaki en yakın uzaklık olan
2.83
• 4 numaralı gözlem ile arasındaki en yakın uzaklık olan 7.07 ve
• 5 numaralı gözlem ile arasındaki en yakın uzaklık olan 9.22 değerleri yeni uzaklık
değerleri olarak alınır.
• Bu durumda yeni uzaklıklar tablosu şu şekli alır:
• 3. Adım:
• O halde bu değerin ilgili olduğu 4 ve 5 gözlemleri birleştirilerek bir küme
oluşturacaktır.
• 3. Adım:
• Elde edilen (1,3) kümesinin diğer (1,3) kümesi ve 2 gözlemi ile olan uzaklıklarını
belirlemek gerekiyor.
• Aşağıdaki şekil üzerinde görüldüğü gibi, (4,5) kümesi ile 2 numaralı gözlem
arasındaki en küçük mesafe 4.47 olduğundan bu mesafe uzaklık tablosunda göz
önüne alınır.
• 3. Adım:
• Benzer biçimde (4,5) kümesi ile (1,3) kümesi arasındaki en küçük uzaklık olan 7.07
değeri tabloda yer alır.
• 3. Adım:
• Bu durumda uzaklık tablosu aşağıda belirtilen biçimi alır:
• 4. Adım:
• En son uzaklıklar tablosu incelendiğinde Mind(i,j)=2.83 olduğu görülür.
• O halde bu uzaklık ile ilgili olan 2 gözlemi ile (1,3) kümesi birleştirilecektir.
• Elde edilen (1,2,3) kümesi ile (4,5) kümesi arasındaki uzaklık için kümeler içindeki en
küçük uzaklık belirlenir.
• En küçük uzaklık 4.47 olarak belirlenir.
• 4. Adım:
• Yeni uzaklık değerini de içeren uzaklıklar tablosu şu şekildedir:
• 5. Adım:
• Elde edilen iki küme birleştirilerek sonuç küme elde edilir.
• Bu küme (1,2,3,4,5) gözlemlerinden oluşan kümedir.
• Uzaklık düzeyi göz önüne alınarak kümeler şu şekilde belirlenmiştir:
• 5. Adım:
• Kümeleme ile ilgili dendogram ise aşağıda belirtildiği biçimdedir.
En Uzak Komşu Algoritması
• Bu yönteme “tam bağlantı kümeleme” adı da verilmektedir.
• Yöntem en yakın komşu algoritmasına çok benzer.
• Ancak bu kez kümeler arasındaki uzaklık belirlenirken, iki kümenin birbirine en uzak
olan elemanları arasındaki mesafe, iki küme arasındaki uzunluk olarak tayin edilir.
• Şekil: En uzak komşu algoritmasında iki kümenin birbirine en uzak gözlemleri

arasındaki uzaklık iki kümenin birbirine olan uzaklığı olarak değerlendirilir.
• Örnek
• Gözlem değerleri.
• 1. Adım:
• Öklid uzaklıkları:
• 1. Adım:
• Bu durumda gözlemlere ilişkin uzaklıklar matrisi şu şekilde
olacaktır:
• 2. Adım: Uzaklıklar tablosunda Mind(i,j) hücresinin belirlenmesi.

• Tablo üzerinde Mind(i,j)=1.41 olduğu görülür.
• Bu duruma göre 1 ve 4 numaralı gözlemler ele alınır.
• Bu iki değer birleştirilerek (1,4) kümesi elde edilir.
• 2. Adım:
• Yeni elde edilen kümeye göre uzaklıklar matrisini yeniden gözden
geçirmemiz gerekmektedir.
• (1,4) kümesi ile diğer gözlemler arasındaki uzaklıkları belirlememiz
söz konusudur.
• İlgili küme elemanları ile diğer gözlemler eşlenir, birbirine en uzak
olan gözlemler ile olan uzaklıklar belirlenir.
• 2. Adım:
• (1,4) kümesi ile 2 numaralı gözlem arasındaki en büyük uzaklık
olan 6.71;
• 3 numaralı gözlem ile arasındaki en büyük uzaklık olan 5.39 ve
• 5 numaralı gözlem ile arasındaki en büyük uzaklık olan 2.24
değerleri yeni uzaklık değerleri olarak alınır.
• Bu durumda yeni uzaklıklar tablosu şu şekli alır:
• 3. Adım:
• O halde bu değerin ilgili olduğu 2 ve 3 gözlemleri birleştirilerek bir
küme oluşturacaktır.
• 3. Adım:
• Elde edilen (2,3) kümesinin diğer (1,4) kümesi ve 5 gözlemi ile olan
uzaklıklarını belirlemek gerekir.
• (2,3) kümesi ile 5 numaralı gözlem arasındaki en uzak mesafe 8.60
olduğundan bu mesafe uzaklık tablosunda göz önüne alınır.
• Benzer biçimde (1,4) kümesi ile (2.3) kümesi arasındaki en uzak
mesafe olan 6.71 değeri tabloda yer alır.
• 3. Adım:
• Bu durumda uzaklık tablosu aşağıda belirtilen biçimi alır:
• 4. Adım:
• O halde bu uzaklık ile ilgili olan 5 gözlemi ile (1,4) kümesi
birleştirilecektir.
• Elde edilen (1,4,5) kümesi ile (2,3) kümesi arasındaki uzaklığı
belirlemek için kümeler içindeki her bir değeri eşleştirilir ve
aralarında en büyük olan belirlenir.
• 4. Adım:
• En büyük uzaklık 8.60 olduğuna göre söz konusu iki küme
arasındaki uzaklık olarak bu değer belirlenmiş olur.
• 4. Adım:
• Yeni uzaklık değerini de içeren uzaklıklar tablosu şu şekildedir:
• 5. Adım:
• Elde edilen iki küme birleştirilerek sonuç küme elde edilir. Bu
küme (1,2,3,4,5) gözlemlerinden oluşan kümedir. Uzaklık düzeyi
göz önüne alınarak kümeler şu şekilde belirlenmiştir:
• 5. Adım:
• Kümeleme ile ilgili dendogram ve kümeler ise aşağıda
belirtildiği biçimdedir.
Hiyerarşik Olmayan Kümeleme
• k-ortalamalar Yöntemi
• Hiyerarşik olmayan kümeleme yöntemleri arasında k-ortalamalar (k-means
method) yöntemi önem taşır ve yaygın biçimde kullanılır.
• Bu yöntemde, daha başlangıçta belli sayıdaki küme içim toplam ortalama
hatayı minimize etmek amaçlanır.
k-ortalamalar Yöntemi (k-means method)
• N boyutlu uzayda N örnekli kümlerin verildiğini varsayalım.
• Bu uzay {C1,C2,...,Ck} biçiminde K kümeye ayrılsın.
• O zaman Snk=N (k=1,2,..,k) olmak üzere Ck kümesinin ortalama vektörü Mk şu
şekilde hesaplanır:
• Burada Xk değeri Ck kümesine ait olan i. örnektir.

• Ck kümesi için kareli-hata, her bir Ck örneği ile onun merkezi (centroid)
arasındaki Öklid uzaklıkları toplamıdır.
• Bu hataya “küme içi değişme” adı da verilir.
• Küme içi değişmeler şu şekilde hesaplanır:
• K kümesini içeren bütün kümeler uzayı için kare-hata, küme içindeki
değişimlerin toplamıdır.
• kare-hata değeri şu şekilde hesaplanır:
• Kare-hata kümeleme yönteminin amacı, verilen K değeri için E2k

değerini minimize eden K kümesini içeren bir bölgeyi bulmaktır.
• K-ortalama algoritmasında ilk adım, k küme sayısının belirlenmesidir.
• k değeri belirlendikten sonra her bir kümeye gözlem değerleri atanır
• Böylece C1,C2,...,Ck kümeleri belirlenmiş olur.

• K-ortalama algoritmasında aşağıdaki işlemler sırayla gerçekleştirilir:
• örnek
• Aşağıdaki gözlem değerlerini göz önüne alalım. Bu gözlem değerlerine k-ortalamalar
yöntemini uygulayarak kümelemek istiyoruz.
• Kümelerin sayısına başlangıçta k=2 biçiminde karar veriyoruz.
• Başlangıçta küme rastsal belirlenir:

• C1={X1,X2,X4}
• C2={X3,X5}
• 1. Adım:
• a) Belirtilen iki kümenin merkezleri şu şekilde hesaplanır:
• 1. Adım:
• b) Küme içi değişmeler şu şekilde hesaplanır:
• Bu durumda toplam kare-hata şu şekilde hesaplanır:

• 1. Adım:
• c) M1 ve M2 merkezlerinden olan uzaklıkların minimum olması istendiğinden Öklid
uzaklık formülü kullanılarak mesafeler hesaplanır.
• (M1,X1) noktaları arasındaki uzaklık, M1= {6.67,4.00 } ve X1={4,2} olduğuna göre şu
• Bu kez, M2= {8,4.5 } ve X1={4,2} olduğuna göre (M2,X1) uzaklığı şu şekilde bulunur:
• 1. Adım:
• X1 gözlem değerinin M1 ve M2 merkezlerine olan uzaklıkları göz
önüne alındığında d(M1,X1)<d(M2,X1) olduğu görülür.
• Bu durumda M1 merkezinin X1 gözlem değerine daha yakın
olduğu anlaşılır.
• O halde X1 E C1 olarak kabul edilir.
• 1. Adım:
• Benzer biçimde yukarıdaki işlemler tüm gözlem değerleri için
tekrarlanarak aşağıdaki tablo elde edilir.
• 1. Adım:
• Bu durumda yeni kümeler şu şekilde olacaktır :
• C1={X1,X2,X3}
• C2={X4,X5}
• 2. Adım:
• a) Bir önceki sayfada belirtilen iki kümenin merkezleri şu
• 2. Adım:
• b) Küme içi değişmeler şu şekilde hesaplanır:
• Bu durumda toplam kare-hata şu şekilde hesaplanır:

• 2. Adım:
• c) M1 ve M2 ve merkezlerinden gözlem değerlerine olan
uzaklıklar hesaplanır.
• X1 gözlem değerinin M1 ve M2 merkezlerine olan uzaklıkları göz

önüne alındığında d(M1,X1)<d(M2,X1) olduğu görülür.
• Bu durumda M1 merkezinin X1 gözlem değerine daha yakın

olduğu anlaşılır. O halde X1 E C1 olarak kabul edilir.
• 2. Adım:
• Benzer biçimde yukarıdaki işlemler tüm gözlem değerleri için
tekrarlanarak aşağıdaki tablo elde edilir.
• 2. Adım:
• Bu durumda yeni kümeler şu şekilde olacaktır:
• C1={X1,X2,X3}
• C2={X4,X5}
• 3. Adım:
• Bu durumda yeni kümeler şu şekilde olacaktır:
• C1={X1,X2,X3}
• C2={X4,X5}
Şekil: Sonuç olarak elde edilen kümeler

• Dezavantajları:
• Üretilen kümeler arasında kıyas yapmak zordur.
• Sabitlenmiş küme sayısı, küme sayısının tahminini zorlaştırır.
• Küresel olmayan veri setlerinde iyi çalışmaz.
• Farklı başlangıç bölümlemeleri ile farklı sonuç kümeleri elde edilir.
• Gürültülü veriye duyarlıdır.
• K-ortalama algoritması aykırı değerlere duyarlıdır!

• K-Medoidler: Bir kümedeki nesnenin ortalama değerini referans
noktası olarak almak yerine, bir kümede en merkezi konumdaki
nesne olan medoidler kullanılabilir.
10 10
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
• K-medoids algoritmasının temeli verinin çeşitli yapısal

özelliklerini temsil eden k tane temsilci nesneyi bulma esasına
dayanır.
• En yaygın kullanılan k-medoids algoritması temsilci nesne

diğer nesnelere olan ortalama uzaklığı minimum yapan
kümenin en merkezi nesnesidir.

DM Chap6 Clustering

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

DM Chap6 Clustering

Uploaded by

Copyright:

Available Formats

Veri Madenciliği

• Bu grupların keşfi için kümelemeye (clustering) ihtiyaç duyarız.

• Aynı gruptaki nesneler

• Kümeleme sonucunun kalitesi seçilen kümelerin şekline ve temsil edilme

• Şekil- Çeşitli küme örnekleri.

• Kümeleme çözümlemeleri pazarlama faaliyetlerinde sıkça kullanılır.

• Örneğin bir mamulden farklı beklentilerine göre müşterileri kümelere

• Bunun dışında belirli ürünleri kullanıcıların davranış biçimine göre

• Böylece çözümleme ile elde edilen sonuçlara bakılarak pazarlama stratejisi

• Kümeleme, veriye dayalı birçok biyoinformatik araştırması için önemli bir

• Metin kümeleme, büyük miktarda belgenin gruplara ayrılmasında

• İyi kümeleme yöntemiyle elde edilen kümelerin özellikleri

• Oluşan kümelerin kalitesi seçilen benzerlik ölçütüne ve bu ölçütün gerçeklenmesine

• O nedenle iki nokta arasındaki uzaklığı hesaplayan bağıntılara gereksinim vardır.

• Çeşitli değişkenlerden oluşan gözlem değerlerini bir matris biçiminde gösterebiliriz.

• Burada m=2 olduğunda, Öklid uzaklık bağıntısı elde edilebilir.

• Uzaklıklar göz önüne alınarak Mind(i,j) seçilir.

• Bu uzaklıkla ilgili satırlar birleştirilerek yeni bir küme elde edilir.

• Yeni duruma göre uzaklıkların yeniden hesaplanması gerekir.

• En yakın komşu algoritmasında iki kümenin birbirine en yakın gözlemleri arasındaki

• 1. Adım: Uzaklık matrisinin hesaplanması.

• 1. Adım: Uzaklık matrisinin hesaplanması.

• 1. Adım: Uzaklık matrisinin hesaplanması.

• 2. Adım: Uzaklıklar tablosunda Mind(i,j) belirlenmesi

• 2. Adım: Uzaklıklar tablosunda Mind(i,j) hücresinin belirlenmesi

• 2. Adım: Uzaklıklar tablosunda Mind(i,j) hücresinin belirlenmesi

• 2. Adım: Uzaklıklar tablosunda Mind(i,j) hücresinin belirlenmesi

• Bu yönteme “tam bağlantı kümeleme” adı da verilmektedir.

• Yöntem en yakın komşu algoritmasına çok benzer.

• Şekil: En uzak komşu algoritmasında iki kümenin birbirine en uzak gözlemleri

• 2. Adım: Uzaklıklar tablosunda Mind(i,j) hücresinin belirlenmesi.

• Burada Xk değeri Ck kümesine ait olan i. örnektir.

• Kare-hata kümeleme yönteminin amacı, verilen K değeri için E2k

• k değeri belirlendikten sonra her bir kümeye gözlem değerleri atanır

• Böylece C1,C2,...,Ck kümeleri belirlenmiş olur.

• Başlangıçta küme rastsal belirlenir:

• Bu durumda toplam kare-hata şu şekilde hesaplanır:

• Bu durumda toplam kare-hata şu şekilde hesaplanır:

• X1 gözlem değerinin M1 ve M2 merkezlerine olan uzaklıkları göz

• Bu durumda M1 merkezinin X1 gözlem değerine daha yakın

Şekil: Sonuç olarak elde edilen kümeler

• K-ortalama algoritması aykırı değerlere duyarlıdır!

• K-medoids algoritmasının temeli verinin çeşitli yapısal

• En yaygın kullanılan k-medoids algoritması temsilci nesne

You might also like