You are on page 1of 84

Veri Madenciliği

Bu hafta

Kümeleme (Clustering)
 Gözetimsiz (Unsupervised) öğrenme
 Neden Kümeleme?
 Hiyerarşik Kümeleme
 k-Ortalamalar yöntemi
Giriş
• Müşteri İlişkileri Direktörü olduğunuzu ve sizin için çalışan beş yöneticiniz olduğunu
hayal edin.

• Her grubun farklı bir yöneticiye atanabilmesi için şirketin tüm müşterilerini beş gruba
ayırmak istiyorsunuz.

• Stratejik olarak, her gruptaki müşterilerin mümkün olduğunca benzer olmasını istersiniz.

• Ayrıca, çok farklı iş modellerine sahip belirli iki müşteri aynı gruba yerleştirilmemelidir.

• Amacınız, paylaşılan ortak özelliklere dayalı olarak her bir gruba özel kampanyalar
geliştirmek.
Giriş
• Böyle bir problemde sınıflandırmanın (classification) aksine, her müşterinin sınıf
etiketi (veya grup kimliği) bilinmemektedir.

• Çok sayıda müşteri ve müşteri profillerini tanımlayan birçok özellik göz önüne
alındığında, manuel verilerin incelenmesi, gruplara ayırma çok maliyetli veya hatta
imkansız olabilir.

• Bu grupların keşfi için kümelemeye (clustering) ihtiyaç duyarız.


Kümeleme (Clustering)
• Veri madenciliği yöntemleri:
• Tahmin (Prediction)
• Gözetimli (Supervised) öğrenme= Sınıflandırma (clasification)
• Öğrenme kümesindeki sınıfların sayısı ve hangi nesnenin hangi sınıfta olduğu
belli.

• Tanımlayıcı (Descriptive)
• Gözetimsiz (Unsupervised) öğrenme = Kümeleme (clustering)
• Hangi nesnenin hangi sınıfa ait olduğu ve sınıf sayısı belli değil
Kümeleme (Clustering)
• Denetimsiz Öğrenme (Unsupervised Learning)
• Denetimsiz öğrenme, verilerdeki gizli kalıpları veya iç yapıları bulur.
• Etiketli yanıtlar olmaksızın girdi verilerinden çıkarımlar yapmak için
kullanılır.
• Kümeleme (clustering), en yaygın kullanılan denetimsiz öğrenme
tekniğidir.
• Örnek uygulamalar:
 Gen dizisi analizi,
 Pazar araştırması,
 Nesne tanıma vb.
Kümeleme (Clustering)
• Kümeleme analizi (cluster analysis), verileri birbirleriyle benzer alt kümelere
ayırma işlemi olarak bilinmektedir.
• Küme (demet), birbirine benzeyen nesnelerden oluşan gruplardır.

• Aynı gruptaki nesneler


birbirine daha çok benzer
• Farklı gruptaki nesneler
birbirine daha az benzer
Kümeleme (Clustering)
• İyi bir kümeleme yöntemi veri içinde gizlenmiş örüntüleri bulabilmelidir.
• Bu amaçla Veriyi gruplama için uygun kriterler bulunmalı
• Kümeleme,
• Aynı kümedeki nesneler arası benzerliği en büyüten,
• Farklı kümelerdeki nesneler arası benzerliği en küçülten
fonksiyonu bulma işlemidir.

• Kümeleme sonucunun kalitesi seçilen kümelerin şekline ve temsil edilme


yöntemine bağlıdır
Neden kümeleme?
• Verinin dağılımını anlama
• Başka veri madenciliği uygulamaları için ön hazırlık
Kümeleme

• Şekil- Çeşitli küme örnekleri.


Neden kümeleme?
• Örüntü tanıma
 Görüntü işleme
 Aykırılıkları belirleme
• Doküman kümeleme
• Kullanıcı davranışlarını kümeleme
• Önişleme adımı olarak
 Veri azaltma
• Küme içindeki nesnelerin temsil edilmesi için küme merkezlerinin
kullanılması
Kümeleme uygulamaları

• Kümeleme çözümlemeleri pazarlama faaliyetlerinde sıkça kullanılır.

• Örneğin bir mamulden farklı beklentilerine göre müşterileri kümelere


ayrılabilir.

• Bunun dışında belirli ürünleri kullanıcıların davranış biçimine göre


gruplandırmak söz konusu olabilir.

• Böylece çözümleme ile elde edilen sonuçlara bakılarak pazarlama stratejisi


belirlenebilir.
An Effective Sample Preparation Method for Diabetes Prediction
The International Arab Journal of Information Technology
2018

• Bu çalışmada, Diyabet tanısı için yüksek hassasiyetli hibrit bir yöntem önerilmiştir .
Deep learning-based clustering approaches for bioinformatics
Briefings in Bioinformatics
2020

• Kümeleme, veriye dayalı birçok biyoinformatik araştırması için önemli bir


yöntemdir.
Unsupervised text feature selection technique based on hybrid particle swarm
optimization algorithm with genetic operators for the text clustering
The Journal of Supercomputing
2017

• Metin kümeleme, büyük miktarda belgenin gruplara ayrılmasında


kullanılan bir yöntemdir.
• Belgelerin boyutu, performans ve hesaplama süresini olumsuz etkiler.
• Kümeleme, metin içerikli belgelerin özellik seçiminde başarılı bir şekilde
kullanılabilir.
• Bu çalışmada metin öznitelik seçmi için hibrit bir kümeleme yöntemi
önerilmiştir.
Neden Kümeleme

• İyi kümeleme yöntemiyle elde edilen kümelerin özellikleri


• Aynı küme içindeki nesneler arası benzerlik fazla
• Farklı kümelerde bulunan nesneler arası benzerlik az
Olması istenir.

• Oluşan kümelerin kalitesi seçilen benzerlik ölçütüne ve bu ölçütün gerçeklenmesine


bağlıdır.
• Uzaklık / Benzerlik nesnelerin nitelik tipine göre değişir
• Nesneler arası benzerlik : s(i,j)
• Nesneler arası uzaklık : d(i,j) = 1 – s(i,j)
Uzaklık ölçütleri (Distance Metrics)
• Kümeleme yöntemlerinin birçoğu, gözlem değerleri arasındaki uzaklıkların
hesaplanması esasına dayanmaktadır.

• O nedenle iki nokta arasındaki uzaklığı hesaplayan bağıntılara gereksinim vardır.

• Çeşitli değişkenlerden oluşan gözlem değerlerini bir matris biçiminde gösterebiliriz.


Uzaklık ölçütleri (Distance Metrics)
• Öklid Uzaklığı
• Bu bağıntı genelleştirilecek olursak, p nitelikli (boyut) i, j
noktaları için şu şekilde bir bağıntıya ulaşılır:
Uzaklık ölçütleri (Distance Metrics)
• Manhattan Uzaklığı
• Bu uzaklık, gözlemler arasındaki mutlak uzaklık farklarının
toplamı alınarak hesaplanır.
Uzaklık ölçütleri (Distance Metrics)
• Minkowski Uzaklığı
• Öklid uzaklık bağıntısının özelleştirilmiş halidir.

• Burada m=2 olduğunda, Öklid uzaklık bağıntısı elde edilebilir.


Hiyerarşik Kümeleme
• Hiyerarşik kümeleme yöntemleri,
• Kümelerin bir ana küme olarak
ele alınması
• Aşamalı olarak içerdiği alt
kümelere ayrılması
veya
• Ayrı ayrı ele alınan kümelerin
aşamalı olarak bir küme
biçiminde birleştirilmesi
esasına dayanır.
• Gösterim için Dendogram
sıklıkla kullanılır.
Hiyerarşik Kümeleme
• Birleştirici Hiyerarşik Yöntemler
• Ayrı ayrı ele alınan kümelerin aşamalı olarak birleştirilmesini sağlayan
yöntemlerdir.
• Bu grupta aşağıdaki hiyerarşik yöntemler yer alır:
• En yakın komşu algoritması
• En uzak komşu algoritması
En Yakın Komşu Algoritması

• En yakın komşu yöntemine (nearest neighbor method) “tek bağlantı kümeleme” adı
da verilmektedir.
• Başlangıçta tüm gözlem değerleri birer küme olarak değerlendirilir.
• Adım adım bu kümeler birleştirilerek yeni kümeler elde edilir.
• Bu yöntemde öncelikle gözlemler arasındaki uzaklıklar belirlenir.
• i ve j gözlemleri arasındaki uzaklıkların belirlenmesinde Öklid uzaklık bağıntısı
kullanılabilir:
En Yakın Komşu Algoritması

• Uzaklıklar göz önüne alınarak Mind(i,j) seçilir.

• Bu uzaklıkla ilgili satırlar birleştirilerek yeni bir küme elde edilir.

• Yeni duruma göre uzaklıkların yeniden hesaplanması gerekir.

• Tek bir gözlemden oluşan kümeler arasındaki uzaklıkları Öklid ile doğrudan
hesaplayabiliriz.

• İki kümenin içerdiği gözlemler arasında birbirine en yakın olanların uzaklığı iki
kümenin birbirine olan uzaklığı olarak kabul edilir.
En Yakın Komşu Algoritması

• En yakın komşu algoritmasında iki kümenin birbirine en yakın gözlemleri arasındaki


uzaklık iki kümenin birbirine olan uzaklığı olarak değerlendirilir.
En Yakın Komşu Algoritması

• Örnek
En Yakın Komşu Algoritması

• 1. Adım: Uzaklık matrisinin hesaplanması.


• Uzaklık tablosu için çeşitli uzaklık ölçüleri kullanılabilir.
• Öklid uzaklık ölçüsüne göre :
En Yakın Komşu Algoritması

• 1. Adım: Uzaklık matrisinin hesaplanması.


• Bu formül yardımıyla aşağıdaki hesaplamalar yapılır:
En Yakın Komşu Algoritması

• 1. Adım: Uzaklık matrisinin hesaplanması.


• Bu durumda gözlemlere ilişkin uzaklıklar matrisi şu şekilde olacaktır:
En Yakın Komşu Algoritması

• 2. Adım: Uzaklıklar tablosunda Mind(i,j) belirlenmesi


• Uzaklıklar tablosu incelendiğinde Mind(i,j)=1.41 olduğu görülür.
• Bu durumda bu değerin ilgili olduğu 1 ve 3 numaralı gözlemeler ele alınır.
• Bu iki değer birleştirilerek (1,3) kümesi elde edilir.
En Yakın Komşu Algoritması

• 2. Adım: Uzaklıklar tablosunda Mind(i,j) hücresinin belirlenmesi


• Elde edilen kümeye göre uzaklıklar matrisini yeniden gözden geçirilir.
• (1,3) kümesi ile diğer gözlemler arasındaki uzaklıkları belirlememiz söz konusudur.
• Bunun için, söz konusu kümenin elemanları ile diğer gözlemler eşlenerek içlerinden en
küçük olanlar, yani birbirine en yakın olan gözlemlerle ilgili olan uzaklıklar belirlenir.
En Yakın Komşu Algoritması

• 2. Adım: Uzaklıklar tablosunda Mind(i,j) hücresinin belirlenmesi


• Bu amaçla (1,3) kümesi ile 2, 4 ve 5 numaralı gözlemler arasındaki uzaklığı
belirleyelim.
En Yakın Komşu Algoritması

• 2. Adım: Uzaklıklar tablosunda Mind(i,j) hücresinin belirlenmesi


• Bu durumda (1,3) kümesi ile 2 numaralı gözlem arasındaki en yakın uzaklık olan
2.83
• 4 numaralı gözlem ile arasındaki en yakın uzaklık olan 7.07 ve
• 5 numaralı gözlem ile arasındaki en yakın uzaklık olan 9.22 değerleri yeni uzaklık
değerleri olarak alınır.
• Bu durumda yeni uzaklıklar tablosu şu şekli alır:
En Yakın Komşu Algoritması

• 3. Adım:
• Uzaklıklar tablosu incelendiğinde Mind(i,j)=2.24 olduğu görülür.
• O halde bu değerin ilgili olduğu 4 ve 5 gözlemleri birleştirilerek bir küme
oluşturacaktır.
En Yakın Komşu Algoritması

• 3. Adım:
• Elde edilen (1,3) kümesinin diğer (1,3) kümesi ve 2 gözlemi ile olan uzaklıklarını
belirlemek gerekiyor.
• Aşağıdaki şekil üzerinde görüldüğü gibi, (4,5) kümesi ile 2 numaralı gözlem
arasındaki en küçük mesafe 4.47 olduğundan bu mesafe uzaklık tablosunda göz
önüne alınır.
En Yakın Komşu Algoritması

• 3. Adım:
• Benzer biçimde (4,5) kümesi ile (1,3) kümesi arasındaki en küçük uzaklık olan 7.07
değeri tabloda yer alır.
En Yakın Komşu Algoritması

• 3. Adım:
• Bu durumda uzaklık tablosu aşağıda belirtilen biçimi alır:
En Yakın Komşu Algoritması

• 4. Adım:
• En son uzaklıklar tablosu incelendiğinde Mind(i,j)=2.83 olduğu görülür.
• O halde bu uzaklık ile ilgili olan 2 gözlemi ile (1,3) kümesi birleştirilecektir.
• Elde edilen (1,2,3) kümesi ile (4,5) kümesi arasındaki uzaklık için kümeler içindeki en
küçük uzaklık belirlenir.
• En küçük uzaklık 4.47 olarak belirlenir.
En Yakın Komşu Algoritması

• 4. Adım:
• Yeni uzaklık değerini de içeren uzaklıklar tablosu şu şekildedir:
En Yakın Komşu Algoritması

• 5. Adım:
• Elde edilen iki küme birleştirilerek sonuç küme elde edilir.
• Bu küme (1,2,3,4,5) gözlemlerinden oluşan kümedir.
• Uzaklık düzeyi göz önüne alınarak kümeler şu şekilde belirlenmiştir:
En Yakın Komşu Algoritması

• 5. Adım:
• Kümeleme ile ilgili dendogram ise aşağıda belirtildiği biçimdedir.
En Uzak Komşu Algoritması

• Bu yönteme “tam bağlantı kümeleme” adı da verilmektedir.

• Yöntem en yakın komşu algoritmasına çok benzer.

• Ancak bu kez kümeler arasındaki uzaklık belirlenirken, iki kümenin birbirine en uzak
olan elemanları arasındaki mesafe, iki küme arasındaki uzunluk olarak tayin edilir.
En Uzak Komşu Algoritması

• Şekil: En uzak komşu algoritmasında iki kümenin birbirine en uzak gözlemleri


arasındaki uzaklık iki kümenin birbirine olan uzaklığı olarak değerlendirilir.
En Uzak Komşu Algoritması

• Örnek
• Gözlem değerleri.
En Uzak Komşu Algoritması

• 1. Adım:
• Öklid uzaklıkları:
En Uzak Komşu Algoritması

• 1. Adım:
• Bu durumda gözlemlere ilişkin uzaklıklar matrisi şu şekilde
olacaktır:
En Uzak Komşu Algoritması

• 2. Adım: Uzaklıklar tablosunda Mind(i,j) hücresinin belirlenmesi.


• Tablo üzerinde Mind(i,j)=1.41 olduğu görülür.
• Bu duruma göre 1 ve 4 numaralı gözlemler ele alınır.
• Bu iki değer birleştirilerek (1,4) kümesi elde edilir.
En Uzak Komşu Algoritması

• 2. Adım:
• Yeni elde edilen kümeye göre uzaklıklar matrisini yeniden gözden
geçirmemiz gerekmektedir.
• (1,4) kümesi ile diğer gözlemler arasındaki uzaklıkları belirlememiz
söz konusudur.
• İlgili küme elemanları ile diğer gözlemler eşlenir, birbirine en uzak
olan gözlemler ile olan uzaklıklar belirlenir.
En Uzak Komşu Algoritması

• 2. Adım:
• (1,4) kümesi ile 2 numaralı gözlem arasındaki en büyük uzaklık
olan 6.71;
• 3 numaralı gözlem ile arasındaki en büyük uzaklık olan 5.39 ve
• 5 numaralı gözlem ile arasındaki en büyük uzaklık olan 2.24
değerleri yeni uzaklık değerleri olarak alınır.
• Bu durumda yeni uzaklıklar tablosu şu şekli alır:
En Uzak Komşu Algoritması

• 3. Adım:
• Uzaklıklar tablosu incelendiğinde Mind(i,j)=1.41 olduğu görülür.
• O halde bu değerin ilgili olduğu 2 ve 3 gözlemleri birleştirilerek bir
küme oluşturacaktır.
En Uzak Komşu Algoritması

• 3. Adım:
• Elde edilen (2,3) kümesinin diğer (1,4) kümesi ve 5 gözlemi ile olan
uzaklıklarını belirlemek gerekir.
• (2,3) kümesi ile 5 numaralı gözlem arasındaki en uzak mesafe 8.60
olduğundan bu mesafe uzaklık tablosunda göz önüne alınır.
• Benzer biçimde (1,4) kümesi ile (2.3) kümesi arasındaki en uzak
mesafe olan 6.71 değeri tabloda yer alır.
En Uzak Komşu Algoritması

• 3. Adım:
• Bu durumda uzaklık tablosu aşağıda belirtilen biçimi alır:
En Uzak Komşu Algoritması

• 4. Adım:
• Uzaklıklar tablosu incelendiğinde Mind(i,j)=2.24 olduğu görülür.
• O halde bu uzaklık ile ilgili olan 5 gözlemi ile (1,4) kümesi
birleştirilecektir.
• Elde edilen (1,4,5) kümesi ile (2,3) kümesi arasındaki uzaklığı
belirlemek için kümeler içindeki her bir değeri eşleştirilir ve
aralarında en büyük olan belirlenir.
En Uzak Komşu Algoritması

• 4. Adım:
• En büyük uzaklık 8.60 olduğuna göre söz konusu iki küme
arasındaki uzaklık olarak bu değer belirlenmiş olur.
En Uzak Komşu Algoritması

• 4. Adım:
• Yeni uzaklık değerini de içeren uzaklıklar tablosu şu şekildedir:
En Uzak Komşu Algoritması

• 5. Adım:
• Elde edilen iki küme birleştirilerek sonuç küme elde edilir. Bu
küme (1,2,3,4,5) gözlemlerinden oluşan kümedir. Uzaklık düzeyi
göz önüne alınarak kümeler şu şekilde belirlenmiştir:
En Uzak Komşu Algoritması

• 5. Adım:
• Kümeleme ile ilgili dendogram ve kümeler ise aşağıda
belirtildiği biçimdedir.
Hiyerarşik Olmayan Kümeleme

• k-ortalamalar Yöntemi
• Hiyerarşik olmayan kümeleme yöntemleri arasında k-ortalamalar (k-means
method) yöntemi önem taşır ve yaygın biçimde kullanılır.
• Bu yöntemde, daha başlangıçta belli sayıdaki küme içim toplam ortalama
hatayı minimize etmek amaçlanır.
k-ortalamalar Yöntemi (k-means method)
• N boyutlu uzayda N örnekli kümlerin verildiğini varsayalım.
• Bu uzay {C1,C2,...,Ck} biçiminde K kümeye ayrılsın.
• O zaman Snk=N (k=1,2,..,k) olmak üzere Ck kümesinin ortalama vektörü Mk şu
şekilde hesaplanır:

• Burada Xk değeri Ck kümesine ait olan i. örnektir.


• Ck kümesi için kareli-hata, her bir Ck örneği ile onun merkezi (centroid)
arasındaki Öklid uzaklıkları toplamıdır.
• Bu hataya “küme içi değişme” adı da verilir.
k-ortalamalar Yöntemi (k-means method)
• Küme içi değişmeler şu şekilde hesaplanır:
k-ortalamalar Yöntemi (k-means method)
• K kümesini içeren bütün kümeler uzayı için kare-hata, küme içindeki
değişimlerin toplamıdır.
• kare-hata değeri şu şekilde hesaplanır:

• Kare-hata kümeleme yönteminin amacı, verilen K değeri için E2k


değerini minimize eden K kümesini içeren bir bölgeyi bulmaktır.
k-ortalamalar Yöntemi (k-means method)
• K-ortalama algoritmasında ilk adım, k küme sayısının belirlenmesidir.

• k değeri belirlendikten sonra her bir kümeye gözlem değerleri atanır

• Böylece C1,C2,...,Ck kümeleri belirlenmiş olur.


k-ortalamalar Yöntemi (k-means method)
• K-ortalama algoritmasında aşağıdaki işlemler sırayla gerçekleştirilir:
k-ortalamalar Yöntemi (k-means method)
• örnek
• Aşağıdaki gözlem değerlerini göz önüne alalım. Bu gözlem değerlerine k-ortalamalar
yöntemini uygulayarak kümelemek istiyoruz.
k-ortalamalar Yöntemi (k-means method)
• Kümelerin sayısına başlangıçta k=2 biçiminde karar veriyoruz.

• Başlangıçta küme rastsal belirlenir:


• C1={X1,X2,X4}
• C2={X3,X5}
k-ortalamalar Yöntemi (k-means method)
k-ortalamalar Yöntemi (k-means method)
• 1. Adım:
• a) Belirtilen iki kümenin merkezleri şu şekilde hesaplanır:
k-ortalamalar Yöntemi (k-means method)
• 1. Adım:
• b) Küme içi değişmeler şu şekilde hesaplanır:

• Bu durumda toplam kare-hata şu şekilde hesaplanır:


k-ortalamalar Yöntemi (k-means method)
• 1. Adım:
• c) M1 ve M2 merkezlerinden olan uzaklıkların minimum olması istendiğinden Öklid
uzaklık formülü kullanılarak mesafeler hesaplanır.
• (M1,X1) noktaları arasındaki uzaklık, M1= {6.67,4.00 } ve X1={4,2} olduğuna göre şu
şekilde hesaplanır:

• Bu kez, M2= {8,4.5 } ve X1={4,2} olduğuna göre (M2,X1) uzaklığı şu şekilde bulunur:
k-ortalamalar Yöntemi (k-means method)
• 1. Adım:
• X1 gözlem değerinin M1 ve M2 merkezlerine olan uzaklıkları göz
önüne alındığında d(M1,X1)<d(M2,X1) olduğu görülür.
• Bu durumda M1 merkezinin X1 gözlem değerine daha yakın
olduğu anlaşılır.
• O halde X1 E C1 olarak kabul edilir.
k-ortalamalar Yöntemi (k-means method)
• 1. Adım:
• Benzer biçimde yukarıdaki işlemler tüm gözlem değerleri için
tekrarlanarak aşağıdaki tablo elde edilir.
k-ortalamalar Yöntemi (k-means method)
• 1. Adım:
• Bu durumda yeni kümeler şu şekilde olacaktır :
• C1={X1,X2,X3}
• C2={X4,X5}
k-ortalamalar Yöntemi (k-means method)
• 2. Adım:
• a) Bir önceki sayfada belirtilen iki kümenin merkezleri şu
şekilde hesaplanır:
k-ortalamalar Yöntemi (k-means method)
• 2. Adım:
• b) Küme içi değişmeler şu şekilde hesaplanır:

• Bu durumda toplam kare-hata şu şekilde hesaplanır:


k-ortalamalar Yöntemi (k-means method)
• 2. Adım:
• c) M1 ve M2 ve merkezlerinden gözlem değerlerine olan
uzaklıklar hesaplanır.

• X1 gözlem değerinin M1 ve M2 merkezlerine olan uzaklıkları göz


önüne alındığında d(M1,X1)<d(M2,X1) olduğu görülür.

• Bu durumda M1 merkezinin X1 gözlem değerine daha yakın


olduğu anlaşılır. O halde X1 E C1 olarak kabul edilir.
k-ortalamalar Yöntemi (k-means method)
• 2. Adım:
• Benzer biçimde yukarıdaki işlemler tüm gözlem değerleri için
tekrarlanarak aşağıdaki tablo elde edilir.
k-ortalamalar Yöntemi (k-means method)
• 2. Adım:
• Bu durumda yeni kümeler şu şekilde olacaktır:
• C1={X1,X2,X3}
• C2={X4,X5}
k-ortalamalar Yöntemi (k-means method)
• 3. Adım:
• Bu durumda yeni kümeler şu şekilde olacaktır:
• C1={X1,X2,X3}
• C2={X4,X5}

Şekil: Sonuç olarak elde edilen kümeler


k-ortalamalar Yöntemi (k-means method)
• Dezavantajları:
• Üretilen kümeler arasında kıyas yapmak zordur.
• Sabitlenmiş küme sayısı, küme sayısının tahminini zorlaştırır.
• Küresel olmayan veri setlerinde iyi çalışmaz.
• Farklı başlangıç bölümlemeleri ile farklı sonuç kümeleri elde edilir.
• Gürültülü veriye duyarlıdır.
k-ortalamalar Yöntemi (k-means method)

• K-ortalama algoritması aykırı değerlere duyarlıdır!


• K-Medoidler: Bir kümedeki nesnenin ortalama değerini referans
noktası olarak almak yerine, bir kümede en merkezi konumdaki
nesne olan medoidler kullanılabilir.
10 10

9 9

8 8

7 7

6 6

5 5

4 4

3 3

2 2

1 1

0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
k-ortalamalar Yöntemi (k-means method)

• K-medoids algoritmasının temeli verinin çeşitli yapısal


özelliklerini temsil eden k tane temsilci nesneyi bulma esasına
dayanır.

• En yaygın kullanılan k-medoids algoritması temsilci nesne


diğer nesnelere olan ortalama uzaklığı minimum yapan
kümenin en merkezi nesnesidir.

You might also like