Professional Documents
Culture Documents
Bu hafta
Kümeleme (Clustering)
Gözetimsiz (Unsupervised) öğrenme
Neden Kümeleme?
Hiyerarşik Kümeleme
k-Ortalamalar yöntemi
Giriş
• Müşteri İlişkileri Direktörü olduğunuzu ve sizin için çalışan beş yöneticiniz olduğunu
hayal edin.
• Her grubun farklı bir yöneticiye atanabilmesi için şirketin tüm müşterilerini beş gruba
ayırmak istiyorsunuz.
• Stratejik olarak, her gruptaki müşterilerin mümkün olduğunca benzer olmasını istersiniz.
• Ayrıca, çok farklı iş modellerine sahip belirli iki müşteri aynı gruba yerleştirilmemelidir.
• Amacınız, paylaşılan ortak özelliklere dayalı olarak her bir gruba özel kampanyalar
geliştirmek.
Giriş
• Böyle bir problemde sınıflandırmanın (classification) aksine, her müşterinin sınıf
etiketi (veya grup kimliği) bilinmemektedir.
• Çok sayıda müşteri ve müşteri profillerini tanımlayan birçok özellik göz önüne
alındığında, manuel verilerin incelenmesi, gruplara ayırma çok maliyetli veya hatta
imkansız olabilir.
• Tanımlayıcı (Descriptive)
• Gözetimsiz (Unsupervised) öğrenme = Kümeleme (clustering)
• Hangi nesnenin hangi sınıfa ait olduğu ve sınıf sayısı belli değil
Kümeleme (Clustering)
• Denetimsiz Öğrenme (Unsupervised Learning)
• Denetimsiz öğrenme, verilerdeki gizli kalıpları veya iç yapıları bulur.
• Etiketli yanıtlar olmaksızın girdi verilerinden çıkarımlar yapmak için
kullanılır.
• Kümeleme (clustering), en yaygın kullanılan denetimsiz öğrenme
tekniğidir.
• Örnek uygulamalar:
Gen dizisi analizi,
Pazar araştırması,
Nesne tanıma vb.
Kümeleme (Clustering)
• Kümeleme analizi (cluster analysis), verileri birbirleriyle benzer alt kümelere
ayırma işlemi olarak bilinmektedir.
• Küme (demet), birbirine benzeyen nesnelerden oluşan gruplardır.
• Bu çalışmada, Diyabet tanısı için yüksek hassasiyetli hibrit bir yöntem önerilmiştir .
Deep learning-based clustering approaches for bioinformatics
Briefings in Bioinformatics
2020
• En yakın komşu yöntemine (nearest neighbor method) “tek bağlantı kümeleme” adı
da verilmektedir.
• Başlangıçta tüm gözlem değerleri birer küme olarak değerlendirilir.
• Adım adım bu kümeler birleştirilerek yeni kümeler elde edilir.
• Bu yöntemde öncelikle gözlemler arasındaki uzaklıklar belirlenir.
• i ve j gözlemleri arasındaki uzaklıkların belirlenmesinde Öklid uzaklık bağıntısı
kullanılabilir:
En Yakın Komşu Algoritması
• Tek bir gözlemden oluşan kümeler arasındaki uzaklıkları Öklid ile doğrudan
hesaplayabiliriz.
• İki kümenin içerdiği gözlemler arasında birbirine en yakın olanların uzaklığı iki
kümenin birbirine olan uzaklığı olarak kabul edilir.
En Yakın Komşu Algoritması
• Örnek
En Yakın Komşu Algoritması
• 3. Adım:
• Uzaklıklar tablosu incelendiğinde Mind(i,j)=2.24 olduğu görülür.
• O halde bu değerin ilgili olduğu 4 ve 5 gözlemleri birleştirilerek bir küme
oluşturacaktır.
En Yakın Komşu Algoritması
• 3. Adım:
• Elde edilen (1,3) kümesinin diğer (1,3) kümesi ve 2 gözlemi ile olan uzaklıklarını
belirlemek gerekiyor.
• Aşağıdaki şekil üzerinde görüldüğü gibi, (4,5) kümesi ile 2 numaralı gözlem
arasındaki en küçük mesafe 4.47 olduğundan bu mesafe uzaklık tablosunda göz
önüne alınır.
En Yakın Komşu Algoritması
• 3. Adım:
• Benzer biçimde (4,5) kümesi ile (1,3) kümesi arasındaki en küçük uzaklık olan 7.07
değeri tabloda yer alır.
En Yakın Komşu Algoritması
• 3. Adım:
• Bu durumda uzaklık tablosu aşağıda belirtilen biçimi alır:
En Yakın Komşu Algoritması
• 4. Adım:
• En son uzaklıklar tablosu incelendiğinde Mind(i,j)=2.83 olduğu görülür.
• O halde bu uzaklık ile ilgili olan 2 gözlemi ile (1,3) kümesi birleştirilecektir.
• Elde edilen (1,2,3) kümesi ile (4,5) kümesi arasındaki uzaklık için kümeler içindeki en
küçük uzaklık belirlenir.
• En küçük uzaklık 4.47 olarak belirlenir.
En Yakın Komşu Algoritması
• 4. Adım:
• Yeni uzaklık değerini de içeren uzaklıklar tablosu şu şekildedir:
En Yakın Komşu Algoritması
• 5. Adım:
• Elde edilen iki küme birleştirilerek sonuç küme elde edilir.
• Bu küme (1,2,3,4,5) gözlemlerinden oluşan kümedir.
• Uzaklık düzeyi göz önüne alınarak kümeler şu şekilde belirlenmiştir:
En Yakın Komşu Algoritması
• 5. Adım:
• Kümeleme ile ilgili dendogram ise aşağıda belirtildiği biçimdedir.
En Uzak Komşu Algoritması
• Ancak bu kez kümeler arasındaki uzaklık belirlenirken, iki kümenin birbirine en uzak
olan elemanları arasındaki mesafe, iki küme arasındaki uzunluk olarak tayin edilir.
En Uzak Komşu Algoritması
• Örnek
• Gözlem değerleri.
En Uzak Komşu Algoritması
• 1. Adım:
• Öklid uzaklıkları:
En Uzak Komşu Algoritması
• 1. Adım:
• Bu durumda gözlemlere ilişkin uzaklıklar matrisi şu şekilde
olacaktır:
En Uzak Komşu Algoritması
• 2. Adım:
• Yeni elde edilen kümeye göre uzaklıklar matrisini yeniden gözden
geçirmemiz gerekmektedir.
• (1,4) kümesi ile diğer gözlemler arasındaki uzaklıkları belirlememiz
söz konusudur.
• İlgili küme elemanları ile diğer gözlemler eşlenir, birbirine en uzak
olan gözlemler ile olan uzaklıklar belirlenir.
En Uzak Komşu Algoritması
• 2. Adım:
• (1,4) kümesi ile 2 numaralı gözlem arasındaki en büyük uzaklık
olan 6.71;
• 3 numaralı gözlem ile arasındaki en büyük uzaklık olan 5.39 ve
• 5 numaralı gözlem ile arasındaki en büyük uzaklık olan 2.24
değerleri yeni uzaklık değerleri olarak alınır.
• Bu durumda yeni uzaklıklar tablosu şu şekli alır:
En Uzak Komşu Algoritması
• 3. Adım:
• Uzaklıklar tablosu incelendiğinde Mind(i,j)=1.41 olduğu görülür.
• O halde bu değerin ilgili olduğu 2 ve 3 gözlemleri birleştirilerek bir
küme oluşturacaktır.
En Uzak Komşu Algoritması
• 3. Adım:
• Elde edilen (2,3) kümesinin diğer (1,4) kümesi ve 5 gözlemi ile olan
uzaklıklarını belirlemek gerekir.
• (2,3) kümesi ile 5 numaralı gözlem arasındaki en uzak mesafe 8.60
olduğundan bu mesafe uzaklık tablosunda göz önüne alınır.
• Benzer biçimde (1,4) kümesi ile (2.3) kümesi arasındaki en uzak
mesafe olan 6.71 değeri tabloda yer alır.
En Uzak Komşu Algoritması
• 3. Adım:
• Bu durumda uzaklık tablosu aşağıda belirtilen biçimi alır:
En Uzak Komşu Algoritması
• 4. Adım:
• Uzaklıklar tablosu incelendiğinde Mind(i,j)=2.24 olduğu görülür.
• O halde bu uzaklık ile ilgili olan 5 gözlemi ile (1,4) kümesi
birleştirilecektir.
• Elde edilen (1,4,5) kümesi ile (2,3) kümesi arasındaki uzaklığı
belirlemek için kümeler içindeki her bir değeri eşleştirilir ve
aralarında en büyük olan belirlenir.
En Uzak Komşu Algoritması
• 4. Adım:
• En büyük uzaklık 8.60 olduğuna göre söz konusu iki küme
arasındaki uzaklık olarak bu değer belirlenmiş olur.
En Uzak Komşu Algoritması
• 4. Adım:
• Yeni uzaklık değerini de içeren uzaklıklar tablosu şu şekildedir:
En Uzak Komşu Algoritması
• 5. Adım:
• Elde edilen iki küme birleştirilerek sonuç küme elde edilir. Bu
küme (1,2,3,4,5) gözlemlerinden oluşan kümedir. Uzaklık düzeyi
göz önüne alınarak kümeler şu şekilde belirlenmiştir:
En Uzak Komşu Algoritması
• 5. Adım:
• Kümeleme ile ilgili dendogram ve kümeler ise aşağıda
belirtildiği biçimdedir.
Hiyerarşik Olmayan Kümeleme
• k-ortalamalar Yöntemi
• Hiyerarşik olmayan kümeleme yöntemleri arasında k-ortalamalar (k-means
method) yöntemi önem taşır ve yaygın biçimde kullanılır.
• Bu yöntemde, daha başlangıçta belli sayıdaki küme içim toplam ortalama
hatayı minimize etmek amaçlanır.
k-ortalamalar Yöntemi (k-means method)
• N boyutlu uzayda N örnekli kümlerin verildiğini varsayalım.
• Bu uzay {C1,C2,...,Ck} biçiminde K kümeye ayrılsın.
• O zaman Snk=N (k=1,2,..,k) olmak üzere Ck kümesinin ortalama vektörü Mk şu
şekilde hesaplanır:
• Bu kez, M2= {8,4.5 } ve X1={4,2} olduğuna göre (M2,X1) uzaklığı şu şekilde bulunur:
k-ortalamalar Yöntemi (k-means method)
• 1. Adım:
• X1 gözlem değerinin M1 ve M2 merkezlerine olan uzaklıkları göz
önüne alındığında d(M1,X1)<d(M2,X1) olduğu görülür.
• Bu durumda M1 merkezinin X1 gözlem değerine daha yakın
olduğu anlaşılır.
• O halde X1 E C1 olarak kabul edilir.
k-ortalamalar Yöntemi (k-means method)
• 1. Adım:
• Benzer biçimde yukarıdaki işlemler tüm gözlem değerleri için
tekrarlanarak aşağıdaki tablo elde edilir.
k-ortalamalar Yöntemi (k-means method)
• 1. Adım:
• Bu durumda yeni kümeler şu şekilde olacaktır :
• C1={X1,X2,X3}
• C2={X4,X5}
k-ortalamalar Yöntemi (k-means method)
• 2. Adım:
• a) Bir önceki sayfada belirtilen iki kümenin merkezleri şu
şekilde hesaplanır:
k-ortalamalar Yöntemi (k-means method)
• 2. Adım:
• b) Küme içi değişmeler şu şekilde hesaplanır:
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
k-ortalamalar Yöntemi (k-means method)