You are on page 1of 4

Translated from English to Turkish - www.onlinedoctranslator.

com

Kümeleme temel olarak benzer veri noktalarını, aynı gruptaki noktaların diğer gruplardaki noktalardan
birbirine daha benzer olacak şekilde gruplandıran bir tekniktir. Benzer veri noktalarının oluşturduğu gruba
Küme adı verilir.

Herhangi bir denetimsiz algoritma için temel adım, verilerin kümelenebileceği optimum küme
sayısını belirlemektir. Denetimsiz öğrenmede önceden tanımlanmış sayıda kümemiz
olmadığından. En iyi küme sayısına karar vermemize yardımcı olabilecek bazı yöntemleri
kullanma eğilimindeyiz.

1. Bölümlü Kümeleme
Bölümlü kümeleme (veya bölümleme kümeleme), bir veri seti içindeki gözlemleri benzerliklerine
göre birden fazla gruba sınıflandırmak için kullanılan kümeleme yöntemleridir. Birbirine yakın
olan veri noktaları belirli sayıda küme/grup halinde gruplandırılır.

K-Kümeleme anlamına gelir

K-means, veri kümesini k farklı kümeye bölen, her veri noktasının en yakın merkeze sahip
kümeye ait olduğu merkez tabanlı bir kümeleme tekniğidir. Her küme, kümeye ait veri
noktalarının merkezi veya araçlarıyla temsil edilir.

Algoritmanın arkasındaki mantık, veri noktalarını önceden tanımlanmış farklı (K) kümelere
bölmektir; burada her kümedeki bir veri noktası yalnızca o kümeye ait olacaktır. Küme, birbiriyle
benzerlikleri paylaşan verilerden oluşacaktır; bu, farklı kümelerdeki veri noktalarının birbirine
benzemeyeceği anlamına gelir.
K-ortalamalı kümeleme algoritmasında k küme rastgele başlatılır ve bu k-merkezlerin denge
durumunda zenginleşmesine kadar yinelemeli olarak ayarlanırlar.

Dirsek Yöntemi, K-ortalamalı kümelemede optimal küme sayısını belirlemek için en yaygın
kullanılan tekniklerden biridir.

Dirsek yöntemi
Dirsek yöntemi, k-ortalamalı kümeleme algoritmasında en uygun K değerini bulmak için kullanılan
grafiksel bir yöntemdir. Dirsek grafiği, küme içi kareler toplamı (WCSS), yani bir kümedeki noktalar ile
küme merkezi arasındaki mesafenin karelerinin toplamı üzerinde çalışır.

Küme sayısını artırdıkça küme içi varyasyonun (Mesafelerin Kareleri Toplamı veya SSD olarak
da bilinir) veya WCSS'nin (Küme içi toplamının karesi) genellikle azaldığı sezgisine dayanır.
Ancak daha fazla küme eklemenin SSD'yi önemli ölçüde azaltmadığı bir nokta vardır.

Dirsek grafiği, x eksenindeki farklı K değerlerine karşılık gelen y eksenindeki WCSS


değerlerini gösterir. Grafikte bir dirsek şekli gördüğümüzde dirseğin oluştuğu K değerini
seçiyoruz. Buna dirsek noktası diyebiliriz. Dirsek noktasının ötesinde 'K' değerinin arttırılması
WCSS'de önemli bir azalmaya yol açmaz.

Küme sayısı arttıkça WCSS değeri düşmeye başlayacaktır. WCSS değeri K=1 olduğunda en büyük
olur. Grafiği incelediğimizde WCSS'deki değişimin K=3'te sabitlenmeye başladığını ve daha yavaş
azaldığını, dolayısıyla bir dirsek şekli oluştuğunu görebiliriz. Bu noktadan itibaren grafik X
eksenine neredeyse paralel hareket eder. Bu nedenle K=3 optimal küme sayısıdır.
Hiyerarşik kümeleme
Bu yöntem hiyerarşiye dayalı kümeler oluşturmayı amaçlamaktadır. Kümeler görsel olarak
dendrogram adı verilen hiyerarşik bir ağaçta temsil edilir. Genel olarak iki tür kümelenme stratejisi
vardır: Aglomeratif ve Bölücü

• Aglomeratif: Başlangıçta her nesne kendi kümesi olarak kabul edilir. Belirli bir
prosedüre göre kümeler, tek bir küme kalana kadar adım adım birleştirilir. Küme
birleştirme işlemi sonunda tüm unsurları içeren bir küme oluşacaktır.

• bölücü: Bölücü yöntem Aglomeratif yöntemin tam tersidir. Başlangıçta tüm nesneler
tek bir kümede ele alınır. Daha sonra her nesne farklı bir küme oluşturana kadar
adım adım bölme işlemi gerçekleştirilir. Küme bölme veya bölme işlemi, kümedeki
komşu nesneler arasındaki maksimum mesafeyi belirleyen bazı prensiplere göre
gerçekleştirilir.

Ward'ın Toplayıcı Hiyerarşik Kümelenmesi


Ward yaklaşımı, mesafeleri doğrudan ölçmek yerine kümelerin varyansını analiz ederek kümeler
arasındaki varyansı en aza indirir.

Ward yönteminde iki küme arasındaki mesafe, birleştirildiğinde kareler toplamı (SS)
değerinin ne kadar artacağı ile ilgilidir. Başka bir deyişle Ward yöntemi, noktaların küme
merkezlerine olan uzaklıklarının karelerinin toplamını en aza indirmeye çalışır.

Dendrogram
Hiyerarşik kümelemenin tek konsepti, bir dendrogramın oluşturulması ve analizinde
yatmaktadır. Dendrogram, sistemdeki tüm veri noktaları arasındaki ilişkiyi açıklayan ağaca
benzer bir yapıdır.
Bazı metriklerde kümeler arasındaki mesafeyi temsil eder. Bir yolda ilerledikçe, ayrıntı düzeyiniz
veri örneğine ulaşana kadar kümeleri giderek daha küçük birimlere ayırmaya devam edersiniz.
Tam tersi durumda, yukarı yönde hareket ettiğinizde, her düzeyde, tüm sisteme ulaşıncaya kadar
daha küçük kümeleri daha büyük kümelere dahil edersiniz. Sonuç olarak hiyerarşik kümeleme,
kümelemenin kümelenmesi olarak da bilinir.

Hiyerarşik kümelemede dendrogramı oluştururken küme sayısına ilişkin herhangi bir


varsayımda bulunmayız. Dendrogram oluşturulduktan sonra bu yapıyı yatay olarak
dilimleriz. Yatay kesimin altında oluşan sonuçta ortaya çıkan tüm alt dallar, sisteminizdeki en
yüksek düzeydeki bireysel bir kümeyi temsil eder ve her veri örneği için ilgili küme üyeliğini
tanımlar.

You might also like