sıralamaya tabi değildir, düz bir küme yapısındagösterilebilir. Sıralı örüntü madenciliğinden farklı olaraksepet-müşteri ilişkisi bulunmamaktadır, sık nesne kümelerimadenciliği için önemli olan herhangi bir satın almaişleminin kendisidir. İşlemlerin sırası ve dolayısıyla hangimüşteriye ait oldukları önemsizdir.Herhangi bir
e
elemanının veri tabanında bulunduğu sepetsayısına “destek” değeri denmektedir. Çıkacak sonuç sayısınıazaltmak için belirli bir minimum destek değeri kullanılaraksepet elemanlarından destek değeri bu eşik değerin üstündeolanlar dikkate alınmaktadır. Buna göre eşik değerin üstündedestek değerlerine sahip olan nesne kümeleri
sık nesnekümeleri
olarak adlandırılırlar.Yukarıdaki tabloyu veri tabanımız olarak alırsak veminimum destek değerini iki kabul edersek sık nesnekümelerimiz ve destek değerleri şu şekilde çıkar:
{ ekmek : 3 }, { süt : 2 }, { su : 2 }, { bisküvi : 2 },{ gazete : 2 }.{ ekmek, su : 2 }, { bisküvi, süt : 2 }.
Parantezlerin içindeki rakam parantez içerisinde bulunannesnelerin birlikte destek değerini vermektedir. Örneğin{ ekmek, süt : 2 } değeri bize ekmek ve süt'ün birlikteolduğu sepetlerin sayısının 2 olduğunu söylemektedir.Bazen destek değerleri yüzde olarak veri tabanındaki işlemsayısına oranlanarak verilir. Burada 2 olarak görünen destekdeğeri bu şekilde verildiğinde 2 / 5, yani %40'lık bir desteğiifade eder.Destek değerinin büyük olması bir nesne kümesinin sıkolarak veri tabanında geçtiğini gösterir. Bunun yanında,destek değerlerinde görülen doğal bir özellik de nesne sayısıarttıkça destek değerinin ya aynı kaldığı ya da azaldığıdır.Buradan, ilk olarak Pasquier ve diğerleri tarafından ortayaatılan [6]
kapalı sık nesne kümeleri
nin tanımına geçebiliriz.
Tanım 1.
Kapalı sık nesne kümeleri
, herhangi bir altkümesi aynı destek değerine sahip olmayan sık nesnekümeleridir. Bu kümelerin önemi kapsayıcı olmalarından vesonucu büyük ölçüde sıkıştırmalarından gelir.
Örnek 1.
Tablomuza geri dönecek olursak, kapalı sıknesne kümelerimiz şöyle bulunurdu:
{ ekmek : 3 }, { gazete : 2 }, { bisküvi, süt : 2 }, { ekmek,su : 2 }.
Görüldüğü üzere nesne kümelerinin sayısı azaldı,“bisküvi”, “su” ve “süt” nesneleri daha geniş nesne kümeleritarafından aynı destek değeri ile kapsandıkları içinbudandılar ve sonuçtan çıkarıldılar. Kapalı sık nesnekümelerinden sık nesne kümelerine erişilebileceğine dikkatediniz. { bisküvi, süt : 2 } kümesinden hem { bisküvi : 2 }hem de { süt : 2 } çıkarılabilir. Hem daha az yer kaplaması,hem de cevabın tamamını kapsaması nedeniyle kapalı sıknesne kümeleri son yıllardaki araştırmaların temel sonuçifade biçimi haline geldiler.
3. CLOSET+ algoritması
Agrawal ve diğerleri [1] ilişkisel kural madenciliğiaraştırmalarının yolunu açan makalelerini yayınladıklarındaalgoritmalarını ikiye bölmüşlerdi: sık nesne kümelerininçıkarılması ve bundan yola çıkarak ilişkisel kurallarınbulunması. Bu teknik halen büyük ölçüde kullanılmaktadır.Yeni algoritmalar ortaya çıktıklarında, eskiye oranla gelişimiçin kullandıkları en önemli tekniklerden biri problemingösteriliş biçimi oldu. Veri tabanları çeşitli şekillerdegösterilmeye başlandı (dikey format bunlardan biri), sorunfarklı çözüm uzaylarına aktarılmaya çalışıldı. Bunlardan endikkat çeken gelişmelerden biri küme biçimi ile sunulanproblemin zaman geçtikçe ağaç ve sonra da çizge (graph)yapılarına dönüşmesi, sorun düzleminin matematiğin dahageniş ifade gücü bulunan alanlarına kaydırılması oldu.CLOSET+ algoritması da bu evrimden ayrı bir yöndeilerlememiştir. Hem veri tabanının biçimi hem de çözüm içinkullanılan araç uzayı ilk kullanılan küme yapılarındanoldukça gelişmiştir. Veri tabanı temel olarak bir ağaçşeklinde tutulmakta, çözüm bulunurken çizge algoritmalarıile veri üzerinde gezinilmekte ve madencilik yapılmaktadır.İleriki bölümlerde paralel CLOSET+ anlatılmadan öncebu bölümde algoritmanın seri halinin özetlenmesi faydalıolacaktır.
3.1.Kapalı sık nesne kümelerinin hızlı bir şekildebulunması: CLOSET+
CLOSET+ algoritması ilk olarak Pei ve diğerleritarafından önerilen CLOSET algoritmasına [7] iyileştirmeleryapılarak Wang ve diğerleri tarafından [4] yayınlanmıştır.Kullanılan veri saklama biçimi olan fp-tree (sık örüntüağacı) şekli, veri tabanını oldukça büyük miktarlardasıkıştırabilmesi nedeniyle tercih edilmiştir. Fp-tree biçimiözellikle yoğun veri tabanlarında büyük sıkıştırma oranlarısağlamakta, algoritma da özellikle bu tür verilerde hızlıçalışmaktadır. CLOSET+ algoritması esas olarak iki fazdanoluşmaktadır. İlk fazda veri tabanı sıkıştırılıp fp-tree inşaedildikten sonra asıl veri madenciliği ikinci fazda ağaçüzerinde gezinerek yapılmaktadır. Bundan sonraki ikibölümde bu iki faz kısaca açıklanacaktır.
3.2.İlk faz: fp-tree'lerin inşası
İlk fazın amacı veri tabanını sıkıştırmak ve böylece belkibelleğe sığabilecek büyüklüğe indirmek, ve aynı zamandaüzerinde işlem yapabilmeyi kolaylaştırmaktır. Fp-tree yapısıönek (prefix) ağaç yapısı şeklindedir, yani benzer nesneleriiçeren nesne kümeleri bu ağaçta aynı ana dal üzerindebulunurlar. Ağaçtaki uçlar nesneleri temsil ederler ve uçlardaaynı zamanda destek değerleri de bulunur. Destek değerlerikökten bir uca kadar inildiğinde rastlanan nesnelerin birliktebulunma destek değerleridir. Kökten aşağıya inildikçe nesnekümeleri ortak uçları paylaşırlar, dolayısıyla nesnelerinfarklı kümelerde tekrarlanması azaltılmış olur. Sonuçözellikle yoğun verilerde çok büyük sıkıştırma oranlarıdır.Fp-tree yapıları oluşturulurken atılan adımlar şunlardır:1.Veri tabanı bir kez taranır, her nesnenin destekdeğeri bulunur.2.Destek değeri eşik değerin altında olan nesnelerveri tabanından atılır.3.Destek değerleri sıralanır ve bu temel alınarak veritabanındaki nesne listeleri destek değerleriartandan azalana doğru olmak üzere sıralanır.4.Sıralı nesne listeleri ağaca yerleştirilir.Ağaca yerleştirme işlemi sırasında nesnelerin ilk olarakhangi uca yerleştirildiği bilgisi bir işaretçi dizisi ile başlıktablosunda saklanmaktadır. Bunun yanında aynı nesne tekrarbaşka bir ağaç ucu olarak yerleştirildiğinde bir önceki uçtanbir işaretçi ile bağlantı sağlanmaktadır. Yani, herhangi birnesnenin ağaçta hangi uçlarda olduğu bilgisi hızlı bir şekildeerişilebilir şekilde saklanmaktadır.
Leave a Comment