ifadesinde
A
bir doküman matrisi,
a
ik
ise dokümanlar topluluğundaki her kelimenin içinde bulunduğu bir sözlükte,
i
numaralı sırada bulunan kelimenin,
k
numaralı dokümandaki ağırlığını belirtir. Bu yöntemmodern bilgi erişiminin babası olarak kabul edilen Gerard Salton tarafından bilim dünyasınasunulmuştur (Bolat 2003).Metin sınıflama sistemleri bir dokümana ait kelimelerin frekanslarını kullanarak çalışır. Eğitim kümesielemanlarından çeşitli ağırlıklar bulur ve bu ağırlıkları sisteme yeni giren dokümanların kategorilerinibulmakta kullanır. Vektör uzayı modelinde, yazılışları aynı fakat farklı anlamlara gelen kelimelerinsorun yaratabileceği fikri akla gelebilir. Mesela “yüz” kelimesi, “yüzme”, “100” veya “insan yüzü”anlamlarında kullanılmış olabilir. Bu sorun metin sınıflama tekniklerinde ortadan kalkar. Bunun sebebi;sistem, ağırlıkları belirlerken, gerekirse “yüz” kelimesinin ağırlığını düşürür ve diğer kelimelerinağırlıklarını arttırır.
3.1.6 Boyut Küçültme
Her kelime, her dokümanda geçmediği için, yukarıda
A
ile gösterilen matris genellikle seyrek matristir.Matristeki satır sayısı
M
, sözlükteki kelime sayısına eşit olduğu için
M
çok büyük bir sayı olabilir. Bu damatrisin büyümesine ve işlemler sırasında gereksiz zaman ve iş kaybı anlamına gelir. Bu problemiaşmak için farklı algoritmalar uygulanabilir (Bolat 2003).
3.1.6.1 Özellik Seçimi
Bütün boyut küçültme algoritmalarında, tüm dokümanlardaki kelimeler bir sözlüğün içinde toplanır.Daha sonra küçültme algoritmalarından çıkan sonuçlara göre bu sözlükten bazı kelimeler çıkarılır.Eldeki dokümanlar tekrar gözden geçirilerek sadece sözlükte bulunan kelimeler kullanılır.
3.1.6.2 Doküman Frekans Eşikleme
Bir kelimenin doküman frekansı, o kelimenin geçtiği doküman sayısıdır. Doküman frekans eşikleme,sözlükteki her kelimenin doküman frekansını bulur ve belirli bir sayının altında doküman frekansınasahip olan kelimeleri sözlükten çıkarır. Bu yöntem, belirli bir sayı altında dokümanda geçen kelimelerinkümede belirleyici bir role sahip olmadığı ve kategori belirlemede yetersiz olduğu fikrine dayanır(Bolat2003).
3.1.6.3 Bilgi Kazanımı Yöntemi
Bu yöntem, her kelimenin, varlığının ve yokluğunun, kategori seçimi üzerindeki etkilerine dayanır.c
1
...c
K
dokümanın ait olabileceği muhtemel kategoriler olsun. Kelime
w
’nin bilgi kazanımı değeri
IG(w,)
aşağıdaki formül ile bulunur.
26
Add a Comment