Professional Documents
Culture Documents
ELECO2012 Sunu 27
ELECO2012 Sunu 27
Metin Madenciliği
Türkçe Metinlerin Kümelenmesinde
Farklı Kök Bulma Yöntemlerinin Metin Kümeleme
Üretilen ve depolanan bilgi miktarında büyük bir artış Metin Madenciliğinin önemli bir dalıdır.
yaşanmaktadır. Doküman Kümeleme olarak da bilinir.
Özellikle metin biçimindeki bilgi miktarında Doküman koleksiyonlarının doküman benzerliklerine
bağlı olarak gözetimsiz ve otomatik biçimde gruplara
Haberler, makaleler, e-posta iletileri, ağ sayfaları, sosyal
ayrılmasıdır.
medya iletileri, kitaplar, sayısal kütüphaneler vs.
Aynı küme içerisindeki dokümanlar benzer bir konuda
“Bilgi Patlaması” veya “Bilgi Taşması” olurken, farkı kümelerdeki dokümanlar farklı konularda
içeriğe sahiptir.
“Bilgi patlaması” sorunuyla başedebilmek için etkili
Çok büyük miktarda metin halindeki verinin otomatik
ve verimli araçlar/teknikler gereklidir. olarak işlenmesi ve organize edilmesinde yararlıdır.
29.11.2012 / BURSA ELECO 2012 3/23 29.11.2012 / BURSA ELECO 2012 4/23
Metin dokümanları genellikle doğal dil Metin madenciliğinde sık kullanılan önişleme
kullanılarak oluşturulurlar. yöntemleri:
Yapısal değildir! Dizgeciklere ayırma (tokenization)
Bu nedenle metinler üzerinde veri madenciliği Durak sözcük filtreleme (stopword filtering)
teknikleri doğrudan uygulanamaz. Kök bulma (stemming)
Yapısal olmayan bu ham haldeki veriyi yapısal Terim ağırlıklandırma (term weighting)
29.11.2012 / BURSA ELECO 2012 5/23 29.11.2012 / BURSA ELECO 2012 6/23
1
Kök Bulma Yöntemleri – 1/3 Kök Bulma Yöntemleri – 2/3
Kök Bulma, sözcükleri basit/temel hallerine İngilizce için Porter algoritması en yaygın kural
çevirme işlemidir. Örneğin: tabanlı kök bulma yöntemidir.
Çoğul eki vb. eklerin isimlerden atılması: Türkçe için bu çalışmamızda 3 farklı yöntem
kitaplar kitap kullanılmıştır:
kitaptan kitap
Zemberek
Fiil çekim eklerinin fiillerden atılması
Ek Çıkaran (Affix Stripping)
okuyor oku
Sabit Önek (Fixed Prefix / Word Truncation)
okuduğu oku
29.11.2012 / BURSA ELECO 2012 7/23 29.11.2012 / BURSA ELECO 2012 8/23
29.11.2012 / BURSA ELECO 2012 9/23 29.11.2012 / BURSA ELECO 2012 10/23
29.11.2012 / BURSA ELECO 2012 11/23 29.11.2012 / BURSA ELECO 2012 12/23
2
Kök Bulma Yöntemleri Önişleme Aracı
29.11.2012 / BURSA ELECO 2012 13/23 29.11.2012 / BURSA ELECO 2012 14/23
0,2
Tüm veri setlerinde k=5, 10, 20 olarak 0,1
0,0
çalıştırılmıştır. Kök Zemberek Ek Sabit Sabit Sabit
Bulma Çıkaran Önek 3 Önek 5 Önek 7
Yok
29.11.2012 / BURSA ELECO 2012 15/23 29.11.2012 / BURSA ELECO 2012 16/23
1,0 1,0
0,9 0,9
0,8 0,8
0,7 0,7
Saflık Saf lık
0,6 0,6
Entropi Entropi
0,5 0,5
N.Ortak Bilgi N.Ortak Bilgi
0,4 0,4
F-Ölçütü F-Ölçütü
0,3 0,3
0,2 0,2
0,1 0,1
0,0 0,0
Kök Zemberek Ek Sabit Sabit Sabit Kök Zemberek Ek Sabit Sabit Sabit
Bulma Çıkaran Önek 3 Önek 5 Önek 7 Bulma Çıkaran Önek 3 Önek 5 Önek 7
Yok Yok
29.11.2012 / BURSA ELECO 2012 17/23 29.11.2012 / BURSA ELECO 2012 18/23
3
Deneysel Sonuçlar – 4/6 Deneysel Sonuçlar – 5/6
NTV k=5 NTV k=10
0,8 0,8
0,7 0,7
0,6 0,6
Saf lık 0,5 Saf lık
0,5
Entropi Entropi
0,4 0,4
N.Ortak Bilgi N.Ortak Bilgi
0,3 0,3 F-Ölçütü
F-Ölçütü
0,2 0,2
0,1 0,1
0,0 0,0
Kök Zemberek Ek Sabit Sabit Sabit Kök Zemberek Ek Sabit Sabit Sabit
Bulma Çıkaran Önek 3 Önek 5 Önek 7 Bulma Çıkaran Önek 3 Önek 5 Önek 7
Yok Yok
29.11.2012 / BURSA ELECO 2012 19/23 29.11.2012 / BURSA ELECO 2012 20/23
0,1
Kök bulma uygulanması doküman-terim matrisinin
boyutunda %50-75 oranında indirgeme sağlamıştır
0,0
Kök Zemberek Ek Sabit Sabit Sabit Zemberek ve Sabit Önek 5
Bulma Çıkaran Önek 3 Önek 5 Önek 7
Yok
29.11.2012 / BURSA ELECO 2012 21/23 29.11.2012 / BURSA ELECO 2012 22/23
Teşekkürler
Sorularınız?