You are on page 1of 4

Genel Bakış

 Metin Madenciliği
Türkçe Metinlerin Kümelenmesinde
Farklı Kök Bulma Yöntemlerinin  Metin Kümeleme

Etkisinin Araştırılması  Metin Önişleme Yöntemleri


 Kök Bulma Yöntemleri
Volkan TUNALI & T. Tugay BİLGİN  Deney Düzeneği
Maltepe Üniversitesi  Deneysel Sonuçlar
 Sonuç ve Değerlendirme

29.11.2012 / BURSA ELECO 2012 2/23

Metin Madenciliği Metin Kümeleme

 Üretilen ve depolanan bilgi miktarında büyük bir artış  Metin Madenciliğinin önemli bir dalıdır.
yaşanmaktadır.  Doküman Kümeleme olarak da bilinir.
 Özellikle metin biçimindeki bilgi miktarında  Doküman koleksiyonlarının doküman benzerliklerine
bağlı olarak gözetimsiz ve otomatik biçimde gruplara
 Haberler, makaleler, e-posta iletileri, ağ sayfaları, sosyal
ayrılmasıdır.
medya iletileri, kitaplar, sayısal kütüphaneler vs.
 Aynı küme içerisindeki dokümanlar benzer bir konuda
 “Bilgi Patlaması” veya “Bilgi Taşması” olurken, farkı kümelerdeki dokümanlar farklı konularda
içeriğe sahiptir.
 “Bilgi patlaması” sorunuyla başedebilmek için etkili
 Çok büyük miktarda metin halindeki verinin otomatik
ve verimli araçlar/teknikler gereklidir. olarak işlenmesi ve organize edilmesinde yararlıdır.

29.11.2012 / BURSA ELECO 2012 3/23 29.11.2012 / BURSA ELECO 2012 4/23

Metin Önişleme Yöntemleri – 1/2 Metin Önişleme Yöntemleri – 2/2

 Metin dokümanları genellikle doğal dil  Metin madenciliğinde sık kullanılan önişleme
kullanılarak oluşturulurlar. yöntemleri:
 Yapısal değildir!  Dizgeciklere ayırma (tokenization)

 Bu nedenle metinler üzerinde veri madenciliği  Durak sözcük filtreleme (stopword filtering)
teknikleri doğrudan uygulanamaz.  Kök bulma (stemming)

 Yapısal olmayan bu ham haldeki veriyi yapısal  Terim ağırlıklandırma (term weighting)

biçime dönüştürmek için önişleme uygulanır.

29.11.2012 / BURSA ELECO 2012 5/23 29.11.2012 / BURSA ELECO 2012 6/23

1
Kök Bulma Yöntemleri – 1/3 Kök Bulma Yöntemleri – 2/3

 Kök Bulma, sözcükleri basit/temel hallerine  İngilizce için Porter algoritması en yaygın kural
çevirme işlemidir. Örneğin: tabanlı kök bulma yöntemidir.
 Çoğul eki vb. eklerin isimlerden atılması:  Türkçe için bu çalışmamızda 3 farklı yöntem
 kitaplar  kitap kullanılmıştır:
 kitaptan  kitap
 Zemberek
 Fiil çekim eklerinin fiillerden atılması
 Ek Çıkaran (Affix Stripping)
 okuyor  oku
 Sabit Önek (Fixed Prefix / Word Truncation)
 okuduğu  oku

29.11.2012 / BURSA ELECO 2012 7/23 29.11.2012 / BURSA ELECO 2012 8/23

Kök Bulma Yöntemleri – 3/3 Deney Düzeneği


 Bu çalışmamızda kullanılan kök bulma yöntemlerinden örnekler:
 Veri Setleri
Sözcük Zemberek Ek Çıkaran Sabit Önek 5  Kümeleme Kalitesi Ölçütleri
emekliliğe emek emeklilik emekl
ayrılan ayrıl ayrıla ayrıl
 Kök Bulma Yöntemleri
bağlandığı bağ bağlandık bağla  Önişleme Aracı
kapatması kapat kapatmas kapat
 Kümeleme Algoritması
yılı yıl yıl yılı
toplantısında toplantı toplantı topla
ödemelerden öde ödeme ödeme
kurabilmesine kur kurabilme kurab

29.11.2012 / BURSA ELECO 2012 9/23 29.11.2012 / BURSA ELECO 2012 10/23

Veri Setleri Kümeleme Kalitesi Ölçütleri

 Milliyet  NTV  Saflık (Purity)


 3 kategoriden  9 kategoriden
 Entropi (Entropy)
 1.455 haber metni  19.476 haber metni
 Normalize Ortak Bilgi (Normalized Mutual
Doküman-Terim Matrisi Boyutu Doküman-Terim Matrisi Boyutu Information)
Kök Bulma Yok 19.759 Kök Bulma Yok 85.008  F-Ölçütü (F-Measure)
Zemberek 7.273 Zemberek 23.498
Ek Çıkaran 12.459 Ek Çıkaran 39.814
Sabit Önek 5 7.971 Sabit Önek 5 18.570

29.11.2012 / BURSA ELECO 2012 11/23 29.11.2012 / BURSA ELECO 2012 12/23

2
Kök Bulma Yöntemleri Önişleme Aracı

 Zemberek  Geliştirdiğimiz PRETO aracı kullanılmıştır


 Ek Çıkaran  Durak sözcük filtreleme

 Sabit Önek 3  İstatistiksel terim filtreleme


 Kök bulma
 Sabit Önek 5
 TFIDF terim ağırlıklandırma
 Sabit Önek 7
 code.google.com/p/preto adresinde GPL
lisansı ile açık kaynak

29.11.2012 / BURSA ELECO 2012 13/23 29.11.2012 / BURSA ELECO 2012 14/23

Kümeleme Algoritması Deneysel Sonuçlar – 1/6


Milliyet k=5

 Küresel (Spherical) K-Means 1,0

 Klasik K-Means algoritmasının özelleştirilmiş 0,9


0,8

bir çeşitlemesidir. 0,7


Saf lık
0,6
Entropi
 Çok boyutlu metin veri setlerinin 0,5
N.Ortak Bilgi
0,4
kümelenmesinde etkilidir. 0,3
F-Ölçütü

0,2
 Tüm veri setlerinde k=5, 10, 20 olarak 0,1
0,0
çalıştırılmıştır. Kök Zemberek Ek Sabit Sabit Sabit
Bulma Çıkaran Önek 3 Önek 5 Önek 7
Yok

29.11.2012 / BURSA ELECO 2012 15/23 29.11.2012 / BURSA ELECO 2012 16/23

Deneysel Sonuçlar – 2/6 Deneysel Sonuçlar – 3/6


Milliyet k=10 Milliyet k=20

1,0 1,0
0,9 0,9
0,8 0,8
0,7 0,7
Saflık Saf lık
0,6 0,6
Entropi Entropi
0,5 0,5
N.Ortak Bilgi N.Ortak Bilgi
0,4 0,4
F-Ölçütü F-Ölçütü
0,3 0,3
0,2 0,2
0,1 0,1
0,0 0,0
Kök Zemberek Ek Sabit Sabit Sabit Kök Zemberek Ek Sabit Sabit Sabit
Bulma Çıkaran Önek 3 Önek 5 Önek 7 Bulma Çıkaran Önek 3 Önek 5 Önek 7
Yok Yok

29.11.2012 / BURSA ELECO 2012 17/23 29.11.2012 / BURSA ELECO 2012 18/23

3
Deneysel Sonuçlar – 4/6 Deneysel Sonuçlar – 5/6
NTV k=5 NTV k=10

0,8 0,8

0,7 0,7

0,6 0,6
Saf lık 0,5 Saf lık
0,5
Entropi Entropi
0,4 0,4
N.Ortak Bilgi N.Ortak Bilgi
0,3 0,3 F-Ölçütü
F-Ölçütü
0,2 0,2

0,1 0,1

0,0 0,0
Kök Zemberek Ek Sabit Sabit Sabit Kök Zemberek Ek Sabit Sabit Sabit
Bulma Çıkaran Önek 3 Önek 5 Önek 7 Bulma Çıkaran Önek 3 Önek 5 Önek 7
Yok Yok

29.11.2012 / BURSA ELECO 2012 19/23 29.11.2012 / BURSA ELECO 2012 20/23

Deneysel Sonuçlar – 6/6 Sonuç ve Değerlendirme


NTV k=20
 Türkçe metinlerin önişleme sürecinde kök bulma
0,8 uygulanması kümeleme kalitesinde önemli bir artış
0,7 sağlamamıştır.
0,6
Saf lık
 Kullanılan kök bulma yöntemleriyle kümeleme
0,5
Entropi
kalitesi bakımından oldukça yakın sonuçlar elde
0,4
N.Ortak Bilgi edilmiştir.
0,3 F-Ölçütü  En iyi sonuçlar Zemberek ve Sabit Önek 5 ile alınmıştır
0,2

0,1
 Kök bulma uygulanması doküman-terim matrisinin
boyutunda %50-75 oranında indirgeme sağlamıştır
0,0
Kök Zemberek Ek Sabit Sabit Sabit  Zemberek ve Sabit Önek 5
Bulma Çıkaran Önek 3 Önek 5 Önek 7
Yok

29.11.2012 / BURSA ELECO 2012 21/23 29.11.2012 / BURSA ELECO 2012 22/23

Teşekkürler
 Sorularınız?

29.11.2012 / BURSA ELECO 2012 23/23

You might also like