Professional Documents
Culture Documents
A Guide Article For The Second Term Project.
A Guide Article For The Second Term Project.
121
DEÜ FMD 23(67), 121-127, 2021
1. Giriş Bu çalışmada, kelime vektörleştirme yöntemleri
ile Türkçe haber metinlerini sınıflandırmada
Bilgisayarın ve özellikle internetin hayatımıza
yüksek başarı oranına ulaşmak hedeflenmiştir.
girmesi ile bilgiye erişim gün geçtikçe
Her bir kategoride 2000 haberin olduğu 12000
kolaylaşmaktadır. Bununla birlikte çok büyük bir
haberlik yeni bir derlem oluşturulmuştur.
hızla üretilen veriler arasında kaybolmamak ve
Böylece TTC-3600 verisetinin yaklaşık 3.5 katı
istenmeyen verilerden korunabilmek için
daha fazla haber içeren bir veriseti elde
verileri sınıflandırma mecburiyeti doğmuştur.
edilmiştir. TF-IDF, Word2Vec ve Fasttext
Bugün günlük hayatımızda çok sık kullandığımız
yöntemlerinin kullanıldığı çalışmada,
e-postalardan kısa mesajlara, web sitelerine
literatürdeki bu yöntemi kullanan çalışmalardan
kadar metin sınıflandırma önemli bir konu
daha büyük bir veriseti ile daha göre daha
haline gelmiştir. İstenilen içeriğe ulaşabilmek ve
yüksek başarı oranı alınmıştır.
istenmeyen verilerden korunabilmek için
metinlerin en iyi şekilde tanımlanması gerekir. 1.1.1 Terim Frekansı-Ters Doküman
Frekansı (Term Frequency Inverse
Makine öğreniminin amacı, bilgi sistemlerindeki
Document Frequency, TF-IDF)
karmaşık sorunları tespit etmek ve onlara
rasyonel çözümler sunmaktır. Bu durum, makine Terimden de anlaşılacağı gibi, TF-IDF, bir
öğreniminin istatistik, veri madenciliği, örüntü belgedeki her bir kelimenin değerlerini, belirli
tanıma, yapay zekâ ve teorik bilgisayar bilimi bir belgedeki kelimenin sıklığı ile kelimenin
gibi alanlarla yakından ilgili olduğunu ve çok göründüğü belgelerin yüzdesinin tersiyle
disiplinli bir çalışma gerektirdiğini hesaplar. Temel olarak, TF-IDF, belirli bir
göstermektedir [1]. belgede kelimelerin göreceli sıklığını, bu
kelimenin tüm veri seti üzerindeki tersine
Makine öğrenmesi yöntemleri metin
oranına göre belirleyerek çalışır. Sezgisel olarak,
sınıflandırması için etkili bir şekilde
bu hesaplama, belirli bir kelimenin belirli bir
kullanılmaktadır. Metin sınıflandırmanın amacı,
belge ile ne kadar alakalı olduğunu belirler. Tek
belgelerin belirli bir anlamsal kategoriye
veya küçük bir belge grubunda ortak olan
otomatik olarak ayrılmasıdır. Doğal dil işleme
kelimeler genel kelimelerden daha yüksek TF-
(NLP), veri madenciliği ve makine öğrenimi
IDF numaralarına sahip olma eğilimindedir [5].
teknikleri, elektronik belgeleri otomatik olarak
sınıflandırmak için birlikte kullanılır. Her belge 𝑁
𝑤𝑖,𝑗 = 𝑡𝑓𝑖,𝑗 × 𝑙𝑜𝑔 (1)
kategorisiz, bir veya birden fazla kategoride 𝑑𝑓𝑖
olabilir. Makine öğreniminin amacı,
sınıflandırıcıları, otomatik olarak kategori 𝑡𝑓𝑖,𝑗 = i kelimesinin j belgesinde bulunma sıklığı
atayan örneklerden öğrenmektir [2][3]. Makine
öğrenmesi ile metinlerin sınıflandırılabilmesi 𝑑𝑓𝑖 = i kelimesini içeren doküman sayısı
için metinleri sayısal olarak ifade etmek gerekir.
Bu işlem için çeşitli yaklaşımlar geliştirilmiştir. 𝑁 = toplam doküman sayısı
Metinlerin vektör modellerini çıkarabilmek için
kullanılan yöntemlerden Term Frequency- 1.1.2 Word2Vec
Inverse Document Frequency (TF-IDF), Word2Vec Mikolov ve arkadaşları tarafından
Word2Vec ve FastText yöntemlerinin literatür 2013 yılında önerilmiştir [6]. Bu yöntem kelime
taramasına göre daha iyi sonuçlar verdiği ile kelimenin belirli pencere boyutundaki
gözlemlenmiştir. komşuları arasında yakınlık ilişkisi kurar ve
1.1. Kelime Gömme (Word Embedding) anlamca yakın kelimeleri vektör uzayında
Teknikleri birbirine yakın olacak şekilde konumlandırır.
Anlam ilişkisi kurabilmek için iki farklı öğrenme
Aynı zamanda kelime temsili olarak da bilinen mimarisi kullanır.
kelime gömme, kelimenin dokümandaki
anlamına göre sürekli kelime vektörlerinin Bunlardan ilki Continous Bag of Words (CBoW)
oluşturulmasında hayati bir rol oynamaktadır. mimarisidir. Bu yöntemde pencere
Kelime gömme, sözcüklerin hem anlamsal hem merkezindeki kelime, kelimenin pencere boyutu
de sözdizimsel bilgilerini yakalar ve NLP kadar yakınındaki komşularına bakılarak tahmin
görevlerinde yaygın olarak kullanılan kelime edilmeye çalışılır.
benzerliklerini ölçmek için kullanılabilir [4].
122
DEÜ FMD 23(67), 121-127, 2021
Diğer yöntem ise Skip-Gram mimarisidir. Bu Tablo 1. Karmaşıklık Matrisi
yöntem de CBoW ile benzer çalışır. Ancak Skip- Gerçek Sonuç
Gram, CBoW’un aksine pencere merkezinde Sınıf 1 Sınıf 2 Sınıf 3 Toplam
konumlandırılan kelimeden, kelimenin Sınıf 1 a b c j
komşularını tahmin eder. Bu yöntemin avantajı
Tahmin
Sınıf 2 d e f k
farklı anlamlara gelebilecek kelimelerin birden Sınıf 3 g h i l
fazla anlamını yakalayabilmesidir. Toplam m n o N
123
DEÜ FMD 23(67), 121-127, 2021
metinler 5 haber sınıfına ayrılmış, en iyi Tablo 3. Literatür Özeti
sonuçlara Öğrenmeli Vektör Kuantalama Sınıflandırma
(Learning Vector Quantization, LVQ) ve Naive Vektörleştirme
Çalışma Yöntemi Başarı
Yöntemi
Bayes metotları ile ulaşılmış ve %76 oranında Oranı
başarı elde edilmiştir [12]. Tüfekçi ve Sawal ve ark. Maximum
Generalized
arkadaşlarının, 5 kategorinin olduğu iki farklı Iterative
(2001) Entropy
Scaling
haber derlemi üzerinde yaptıkları çalışmada,
Hakim ve ark.
azaltılmış özellik vektörü kullanılarak Naive TF-IDF -
(2014)
Bayes, SVM, C4.5 ve RF sınıflandırma Dilrukshi ve
Bag-of-words SVM (%75)
metotlarından alınan sonuçlar genelde daha ark. (2013)
yüksek olmakla birlikte en yüksek başarı %92,73 Amasyali & Naive Bayes
LVQ
Yildirim (2004) (%76)
doğruluk ile Naive Bayes algoritmasından elde
Tüfekçi ve ark. Naive Bayes
edilmiştir [13]. Şen ve Yanıkoğlu yaptıkları TF
(2012) (%92,73)
çalışmada iki çevrimiçi haber sitesinden büyük Sen &
miktarlı metin derlemleri toplanmış ve Yanıkoğlu TF-IDF ANN (%88,28)
çalışmada aynı anda hem kelime vektörlerini (2018)
Acı ve Çırak
hem de doküman sınıflandırmasını öğrenen bir Word2Vec CNN (%93,30)
(2019)
yapay sinir ağı 4 kategoriye ayrılan Sabah ve 14 Erdinç ve ark.
kategoriye ayrılan Cumhuriyet derlemleri için FastText SVM (%78)
(2019)
sırasıyla %88,28 ve %74,31 ile en iyi sonucu
vermiştir [14]. Acı ve Çırak yaptıkları çalışmada,
2. Materyal ve Metot
Konvolüsyonel Sinir Ağları (KSA, CNN) ve
Word2Vec metodu kullanılarak Turkish Text Veri seti Python’ın BeautifulSoup kütüphanesi
Classification 3600 (TTC-3600) veri kümesi kullanılarak 6 farklı haber sitesinden
üzerinde metin sınıflandırma çalışması yapılmış, derlenmiştir. Her bir kategoride 2000 adet
CNN ve Word2Vec metodu, %93,30 doğruluk ile olmak üzere, bilim-teknoloji, eğitim, kültür-
klasik istatistiksel ve makine öğrenmesine dayalı sanat, sağlık, siyaset ve spor kategorilerinde
sınıflandırma algoritmalarından daha iyi bir toplam 12000 adet haber metni bulunmaktadır.
performans göstermiştir [15]. Erdinç ve Güran Kategoriler haber sitelerinin belirlediği
11 farklı kategorideki 5 milyon Türkçe haber kategoriler temel alınarak belirlenmiştir.
dokümanı içeren bir derlem üzerinde yaptıkları
çalışmada yarı öğreticili bir teknik ile Word2Vec, 2.1 Veri Ön İşleme
Doc2Vec ve FastText algoritmalarının metin Veri setinin ham halinde makine öğrenmesi için
sınıflandırma problemi üzerindeki başarım önemli olmayan birçok karakter/kelime
değerleri kıyaslanmıştır. Haber derlemi mevcuttur. Daha kesin sonuçlar alabilmek için,
sınıflandırılırken Naive Bayes, Destek Vektör metinleri bu karakter/kelimelerden temizlemek
Makineleri, Yapay Sinir Ağları, Karar Ağaçları ve gerekir. Bunun için ham veri üzerinde aşağıdaki
Logistik Regresyon sınıflandırma algoritmaları işlemler uygulanmıştır.
kullanılmış, karakter n-gramların
1. Operatörler, noktalama işaretleri gibi gereksiz
kullanılmasıyla test verisi daha iyi
karakterler ve sayısal ifadeler temizlenmiştir.
genelleştirilmiş ve en iyi başarım değerine %78
oranında FastText algoritması ile ulaşılmıştır 2. Tüm kelimeler küçük harfe çevrilerek,
[16]. Lİteratür taramasında tespit edilen birbirinin aynısı olan kelimelerin makine
çalışmların özeti Tablo 3’te verilmiştir. tarafından farklı kelimeler gibi
algılanabilmesinin önüne geçilmiştir.
3. Türkçe etkisiz kelimeler (stopwords)
silinmiştir.
4. Kelimeler gövdelenerek, yalnızca aldığı ekler
farklı olan kelimelerin aynı kelime olarak
algılanması hedeflenmiştir.
124
DEÜ FMD 23(67), 121-127, 2021
2.2 Kelime Gömme İşlemi kütüphanesinde SVM, Naive Bayes, Logistic
Regression, Random Forest ve ANN yöntemleri
Veri setinin vektör modelinin elde edilmesi için
ile eğitilip sınıflandırılarak kıyaslanmıştır.
TF-IDF, Word2Vec ve FastText yöntemlerinden
yararlanılmıştır. TF-IDF, Word2Vec ve FastText ile vektör
modelleri çıkarılan verinin SVM, Naive Bayes,
Tüm yöntemlerde tüm veri setinde en az 5 kez
Logistic Regression, Random Forest ve ANN
geçen kelimeler değerlendirmeye alınmıştır.
yöntemleri ile eğitiminden elde edilen başarı
TF-IDF yöntemi için n-gram aralığı 1-2 olarak oranları Tablo 4’de verilmiştir.
belirlenmiştir.
Tablo 4. Eğitimlerin başarı oranları
Word2Vec ve FastText yöntemlerinin her
TF-IDF Word2Vec FastText
ikisinde de en iyi sonuçlar, her kelimenin vektör SVM % 95,639 % 95,306 % 95,750
uzunluğu 256, pencere boyutu 5, epoch sayısı 40 Naive
% 94,444 % 91,750 % 91,694
olarak alındığı ve Skip-Gram algoritması Bayes
kullanıldığı durumda elde edilmiştir. Logistic
% 95,694 % 95,639 % 95,694
Regression
FastText yönteminde minimum n-gram 2, Random
% 90,167 % 92,000 % 91,944
maksimum n-gram 10 olarak belirlenmiştir. Forest
Bunun dışındaki değerler için varsayılan ANN % 95,583 % 95,667 % 95,528
değerler kullanılmıştır. Kategorilere göre elde edilen başarı oranları
3. Tartışma ve Sonuç Tablo 5’te verilmiştir. TF-IDF için en iyi başarı
oranlarını veren logistic resression yönteminin
Bu çalışmada veri setindeki kelimelerin vektör karmaşiklik matrisi Tablo 6’da verilmiştir.
modelinin elde edilmesi için TF-IDF, Word2Vec Word2Vec için en iyi başarı oranlarını veren
ve Fasttext yöntemleri ayrı ayrı uygulanmıştır. ANN yönteminin karmaşiklik matrisi Tablo 7’de
Ön işlemeden geçirilip vektör modeli çıkarılan verilmiştir. FastText için en doğru başarı oranını
veri seti, %70-%30 oranında eğitim ve test veren SVM yönteminin karmaşiklik matrisi ise
dokümanı olarak ayrılmış, elde edilen kelime Tablo 8’de verilmiştir.
vektörleri Python’ın Scikit-learn
125
Kültür- Bilim-
Spor Siyaset Sağlık Eğitim
Spor
Spor
Sağlık
Sağlık
Sanat Teknoloji
Eğitim
Eğitim
Siyaset
Siyaset
Kültür-Sanat
Kültür-Sanat
Bilim-Teknoloji
Bilim-Teknoloji
%98,33 %95,50 %95,67 %96,17 %94,67 %93,50 SVM
0
9
8
0
8
5
10
11
14
14
560
559
TF-IDF
Bilim-Teknoloji
Bilim-Teknoloji
%98,17 %96,00 %95,17 %97,00 %94,83 %92,33 ANN
0
6
5
7
0
4
5
5
4
%99,17 %95,00 %95,00 %94,33 %96,00 %92,33 SVM
11
578
569
Eğitim
Eğitim
%92,67 %96,67 %90,50 %96,17 %86,17 %88,33 Naive Bayes
126
Matrisi
%98,00 %95,83 %96,33 %95,67 %95,50 %92,50 Logistic Regression
1
7
4
2
4
5
1
2
8
Word2Vec
12
569
576
%95,00 %91,17 %90,67 %92,67 %92,67 %91,50 Random Forest
Kültür-Sanat
Kültür-Sanat
%99,00 %94,00 %96,50 %94,83 %96,33 %93,33 ANN
DEÜ FMD 23(67), 121-127, 2021
Tablo 5. Kategorilere göre başarı oranları
4
9
7
3
3
8
6
2
20
18
579
574
Sağlık
Sağlık
%92,33 %96,50 %91,50 %95,17 %85,83 %88,83 Naive Bayes
1
3
6
6
3
3
4
6
7
6
FastText
564
578
Siyaset
Siyaset
%95,17 %91,50 %90,17 %92,83 %92,00 %90,00 Random Forest
5
1
1
0
2
1
1
2
0
1
594
589
Tablo 7. Word2Vec için en iyi başarı oranlarını veren ANN yönteminin Karmaşıklık Matrisi
Spor
Spor
Tablo 6. TF-IDF için en iyi başarı oranlarını veren Logistic Resression yönteminin Karmaşıklık
DEÜ FMD 23(67), 121-127, 2021
Tablo 8. FastText için en doğru başarı oranını veren SVM yönteminin Karmaşıklık Matrisi
Bilim-Teknoloji Eğitim Kültür-Sanat Sağlık Siyaset Spor
Bilim-Teknoloji 564 5 9 15 5 2
Eğitim 10 576 4 4 6 0
Kültür-Sanat 9 7 569 7 6 2
Sağlık 14 6 2 573 4 1
Siyaset 8 7 6 8 570 1
Spor 0 0 3 2 0 595
Çalışmanın sonucunda TF-IDF, Word2Vec ve [7] Joulin, A., Grave, E., Bojanowski, P., & Mikolov, T.
FastText ile elde edilen vektör modellerinin (2016). Bag of tricks for efficient text classification.
arXiv preprint arXiv:1607.01759
sınıflandırma başarı oranlarının birbirine çok [8] Osmanoglu, U.O., Atak, O.N., Caglar, K., Kayhan, H. &
yakın olduğu, ancak en başarılı oranı %95.75 ile Can, T.C. (2020). Sentiment Analysis for Distance
FastText ile elde edilen vektör modelinin verdiği Education
izlenmiştir. Vektör model yöntemlerinin ve [9] Course Materials: A Machine Learning Approach.
tahmin algoritmalarının genelinde en doğru Journal of Educational Technology & Online
Learning, 3(1), 31-48.
tahmin edilen kategori spor kategorisi olmuştur. [10] Sawaf, H., Zaplo, J., & Ney, H. (2001). Statistical
Literatürdeki diğer çalışmalarda da rastlanılan classification methods for Arabic news articles.
bu durum, spor haberlerinde, sıklıkla sadece Natural Language Processing in ACL2001, Toulouse,
spor haberlerinde geçen kelimeler kullanıldığını France.
düşündürmektedir. [11] Hakim, A. A., Erwin, A., Eng, K. I., Galinium, M., &
Muliady, W. (2014, October). Automated document
Bununla birlikte TF-IDF yönteminin Word2Vec classification for news article in Bahasa Indonesia
ve FastText yöntemine göre bellekte daha yer based on term frequency inverse document
frequency (TF-IDF) approach. In 2014 6th
kapladığı ve güçlü bilgisayarlar gerektirdiği International Conference on Information Technology
görülmüştür. Bunun sebebi TF-IDF yönteminde, and Electrical Engineering (ICITEE) (pp. 1-4). IEEE.
her bir haber metni için oluşturulan vektörün Doi:10.1109/iciteed.2014.7007894
derlemdeki tüm kelime sayısı uzunluğunda [12] Dilrukshi, I., De Zoysa, K., & Caldera, A. (2013, April).
olmasıdır. Vektör uzunluğunun azaltılması, Twitter news classification using SVM. In 2013 8th
International Conference on Computer Science &
yöntemin başarı oranını düşürmüştür. Education (pp. 287-291). IEEE.
Word2Vec ve Fasttext yöntemlerinde ise haber Doi:10.1109/iccse.2013.6553926
metninin vektör uzunluğu sınırlandırılmaktadır. [13] Amasyali, M. F., & Yildirim, T. (2004, April).
Automatic text categorization of news articles.
Kaynakça In Proceedings of the IEEE 12th Signal Processing
[1] Vapnik V. The nature of statistical learning theory. and Communications Applications Conference,
Springer, 2nd edition, 2013; New York, USA. pp: 32- 2004. (pp. 224-226). IEEE.
40. [14] Tüfekci, P., Uzun, E., & Sevinç, B. (2012, April). Text
[2] Joachims, T. (1999, June). Transductive inference for classification of web based news articles by using
text classification using support vector machines. In Turkish grammatical features. In 2012 20th Signal
Icml (Vol. 99, pp. 200-209). Processing and Communications Applications
[3] Khan, Aurangzeb, et al. "A review of machine Conference (SIU) (pp. 1-4). IEEE.
learning algorithms for text-documents [15] Sen, M. U., & Yanıkoğlu, B. (2018, May). Document
classification." Journal of advances in information classification of SuDer Turkish news corpora.
technology 1.1 (2010): 4-20. In 2018 26th Signal Processing and Communications
[4] Liu, Y., Liu, Z., Chua, T. S., & Sun, M. (2015, February). Applications Conference (SIU) (pp. 1-4). IEEE.
Topical word embeddings. In Twenty-Ninth AAAI [16] Acı, Ç. İ., & Çırak, A. Türkçe Haber Metinlerinin
Conference on Artificial Intelligence. Konvolüsyonel Sinir Ağları ve Word2Vec
[5] Ramos, J. Using tf-idf to determine word relevance in Kullanılarak Sınıflandırılması. Bilişim Teknolojileri
document queries. In Proceedings of the first Dergisi, 12(3), 219-228.
instructional conference on machine learning 2003; [17] Erdinҫ, H. Y., & Güran, A. (2019, April). Semi-
(Vol. 242, pp. 133-142). supervised Turkish Text Categorization with
[6] Mikolov T, Chen K, Corrado G, Dean J. (2013), Word2Vec, Doc2Vec and FastText Algorithms.
“Efficient estimation of word representations in In 2019 27th Signal Processing and Communications
vector space”. Proceedings of Workshop at ICLR. Applications Conference (SIU) (pp. 1-4). IEEE.
Scottsdale, Arizona 2-4 Mayıs 2013.
127