You are on page 1of 21

Bilgi Dnyas 2008, 9(1):158-178

Yapay Sinir Alar ile Web eriklerini Snflandrma* Web Content Classification Using Artificial Neural Networks

Esra Nergis GVEN**, Hakan ONUR ***ve eref SAIROLU****

z Internetin hzl gelimesi ve yaygnlamas elektronik ortamda i ve ilemleri hzlandrm ve kolaylatrmtr. Elektronik ortamlarda depolanan, tanan ve ilenen bilgilerin boyutunun her geen gn artmas ise bilgiye eriim ile ilgili birok problemi de beraberinde getirmitir. Kullanclarn elektronik ortamda sunulan bilgilere erimelerindeki hz ve doruluk gereksinimi nedeniyle, bu ortamlarda tutulan bilgileri snflandrma ve kategorilere ayrma yaklamlarna ihtiya duyulmaktadr. Saylar milyonun zerinde olan arama motorlarnn, kullanclarn doru bilgilere ksa srede ulamasn salamas iin her geen gn yeni yaklamlar ile desteklenmesi gerekmektedir. Bu almada, web sayfalarnn belirlenen konulara gre snflandrlabilmesi iin, ok Katmanl (MLP) yapay sinir a modeli kullanlmtr. zellik vektr ieriinin seimi, yapay sinir ann eitilmesi ve son olarak web sayfalarnn doru kategorize edilmesi iin bir yazlm gelitirilmitir. Bu zeki yaklamn, elektronik ortamlarda bilgilerin
*

Bu makale Deien Dnyada Bilgi Ynetimi Sempozyumu, 24-26 Ekim 2007, Ankara.da bildiri olarak sunulmutur. ** Gazi niversitesi, Bilgisayar Mhendislii Blm, 06570, Maltepe, Ankara. (eng@gazi.edu.tr) *** Gazi niversitesi, Bilgisayar Mhendislii Blm, 06570, Maltepe, Ankara. (hakano@adasoft.com.tr) **** Gazi niversitesi, Bilgisayar Mhendislii Blm, 06570, Maltepe, Ankara. (ss@gazi.edu.tr)

158

Yapay Sinir Alar

Bilgi Dnyas 2008, 9(1):158-178

kolaylkla ve yksek dorulukla snflandrlmas, web ortamlarnda doru ierie ulalmas ve birok gvenlik ann giderilmesine katklar salayaca deerlendirilmektedir. Anahtar szckler: Yapay sinir alar, Metin gruplama, erik snflandrma, Web sayfas kategorizasyonu, Bilgi ynetimi. Abstract Recent developments and widespread usage of the Internet have made business and processes to be completed faster and easily in electronic media. The increasing size of the stored, transferred and processed data brings many problems that affect access to information on the Web. Because of users need get to access to the information in electronic environment quickly, correctly and appropriately, different methods of classification and categorization of data are strictly needed. Millions of search engines should be supported with new approaches every day in order for users to get access to relevant information quickly. In this study, Multilayered Perceptrons (MLP) artificial neural network model is used to classify the web sites according to the specified subjects. A software is developed to select the feature vector, to train the neural network and finally to categorize the web sites correctly. It is considered that this intelligent approach will provide more accurate and secure platform to the Internet users for classifying web contents precisely. Keywords: Artificial neural networks, Text categorization, Content classification, Web page categorization, Information management.

Giri Bilgi toplumlarnn temel hammaddesi bilgidir. Bilgisayar ve iletiim teknolojileri gelitike bilginin retilmesi, tanmas ve depolanmas kolaylamtr. Elektronik ortamlarn gn getike yaygnlamas ve kullanmnn artmasyla birlikte bilgi miktarnda da hzl bir art gzlenmektedir (Miniwatts, 2006). Bu ortamlarda tutulan bilginin snflandrlmas ise bilgi denizinde doru bilgiye hzla eriimi kolaylatracak yaklamdr. Bilgi eriim sistemleri temelde kullanclarn bilgi ihtiyalarn karlamas muhtemel olan ilgili belgelerin tmne eriir ve ilgili olmayanlar da ayklar. Internet ortamna baktmzda bu sistemler arama motorlar olarak karmza kar. Arama motorlar bilgiye eriim 159

Bilgi Dnyas 2008, 9(1):158-178

Esra Nergis Gven / Hakan Onur / eref Sarolu

anahtar ve yol haritalardr. Bilgiye erimek istediimizde arama motorlarndan olduka sk faydalanrz. Ancak elektronik ortamlarda tanan ve depolanan bilgilerin boyutlar ok yksek olup gn getike hzla artmaya devam etmektedir. Googlen (2007) Internetteki en kullanl sitelerin en geni koleksiyonunu sunan ve bir milyondan fazla URL'yi ieren indeksi web ortamlarn daha popler hale getirmitir. Bu ortamlarda bilgilerin doru snflandrlmas bir zorunluluk haline gelmitir. Gnmzde bu baarlm gibi grnse de istediimiz veya aradmz bilgiye ulamak aslnda o kadar da kolay deildir. Hzl bir ekilde doru bilgiye eriim iin, arama motorlarnn kullanmn ve pf noktalarn da iyi renmek gerekir ki baz durumlarda bu bile yetersiz kalabilir. Arama motorlarn doru kullanmann zorluklar karsnda bir adm daha ileri giderek, belirli bir kategori belirtebilmek aramann daha net sonulanmasn salayabilecektir. rnein, kullancnn araba ve motor kelimelerini taradnda eriilen belgeleri bir de kategorilerine gre szebilmesi, ekonomi grubunda yer alan araba ve motor kelimeleri geen belgelere de erimesini salayabilir. Bu nedenle elektronik ortamlarda doru bilgilerin aratrlmas veya doru bilgilere eriilmesi iin her zaman yeni yaklamlara ihtiya duyulacaktr. Gelitirilecek snflandrma yaklamlarnn hzl olmas ve doru bilgiye eriim imkn salamas gerekmektedir (Witten, Moffat ve Bell, 1999). Wikipediada dokman snflandrma/kategorizasyon problemi, bir elektronik dokmann ieriinin bir veya daha ok kategoriye ayrlmas ilemi olarak ifade edilmektedir. Dokman snflandrma ilemi danmanl ve danmansz olmak zere iki ekilde yaplmaktadr. Bu snflandrmada karar aalar (Moulinier ve Ganascia, 1996), kural renme (Apte, Dameran ve Weiss, 1994), sinir alar (Ng, Goh ve Low, 1997; Wiener, Pedersen ve Wiegend, 1995), lineer snflandrclar (Lewis, Schapire Callan ve Papka, 1996), en yakn komuluk algoritmalar (kNN) (Yang ve Pedersen, 1997), destek vektr makinalar (Joachims, 1997), tf*idf deerleri (terim skl* devrik belge skl), kavram madencilii (content mining), gizli anlam analizi (LSA-Latent Semantic Analysis) ve Naive Bayes metodlar (Lewis ve Ringuette, 1994; McCallum ve Nigam, 1998) gibi farkl yaklamlar kullanlmaktadr (bkz. Ruiz ve Srinivasan, 2002). 160

Yapay Sinir Alar

Bilgi Dnyas 2008, 9(1):158-178

Metin kategorizasyonu yapan bir sistemin amac, metni nceden tanmlanm kategorizasyon emasna gre ayr etiketlere ya da kategorilere dhil etmektir. Bu iaretlemeler, filtreleme veya dzeltme gibi amalarla kullanlabilir. Gnmzdeki hzl bilgi artnda otomatik metin kategorizasyonu nemli bir hedeftir. Web taraycs kullanan snflandrma sistemlerinin ounda ilemler insan desteiyle yaplmaktadr (Shanks ve Williams, 2001). Bu ilemleri elle yapmak iyi bir yaklam gibi grnse de dokman sorgularnn milyonlara eritii bir ortamda bu sistemler pek de ie yaramamaktadr. Bu ortamlarda bu ilemleri yapacak yeni yaklamlara her zaman ihtiya duyulmaktadr. Bu almada birok yntem sunulmu olmasna karn; kategorilerin zellik alanlarnn yksek boyutlu olmalar karlalan temel bir problemdir. zellik alann daraltmak veya iyi alt kmeler semek, etkin ve baarl bir uygulama gerekletirmek iin olduka nemlidir. Bu anlamda, kategorizasyonu belirleyen zelliklerin seimleri iin birok yaklam ve yntem mevcuttur (Yu ve Liddy, 1999). Yapay sinir alar birok alanda problem zmlemeye baaryla uygulanm bir yapay zek metodudur (Haykin 1994). Problemlere hzl ve zeki zm salamalar, az veriyle genelleme yapabilmeleri, renebilmeleri ve giri ve k verileri mevcut sistemlere genel bir model oluturabilmeleri, farkl problemlere kolaylkla uyarlanabilmeleri gibi sebeplerden dolay bu almada web sayfas kategorizasyonu iin yeni bir yaklam olarak sunulmutur. Bu yaklamn alabilirliini gstermek iin ise WeSaKa isimli bir yazlm gelitirilmi ve tantlmtr. Bu kategorizasyonda spor, ekonomi ve kltr snflar ele alnm ve belirlenen web sayfalarnn hangi snfa en yakn olduu otomatik olarak tespit edilmeye allmtr. Literatrdeki mevcut almalarda olduu gibi bu almada da dokmanlar bir zellik vektrne dntrldkten sonra yapay sinir alar ile snflandrlmtr.

161

Bilgi Dnyas 2008, 9(1):158-178

Esra Nergis Gven / Hakan Onur / eref Sarolu

Bu bildiride yapay sinir alar tantlm, sistemin yaps verilmi, uygulamada takip edilen admlar sunulmu ve gelitirilen arayz tantlmtr. Son blmde ise sunulan alma farkl alardan deerlendirilmitir. Yapay Sinir Alar Yapay sinir alar (YSA), farkl zeki zellikleri bulundurmasndan dolay pek ok uygulamada kullanlmaktadr (Sarolu, Bedok ve Erler, 2003). YSA, bir sisteme ilikin eitli parametrelere bal olarak tanmlanan giriler ve klar arasnda iliki kurabilme yeteneine sahiptir. Bu ilikinin dorusal bir formda olmas zorunlu deildir. Ayrca YSAlar, k deerleri bilinmeyen tanmlanm sistem girilerine de uygun klar retebilmekte, bylelikle ok karmak problemlere bile iyi zm olabilmektedirler (Sarolu, Bedok ve Erler, 2003). Literatrde birok YSA yaps mevcuttur (Haykin 1994; Sarolu, Bedok ve Erler, 2003). Sunulan almada ok Katl Perseptron (KP) modeli kullanlmtr. KP, birok alana uygulanm olan bir YSA yapsdr (Sarolu, Bedok ve Erler, 2003). Birok renme algoritmasnn bu a eitmede kullanlabilir olmas, bu modelin yaygn kullanlmasnn sebebi olarak aklanabilir. ekil 1de de verildii gibi bir KP modeli, bir giri, bir veya daha fazla ara ve bir de k katmanndan oluur. Bir katmandaki btn ilem elemanlar bir st katmandaki btn ilem elemanlarna baldr. Giri katndaki nronlar tampon gibi davranrlar ve giri sinyalini ara kattaki nronlara datrlar. Ara kattaki her bir nronun k, kendine gelen btn giri sinyallerini takip eden balant arlklar ile arpmlarnn toplanmas ile elde edilir. Elde edilen bu toplam, kn toplam bir fonksiyonu olarak hesaplanabilir. Buradaki fonksiyon, basit bir eik fonksiyonu, bir sigmoid veya hiperbolik tanjant fonksiyonu olabilir. Dier katlardaki nronlarn klar da ayn ekilde hesaplanr. Kullanlan eitme algoritmasna gre, an k ile arzu edilen k arasndaki hata tekrar geriye doru yaylarak hata minimuma dnceye kadar YSAnn arlklar deitirilir. Bu almada an k ile arzu 162

Yapay Sinir Alar

Bilgi Dnyas 2008, 9(1):158-178

edilen klar arasndaki hata tm giri seti iin bulunduktan sonra arlklar deitirilmektedir.

ekil 1: Gelitirilen WeSaKa Yazlmnn Blok emas

Yapay sinir alarnda kullanlan ok sayda renme algoritmas bulunmaktadr. Bu almada en fazla 10 epokta renen ve hesaplamalarda kartabilen ve hesaplamalarda birok hususu zmleyebilen Levenberg-Marquardt (LM) renme algoritmas kullanlmtr (Levenberg, 1944; Marquardt, 1963). LM metodu, maksimum komuluk fikri zerine kurulmu bir en az kareler hesaplama metodudur (Levenberg, 1944; Marquardt, 1963). Bu algoritma, Gauss-Newton ve En Dik D (Steepest Descent) algoritmalarnn en iyi zelliklerinden oluur ve bu iki metodun kstlamalarn ortadan kaldrr. Genel olarak bu metod yava yaknsama probleminden etkilenmez. E( w )nin bir ama hata fonksiyonu olduu dnlrse, m
~

tane hata terimi iin

ei2 ( w) aada verilmitir.


~

E ( w) = e ( w) = f ( w)
~ i =1 2 i ~ ~

(1)

163

Bilgi Dnyas 2008, 9(1):158-178

Esra Nergis Gven / Hakan Onur / eref Sarolu

bu eitlikte w arlklar ifade ederken,

ei2 ( w) ( y i ydi ) 2
~ ~ ~

dir.

Burada, ama fonksiyonu f(.) ve onun Jakobiyeni Jnin bir noktada w bilindii farzedilir.
~

LM renme algoritmalarnda hedef, parametre vektr nn, E( w ) minimum iken bulunmasdr. LMnin kullanlmasyla w
~ ~

yeni vektor

wk +1 , farzedilen vektr w k dan aada verilen


~

ifadeden hesaplanr.

w k +1 = w k + w k
~ ~ ~

(2)

burada w k aadaki ekilde verilir.


~

( J k T J k + I ) w k = J k T f ( w k )
~ ~

(3)

Eitlikte,

J k : f in w k deerlendirilmi Jakobyeni,
~

:Marquardt parametresi, ve
I: birim veya tanmlama matrisidir. Levenberg-Marquardt algoritmasnda hesaplama ak aadaki ekilde zetlenebilir. (i) E( w k ) y hesapla,
~

(ii) kk bir deeri ile bala (mesela = 0.01), (iii) w k iin Eitlik (3) z hesapla,
~ ~ ~ ~

ve E( w k + w k ) deerini
~ ~

(iv) ayet E ( w k + w k ) E( w k ) y 10 kat artr ve (iii)e git,

164

Yapay Sinir Alar

Bilgi Dnyas 2008, 9(1):158-178

(v) ayet E ( w k + w k ) < E( w k ) y 10 kat azalt, w k : w k w k + w k yi gncelletir ve (iii)e git.


~ ~ ~ ~ ~ ~ ~

Hedef k hesaplamak iin bir YSAnn arlklarnn LM renme algoritmas kullanlarak retilmesi arlk dizisi w 0 a bir balang deerinin atanmas ile balar ve hatalarn karelerinin toplam ei2 nin hesaplanmasyla devam eder. Her ei2 terimi, hedef k (y) ile gerek k (yd) arasndaki farkn karesini ifade eder. Btn veri seti iin ei2 hata terimlerinin tamamnn elde edilmesiyle, arlk dizileri (i) den (v)e kadar olan LM renme algoritmas admlarn uygulanmasyla daha nce de akland gibi adapte edilir. Gelitirilen Sistemin Yaps ve Uygulanmas Bu almada, dokman snflandrlmasnn otomatik olarak ve kolaylkla yaplabilmesi iin WeSaKa adn verdiimiz bir yazlm gelitirilmitir. WeSaKann gelitirilmesi iin Microsoft Visual Basic.NET ortam tercih edilmitir. ekil 1de gelitirilen yazlmn blok emas verilmitir. Blok emadan da grlebilecei gibi bir arayz ile web ortamna veya portallarna eriilebilmekte, kelime haritalar, eitim ve test verileri oluturulabilmekte, bu veriler zellik vektrne dntrlebilmekte ve YSA snflandrc ile dokmanlar otomatik olarak snflandrlabilmektedir. Tm bu ilemlerin sonucunda, WeSaKa aracl ile bir web sayfas aldnda arka planda YSAya bir sorgu gnderilmekte ve sayfann kategorisi hakknda bilgi alnp kullancya sunulmaktadr. Blokta verilen YSA yapsnn ak ekli ekil 2de verilmitir. ekil 2de sunulan YSA yapsnda, eitim ve test kmelerinin kullanmna uygun olarak 60 giri ve 3 k bulunmaktadr. Giri ve k arasnda 20 nronlu bir gizli katman kullanlmtr. Oluturulan YSA yapsnn gizli katmannda ve k katmannda transfer (aktivasyon) fonksiyonu olarak sigmoid fonksiyon kullanlmtr.
~

165

Bilgi Dnyas 2008, 9(1):158-178

Esra Nergis Gven / Hakan Onur / eref Sarolu

WeSaKa uygulamas ilk altrldnda, daha nceden hazrlanan kategorileri ve kelime haritasn XML formatnda sisteme alr. Bu uygulama iin alnan eitim ve test kategori rnekleri temelde spor, ekonomi ve kltr olmak zere grupta tanmlanmtr. Tablo 1de bu rnekler verilmitir.

ekil 2: YSA Yaps

Kelime haritas, YSAnn girdilerini oluturan nronlarn ifadeleridir. Kelime haritasnda yer alan her kelime YSAya bir girdi olarak sunulur. Girdilerin deerleri ise ilgili kelimenin metinde ka kez getiinin toplam kelime saysna orandr. Bu durum aadaki gibi formle edilebilir: xi = Ti
T

(4)

Burada; Ti : i kelimesinin tekrarlanma says, ve T : tm kelimelerin toplam tekrarlanma saysdr. 166

Yapay Sinir Alar

Bilgi Dnyas 2008, 9(1):158-178

lgili alt yap hazrlklarn YSA modl ile kurulan bir balant tamamlar. Yeni bir web sayfasna girildiinde veya bir sayfa alnda nileme modlne xi (i Kelime Haritas) matrisi aktarlr ve kelime says uzunluunda bir matris sonu elde edilir. Gelen bu sonular ekranda kullanc tarafndan da grlebilir. Sistemin doru alabilmesi iin ilk olarak kelime haritas oluturulmas gerekmektedir. Kelime haritasnn olabildiince doru oluturulmas olduka kritiktir. Sz konusu oluturma yntemi iin pek ok metod bulunmaktadr (Joachims, 1998). Trke kelimelerin kklerinin bulunmas, kelime haritas oluturulmasnda ok nem tar. Her ne kadar WeSaKa Trke kelime kk bulunmas konusunda zel bir ilem yapmasa bile bu konunun nemi aktr. WeSaKada kelime haritas oluturma ileminde uzman grne ihtiya duyulmutur. Bunun iin nceden tanmlanan kategorilere uyan pek ok sayfa ziyaret edilmi, her sayfada bulunan kelimeler ayrtrlarak bir kme oluturulmutur. Bu kme oluturulurken ilgili her kelimeye ka kez rastland ve bu kelimelerin hangi kategoriler altnda bulunduu bilgisi de tutulmutur. Daha sonraki admda kme 500 kelimeye yaklanca ncelikle kelimeler sralanm ve karakterden ksa olan kelimeler (ile, de, da vs.) kmeden kartlmtr. Kalan kelimeler alfabetik sraya gre dizilmi ve birbirinin kk olabilecek kelimeler korunup dierleri kmeden kartlm, korunan kelimelerin grlme saysna kartlan kelimeler eklenmitir. Kelime kkleri belirlenirken o kelimenin metin ierisinde olabilecei her duruma kk olabilecek bir kelime seilmitir. rnein kltr sanat kategorisinde ska geen mzik kelimesi her zaman mzik kk ile deil mzie, mzii gibi ek alm hallerde de bulunur. Bu nedenle mzik kelimesinin kk kelime haritas iin mzi olarak alnmtr. Bu ekilde bir kabul yaparken belirlenen kkn baka bir kelimenin kk veya tamam olmamasna da dikkat ederek karkla yola amas engellenmitir. Son olarak kme grlme sklklarna gre sralanm her bir kategoride sk grlen ve kategoriyle birebir ilikili kelimelerden 20er adet 167

Bilgi Dnyas 2008, 9(1):158-178

Esra Nergis Gven / Hakan Onur / eref Sarolu

alnm, kelime haritas oluturulmutur. Bu kelime haritas Tablo 1de grlebilir. Kelime haritas oluturulurken Naive Bayesian ve SVM (destek vektr makineleri) kullanlabilecek olmasna ramen kelime kk kartma algoritmas eksikliinden dolay insana baml yntem tercih edilmitir. lemlerin kolay anlalmas iin yaplan almalar farkl balklar altnda aada sunulmutur. Test ve Eitim Kmesinin Oluturulmas Eitim kmeleri oluturulurken girilen web sayfasnda kelime haritasndaki her kelimenin veya kelime kk ile balayan kelimelerin says her kelime haritas maddesi iin ayr ayr belirlenmitir. Bu belirleme ileminden sonra toplam kelime says hesaplanp, bulunan deerler kelime saysna blnm ve sonulardan 1x60lk bir matris oluturulmutur. Bu matrise ilk stun olarak da her bir kategoriye uyma oranlar verilmitir. Spor kategorisinde olduu dnlen bir belge iin [1 0 0] matrisi eklenmitir. Test ve eitim kmelerinin oluturulmas temelde ayn sistemle yaplmtr. Tek fark, danmanl renme tekniine uygun olarak eitim kmesinde olmas gereken kategori sonucu sisteme verilmi olup, test kmesinde bu veri salanmam, aksine elde edilen sonular YSAdan sorgulanmtr. alma sonucunda oluturulan eitim kmesi girileri (kelime haritas) Tablo 1de gsterilmitir.

168

Yapay Sinir Alar

Bilgi Dnyas 2008, 9(1):158-178

Tablo 1: Kelime Haritas


Kategori 1 (spor)
TEKRARLAMA

Kategori 2 (ekonomi)
TEKRARLAMA

Kategori 3 (kltr)
TEKRARLAMA

KELME

KELME

fark fikstr forma futbol galibiyet gol hakem kart lider lig ma menajer pozisyon puan saha spor stad ampiyon tevik transfer

24 33 10 34 8 38 32 23 7 119 57 4 6 63 16 171 9 25 5 11

devlet d dzey eilim ekonomi enflasyon firma fiyat fuar ihale ihra kalknma kamu petrol taahht tutma rn yatrm ykseli yzde

43 10 13 8 143 12 8 15 2 13 3 19 14 13 5 3 28 129 4 124

ak bahar bale belgesel film gzel kitab klasik konser koro mzi dl yk resim sergi ark iir tiyatro tr yaz

KELME

15 5 9 5 17 9 11 5 11 11 11 21 24 20 12 5 14 21 74 23

YSAnn Eitilmesi Daha nceden belirlenen kategoriden 10ar adet belge iin toplamda 60 girili 30 rnekten oluan bir eitim kmesi oluturulmutur. YSA snflandrcnn eitiminde kullanlan verilere rnekler Tablo 2de verilmitir. Oluturulan bu eitim kmesi YSAya sunulmu ve Levenberg-Marquardt renme algoritmas kullanlarak eitim yaplmtr. Eitim srasnda nronlar arasndaki 169

Bilgi Dnyas 2008, 9(1):158-178

Esra Nergis Gven / Hakan Onur / eref Sarolu

arlklara ilk deer olarak [-1,+1] arasnda rastgele deerler atanmtr. Yaklak 350 tekrardan sonra eitim tamamlanm ve toplam mutlak hata oran 4.5e-10 civarna indirilmitir. Eitim sresi P4 2GHz, 512MB RAMli bir sistemde 1 saat srm olsa da eitim sonular istenilen dzeye ulamtr.
Tablo 2. Eitim ve Test Verileri Vektrleri
Giri verileri rnek (kelime haritasndaki kelimeler iin elde edilen deerler)
0,0,0,0,0,0,0,0,0.00711743772241993,0.0035587188 6120996,0,0,0,0,0.00355871886120996,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.003558718 86120996,0,0,0,0,0,0,0,0,0,0,0.0249110320284698,0, 0.00355871886120996,0.00711743772241993,0.039 1459074733096 0,0,0,0,0,0,0,0,0.00338983050847458,0,0,0,0,0,0.003 38983050847458,0.0101694915254237,0,0,0.016949 1525423729,0,0,0.00338983050847458,0,0,0,0,0,0,0, 0,0,0.00677966101694915,0,0.0203389830508475,0, 0,0,0,0,0,0,0,0,0.00338983050847458,0.0101694915 254237,0,0.00677966101694915,0,0,0,0,0,0,0,0,0.00 338983050847458,0,0.00338983050847458,0,0.0033 8983050847458 0,0.00803212851405622,0,0,0.00401606425702811, 0,0,0,0.00401606425702811,0,0.0120481927710843, 0,0.0200803212851406,0,0.00803212851405622,0,0, 0,0,0.00803212851405622,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0.00401606425702811,0,0,0,0,0,0,0,0.004016064 25702811,0,0,0,0,0,0,0,0,0,0.00401606425702811,0. 00401606425702811,0,0.00803212851405622,0,0

k verileri (Kategori)

0,1,0

1,0,0

...

30

0,0,1

170

Yapay Sinir Alar

Bilgi Dnyas 2008, 9(1):158-178

YSAnn Test Edilmesi YSAnn test edilmesi iin Tablo 3te verilen gazetelere ait web siteleri kullanlmtr. Farkl kategorilere ait llen deerler de bu tabloda verilmitir.
Tablo 3. YSA Test Sonular
Web Sitesi
http://www.hurriyet.com.tr http://www.hurriyet.com.tr http://www.hurriyet.com.tr http://www.hurriyet.com.tr http://www.hurriyet.com.tr http://www.milliyet.com.tr http://www.milliyet.com.tr http://www.milliyet.com.tr http://www.milliyet.com.tr http://www.milliyet.com.tr http://www.zaman.com.tr http://www.zaman.com.tr http://www.zaman.com.tr http://www.zaman.com.tr http://www.zaman.com.tr http://www.ntvmsnbc.com http://www.ntvmsnbc.com http://www.ntvmsnbc.com http://www.ntvmsnbc.com http://www.ntvmsnbc.com http://www.hurriyet.com.tr http://www.hurriyet.com.tr http://www.hurriyet.com.tr http://www.hurriyet.com.tr http://www.hurriyet.com.tr http://www.milliyet.com.tr http://www.milliyet.com.tr http://www.milliyet.com.tr http://www.milliyet.com.tr http://www.zaman.com.tr http://www.zaman.com.tr http://www.zaman.com.tr http://www.zaman.com.tr http://www.zaman.com.tr http://www.ntvmsnbc.com http://www.ntvmsnbc.com http://www.ntvmsnbc.com http://www.ntvmsnbc.com http://www.ntvmsnbc.com http://www.ntvmsnbc.com http://www.hurriyet.com.tr

Kategori
Spor Spor Spor Spor Spor Spor Spor Spor Spor Spor Spor Spor Spor Spor Spor Spor Spor Spor Spor Spor Ekonomi Ekonomi Ekonomi Ekonomi Ekonomi Ekonomi Ekonomi Ekonomi Ekonomi Ekonomi Ekonomi Ekonomi Ekonomi Ekonomi Ekonomi Ekonomi Ekonomi Ekonomi Ekonomi Ekonomi Kltr Sanat

llen Deerler Spor Ekonomi Kltr


1.0000 0.9998 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.9995 0.9754 0.9982 0.2371 0.3084 1.0000 0.9984 1.0000 1.0000 0.7847 1.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0022 0.0001 0.0000 0.0000 0.0012 0.0095 0.0072 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0032 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.9781 1.0000 0.9986 0.9835 0.9995 1.0000 1.0000 0.8289 0.9845 0.8757 0.0383 1.0000 0.9752 1.0000 0.1447 0.9997 1.0000 1.0000 0.8720 0.9642 0.0000 0.0000 0.1191 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0026 0.5260 0.9742 0.9936 0.0000 0.3168 0.0120 0.0000 0.9980 0.0000 0.0000 0.0027 0.0000 0.0001 0.0018 0.0259 0.0001 0.0000 0.8330 0.0022 0.0447 0.9242 0.0000 0.0012 0.0023 0.0028 0.0000 0.0000 0.0000 0.0134 0.0000 0.9994

171

Bilgi Dnyas 2008, 9(1):158-178 http://www.hurriyet.com.tr http://www.hurriyet.com.tr http://www.hurriyet.com.tr http://www.hurriyet.com.tr http://www.milliyet.com.tr http://www.milliyet.com.tr http://www.milliyet.com.tr http://www.milliyet.com.tr http://www.zaman.com.tr http://www.zaman.com.tr http://www.zaman.com.tr http://www.zaman.com.tr http://www.zaman.com.tr http://www.ntvmsnbc.com http://www.ntvmsnbc.com http://www.ntvmsnbc.com http://www.ntvmsnbc.com http://www.ntvmsnbc.com http://www.ntvmsnbc.com

Esra Nergis Gven / Hakan Onur / eref Sarolu Kltr Sanat Kltr Sanat Kltr Sanat Kltr Sanat Kltr Sanat Kltr Sanat Kltr Sanat Kltr Sanat Kltr Sanat Kltr Sanat Kltr Sanat Kltr Sanat Kltr Sanat Kltr Sanat Kltr Sanat Kltr Sanat Kltr Sanat Kltr Sanat Kltr Sanat 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0000 0.0206 0.0000 0.0000 0.0000 0.0001 0.0000 0.0041 0.0000 0.0441 0.0000 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.9941 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.9843 1.0000 0.9993 1.0000

Gelitirilen yaklamla, Hrriyet, Zaman, Radikal gazeteleri web siteleri ile NTVMSNBC web sitesindeki denemelerde %99a varan oranlarda mutlak sonu elde edilmitir. Burada sonular verilmemi olsa da baz gazetelerin web sitelerinde yaplan testlerde baar orannn %80lere dt grlmtr. Baar oranlarndaki deiimin birok nedeni vardr: Kelime haritas oluturulurken yaplan tarama miktar, test sonucu alnan sayfadaki metnin aslnda ierik olarak farkl kategoriye ait olmas, sayfann bir blmnde bulunan bilgilendirme niteliindeki metinlerin yanltc olmas, eitim kmesi oluturulurken yaplan taramann geni kapsaml olmamas vb. gibi. Ancak bu sebeplerin kolaylkla ortadan kaldrlmas ve baar oran dk olan sayfalarda da bu orann ykseltilmesi mmkndr. Uygulama Arayz Web sayfalarn kategorize etme ilemi iin YSAda kullanlacak olan eitim ve test kmelerinin oluturulmas ve ilerleyen aamalarda ise sayfalarn hangi kategoride olduunun gsterilmesi iin gerekletirilen almann arayz ekil 3te gsterilmitir.

172

Yapay Sinir Alar

Bilgi Dnyas 2008, 9(1):158-178

ekil 3. Uygulama Arayz

Eitim ve test kmelerini oluturmak amacyla gezilecek olan web sayfalarnn adresleri URL satrna yazlarak o sayfadaki kelimeler ayrtrlm ve karakterden uzun olan kelimeler Parse to Cat tuu ile tutulmutur. Ayn kategoriden birok sayfa gezilerek bu kategoride en ok rastlanan kelimeler ekran ktsnda grlen S tuuyla sralatlarak ait olduu kategori iin tekrarlama saysyla birlikte kaydedilmitir. Belirlenen kategori iin farkl sayfalar gezilerek elde edilen zellik matrislerinden eitim kmesi oluturulmas iin Save ANNT ile kaydedilmitir. Kelime haritasnda belirlenen 60 kelimenin xi deerlerini, 30 farkl sayfa rnei iin ieren bu kme YSAnn eitilmesinde giri olarak kullanlmtr. k olarak ise ait olduu kategoriye gre [1 0 0], [0 1 0] veya [0 0 1] kullanlmtr. Daha nceden tanmlanm olan YSA yapsna elde edilen giri ve klar verilerek Train tuu ile 173

Bilgi Dnyas 2008, 9(1):158-178

Esra Nergis Gven / Hakan Onur / eref Sarolu

YSAnn eitimi gerekletirilmitir. Eitim sonucunda elde edilen YSA modeli eitim sonras gezilecek olan web sayfalarnn kategorize edilmesi srasnda test iin kullanlmtr. Sonu olarak ekil 3te grlen program arayz hem eitim kmesinin oluturulmas ve YSAnn eitilmesi hem de kategorizasyon sonularnn grlmesinde byk kolaylklar salamtr. Bu nedenle yeni eitim kmesi oluturulmas ya da var olan eitim kmesine yeni kelimeler eklenmesi mmkndr. Eitim kmesinde deiiklik yaplmas durumunda, YSAnn tekrar eitilerek yeni arlklarn kaydedilmesi gerekmektedir. Bylece bundan sonra ziyaret edilecek sayfalar yeni eitim kmesine gre deerlendirilecektir. Deerlendirme ve Sonu Bu almada, web ortamlarnda bulunan verilerin doru bir ekilde otomatik olarak snflandrlabilmesi iin YSA temelli zeki bir snflandrma yaklam ve bu yaklamn kolaylkla uygulanabilmesi iin WeSaKa isimli bir yazlm baar ile gerekletirilmi ve uygulanmtr. Uygulama srasnda belirlenen bu kategorilerin saysnda ve tanmlamasnda herhangi bir snr yoktur. Ancak yeni kategoriler tanmlandka YSA yapsnn kt says deitirilmeli ve eitim yenilenmelidir. Bu almada uygulamann baarl olabilmesi iin iyi bir ablon seilmesi gerektii, ablon ieriinin fazla olmasnn sistemin renmesini zorlatrd gibi gereinden az olmasnn da YSA sonularndaki hata orannn artmasna yol at tespit edilmitir. Literatrde vurguland gibi konularn birbirine yaknl da sonularda nemli rol oynamtr. Spor konular ekonomi ve kltr konularndan uzak olduu iin olduka yksek baar salanabilirken, snflandrmada ekonomi ve kltr haberleri genelde i ie olduundan hata orannn artt gzlemlenmitir. Farkl sayfa rneklerinde doruluk orann Tablo 3te grdmz WeSaKann kategorilere gre ortalama sonular 174

Yapay Sinir Alar

Bilgi Dnyas 2008, 9(1):158-178

Tablo 4te verilmitir. Elde edilen sonulardan grlmtr ki gnmzde olduka nemli bir yer alan hatta ihtiya haline gelen metin kategorizasyonu zerine yaplan bu uygulamann ksa zamanda gerekletirilebilmesi ve sonularnn baaryla elde edilmesi, hem YSAnn gcn bir kez daha farkl bir uygulamada gstermekte hem de dokman kategorizasyonunda farkl ufuklar almasna byk katklar salayabilmektedir.
Tablo 4. Kategorilere Gre Skorlar

Kategoriler Spor Ekonomi Kltr Sanat

Spor 0,915075 0,000650 0,003815

Ekonomi 0,000160 0,882145 0,000000

Kltr Sanat 0,197115 0,092720 0,998855

Burada eitimin uzun sre almas bir dezavantaj gibi grnse de test ilemlerinde bu srenin saniyeler mertebesinde olduunu belirtmekte fayda vardr. Kelimelerin kklerinin ve kelime haritalarnn kartlmasnn nemi sonular incelendiinde daha iyi anlalmaktadr. Gerekletirilen almann planlanan sonraki adm kelime haritas alannda uygulamay daha da gelitirmektir. Bu alanda yaplacak olan alma, snflandrlacak kategori saysnn artmas durumunda eitim ve test veri kmelerinin hazrlanmasnda byk hz salayacaktr. Bu almann gelitirilmesinde karlalan glkler farkl ortamlar biraraya getiren bir arayz gelitirilmesi, kelime haritas oluturulurken dikkat edilmesi gereken hususlarn incelenmesi ve kategori iin belirleyici olacak olan optimum kelimelerin bulunmas, oluturulan kelime haritas iin eitim setinin oluturulmas, bu eitim setinin uygulanaca YSA yapsnn belirlenmesi ve en uygun yapy bulmak iin denemeler yaplmas olarak sylenebilir. Bu srada karlalan en byk glk eitim aamasnn uzun 175

Bilgi Dnyas 2008, 9(1):158-178

Esra Nergis Gven / Hakan Onur / eref Sarolu

zaman almas olmutur. Fakat yaplan almalardan sonra en iyi sonucu veren katman ve nron saylar, aktivasyon fonksiyonu ve renme algoritmas tercih edilmitir. Bu alma gelecekte daha byk sayda verilerle ve farkl web sitelerinde test edilecektir. Kaynaka Apte, C., Damerau, F. ve Weiss, S.M. (1994). Automated learning of decision rules for text categorization. ACM Transactions on Information Systems, 12, 233251. Google. (2007). 20 Nisan 2007 tarihinde http://www.google.com.tr/ intl/tr/why_use.html adresinden eriildi. Haykin, S. (1994). Neural networks: A comprehensive foundation. New York: Macmillan College. Joachims, T. (1997). Text categorization with support vector machines: Learning with many relevant features (Technical Report LS-8 Report: 23). Dortmund: University of Dortmund. Joachims, T. (1998). Text categorization with support vector machines: Learning with many relevant features. C. N'edellec ve C. Rouveirol (Ed.), Proceedings of the European Conference on Machine Learning iinde (s. 137-142). Berlin: Springer. Levenberg, K. (1944). A method for the solution of certain nonlinear problems in least squares. Quarterly of Applied Mathematics, 2, 164-168. Lewis, D. ve Ringuette, M. (1994). A comparison of two learning algorithms for text categorization. Proceedings of the Third Annual Symposium on Document Analysis and Information Retrieval (SDAIR94) iinde (s. 81-93). Las Vegas. Lewis, D.D., Schapire, R.E., Callan, J.P. ve Papka, R. (1996). Training algorithms for linear text classifiers. Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval iinde (s. 298-306). New York: ACM. 176

Yapay Sinir Alar

Bilgi Dnyas 2008, 9(1):158-178

Marquardt, D.W. (1963). An algorithm for least-squares estimation of nonlinear parameters. Journal of the Society for Industrial and Applied Mathematics, 11, 431-441. McCallum, A. ve Nigam, K. (1998). A comparison of event models for naive Bayes text classification. Learning for Text Categorization: Papers from the 1998 Workshop iinde (s. 4148). San Francisco, CA: AAAI Press. Miniwatts International Inc. Internet Usage Statistics: The Big Picture. (2006). 01 Aralk 2006 tarihinde http://www.internetworldstats.com/stats.htm adresinden eriildi. Moulinier, I. ve Ganascia, J.G. (1996). Applying an existing machine learning algorithm to text categorization. S. Wermter, E. Riloff ve G. Scheler (Ed.), Connectionist, statistical, and symbolic approaches to learning for natural language processing iinde (s. 343-354). Heidelberg: Springer Verlag. Ng, H.T., Goh, W.B. ve Low, K.L. (1997). Feature selection, perceptron learning, and a usability case study for text categorization. N.J. Belkin, A.D. Narasimhalu, P. Willett ve W. Hersh (Ed.), Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval iinde (s. 67-73). Philadelphia, PA: ACM. Ruiz, M.E. ve Srinivasan, P. (2002). Hierarchical text categorization using neural networks. Information Retrieval, 5, 87-118. Sarolu, ., Bedok, E. ve Erler, M. (2003). Mhendislikte yapay zek uygulamalar I: Yapay sinir alar. Kayseri: Ufuk Kitabevi. Shanks, V. ve Williams, H.E. (2001). Fast categorisation of large document collections. Proceedings: Eight Symposium on String Processing and Information Retrieval November 13-15, Laguna de San Rafael, Chile iinde (s. 194-204). San Rafael, Chile: IEEE Computer Society.

177

Bilgi Dnyas 2008, 9(1):158-178

Esra Nergis Gven / Hakan Onur / eref Sarolu

Wiener, E.D., Pedersen, J.O. ve Weigend, A.S. (1995). A neural network approach to topic spotting. Proceedings of the Fourth Annual Symposium on Document Analysis and Information Retrieval (SDAIR'95) iinde (s. 317-332). Las Vegas. Witten, I.H., Moffat, A. ve Bell, T.C. (1999). Managing gigabytes: Compressing and indexing documents and images. San Francisco, CA: Morgan Kaufmann. Yang, Y. ve Pedersen, J.O. (1997). A comparative study on feature selection in text categorization. Proceedings of the Fourteenth International Conference on Machine Learning (ICML97) iinde (s. 412-420). San Francisco, CA: Morgan Kaufmann. Yu, E.S. ve Liddy, E.D. (1999). Feature selection in text categorization using the Baldwin effect. Proceedings of IJCNN '99 (International Joint Conference on Neural Networks) iinde (s. 2924-2927). Washington, DC: IEEE Press.

178