Professional Documents
Culture Documents
zet
!eri madencili"i byk miktardaki #eriden anlaml$ bilginin %$kar$lmas$d$r. &azarlama' bankac$l$k' sigortac$l$k #e t$ sektr ba(ta olmak zere bir %ok sektrde etkin (ekilde kullan$lmaktad$r )*+. !eri madencili"i uygulamalar$ndan biri olan ,eb madencili"i' ,eb #erileri zerinde #eri madencili"i -onksiyonlar$n$ yerine getirir #e ,eb i%erik madencili"i ile ,eb kullan$m madencili"i gibi iki blme ayr$l$r. .eb i%erik madencili"i/ ,eb zerindeki -aydal$ bilginin ke(i- #e analizi ile ilgiliyken' kullan$c$ eri(im desenlerinin bulunmas$ ,eb i%erik madencili"i konusuna girmektedir. Bu %al$(mada ,eb eri(im gnlkleri kullan$larak sald$r$ tes iti ya $lmaya %al$($lm$(t$r. Bu ama%la haz$rlanan yaz$l$m ile GYTE kt hanesi ,eb sitesi gnlklerine dayal$ olarak kt hane kullan$c$lar$n$n eri(im desenleri yorumlanm$(t$r. 0onu% olarak sald$r$ ama%l$ eri(imler bulunmaya %al$($lm$(t$r.
! "iri
!eri madencili"i #e ,eb son zamanlar$n ge%erli iki ara(t$rma sahas$d$r. Bu iki sahan$n do"al kombinasyonu ,eb madencili"i olarak adland$r$l$r. .eb madencili"i kabaca ,ebten -aydal$ bilginin ke(-i olarak tan$mlanabilir )1+. Bu tan$m i%inde otomatik tarama' bilgi alma #e kullan$labilir kaynaklar$n milyonlarca ,eb sitesi #eya online #eritabanlar$ndan se%ilmesi ,eb i%erik madencili"i konusuna girerken bir #eya bir%ok ,eb sunucu #eya online ser#isten kullan$c$ eri(im desenlerinin analiz #e ke(-i ,eb kullan$m madencili"i konusuna girmektedir )2+. .eb i%erik madencili"i ak$ll$ yaz$l$m etmenleri 3,eb robotlar$' ,eb s iders #s.4 daha do"rusu makine "renimi #eya ya ay zeka 3machine learning5arti-icial intelligence4 ile ilgilidir. 0on zamanlarda dokmanlardan bilgi %$karma i%in 6M7 de kullan$lmaya ba(lanm$(t$r )8+. .eb i%erik madencili"i dokmanlardan bilgi %$kamada kullan$l$rken ,eb kullan$m madencili"i kullan$c$lar$n eri(imlerinden bilgi %$karmakta kullan$l$r. .eb kullan$m madencili"i sayesinde eri(im bilgileriyle kullan$c$ da#ran$(lar$ bulunabilmekte #e ki(iye zel hizmet olana"$ sa"lanabilmektedir.
1
.eb kullan$m madencili"i/ bir #eya bir%ok ,eb sunucudan kullan$c$ eri(im desenlerinin otomatik ke(-inin #e analizin ya $ld$"$ bir ti #eri madencili"i etkinli"idir. Bir%ok organizasyon azar analizleri i%in geli(tirdikleri stratejileri ziyaret%i bilgilerine dayanarak yerine getirir. ;rganizasyonlar gnlk o erasyonlarla hergn yzlerce MB #eri to lamaktad$r. Bu bilgilerin %o"u ,eb sunucular$n otomatik olarak tuttu"u gnlk dosyalar$ndan elde edilir. Gnlk dosyalar$nda' istemcinden sunucuya gnderilen her bir istek bir kay$t olarak tutulur. )<+ .eb #erilerinin analizi sonucunda bir ziyaret%inin sitede kalma sresi' hizmet stratejileri' etkin kam anyalar #e di"erleri bulunabilir. 9yr$ca siteye ba"lanan bir kullan$c$n$n hangi ama%la siteye ba"land$"$' kt niyetli bir kullan$c$ olu olmad$"$ da bulunabilmektedir. .eb kullan$m madencili"i/ ilk i(lem 3 re rocessing4' desen ke(-i 3 attern dsico#ery4 #e desen analiz 3 attern analysis4 a(amalar$ndan olu(ur. .eb kullan$m madencili"i esnas$nda ayr$(t$r$lacak #eri a(a"$daki ti lerden birinde olabilir. =%erik #erisi 3>ontent4 Ya $ #erisi 30tructure4 ?ullan$m #erisi 3@sage4
lk lem Bu a(amada sat$rlardan olu(an kullan$m #erisi soyutlamalara dn(trlr. 0oyutlamalar/ kullan$c$' say-a grnm' click stream' kullan$c$ oturumu #e sunucu oturumu (eklinde olabilmektedir. Desen Ke'i Aesen ke(-i/ istatistik' uyum kurallar$ 3association rules4' kmeleme 3clustering4' s$n$-lama 3classi-ication4 #e s$ral$ desenler 3seBuential atterns4 gibi tekniklerle yerine getirilir. Desen (naliz Aesen ke(-i a(amas$nda ortaya %$kar$lan kural #eya desenlerin analiz edilmesi i(lemidir. Bilgi sorgulama #e ;79& i(lemleri ile derinlemesine analizler ya $labilmektedir )C+.
!eri madencili"i sald$r$ tes iti i%in kullan$lan tekniklerden biridir. Ezellikle sald$r$ bilgilerinin analiz edilmesinde kullan$l$r. 0er#er zerinde tutulan log dosyalar$ ya $lan ba"lant$ #e istek bilgilerini tutarlar. Bu dosyalardaki ba"lant$ bilgilerinden sald$r$ ama%l$ ba"lant$lar bulunabilir. Faz$rlanan yaz$l$mlar sayesinde ser#era ya $lan ba"lant$ s$kl$klar$ndan #eya ser#erdan istenen dosya ti lerinden bir sald$r$ olay$n$n olu olmad$"$ #e sald$r$y$ ya an$n kim oldu"u rahat%a bulunabilir. !eri madencili"i tekniklerinden s$n$-land$rma #e kmeleme sald$rgan$ tan$ma maksatl$ kullan$labilir. 9yr$ca sald$r$lar bazen istisna durumlar olarak ortaya %$kt$klar$ndan istisna sa tanmas$ uygulamas$ olarakta sonu% elde edilebilir. 0ald$r$ tes it sistemleri modern g#enlik aketlerinin bir ar%as$d$r. =mza tabanl$ bir tan$ma sistemidir. Bu metotlar %e(itli #eriler i%inden zellikler %$karmak #e uzmanlar tara-$ndan belirtilen kurallara gre sald$r$lar$ bulmak i%in kullan$l$r. Bu yntem sisteme bir atak ya $ld$"$nda #eritaban$na atak bilgilerinin girilmesi (eklinde i(ler. Yeni bir atak geldi"inde bunun bir atak oldu"u ba(ta tan$nmaz ancak ikinci se-er atak geldi"inde sistem
2
onu tan$r #e ona gre muamele ya ar. Bunun i%in bir sald$r$ gelmeden o nce sald$r$ i%in kestirimde bulunmak amac$yla #eri madencili"i #e makine "renimi algoritmalar$ kullan$labilir. Bylece yeni ataklar tan$nabilir )G+. 0ald$r$ tes iti konusunda #eri madencili"i tekniklerinden kmelemeyi kullanmak s$n$-lamay$ kullanmaktan daha etkin bir yntemdir. 0$n$-lama ya $l$rken nceden baz$ de"erlerin uzmanlar tara-$ndan girilmesi gerekmektedir -akat kmeleme ya $ld$"$nda sistem kendi kendine bilgilenmekte #e yeni bir durumun sald$r$ olu olmad$"$n$ daha kolay belirleyebilmektedir )*H+.
8
Bu #erilere dayanarak uanlama ya $ld$"$nda 1' 2 #e 8 numaral$ bilgisayarlar$n hacker bilgisayarlar$ oldu"u ortadad$r. Yo"unluk testi ile de ayn$ bilgisayarlar$n hackerlara ait oldu"u bulunabilmektedir. Fitlerden elde edilen katsay$lar ile dosya niteliklerinden elde edilen birim uanlar$n belli bir i(lemden ge%irilmesi sonucu elde edilen uanlar ile kullan$c$lar benzer grublar halinde to lanabilir #e bylece kmelenmeleri mmkn hale gelmi( olur. Birim &uanlar =lk.htm 1 Fesa Edilmi( &uanlar Bilg. * Bilg. 1 Bilg. 2 Bilg. 8 Bilg. : =lk.htm 211 H H H *:8 J.as <<8 H H H *888 J.htm <:1 H H H 8HD J.j g :: H H H *8* J.gi:D H H H **C J.eIe H 5*H<2 5D82 5<HH 5* J.dll H 51*H 5*<C 5*1H H J.ida H H H 5*11 5*H &@9K *C:* 5*1C2 5*H*H 5D81 11:2 J.as 8 J.htm 1 J.j g * J.gi* J.eIe 5* J.dll 5* J.ida 5*
Bu sonu%lara gre *. #e :. bilgisayarlar benzer gzatma etkinli"i gsterirken' 1.' 2. #e 8. bilgisayarlarda kendi aralar$nda benzer gzatma etkinli"i gstermi(lerdir. *!#! "elitirilen ,y-ulamann .arkllklar .eb kullan$m #erilerinden elde edilen bilgiler kimi zaman en iyi m(teriyi bulmak i%in kullan$l$rken 3elektronik ticarette4 kimi zamanda kt niyetli kullan$c$y$ bulmak i%in kullan$labilir. Faz$rlanan yaz$l$m yoluyla elde edilen #eriler gz nne al$nd$"$nda sald$r$n$n a(a"$daki durumlarda meydana gelmi( olabilece"i anla($ld$. Bir kullan$c$n$n ba"lant$ say$s$ di"er kullan$c$lar$n ortalama ba"lant$ say$lar$n$n %ok stnde ise o kullan$c$ sald$r$ ya $yor olabilir. Bir kullan$c$ ,eb sitesinin nesnelerini de"ilde ba(ka nesneleri istiyorsa bu kullan$c$ sald$r$ niyetli ya $yor #e sistemin a%$klar$n$ ar$yor olabilir. 3sistemden .eIe #e .dll uzant$l$ dosya iste"inde bulunanlar4 0isteme tek bir istek gnderen kullan$c$lar sald$r$ ya $yor olabilir. Yukar$daki kriterlere uyanlar$n L& adresleri sald$r$ #eritaban$na at$lmakta #e bu kullan$c$lar$n ger%ekten kt niyetli olu olmad$klar$ oturumlar$ incelenerek bulunmaktad$r. ?esin olarak sald$r$ ya t$"$ bulunan kullan$c$ bilgileri ilgili yere gnderilmektedir. Mnk sald$r$ tes iti su%luyu bulur #e sisteme teslim eder. ;rtalama ba"lant$ say$lar$n$n bulunmas$ #e zararl$ dosyalar$n hangileri oldu"u gibi bilgiler #eritaban$n$n e"itilmesi sonucu bulunmaktad$r. Bu bilgiler zamanla de"i(mekte #e hata oran$ gittik%e d(rlmektedir. Bu uygulamada sald$r$ tes iti i%in #eri madencili"i tekniklerinden s$n$-lama #e kmeleme kullan$lmaktad$r. Nzerinde %al$($lan #eri ise ,eb kullan$mlar$ndan elde edilen ,eb kullan$m #erisidir. Bu #eriler log dosyalar$ndan elde edilmi( olu kimi yerde (irketin genel stratejisi i%in -aydal$ bilgi retimine yarar kimi yerde de (irketin g#enlik stratejisi i%in -aydal$ bilgi sa"lar. Burada ya $lan g#enlik ama%l$ olarak #eri madencili"i tekniklerinin uygulanmas$d$r.
/! Sonu0
!eri madencili"i elde bulunan #eriden i( ak$($na -aydal$ bilginin a%$"a %$kar$lmas$ i%in kullan$lmaktad$r. .eb zerinde i( ya an kullan$c$lar gzatma etkinlikleri sayesinde sunucuya #eri sa"larlar. Bu #eriler sunucu zerinde gnlk dosyalar$nda tutulur. Fizmetin kalitesi zerinde #eri madencili"i tekniklerinden -aydalan$ld$"$ kadar hizmetin de#am$ konusunda da #eri madencili"i tekniklerinden -aydalan$l$r. Fizmetin de#am$ i%in hizmet de#aml$l$"$n$ sekteye u"ratacak zararl$ etkilerin tes iti ile de#aml$k sa"lanabilmektedir.
:
Me(itli tekniklerle yerine getirilen sald$r$ tes itinde #eri madencili"inin nemli bir yeri bulunmaktad$r. Bir elektronik ticaret sitesi i%in en iyi m(teri #eri madencili"i sayesinde bulunabildi"i gibi bir hacker da ayn$ yntemlerle bulunabilir 3kt kullan$c$4.
Kaynaklar
*. >onnolly' Thomas M.' Begg.' >arolyn E. 3*GGG4. 1Database Systems a 2ractical (pproach to Desi-n 3mplementation and &ana-ement4 1. Etzioni' ;ren. 3*GG<4. OThe %orld5%ide %eb6 7ua-mire or "old &ine8P 2. >ooley' Qobert.' Mobasher' Bamshad.' 0ri#asta#a' Raidee . 3*GGC4. 1%eb &inin-6 3n'ormation and 2attern Disco$ery on the %orld %ide %eb4 8. Garo-alakis' Minos K.' Qastogi' Qajee#. Bell 7aboratories 3*GGG4. 1Data &inin- and the %eb6 2ast9 2resent and .uture4 :. Burak Aay$o"lu' 1Elektronik Saldr Tespiti49 htt STT,,,.teknoturk.orgTdockingTyazilarTttHHHH1<5 yazi.htm <. & Roshi' ?aruna.' Roshi' 9nu am. 3*GGG4. 1%arehousin- and &inin- %eb :o-s4 C. Aegang' Uin!9 Vhongtao' Veng.' >. 0. &aterno' Margarita 3*GGG4 1%eb ,sa-e &inin-4 D. VaWane' ;smar Q.' 6in' Man.' Fan' Ria,ei 3*GGD4. Disco$erin- %eb (ccess 2atterns and Trends by (pplyin- ;:(2 and Data &inin- Technolo-y on %eb :o-s G. Eleazar Eskin' 9ndre, 9rnold' Michael &rerau' 7eonid &ortnoy' 0al 0tol-o 31HH*4' 1( "eometric .rame<ork 'or ,nsuper$ised (nomaly Detection6 Detectin- 3ntrusion in ,nlabeled Data4 *H. 7eonid &ortnoy 31HH*4' 13ntrusion detection <ith unlabeled data usin- clusterin-4 **. Xu ?an,al reet' Yongjian.' 0hih' 0andhu Ming5Yi 3*GGG4 1=lusterin- o' %eb ,sers >ased on (ccess 2atterns4