You are on page 1of 5

*

Kullanc Eriim Desenleriyle Saldr Tespiti


Hidayet Takc Gebze Yksek Teknoloji Enstits Bilgisayar Mh. Blm htakci@bilmuh.gyte.edu.tr brahim Soukpnar Gebze Yksek Teknoloji Enstits Bilgisayar Mh. Blm is inar@bilmuh.gyte.edu.tr

zet
!eri madencili"i byk miktardaki #eriden anlaml$ bilginin %$kar$lmas$d$r. &azarlama' bankac$l$k' sigortac$l$k #e t$ sektr ba(ta olmak zere bir %ok sektrde etkin (ekilde kullan$lmaktad$r )*+. !eri madencili"i uygulamalar$ndan biri olan ,eb madencili"i' ,eb #erileri zerinde #eri madencili"i -onksiyonlar$n$ yerine getirir #e ,eb i%erik madencili"i ile ,eb kullan$m madencili"i gibi iki blme ayr$l$r. .eb i%erik madencili"i/ ,eb zerindeki -aydal$ bilginin ke(i- #e analizi ile ilgiliyken' kullan$c$ eri(im desenlerinin bulunmas$ ,eb i%erik madencili"i konusuna girmektedir. Bu %al$(mada ,eb eri(im gnlkleri kullan$larak sald$r$ tes iti ya $lmaya %al$($lm$(t$r. Bu ama%la haz$rlanan yaz$l$m ile GYTE kt hanesi ,eb sitesi gnlklerine dayal$ olarak kt hane kullan$c$lar$n$n eri(im desenleri yorumlanm$(t$r. 0onu% olarak sald$r$ ama%l$ eri(imler bulunmaya %al$($lm$(t$r.

! "iri
!eri madencili"i #e ,eb son zamanlar$n ge%erli iki ara(t$rma sahas$d$r. Bu iki sahan$n do"al kombinasyonu ,eb madencili"i olarak adland$r$l$r. .eb madencili"i kabaca ,ebten -aydal$ bilginin ke(-i olarak tan$mlanabilir )1+. Bu tan$m i%inde otomatik tarama' bilgi alma #e kullan$labilir kaynaklar$n milyonlarca ,eb sitesi #eya online #eritabanlar$ndan se%ilmesi ,eb i%erik madencili"i konusuna girerken bir #eya bir%ok ,eb sunucu #eya online ser#isten kullan$c$ eri(im desenlerinin analiz #e ke(-i ,eb kullan$m madencili"i konusuna girmektedir )2+. .eb i%erik madencili"i ak$ll$ yaz$l$m etmenleri 3,eb robotlar$' ,eb s iders #s.4 daha do"rusu makine "renimi #eya ya ay zeka 3machine learning5arti-icial intelligence4 ile ilgilidir. 0on zamanlarda dokmanlardan bilgi %$karma i%in 6M7 de kullan$lmaya ba(lanm$(t$r )8+. .eb i%erik madencili"i dokmanlardan bilgi %$kamada kullan$l$rken ,eb kullan$m madencili"i kullan$c$lar$n eri(imlerinden bilgi %$karmakta kullan$l$r. .eb kullan$m madencili"i sayesinde eri(im bilgileriyle kullan$c$ da#ran$(lar$ bulunabilmekte #e ki(iye zel hizmet olana"$ sa"lanabilmektedir.

#! Saldr Tesbit Sistemleri $e %eb Kullanm &adencilii


Saldr Tespit Sistemleri Bilgisayar sistemlerine #eya di"er sistemlere kimi zaman %e(itli sald$r$lar dzenlenmekte #e bu sald$r$lar$n nereden geldi"i genellikle bilinmeye %al$($lmaktad$r. 0ald$r$ tes it sistemlerine ger%ek hayattan #erilebilecek en iyi rnek g#enlik kameralar$d$r. 0ald$rgan hakk$nda bilgi to lamak amac$yla kullan$l$r. 9larm sisteminden -ark$ sald$r$ esnas$nda te ki #ermez sadece daha sonras$ i%in bilgi to lar. ):+ 0ald$r$ tes iti sunucu #eya a" cihazlar$ zerinde ya $labilmektedir. 9" cihazlar$ zerinde sald$r$ tes iti ya an sistemler a" cihaz$ zerindeki sensrlerin gnderdi"i bilgiler ile sald$r$n$n nereden #e kimden geldi"ini bulmaya yararlar. 0er#er zerinde ya $lan sald$r$ tes iti %al$(malar$nda ise ser#er olan makinede to lanan bilgilerin analizi ile sald$r$ tes iti ya $lmaktad$r. %eb Kullanm &adencilii

1
.eb kullan$m madencili"i/ bir #eya bir%ok ,eb sunucudan kullan$c$ eri(im desenlerinin otomatik ke(-inin #e analizin ya $ld$"$ bir ti #eri madencili"i etkinli"idir. Bir%ok organizasyon azar analizleri i%in geli(tirdikleri stratejileri ziyaret%i bilgilerine dayanarak yerine getirir. ;rganizasyonlar gnlk o erasyonlarla hergn yzlerce MB #eri to lamaktad$r. Bu bilgilerin %o"u ,eb sunucular$n otomatik olarak tuttu"u gnlk dosyalar$ndan elde edilir. Gnlk dosyalar$nda' istemcinden sunucuya gnderilen her bir istek bir kay$t olarak tutulur. )<+ .eb #erilerinin analizi sonucunda bir ziyaret%inin sitede kalma sresi' hizmet stratejileri' etkin kam anyalar #e di"erleri bulunabilir. 9yr$ca siteye ba"lanan bir kullan$c$n$n hangi ama%la siteye ba"land$"$' kt niyetli bir kullan$c$ olu olmad$"$ da bulunabilmektedir. .eb kullan$m madencili"i/ ilk i(lem 3 re rocessing4' desen ke(-i 3 attern dsico#ery4 #e desen analiz 3 attern analysis4 a(amalar$ndan olu(ur. .eb kullan$m madencili"i esnas$nda ayr$(t$r$lacak #eri a(a"$daki ti lerden birinde olabilir. =%erik #erisi 3>ontent4 Ya $ #erisi 30tructure4 ?ullan$m #erisi 3@sage4

lk lem Bu a(amada sat$rlardan olu(an kullan$m #erisi soyutlamalara dn(trlr. 0oyutlamalar/ kullan$c$' say-a grnm' click stream' kullan$c$ oturumu #e sunucu oturumu (eklinde olabilmektedir. Desen Ke'i Aesen ke(-i/ istatistik' uyum kurallar$ 3association rules4' kmeleme 3clustering4' s$n$-lama 3classi-ication4 #e s$ral$ desenler 3seBuential atterns4 gibi tekniklerle yerine getirilir. Desen (naliz Aesen ke(-i a(amas$nda ortaya %$kar$lan kural #eya desenlerin analiz edilmesi i(lemidir. Bilgi sorgulama #e ;79& i(lemleri ile derinlemesine analizler ya $labilmektedir )C+.

)! %eb &iner Tasarm


Bugn bir%ok resmi #e zel kurum #eya kurulu( i(lerini ,eb zerinde ya maktad$r. Gnlk i(lemler dolay$s$yla byk hacimli #eriler to lanmakta #e retilmektedir. Bu #eriler genellikle ,eb sunucular tara-$ndan otomatik olarak to lanmakta olu sunucu #eya eri(im gnlklerinde tutulmaktad$r. )D+ Bu gnlklerin ayr$(t$r$lmas$ #e analiz edilmesi de"erli bilgi sa"lamaktad$r. Gnlk dosyas$ analizleri sayesinde hede- kitleye #e zel kullan$c$ grublar$na hizmet #erilebilmektedir. Bu %al$(mada GYTE kt hanesi ,eb sitesinde ya $lan sald$r$lar$n ,eb loglar$na dayal$ olarak tes itine %al$($lacakt$r. )! Saldr Tespiti

!eri madencili"i sald$r$ tes iti i%in kullan$lan tekniklerden biridir. Ezellikle sald$r$ bilgilerinin analiz edilmesinde kullan$l$r. 0er#er zerinde tutulan log dosyalar$ ya $lan ba"lant$ #e istek bilgilerini tutarlar. Bu dosyalardaki ba"lant$ bilgilerinden sald$r$ ama%l$ ba"lant$lar bulunabilir. Faz$rlanan yaz$l$mlar sayesinde ser#era ya $lan ba"lant$ s$kl$klar$ndan #eya ser#erdan istenen dosya ti lerinden bir sald$r$ olay$n$n olu olmad$"$ #e sald$r$y$ ya an$n kim oldu"u rahat%a bulunabilir. !eri madencili"i tekniklerinden s$n$-land$rma #e kmeleme sald$rgan$ tan$ma maksatl$ kullan$labilir. 9yr$ca sald$r$lar bazen istisna durumlar olarak ortaya %$kt$klar$ndan istisna sa tanmas$ uygulamas$ olarakta sonu% elde edilebilir. 0ald$r$ tes it sistemleri modern g#enlik aketlerinin bir ar%as$d$r. =mza tabanl$ bir tan$ma sistemidir. Bu metotlar %e(itli #eriler i%inden zellikler %$karmak #e uzmanlar tara-$ndan belirtilen kurallara gre sald$r$lar$ bulmak i%in kullan$l$r. Bu yntem sisteme bir atak ya $ld$"$nda #eritaban$na atak bilgilerinin girilmesi (eklinde i(ler. Yeni bir atak geldi"inde bunun bir atak oldu"u ba(ta tan$nmaz ancak ikinci se-er atak geldi"inde sistem

2
onu tan$r #e ona gre muamele ya ar. Bunun i%in bir sald$r$ gelmeden o nce sald$r$ i%in kestirimde bulunmak amac$yla #eri madencili"i #e makine "renimi algoritmalar$ kullan$labilir. Bylece yeni ataklar tan$nabilir )G+. 0ald$r$ tes iti konusunda #eri madencili"i tekniklerinden kmelemeyi kullanmak s$n$-lamay$ kullanmaktan daha etkin bir yntemdir. 0$n$-lama ya $l$rken nceden baz$ de"erlerin uzmanlar tara-$ndan girilmesi gerekmektedir -akat kmeleme ya $ld$"$nda sistem kendi kendine bilgilenmekte #e yeni bir durumun sald$r$ olu olmad$"$n$ daha kolay belirleyebilmektedir )*H+.

*! K+t+phane %eb Sitesinde Saldr Tespiti


.eb zerinde bulunan bilgi #e hizmetler her zaman sald$r$ya a%$k #aziyettedirler. 9l$nan g#enlik nlemleri ise sa#unma ama%l$ %al$(malard$r. 0ald$r$y$ ya an ki(i #eya ki(ilerin tes iti g#enlik a%$s$ndan nemli bir -aydad$r. 0ald$r$n$n kimlerden #e nerelerden geldi"i bilindi"i takdirde daha ak$lc$ nlemler al$nabilecektir. .eb zerinde hizmet #eren btn sitelerde ,eb kullan$m madencili"i ya $labilir #e her biri sistemin i(leyi(ine yard$mc$ bilgiler retir. .eb kullan$m madencili"i ya $labilecek yerlerden biride kt hane ,eb siteleridir. ?t hane ,eb sitelerine ya $labilecek sald$r$lar ,eb kullan$m madencili"i ya $larak bulunabilir. ?ullan$c$ da#ran$(lar$ bulunurken sald$rgan kullan$c$ da#ran$($ da bulunmu( olur. *! ! %eb kullanm madencilii ile saldr tespitinin yaplmas 0ald$r$ tes iti ya $l$rken kullan$labilecek tekniklerden birisi kullan$c$lar$n kmelenmesidir. ?melemede kullan$c$lar genel zelliklerine dayal$ olarak grublara ayr$l$rlar )**+. Benzer zellikleri ta($yan kullan$c$lar$ kmelemek stratejik a%$dan nemli bir #eri madencili"i i(idir. ?ullan$c$lar kabaca iyi kullan$c$lar #e iyi olmayan 3sald$rgan4 kullan$c$lar gibi iki gruba ayr$labilir. Eri(im ya $lan dosyalar$n niteli"i bir bak$ma eri(imi ya an kullan$c$lar$nda niteli"ini ortaya %$karmaktad$r. Erne"in' katalog tarama hizmeti gibi bir hizmeti kullanan kullan$c$yla site tan$t$m bilgilerine gzatan kullan$c$ ayn$ nitelikte de"ildir. Birisi sadece ziyaret maksad$yla siteye u"ram$(ken di"eri bir i( ya mak amac$yla siteye u"ram$(t$r. .eb log dosyalar$ derinlemesine analiz edildi"inde' ,eb sitesinden % ti te dosyan$n istendi"i ortaya %$km$(t$r. Ferhangibir i(le#i olan dosyalar 3genellikle .as uzant$l$ dosyalar ile #eritabanlari.htm4 Bilgi ama%l$ dosyalar 3genel.htm #eya ersonel.htm gibi dosyalar #e resimler4 0itede olmayan dosyalar 3eIe #e dll uzant$l$ #e siteye sald$r$ ama%l$ dosyalar4 Ferhangi bir i(le#e sahi olan dosyalar$ isteyen kullan$c$lar' kullan$m yo"unluklar$na gre iyi' daha iyi' en iyi (eklinde gru land$r$labilir. Bilgi ama%l$ dosyalar$ isteyen kullan$c$lara otansiyel iyi kullan$c$ gzyle bak$labilir. Bilgi ama%l$ dosyalar e"er iyi haz$rlanm$(sa siteye iyi kullan$c$ kazand$rmakta nemli bir i(le#e sahi olabilir. Baz$ kullan$c$lar ise sitede olmayan dosyalara istekte bulunmaktad$r. ; ti kullan$c$lar$n amac$ ,eb sunucu zerindeki bo(luklardan -aydalanarak sistemi %al$(maz hale getirmektir. Bu ti dosyalar$ isteyen kullan$c$lar tehlikeli #eya sald$rgan kullan$c$ olarak tan$mlanabilir. Ya $lan %al$(mada kullan$c$lar' eri(im ya t$klar$ dosya adetlerine gre uanland$ #e alm$( olduklar$ bu uanlara grede de"erlendirildiler. Faz$rlanan yaz$l$m ile elde edilen #erilerden baz$lar$ a(a"$dad$r. Bilg. * Bilg. 1 Bilg. 2 Bilg. 8 Bilg. : =lk.htm *<* H H H CC J.as *<< H H H 2<* J.htm 21< H H H 1H8 J.j g :: H H *8* J.gi:D H H H **C J.eIe H *H<2 D82 <HH * J.dll H 1*H *<C *1H H J.ida H H H *11 *H To lam *8<8 *1C2 *H*H D81 D2D

8
Bu #erilere dayanarak uanlama ya $ld$"$nda 1' 2 #e 8 numaral$ bilgisayarlar$n hacker bilgisayarlar$ oldu"u ortadad$r. Yo"unluk testi ile de ayn$ bilgisayarlar$n hackerlara ait oldu"u bulunabilmektedir. Fitlerden elde edilen katsay$lar ile dosya niteliklerinden elde edilen birim uanlar$n belli bir i(lemden ge%irilmesi sonucu elde edilen uanlar ile kullan$c$lar benzer grublar halinde to lanabilir #e bylece kmelenmeleri mmkn hale gelmi( olur. Birim &uanlar =lk.htm 1 Fesa Edilmi( &uanlar Bilg. * Bilg. 1 Bilg. 2 Bilg. 8 Bilg. : =lk.htm 211 H H H *:8 J.as <<8 H H H *888 J.htm <:1 H H H 8HD J.j g :: H H H *8* J.gi:D H H H **C J.eIe H 5*H<2 5D82 5<HH 5* J.dll H 51*H 5*<C 5*1H H J.ida H H H 5*11 5*H &@9K *C:* 5*1C2 5*H*H 5D81 11:2 J.as 8 J.htm 1 J.j g * J.gi* J.eIe 5* J.dll 5* J.ida 5*

Bu sonu%lara gre *. #e :. bilgisayarlar benzer gzatma etkinli"i gsterirken' 1.' 2. #e 8. bilgisayarlarda kendi aralar$nda benzer gzatma etkinli"i gstermi(lerdir. *!#! "elitirilen ,y-ulamann .arkllklar .eb kullan$m #erilerinden elde edilen bilgiler kimi zaman en iyi m(teriyi bulmak i%in kullan$l$rken 3elektronik ticarette4 kimi zamanda kt niyetli kullan$c$y$ bulmak i%in kullan$labilir. Faz$rlanan yaz$l$m yoluyla elde edilen #eriler gz nne al$nd$"$nda sald$r$n$n a(a"$daki durumlarda meydana gelmi( olabilece"i anla($ld$. Bir kullan$c$n$n ba"lant$ say$s$ di"er kullan$c$lar$n ortalama ba"lant$ say$lar$n$n %ok stnde ise o kullan$c$ sald$r$ ya $yor olabilir. Bir kullan$c$ ,eb sitesinin nesnelerini de"ilde ba(ka nesneleri istiyorsa bu kullan$c$ sald$r$ niyetli ya $yor #e sistemin a%$klar$n$ ar$yor olabilir. 3sistemden .eIe #e .dll uzant$l$ dosya iste"inde bulunanlar4 0isteme tek bir istek gnderen kullan$c$lar sald$r$ ya $yor olabilir. Yukar$daki kriterlere uyanlar$n L& adresleri sald$r$ #eritaban$na at$lmakta #e bu kullan$c$lar$n ger%ekten kt niyetli olu olmad$klar$ oturumlar$ incelenerek bulunmaktad$r. ?esin olarak sald$r$ ya t$"$ bulunan kullan$c$ bilgileri ilgili yere gnderilmektedir. Mnk sald$r$ tes iti su%luyu bulur #e sisteme teslim eder. ;rtalama ba"lant$ say$lar$n$n bulunmas$ #e zararl$ dosyalar$n hangileri oldu"u gibi bilgiler #eritaban$n$n e"itilmesi sonucu bulunmaktad$r. Bu bilgiler zamanla de"i(mekte #e hata oran$ gittik%e d(rlmektedir. Bu uygulamada sald$r$ tes iti i%in #eri madencili"i tekniklerinden s$n$-lama #e kmeleme kullan$lmaktad$r. Nzerinde %al$($lan #eri ise ,eb kullan$mlar$ndan elde edilen ,eb kullan$m #erisidir. Bu #eriler log dosyalar$ndan elde edilmi( olu kimi yerde (irketin genel stratejisi i%in -aydal$ bilgi retimine yarar kimi yerde de (irketin g#enlik stratejisi i%in -aydal$ bilgi sa"lar. Burada ya $lan g#enlik ama%l$ olarak #eri madencili"i tekniklerinin uygulanmas$d$r.

/! Sonu0
!eri madencili"i elde bulunan #eriden i( ak$($na -aydal$ bilginin a%$"a %$kar$lmas$ i%in kullan$lmaktad$r. .eb zerinde i( ya an kullan$c$lar gzatma etkinlikleri sayesinde sunucuya #eri sa"larlar. Bu #eriler sunucu zerinde gnlk dosyalar$nda tutulur. Fizmetin kalitesi zerinde #eri madencili"i tekniklerinden -aydalan$ld$"$ kadar hizmetin de#am$ konusunda da #eri madencili"i tekniklerinden -aydalan$l$r. Fizmetin de#am$ i%in hizmet de#aml$l$"$n$ sekteye u"ratacak zararl$ etkilerin tes iti ile de#aml$k sa"lanabilmektedir.

:
Me(itli tekniklerle yerine getirilen sald$r$ tes itinde #eri madencili"inin nemli bir yeri bulunmaktad$r. Bir elektronik ticaret sitesi i%in en iyi m(teri #eri madencili"i sayesinde bulunabildi"i gibi bir hacker da ayn$ yntemlerle bulunabilir 3kt kullan$c$4.

Kaynaklar
*. >onnolly' Thomas M.' Begg.' >arolyn E. 3*GGG4. 1Database Systems a 2ractical (pproach to Desi-n 3mplementation and &ana-ement4 1. Etzioni' ;ren. 3*GG<4. OThe %orld5%ide %eb6 7ua-mire or "old &ine8P 2. >ooley' Qobert.' Mobasher' Bamshad.' 0ri#asta#a' Raidee . 3*GGC4. 1%eb &inin-6 3n'ormation and 2attern Disco$ery on the %orld %ide %eb4 8. Garo-alakis' Minos K.' Qastogi' Qajee#. Bell 7aboratories 3*GGG4. 1Data &inin- and the %eb6 2ast9 2resent and .uture4 :. Burak Aay$o"lu' 1Elektronik Saldr Tespiti49 htt STT,,,.teknoturk.orgTdockingTyazilarTttHHHH1<5 yazi.htm <. & Roshi' ?aruna.' Roshi' 9nu am. 3*GGG4. 1%arehousin- and &inin- %eb :o-s4 C. Aegang' Uin!9 Vhongtao' Veng.' >. 0. &aterno' Margarita 3*GGG4 1%eb ,sa-e &inin-4 D. VaWane' ;smar Q.' 6in' Man.' Fan' Ria,ei 3*GGD4. Disco$erin- %eb (ccess 2atterns and Trends by (pplyin- ;:(2 and Data &inin- Technolo-y on %eb :o-s G. Eleazar Eskin' 9ndre, 9rnold' Michael &rerau' 7eonid &ortnoy' 0al 0tol-o 31HH*4' 1( "eometric .rame<ork 'or ,nsuper$ised (nomaly Detection6 Detectin- 3ntrusion in ,nlabeled Data4 *H. 7eonid &ortnoy 31HH*4' 13ntrusion detection <ith unlabeled data usin- clusterin-4 **. Xu ?an,al reet' Yongjian.' 0hih' 0andhu Ming5Yi 3*GGG4 1=lusterin- o' %eb ,sers >ased on (ccess 2atterns4

You might also like