Professional Documents
Culture Documents
GAZOSMANPAA NVERSTES
SALIK BLMLER ENSTTS
Hazrlayan
Yunus Emre Kuyucu
Danman
Yrd. Do. Dr. nal Erkorkmaz
Tokat-2012
T.C.
GAZOSMANPAA NVERSTES
SALIK BLMLER ENSTTS
Hazrlayan
Yunus Emre Kuyucu
Danman
Yrd. Do. Dr. nal Erkorkmaz
Tokat-2012
Jri yeleri
(Unvan, Ad Soyad)
mzas
Mhr
mza
T.C.
GAZOSMANPAA NVERSTES
SOSYAL BLMLER ENSTTS MDRLNE
04/01/2012
Tezi Hazrlayan rencinin
Ad ve Soyad
Yunus Emre KUYUCU
mzas
TEEKKR
Bu tezin hazrlanmas aamasnda yardmlarn esirgemeyen, bana almamn
her aamasnda deneyim ve bilgileri ile yol gsteren danman hocam Yrd. Do. Dr.
nal ERKORKMAZ a, hocam Yrd. Do. Dr. lker ETKAN a, sevgisi ve destei ile
hep yanmda ve kalbimde olan eim Nagehan KUYUCU ya, biricik yavrumuz Elif Naz
KUYUCU ya ve desteklerinden dolay tm aileme teekkr ediyorum.
ZET
Anahtar kelimeler: Lojistik Regresyon Analizi (LRA), Yapay Sinir Alar (YSA),
Snflandrma Ve Regresyon Aalar (C&RT), Prostat Kanseri.
ii
ABSTRACT
Key words: Logistic Regression Analysis (LRA), Artificial Neural Networks (ANN),
Classfication and Regression Trees (C&RT), Prostate Cancer.
iii
NDEKLER
ZET
ABSTRACT
NDEKLER
TABLOLAR LSTES
EKLLER LSTES
KISATMALAR VE SMGELER
V
V
X
1.
GR VE AMA
2.
GENEL BLGLER
8
9
18
19
24
26
27
29
30
30
31
32
38
38
39
39
42
44
47
47
47
iv
2.2.3. Tehis
2.2.3.1. Prostatn Parmakla Muayenesi
2.2.3.2. Prostata zg Antijenin Belirlenmesi (PSA)
2.2.3.3. Makattan (rektum) Ultrason Muayenesi (TRUS)
3.
GERE VE YNTEM
48
48
48
49
50
55
55
56
57
58
61
61
63
64
65
66
69
69
71
72
72
73
3.4.
73
3.5.
WEKA
75
4.
BULGULAR
78
4.1.
TANIMLAYICI STATSTKLER
78
4.2.
81
4.3.
86
4.4.
93
4.5.
YNTEMLERN KARILATIRILMASI
5.
TARTIMA VE SONU
99
100
KAYNAKLAR
104
EKLER
111
Ek 1.
111
vi
TABLOLAR LSTES
Sayfa
Tablo 2.1.
25
Tablo 2.2.
26
Tablo 2.3.
32
Tablo 2.4.
49
Tablo 4.1.
78
Tablo 4.2.
78
Tablo 4.3.
79
Tablo 4.4.
80
Tablo 4.5.
82
Tablo 4.6.
82
Tablo 4.7.
82
Tablo 4.8.
83
Tablo 4.9.
86
Tablo 4.10.
86
Tablo 4.11.
87
Tablo 4.12.
93
Tablo 4.13.
93
vii
Tablo 4.14.
94
Tablo 4.15.
Dm 0 in Arlklar
94
Tablo 4.16.
Dm 1 in Arlklar
95
Tablo 4.17.
Dm 2 in Arlklar
95
Tablo 4.18.
Dm 3 in Arlklar
95
Tablo 4.19.
Dm 4 in Arlklar
96
Tablo 4.20.
99
viii
EKLLER LSTES
Sayfa
ekil 2.1.
ekil 2.2.
14
ekil 2.3.
22
ekil 2.4.
23
ekil 2.5.
24
ekil 2.6.
24
ekil 2.7.
26
ekil 2.8.
28
ekil 2.9.
33
ekil 2.10.
Basamak Fonksiyonlar
34
ekil 2.11.
35
ekil 2.12.
35
ekil 2.13.
36
ekil 2.14.
37
ekil 2.15.
37
ekil 2.16.
38
ekil 2.17.
40
ix
ekil 2.18.
41
ekil 3.1.
56
ekil 3.2.
59
ekil 3.3.
62
ekil 3.4.
ok Katmanl Alglayc
63
ekil 3.5.
64
ekil 3.6.
67
ekil 4.1.
79
ekil 4.2.
79
ekil 4.3.
80
ekil 4.4.
80
ekil 4.5.
81
ekil 4.6.
81
ekil 4.7.
83
ekil 4.8.
84
ekil 4.9.
84
ekil 4.10.
85
ekil 4.11.
85
ekil 4.12.
87
ekil 4.13.
90
ekil 4.14.
91
ekil 4.15.
91
ekil 4.16.
92
ekil 4.17.
92
ekil 4.18
94
ekil 4.19
96
ekil 4.20
97
ekil 4.21
97
ekil 4.22
98
ekil 4.22
98
xi
KISATMALAR ve SMGELER
C&RT
YSA
LRA
ROC
AUC
VM
Veri Madencilii
CHAID
MARS
QUEST
SLIQ
SPRINT
ID3
Iterative Dichotomiser 3
ok
1. GR ve AMA
Gnmzde teknolojinin hzl geliimi ile tm sektrlerden elde edilen veri
miktar devasa boyutlara ulam ve verilerin toplanmas, saklanmas, ilenmesi gibi
problemler ortaya kmtr. yle ki bugn dnyadaki bilgi miktarnn her yirmi ayda
bir ikiye katland kabul edilmektedir. Bu problemlere, gelien bilgisayar teknolojileri,
kapasitesi ve ilem gc artan donanmlar ve yazlmlar ile birlikte zm sunmaya
almtr. Bu zmlerinde en nemlisi veri tabanlar alanndaki ilerlemelerdir. Ancak
veritaban sistemlerinin artan kullanm ve hacimlerindeki olaanst art, iletmeleri
toplanan verilerden nasl faydalanlabilecei problemi ile kar karya brakmtr. Veri
miktar arttka bu verilerin insanlarca anlalmas zorlam; veriler ierisinde sakl
kalm yararl bilginin elde edilmesi ve Karar Destek Sistemi erevesinde kullanm,
herhangi bir ara kullanmakszn olanaksz hale gelmitir. Geleneksel sorgu veya
raporlama aralarnn veri ynlar karsnda yetersiz kalmas, veri madencilii ve veri
madencilii altnda yaplan snflandrmalar gibi yeni araylara neden olmaktadr [1, 2,
3].
Snflandrma uygulamalarnda kullanlan pek ok model ve bu modellere ait
farkl algoritmalar vardr. Bu algoritmalardan hangisinin daha efektif sonular rettii,
hangi algoritmann hangi alanda daha baarl olduu sorusuna verilen cevaplar
uygulamalarn baarmn arttracak ve yaplan iin verimini arttracaktr. Bu sebeple
algoritmalarn karlatrlarak deerlendirilmesi byk nem arz etmektedir. ok
sayda algoritma olmas, her algoritmann kendi iinde farkl parametrelerle almas,
her algoritmann birden ok versiyonunun bulunmas, farkl algoritmalarn farkl amaca
ynelik olmas, kullanlan veri kaynann farkl olmas, algoritmalarn farkl veri
2. GENEL BLGLER
Veri Madenciliinde kullanlan modeller, temel olarak ekil 2.1de grld
zere tahmin edici (predictive) ve tanmlayc (descriptive) olmak zere iki ana balk
altnda incelenmektedir [26].
Tahmin edici modellerin amac, verilerden hareket ederek bir model gelitirmek
ve kurulan bu model yardmyla sonular bilinmeyen veri kmelerinin sonu
deerlerini tahmin etmektir. Eer tahmin edilecek deiken srekli bir deikense
tahmin problemi regresyon, kategorik bir deikense snflama problemi olarak
nitelendirilmektedir [2]. Tanmlayc modellerde ise karar vermeye rehberlik etmede
kullanlabilecek mevcut verilerdeki rntlerin tanmlanmas salanmaktadr.
Veri Madencilii modelleri fonksiyonlarna gre ise;
Snflama (Classification) ve Regresyon,
Kmeleme (Clustering),
f : D C ve her bir ti bir snfa dahildir. Ayrca her bir Cj ayr bir snftr ve her
bir snf kendisine ait kaytlar ierir. Yani,
C j = { t i l f { t i ) = C j ,\<i<n, ve t t G D } olarak tanmlanmaktadr.
Veri madencilii yntemleri ierisinde en yaygn kullanma sahip olan snflama
ve regresyon modelleri arasndaki temel farkllk baml deikenin kategorik veya
srekli olmasdr. Daha nce de bahsedildii gibi, eer baml deiken srekli ise
problem regresyon problemi, kategorik ise problem snflama problemi olarak
adlandrlr. Ancak lojistik regresyon gibi kategorik deerlerin de tahmin edilmesine
olanak veren yntemlerle, her iki model giderek birbirine yaklamakta ve bunun bir
sonucu olarak ayn yntemlerden yararlanlmas mmkn olmaktadr.
Snflama ve regresyon modellerinde kullanlan balca yntemler;
Yapay Sinir Alar (Artificial Neural Networks),
Karar Aalar (Decision Trees),
Lojistik Regresyon (Logistic Regression),
Genetik Algoritmalar (Genetic Algorithms),
K-En Yakn Komu (K-Nearest Neighbor),
Bellek Temelli Nedenleme (Memory Based Reasoning),
Naive-Bayes,
Bulank Kme Yaklam (Fuzzy Set Approach) dr [8].
almann kapsamnda yukarda saylan sz konusu yntemlerden Karar
Aalar, Lojistik Regresyon ve Yapay Sinir Alarnn zerinde durulacaktr.
2.1.1. Karar Aalar
Karar Aalar, verileri belli zellik deerlerine gre snflandrmaya yarar.
Bunun iin algoritmaya girdi olarak eitli veri zellikleri belirlenir. kt olarak da
10
belli bir veri zellii seilerek algoritmann bu kt zellii deerlerine ulamak iin
hangi girdi zelliklerinin bir arada olmas gerektiini aa veri yaplar eklinde
kefetmesi salanr [28].
Karar aalar, basit karar verme admlar uygulanarak, ok sayda kayt ieren
bir veri kmesini ok kk kayt gruplarna blmek iin kullanlan bir yapdr [29].
Her baarl blme ilemiyle, sonu gruplarnn yeleri bir dieriyle ok daha benzer
hale gelmektedir.
Bu teknikte snflandrma iin bir aa oluturulur, daha sonra veri tabanndaki
her bir kayt bu aaca uygulanr ve kan sonuca gre de bu kayt snflandrlr. Karar
aalar veri setinin ok karmak olduu durumlarda bile, baml deikeni etkileyen
deikenleri ve bu deikenlerin modeldeki nemini basit bir aa yaps ile grsel
olarak sunabilmektedir [8,28].
Karar aac yntemini kullanarak verinin snflanmas temel olarak iki admdan
olumaktadr. Birinci adm; nceden bilinen bir eitim verisinin model oluturmak
amac ile snflama algoritmas tarafndan zmlendii renme basamadr.
renilen model, snflama kurallar veya karar aac olarak gsterilir. kinci adm ise
eitim verisinin snflama kurallarnn veya karar aacnn doruluunu belirlemek
amacyla test edilerek kullanld snflamadr. Eer doruluk kabul edilebilir oranda
ise, kurallar yeni verilerin snflanmas amacyla kullanlr [8].
Karar aac algoritmalarn bir probleme uygulayabilmek iin aadaki
koullarn salanmas gerekir:
Olaylarn zelliklerle ifade edilebilmesi gerekir. Nesnelerin belli sayda zellik
deerleriyle ifade edilebilmesi gerekir. rnein; souk, scak vb. zelliklerin
srekli ve ya kesikli olmas fark etmez.
11
12
maksimize edecek ekilde blnmekte ve en iyi blnmeyi bulmak iin her soruda ayn
ilem tekrar edilmektedir. Bir soru iin grup oluturulduktan ve gruplar arasndaki risk
maksimize edildikten sonra oluan iki grup iin bu ilemler devam ettirilmektedir. Bu
ilemlere istatistiksel olarak anlaml bir fark bulunana kadar devam edilmekte,
istatistiksel olarak anlaml bir fark bulunmadnda ise son verilmektedir. Ayrtrma
ilemi tamamlandktan sonra ise o grup ierisinde yer alan gzlemlerin oranna gre
grup deerlendirilmektedir [31].
Karar
aalarnn
oluturulmas
aa
oluturma
ve
aa
budama
basamaklarndan oluur.
Aa oluturma: Veri kaynandaki btn nesneleri ieren kk dmden
balar, yinelemeli olarak her dmde var olan nesneleri seilecek olan bir nitelie gre
farkl dallara ayrarak btn nesneleri snflandracak ekilde yaprak dmlere blene
kadar, ya da ayrm yapc bir nitelik kalmayana kadar devam eder. Snama
dmlerinde eldeki nesnelerin hangi nitelie gre alt dmlere blndnde en ok
verimin alnacan bulmak ve dallanmay bu nitelie gre yapmak algoritmann gcn
arttrr. Nesneler alt dmlere blndnde alt dmlerdeki nesnelerin trdelii ne
kadar yksek olursa o dmdeki dallanma o kadar verimli olur. Bu sebeple, her
dmde,
13
kmesi zerinde test edince elbette ki doruluu ok yksek sonular verir. Ancak
byle bir model henz grlmemi rneklerle karlarsa ok kt doruluklu sonular
retebilir. Byle bir model verimli deildir ve veriyi genellemekten uzaktr. Byle bir
modelin sahip olduu bu zellie ar uyum (overfitting) denir. Ar uyum bir
modelde istenmeyen bir sonutur [27,31].
An uyum genelde verideki grltden (hatal snf deeri, yanl deerli
deikenler) kaynakland gibi problem alannn karmaklndan ya da rastgelelikten
kaynaklanabilir.
Ar uyumu azaltmak iin aalarda budama ilemi uygulanr. Budama ilemi,
baz dallarn ya da alt dallarn kaldrlarak o dala ait nesnelerin youn olduu snfla
etiketlenmi yaprak dmlerle yerletirilmesiyle gerekletirilir. Aa oluturulurken
erken-dur yntemiyle erken-budama yaplabilecei gibi aa oluturulduktan sonra
budama ge-budama yaplabilir. Ge-budama ynteminin daha baarl olduu
bilinmektedir. Zira erken-budama yntemi hatal sonulara yol aabilir, nk henz
dallanma yaplmam bir dal budandnda, aacn o noktadan sonra ne ekil alm
olaca o aamada bilinmemektedir. Ancak ge-budama yaplrken aa zaten olumu
bulunmaktadr ve hangi dallarn aslnda gereksiz olduu, an uyum yaratt
bilinmektedir. Ge-budama yaplrken dmlerdeki beklenen hata deerine baklr.
Eer bir dmdeki beklenen hata miktar, o dme ait alt dallardaki beklenen hata
miktarndan kk olursa alt dallar budanr [31,32].
D = {t1,...,tn} bir veri taban olmak zere, t t , t i ={t 1 ...t in } den ve bu veri taban
{A 1 ,A 2 ,. ..,A n } alanlarndan olumaktadr.
Bunun dnda C = {C1,...,C} kadar da snf verilmi olduunda,
Her bir dm At alanyla tanmlanm,
14
Her dmden ayrlan kollar bu alanla ilgili bir soruya yant veren,
Her yapran bir snf olduu karar aac ekil 2.2da gsterilmitir [27].
ekil 2.2de grlen karar aacndaki A1, A2 ,..., An den her biri bir dm
oluturmakta ve her dm kendinden sonra iki dala ayrlmaktadr. Bu ayrlma ilemi
srecinde, Ai dm hakknda cevab veri tabannda bulunacak bir soru sorulmakta ve
verilen yanta gre de bir dal izlenmektedir. Aataki C1 ,C2 ,...,Cn lerin her biri birer
yapra ayn zamanda snf temsil etmektedirler.
Karar aalar oluturulurken kullanlan algoritmann ne olduu nemli bir
husustur. Kullanlan algoritmaya gre aacn ekli deiebilir. Bu durumda deiik aa
yaplar da farkl snflandrma sonular verecektir. Kk denilen ilk dm oluturan
Ai nin farkl olmas, en utaki yapraa ularken izlenecek yolu ve dolaysyla
snflandrmay da deitirecektir [27].
15
16
Karar aacnn kurulmas iin kullanlacak girdi olarak bir dizi kayt verilirse bu
kaytlardan her biri ayn yapda olan birtakm zellik/deer iftlerinden oluur. Bu
zelliklerden biri kaydn hedefini belirtir. Ama, hedef-olmayan zellikler kullanlarak
edef zellik deerini doru kestiren bir karar aac belirlemektir. Hedef zellik
ounlukla sadece {evet, hayr}, veya {baarl, baarsz} gibi ikili deerler alr [19].
Bir karar aac ne bildiimizi (rn., renme verisi) zetledii iin deil, yeni
durumlarn snflamasn doru yapt iin nemlidir.
Karar aac tekniini kullanarak verinin snflanmas aamadan oluur.
renme: nceden sonular bilinen verilerden (eitim verisi) model
oluturulur.
Snflama: Yeni bir test verisi kmesi modele uygulanr, bu ekilde karar
aacnn doruluu belirlenir. Test verisine uygulanan bir modelin doruluu,
yapt doru snflamann test verisindeki tm snflara orandr. Her test
rneinde bilinen snf, model tarafndan tahmin edilen snf ile karlatrlr.
Uygulama: Eer doruluk kabul edilebilir oranda ise, karar aac yeni verilerin
snflanmas amacyla kullanlr [33].
Test verisini en iyi ekilde dallara ayran zellik tespit edilerek, bu zellik karar
aacnn oluturulmasnda daha nce seilir. Bylece daha iyi bir karar aac
oluturulur. En iyi dallara ayran zelliin tespitinde eitli ltler gelitirilmitir.
Bu ltlerin baz rnekleri unlardr:
p(i | t), i snfna ait verilerin, verilen bir t dmndeki blnmesini gstersin.
c snf saysdr ve entropi hesaplamasnda 0 log2 0 = 0 eklinde dnlmtr.
c-1
Entropi(t) = p(i | t) log2p(i | t),
(2.1)
17
i=0
Entropi bir dmn ne kadar bilgi verici olduunu lmede kullanlr. Bu yi
ile ne kastedildiini belirtir. Bu kavram Claude Shannon tarafndan ilk kez Bilgi Teorisi
iinde tanmlanmtr.
c-1
Gini(t) = 1 [p(i | t)]2,
(2.2)
i=0
Snflandrma hatas(t) = 1 maxi[p(i | t)],
Karar aac oluturulduktan sonra, kkten yapraa doru inilerek kurallar
belirlenir. Ancak ok sayda dal ve dmden oluan karar aalarnda kurallarn
belirlenmesi zorlar. Karar aac modelini daha okunabilir hale getirmek iin kurallarn
yazmnda IF-THEN (Eer-ise-O Zaman) biiminde artl ifadeler kullanlr. IF (Eerise) ksm daln sonuna giden yol zerindeki tm testleri ierirken THEN (O Zaman)
ksm son snflamay gsterir. IF THEN yapsndaki kurallara Karar Kurallar (Decision
Rules) denir [18,22].
Karar aalar, model kurulumu ve sonularnn yorumlanmasnn kolay olmas,
veritaban sistemleri ile kolayca entegre edilebilmeleri ve gvenilirliklerinin iyi olmas
nedenleri ile snflama modelleri ierisinde en yaygn kullanma sahip tekniktir [34].
Karar aalarnn gl ynleri aadaki gibi zetlenebilir:
Karar aalar anlalabilir kurallar retirler.
Karar aalar ar hesaplamaya gerek kalmadan snflandrma yaparlar.
Karar aalar hem srekli ve hem de kesikli deikenler iin uygundur.
Karar aalar snflandrma ve kestirim iin hangi alanlarn en nemli
olduunu ak biimde gsterir [35].
18
19
20
Her bir balantnn bir arlk deeri vardr ve bu deer, gerek nronlarda
olduu gibi sinyal geiini retmektedir;
Sinir a iindeki her bir nrona ayn bir aktivasyon fonksiyonu uygulanr
(genelde bu dorusal olmayan bir fonksiyondur) ve bu fonksiyonun k deeri
sayesinde nronun k sinyali hesaplanr;
Herhangi bir yapay sinir a;
Nronlar arasndaki bantnn bir modeli yani mimarisi ile,
Balantlardaki arlklarn hesaplanmas (bu hesaplama, eitim kural ya da
renme algoritmas olarak da adlandrlr) ile,
Aktivasyon fonksiyonu ile tanmlanabilir.
alma
stili
bilinen
programlama
yntemlerine
benzememektedirler.
Bilgiyi saklarlar.
rnekleri kullanarak renirler.
Gvenle altrlabilmeleri iin nce eitilmeleri ve performanslarnn test
edilmesi gerekmektedir.
Grlmemi rnekler hakknda bilgi retirler. Bunu genelleme zellii sayesinde
yaparlar.
Alglamaya ynelik olaylarda kullanlabilirler.
ekil ilikilendirme ve snflandrma yapabilirler.
21
numunelerine
dntrlmesinde,
benzer
rneklerin
22
(2.3)
f ( x) =
1
1 + exp(- x)
Bu fonksiyonu, dier aktivasyon fonksiyonlarndan biri de olabilir.
(2.4)
23
24
2.1.2.2.
25
yaklak 10 milyar sinir hcresi olduu tahmin edilmektedir. ekil 2.6 da gsterildii
gibi sinir hcreleri; hcre gvdesi, gvdeye giren alc lifler (dentrit) ve gvdeden kan
sinyal iletici lifler (akson) olmak zere 3 temel bileenden meydana gelir.
Dentritler aracl ile bilgiler dier hcrelerden hcre gvdesine iletilir.
Hcrelerde oluan ktlar ise akson yardm ile bir dier hcreye aktarlr. Aktarmn
gerekletii bu noktada aksonlarda ince yollara ayrlabilmekte ve dier hcrenin
dentritlerini oluturmaktadrlar. Akson-dentrit bantsn olutuu bu noktalara sinaps
ad verilir [5,47].
Sinapsa ulaan ve dentritler tarafndan alnan bilgiler genellikle elektriksel
darbelerdir, fakat bu bilgiler sinapstaki kimyasal ileticilerden etkilenirler. Hcrenin
tepki oluturmas iin bu tepkilerin belirli bir srede belirli seviyeye ulamas
gerekmektedir. Bu deer eik deeri olarak adlandrlr [23,47].
YSAlar, insan beyninin alma prensibi rnek alnarak gelitirilmeye
allmtr ve aralarnda yapsal olarak baz benzerlikler vardr [52]. Bu benzerlikler
Tablo 2.1de ve istatistiksel terimler yapay sinir alar terimleri arasndaki terminolojik
ilikiler de Tablo 2.2 de verilmitir [50].
Yapay Sinir A
Nron
lemci Eleman
Dentrit
Girdiler
Hcre Gvdesi
Transfer Fonksiyonu
Akson
Yapay Nron k
Sinaps
Arlklar
26
2.1.2.3.
statistik
Yapay Sinir A
Model
Tahmin
renme
Regresyon
Danmal renme
nterpolasyon
Genelletirme
Gzlem
renme Algoritmas
Parametre
A Parametreleri
Bamsz Deiken
Giri Verileri
Baml Deiken
k Verileri
Snr Regresyonu
27
2.1.2.4.
Biyolojik sinir alarnn yap bileenleri sinir hcreleridir benzer ekilde yapay
sinir alarnn da yapay sinir hcreleri bulunmaktadr (ekil 2.8). YSA, insan sinir
andaki gibi nronlardan ve onlar arasndaki balantlardan oluur. Bilgi, a tarafndan
bir renme sreciyle evreden elde edilir. Elde edilen bilgileri biriktirmek iin sinaptik
arlklar olarak da bilinen hcreler aras balant gleri kullanlr [53].
28
Vk = S wkj x j + bk
(2.5)
j =1
Aadaki eitlikte grld gibi her sinir hcresinin net bilgisi eik deerine
sahip bir aktivasyon fonksiyondan geirilerek gerek bir kt oluturulur. Genellikle
kullanlan
aktivasyon
fonksiyonlar
eik,
sigmoid,
hiperbolik
tanjant
vb.
29
(2.6)
YSA herhangi bir konu ile ilgili veri setleriyle eitilirken eitim algoritmalar
kullanrlar. renilmesi istenen olay iin oluturulan eitim seti aa sunulurken hedef
kt deerleri de aa sunulabilir. Sadece girdi seti aa sunulabilir, sistemin kendi
kendine renmesi istenilebilir ya da her girdi seti iin sistemin kendisinin bir kt
retmesi salanabilir. retilen ktnn doru ya da yanl olduunu gsteren sinyal
retilerek, bu sinyale gre sistem eitime devam edilebilir [54].
2.1.2.5.
30
2.1.2.5.1.
Giriler
Giriler tarafndan bir yapay sinir hcresine bir baka yapay sinir hcresinden
veya d dnyadan bilgi al yaplr. Bunlar an renmesi istenen rnekler tarafndan
belirlenir.
2.1.2.5.2.
Arlklar
Arlklar bir yapay sinir hcresinin girileri tarafndan alnan bilgilerin nemini
ve hcre zerinde etkisi gsteren uygun katsaylardr. Her bir giri iin bir arlk vardr.
Bu arln byk olmas bu giriin nemli olduu ya da arln kk olmas giriin
nemsiz olduunu gstermez. Bir arln deerinin sfr olmas o a iin en nemli
olay olabilir. Eksi deerler de yine giriin nemsiz olduunu gstermez. Arln art
ve eksi olmas giriin etkisinin pozitif ya da negatif olduunu gsterir. Arlklar
deiken ya da sabit olabilirler [56].
31
2.1.2.5.3.
Toplama levi
Toplama ilevi bir yapay sinirdeki her bir giri ile o girie ait olan arln
arplarak bu arpmlarn toplanmasdr.
n
Net Toplam = S xi wi
(2.7)
x w +q
i
ya da
Net Toplam = xi wi - q
i
(2.8)
eik deerinin girilerden bamsz olduu iin btn girilerin sfr olmas
durumunda k deerinin sfr deil de eik deerine eit olduu grlr ki bu da,
belirtilen artlar altnda nron knn sfr olmas zorunluluunu ortadan kaldrr. Eik
deerinin kullanm, toplama fonksiyonuna +1 ya da -1 deerine sahip sabit bir giriin
arlna sahip bir balant ile eklendii eklinde yorumlanr [48].
Ayrca her model ve her uygulama iin bu toplama fonksiyonun kullanlmas
art deildir. Baz modeller, kullanlacak toplama fonksiyonunu kendileri belirler. ou
zaman daha karmak olan deiik toplama fonksiyonlar kullanlr. Bunlar Tablo 2.3de
gsterilmitir. Baz durumlarda girilerin deeri nemli olurken, bazlarnda says
nemli olabilir. Bir problem iin en uygun toplama fonksiyonunu belirlemek iin bir
forml gelitirilememitir. Bu yzden en uygun toplama fonksiyonunun bulunmas
deneme yanlma yoluyla belirlenir. Ayrca ayn problem iin kullanlan yapay sinir
hcrelerinden hepsi ayn toplama fonksiyonunu kullanabilecei gibi her biri iin farkl
toplama fonksiyonu kullanlabilir [48].
32
Aklama
arpm
Net Girdi = P xi wi
i
ounluk
2.1.2.5.4.
Yapay
davrann
belirleyen
nemli
bir
etken
aktivasyon
33
2.1.2.5.4.1.
Dorusal Fonksiyon
v = xi wi
i
veya
v=
x w +q
i
olmak zere;
y = F (v ) = Av
(2.9)
34
2.1.2.5.4.2.
Basamak Fonksiyonu
Basamak fonksiyonu tek veya ift kutuplu olabilir. Bu fonksiyonlarn ekli ekil
2.10de, matematiksel ifadeleri de aada verilmitir. Perceptron (Basit Alglayc
Model) olarak bilinen yapay sinir hcresi aktivasyon fonksiyonu olarak bu fonksiyonu
kullanr.
1 v 0
y = F ( v) =
0 v < 0
(2.10)
+1 v 0
y = F (v ) =
-0 v < 0
2.1.2.5.4.3.
1 w.x 0
y = F (v ) =
0 w.x < 0
(2.11)
35
+1 w.x 0
y = F ( v) =
-1 w.x < 0
(2.12)
2.1.2.5.4.4.
36
y = F (v )
0
v 1/ 2a
=a v + 1/ 2 v <1/ 2a
v 1/ 2a
1
(2.13)
2.1.2.5.4.5.
1
1
= [ tanh(v / 2)=- 1]
-v
1+ e
2
(2.14)
37
2.1.2.5.4.6.
y=
1 - e-2v
= tanh(b v)
1 + e2v
(2.15)
38
2.1.2.5.4.7.
(2.16)
Bir yapay sinir ann bu 5 temel eleman dnda zaman zaman ihtiya
duyulduunda kullanlan bir eleman daha vardr. Bu eleman lekleme ve snrlama
olarak adlandrlr.
2.1.2.5.5.
k levi
2.1.2.6.
39
y _ in = x=.w. j
S xi .wij
(2.17)
i =1
Sapma
Sapma deeri, x vektrne x0 = 1 deeri eklenerek oluturulabilir.
x = (l, x, ..., xi, ..., xn)
(2.18)
Sapma ayn dier arlklar gibi davramr, yani w0j = bj dir. Yj birimi iin a
girdisi u ekilde hesaplanr:
y _ in j = x.w=. j
= xi=.wij
i =1
w0 j + xi .wij
1
b j + xi .wij
i =1
(2.19)
Bir YSA dmnn grevi, giriindeki saylar kendi arlk deerleri ile
arpp, sonra da bu arpmlar toplayp, toplam bir yumuatma fonksiyonundan
(genelde sigmoid f ( x ) =
1
veya tanh) gerdkten sonra ka vermektr. Ancak
1 + e- x
2.1.2.7.
ekil 2.17da girileri ve arlklar verilmi olan bir yapay sinir hcresinin
almas yledir:
40
41
42
43
p ( x) =
b0 + b x
1+ e
b0 + b x
1
(2.20)
(2.21)
44
(2.22)
eklindeki
olaslk
fonksiyonunun
fonksiyonel
yapsna
ilikin
ii.
45
iii.
f ( x)
f1 ( x)
= exp(b X ) ya da ln 1
= b X
f2 ( x)
f 2 ( x)
(2.23)
altnda
rneklemin
olabilirlik
fonksiyonu
belirlenmelidir.
Kark
uygulamas
zor
olup
gemie
ynelik
(retrospective)
almalarda
uygulanmaktadr [41].
Regresyon problemlerinde anahtar deer, verilen bir bamsz deiken deerine
bal olarak baml deikenin ortalama deerini bulmaktr. Bu deer koullu ortalama
olarak adlandrlr ve E(Y \ x) ile gsterilir. Burada ynin baml deikeni, x in ise
46
ni gstermektedir.
koullu
(2.24)
p ( x) =
b0 + b x
1+ e
b0 + b x
1
(2.25)
p ( x)
g ( x) = ln
= b 0+ b1 x
1 - p ( x )
(2.26)
47
2.2.
PROSTAT KANSER
48
blmnde iyi huylu bir tmr oluur. Prostat 60 yandaki bir erkekte ortalama 30 ila
40 ml byklktedir. Bu, yaklak iki ceviz bykl demektir. Bu iyi huylu ve prostat
hiper plazisi (ar byme) ad verilen byme idrar yolunu daraltarak idrar yapmada
zorluklara sebep olabilir.
Buna karlk prostat kanseri ounlukla prostatn makattan (gden barsa
veya rektum) parmakla eriilebilen d blmnde oluur. Prostat karsinomlarnn
yaklak % 80i prostat bezesinin bu d blmnde ortaya kar. Prostat kanserinin
prostat bezesinin i blmnde veya pubis kemiinin arkasnda yer alan n ksmnda
olumas enderdir.
2.2.3. Tehis
pheli bir durum ortaya ktktan sonra prostat kanseri tehisi koyulabilmesi
iin bir dizi muayene daha yaplmas gerekir. Bunlar:
2.2.3.1.
Prostat meni svsnn byk blmn reten organdr. Bu meni svs iinde
meni svsn akkan hale getirmeye yarayan bir protein vardr. Sz konusu proteine
prostata zg antijen denir, bunun ksaltmas da PSAdr. PSA normal artlar altnda da
49
kana karabilir ve kandaki miktar PSA testi ile llebilir. Ya ilerledike prostat
bydnden kandaki PSA miktar da ykselir. Her gram iyi huylu prostat dokusu
bana aa yukar 0,3 ng/ml antijen bulunur. Buna karlk prostat kanseri her gram
doku bana yaklak 10 kere daha fazla PSA retir. Bu yzden PSA prostat kanserinin
tehis edilebilmesi iin, yani tmr belirteci (tmr markeri) olarak kullanlmaya,
uygundur.
Tablo 2.4 Yaa zg Normal Serum PSA Deerleri
2.2.3.3.
YA
PSA
40-49
0-2,5 ng/ml
50-59
0-3,5 ng/ml
60-69
0-4,5 ng/ml
70-79
0-6,5 ng/ml
50
3. GERE ve YNTEM
Uygulama verisi olarak, Tokat Gaziosmanpaa niversitesi Tp Fakltesi
Hastanesinde 01.01.2005 tarihi ve 31.05.2011 tarihleri arasnda roloji Polikliniine
bavuran hastalarn sonular alnmtr. Veritaban ynetim sistemi Oracle 10 GR2 olan
hastane veritabanndan Structured Query Language (SQL) veritaban sorgu dili
kullanlarak gerekli bilgiler ekilmitir. Belirtilen tarihler arasnda roloji Polikliniine
bavurup muayenesi ve tetkikleri yaplp kesin tan olarak C61, Prostat malign
neoplazm (prostat kanseri) tans konulan hastalarn muayene bilgileri incelenmitir.
ncelenen muayene bilgileri ierisinde prostat kanserini tehis iin kullanlan drt faktr
incelenmitir. Bu faktrler;
i.
Ya,
ii.
iii.
iv.
PSA dzeyidir.
ncelenen hastalardan kesin tans prostat kanseri olup muayene notlar ierisinde
yukarda sralanan faktrlerin hepsinin bulunduu hastalar seilmitir. Bu ekilde
yaplan tarama sonucunda 118 hasta verisi tespit edilmitir. Ayn ekilde muayene
notlar ierisinde ya, rektal tue, genetik yatknlk ve PSA tetkik sonucu bulunan ama
kesin tans C61, Prostat malign neoplazm (prostat kanseri) olmayan 118 hasta daha
seilerek toplam 236 hastalk veri setine ulalmtr.
Veri setinin WEKA programna yklenebilmesi iin arff formatnda olmas
gerekmektedir. WEKA program Arff Viewer seenei ile .cvs uzantl dosyalar
aabilmektedir. Bu nedenle, ncelikle MS Excel ortamda edinilen veriler .xls
51
52
53
Sonraki admda, her alt grup bir ana grup olmaktadr. Her blnme bir alt gruptaki tm
nesnelerin benzer baml deiken deerlerine sahip olacak ekilde seilen bir
aklaycnn deeri ile tanmlanmaktadr [37,38].
Srekli deikenlerin blnmesi xinin seilmi bamsz deiken ve a j nin
onun blnme deeri olan x i < aj ile ifade edilmektedir.
Bir blnme ve onun blnme deeri iin en uygun tanmlaycy semek iin
C&RT, iinde tm tanmlayclarn ve tm blnme deerlerinin dnld bir
algoritma kullanmakta ve test koulunun ne kadar iyi uygulandn belirlemek iin ana
dmn safszlk derecesini alt dmlerin safszlk derecesiyle karlatrmaktadr.
Ana ve alt dmlerin safszlklar arasndaki fark ne kadar bykse test koulu o kadar
daha iyi olduundan, ana dm (tp) ve alt dmler (tL ve
tR)
arasndaki safszlk
(3.1)
maksimize
edecek s deerinin
iin ayn olduundan, i(s, tp ) yi maksimize etmek alt dmlerin safszlk llerinin
arlkl ortalamalarn minimize etmekle edeer olmaktadr [37].
54
Her bir dmn her aamada ikiye ayrld C&RT algoritmasnda, her bir
blnme noktasnn belirlenmesinde Gini, Twoing gibi en iyi blmeyi semek iin
gelitirilen sz konusu safszlk ltlerinden Gini indeksi kullanlmaktadr. Gini
indeksi aadaki gibi hesaplanmaktadr [40].
1) Her nitelik deerleri ikili olacak biimde gruplanmakta ve bu ekilde elde edilen
sol ve sa blnmelere karlk gelen snf deerleri gruplandrlmaktadr.
2) Her bir nitelikle ilgili olarak sol ve sa taraftaki blnmeler iin Ginisol ve
Ginisa deerleri;
k: Snflarn says,
T: Bir dmdeki rnekler,
Tsol: Sol dmdeki rneklerin says,
Tsa: Sa dmdeki rneklerin says,
Li: Sol dmde i kategorisindeki rneklerin says.
Ri: Sa dmde i kategorisindeki rneklerin says olmak zere;
Ginisol
L
= 1- i ,
i =1 Tsol
Ginisa
L
= 1- i ,
i =1 Tsol
eklinde hesaplanmakta ve her j nitelii iin, eitim verisindeki satr says n olmak
zere genel Gini indeks deeri ise;
Ginij =
1
(Tsol Ginisol + Tsag Ginisag )
n
55
dier
problemlerin
zlmesinde
kullanlabilir.
rnek
snflandrma
problemlerinde, her giri vektr (rnek, numune) belirli snflara ait olabilir ya da
olmayabilir. Basit olarak, bir snfa ye olma sorusu gz nnde bulundurulur. k
birimi iin +1 cevabnn alnmasyla rnein o snfa ye olduu, -1 cevab alnrsa,
rnein o snfa ye olmad belirlenir. Bu tip durumlarda, her bir snf iin bir k
birimi vardr. rnek tanmlama, rnek tanma uygulamasmn bir eididir. rneklerin
ilikili hatrlanmas ise daha farkldr [6].
Aada ekil 3.5 de tek arlk katmanl YSA iin rnek verilmitir. Bu a ileri
beslemeli alara birer rnektir.
56
3.2.1.1.
Hebb Kural
Hebb kural, bir yapay sinir a iin, en eski ve en basit renme kural olarak
bilinir. Hebb, renmenin, sinaps uzunluklarn (arlklar) deitirerek meydana
geleceini nermitir. Hebbe gre, eer birbiri ile bal iki nronun her ikisi de ayn
zamanda aktif ise, bu nronlara uygun arlklarn artrlmas gerekmektedir. Benzer
olarak, eer her iki nron ayn zamanda pasif ise, arlklarn artrlmas gerekir. Bu
57
durumda, daha gl bir renme ekli meydana gelir. Gelitirilmi Hebb kural ile tek
katmanl ileri beslemeli bir sinir ann eitilmesi bir Hebb an anlatr. Hebb kural,
dier zgl alar eitmek iin de kullanlabilir. Tek katmanl bir yapay sinir anda
birbiri ile balantl nronlardan bir tanesi giri birimi, bir tanesi de k birimi
olacaktr (hibir giri birimi birbiri ile balanmad iin, herhangi bir k birimleri de
birbiri ile bal deildir [48,59].
3.2.1.2.
Perseptron
y _ in < -q ise
-1,
f ( y _ in) = 0, -q y _ in q ise
1,
y _ in > q ise
(3.2)
58
hesaplar. Daha sonra sinir a, bu rnek iin k deeri ile hedeflenen k arasndaki
fark karlatrarak bir hata oluup olumadn tespit eder. Yapay sinir a,
hesaplanm k deeri 0 ve hedef deeri -1 olan rnek iin hatay ayrt edemez,
buna kart olarak hesaplanm k deeri +1 ve hedef deeri -1 olan rnek iin
hatay ayrt edebilir. Bu durumlarda, hedef verinin iareti ynnde arlklarn iareti
deitirilmelidir. Bununla birlikte k birimine 0 olmayan sinyaller gnderen
balantlANN arlklar ayarlanmaldr. Eer belirli bir eitim giri rneinde hata
oluuyorsa, arlklar
wi ( yeni ) = wi (eski ) + a txi
(3.3)
3.2.1.2.1.
Perseptron Algoritmas
59
i = 1, . . . , n
60
y _ in j = b j + xi .wij
j = 1,...., m :
y _ in < -q ise
-1,
f ( y _ in) = 0, -q y _ in q ise
1,
y _ in > q ise
(3.4)
(3.5)
(3.4)
(3.6)
Eer adm 2de hi bir arlk deimezse dur; aksi duaimda devam et.
Algoritmada kt birimlerinin says m = 1 olabilir. rnein, mantksal fonksiyonlar
gzden geirirken kt biriminin saysnn bir olduu kabul edilir. Eitimden sonra, a
her bir eitim vektrn doru ekilde snflandrr.
Snflandrma ile ilgili perseptron eitim algoritmasnda, ayrma dorusu yerine,
pozitif cevaplar blgesini sfr cevaplar blgesinden ayran w1 x1 +w2 x2 +b > dorusu
ve negatif cevaplar blgesini sfr cevaplar blgesinden ayran w1 x1 +w2x2 +b <-
dorusu olmak zere iki ayrma dorusu vardr [53,55].
61
3.2.1.2.2.
Delta
Delta kural, Widrow ve Hoff (1960) tarafndan ADALINE iin ortaya atlm
olan iteratif bir renme srecidir. Delta kuralnda, tm girdi numuneleri iin kt ve
hedef farklar karelerinin toplamnn, baka bir ifadeyle, toplam hatann kltlmesine
hedeflenmitir. Uygun algoritmalarda her numune iin gradient vektrnn ters
ynnde arlklarn gncellenmesi yaplr. Bu durumda delta kural, nron
balantlarnn arlklarn, a girii (y_in) ve an hedef k (t) arasndaki fark en
aza indirgeyecek ekilde deitirir. Ama, tm eitim numunelerinin hatalarn en aza
indirgemektir. Arlk dzeltmeleri, ok saydaki eitim numunesi ile beraber
biriktirilebilir ve bu yn gncelletirilmesi olarak adlandrlr [6].
katmanl
alar
ayrlamayan
problemlerin
zmnde
baarsz
62
uygun olarak genelletirilmi delta kural uygulanmaktadr [48,55]. Aada ekil 3.7
de tek katmanl YSA iin rnek verilmitir.
ekil 3.3. Tek Gizli Katmanl leri Beslemeli ok Katmanl Bir Yapay Sinir A
63
An farkl katmanlar boyunca ileri ve geri yaylm olarak adlandrlan iki gei
bulunur. leri yaylmda, bir girdi vektr an giri katmanna uygulanr ve bu girdinin
etkisi ada katmandan katmana yaylr. leri yaylm srasnda an sinaptik arlklar
belirlidir. Geri yaylmda sinaptik arlklarn tm bir hata-dzeltme kural ile uyumlu
olarak dzenlenir. Bir hata sinyali retmek iin an gerek kts istenilen bir ktdan
kartlr. Bu hata sinyali sinaptik balantlarn tersi ynnde ada geriye doru yaylr.
Sinaptik arlklar an gerek ktsn istatistiksel anlamda arzu edilen ktya yakn
hale getirmek iin dzenlenir [4,5,7].
3.2.2.1.
ekil 3.9 de bir gizli katmana sahip ok katmanl ileri beslemeli bir a
gsterilmitir. Burada X girdi katman, Z gizli katman, Y kt katmanna ait birimlerdir.
Gizli katmann j. birimine dahil olan sapma arlklar v0j ( j =1,...,l) , kt katmannn
k. birimine dahil olan sapma arlklar w0k (k =1,...,m) ve sapmalara uygun birimlerin
64
ekil 3.5. Tek Gizli Katmanl leri Beslemeli ok Katmanl Bir Yapay Sinir A
3.2.2.2.
65
3.2.2.2.1.
3.2.2.2.1.1.
Momentum
w=jk (t ) + ad k z j + m [ w jk (t ) - w jk (t - 1)]
Dw jk (t + 1)= ad k z j + mDw jk (t )
vij (t + 1)
Dv jk (t + 1)= ad j xi + mDvij (t )
(3.6)
66
3.2.2.2.1.2.
3.2.2.2.2.
Geri yaylm eitim ynteminin en genel doas, geri yaylm tarafndan eitilen
ok katmanl ileri beslemeli bir sinir ann, eitli alanlardaki problemleri zmek iin
kullanabileceini ifade etmektedir. rnein, ngilizce harfleri ve bu harflerden oluan
kelimeleri yksek sesle okuyabilen NETtalk uygulamas, geri yaylml alarla
gerekletirilmitir. Bu tr alar kullanan uygulamalarla, neredeyse her alanda
karlalabilir ve bu uygulamalar, doadaki eitli problemler iin sinir alarn
kullanr. Bu problemler, verilen bir girdi grubu iin fonksiyon atamay ierir. Bu
girdiler, hedef klarn belirli bir grubuna girer. Ama, ok farkl YSA yaplarnda
olduu gibi, aada deinilen u iki yetenek arasndaki dengeyi elde etmek iin
YSAy, eitmektir. Bunlardan ilki, girdi numunelerine doru bir ekilde cevap
verebilme yeteneidir. Burada sz konusu olan girdi numuneleri, eitim ya da
ezberleme iin kullanlrlar. kincisi ise, YSAnn, sistem iine verilen girdilere kar
uygun ktlar verebilme yeteneidir. Bir YSAnn geri yaylm yoluyla eitilmesi
aamadan oluur [6].
1. Girdi eitim rneinin ileri beslenmesi.
67
68
E (n) = e ort=
(3.7)
e ( n)
= -e j ( n)j ' (v j ( n)) yi ( n)
w ji ( n)
Dw=ji ( n)
-n
(3.8)
e ( n)
w ji ( n)
hata
sinyali
e j (n)
ve
ilgili
aktivasyon
fonksiyonunun
trevinin
69
Dzeltme deeri, lokal gradyanlarn kullanm ile aadaki eitlik ile ifade edilir.
Dw=ji ( n)
-hd j ( n) yi ( n)
(3.9)
A eitim esnasnda hata yzeyi sabit bir noktada takl kalabilir, minimum
hataya yaknsayamayabilir. Bunu engellemek iin dzeltme deerine, momentum
katsays olarak ifade edilen bir deer eklenir.
Dw ji=( n) aDw ji ( n - 1) - hd j ( n) yi ( n)
momentum katsays
(3.10)
Elde edilen bu dzeltme deeri eski arlklara eklenerek yeni arlk deerleri
elde edilir. Bu ilem doru arlk deerleri elde edilene kadar devam eder [6,55,60,
61].
(3.11)
70
x ( xi ) = p ( xi ) yi [1 - p ( xi ) ]
1- yi
(3.12)
(=b ) P V ( xi )
(3.13)
i =1
p ( x)
En ok olabilirliin temel ilkesinde tahmininin g ( x) = ln
eitliini
1 - p ( x )
maksimum yapt vurgulanr, te yandan log olabilirlik fonksiyonu ise:
n
L( b ) = ln [1( b )=] S { yi ln [p ( xi ) ] + (1 - yi ) ln [1 - p ( xi ) ]}
i =1
(3.14)
P [ yi - p ( xi ) ] = 0
i =1
n
P xi [ yi - p ( xi ) ] = 0
i =1
(3.15)
71
tahmini {xi)ile gsterilir. Bu deer, x in xi gibi bir deere eit olduu verildii zaman,
Y nin le eit olma koullu olaslnn tahminini verir [41,44].
n
P =yi
i =1
P p ( xi )
i =1
(3.16)
3.3.2. oklu Lojistik Regresyon Modeli
Birden ok bamsz deikenin yer ald Lojistik modellere ok deikenli
lojistik regresyon ad verilir. Yapsal olarak bu modelin dier ok deikenli regresyon
modellerinden fark olmayp regresyon katsaylarnn yorumlanmas farkldr. oklu
lojistik regresyon modelinde genel eilim modeldeki katsaylarn tahmini ve onlarn
nem testi eklinde olmaktadr.
x = (x1, x2, .xp) vektr ile gsterilen, p tane bamsz deiken topland
varsaylsn. u an iin bu deikenlerin her birinin en azndan aralkl lekle (srekli)
lld varsaylsn. Baml deikeninin mevcut olduu (Y=1) zaman ki koullu
olaslk P(Y = l\x) = fx/e eittir. oklu lojistik regresyon modelinin lojiti aadaki
eitlik ile verilmitir.
g ( x) = b 0 + b1 x1 + ....... + b p x p + ...
(3.17)
bu durumda
p ( x) =
eg ( x)
1 + eg ( x)
(3.18)
72
g ( x) = b 0 + b1 x1 + ..... + S b jk D ju + b p x p ...
u =1
(3.19)
3.3.3. oklu Lojistik Regresyon Modelinin Kurulmas
Birbirinden bamsz n tane (xi , yi), i=1,2,,n gzlem einin olduu varsaylsn.
Tek deikenli modelde olduu gibi modelin kurulmas iin tahmin vektrnn =(0 ,
1, , p) elde edilmesi gerekmektedir. ok deikenli durumda, tek deikenli
durumda olduu gibi tahmin metodu en ok olabilirlik olacaktr. Log olabilirlik
fonksiyonunun p-1 katsaysna gre trevi alnarak, p+1 tane olabilirlik denklemi elde
edilebilmektedir [8].
S [ yi - p ( xi )] = 0
i =1
(3.20)
i =1
73
p ( x)
g ( x ) = ln =
b 0 + b1 x
[1 - p ( x) ]
(3.21)
3.4.
YNTEMLERN KARILATIRILMASI
74
Kesinlik: Gerekte herhangi bir snfa ait olan kaytlarn hangi oranda
snflandrma algoritmas tarafndan o snfa atand gsterir.
75
3.5.
WEKA Program
Weka, Yeni Zelandadaki Waikato niversitesi tarafndan gelitirilmi olup
kmeleme
ve
birliktelik
kural
uygulamalar
kolaylkla
76
Snflandrma
ve
regresyon
algoritmalarnn
uygulanp
Grselletirme:
zellikler
arasndaki
ilikiler
iki
boyutlu
grafiklerle
izlenebildii paneldir.
Experimenter: Deneylerin gerekletirilmesi ve renme planlar arasndaki
istatistiksel testleri yrten bir ara yzdr. Bir veri setine farkl yntemleri
uygulayarak ya da ayn teknii farkl parametrelerle tekrarlayarak, tek seferde
birden fazla deneyin gerekletirilmesine izin veren bir aratr.
Knowledge Flow: Weka veri madencilii paketi ile salanan fonksiyonelliin
alternatif bir ara yzdr. Bu ara yz temel olarak Explorer ile ayn ilevleri
srkle-brak ara yz ile yerine getirmektedir. Experimenter tarafndan
77
78
4. BULGULAR
ncelikle tm veri seti iin daha sonra ise prostat kanseri tans konmu ve
prostat kanseri tans konmam hastalar iin tanmlayc istatistiklere bakalm.
Maks.
SS
YA
40
85
65.22
8.09
PSA
0.037
151.0
15.70
28.59
Rektal Tue
Genetik Yatknlk
Pozitif
105
44.5
Negatif
131
55.5
Var
18
7.6
Yok
218
9.4
79
Tablo 4.3. Prostat Kanseri Tans Durumuna Gre Srekli Deikenlerin (Ya ve PSA)
Dalm
Prostat Kanseri
Normal
6.78
8.911
<0.001
2.98
8.911
<0.001
Ort
SS
Ort
SS
YA
69.29
7.23
61.15
PSA
27.78
36.59
3.62
80
Tablo 4.4. Prostat Kanseri Tans Durumuna Gre Kategorik Deikenlerin (Rektal
Tue ve Genetik Yatknlk) Dalm
Prostat Kanseri
Rektal Tue
Genetik
Yatknlk
Normal
Pozitif
90
76.3
15
12.7
Negatif
28
23.7
103
87.3
Var
13
11.0
4.2
Yok
105
89.0
113
95.8
c2
96.510
<0.001
3.849
0.084
ekil 4.3. Prostat Kanseri Tans Koyulan Hastalarn Rektal Tue Sonular
ekil 4.4. Prostat Kanseri Tans Konulmayan (Normal) Hastalarn Rektal Tue
Sonular
81
ekil 4.5 Prostat Kanseri Tans Koyulan Hastalarn Genetik Yatknlk Durumlar
Dalm
ekil 4.6. Prostat Kanseri Tans Konulmayan (Normal) Hastalarn Genetik Yatknlk
Durumlar Dalm
82
Odds Oran
YA
1.125
PSA
1.220
RT
14.679
GP
0.312
236
Doru Snflandrma
198 (%83.89)
Yanl Snflandrma
38 (%16.11)
Kappa
0.678
0.211
0.334
%42.22
%66.81
Duyarllk
F-lt
AUC
%86.40
%80.50
%83.30
0.924
83
Snflama
95
23
A=YES
15
103
B=NO
84
85
86
193 (%81.78)
Yanl Snflandrma
43 (%18.22)
Kappa
0.636
0.246
0.395
%49.19
%78.95
236
Duyarllk
F-lt
AUC
%82.60
%80.50
%81.50
0.828
87
Snflama
95
23
A=YES
20
98
B=NO
88
C&RT Algoritmas
rt = NO
rt = YES
gy = YES
89
ii.
90
91
92
93
206 (%87.29)
Yanl Snflandrma
30 (%12.71)
Kappa
0.746
0.191
0.311
%38.15
%62.09
236
Duyarllk
F-lt
AUC
%89.80
%87.60
0.929
94
Snflama
106
12
A=YES
10
100
B=NO
Arlklar
-0.122
-2.806
6.522
2.976
95
Arlklar
0.122
2.806
-6.523
-2.976
Arlklar
-4.401
-7.481
-10.345
-1.256
1.671
Arlklar
9.148
-2.291
11.942
0.395
0.463
96
Arlklar
8.652
11.297
9.073
3.913
-0.643
97
98
99
Yntem
Doru
Snflandrma
Oran (%)
Hatal
Snflandrma
Oran (%)
Kappa
statistii
F-lt
(%)
AUC
Lojistik
83.90
16.10
0.678
83.3
0.924
C&RT
81.78
18.2
0.636
81.5
0.828
YSA
87.29
12.71
0.746
87.6
0.929
100
5.
TARTIMA ve SONU
101
matematiksel bir sistem yardm ile oluturulan model zerinden snflama ilemi
yapmaktadr. Karmak yaps nedeniyle YSAnn oluturulmas ve deerlendirilmesi
dier yntemlere gre daha zor olduu grlmtr.
Bu almada, modellerin oluturulmas iin cretsiz bir yazlm olan ve veri
madencilii algoritmalar zerinde geni bir yelpazede analiz ans sunan WEKA
program tercih edilmitir.
Tanmlayc istatistikler Tablo 4.3. Prostat Kanseri Tans Durumuna Gre
Srekli Deikenlerin (Ya ve PSA) Dalmna gre prostat kanserli grup ile olmayan
grup arasnda ya ortalamalar bakmndan anlaml bir fark olduu gzlemlenmektedir
(p<0.001).Ya arttka prostat kanserine yakalanma riski artmaktadr. Literatre gre ise
70 ya zerine kldnda en yksek hastalanma oran ile karlalmaktadr. Yine ayn
tabloda prostat kanserli grup ile olmayan grup arasnda PSA dzeyi bakmndan anlaml
bir fark bulunmutur (p<0.001). PSA dzeyi arttka prostat kanseri vakalar daha fazla
grlmektedir.
Tanmlayc istatistikler Tablo 4.4. Prostat Kanseri Tans Durumuna Gre
Kategorik Deikenlerin (Rektal Tue ve Genetik Yatknlk) Dalmna gre
hastalarn prostat kanseri durumu ile rektal tue durumlar arasnda anlaml bir iliki
gzlemlenmektedir (p<0.001). Rektal tue kontrol pozitif olan hastalarda prostat
kanseri olma yzdesi olmayanlara gre daha fazladr. Yine ayn tabloya gre genetik
yatknlk ile prostat kanseri arasnda istatistiksel adan anlaml bir iliki
bulunamamtr.
Prostat kanseri tehisi konulan hastalar iin genetik yatknlk oranna
bakldnda %11'lik bir oran vardr. Literatr almasnda bu orann genellikle %1 ile
102
103
ve meme kanseri 270 kiinin verileri kullanlmtr. Lojistik regresyon ve seilen YSA
modelleri kyaslandnda YSA deerleri daha baarl olduu grlmtr.
Ocakolunun[6] yapt almada, lojistik regresyon analizi ve yapay sinir
alarnn snflama etkinliklerini karlatrmay amalamaktadr. Lojistik regresyon
analizi ve yapay sinir alar yntemleri, bireylerin snflandrma oranlarna gre
karlatrlmtr. Buna gre YSA modelleri ile snflandrmann LRA kullanlarak
yaplan snflandrmadan daha iyi sonular verme eiliminde olduu ayrca yine ar
eitme, mimarinin hatal oluturulmas vb. problemleri olmayan YSA modellerinin daha
iyi ngr performans salayabildii grlmtr.
Kullanlabilecek istatistik analizleri karlatrldmzda farkl ltlere gre
farkl analizlerin baarl olduu grlmtr.
Doru snflama oranlarna gre en iyi modelin Yapay Sinir Alar sonra
Lojistik Regresyon Analizi ve en son olarak C&RT bulunmutur. Buradaki
almamzda kanser vakalarnn deerlendirilmesi yaplrken bir model yerine birden
fazla model kullanlmasnn belki bir zm olabilecei bulunmutur. nk aklanma
yzdelerine bakldnda farkl veri setlerinde farkl sonular
bulunabilecei
dnlmektir. almamz iin seicilik bakmndan her ne kadar Yapay Sinir Aalar
ile elde edilen sonularn daha iyi olduu elde edilmi olsa bile daha fazla bilgi
toplayarak yeni bir karar alma yoluna gidebilir.
104
KAYNAKLAR
1.
Kktrk F., Ankaral H., Smblolu V., Veri Madencilii Yntemlerine Genel
Belirlenmesinde
Yapay
Sinir
Alar
ile
Lojistik
Regresyon
Analizinin
Karak R., Yapay Sinir Alar ve Lojistik Regresyon Yntemleri ile Meme
Kanseri Koltuk Alt Lenf Durumunun Belirlenmesi, Yksek Lisans Tezi, Gazi
niversitesi, Ankara (2009).
8.
Kurumu la Provizyon Sistemi zerinde Bir Uygulama, Yksek Lisans Tezi, Gazi
niversitesi (2010).
9.
Wu X., Kumar V., QuinlANN J., Ghosh J., Yang Q., Top 10 Algorithms In
105
10.
Statistical and Data Mining Methods for Credit Scoring in Case of Limited Available
Data, Eleventh ANNual APRIA Conference 2007.
11.
Zurada J., Lonial S., Comparison Of The Performance Of Several Data Mining
Methods For Bad Debt Recovery In The Healthcare Industry, The Journal of Applied
Business Research 2005, 21: 37-53.
12.
Kaya E., Bulun, M., Arslan, A., Tpta Veri Ambarlar Oluturma ve Veri
Berry M., Linoff G., Data Mining Techniques for Marketing Sales and
Giudici P., Applied Data Mining: Statistical Methods for Business and Industry
1st ed., John Wiley & Sons, England, 1-15, 85-110 (2003).
15.
Holsheimer M., Siebes A., Data mining: The search for knowledge in
Jacobs P., Data Mining: What general managers need to know, Harvard
Fayyad, U., Piatetsky-Shapiro G., Smyth P., From Data Mining to Knowledge
Hand, J., Data mining: statistics and more ?, The American Statistician, 52:
112-118 (1998).
106
19.
Han J., Kamber M., Data Mining Concepts and Techniques 2nd Ed., Editor :
Jim Grey, The Morgan KaufmANN Series in Data Management Systems, Morgan
KaufmANN 2,8,12,14,15,29,30,398-403, (2006)
21.
2008?, 2008.
23.
DataMining Concepts, Models, Methods and Algorithms, John Wiley & Sons,(2003)
24.
Data Mining, Inference and Prediction, Springer Series in Statistics, New York, USA,
533 (2001).
25.
Maimon R., Data Mining & Knowledge Discovery Handbook ,Springer, 334
(2005).
26.
107
29.
Berry, M. J., Linoff, G. S., Data Mining Techniques: For Marketing, Sales, and
stanbul, (2006).
31.
Vahaplar, A., Bir Corafi Veri Madencilii Uygulamas, Yksek Lisans Tezi,
Masseglia, F., Poncelet, P., Teisseire, M., Using Data Mining Techniques on
Teng, J., Lin, K., Ho, B., Application of Classification Tree and Logistic
Deconinck, E., Hancock, T., Coomans, D., Massart, D.L., Heyden, Y.V.,
108
38.
Teng, J., Lin, K., Ho, B., Application of Classification Tree and Logistic
Hosmer, D. W., Lemeshow, S., Applied Logistic Regression, John Wiley &
ahin, .., Yapay Sinir Alar Yardm ile Dinamik Bir Senaryo Analizi,
T, stanbul, (2001).
45.
Efe, M.., Kaynak O., Yapay Sinir Aglar ve Uygulamalar, Yksek Lisans
Tosun S.,
Alar Ve
Karar
Aalar
ztemel E., Yapay Sinir Alar, Papatya Yaynclk, stanbul, s.32-33, (2003).
109
49.
Seven A., Yapay Sinir Alar ile Doku Snflandrma, .T., stanbul, (1993).
51.
Ta, E., Yapay sinir alarnda momentumlu dik ini ve elenik gradyan eitim
56.
ztemel E., Yapay Sinir Alar, Papatya Yaynclk, stanbul, s.49, (2003).
57.
Efe, M.., Kaynak O., Yapay Sinir Aglar ve Uygulamalar, stanbul Boazii
Oxford, (1995).
59.
Binici E., Java ile yapay zeka mekanizmasna sahip bir a ynetim sistemi
110
61.
Wigle D.T., Turner M.C., Gomes J., Role of hormonal and other factors in
human prostate cancer. J Toxicol Environ Health B Crit Rev 11 (3-4): 242-59, (Mart
2008).
62.
63.
Huggins C., Steven R.E., Hodges C.V., Studies on prostatic cancer. Arch. Sug.
43:209-223, (1941).
64.
Frank E., Hall M., Holmes G., Kirkby R., Pfahringer B., Witten, I.H., WEKA:
Witten I.H., Frank E., Data Mining: Practical Machine Learning Tools and
Hosmer D.W., Lemeshow S., Applied logistic regression. 2nd ed. New York:
logistic regression models on the risk of death for small-cell lung cancer patients,
European Journal of Cancer Care 15 , s:115124, (2006).
111
EKLER
Ek 1. Tokat Gaziosmanpaa niversitesi Tp Fakltesi Hastanesi roloji Polikliniine
01.01.2005 - 31.05.2011 tarihleri arasnda bavuran 236 hastaya ait veri seti. (Ekteki
veri setinin MS Excel .cvs formatdr)
age,PSA,rt,gy,pk
70,7.62,NO,NO,YES
59,0.037,NO,NO,YES 72,151,YES,NO,YES
66,43.57,YES,NO,YES 58,3.29,YES,NO,YES
82,151,YES,YES,YES 73,4.3,YES,NO,YES
63,4.53,YES,NO,YES 69,12.47,NO,NO,YES
80,14.5,YES,NO,YES 57,10.27,YES,YES,YES73,43.02,YES,YES,YES74,3.88,NO,NO,YES
68,6.29,NO,NO,YES
66,7.44,YES,YES,YES 77,100,YES,NO,YES
61,49.16,NO,NO,YES 73,6.74,NO,NO,YES
68,12.85,YES,NO,YES
70,10.84,YES,NO,YES 67,1.92,NO,NO,YES
77,1.4,NO,NO,YES
71,47.39,YES,NO,YES 75,20.66,YES,NO,YES
60,9.81,NO,NO,YES
73,85.53,YES,NO,YES
79,3.32,YES,NO,YES 67,8.73,NO,NO,YES
78,3.95,YES,NO,YES 65,8.31,NO,NO,YES
67,77.29,YES,NO,YES
72,1.39,YES,NO,YES 76,0.375,YES,NO,YES
65,6.59,YES,NO,YES
72,29.91,YES,NO,YES
62,10.29,YES,YES,YES85,13.48,YES,YES,YES
57,5.31,NO,NO,YES
60,1.48,NO,NO,NO
63,4.5,NO,NO,NO
66,0.636,NO,NO,NO
112
74,24.48,YES,NO,YES 75,2.57,YES,NO,NO
62,0.621,NO,NO,NO
49,0.869,NO,NO,NO
71,0.36,YES,NO,YES 65,0.896,NO,NO,NO
55,2.67,NO,NO,NO
65,0.55,NO,NO,NO
75,99.63,YES,YES,YES57,1.14,NO,NO,NO
70,4.73,NO,NO,NO
54,6.32,NO,NO,NO
64,7.79,NO,NO,YES
62,0.81,NO,NO,NO
65,0.397,YES,NO,NO 63,8.26,NO,NO,NO
67,5.7,NO,NO,YES
66,16.43,NO,NO,NO
68,6.98,NO,NO,NO
59,9.19,NO,NO,NO
70,28.81,YES,NO,YES 64,2.73,NO,NO,NO
66,6.66,NO,NO,NO
55,3.5,NO,NO,NO
66,14.69,YES,NO,YES 62,2.1,NO,NO,NO
76,3.76,YES,NO,NO
57,2.96,NO,NO,NO
67,22.04,NO,NO,YES 63,8.24,NO,NO,NO
48,8.63,NO,NO,NO
52,1,NO,NO,NO
72,4.39,NO,NO,YES
62,1.99,NO,NO,NO
58,1.82,NO,NO,NO
67,54.11,YES,NO,YES 67,2.35,NO,NO,NO
55,2.04,NO,NO,NO
59,1.49,NO,NO,NO
80,14.79,YES,NO,YES 48,0.515,NO,NO,NO
63,1.06,NO,NO,NO
72,6.54,NO,NO,NO
68,29.31,NO,NO,YES 73,3.47,NO,NO,NO
57,0.91,NO,NO,NO
59,3.04,YES,NO,NO
77,81.4,YES,NO,YES 65,3.02,YES,NO,NO
69,5.76,NO,NO,NO
68,100,YES,NO,YES
61,0.575,NO,NO,NO
58,0.482,NO,NO,NO
67,5.05,NO,NO,NO
62,13.93,YES,NO,YES 67,2.58,YES,NO,NO
68,3.06,NO,NO,NO
53,2.36,YES,NO,NO
43,0.671,NO,NO,NO
53,3.04,NO,NO,NO
56,3.53,NO,NO,NO
68,3.05,NO,NO,NO
54,5.3,NO,NO,NO
66,5.73,NO,NO,NO
67,3.8,NO,NO,NO
72,3.8,YES,YES,NO
58,0.99,NO,NO,NO
62,3.91,NO,YES,NO
59,6.62,YES,NO,NO
57,4.8,NO,NO,NO
56,6.33,NO,NO,NO
63,3.97,YES,NO,NO
70,1.38,YES,YES,NO 58,0.576,NO,NO,NO
65,9.48,NO,NO,NO
58,1.58,NO,NO,NO
58,1.5,NO,NO,NO
60,7.83,NO,NO,NO
64,7.38,NO,NO,NO
70,1.68,NO,NO,NO
56,1.93,YES,NO,NO
70,1.26,NO,NO,NO
60,18.3,NO,NO,NO
57,2.8,NO,NO,NO
51,2.84,NO,NO,NO
60,2.47,NO,NO,NO
58,6.84,NO,NO,NO
70,2.04,NO,YES,NO
65,4.26,NO,NO,NO
68,3.38,NO,NO,NO
60,1.64,NO,NO,NO
65,3.29,NO,NO,NO
76,4.32,NO,NO,NO
67,3.3,NO,NO,NO
66,3.29,NO,NO,NO
69,6.23,YES,NO,NO