You are on page 1of 128

T.C.

GAZOSMANPAA NVERSTES
SALIK BLMLER ENSTTS

LOJSTK REGRESYON ANALZ (LRA), YAPAY SNR ALARI


(YSA) ve SINIFLANDIRMA ve REGRESYON AALARI (C&RT)
YNTEMLERNN KARILATIRILMASI ve TIP ALANINDA BR
UYGULAMA

Hazrlayan
Yunus Emre Kuyucu

Biyoistatistik Anabilim Dal


Yksek Lisans Tezi

Danman
Yrd. Do. Dr. nal Erkorkmaz

Tokat-2012

T.C.
GAZOSMANPAA NVERSTES
SALIK BLMLER ENSTTS

LOJSTK REGRESYON ANALZ (LRA), YAPAY SNR ALARI


(YSA) ve SINIFLANDIRMA ve REGRESYON AALARI (C&RT)
YNTEMLERNN KARILATIRILMASI ve TIP ALANINDA BR
UYGULAMA

Hazrlayan
Yunus Emre Kuyucu

Biyoistatistik Anabilim Dal


Yksek Lisans Tezi

Danman
Yrd. Do. Dr. nal Erkorkmaz

Tokat-2012

LOJSTK REGRESYON ANALZ (LRA), YAPAY SNR ALARI


(YSA) ve SINIFLANDIRMA ve REGRESYON AALARI (C&RT)
YNTEMLERNN KARILATIRILMASI ve TIP ALANINDA BR
UYGULAMA

Tezin Kabul Edili Tarihi: 04/01/2012

Jri yeleri

(Unvan, Ad Soyad)

mzas

Prof. Dr. Hafize SEZER


(Bakan)
Yrd. Do. Dr. nal ERKORKMAZ
(ye, Danman retim yesi)
Yrd. Do. Dr. lker ETKAN
(ye)

Bu tez, Gaziosmanpaa niversitesi Salk Bilimleri Enstits Ynetim Kurulunun


//. tarih ve . sayl oturumunda belirtilen jri tarafndan
kabul edilmitir.

Do. Dr. Hseyin ZYURT


Enstit Mdr

Mhr
mza

T.C.
GAZOSMANPAA NVERSTES
SOSYAL BLMLER ENSTTS MDRLNE

Bu belge ile bu tezdeki btn bilgilerin akademik kurallara ve etik ilkelere


uygun olarak toplanp sunulduunu, bu kural ve ilkelerin gerei olarak, almada bana
ait olmayan tm veri, dnce ve sonulara atf yaptm ve kaynan gsterdiimi
beyan ederim.

04/01/2012
Tezi Hazrlayan rencinin
Ad ve Soyad
Yunus Emre KUYUCU
mzas

TEEKKR
Bu tezin hazrlanmas aamasnda yardmlarn esirgemeyen, bana almamn
her aamasnda deneyim ve bilgileri ile yol gsteren danman hocam Yrd. Do. Dr.
nal ERKORKMAZ a, hocam Yrd. Do. Dr. lker ETKAN a, sevgisi ve destei ile
hep yanmda ve kalbimde olan eim Nagehan KUYUCU ya, biricik yavrumuz Elif Naz
KUYUCU ya ve desteklerinden dolay tm aileme teekkr ediyorum.

ZET

Lojistik Regresyon Analizi (LRA), Yapay Sinir Alar (YSA) ve


Snflandrma ve Regresyon Aalar (C&RT) Yntemlerinin
Karlatrlmas ve Tp Alannda Bir Uygulama
Lojistik Regresyon, baml deikenin kategorik ve bamsz deikenlerin
kark lekli olmas durumunda belirli bir dalm varsaymna baml kalmakszn
baml deiken ile bamsz deikenler arasndaki neden-sonu ilikisinin
belirlenmesinde kullanlan bir yntemdir.
Yapay Sinir Alar, insan beynindeki sinir alar gibi alarak son derece
karmak yapya sahip problemlerin zmn salar. Kulland geriye yaylma
algoritmasn ile a hatasn minimize ederek birimlerin en az hata ile snflarna
atanmas iin an arlklarn hesaplar.
Snflandrma ve Regresyon Aalar (C&RT); ikili karar aac oluturan bir
yntemdir. Aataki her bir noda, her bir bamsz deiken iin geliim skoruna dayal
olarak en iyi kesim noktas ya da en iyi kategori gruplar oluturulur.
Bu tez almasnda, Lojistik Regresyon Analizi (LRA), Yapay Sinir Alar
(YSA) ve Snflandrma ve Regresyon Aalar (C&RT) Yntemlerinin snflandrma
zelliklerinin karlatrlmas yaplmtr. Bu karlatrma iin prostat kanseri
ynnden deerlendirilmesi yaplan hastalara ait veriler kullanlm, ynteme gre
elde edilen sonular baar ynnden deerlendirilmitir.

Anahtar kelimeler: Lojistik Regresyon Analizi (LRA), Yapay Sinir Alar (YSA),
Snflandrma Ve Regresyon Aalar (C&RT), Prostat Kanseri.

ii

ABSTRACT

Comparison of Logistic Regression Analysis (LRA), Artificial Neural


Networks (ANN) and Classfication and Regression Trees (C&RT)
Methods And An Aplication In Medicine
Logistic regression, categorical dependent variable and independent variables in
the case of mixed-scale without being dependent on the assumption that a certain
distribution of cause-effect relationship between the dependent variable and
independent variables used in the determination of a method.
Artificial Neural Networks, such as neural networks working in the human brain
is extremely complex structure provides the solution of problems. Error back
propagation algorithm uses the network by minimizing the weight of the units of the
network accounts for the appointment of classes with fewer errors.
Classification and Regression Trees (C & RT) is a method of forming a binary
decision tree. Each node in the tree, each independent variable on the basis of the best
cut-off point score for the development or the best category groups are created.
In this thesis, Logistic Regression Analysis (LRA), Artificial Neural Networks
(ANN) and Classification and Regression Trees (C & RT) characteristics of the
classification methods were compared. This comparison of the data used in patients
undergoing evaluation for prostate cancer in terms of the three methods to the results
obtained were evaluated in terms of success.

Key words: Logistic Regression Analysis (LRA), Artificial Neural Networks (ANN),
Classfication and Regression Trees (C&RT), Prostate Cancer.

iii

NDEKLER
ZET

ABSTRACT

NDEKLER

TABLOLAR LSTES
EKLLER LSTES
KISATMALAR VE SMGELER

V
V
X

1.

GR VE AMA

2.

GENEL BLGLER

2.1. SINIFLAMA VE REGRESYON MODELLER


2.1.1. Karar Aalar
2.1.2. Yapay Sinir Alar
2.1.2.1. Yapay Sinir A Nedir?
2.1.2.2. Biyolojik Sinir Alar
2.1.2.3. Yapay Sinir Alarnda Genel Yap
2.1.2.4. Yapay Sinir Hcresi
2.1.2.5. Yapay Sinir Ann Temel Elemanlar
2.1.2.5.1. Giriler
2.1.2.5.2. Arlklar
2.1.2.5.3. Toplama levi
2.1.2.5.4. Etkinlik levi (Aktivasyon Fonksiyonu)
2.1.2.5.5. k levi
2.1.2.6. A Girilerinin Hesaplanmas in Matris arpma Metodu
2.1.2.7. Yapay Sinir Hcresinin alma Prensibi
ekil 2.17da girileri ve arlklar verilmi olan bir yapay sinir hcresinin
almas yledir:
2.1.3. Lojistik Regresyon Analizi
2.1.3.1. Lojistik Snflandrma ve Lojistik Regresyon Modeli

8
9
18
19
24
26
27
29
30
30
31
32
38
38
39
39
42
44

2.2. PROSTAT KANSER


2.2.1. Prostat Kanseri Hakknda Genel Bilgi
2.2.2. Prostat Nedir?

47
47
47

iv

2.2.3. Tehis
2.2.3.1. Prostatn Parmakla Muayenesi
2.2.3.2. Prostata zg Antijenin Belirlenmesi (PSA)
2.2.3.3. Makattan (rektum) Ultrason Muayenesi (TRUS)
3.

GERE VE YNTEM

48
48
48
49
50

3.1. C&RT ALGORTMASI (Classification And Regression Trees: Snflama Ve


Regresyon Aalar)
51
3.1.1. Maksimum Aacn Oluturulmas
52
3.2. YAPAY SNR AI MODELLER
3.2.1. Tek Katmanl Alglayclar
3.2.1.1. Hebb Kural
3.2.1.2. Perseptron
3.2.1.2.1. Perseptron Algoritmas
3.2.1.2.2. Delta
3.2.2. ok Katmanl Alglayclar
3.2.2.1. Geriye Yaylm Algoritmas
3.2.2.2. Standart Geriye Yaylm Eitim Algoritmas
3.2.2.2.1. Geriye Yaylm Algoritma eitleri
3.2.2.2.2. Geri Yaym Mant

55
55
56
57
58
61
61
63
64
65
66

3.3. LOJSTK REGRESYON MODEL


3.3.1. Lojistik Regresyon Modelinin Oluturulmas
3.3.2. oklu Lojistik Regresyon Modeli
3.3.3. oklu Lojistik Regresyon Modelinin Kurulmas
3.3.4. Lojistik Regresyon Modelinde Katsaylarn Yorumlanmas
3.3.5. Modelde kiden Fazla Bamsz Deikenin Olduu Durum

69
69
71
72
72
73

3.4.

YNTEMLERN KARILATIRILMASI N LTLER

73

3.5.

WEKA

75

4.

BULGULAR

78

4.1.

TANIMLAYICI STATSTKLER

78

4.2.

LOJSTK REGRESYON ANALZ

81

4.3.

SINIFLANDIRMA VE REGRESYON AALARI

86

4.4.

YAPAY SNR ALARI

93

4.5.

YNTEMLERN KARILATIRILMASI

5.

TARTIMA VE SONU

99
100

KAYNAKLAR

104

EKLER

111

Ek 1.

111

vi

TABLOLAR LSTES
Sayfa
Tablo 2.1.

Biyolojik Sinir Hcresi

25

Tablo 2.2.

statistiksel Yntemler le Yapay Sinir Alarnn


Benzeimi

26

Tablo 2.3.

Toplama Fonksiyonu rnekleri Toplama levi

32

Tablo 2.4.

Yaa zg Normal Serum PSA Deerleri

49

Tablo 4.1.

Srekli Deikenler (Ya ve PSA) in Tanmlayc


statistikler (n=236)

78

Tablo 4.2.

Kategorik Deikenler (Rektal Tue ve Genetik Yatknlk)


in tanmlayc statistikler (n=236)

78

Tablo 4.3.

Prostat Kanseri Tans Durumuna Gre Srekli


Deikenlerin (Ya ve PSA) Dalm

79

Tablo 4.4.

Prostat Kanseri Tans Durumuna Gre Kategorik


Deikenlerin (Rektal Tue ve Genetik Yatkn.) Dalm

80

Tablo 4.5.

Odds Oranlar (LRA)

82

Tablo 4.6.

Snflandrma Sonular-I (LRA)

82

Tablo 4.7.

Snflandrma Sonular-II (LRA)

82

Tablo 4.8.

Dzensizlik Matrisi Sonular (LRA)

83

Tablo 4.9.

Snflandrma Sonular-I (C&RT)

86

Tablo 4.10.

C&RT Snflandrma Sonular-II (C&RT)

86

Tablo 4.11.

Dzensizlik Matrisi Sonular (C&RT)

87

Tablo 4.12.

Snflandrma Sonular-I (YSA)

93

Tablo 4.13.

YSA Snflandrma Sonular-II (YSA)

93

vii

Tablo 4.14.

Dzensizlik Matrisi Sonular (YSA)

94

Tablo 4.15.

Dm 0 in Arlklar

94

Tablo 4.16.

Dm 1 in Arlklar

95

Tablo 4.17.

Dm 2 in Arlklar

95

Tablo 4.18.

Dm 3 in Arlklar

95

Tablo 4.19.

Dm 4 in Arlklar

96

Tablo 4.20.

Genel Karlatrma Tablosu

99

viii

EKLLER LSTES
Sayfa
ekil 2.1.

Veri Madencilii Modelleri

ekil 2.2.

Karar Aac Yaps

14

ekil 2.3.

Basit Bir Yapay Nron

22

ekil 2.4.

Basit Bir Yapay Sinir A

23

ekil 2.5.

Biyolojik Sinir Sisteminin Blok Gsterimi

24

ekil 2.6.

Biyolojik Sinir Hcresi

24

ekil 2.7.

Yapay Sinir Alarnn Genel Yaps

26

ekil 2.8.

Basit Alglayc Modeli

28

ekil 2.9.

Dorusal veya Lineer Fonksiyon

33

ekil 2.10.

Basamak Fonksiyonlar

34

ekil 2.11.

Tek kutuplamal Basamak Fonksiyonu

35

ekil 2.12.

ift Kutuplamal Basamak Fonksiyonu

35

ekil 2.13.

Paral Dorusal Fonksiyon

36

ekil 2.14.

Sigmoid Tipli Fonksiyon

37

ekil 2.15.

Tanjant Hiperbolik Tipli Fonksiyon

37

ekil 2.16.

Sins Tipli Fonksiyon

38

ekil 2.17.

Yapay Sinir Ann alma rnei

40

ix

ekil 2.18.

YSA de Kullanlan Geri Yaylml renme


Algoritmas

41

ekil 3.1.

Tek Arlk Katmanl Bir Yapay Sinir A

56

ekil 3.2.

Basit Bir Perseptron Mimarisi

59

ekil 3.3.

Tek Gizli Katmanl leri Beslemeli ok Katmanl Bir


Yapay Sinir A

62

ekil 3.4.

ok Katmanl Alglayc

63

ekil 3.5.

Tek Gizli Katmanl leri Beslemeli ok Katmanl Bir


Yapay Sinir A

64

ekil 3.6.

Geri Yaym Mant

67

ekil 4.1.

Rektal Tue sonularnn dalm

79

ekil 4.2.

Genetik Yatknlk sonularnn dalm

79

ekil 4.3.

Prostat Kanseri Tans Koyulan Hastalarn Rektal Tue


Sonular

80

ekil 4.4.

Prostat Kanseri Tans Konulmayan (Normal) Hastalarn


Rektal Tue Sonular

80

ekil 4.5.

Prostat Kanseri Tans Koyulan Hastalarn Genetik


Yatknlk Durumlar Dalm

81

ekil 4.6.

Prostat Kanseri Tans Konulmayan (Normal) Hastalarn


Genetik Yatknlk Durumlar Dalm

81

ekil 4.7.

LRA in ROC Erisi

83

ekil 4.8.

Ya in Yanl Snflandrmalarn Gsterimi (LRA)

84

ekil 4.9.

PSA in Snflandrma Hatalarnn Gsterimi (LRA)

84

ekil 4.10.

Rektal Tue in Snflandrma Hatalarnn Gsterimi


(LRA)

85

ekil 4.11.

Genetik Yatknlk in Snflandrma Hatalarnn


Gsterimi (LRA)

85

ekil 4.12.

C&RT in ROC Erisi

87

ekil 4.13.

C&RT - Algoritmas in Aa Gsterimi

90

ekil 4.14.

Ya in Yanl Snflandrmalarn Gsterimi (C&RT)

91

ekil 4.15.

PSA in Yanl Snflandrmalarn Gsterimi (C&RT)

91

ekil 4.16.

Rektal Tue in Yanl Snflandrmalarn Gsterimi


(C&RT)

92

ekil 4.17.

Genetik Yatknlk in Yanl Snflandrmalarn


Gsterimi (C&RT)

92

ekil 4.18

YSA iin ROC Erisi

94

ekil 4.19

Yapay Sinir A Modeli

96

ekil 4.20

Ya in Yanl Snflandrmalarn Gsterimi (YSA)

97

ekil 4.21

PSA in Yanl Snflandrmalarn Gsterimi (YSA)

97

ekil 4.22

Rektal Tue in Yanl Snflandrmalarn Gsterimi


(YSA)

98

ekil 4.22

Genetik Yatknlk in Yanl Snflandrmalarn


Gsterimi (YSA)

98

xi

KISATMALAR ve SMGELER

C&RT

Snflandrma ve Regresyon Aac

YSA

Yapay Sinir Alar

LRA

Lojistik Regresyon Analizi

ROC

Receiver Operating Characteristic Curve (Alc lem


Karakteristikleri Erisi)

AUC

ROC erisi altnda kalan alan (Area under the ROC


Curve)

VM

Veri Madencilii

CHAID

(Chi-Squared Automatic Interaction Detector: Otomatik


Ki-Kare Etkileim Belirleme),

MARS

(Multivariate Adaptive Regression Splines:


Deikenli Uyumlu Regresyon Uzanmlan),

QUEST

(Quick, Unbiased, Efficient Statistical Tree: Hzl, Yansz,


Etkin statistiksel Aa),

SLIQ

(Supervised Learning in Quest),

SPRINT

(Scalable Parallelizable Induction of Decision Trees)

ID3

Iterative Dichotomiser 3

ok

1. GR ve AMA
Gnmzde teknolojinin hzl geliimi ile tm sektrlerden elde edilen veri
miktar devasa boyutlara ulam ve verilerin toplanmas, saklanmas, ilenmesi gibi
problemler ortaya kmtr. yle ki bugn dnyadaki bilgi miktarnn her yirmi ayda
bir ikiye katland kabul edilmektedir. Bu problemlere, gelien bilgisayar teknolojileri,
kapasitesi ve ilem gc artan donanmlar ve yazlmlar ile birlikte zm sunmaya
almtr. Bu zmlerinde en nemlisi veri tabanlar alanndaki ilerlemelerdir. Ancak
veritaban sistemlerinin artan kullanm ve hacimlerindeki olaanst art, iletmeleri
toplanan verilerden nasl faydalanlabilecei problemi ile kar karya brakmtr. Veri
miktar arttka bu verilerin insanlarca anlalmas zorlam; veriler ierisinde sakl
kalm yararl bilginin elde edilmesi ve Karar Destek Sistemi erevesinde kullanm,
herhangi bir ara kullanmakszn olanaksz hale gelmitir. Geleneksel sorgu veya
raporlama aralarnn veri ynlar karsnda yetersiz kalmas, veri madencilii ve veri
madencilii altnda yaplan snflandrmalar gibi yeni araylara neden olmaktadr [1, 2,
3].
Snflandrma uygulamalarnda kullanlan pek ok model ve bu modellere ait
farkl algoritmalar vardr. Bu algoritmalardan hangisinin daha efektif sonular rettii,
hangi algoritmann hangi alanda daha baarl olduu sorusuna verilen cevaplar
uygulamalarn baarmn arttracak ve yaplan iin verimini arttracaktr. Bu sebeple
algoritmalarn karlatrlarak deerlendirilmesi byk nem arz etmektedir. ok
sayda algoritma olmas, her algoritmann kendi iinde farkl parametrelerle almas,
her algoritmann birden ok versiyonunun bulunmas, farkl algoritmalarn farkl amaca
ynelik olmas, kullanlan veri kaynann farkl olmas, algoritmalarn farkl veri

tiplerini desteklemesi ve veri zerinde yaplan nilemlerin uygulaycya bal olmas


gibi sebeplerle farkl sonular elde edilmitir [1, 2, 4, 12, 13, 15].
Baml deikenlerin kategorik yapda olduu veri setlerinin analizinde
bamsz deikenlerin baml deiken zerindeki etkilerini deerlendirmek ve
birimlerin baml deikenin kategorilerine gre en az hata ile snflandrlmas iin
kullanlan Snflandrma ve Regresyon Aalar (C&RT); Yapay Sinir Alar (YSA) ve
Lojistik Regresyon Analizi (LRA) yntemlerinin karlatrlmas yaplm ve
birbirlerine gre avantaj ve dezavantajlar incelenmitir. Yntemlerin karlatrlmas
iin gerek bir veri seti ve karlatrma iin ak kaynak koda sahip bir istatistik
program olan Weka (Waikato Environment for Knowledge Analysis Ver.3,6,5)
program kullanlmtr.
Snflandrma ve Regresyon Aalar (C&RT); ikili karar aac oluturan bir
yntemdir. Aataki her bir noda, her bir bamsz deiken iin geliim skoruna dayal
olarak en iyi kesim noktas ya da en iyi kategori gruplar oluturulur. Snflandrma ve
Regresyon Aalarnda ama baml deiken ile ilgili verilerin mmkn olduunca
homojen alt setlerinin meydana getirilmesidir. C&RT, kategorik yapdaki baml
deikenler iin genellikle Gini indeksi kullanarak en iyi kestirici deiken seerek aa
yapsn oluturur [3, 4, 14].
Yapay Sinir Alar insan beynindeki sinir alar gibi alarak elle zm
olana vermeyen son derece karmak yapya sahip problemlerin zmn salayan
ve deiken yaps konusunda herhangi bir kstlama getirmeksizin deikenler aras
ilikiyi ortaya koyan ok esnek bir yntemdir. YSA, zellikle snflandrma problemleri
iin yaygn ekilde kullanlmaktadr. YSA, geriye yaylma algoritmasn kullanarak a

hatasn minimize ederek birimlerin en az hata ile snflarna atanmas iin an


arlklarn adm adm hesaplar [5 ,6, 7, 16, 18].
Lojistik Regresyon Analizi ise baml deikenin kategorik ve bamsz
deikenlerin kark lekli olmas durumunda belirli bir dalm varsaymna baml
kalmakszn baml deiken ile bamsz deikenler arasndaki neden-sonu
ilikisinin belirlenmesinde kullanlan bir yntemdir. LR, en ok olabilirlik tahmin
yntemini kullanarak veri setinden elde edilen olasl maksimum yapan bilinmeyen
parametre deerleri tahmin eder. Bylece olabilirlik fonksiyonunu maksimum yapan
parametre tahminleri seilir ve gzlenen veri ile en iyi rten parametre tahminleri elde
edilir [3, 4, 17].
Literatr taramas yapldnda bu almada seilen snflandrma
ynteminin genellikle ikili varyasyonlar ile karlalmtr. Tarama sonucunda gncel
almalar tercih edilmi olup bunlardan bazlar aada zetlenmitir.
Gneri ve ark.[4] baar snflandrmasnda lojistik regresyon ve sinir alar
yaklam sonucunda elde edilen doru snflandrma oranlarn karlatrdklarnda
verilerin doru snflandrma olaslklar lojistik regresyon uygulamas ve sinir alar
yaklam iin %95.17 olarak bulunmutur. ki yntemin ayn sonucu vermi olmas
sinir alarnn atama problemlerinde kullanlabilirliini gstermitir.
Kurt ve ark.[5] yapt almada, rencilerin alkol kullanmn etkileyen
faktrler lojistik regresyon analizi (LR) ve yapay sinir alar (YSA) ile incelenmitir.
Bu yntemlerin alkol kullanan ve kullanmayan rencileri ayrmadaki etkinlikleri ROC
erisi yntemiyle karlatrlm. Sonu olarak LR, modelin parametre tahminleri ve
OR deerleri hakknda bilgi vermesi ve sonularnn kolay yorumlanabilir olmas
asndan YSAdan daha avantajl olduu grlmtr. Bu nedenle eer uygulama

sonucunda YSAnn snflandrma performans LRden kt ise LR modeli tercih


edilmeli; eer YSAnn performans LRden daha iyi ise nemsiz deikenlerin
modelden karlmasnda LR, YSA iin bir n eleme yntemi olarak kullanlmaldr
sonucuna varlmtr.
Ocakolunun[6] yapt almada, lojistik regresyon analizi ve yapay sinir
alarnn snflama etkinliklerini karlatrmay amalamaktadr. Lojistik regresyon
analizi ve yapay sinir alar yntemleri, bireylerin snflandrma oranlarna gre
karlatrlmtr. Buna gre YSA modelleri ile snflandrmann LRA kullanlarak
yaplan snflandrmadan daha iyi sonular verme eiliminde olduu ayrca yine ar
eitme, mimarinin hatal oluturulmas vb. problemleri olmayan YSA modellerinin daha
iyi ngr performans salayabildii grlmtr.
Karakn[7] yapt almada, meme kanseri hastalarnn koltuk alt lenf nod
durumlarn belirleyen SLNB ve AD ameliyatlar olmakszn, her hastanede kolaylkla
elde edilebilir olan klinik ve patolojik verilerinin girildii YSA nn, hastalarn koltuk
alt lenf nod durumunu belirlemesi amalanmtr. alma iin Ankara Numune Eitim
ve Aratrma Hastanesi ve Ankara Onkoloji Eitim ve Aratrma Hastanesine bavuran
ve meme kanseri 270 kiinin verileri kullanlmtr. ok katmanl ileri yaylml yapay
sinir a modeli sonular regresyon ve korelasyon katsaylarna baklarak
deerlendirilmitir. Ayn zamanda tbbi almalarda tp testlerinin doruluklarn tespit
amal kullanlan ROC analizi ile elde edilen eitim ve test veri sonularnn belirlilik,
duyarllk ve doruluk sonular deerlendirilmitir. YSAnn sonularnn kyaslanmas
iin lojistik regresyon yntemi kullanlmtr. Lojistik regresyon ile hangi verilerin
anlaml olduuna baklm, anlaml olan verilerle yapay sinir a tekrar eitilmi ve test

edilmitir. Lojistik regresyon ve seilen YSA modelleri kyaslandnda YSA deerleri


daha baarl olduu grlmtr.
Krann[8] yapt almada, veri madencilii yntemleri ierisinde snflama
ve regresyon modellerinden en ok kullanlan karar aalar ile lojistik regresyonun
snflama zellikleri karlatrlarak gerek bir veri seti zerinde uygulama yaplm ve
sz konusu iki yntemin baarsn gstermek amalanmtr. Sonuta her iki modelin %
90n zerinde snflandrma baars gsterdii dikkat ekerken, C&RT ynteminin
daha yksek snflandrma baarsna sahip olduu tespit edilmitir. Bu noktadan
hareketle C&RT ve lojistik regresyon analizi ile yaplan almalarda hata riskini en aza
indirmek amacyla C&RT ynteminin kullanlmas daha uygun bulunmutur.
King ve ark.[39] sembolik renme (C&RT, C4.5, NewID, ITrule,Cal5, CN2),
istatistik (Naive Bayes, k-en yakn komuluk, kernel younluk, dorusal ayrma, karesel
ayrma, lojistik regresyon, Bayes Alar) ve yapay sinir alar (geri yaynm - merkez
tabanl uzaklk fonksiyonu) yntemleri arasnda karlatrma yapmlardr. Bu
yntemleri be adet resim, iki adet tp, ikier mhendislik ve finans veri kmeleri
zerinde uygulamlardr. Daha iyi sonular reten algoritmann, zerinde aratrma
yaplan veri kmesine bal olduu sonucuna ulamlardr ve rnek olarak iki
kategorili deikenlerde gzlenme orannn %38in zerinde olduu veri kmelerinde
sembolik renme algoritmalarnn daha verimli sonular rettiini belirtmilerdir.
Sabzecari ve ark.[10] zel bir bankann kredi derecelendirme amal veri kmesi
zerinde uyguladklar veri madencilii yntemlerini karlatrmlardr. Bankalar,
kredi verirken, veri madencilii yntemleri ile kredi bavurusunda bulunan mterileri
deerlendirerek mteriye kredi verilmesinin uygun olup olmadn belirlemektedirler.
Sabzecari ve ark. Probit ve lojistik regresyon, C&RT, yapay sinir alar, bagging ve

MARS algoritmalarn karlatrarak sonularn deerlendirmilerdir. Olduka kk


bir veri kmesi zerinde yaptklar bu alma sonucunda istatistiksel modeller
arasndan lojistik regresyon ve makine renme modelleri arasndan da bagging
modelinin daha baarl sonular rettiini ifade etmilerdir.
Zurada ve ark.[11] salk endstrisinde kt kredilerin belirlenmesinde
karlatrdklar yapay sinir alar, karar aalar, lojistik regresyon, hafza-tabanl
sebepleme ve btnletirilmi model arasnda karlatrlma yapmlardr. Sonuta
yapay sinir alarnn, lojistik regresyon algoritmasnn ve btnletirilmi modelin daha
iyi kesinlik oranna sahip sonular rettiini, karar aalarnn ise iyi kredi
snflandrmasn daha yksek bir doruluk derecesiyle tespit ettiini belirtmilerdir.

2. GENEL BLGLER
Veri Madenciliinde kullanlan modeller, temel olarak ekil 2.1de grld
zere tahmin edici (predictive) ve tanmlayc (descriptive) olmak zere iki ana balk
altnda incelenmektedir [26].

ekil 2.1. Veri Madencilii Modelleri

Tahmin edici modellerin amac, verilerden hareket ederek bir model gelitirmek
ve kurulan bu model yardmyla sonular bilinmeyen veri kmelerinin sonu
deerlerini tahmin etmektir. Eer tahmin edilecek deiken srekli bir deikense
tahmin problemi regresyon, kategorik bir deikense snflama problemi olarak
nitelendirilmektedir [2]. Tanmlayc modellerde ise karar vermeye rehberlik etmede
kullanlabilecek mevcut verilerdeki rntlerin tanmlanmas salanmaktadr.
Veri Madencilii modelleri fonksiyonlarna gre ise;
Snflama (Classification) ve Regresyon,
Kmeleme (Clustering),

Birliktelik kurallar (Association Rules) eklinde snflandrlmaktadr.


ekil 2.1de gsterilen veri madencilii modellerinden snflama ve regresyon
modelleri tahmin edici, kmeleme, birliktelik kurallar ve ardk zamanl rntler ise
tanmlayc modellerdir [1].
2.1. SINIFLAMA VE REGRESYON MODELLER
Veri madencilii yntemleri ierisinde en yaygn kullanma sahip olan, byk
veri kmelerini snflandrarak nemli veri snflarn ortaya koyan veya gelecek veri
eilimlerini tahmin etmede faydalanlan yntemlerden bir tanesi snflama ve regresyon
modelleridir.
Veri madenciliinin en nemli alanlarndan biri olan kmeleme, nesneleri
birbirlerine olan benzerliklerine gre gruplara ayrmaktadr. Yani kmeleme
modellerinde ama, kme yelerinin birbirlerine ok benzedii ancak zellikleri
birbirlerinden ok farkl olan kmelerin bulunmas ve veri tabanndaki kaytlarn bu
farkl kmelere blnmesidir. Bylece nesneler, rneklenen kitle zelliklerini iyi
yanstan etkili bir temsil gcne sahip olacaktr [1,2,3].
Snflama en ok bilinen veri madencilii yntemlerinden birisidir; resim, rnt
tanma, hastalk tanlan, dolandrclk tespiti, kalite kontrol almalar ve pazarlama
konulan snflama yntemlerinin sklkla kullanld alanlardr. Snflama tahmin edici
bir model olup, havann bir sonraki gn nasl olaca veya bir kutuda ka tane mavi top
olduunun tahmin edilmesi bir snflama ilemidir [27]. Matematiksel olarak snflama;
D = {t1,t2,...,tn} bir veri taban ve her bir ti bir kayt (gzlem),
C = {Cl,C2,...,Cm} ise m adet snftan oluan snflar kmesini temsil etmek
zere,

f : D C ve her bir ti bir snfa dahildir. Ayrca her bir Cj ayr bir snftr ve her
bir snf kendisine ait kaytlar ierir. Yani,
C j = { t i l f { t i ) = C j ,\<i<n, ve t t G D } olarak tanmlanmaktadr.
Veri madencilii yntemleri ierisinde en yaygn kullanma sahip olan snflama
ve regresyon modelleri arasndaki temel farkllk baml deikenin kategorik veya
srekli olmasdr. Daha nce de bahsedildii gibi, eer baml deiken srekli ise
problem regresyon problemi, kategorik ise problem snflama problemi olarak
adlandrlr. Ancak lojistik regresyon gibi kategorik deerlerin de tahmin edilmesine
olanak veren yntemlerle, her iki model giderek birbirine yaklamakta ve bunun bir
sonucu olarak ayn yntemlerden yararlanlmas mmkn olmaktadr.
Snflama ve regresyon modellerinde kullanlan balca yntemler;
Yapay Sinir Alar (Artificial Neural Networks),
Karar Aalar (Decision Trees),
Lojistik Regresyon (Logistic Regression),
Genetik Algoritmalar (Genetic Algorithms),
K-En Yakn Komu (K-Nearest Neighbor),
Bellek Temelli Nedenleme (Memory Based Reasoning),
Naive-Bayes,
Bulank Kme Yaklam (Fuzzy Set Approach) dr [8].
almann kapsamnda yukarda saylan sz konusu yntemlerden Karar
Aalar, Lojistik Regresyon ve Yapay Sinir Alarnn zerinde durulacaktr.
2.1.1. Karar Aalar
Karar Aalar, verileri belli zellik deerlerine gre snflandrmaya yarar.
Bunun iin algoritmaya girdi olarak eitli veri zellikleri belirlenir. kt olarak da

10

belli bir veri zellii seilerek algoritmann bu kt zellii deerlerine ulamak iin
hangi girdi zelliklerinin bir arada olmas gerektiini aa veri yaplar eklinde
kefetmesi salanr [28].
Karar aalar, basit karar verme admlar uygulanarak, ok sayda kayt ieren
bir veri kmesini ok kk kayt gruplarna blmek iin kullanlan bir yapdr [29].
Her baarl blme ilemiyle, sonu gruplarnn yeleri bir dieriyle ok daha benzer
hale gelmektedir.
Bu teknikte snflandrma iin bir aa oluturulur, daha sonra veri tabanndaki
her bir kayt bu aaca uygulanr ve kan sonuca gre de bu kayt snflandrlr. Karar
aalar veri setinin ok karmak olduu durumlarda bile, baml deikeni etkileyen
deikenleri ve bu deikenlerin modeldeki nemini basit bir aa yaps ile grsel
olarak sunabilmektedir [8,28].
Karar aac yntemini kullanarak verinin snflanmas temel olarak iki admdan
olumaktadr. Birinci adm; nceden bilinen bir eitim verisinin model oluturmak
amac ile snflama algoritmas tarafndan zmlendii renme basamadr.
renilen model, snflama kurallar veya karar aac olarak gsterilir. kinci adm ise
eitim verisinin snflama kurallarnn veya karar aacnn doruluunu belirlemek
amacyla test edilerek kullanld snflamadr. Eer doruluk kabul edilebilir oranda
ise, kurallar yeni verilerin snflanmas amacyla kullanlr [8].
Karar aac algoritmalarn bir probleme uygulayabilmek iin aadaki
koullarn salanmas gerekir:
Olaylarn zelliklerle ifade edilebilmesi gerekir. Nesnelerin belli sayda zellik
deerleriyle ifade edilebilmesi gerekir. rnein; souk, scak vb. zelliklerin
srekli ve ya kesikli olmas fark etmez.

11

Snflar belirleyebilmek iin gereken ayrc zelliklerin olmas gerekir. Karar


aac, adnda belirtildii ekilde aa grnmnde bir tekniktir. Karar
dmleri, dallar ve yapraklardan oluur [19].
Karar aalarnn kk, dallar ve yapraklardan oluan aaca benzeyen bir yaps
olup, rnekteki tm gzlemleri kapsayan bir kk ile balayp aaya doru inildike
veriyi alt gruplara ayran dallara ayrlrlar. Bu kkten dallara doru byyen aa
yapsnda her boum dm dr, oluan aalarda homojen olmayan dmlere
yavru dm (child node), homojen dmlere ise terminal dm (parent node)
ad verilir [30]. Dmler zerinde niteliklerin test ilemi yaplmakta ve test ileminin
sonucu aacn veri kaybetmeden dallara ayrlmasna neden olmaktadr. Her dmde
test ve dallara ayrlma ilemleri ardk olarak gereklemekte ve sonu olarak aa
snflar ile son bulmaktadr.
Dm: Veriye uygulanacak test tanmlanr. Her dm bir zellikteki testi
gsterir. Test sonucunda aacn dallar oluur. Dallar olutururken veri kayb
yaanmamas iin verilerin tmn kapsayacak sayda farkl dal oluturulmaldr.
Dal: Testin sonucunu gsterir. Elde edilen her dal ile tanmlanacak snfn
belirlenmesi amalanr. Ancak daln sonucunda snflandrma tamamlanamyorsa tekrar
bir karar dm oluur. Karar dmnden elde edilen dallarn sonucunda
snflandrmann tamamlanp tamamlanmad tekrar kontrol edilerek devam edilir.
Yaprak: Daln sonucunda bir snflandrma elde edilebiliyorsa yaprak elde
edilmi olur. Yaprak, verileri kullanarak elde edilmek istenen snflandrmann
snflarndan birini tanmlar [30].
Karar aacnda, tanmlanm olan soruya ilikin cevap gruplara ayrlmaktadr.
Cevaplar soruya verilecek bir lt belirlendikten sonra setler arasndaki riski

12

maksimize edecek ekilde blnmekte ve en iyi blnmeyi bulmak iin her soruda ayn
ilem tekrar edilmektedir. Bir soru iin grup oluturulduktan ve gruplar arasndaki risk
maksimize edildikten sonra oluan iki grup iin bu ilemler devam ettirilmektedir. Bu
ilemlere istatistiksel olarak anlaml bir fark bulunana kadar devam edilmekte,
istatistiksel olarak anlaml bir fark bulunmadnda ise son verilmektedir. Ayrtrma
ilemi tamamlandktan sonra ise o grup ierisinde yer alan gzlemlerin oranna gre
grup deerlendirilmektedir [31].
Karar

aalarnn

oluturulmas

aa

oluturma

ve

aa

budama

basamaklarndan oluur.
Aa oluturma: Veri kaynandaki btn nesneleri ieren kk dmden
balar, yinelemeli olarak her dmde var olan nesneleri seilecek olan bir nitelie gre
farkl dallara ayrarak btn nesneleri snflandracak ekilde yaprak dmlere blene
kadar, ya da ayrm yapc bir nitelik kalmayana kadar devam eder. Snama
dmlerinde eldeki nesnelerin hangi nitelie gre alt dmlere blndnde en ok
verimin alnacan bulmak ve dallanmay bu nitelie gre yapmak algoritmann gcn
arttrr. Nesneler alt dmlere blndnde alt dmlerdeki nesnelerin trdelii ne
kadar yksek olursa o dmdeki dallanma o kadar verimli olur. Bu sebeple, her
dmde,

snamas yaplacak olan nitelik (o dmdeki nesneleri alt dmlere

bldnde) homojenite bakmndan en yksek kazanc salayacak nitelik olarak seilir


[8,31].
Aa Budama: Aa oluturma basama, verileri tamamen ayn snf
yelerinden oluan yapraklara blnceye ya da karlatracak nitelik kalmayncaya
kadar blmeler. Bu algoritmann sonucu olarak, ok derin ya da ok az deneme kmesi
rnei ieren yaprak dmlere sahip aalar oluabilir. Byle bir aac renme

13

kmesi zerinde test edince elbette ki doruluu ok yksek sonular verir. Ancak
byle bir model henz grlmemi rneklerle karlarsa ok kt doruluklu sonular
retebilir. Byle bir model verimli deildir ve veriyi genellemekten uzaktr. Byle bir
modelin sahip olduu bu zellie ar uyum (overfitting) denir. Ar uyum bir
modelde istenmeyen bir sonutur [27,31].
An uyum genelde verideki grltden (hatal snf deeri, yanl deerli
deikenler) kaynakland gibi problem alannn karmaklndan ya da rastgelelikten
kaynaklanabilir.
Ar uyumu azaltmak iin aalarda budama ilemi uygulanr. Budama ilemi,
baz dallarn ya da alt dallarn kaldrlarak o dala ait nesnelerin youn olduu snfla
etiketlenmi yaprak dmlerle yerletirilmesiyle gerekletirilir. Aa oluturulurken
erken-dur yntemiyle erken-budama yaplabilecei gibi aa oluturulduktan sonra
budama ge-budama yaplabilir. Ge-budama ynteminin daha baarl olduu
bilinmektedir. Zira erken-budama yntemi hatal sonulara yol aabilir, nk henz
dallanma yaplmam bir dal budandnda, aacn o noktadan sonra ne ekil alm
olaca o aamada bilinmemektedir. Ancak ge-budama yaplrken aa zaten olumu
bulunmaktadr ve hangi dallarn aslnda gereksiz olduu, an uyum yaratt
bilinmektedir. Ge-budama yaplrken dmlerdeki beklenen hata deerine baklr.
Eer bir dmdeki beklenen hata miktar, o dme ait alt dallardaki beklenen hata
miktarndan kk olursa alt dallar budanr [31,32].
D = {t1,...,tn} bir veri taban olmak zere, t t , t i ={t 1 ...t in } den ve bu veri taban
{A 1 ,A 2 ,. ..,A n } alanlarndan olumaktadr.
Bunun dnda C = {C1,...,C} kadar da snf verilmi olduunda,
Her bir dm At alanyla tanmlanm,

14

Her dmden ayrlan kollar bu alanla ilgili bir soruya yant veren,
Her yapran bir snf olduu karar aac ekil 2.2da gsterilmitir [27].

ekil 2.2. Karar Aac Yaps

ekil 2.2de grlen karar aacndaki A1, A2 ,..., An den her biri bir dm
oluturmakta ve her dm kendinden sonra iki dala ayrlmaktadr. Bu ayrlma ilemi
srecinde, Ai dm hakknda cevab veri tabannda bulunacak bir soru sorulmakta ve
verilen yanta gre de bir dal izlenmektedir. Aataki C1 ,C2 ,...,Cn lerin her biri birer
yapra ayn zamanda snf temsil etmektedirler.
Karar aalar oluturulurken kullanlan algoritmann ne olduu nemli bir
husustur. Kullanlan algoritmaya gre aacn ekli deiebilir. Bu durumda deiik aa
yaplar da farkl snflandrma sonular verecektir. Kk denilen ilk dm oluturan
Ai nin farkl olmas, en utaki yapraa ularken izlenecek yolu ve dolaysyla
snflandrmay da deitirecektir [27].

15

Deikenlerin seiminde yinelemeli olan algoritmann dngden kmas iin o


dmdeki tm elerin ayn snfa dhil olmas art vardr. Eer kalan deerler sadece
bir snfa aitse veya snflandrlabilecek deer kalmadysa dngsel algoritma sonlanr
ve karar aac oluturulmu olur. Sonuta oluan snflardaki her bir eleman ayn snfn
dier elemanlar ile benzer zellikler gsterir. Aa yaps heterojen yapdaki veri
kmesinin daha kk ve homojen bir yapya dnmesi iin kurallar tanmlar. Aa
inas sonunda elde edilen aa maksimum aa olarak adlandrlr ve renme
kmesindeki deney nitelerine en uygun aatr. Ancak maksimum aa pratikte iki
dezavantaja sahiptir [32].
Maksimum aa balang veri setini (renme kmesini) kusursuz biimde
tanmlar nk eklenen her bamsz deiken hatal snflama orann drr.
Bu durumda, maksimum aa veri iin olmas gerekenden daha iyi bir tahmin
modeli sunar. Ancak, balang veri setine ar uyumlu maksimum aalar
farkl bir veri seti sz konusu olduunda iyi bir tahmin salayamazlar.
Bir snflama aacnn karmaklk ls o aacn terminal dm saysna
eittir. Terminal dm saylar ve dolaysyla karmakl yksek olan
maksimum aacn anlalmas ve yorumlanmas gtr.

Maksimum aacn pratikte ortaya kard bu sorunlarn zm iin


maksimum aacn budanmas gereklidir. Maksimum aacn budanmas daha kk
aalar dizisi oluturur ve oluturulan bu dizi ierisinden optimum aa seilir.
Optimum aa maksimum aatan daha az karmakla sahiptir ancak renme
kmesine maksimum aatan daha az uyumludur ve hatal snflama oran da daha
yksektir [27,31,32].

16

Karar aacnn kurulmas iin kullanlacak girdi olarak bir dizi kayt verilirse bu
kaytlardan her biri ayn yapda olan birtakm zellik/deer iftlerinden oluur. Bu
zelliklerden biri kaydn hedefini belirtir. Ama, hedef-olmayan zellikler kullanlarak
edef zellik deerini doru kestiren bir karar aac belirlemektir. Hedef zellik
ounlukla sadece {evet, hayr}, veya {baarl, baarsz} gibi ikili deerler alr [19].
Bir karar aac ne bildiimizi (rn., renme verisi) zetledii iin deil, yeni
durumlarn snflamasn doru yapt iin nemlidir.
Karar aac tekniini kullanarak verinin snflanmas aamadan oluur.
renme: nceden sonular bilinen verilerden (eitim verisi) model
oluturulur.
Snflama: Yeni bir test verisi kmesi modele uygulanr, bu ekilde karar
aacnn doruluu belirlenir. Test verisine uygulanan bir modelin doruluu,
yapt doru snflamann test verisindeki tm snflara orandr. Her test
rneinde bilinen snf, model tarafndan tahmin edilen snf ile karlatrlr.
Uygulama: Eer doruluk kabul edilebilir oranda ise, karar aac yeni verilerin
snflanmas amacyla kullanlr [33].
Test verisini en iyi ekilde dallara ayran zellik tespit edilerek, bu zellik karar
aacnn oluturulmasnda daha nce seilir. Bylece daha iyi bir karar aac
oluturulur. En iyi dallara ayran zelliin tespitinde eitli ltler gelitirilmitir.
Bu ltlerin baz rnekleri unlardr:
p(i | t), i snfna ait verilerin, verilen bir t dmndeki blnmesini gstersin.
c snf saysdr ve entropi hesaplamasnda 0 log2 0 = 0 eklinde dnlmtr.
c-1
Entropi(t) = p(i | t) log2p(i | t),

(2.1)

17

i=0
Entropi bir dmn ne kadar bilgi verici olduunu lmede kullanlr. Bu yi
ile ne kastedildiini belirtir. Bu kavram Claude Shannon tarafndan ilk kez Bilgi Teorisi
iinde tanmlanmtr.
c-1
Gini(t) = 1 [p(i | t)]2,

(2.2)

i=0
Snflandrma hatas(t) = 1 maxi[p(i | t)],
Karar aac oluturulduktan sonra, kkten yapraa doru inilerek kurallar
belirlenir. Ancak ok sayda dal ve dmden oluan karar aalarnda kurallarn
belirlenmesi zorlar. Karar aac modelini daha okunabilir hale getirmek iin kurallarn
yazmnda IF-THEN (Eer-ise-O Zaman) biiminde artl ifadeler kullanlr. IF (Eerise) ksm daln sonuna giden yol zerindeki tm testleri ierirken THEN (O Zaman)
ksm son snflamay gsterir. IF THEN yapsndaki kurallara Karar Kurallar (Decision
Rules) denir [18,22].
Karar aalar, model kurulumu ve sonularnn yorumlanmasnn kolay olmas,
veritaban sistemleri ile kolayca entegre edilebilmeleri ve gvenilirliklerinin iyi olmas
nedenleri ile snflama modelleri ierisinde en yaygn kullanma sahip tekniktir [34].
Karar aalarnn gl ynleri aadaki gibi zetlenebilir:
Karar aalar anlalabilir kurallar retirler.
Karar aalar ar hesaplamaya gerek kalmadan snflandrma yaparlar.
Karar aalar hem srekli ve hem de kesikli deikenler iin uygundur.
Karar aalar snflandrma ve kestirim iin hangi alanlarn en nemli
olduunu ak biimde gsterir [35].

18

Karar aalarna dayal olarak gelitirilen birok algoritma vardr. Bu


algoritmalar kk,

dm ve dallanma kriteri seimlerinde izledikleri yol asndan

birbirlerinden ayrlrlar. Karar aac oluturmak iin gelitirilen bu algoritmalar


arasnda;
CHAID (Chi-Squared Automatic Interaction Detector: Otomatik Ki-Kare
Etkileim Belirleme),
C&RT (Classification and Regression Trees: Snflama ve Regresyon Aalar),
MARS (Multivariate Adaptive Regression Splines: ok Deikenli Uyumlu
Regresyon Uzanmlar),
QUEST (Quick, Unbiased, Efficient Statistical Tree: Hzl, Yansz, Etkin
statistiksel Aa),
SLIQ (Supervised Learning in Quest),
SPRINT (Scalable Parallelizable Induction of Decision Trees)
ID3, C4.5 ve C5.0 yer almaktadr.

2.1.2. Yapay Sinir Alar


nsanlarn beynin almasn saysal bilgisayarlar zerinde taklit etmek istemesi
sonucunda yapay sinir alar ortaya kmtr. Temelde beynin alma yaps, insanlar
gibi dnen ve renen sistemler elde etme fikrinin olmas, almalar insan beynini
oluturan hcrelerin incelenmesi zerine younlatrmtr. Bu almalar esnasnda her
bir nronun dier nronlar ile ilikili olduu ve ald baz girdileri ktya
dntrd gzlemlenmitir. Gnmzde yapay sinir alan olarak adlandrlan bu
alan, birok nronun belirli kurallar erevesinde bir araya gelerek bir ilevin

19

gerekletirmesi esnasndaki yapsal, matematiksel ve felsefi sorunlara cevap bulmaya


alan bir bilim dal olmutur [45].
YSA kavram beynin alma ilkelerinin saysal bilgisayarlar zerinde taklit
edilmesi fikri olarak ortaya km ve ilk almalar beyni oluturan biyolojik
hcrelerin, ya da literatrdeki ismi ile nronlarn matematiksel olarak modellenmesi
zerinde younlamtr [46].
Yapay sinir a, beynin belirli bir ii veya fonksiyonu yerine getirme yntemini
modelleyen bir makinedir. An yaps, elektronik sistemler veya bilgisayar yazlmlar
ile tanmlanmaktadr. Tanmlanan bu model, sinir hcresi veya ilem birimi ad verilen
hcreler arasndaki balanty kullanmakta ve bu ilemler esnasnda renme ad verilen
bir sre ile performansn artrabilmektedir. Bu noktada yapay sinir a kavramn
deneysel bilgi saklama ve kullanma hazr hale getirme yeteneine sahip basit ileme
birimlerinden oluan, ok youn, paralel ve datlm dzende alan bir ilemci
olarak tanmlamak mmkndr. nsan beyni ile benzerlii ise bilgiyi renme yoluyla
elde etmesi ve bilginin depolanmas iin sinir hcreleri aras ba kullanmasdr [47].

2.1.2.1. Yapay Sinir A Nedir?


Bir yapay sinir a, biyolojik sinir alarnn karakteristiklerine benzer
karakteristiklere sahip bir bilgi ileme sistemidir. YSA, insann idrak etmesi ve
biyolojik nron yapsnn matematiksel modelinin aadaki kurallar varsaylarak
genelletirilmesi sonucunda oluturulmutur [48]:
Bilgi ileme, nron ad verilen birok basit elemanlarda gerekleir;
Sinyaller, nronlar arasndaki ilikiyi salayan balantlarla iletilir;

20

Her bir balantnn bir arlk deeri vardr ve bu deer, gerek nronlarda
olduu gibi sinyal geiini retmektedir;
Sinir a iindeki her bir nrona ayn bir aktivasyon fonksiyonu uygulanr
(genelde bu dorusal olmayan bir fonksiyondur) ve bu fonksiyonun k deeri
sayesinde nronun k sinyali hesaplanr;
Herhangi bir yapay sinir a;
Nronlar arasndaki bantnn bir modeli yani mimarisi ile,
Balantlardaki arlklarn hesaplanmas (bu hesaplama, eitim kural ya da
renme algoritmas olarak da adlandrlr) ile,
Aktivasyon fonksiyonu ile tanmlanabilir.

Yapay sinir alarnn karakteristik zellikleri uygulanan a modeline gre


deimektedir. Ancak tm modeller iin genel zellikler unlardr: [49]
Yapay sinir alar makine renmesi gerekletirirler.
Programlar

alma

stili

bilinen

programlama

yntemlerine

benzememektedirler.
Bilgiyi saklarlar.
rnekleri kullanarak renirler.
Gvenle altrlabilmeleri iin nce eitilmeleri ve performanslarnn test
edilmesi gerekmektedir.
Grlmemi rnekler hakknda bilgi retirler. Bunu genelleme zellii sayesinde
yaparlar.
Alglamaya ynelik olaylarda kullanlabilirler.
ekil ilikilendirme ve snflandrma yapabilirler.

21

rnt tamamlama gerekletirebilirler.


Kendi kendine organize etme ve renebilme yetenekleri vardr.
Eksik bilgi ile alabilmektedirler.
Hataya ve grltye kar duyarlla ve toleransa sahiptirler.
Belirsiz, tam olmayan bilgileri ileyebilmektedirler.
Dereceli bozulma (Graceful degradation) gsterirler.
Datk bellee sahiptirler. Veri datlm birleik hafza yaps kullanlr ve
bilgi farkl formlara dntrlerek ilenebilir.
Sadece nmerik bilgiler ile alabilmektedirler [49,50].

Bir yapay sinir a, nron, birim, hcre ya da dm olarak adlandrlan ok


saydaki basit ilem birimlerinden oluur. Her bir nron, dier bir nrona belli bir
arlk deerine sahip olan haberleme balantlaryla balanr. Arlklar, yapay sinir
ann bir problemi zmesi iin gerekli olan bilgiyi hazrlamaktadr. YSA ok eitli
problemlerin zmnde kullanlabilirler. rnek olarak, bilgileri ve numuneleri
saklamada ve onlar daha sonra tekrar tanmada, numuneleri snflandrmada, giri
numunelerinin

numunelerine

dntrlmesinde,

benzer

rneklerin

gruplandrlmasnda ya da doal olmayan optimizasyon problemlerinin zmlerinin


bulunmasnda ve daha pek ok alanda YSA ok geni bir biimde kullanlabilir [50].
rnek olarak ekil 2.3de gsterilen bir Y nronunu dnelim. Bu nron X1,X2
ve X3 nronlarndan giri sinyallerini alr. Bu nronlarn aktivasyonlar yani k
sinyalleri, srasyla x1,x2 ve x3 tr. Balantlar zerindeki arlklar X1,X2 ve X3
nronlarndan Y nronuna doru srasyla w1,w2 ve w3 tr. A girii olan y _ in deeri

22

X1,X2 ve X3 den Yye giden arlkl sinyallerin toplamdr. y _ in deeri aadaki


eitlikteki gibi hesaplanr [50].
y _ in=w1 x1+ w2x2+ w3x3

(2.3)

ekil 2.3. Basit Bir Yapay Nron

Y nronunun aktivasyonu y, aa giri deerlerinin bir fonksiyonu olarak


tanmlanr.
y=f(y _ in)
Bu fonksiyon, S-biimli sigmoid fonksiyon olabilir. Sigmoid fonksiyonun formu
aada verildii gibidir.

f ( x) =

1
1 + exp(- x)
Bu fonksiyonu, dier aktivasyon fonksiyonlarndan biri de olabilir.

(2.4)

23

Y nronunun Z1 ve Z2 nronlarna v1 ve v2 arlklaryla baland


varsaylsn. Bu durum, ekil 2.4de gsterilmektedir. Y nronu y sinyalini dier
birimlere gnderir. Bununla birlikte, genel olarak Z1 ve Z2 nronlar tarafndan alnan
sinyaller farkl olmaktadr; nk her bir sinyal aktarld balantda bulunan v1 ve v2
arlklar ile orantldr. Z1 ve Z2 nin aktivasyonlar olan z1 ve z2 deerleri, sadece tek
bir nrona bal deildir. Onlar birbirinden farkl birden fazla nrondan gelen sinyallere
baldr.
ekil 2.4 deki yapay sinir a basit olmasna ramen, gizli birimin grnm ve
dorusal olmayan aktivasyon fonksiyonu sayesinde birok problemi zebilir. Baka bir
ynden gizli bir birime sahip yapay sinir ann retilmesi yani arlklarn optimal
deerlerinin bulunmas olduka zordur [6].

ekil 2.4. Basit Bir Yapay Sinir A [6]

24

2.1.2.2.

Biyolojik Sinir Alar

ekil 2.5. Biyolojik Sinir Sisteminin Blok Gsterimi

Biyolojik sinir sistemi verinin alnmas, yorumlanmas ve karar retilmesi gibi


ilevlerin yrtld beyni merkezde bulunduran 3 katmanl bir yapdr. Uyarlar alc
sinirler ile birlikte elektriksel sinyallere dntrlerek beyne iletilir. Beynin
oluturduu ktlar ise, tepki sinirleri tarafndan belirli tepkilere dntrlr.

ekil 2.6. Biyolojik Sinir Hcresi [5,47]

Sinir a yapsnda bilgilerin alc ve tepki sinirleri arasnda ileri ve geri


beslemeli olarak deerlendirilmesi ve sonucunda tepkilerin olumas, kapal bir evrim
srecine benzemektedir. Temel ilem eleman sinir hcreleridir. nsan beyninde

25

yaklak 10 milyar sinir hcresi olduu tahmin edilmektedir. ekil 2.6 da gsterildii
gibi sinir hcreleri; hcre gvdesi, gvdeye giren alc lifler (dentrit) ve gvdeden kan
sinyal iletici lifler (akson) olmak zere 3 temel bileenden meydana gelir.
Dentritler aracl ile bilgiler dier hcrelerden hcre gvdesine iletilir.
Hcrelerde oluan ktlar ise akson yardm ile bir dier hcreye aktarlr. Aktarmn
gerekletii bu noktada aksonlarda ince yollara ayrlabilmekte ve dier hcrenin
dentritlerini oluturmaktadrlar. Akson-dentrit bantsn olutuu bu noktalara sinaps
ad verilir [5,47].
Sinapsa ulaan ve dentritler tarafndan alnan bilgiler genellikle elektriksel
darbelerdir, fakat bu bilgiler sinapstaki kimyasal ileticilerden etkilenirler. Hcrenin
tepki oluturmas iin bu tepkilerin belirli bir srede belirli seviyeye ulamas
gerekmektedir. Bu deer eik deeri olarak adlandrlr [23,47].
YSAlar, insan beyninin alma prensibi rnek alnarak gelitirilmeye
allmtr ve aralarnda yapsal olarak baz benzerlikler vardr [52]. Bu benzerlikler
Tablo 2.1de ve istatistiksel terimler yapay sinir alar terimleri arasndaki terminolojik
ilikiler de Tablo 2.2 de verilmitir [50].

Tablo 2.1. Biyolojik Sinir Hcresi


Sinir Sistemi

Yapay Sinir A

Nron

lemci Eleman

Dentrit

Girdiler

Hcre Gvdesi

Transfer Fonksiyonu

Akson

Yapay Nron k

Sinaps

Arlklar

26

Tablo 2.2. statistiksel Yntemler le Yapay Sinir Alarnn Benzeimi

2.1.2.3.

statistik

Yapay Sinir A

Model

Tahmin

renme

Regresyon

Danmal renme

nterpolasyon

Genelletirme

Gzlem

renme Algoritmas

Parametre

A Parametreleri

Bamsz Deiken

Giri Verileri

Baml Deiken

k Verileri

Snr Regresyonu

Arlk Budama lemi

Yapay Sinir Alarnda Genel Yap

ekil 2.7. Yapay Sinir Alarnn Genel Yaps

27

Girdi Katman: Girdi katman en az bir girdi elemannn bulunduu blmdr.


Girdi katmannda veriler herhangi bir ileme tabi tutulmadan girdileri ile ayn deerde
kt retirler.
kt Katman: kt katman en az bir ktdan oluur ve kt a yapsnda
bulunan fonksiyona baldr. Bu birimlerde girdi katmannda olann aksine ilem
gerekletirilir ve birimler kendi ktlarn retirler.
lem Katman: Genellikle "Kara Kutu" olarak adlandrlr. Girdi birimlerinin
belirli ilemlere tabi tutulduu blgedir. Seilen a yapsna gre ilem katmannn
yaps ve fonksiyonu da deiebilir. Tek bir katmandan oluabilecei gibi birden fazla
katmandan da oluabilir [47].

2.1.2.4.

Yapay Sinir Hcresi

Biyolojik sinir alarnn yap bileenleri sinir hcreleridir benzer ekilde yapay
sinir alarnn da yapay sinir hcreleri bulunmaktadr (ekil 2.8). YSA, insan sinir
andaki gibi nronlardan ve onlar arasndaki balantlardan oluur. Bilgi, a tarafndan
bir renme sreciyle evreden elde edilir. Elde edilen bilgileri biriktirmek iin sinaptik
arlklar olarak da bilinen hcreler aras balant gleri kullanlr [53].

28

ekil 2.8 Basit Alglayc Modeli [53]

YSAya bilgi saysal olarak d dnyadan, dier hcrelerden ya da kendi


kendisinden gelebilir. Sinir hcresine bilgiler arlklar yoluyla tanrlar. Arlk
deerleri bilginin nemini ifade eder, deiken ya da sabit deerler olabilirler, pozitif ya
da negatif deerler alabilirler. Bir sinir hcresine gelen net bilgi yaygn olarak toplama
fonksiyonu araclyla hesaplanr. Her girdi deeri kendi arl ile arplr. Toplama
fonksiyonu tm girdiler iin gelen bu deerleri toplayarak net hcre ktsn hesaplar.
Her hcre dier hcrelerden bamsz olarak bu net deerini hesaplar. Sapma (bias-bk)
deerinin aktivasyon fonksiyonuna giren deeri ykseltme ya da drme etkisi vardr.
Aadaki eitlikte kullanlan xj; gelen bilgileri, wkj her girdi deerine ait arlklar, bk
sapma deerini, vk nronun kt deerini ifade etmektedir [7].
m

Vk = S wkj x j + bk

(2.5)

j =1

Aadaki eitlikte grld gibi her sinir hcresinin net bilgisi eik deerine
sahip bir aktivasyon fonksiyondan geirilerek gerek bir kt oluturulur. Genellikle
kullanlan

aktivasyon

fonksiyonlar

eik,

sigmoid,

hiperbolik

tanjant

vb.

29

fonksiyonlardr. Aktivasyon fonksiyonu ((.)) genellikle dorusal olmayan bir


fonksiyondur.
y k = j ( vk )

(2.6)

YSA herhangi bir konu ile ilgili veri setleriyle eitilirken eitim algoritmalar
kullanrlar. renilmesi istenen olay iin oluturulan eitim seti aa sunulurken hedef
kt deerleri de aa sunulabilir. Sadece girdi seti aa sunulabilir, sistemin kendi
kendine renmesi istenilebilir ya da her girdi seti iin sistemin kendisinin bir kt
retmesi salanabilir. retilen ktnn doru ya da yanl olduunu gsteren sinyal
retilerek, bu sinyale gre sistem eitime devam edilebilir [54].

2.1.2.5.

Yapay Sinir Ann Temel Elemanlar

Yapay sinir alar aadaki varsaymlar zerine kurulmutur: [55]


Bilgi ileme nron olarak isimlendiren basit elemanlarda gerekletirilir
aretler nronlar arasndaki balantlardan geer
Her balant birok iareti tayan bir arla sahiptir
Her nron kendi giri deerine k iaretini belirlemek iin aktivasyon
fonksiyonu uygular.
Yapay sinir alar, birbirine bal ok sayda ilemci elemanlardan olumu,
genellikle paralel ileyen yaplar olarak adlandrlabilir. Yapay sinir alarndaki ilem
elemanlar (dmler) basit sinirler olarak adlandrlrlar. Bir yapay sinir a birbirine
balantl, ok sayda dmlerden oluur.
Yapay sinir alar insan beyni gibi renme, hatrlama ve genelleme yeteneine
sahiptirler.

30

nsan beyninde renme 3 ekilde olur;


Yeni aksonlar reterek,
Aksonlarn uyarlmasyla,
Mevcut aksonlarn glerini deitirerek.
Her aksonun zerinden geen iaretleri deerlendirebilecek yetenekte olduu
savunulmaktadr. Aksonun bu zellii, bir iaretin belli bir sinir iin ne kadar nemli
olduunu gstermektedir [48].

2.1.2.5.1.

Giriler

Giriler tarafndan bir yapay sinir hcresine bir baka yapay sinir hcresinden
veya d dnyadan bilgi al yaplr. Bunlar an renmesi istenen rnekler tarafndan
belirlenir.

2.1.2.5.2.

Arlklar

Arlklar bir yapay sinir hcresinin girileri tarafndan alnan bilgilerin nemini
ve hcre zerinde etkisi gsteren uygun katsaylardr. Her bir giri iin bir arlk vardr.
Bu arln byk olmas bu giriin nemli olduu ya da arln kk olmas giriin
nemsiz olduunu gstermez. Bir arln deerinin sfr olmas o a iin en nemli
olay olabilir. Eksi deerler de yine giriin nemsiz olduunu gstermez. Arln art
ve eksi olmas giriin etkisinin pozitif ya da negatif olduunu gsterir. Arlklar
deiken ya da sabit olabilirler [56].

31

2.1.2.5.3.

Toplama levi

Toplama ilevi bir yapay sinirdeki her bir giri ile o girie ait olan arln
arplarak bu arpmlarn toplanmasdr.
n

Net Toplam = S xi wi

(2.7)

Ancak birok uygulama aadaki gibi eik deeri olan da bu toplamaya


katlmtr.
Net Toplam =

x w +q
i

ya da

Net Toplam = xi wi - q
i

(2.8)

eik deerinin girilerden bamsz olduu iin btn girilerin sfr olmas
durumunda k deerinin sfr deil de eik deerine eit olduu grlr ki bu da,
belirtilen artlar altnda nron knn sfr olmas zorunluluunu ortadan kaldrr. Eik
deerinin kullanm, toplama fonksiyonuna +1 ya da -1 deerine sahip sabit bir giriin
arlna sahip bir balant ile eklendii eklinde yorumlanr [48].
Ayrca her model ve her uygulama iin bu toplama fonksiyonun kullanlmas
art deildir. Baz modeller, kullanlacak toplama fonksiyonunu kendileri belirler. ou
zaman daha karmak olan deiik toplama fonksiyonlar kullanlr. Bunlar Tablo 2.3de
gsterilmitir. Baz durumlarda girilerin deeri nemli olurken, bazlarnda says
nemli olabilir. Bir problem iin en uygun toplama fonksiyonunu belirlemek iin bir
forml gelitirilememitir. Bu yzden en uygun toplama fonksiyonunun bulunmas
deneme yanlma yoluyla belirlenir. Ayrca ayn problem iin kullanlan yapay sinir
hcrelerinden hepsi ayn toplama fonksiyonunu kullanabilecei gibi her biri iin farkl
toplama fonksiyonu kullanlabilir [48].

32

Tablo 2.3 Toplama Fonksiyonu rnekleri Toplama levi


Toplama levi

Aklama

arpm

Giriler ve arlklar arplr sonra bu


deerler de birbiriyle arplr.

Net Girdi = P xi wi
i

Maksimum (En ok)

N adet giri ve arlk birbiriyle


arpldktan sonra en by net girdi

Net Girdi = Max ( xi wi ), i = 1, 2,..., N

olarak kabul edilir.

Maksimum (En az)

N adet giri ve arlk birbiriyle


arpldktan sonra en k net girdi

Net Girdi = Min( xi wi ), i = 1, 2,..., N

olarak kabul edilir.

ounluk

N adet giri ve arlk birbiriyle


arpldktan sonra pozitif ve negatif

Net Girdi = S sgn( xi wi )

olanlarn says bulunur. Bunlardan

byk olan net girdi olarak alnr.


Kmltif Toplam

Hcreye gelen bilgiler arlkl olarak


toplanr ve daha nce gelen bilgilere

Net Girdi = Net (eski ) + S( xi wi )

eklenerek hcrenin net girdisi bulunur.

2.1.2.5.4.
Yapay

Etkinlik levi (Aktivasyon Fonksiyonu)


nronun

davrann

belirleyen

nemli

bir

etken

aktivasyon

fonksiyonudur. Buna ayn zamanda renme erileri de denir. Aktivasyon fonksiyonu


hcreye gelen net girdiyi, dier bir deyile toplama fonksiyonunu ileyerek bu hcreye
gelen girilere karlk olan k belirler.
Aktivasyon fonksiyonu da yapay sinir alarnn farkl modelleri iin farkl
olabilir. En uygun aktivasyon fonksiyonunu belirlemek iin gelitirilmi bir fonksiyon
yoktur. Toplama fonksiyonuna benzer ekilde hcrelerin hepsi iin ayn aktivasyon

33

fonksiyonu kullanma zorunluluu yoktur. Bazlar ayn aktivasyon fonksiyonunu


kullanrken bazlar kullanmayabilir [48].
Baz modeller iin zellikle de ok Katmanl Alglayc model iin bu fonksiyon
trevi alnabilir ve srekli olmaldr. Yapay sinir alarnn kullanm amacna gre tek
veya ift ynl aktivasyon fonksiyonu kullanlabilir.
Dorusal olmayan fonksiyonlarn kullanlmas yapay sinir alarnn ok
karmak ve farkl problemlere uygulanmasn salamtr. En ok kullanlan aktivasyon
fonksiyonlar unlardr [23,26,29,48,53]:

2.1.2.5.4.1.

Dorusal Fonksiyon

Dorusal fonksiyon, hcreye gelen girileri olduu gibi ka verir.


Fonksiyonun ekli ekil 2.9da verilmitir. ounlukla ADALINE olarak bilinen
dorusal modelde, klasik iaret ileme ve regresyon analizinde kullanlr. Denklemi;
n

v = xi wi
i

veya

v=

x w +q
i

olmak zere;

y = F (v ) = Av

(2.9)

Formldeki A sabit katsaysdr.

ekil 2.9. Dorusal veya Lineer Fonksiyon

34

2.1.2.5.4.2.

Basamak Fonksiyonu

Basamak fonksiyonu tek veya ift kutuplu olabilir. Bu fonksiyonlarn ekli ekil
2.10de, matematiksel ifadeleri de aada verilmitir. Perceptron (Basit Alglayc
Model) olarak bilinen yapay sinir hcresi aktivasyon fonksiyonu olarak bu fonksiyonu
kullanr.

1 v 0
y = F ( v) =

0 v < 0

(2.10)

+1 v 0
y = F (v ) =

-0 v < 0

(a) Tek kutuplu

(b) ift Kutuplu

ekil 2.10. Basamak Fonksiyonlar

2.1.2.5.4.3.

Kutuplamal Basamak Fonksiyonu

Kutuplama deeri tek kutuplu ve ift kutuplu basamak fonksiyonunun her


ikisine de eklenebilir. Aktivasyon fonksiyonu eik deeri olan y at zaman nron
aktif olur. Tek kutuplu basamak fonksiyonu iin denklem aadaki eitlik ve ekil 2.11
- ekil 2.12da verilmitir.

1 w.x 0
y = F (v ) =

0 w.x < 0

(2.11)

35

ekil 2.11. Tek kutuplamal Basamak Fonksiyonu


ift kutuplu basamak fonksiyonu ise;

+1 w.x 0
y = F ( v) =

-1 w.x < 0

(2.12)

ekil 2.12. ift Kutuplamal Basamak Fonksiyonu

2.1.2.5.4.4.

Paral Dorusal Fonksiyon

Bu fonksiyon, kk aktivasyon potansiyeli iin, kazanc olan bir dorusal


toplayc (Adaline) olarak alr. Byk aktivasyon potansiyeli iin, nron doyuma
ular ve k iareti 1 olur. Byk kazanlar iin,

iken, paral dorusal

36

fonksiyon basamak fonksiyonu gibi davranr. Aadaki denklem fonksiyonu, ekil


2.13de grafii gsterilmitir.

y = F (v )

0
v 1/ 2a

=a v + 1/ 2 v <1/ 2a

v 1/ 2a
1

(2.13)

ekil 2.13. Paral Dorusal Fonksiyon

2.1.2.5.4.5.

Sigmoid Tipi Fonksiyon

Uygulamalarda en ok kullanlan aktivasyon fonksiyonlANNdan biridir.


Fonksiyonun forml Denklem 1.9da, ekli ise ekil 2.14de gsterilmitir.
Fonksiyonun en aktif blgesi 0,2 ile 0,8 arasndadr. Tek kutuplu fonksiyon olarak da
adlandrlr.
y = F ( v)

1
1
= [ tanh(v / 2)=- 1]
-v
1+ e
2

(2.14)

37

ekil 2.14. Sigmoid Tipli Fonksiyon

2.1.2.5.4.6.

Tanjant Hiperbolik Tipli Fonksiyon

Uygulamalarda ok kullanlan aktivasyon fonksiyonlarndan biri de Tanjant


Hiperbolik fonksiyondur. Bu fonksiyon ift kutuplu fonksiyon olarak da bilinir. Giri
uzaynn geniletilmesinde etkin bir ekilde kullanlan bir fonksiyondur. Fonksiyonun
ekli ekil 2.15de forml ise aadaki gsterildii gibidir.

y=

1 - e-2v
= tanh(b v)
1 + e2v

ekil 2.15. Tanjant Hiperbolik Tipli Fonksiyon

(2.15)

38

2.1.2.5.4.7.

Sins Tipli Fonksiyon

renilmesi dnlen olaylar sins fonksiyonuna uygun dalm gsteriyorsa


bu gibi durumlarda aktivasyon fonksiyonu olarak sins fonksiyonu kullanlr.
Fonksiyonun ekli ekil 2.16de ve forml aada verilmitir.
y = f (v) = Sin(v)

(2.16)

ekil 2.16. Sins Tipli Fonksiyon

Bir yapay sinir ann bu 5 temel eleman dnda zaman zaman ihtiya
duyulduunda kullanlan bir eleman daha vardr. Bu eleman lekleme ve snrlama
olarak adlandrlr.

2.1.2.5.5.

k levi

ks y = f(v), aktivasyon fonksiyonunun sonucunun d dnyaya veya dier


sinirlere gnderilmesidir. Bu sinirin ks kendine ve kendinden sonra gelen bir ya da
daha fazla sayda sinire giri olabilir.

2.1.2.6.

A Girilerinin Hesaplanmas in Matris arpma Metodu

39

Sinir alarnn balantl arlklarn W = (wij) matrisinde kaydedelim. Bu


halde, Yj nin a girdisi x = ( x1,..., xi, ...,xn) vektrnn w.j arlk matrisinin j. kolonu
ile (eer j. elemanda sapma yoksa) basit bir arplmas ilemi ile gerekletirilir :

y _ in = x=.w. j

S xi .wij

(2.17)

i =1

Sapma
Sapma deeri, x vektrne x0 = 1 deeri eklenerek oluturulabilir.
x = (l, x, ..., xi, ..., xn)

(2.18)

Sapma ayn dier arlklar gibi davramr, yani w0j = bj dir. Yj birimi iin a
girdisi u ekilde hesaplanr:
y _ in j = x.w=. j

= xi=.wij
i =1

w0 j + xi .wij
1

b j + xi .wij
i =1

(2.19)

Bir YSA dmnn grevi, giriindeki saylar kendi arlk deerleri ile
arpp, sonra da bu arpmlar toplayp, toplam bir yumuatma fonksiyonundan
(genelde sigmoid f ( x ) =

1
veya tanh) gerdkten sonra ka vermektr. Ancak
1 + e- x

giri ve k katmanndaki nronlar bu kuraln dndadr. Giri katmanndaki nronlar


ise sadece kendi girilerindeki verilerin uygun arlklarla arplm durumlarn
toplayp saklarlar. Bu ileme ilerleme denir [58,60].

2.1.2.7.

Yapay Sinir Hcresinin alma Prensibi

ekil 2.17da girileri ve arlklar verilmi olan bir yapay sinir hcresinin
almas yledir:

40

ekil 2.17. Yapay Sinir Ann alma rnei


Hcreye gelen net girdi, arlklarla giriler arplarak aadaki gibi hesaplanr.
NET Girdi = 0.7 * 0.2 + 0.4 *(-0.2) + 0.3*0.1
NET Girdi = 0.14 - 0.08 + 0.03
NET Girdi = 0.09
Hcrenin sigmoid tipli aktivasyon fonksiyonuna gre k y=f(v) yledir;
y = f(v) = 1 / (1+e-0.09)
y = 0.52
Sonuta verilen girdilere karlk yukardaki ilemler sonucunda y k deeri
bulunur.

41

ekil 2.18 YSA de Kullanlan Geri Yaylml renme Algoritmas

42

2.1.3. Lojistik Regresyon Analizi


Lojistik regresyon; baml deikeninin kategorik ve ikili, l ve oklu
kategorilerde gzlendii durumlarda bamsz deikenlerle neden sonu ilikisini
belirlemede yararlanlan bir

yntemdir. Bamsz deikenlere gre baml

deikeninin beklenen deerlerinin olaslk olarak elde edildii bir regresyon


yntemidir. Basit ve oklu regresyon analizleri baml deiken ile bamsz deiken
ya da deikenler arasndaki matematiksel banty analiz etmekte kullanlmaktadr. Bu
yntemlerin uygulanabilecei veri setlerinde baml deikenin normal dalm
gstermesi, bamsz deikenlerinde normal dalm gsteren toplum ya da
2
toplumlardan ekilmi olmas ve hata varyansnn e @ N (0, s ) parametreli normal

dalm gstermesi gerekmektedir. Bu ve benzeri koullarn yerine getirilmedii veri


setlerinde basit ya da oklu regresyon analizleri uygulanamaz. Lojistik regresyon
analizi, snflama ve atama ilemi yapmaya yardmc olan bir regresyon yntemidir.
Normal dalm varsaym, sreklilik varsaym n koulu yoktur. Baml deiken
zerinde bamsz deikenlerin etkileri olaslk olarak elde edilerek risk faktrlerinin
olaslk olarak belirlenmesi salanr [11,18,19,25].
Aratrclar zerinde altklar konuda ok etken olmas durumunda etkenlerin
tek tek baml deiken zerine etkisi yannda, bunlarn birlikte etkisini de renmek
ya da incelemek istemektedirler. Birlikte etkinin incelenmesinde kullanlan deiik
istatistik yntemler bulunmaktadr. rnein, baml deikenin srekli, bamsz
deikenlerin kesikli olmas durumunda varyans analizi, hepsinin kesikli olmas
durumunda log-linear modeller, hepsinin srekli olmas durumunda regresyon analizi
gibi. Tp alanndaki aratrmalarda ou zaman baml ve bamsz deikenlerin tr
ve yaplar yukarda belirtilenlere benzemez, srekli ve kesikli karm bamsz

43

deikenlerle karlalr. zerinde en ok durulan ve aratrc iin nemli olan dier


bir konu da etken veya etkenlerle hastalk arasndaki ilikinin risk ynnden
incelenmesidir. Bu tip incelemelerde arlkl olarak LRA kullanlmaktadr [20,41].
Lojistik regresyon modelinin kullanmna ilikin ilk almalar Berkson (1944)
tarafndan yaplm ve model Finney (1972) tarafndan biyolojik deneylerde probit
analize bir alternatif olarak nerilmitir . Son yllarda youn bir ekilde kullanlan LRA,
gzlemlerin gruplara atanmasnda sk kullanlan yntemden (dierleri kmeleme
analizi ve ayrma analizi) birisidir. LRA da grup says bilinmekte, mevcut veriler
kullanlarak bir ayrmsama modeli elde edilmekte ve kurulan bu model yardmyla veri
kmesine eklenen yeni gzlemlerin gruplara atanmas mmkn olabilmektedir [42].
Dorusal regresyon analizinde baml deikenin deeri tahmin edilirken, LRA
da baml deikenin alaca deerlerden birinin gerekleme olasl tahmin edilir.
Bu olaslk deerinin tahmininde aadaki model kullanlmaktadr.

p ( x) =

b0 + b x

1+ e

b0 + b x
1

(2.20)

Lojistik regresyon modeliyle tahmin yaplaca genel olarak kullanlan yntem


en ok olabilirlik metodudur. Genel anlamda en ok olabilirlik metodu, gzlenen veri
kmesini elde etmenin olasln maksimum yapan bilinmeyen parametrelerin
deerlerini tahmin etmede kullanlr. Bu metodu uygulayabilmek iin en ok olabilirlik
fonksiyonunun oluturulmas gerekmekte ve ilgili parametrelerin en ok olabilirlik
tahmincileri, fonksiyonu maksimum yapacak deerleri bulacak ekilde seilmelidir [6].
LRA da gzlenen deerlerle tahmin edilen deerler aadaki ifadeyle
karlatrlr.

Su andaki Modelin olabilirligi


D = -2ln

Doymus Modelin olabilirligi

(2.21)

44

Modelde bulunan herhangi bir bamsz deikenin nemliliine karar vermek


iin denklemde o bamsz deikenin bulunduu ve bulunmad durumlardaki D
deerleri, G istatistii kullanlarak karlatrlrlar. G istatistii p serbestlik derecesiyle
ki-kare dalm gsterecektir.
G = D(Deikensiz model iin) - D(Deikenli model iin)

Degiskensiz Modelin olabilirligi


D = -2ln

Degiskenli Modelin olabilirligi

(2.22)

Katsaylarn nemlilikleri test edildikten sonra katsaylarn yorumlanmas odds


oranlar kullanlarak yaplmaktadr. LRA nn kullanm amalarndan en nemlisi tp
biliminde sklkla karlalan baml deikenin iki ya da daha ok dzey ierdii,
bamsz deikenlerin ise hem kesikli hem de srekli olabildii durumlarda verilerin
ait olduklar gruplara en doru ekilde atayacak ve hastalklara ilikin risk faktrlerini
belirleyebilecek modeli kurmaktr. Bunun yannda lojistik regresyon, baml
deikenin tahminini olaslk olarak hesaplayarak olaslk kurallarna uygun snflama
ilemi yapma olana vermektedir [20,23,43].

2.1.3.1. Lojistik Snflandrma ve Lojistik Regresyon Modeli


Baml deikenin 0.1 deerlerine karlk gelen G1 ve G2 gruplar x1,x2,...,xp
bamsz deikenlerine dayanlarak snflandrlmak istensin. Gruplardaki birey says
sra ile n1 ve n2 olduunda, N=n1+n2 gzleme dayal snflandrma kuralnn oluumu
fs(x1,x2,...,xp)

eklindeki

olaslk

fonksiyonunun

fonksiyonel

yapsna

ilikin

varsaymlara dayanr. Fonksiyon yaps iin tr varsaym sz konusudur [13,14,44].


i.

ok deikenli normal dalm fonksiyonu

ii.

Lojistik snflandrma fonksiyonu

45

iii.

Dalmdan bamsz kernel snflandrma fonksiyonu


Lojistik snflama fonksiyonu sz konusu olduunda X0=l iken fs(x1,x2,...,xp),

Gs(s=l,2) grubunun olaslk younluk fonksiyonu olarak tanmlanr. Lojistik varsaym,


'=( o, ...., p) iin,

f ( x)
f1 ( x)
= exp(b X ) ya da ln 1
= b X
f2 ( x)
f 2 ( x)

(2.23)

eklinde tanmlanmaktadr. Bu son eitlik log-olabilirlik oram olup x ler


dorusaldr. Lojistik varsaym bilinmeyen P parametrelerini iermektedir. Her bir
gzlem iin X koulu altnda gruplardan birine atanma olasl olarak tanmlanan
sonsal olaslklar hesaplamak iin P tahminleri gerekmektedir. Bunun iin lojistik
varsaym

altnda

rneklemin

olabilirlik

fonksiyonu

belirlenmelidir.

Kark

rneklemede gzlemler (X,G) bileik dalmndan rneklenmekte yani gzlemler hangi


gruptan olduu bilinmeksizin rasgele seilmektedir. Buradan G grup yeliini gsteren
deiken olup iki grup olduunda G1 ve G2 eklinde gsterilmektedir [44].
Koullu rneklemede G nin x koulu altnda dalm incelenmektedir.
Biyolojik deneylerin analizinde ok sk kullanlan bu rnekleme trne ilikin
olabilirlik fonksiyonu dier rnekleme trlerinin olabilirlik fonksiyonuna temel tekil
etmektedir. Ayr rnekleme de ise x in G koulu altnda dalmndan rnekleme
yaplmaktadr. Anderson (1972, 1982) tarafndan detayl olarak incelenen bu rnekleme
trnn

uygulamas

zor

olup

gemie

ynelik

(retrospective)

almalarda

uygulanmaktadr [41].
Regresyon problemlerinde anahtar deer, verilen bir bamsz deiken deerine
bal olarak baml deikenin ortalama deerini bulmaktr. Bu deer koullu ortalama
olarak adlandrlr ve E(Y \ x) ile gsterilir. Burada ynin baml deikeni, x in ise

46

bamsz deikeni gsterdii varsaylsn. E(Y\ x) ifadesi x deeri verildiinde, y nin


beklenen deeri

ni gstermektedir.

Dorusal regresyon analizinde,

koullu

ortalamann, x in dorusal bir denklemi olduu varsaylr.


E (Y \ x) = b 0 + b1 x

(2.24)

Yukardaki bu ifadeden, xin aralnn - ve + arasnda deimesinden dolay,


E(Y\ x)in mmkn olan her deeri alabilecei grlmektedir. Baml deiken ikili
olduu zaman koullu ortalama, sfrla bir arasnda deimek zorundadr [44].
[0 < E(Y\ x ) 1]. x deki her birim deime sonucunda E(Y\ x)de oluan deiiklik,
koullu ortalama 0a ya da 1e yaklatka ilerleyerek az olur.
ki dzey ieren bir baml deikenin analizinde kullanlmak zere nerilen
birok dalm fonksiyonu bulunmutur [6]. Lojistik dalm kullanldnda gsterimi
kolaylatrmak iin, x bilindiinde Y nin koullu ortalamasn gstermek iin (x) =
E(Y\ x) ifadesi kullanlmaktadr. Kullanlacak lojistik regresyon modelinin ak ekli
aadaki gibidir [6,16,17,44].

p ( x) =

b0 + b x

1+ e

b0 + b x
1

(2.25)

Lojistik regresyon almasna merkez olacak (x)in bir transformasyonu


yukarda bahsedildii gibi lojit transformasyondur. Bu transformasyon (x)cinsinden
tanmlanrsa:

p ( x)
g ( x) = ln
= b 0+ b1 x
1 - p ( x )

(2.26)

Lojit g(x) parametreleri bakmndan dorusal ve xin ald deerlere bal


olarak - ve + arasnda deimektedir [25].

47

2.2.

PROSTAT KANSER

2.2.1. Prostat Kanseri Hakknda Genel Bilgi


Prostat kanseri erkeklerde en yaygn grlen kanser trdr ve ngiltere ve
Gallerde yeni tan konulan kanser olgularnn %25ini tekil eder. Prostat bezesinin
kt huylu tmr demek olan prostat kanseri, Robert Koch Enstitsnn en yeni
tahminlerine gre Almanyada erkeklerde en sk rastlanan kanser hastaldr. 2000
ylnda bu hastala ilk defa yakalananlarn says yaklak 40.000 kiiydi, yaklak
11.000 kii de bu hastalk yznden hayatn kaybetti.
Prostat kanserinin nasl ve neden ortaya kt sorusu bugne kadar tam olarak
cevaplandrabilmi deildir. lke olarak ya ilerledike prostat kanseri riski de
artmaktadr. 50 yan altndaki erkekler seyrek olarak hastalanr, en yksek hastalanma
oranlar 70 yan stndeki erkeklerde grlmektedir.
Kiinin kendi babas, erkek kardeleri veya byk babalar prostat kanserine
yakalanm ise daha yksek bir risk var demektir. Bu nedenle kaltm yoluyla geme
veya en azndan genlerden kaynaklanan bir hastalanma eiliminin mevcut olduu
tahmin edilmektedir.
te yandan prostat kanserine yakalanm olan erkeklerin % 80inde herhangi bir
akrabada prostat kanseri grlmemitir. Beslenme biiminin de bir rol oynad
ynnde iaretler vardr.
2.2.2. Prostat Nedir?
Prostat erkein en nemli cinsel salg bezesidir. Prostat bezesi, mesanenin (idrar
torbasnn) idrar yoluna baland yerde, idrar borusunu epeevre saran bir organdr.
Birok erkekte yan ilerlemesiyle prostatn idrar yolunun hemen yanndaki i

48

blmnde iyi huylu bir tmr oluur. Prostat 60 yandaki bir erkekte ortalama 30 ila
40 ml byklktedir. Bu, yaklak iki ceviz bykl demektir. Bu iyi huylu ve prostat
hiper plazisi (ar byme) ad verilen byme idrar yolunu daraltarak idrar yapmada
zorluklara sebep olabilir.
Buna karlk prostat kanseri ounlukla prostatn makattan (gden barsa
veya rektum) parmakla eriilebilen d blmnde oluur. Prostat karsinomlarnn
yaklak % 80i prostat bezesinin bu d blmnde ortaya kar. Prostat kanserinin
prostat bezesinin i blmnde veya pubis kemiinin arkasnda yer alan n ksmnda
olumas enderdir.
2.2.3. Tehis
pheli bir durum ortaya ktktan sonra prostat kanseri tehisi koyulabilmesi
iin bir dizi muayene daha yaplmas gerekir. Bunlar:
2.2.3.1.

Prostatn Parmakla Muayenesi

Prostat bezesi makattan (gden barsa veya rektum) parmakla yoklanarak


muayene edilebilir. Normal olarak prostat (el gergin tutulduunda insann elinin ayas
gibi) yumuak ve esnektir. Prostat kanseri ise ounlukla kemik gibi serttir. Bu sayede
tecrbeli bir doktor prostat kanserini parmakla yoklayarak bulabilir ve dmn
bykln tahmin edebilir. Eer parmakla yoklandnda bir dm hissediliyorsa
tmr ounlukla prostat kapslne de yerlemi veya prostat kapsln delip gemi
demektir.
2.2.3.2.

Prostata zg Antijenin Belirlenmesi (PSA)

Prostat meni svsnn byk blmn reten organdr. Bu meni svs iinde
meni svsn akkan hale getirmeye yarayan bir protein vardr. Sz konusu proteine
prostata zg antijen denir, bunun ksaltmas da PSAdr. PSA normal artlar altnda da

49

kana karabilir ve kandaki miktar PSA testi ile llebilir. Ya ilerledike prostat
bydnden kandaki PSA miktar da ykselir. Her gram iyi huylu prostat dokusu
bana aa yukar 0,3 ng/ml antijen bulunur. Buna karlk prostat kanseri her gram
doku bana yaklak 10 kere daha fazla PSA retir. Bu yzden PSA prostat kanserinin
tehis edilebilmesi iin, yani tmr belirteci (tmr markeri) olarak kullanlmaya,
uygundur.
Tablo 2.4 Yaa zg Normal Serum PSA Deerleri

2.2.3.3.

YA

PSA

40-49

0-2,5 ng/ml

50-59

0-3,5 ng/ml

60-69

0-4,5 ng/ml

70-79

0-6,5 ng/ml

Makattan (rektum) Ultrason Muayenesi (TRUS)

Ultrason muayenesi ile vcudun i organlarn, ua yk yklemeden


grntlemek mmkn olmaktadr. Prostatn deerlendirilmesi iin makata (rektum
veya gden barsa da denir) ufak bir ubuk biiminde bir sonda sokulur. Bylece
prostatn yalnzca bykl ve biimi deil, prostatn doku yaps ve eer mevcutsa,
kt huylu doku deiikliklerinin olup olmad da grlebilir. Ancak prostat kanseri
iin tipik olan doku deiiklikleri ou kereler ancak byke tmr dmlerinde
grlebilmektedir. Bunun tesinde, ultrason ile grntleme yntemi prostattan hedefli
olarak doku alabilmek iin de gayet yararldr [62, 63, 64].

50

3. GERE ve YNTEM
Uygulama verisi olarak, Tokat Gaziosmanpaa niversitesi Tp Fakltesi
Hastanesinde 01.01.2005 tarihi ve 31.05.2011 tarihleri arasnda roloji Polikliniine
bavuran hastalarn sonular alnmtr. Veritaban ynetim sistemi Oracle 10 GR2 olan
hastane veritabanndan Structured Query Language (SQL) veritaban sorgu dili
kullanlarak gerekli bilgiler ekilmitir. Belirtilen tarihler arasnda roloji Polikliniine
bavurup muayenesi ve tetkikleri yaplp kesin tan olarak C61, Prostat malign
neoplazm (prostat kanseri) tans konulan hastalarn muayene bilgileri incelenmitir.
ncelenen muayene bilgileri ierisinde prostat kanserini tehis iin kullanlan drt faktr
incelenmitir. Bu faktrler;
i.

Ya,

ii.

Prostatn parmakla muayenesi (rektal tue),

iii.

Genetik yatknlk bilgisi ve

iv.

PSA dzeyidir.

ncelenen hastalardan kesin tans prostat kanseri olup muayene notlar ierisinde
yukarda sralanan faktrlerin hepsinin bulunduu hastalar seilmitir. Bu ekilde
yaplan tarama sonucunda 118 hasta verisi tespit edilmitir. Ayn ekilde muayene
notlar ierisinde ya, rektal tue, genetik yatknlk ve PSA tetkik sonucu bulunan ama
kesin tans C61, Prostat malign neoplazm (prostat kanseri) olmayan 118 hasta daha
seilerek toplam 236 hastalk veri setine ulalmtr.
Veri setinin WEKA programna yklenebilmesi iin arff formatnda olmas
gerekmektedir. WEKA program Arff Viewer seenei ile .cvs uzantl dosyalar
aabilmektedir. Bu nedenle, ncelikle MS Excel ortamda edinilen veriler .xls

51

formatndan .cvs (comma-separeted variables) (virglle ayrlm veriler) formatna


dntrlmtr. Bu format trndeki veriler Ek-1de sunulmutur
Veri madencilii algoritmalarndan Lojistik Regresyon Analizi (LRA), Yapay
Sinir Alar (YSA) Ve Snflandrma Ve Regresyon Aalar (C&RT) yntemlerinin
karlatrlmas iin prostat kanseri verileri kullanlmtr.

3.1. C&RT ALGORTMASI


Bilimsel almalardan elde edilen verilerin analizinde snflama ve regresyon
aalar, kmeleme, ayrma ve lojistik regresyon analizlerini ieren snflama
yntemleri ve regresyon modelleri sklkla kullanlmaktadr [36]. Ancak bu tr
modellerin gerektirdii varsaymlar pek ok alanda istatistiksel analiz olanaklarn
kstlamaktadr. ncelenen veri seti zerinde hibir varsaym gerektirmemesi nedeniyle,
snflama ve regresyon aalar (C&RT) bu tr parametrik yntemlere kar gl bir
alternatif olarak ortaya kmaktadr [32].
Breiman ve arkadalar tarafndan 1984 ylnda gelitirilen ok saydaki
aklayc (x) deikeni ile yant (y) deikenine karar vermede kullanlan istatistiksel
bir tekniktir. C&RT hem kategorik hem de srekli deikenleri kullanarak snflama ve
regresyon problemlerinin zmnde karar aalarn kullanan parametrik olmayan
istatistiksel bir metottur. Ele alnan baml deiken kategorik ise yntem snflama
aalar (Classification Tree), srekli ise regresyon aalar (Regression Tree) olarak
adlandrlmaktadr [37]. Bu ynyle C&RT, hem oklu regresyon analizini hem de
baml deikenin kategorik olduu durumlarda kullanlan lojistik regresyon analizini
kapsamaktadr.

52

Yaplan almalarda kullanlan C&RT algoritmas, her aamada ilgili kmeyi


kendinden daha homojen olan iki alt kmeye ayrarak ikili karar aalar oluturan bir
yapya sahiptir. Dier bir ifadeyle C&RT, iki yavru dm oluturup btn bamsz
deikenleri kullanarak veriyi alt gruplara ayrmak zerine kurulmutur. En iyi bamsz
deiken safszlk (impurity) ve deiim llerindeki (gini, twoing, en kk kareler
sapmas) deikenlii kullanarak seilir. Burada ama hedef deikene ilikin mmkn
olabilen en homojen veri alt gruplarn retmektir [5].
C&RT, sadece baml deiken ile bamsz deiken arasndaki ilikinin
yapsn aratrmakla kalmayp, ayn zamanda bamsz deikenlerin birbirleri ile olan
etkileimlerini de ortaya koymaya almaktadr. C&RT algoritmasnn, bamsz
deikenlerin baml deikenle ilikisini deerlendirmede ve model iindeki etkileim
yapsn zmlemede nemli avantajlar mevcuttur [37,38].
C&RTn sahip olduu algoritma, benzerlik gsteren deikenlerin ayn aa
dmnde toplanmasna dayal olup, btn oluturduu alt dallar baml deiken
olan kk dme balamayla son bulmaktadr [38]. C&RT analizi genellikle 3 admdan
olumaktadr. Birinci adm veri setini tanmlayan maksimum aacn oluturulmasdr.
kinci adm; oluturulan aalar ierisinden baml deikenle nemli ilikisi olan
aalar semek iin yaplan budama ilemi ve son adm ise en uygun aa yapsnn
seimidir [37].

3.1.1. Maksimum Aacn Oluturulmas


Maksimum aa, aacn kknde balayan bir ikili blme ilemi kullanan
yapdr. Aacn kk, veri seti ierisindeki her nesneyi iermekte ve her bir seviyede
kendine zg iki alt dm halinde blnen bir ana dm olarak dnlmektedir.

53

Sonraki admda, her alt grup bir ana grup olmaktadr. Her blnme bir alt gruptaki tm
nesnelerin benzer baml deiken deerlerine sahip olacak ekilde seilen bir
aklaycnn deeri ile tanmlanmaktadr [37,38].
Srekli deikenlerin blnmesi xinin seilmi bamsz deiken ve a j nin
onun blnme deeri olan x i < aj ile ifade edilmektedir.
Bir blnme ve onun blnme deeri iin en uygun tanmlaycy semek iin
C&RT, iinde tm tanmlayclarn ve tm blnme deerlerinin dnld bir
algoritma kullanmakta ve test koulunun ne kadar iyi uygulandn belirlemek iin ana
dmn safszlk derecesini alt dmlerin safszlk derecesiyle karlatrmaktadr.
Ana ve alt dmlerin safszlklar arasndaki fark ne kadar bykse test koulu o kadar
daha iyi olduundan, ana dm (tp) ve alt dmler (tL ve

tR)

arasndaki safszlk

lsn en iyi azaltan blnme seilmektedir. Matematiksel olarak bu durum aadaki


gibi ifade edilmektedir [37]:

i(s, tp ) = ip (tp ) - PLi(tL) - PRi(tR)

(3.1)

Burada i safszl, s aday blnme deerini ve PL ile PR srasyla sa ve soldaki


alt dmlerdeki nesnelerin blnmelerini ifade etmektedir. Bu eitlikte i(s, t )
deerini

maksimize

edecek s deerinin

seilmesi amalanmakta ve tp dmnde

btn kaytlarn katlmyla hesaplanan bu deer, C&RT aacnda gelime


(improvement) kavram ile ifade edilmektedir. C&RT algoritmas aac gelitirirken
i(s, tp ) yi maksimize eden bir test koulu setiinden ve ip (tp )

btn test koullar

iin ayn olduundan, i(s, tp ) yi maksimize etmek alt dmlerin safszlk llerinin
arlkl ortalamalarn minimize etmekle edeer olmaktadr [37].

54

Her bir dmn her aamada ikiye ayrld C&RT algoritmasnda, her bir
blnme noktasnn belirlenmesinde Gini, Twoing gibi en iyi blmeyi semek iin
gelitirilen sz konusu safszlk ltlerinden Gini indeksi kullanlmaktadr. Gini
indeksi aadaki gibi hesaplanmaktadr [40].
1) Her nitelik deerleri ikili olacak biimde gruplanmakta ve bu ekilde elde edilen
sol ve sa blnmelere karlk gelen snf deerleri gruplandrlmaktadr.
2) Her bir nitelikle ilgili olarak sol ve sa taraftaki blnmeler iin Ginisol ve
Ginisa deerleri;
k: Snflarn says,
T: Bir dmdeki rnekler,
Tsol: Sol dmdeki rneklerin says,
Tsa: Sa dmdeki rneklerin says,
Li: Sol dmde i kategorisindeki rneklerin says.
Ri: Sa dmde i kategorisindeki rneklerin says olmak zere;

Ginisol

L
= 1- i ,
i =1 Tsol

Ginisa

L
= 1- i ,
i =1 Tsol

eklinde hesaplanmakta ve her j nitelii iin, eitim verisindeki satr says n olmak
zere genel Gini indeks deeri ise;

Ginij =

1
(Tsol Ginisol + Tsag Ginisag )
n

forml ile hesaplanmaktadr.

55

3.2. YAPAY SNR AI MODELLER


Sinir alar, tek katmanl ya da ok katmanl olarak snflandrlrlar. Katman
saysn belirlerken, girdi birimi bir katman olarak saylmaz; nk bunlar zerinde
hibir hesaplama ilemi yaplmaz.

3.2.1. Tek Katmanl Alglayclar


Tek katmanl yapay sinir alar giri ve k katmanlarndan oluur. Girdi ve
kt katmanlarnda birden fazla giri ve k deeri bulunmaktadr. Giri katmanndaki
her giri deerini k katmanna balayan sinaptik balantlar mevcuttur. Her balant
bir arlk deerine sahiptir. Ayn zamanda an ktsnn sfr olmasn engelleyen bias
sapma deeri mevcuttur.
Tek katmanl YSA rnek snflandrma, tanma, rnek ilikilendirme ve bunun
gibi

dier

problemlerin

zlmesinde

kullanlabilir.

rnek

snflandrma

problemlerinde, her giri vektr (rnek, numune) belirli snflara ait olabilir ya da
olmayabilir. Basit olarak, bir snfa ye olma sorusu gz nnde bulundurulur. k
birimi iin +1 cevabnn alnmasyla rnein o snfa ye olduu, -1 cevab alnrsa,
rnein o snfa ye olmad belirlenir. Bu tip durumlarda, her bir snf iin bir k
birimi vardr. rnek tanmlama, rnek tanma uygulamasmn bir eididir. rneklerin
ilikili hatrlanmas ise daha farkldr [6].
Aada ekil 3.5 de tek arlk katmanl YSA iin rnek verilmitir. Bu a ileri
beslemeli alara birer rnektir.

56

ekil 3.1. Tek Arlk Katmanl Bir Yapay Sinir A

Tek katmanl sinir alarnn eitilmesinde nemli yntem vardr:


Hebb Kural
Perseptron renme Kural
Delta Kural

3.2.1.1.

Hebb Kural

Hebb kural, bir yapay sinir a iin, en eski ve en basit renme kural olarak
bilinir. Hebb, renmenin, sinaps uzunluklarn (arlklar) deitirerek meydana
geleceini nermitir. Hebbe gre, eer birbiri ile bal iki nronun her ikisi de ayn
zamanda aktif ise, bu nronlara uygun arlklarn artrlmas gerekmektedir. Benzer
olarak, eer her iki nron ayn zamanda pasif ise, arlklarn artrlmas gerekir. Bu

57

durumda, daha gl bir renme ekli meydana gelir. Gelitirilmi Hebb kural ile tek
katmanl ileri beslemeli bir sinir ann eitilmesi bir Hebb an anlatr. Hebb kural,
dier zgl alar eitmek iin de kullanlabilir. Tek katmanl bir yapay sinir anda
birbiri ile balantl nronlardan bir tanesi giri birimi, bir tanesi de k birimi
olacaktr (hibir giri birimi birbiri ile balanmad iin, herhangi bir k birimleri de
birbiri ile bal deildir [48,59].

3.2.1.2.

Perseptron

Perseptronlar, YSAnn renebilir niteliini tayan ilk modelidir. Hebb


kuralndan daha yetenekli bir renme kuraldr. Perseptron tekrarl renme
algoritmasdr ve zmn varl durumunda yaknsama niteliine sahiptir. Bu,
perseptron modelinin en nemli zelliklerinden biridir.
Rosenblatt (1962) ve Minsky-Papert (1969, 1988) tarafndan eitli perseptron
modelleri tanmlanmtr. Orijinal perseptronlar, duyumsal birimler, birletirici birimler
ve cevap birimleri olmak zere nronlarn durumuna sahiptirler. rnein, bir basit
perseptron duyumsal ve birletirici birimler iin ikili aktivasyon, cevap birimi iin ise
+1, 0, veya -1 deerlerini reten aktivasyon uygulayabilir.
Snflandrma problemlerinde eik deerli aktivasyon fonksiyonu kullanlr:

y _ in < -q ise
-1,

f ( y _ in) = 0, -q y _ in q ise
1,
y _ in > q ise

(3.2)

kt biriminin aktivasyonu y = f(y_in) eklinde hesaplamr.


Birletirici birimden cevap birimine giden balantlarn arlklar perseptron
renme kural ile ayarlamr. Her eitim girii iin, sinir a, k biriminin cevabn

58

hesaplar. Daha sonra sinir a, bu rnek iin k deeri ile hedeflenen k arasndaki
fark karlatrarak bir hata oluup olumadn tespit eder. Yapay sinir a,
hesaplanm k deeri 0 ve hedef deeri -1 olan rnek iin hatay ayrt edemez,
buna kart olarak hesaplanm k deeri +1 ve hedef deeri -1 olan rnek iin
hatay ayrt edebilir. Bu durumlarda, hedef verinin iareti ynnde arlklarn iareti
deitirilmelidir. Bununla birlikte k birimine 0 olmayan sinyaller gnderen
balantlANN arlklar ayarlanmaldr. Eer belirli bir eitim giri rneinde hata
oluuyorsa, arlklar
wi ( yeni ) = wi (eski ) + a txi

(3.3)

formlne gre deitirilmelidir.


Burada hedef deeri t ya +l ya da -ldir ve a renme oran katsaysdr. Eer
hata olumadYSA arlklar deitirilmemelidir. Eitim ilemi hata olumayncaya
kadar devam etmelidir. Perseptron renme kural yaknsama teoremine gre, eer ada
tm eitim rnekleri iin uygun arlklarn varlna izin verilirse, bu arlklar, eitim
srecinde btn eitim rnekleri iin elde edilebilir. Bu kuraln amac, an tarn olarak
doru cevap veremedii eitim rnekleri iin arlklar ayarlamaktr. Ayrca, eitim
sonunda bu a snrsz saydaki eitim admlar iin arlklarn deerlerini bulmaldr
[4,7,50].

3.2.1.2.1.

Perseptron Algoritmas

ekil 3.6de perseptronun mimarisi gsterilmitir. Burada X1 ,..., Xn girdi


birimleri, Y kt birimi ve 1 sapma sinyalidir. b sapma arl, wi (i = 1,...,n)
arlklardr.

59

ekil 3.2. Basit Bir Perseptron Mimarisi

Snflandrma problemlerinde, sinir ann grevi tm giri rneklerinin belirli


bir snfa ait olup olmamasn belirlemektir. Snfa ait olma kn +1 deerine, ait
olmama ise kn -1 deerine uygun olmasyla belirlenir. Snflandrma ilemi
yaplabilmesi iin a, tekrarl bir teknik ile eitilir. Girdi ve hedefler ikili ve ya iki
kutuplu olabilir. eik deeri tm birimler iin deimezdir. Sapma ve eik deerinin
her ikisinin ayn zamanda kullanlmasna ihtiya duyulmaktadr. Bu ilemin algoritmas
aada verilmitir. Bu algoritma, arlklarn balang deerlerine ve renme oranna
tam olarak duyarl deildir [6].
Adm 0 Arlklar ve sapmalara balang deerleri ata.
(Arlklar ve sapma deeri kolaylk iin 0 olarak ahnabilir.)
renme oran olan (0 < < l)y ayarla. (kolaylk iin, a, le eitlenebilir.)
Adm 1 Durma koulu yanl iken , adm 2-6' y uygula.
Adm 2 Her bir s:t renme ifti iin, 3-5 admlarn uygula.
Adm 3 Giri birimlerinin aktivasyonlANN ayarla. xi = si

i = 1, . . . , n

60

Adm 4 Her kt birimi iin aktivasyonlar hesapla.

y _ in j = b j + xi .wij

j = 1,...., m :

y _ in < -q ise
-1,

f ( y _ in) = 0, -q y _ in q ise
1,
y _ in > q ise

(3.4)

Adm 5 Arlklar ve sapmalan ayarla.


eger t j y j ise,
b j ( yeni ) = b j (eski ) + t j

(3.5)
(3.4)

wij ( yeni ) = wij (eski ) + t j xi .


eger t j y j ise,
b j ( yeni ) = b j (eski )
wij ( yeni ) = wij (eski ).

Adm 6 Durma koulu:

(3.6)

Eer adm 2de hi bir arlk deimezse dur; aksi duaimda devam et.
Algoritmada kt birimlerinin says m = 1 olabilir. rnein, mantksal fonksiyonlar
gzden geirirken kt biriminin saysnn bir olduu kabul edilir. Eitimden sonra, a
her bir eitim vektrn doru ekilde snflandrr.
Snflandrma ile ilgili perseptron eitim algoritmasnda, ayrma dorusu yerine,
pozitif cevaplar blgesini sfr cevaplar blgesinden ayran w1 x1 +w2 x2 +b > dorusu
ve negatif cevaplar blgesini sfr cevaplar blgesinden ayran w1 x1 +w2x2 +b <-
dorusu olmak zere iki ayrma dorusu vardr [53,55].

61

3.2.1.2.2.

Delta

Delta kural, Widrow ve Hoff (1960) tarafndan ADALINE iin ortaya atlm
olan iteratif bir renme srecidir. Delta kuralnda, tm girdi numuneleri iin kt ve
hedef farklar karelerinin toplamnn, baka bir ifadeyle, toplam hatann kltlmesine
hedeflenmitir. Uygun algoritmalarda her numune iin gradient vektrnn ters
ynnde arlklarn gncellenmesi yaplr. Bu durumda delta kural, nron
balantlarnn arlklarn, a girii (y_in) ve an hedef k (t) arasndaki fark en
aza indirgeyecek ekilde deitirir. Ama, tm eitim numunelerinin hatalarn en aza
indirgemektir. Arlk dzeltmeleri, ok saydaki eitim numunesi ile beraber
biriktirilebilir ve bu yn gncelletirilmesi olarak adlandrlr [6].

3.2.2. ok Katmanl Alglayclar


Tek

katmanl

alar

ayrlamayan

problemlerin

zmnde

baarsz

olmaktadrlar. Bunun iinde bilim adamlar ok katmanl YSA modellerini


incelemilerdir. Burada nemli aamalardan biri bu tip alar iin akll bir eitim
algoritmasn gelitirmekti. 1986 ylnda Rumelhart, Hinton ve Williams tarafndan bu
gerekletirildi. Benzer fikirler daha nce Werbos (1974), Parker (1985), Cun (1985)
gibi bilim adamlarnn yaynlam olduu makalelerde gzkmektedir. Standart geriye
yaylm (backpropagation) olarak adlandrlan bu eitim metodu hata kareler toplamnn
geriye yaylm yntemiyle kltlmesi fikrine dayanr ve genelletirilmi delta kuraln
kullanr. Dolaysyla bu yntem her admda hatann kltlmesi iin, Widrow-Hoff
eitiminde olduu gibi, gradient azal yntemini kullanr. Bu durumda gizli katmanda
dorusal olmayan aktivasyon fonksiyonlar, rnein lojistik sigmoid fonksiyonu ve ona

62

uygun olarak genelletirilmi delta kural uygulanmaktadr [48,55]. Aada ekil 3.7
de tek katmanl YSA iin rnek verilmitir.

ekil 3.3. Tek Gizli Katmanl leri Beslemeli ok Katmanl Bir Yapay Sinir A

ok katmanl alglayclar (KA), bilgilerin girildii girdi katman, bir veya


daha fazla sinir hcresinden oluan gizli katmanlar ve bir kt katmann ierir. Girdi
sinyalleri a boyunca bir katmandan dier katmana ileri ynde yaylrlar (ekil 3.8).

63

ekil 3.4. ok Katmanl Alglayc

An farkl katmanlar boyunca ileri ve geri yaylm olarak adlandrlan iki gei
bulunur. leri yaylmda, bir girdi vektr an giri katmanna uygulanr ve bu girdinin
etkisi ada katmandan katmana yaylr. leri yaylm srasnda an sinaptik arlklar
belirlidir. Geri yaylmda sinaptik arlklarn tm bir hata-dzeltme kural ile uyumlu
olarak dzenlenir. Bir hata sinyali retmek iin an gerek kts istenilen bir ktdan
kartlr. Bu hata sinyali sinaptik balantlarn tersi ynnde ada geriye doru yaylr.
Sinaptik arlklar an gerek ktsn istatistiksel anlamda arzu edilen ktya yakn
hale getirmek iin dzenlenir [4,5,7].

3.2.2.1.

Geriye Yaylm Algoritmas

ekil 3.9 de bir gizli katmana sahip ok katmanl ileri beslemeli bir a
gsterilmitir. Burada X girdi katman, Z gizli katman, Y kt katmanna ait birimlerdir.
Gizli katmann j. birimine dahil olan sapma arlklar v0j ( j =1,...,l) , kt katmannn
k. birimine dahil olan sapma arlklar w0k (k =1,...,m) ve sapmalara uygun birimlerin

64

girdi sinyalleri 1 olarak gsterilmitir. Ada sinyallerin yaylm girdi birimlerinden


gizli birimlere sonra ise, gizli birimlerden kt birimlerine doru ynelmitir. Bu
nedenle a ileri beslemeli ok katmanl a gibi gze alnmaktadr. Gizli birimin says
1 olduundan ekilde gsterilen a iki katmanl bir yapay sinir adr. Gizli birimlerin
saysnn birden fazla olduu yapay sinir a mimarileri de vardr [47,53].

ekil 3.5. Tek Gizli Katmanl leri Beslemeli ok Katmanl Bir Yapay Sinir A

3.2.2.2.

Standart Geriye Yaylm Eitim Algoritmas

Standart geriye yaylm yntemi aamadan olumaktadr: ileri besleme,


hatann hesaplanmas ve geriye yaylmas, arlklarn gncellenmesi.

65

3.2.2.2.1.

Geriye Yaylm Algoritma eitleri

3.2.2.2.1.1.

Momentum

Momentum geriye yaylmda, arlk deiiminin yn o anki eimle bir nceki


eimin kombinasyonu eklindedir. Bu eim azaltma ynteminin deitirilmi bir
eklidir ve baz eitim verileri, eitim verilerinin byk bir ounluundan farkllk
gsteriyorsa bu deiim iyi bir avantaj salar. Eer hi allmam baz veriler
kullanlacaksa bu deiiklii kk bir renme oran ile kullanmak iyi olacaktr.
Bununla birlikte eitim verileri benzer olsa da bu deiiklik kullanlarak yaklamann
hz arttrlabilir.
Momentumu kullanmak iin bir veya daha nceki eitim numunelerinin
arlklar saklanmaldr.
rnek olarak, geri yaylmn momentumlu basit bir biimi, t+1 eitim admnn
yeni arlklar t ve t-1 eitim admlarndaki arlklar temel alr. Momentumlu geri
yaylmn arlk gncelleme forml,
w jk (t + 1)

w=jk (t ) + ad k z j + m [ w jk (t ) - w jk (t - 1)]

Dw jk (t + 1)= ad k z j + mDw jk (t )
vij (t + 1)

v=ij (t ) + ad j xi + m[vij (t ) - vij (t - 1)]

Dv jk (t + 1)= ad j xi + mDvij (t )

eklindedir.Momentum katsays deeri olan , 0-1 aralnda snrlandrlmtr


[54,55].

(3.6)

66

3.2.2.2.1.2.

Elenik Eim Algoritmas

Birok eitim algoritmasnda arlk gncellenmesinin belirlenmesinde bir


renme oran kullanlmaktadr. ou elenik eim algoritmalarnda arlk
gncellemesi her bir tekrarda yaplmaktadr. A performans fonksiyonunu minimize
eden bu ilem iin elenik eim ynleri boyunca bir arama yaplmaktadr. Birok arama
fonksiyonu vardr. Baz arama fonksiyonlan, belirli eitim fonksiyonlar iin ok
uygundur [6,48].

3.2.2.2.2.

Geri Yaym Mant

Geri yaylm eitim ynteminin en genel doas, geri yaylm tarafndan eitilen
ok katmanl ileri beslemeli bir sinir ann, eitli alanlardaki problemleri zmek iin
kullanabileceini ifade etmektedir. rnein, ngilizce harfleri ve bu harflerden oluan
kelimeleri yksek sesle okuyabilen NETtalk uygulamas, geri yaylml alarla
gerekletirilmitir. Bu tr alar kullanan uygulamalarla, neredeyse her alanda
karlalabilir ve bu uygulamalar, doadaki eitli problemler iin sinir alarn
kullanr. Bu problemler, verilen bir girdi grubu iin fonksiyon atamay ierir. Bu
girdiler, hedef klarn belirli bir grubuna girer. Ama, ok farkl YSA yaplarnda
olduu gibi, aada deinilen u iki yetenek arasndaki dengeyi elde etmek iin
YSAy, eitmektir. Bunlardan ilki, girdi numunelerine doru bir ekilde cevap
verebilme yeteneidir. Burada sz konusu olan girdi numuneleri, eitim ya da
ezberleme iin kullanlrlar. kincisi ise, YSAnn, sistem iine verilen girdilere kar
uygun ktlar verebilme yeteneidir. Bir YSAnn geri yaylm yoluyla eitilmesi
aamadan oluur [6].
1. Girdi eitim rneinin ileri beslenmesi.

67

2. likili hatann hesaplanmas ve geri yaylm.


3. Arlklarn ayarlanmas.
Tek katmanl bir sinir a, fonksiyon atamalarda herhangi bir ekilde
snrlandrlmasna ramen, bir ya da daha ok sakl katmana sahip ok katmanl bir
YSA, srekli bir fonksiyon atamay rasgele bir dorulukla renebilecektir. Tek bir
sakl katmandan daha fazla katmana sahip YSA mimarisi, birok uygulama iin daha
yararl olacaktr [60].
Yapay sinir alarnda eitim ilemine balarken arlk ve bias deerleri rasgele
verilir. Aa rnekler sunulur ve bilgi ileri doru yaylr, kt katmanndaki nronlarda
hata deeri bulunur [55].

ekil 3.6. Geri Yaym Mant

kt nronunda n. eitim basamanda oluan hata (e), istenilen ktdan (d)


hesaplanan ktnn (y) karlmas ile hesaplanr.
e j ( n ) = d j ( n ) - yi ( n ) ,

j nronu bir kt dmdr.

68

Elde edilen bu hatalarn anlk hata enerjileri e 2j ( n) / 2 ifadesi ile hesaplanr.


Toplam hata enerjisi btn nronlardaki anlk hata enerjilerinin toplanmas ile elde
edilir. Hata kareler ortalamas, toplam hata enerjilerinin (ort) bulunup eitim kme
says Nye gre normalize edilmesi ile hesaplanr [6].
1 N 1
S S e2 j (n)
n
N =1 2 jC

E (n) = e ort=

(3.7)

renme srecinin amac hatay minimize edecek an serbest parametrelerini


yani arhk ve bias deerlerini ayarlamaktr. Bu ilem yaplrken eitim setlerinin hepsi
aa bir kez sunulur, serbest parametreler ondan sonra ayarlanr ya da sunulan her
rnekten sonra arlk ve bias deerleri gncellenir. Arlklara yaplan dzenlemeler
aa sunulan her rnek iin hesaplanan hatayla uyumlu olarak yaplr.
Geri besleme algoritmasnda arlk ve bias deerlerini gncellemek iin
dzeltme deeri

( Dw ji ( n)) , hatann arlklara gre ksmi trevinin alnmas

(e (n) / w ji (n)) ile hesaplanr.

e ( n)
= -e j ( n)j ' (v j ( n)) yi ( n)
w ji ( n)
Dw=ji ( n)

-n

(3.8)

e ( n)
w ji ( n)

d j ( n) = -e j ( n)j ' ( v j ( n))


Yukardaki eitlikte kullanlan , geri besleme algoritmasnn renme oran
parametresidir, eksi iareti arlk uzayndaki hatay drecek arlk deiimi iin yn
arayan gradyan azalan ifade eder. Lokal gradyan (d j ( n)) , ilgili nron iin karlk
gelen

hata

sinyali

e j (n)

ve

j ' (v j ( n)) arpmna eittir [59,48,53].

ilgili

aktivasyon

fonksiyonunun

trevinin

69

Dzeltme deeri, lokal gradyanlarn kullanm ile aadaki eitlik ile ifade edilir.
Dw=ji ( n)

-hd j ( n) yi ( n)

(3.9)
A eitim esnasnda hata yzeyi sabit bir noktada takl kalabilir, minimum
hataya yaknsayamayabilir. Bunu engellemek iin dzeltme deerine, momentum
katsays olarak ifade edilen bir deer eklenir.
Dw ji=( n) aDw ji ( n - 1) - hd j ( n) yi ( n)

momentum katsays

(3.10)

Elde edilen bu dzeltme deeri eski arlklara eklenerek yeni arlk deerleri
elde edilir. Bu ilem doru arlk deerleri elde edilene kadar devam eder [6,55,60,
61].

3.3. LOJSTK REGRESYON MODEL

3.3.1. Lojistik Regresyon Modelinin Oluturulmas


Lojistik regresyon modeli oluturulurken, dorusal regresyonda olduu gibi
maksimum olabilirlik tahmini yntemi kullanlr. (xi, yi) gibi n tane bamsz gzlem
einin olduu varsayldnda yi iki dzeyli baml deikeni ve xi de i inci denek iin
bamsz deikenin deerini temsil etsin. Sonu deikeni iin 0 ve 1 kodlarnn
srasyla belirli bir olayn varln ya da yokluunu temsil ettii varsaylsn. Lojistik
regresyon modelini kestirebilmek iin bilinmeyen 0 ve 1 parametrelerini tahmin etmek
gerekmektedir [44].
( E (Y \ x) = b 0 + b1 x )

(3.11)

70

Eer Y, 0 ve 1 olarak kodlandYSA, (x) ifadesi x verildiinde Y nin le eit


olma koullu olasln vermektedir. [ (x) = P(Y = l\ x) ]

[ 1- (x) ] deeri verilen

herhangi bir x iin Ynin 0a eit olma koullu olasln gstermektedir.


[l - {x) = P(Y = 0 / x] x (xi, yi) iftinin yi = 1 olduu zaman olabilirlik fonksiyonuna
katks (xi) iken, yi = 0 olduu zaman olabilirlik fonksiyonuna katks 1-(xi) kadardr.
(xi, yi) iftinin olabilirlik fonksiyonuna katksn ise aadaki ifade yardmyla
tanmlanmtr [41,44].

x ( xi ) = p ( xi ) yi [1 - p ( xi ) ]

1- yi

(3.12)

Gzlemlerin birbirlerinden bamsz olduklar varsayld iin, olabilirlik


fonksiyonunu E (Y \ x) = b 0 + b1 x eitliindeki terimlerin arplmasyla elde edilir.
n

(=b ) P V ( xi )

(3.13)

i =1

p ( x)
En ok olabilirliin temel ilkesinde tahmininin g ( x) = ln
eitliini
1 - p ( x )
maksimum yapt vurgulanr, te yandan log olabilirlik fonksiyonu ise:
n

L( b ) = ln [1( b )=] S { yi ln [p ( xi ) ] + (1 - yi ) ln [1 - p ( xi ) ]}
i =1

(3.14)

L() y maksimum yapan deerini bulabilmek iin, L() nn 0 ve 1 e gre


trevini aldktan sonra, elde edilen ifadeler 0a eitlenmelidir. Sonuta elde edilen en
ok olabilirlik eitlikleri aadaki gibidir.
n

P [ yi - p ( xi ) ] = 0
i =1
n

P xi [ yi - p ( xi ) ] = 0
i =1

(3.15)

Yukardaki eitlikten elde edilen nn deeri, en ok olabilirlik tahmincisi


olarak adlandrlr ve olarak gsterilir. rnek olarak, (xi ) nin en ok olabilirlik

71

tahmini {xi)ile gsterilir. Bu deer, x in xi gibi bir deere eit olduu verildii zaman,
Y nin le eit olma koullu olaslnn tahminini verir [41,44].
n

P =yi
i =1

P p ( xi )
i =1

(3.16)
3.3.2. oklu Lojistik Regresyon Modeli
Birden ok bamsz deikenin yer ald Lojistik modellere ok deikenli
lojistik regresyon ad verilir. Yapsal olarak bu modelin dier ok deikenli regresyon
modellerinden fark olmayp regresyon katsaylarnn yorumlanmas farkldr. oklu
lojistik regresyon modelinde genel eilim modeldeki katsaylarn tahmini ve onlarn
nem testi eklinde olmaktadr.
x = (x1, x2, .xp) vektr ile gsterilen, p tane bamsz deiken topland
varsaylsn. u an iin bu deikenlerin her birinin en azndan aralkl lekle (srekli)
lld varsaylsn. Baml deikeninin mevcut olduu (Y=1) zaman ki koullu
olaslk P(Y = l\x) = fx/e eittir. oklu lojistik regresyon modelinin lojiti aadaki
eitlik ile verilmitir.
g ( x) = b 0 + b1 x1 + ....... + b p x p + ...

(3.17)
bu durumda

p ( x) =

eg ( x)
1 + eg ( x)
(3.18)

Eer baz bamsz deikenler kesikli, nominal lekli ise, o zaman bu


deikenleri srekli deikenlermi gibi modele dahil etmek yanl olacaktr. eitli
dzeyleri gstermek iin kullanlan saylar sadece tanmlaycdrlar ve bunlarn herhangi
bir saysal deeri yoktur. Bamsz deikenler saysal olarak snflandrld zaman

72

eitli dizayn deikenlerinin (kukla deiken) kategorik olan bu deikenleri temsil


etmesi iin kullanlmas gerekmektedir [4,6,8].
Genel olarak, eer nominal bir deiken k kategoriye sahipse, o zaman k-1
dizayn deikenine ihtiya vardr. jninci bamsz deiken (xj) kj kategoriye sahip
olsun. kj 1 dizayn deikeni Dju olarak katsaylar da ju , u =1,2,,kj -1 olarak
belirtilmi olsun. Sonu olarak Jninci deikeni kesikli olan p deikenli model iin
lojit aadaki gibidir [6,8].
k j -1

g ( x) = b 0 + b1 x1 + ..... + S b jk D ju + b p x p ...
u =1

(3.19)
3.3.3. oklu Lojistik Regresyon Modelinin Kurulmas
Birbirinden bamsz n tane (xi , yi), i=1,2,,n gzlem einin olduu varsaylsn.
Tek deikenli modelde olduu gibi modelin kurulmas iin tahmin vektrnn =(0 ,
1, , p) elde edilmesi gerekmektedir. ok deikenli durumda, tek deikenli
durumda olduu gibi tahmin metodu en ok olabilirlik olacaktr. Log olabilirlik
fonksiyonunun p-1 katsaysna gre trevi alnarak, p+1 tane olabilirlik denklemi elde
edilebilmektedir [8].

S [ yi - p ( xi )] = 0

i =1

(3.20)

S xij [ yi - p ( xi =) ] 0,=j 1, 2,..., p,...

i =1

3.3.4. Lojistik Regresyon Modelinde Katsaylarn Yorumlanmas


Karar vermemiz gereken ilk adm, baml deikenin hangi fonksiyonu
bamsz deikenler ile dorusal bir fonksiyon oluturmaktadr? sorusudur. Bu
fonksiyona link fonksiyonu ad verilir. Dorusal regresyon modelinde link fonksiyonu I

73

(identity-Birim) matristir. nk baml deiken parametreleri ile dorusaldr.


Lojistik regresyon modelinde ise link fonksiyonu lojit transformasyondur [41].

p ( x)
g ( x ) = ln =
b 0 + b1 x
[1 - p ( x) ]

(3.21)

3.3.5. Modelde kiden Fazla Bamsz Deikenin Olduu Durum


Srekli bir deiken iin katsaynn yorumlanmas amacyla gelitirilecek metot
iin lojitin deikenle donsal olduu varsaylacaktr. Lojitin srekli deikenle (x)
dorusal olmas varsaym altnda lojit iin eitlik g(x) = 0 + 1 dir. Eim katsays (1)
xdeki 1 birimlik artn log odds deerinde meydana getirecei deiimi verir. xdeki
c birimlik bir deiim iin log odds deeri lojit farktan elde edilmektedir.
g(x + c) -g(x) = c 1.Karlk gelen odds oran lojit farkn ss alnarak elde edilir.
(c) = (x + c, x) = exp(c 1) (c) nin tahmini iin %100(1-) gven aralnn u

noktalar exp c b 1 z1-a c S E ( b1 ) olarak verilmitir [6].

3.4.

YNTEMLERN KARILATIRILMASI

Yntemlerin birbirlerine kar olan snflama baarmlarnn karlatrlmas iin


aadaki ltler kullanlmtr.

Dzensizlik matrisi: Yaknsaklk matrisi olarak da adlandrlr. Doru olarak


snflandrlan rneklerin says bu matrisin kegeni zerindeki elemanlarnn
toplamna eittir. Doru olarak snflandrlan kayt yzdesi bize madencilik
algoritmalarn karlatrma olana sunmaktadr.

74

Kesinlik: Gerekte herhangi bir snfa ait olan kaytlarn hangi oranda
snflandrma algoritmas tarafndan o snfa atand gsterir.

F-lt: Kesinlik ve duyarllk ltlerini beraber deerlendirmek iin, her iki


deerin harmonik ortalamas.

Kappa istatistii: Tahmin doruluunun lsdr. Kappa katsays, ayn


nesneyi derecelendiren iki gzlemci arasndaki uyumu test etmek amacyla kullanlr.
rnein, ayn bireylerin rntgenini deerlendiren iki klinisyenin, lezyon bulgularnn
karlatrlmasnda birbirleriyle ne dzeyde uyum iinde olduu kappa deeri ile
gsterilebilmektedir. Kappa katsays 0-1 aralnda deer alr ve buna gre,
0,93-1: mkemmel,
0,81-0,92: ok iyi,
0,61-0.80: iyi,
0,41-0,60: orta dzeyde
0,21-0,40: ortann altnda ve
0,01-0,20: zayf uyumu tanmlamaktadr [67].

ROC Erisi: ROC erisi, tan testlerinin performanslarnn deerlendirilmesi ve


kyaslanmas iin yaygn olarak kullanlan bir yntemdir. Bu yntem, bir tbbi testin en
uygun duyarlln ve en uygun zglln belirlemek iin optimum kesim
noktalarnn belirlenmesini salar. ROC erisi yntemi, tan testinin snflandrma
performansnn iki boyutlu grafiksel gsterimidir. Snflandrmann doruluu, ROC
erisi altnda kalan alann (AUC) byklne baldr [68].

75

ROC erisi altnda kalan alan, A = f (b / 1 + a 2 ) eitliiyle hesaplanr. Burada


F kmlatif standart normal dalm fonksiyonu, a eim ve b sabit katsaylardr. ROC
erisi altndaki alan, 0 ile 1 arasnda deer almaktadr [69].

3.5.

WEKA Program
Weka, Yeni Zelandadaki Waikato niversitesi tarafndan gelitirilmi olup

Waikato Environment for Knowledge Analysis kelimelerinin ba harflerinin


ksaltmasdr. Weka bata Yeni Zelandada tarmsal verinin ilenmesi amacyla
gelitirilmitir. Bununla birlikte sahip olduu makine renme yntemleri ve veri
mhendislii kabiliyeti yle hzl ve kkl bir ekilde gelimitir ki, imdi veri
madencilii uygulamalarnn tm formlarnda yaygn olarak kullanlmaktadr [65].
Weka, bir renen makineler algoritmalar koleksiyonu olduu gibi yeni
algoritmalarn gelitirilmesi iin de ok uygundur. GNU (General Public License)
altnda yaynlanm, Java dilinde kodlanm, ak kaynakl bir yazlmdr. Ayrca
WEKA, Windows, Linux ve Macintosh gibi farkl iletim sistemleri zerinde
alabilen bir programdr [66]. Weka Grafiksel Kullanc Ara yz, WEKAnn
grafiksel evresine eriim iin kullanlmaktadr.
Weka pencerenin alt ksmnda ise drt adet seenek bulunmaktadr:
Simple CLI: WEKA komutlarnn direkt olarak ilenmesine olanak salayan
basit bir komut satr ara yz salar.
Explorer: Verinin WEKA ile kefi iin bir ara yzdr. Bu ara yzde VM ile
snflandrma,

kmeleme

ve

birliktelik

kural

uygulamalar

kolaylkla

gerekletirilmektedir. Weka Explorer ile Bayes snflaycs, karar aalar,


karar kurallar, regresyon, yapay sinir alar gibi snflandrma algoritmalar; K-

76

ortalama, Cobweb gibi kmeleme algoritmalar; Apriori gibi birliktelik kurallar


kolaylkla uygulanabilmektedir. Weka Explorer da nileme, snflama,
kmeleme, birliktelik kurallar, zellik seme ve grselletirme panelleri
bulunmaktadr.
nileme: Veri dosyalarnn yklendii, veri tabannn seildii ve verinin
eitli yollarla deitirildii keif srecinin ilk admdr.
Snflama:

Snflandrma

ve

regresyon

algoritmalarnn

uygulanp

deerlendirildii paneldir. Snflandrma fonksiyonlar, kurallar, karar aalar,


Bayes alar, sinir alar gibi snflandrma algoritmalar bu panelde yer
almaktadr.
Kmeleme: K-ortalama, cobweb gibi kmeleme algoritmalarnn yer ald
paneldir.
Birliktelik kurallar: Verilerden birliktelik kurallarnn karld paneldir.
zellik seme:

Veri kmesindeki ilikili

Grselletirme:

zellikler

arasndaki

verilerin seildii paneldir.

ilikiler

iki

boyutlu

grafiklerle

izlenebildii paneldir.
Experimenter: Deneylerin gerekletirilmesi ve renme planlar arasndaki
istatistiksel testleri yrten bir ara yzdr. Bir veri setine farkl yntemleri
uygulayarak ya da ayn teknii farkl parametrelerle tekrarlayarak, tek seferde
birden fazla deneyin gerekletirilmesine izin veren bir aratr.
Knowledge Flow: Weka veri madencilii paketi ile salanan fonksiyonelliin
alternatif bir ara yzdr. Bu ara yz temel olarak Explorer ile ayn ilevleri
srkle-brak ara yz ile yerine getirmektedir. Experimenter tarafndan

77

desteklenmeyen ek zellikleri ve experimenter de bulunan baz eksik zellikleri


ile gelimekte olan bir blmdr.

78

4. BULGULAR

4.1. TANIMLAYICI STATSTKLER

ncelikle tm veri seti iin daha sonra ise prostat kanseri tans konmu ve
prostat kanseri tans konmam hastalar iin tanmlayc istatistiklere bakalm.

Tablo 4.1. Srekli deikenler (Ya ve PSA) in Tanmlayc statistikler (n=236)


Min.

Maks.

SS

YA

40

85

65.22

8.09

PSA

0.037

151.0

15.70

28.59

Tablo 4.2. Kategorik Deikenler (Rektal Tue ve Genetik Yatknlk) in Tanmlayc


statistikler (n=236)

Rektal Tue

Genetik Yatknlk

Pozitif

105

44.5

Negatif

131

55.5

Var

18

7.6

Yok

218

9.4

79

ekil 4.1. Rektal Tue Sonularnn Dalm

ekil 4.2. Genetik Yatknlk Sonularnn Dalm

Tablo 4.3. Prostat Kanseri Tans Durumuna Gre Srekli Deikenlerin (Ya ve PSA)
Dalm
Prostat Kanseri

Normal

6.78

8.911

<0.001

2.98

8.911

<0.001

Ort

SS

Ort

SS

YA

69.29

7.23

61.15

PSA

27.78

36.59

3.62

80

Tablo 4.4. Prostat Kanseri Tans Durumuna Gre Kategorik Deikenlerin (Rektal
Tue ve Genetik Yatknlk) Dalm
Prostat Kanseri

Rektal Tue
Genetik
Yatknlk

Normal

Pozitif

90

76.3

15

12.7

Negatif

28

23.7

103

87.3

Var

13

11.0

4.2

Yok

105

89.0

113

95.8

c2

96.510

<0.001

3.849

0.084

ekil 4.3. Prostat Kanseri Tans Koyulan Hastalarn Rektal Tue Sonular

ekil 4.4. Prostat Kanseri Tans Konulmayan (Normal) Hastalarn Rektal Tue
Sonular

81

ekil 4.5 Prostat Kanseri Tans Koyulan Hastalarn Genetik Yatknlk Durumlar
Dalm

ekil 4.6. Prostat Kanseri Tans Konulmayan (Normal) Hastalarn Genetik Yatknlk
Durumlar Dalm

4.2. LOJSTK REGRESYON ANALZ


Aada WEKA programna ait Lojistik Regresyon Analizi yntemi sonular
verilmitir.

82

Tablo 4.5. Odds Oranlar (LRA)


LRA
Deiken

Odds Oran

YA

1.125

PSA

1.220

RT

14.679

GP

0.312

Tablo 4.6. Snflandrma Sonular-I (LRA)


LRA
N

236

Doru Snflandrma

198 (%83.89)

Yanl Snflandrma

38 (%16.11)

Kappa

0.678

Ortalama Mutlak Hata (MAE)

0.211

Ortalama Karesel Hata (RMSE)

0.334

Greceli Mutlak Hata (REA)

%42.22

Greceli Karesel Hata (RRSE)

%66.81

Tablo 4.7. Snflandrma Sonular-II (LRA)


LRA
Kesinlik

Duyarllk

F-lt

AUC

%86.40

%80.50

%83.30

0.924

83

Tablo 4.8. Dzensizlik Matrisi Sonular (LRA)


LRA
a

Snflama

95

23

A=YES

15

103

B=NO

ekil 4.7. LRA in ROC Erisi

84

ekil 4.8. Ya in Yanl Snflandrmalarn Gsterimi (LRA)

ekil 4.9. PSA in Snflandrma Hatalarnn Gsterimi (LRA)

85

ekil 4.10. Rektal Tue in Snflandrma Hatalarnn Gsterimi (LRA)

ekil 4.11. Genetik Yatknlk in Snflandrma Hatalarnn Gsterimi (LRA)

86

4.3. SINIFLANDIRMA VE REGRESYON AALARI

Weka programnda model olutururken kullanlabilecek pek ok karar aalar


algoritmalar mevcuttur. ADTree, BFTree, Decision Stump, FT, C&RT, C&RTgraft,
LADTree, LMT, RBTree, RandomForest, RandomTree, RepTree algoritmalar Weka
program ierisinde mevcuttur. almada C&RT algoritmas kullanlmtr.

Tablo 4.9. Snflandrma Sonular-I (C&RT)


C&RT
Doru Snflandrma

193 (%81.78)

Yanl Snflandrma

43 (%18.22)

Kappa

0.636

Ortalama Mutlak Hata (MAE)

0.246

Ortalama Karesel Hata (RMSE)

0.395

Greceli Mutlak Hata (REA)

%49.19

Greceli Karesel Hata (RRSE)

%78.95

Toplam rnek Says

236

Tablo 4.10. C&RT Snflandrma Sonular-II (C&RT)


C&RT
Kesinlik

Duyarllk

F-lt

AUC

%82.60

%80.50

%81.50

0.828

87

Tablo 4.11. Dzensizlik Matrisi Sonular (C&RT)


C&RT
a

Snflama

95

23

A=YES

20

98

B=NO

ekil 4.12 C&RT in ROC Erisi

88

C&RT Algoritmas

PSA <= 9.48


|

rt = NO

ya <= 71: NO (108.0/11.0)

ya > 71: YES (10.0/4.0)

rt = YES

gy = NO: YES (45.0/13.0)

gy = YES

| PSA <= 5.59: NO (2.0)

| PSA > 5.59: YES (2.0)

PSA > 9.48: YES (69.0/2.0)

89

Yukarda C&RT budanm aa algoritmas verilmitir. Bu karar aacnn


boyutu 11, k says ise 6dr.

Veri seti iin C&RT ynteminin rettii algoritma u ekildedir.


i.

PSA deeri 9,48den byk eit olanlar kanserdir.

ii.

PSA deerleri 9,48den kk olanlarn;


a. RT deeri negatif olanlardan;
i. Ya 71den byk olanlar kanser,
ii. Ya 71den kk eit olanlar kanser deil,
b. RT deeri pozitif olanlardan;
i. Genetik Yatknl olmayanlar kanser,
ii. Genetik Yatknl olanlardan;
1. PSA deeri 5,59dan byk olanlar kanser,
2. PSA deeri 5,59dan kk eit olanlar hasta
deildir.

90

ekil 4.13. C&RT - Algoritmas in Aa Gsterimi

91

ekil 4.14. Ya in Yanl Snflandrmalarn Gsterimi (C&RT)

ekil 4.15. PSA in Yanl Snflandrmalarn Gsterimi (C&RT)

92

ekil 4.16. Rektal Tue in Yanl Snflandrmalarn Gsterimi (C&RT)

ekil 4.17. Genetik Yatknlk in Yanl Snflandrmalarn Gsterimi (C&RT)

93

4.4. YAPAY SNR ALARI


Aada WEKA programna ait Yapay Sinir Alar analizinin sonular
verilmitir.

Tablo 4.12. Snflandrma Sonular-I (YSA)


YSA
Doru Snflandrma

206 (%87.29)

Yanl Snflandrma

30 (%12.71)

Kappa

0.746

Ortalama Mutlak Hata (MAE)

0.191

Ortalama Karesel Hata (RMSE)

0.311

Greceli Mutlak Hata (REA)

%38.15

Greceli Karesel Hata (RRSE)

%62.09

Toplam rnek Says

236

Tablo 4.13. YSA Snflandrma Sonular-II (YSA)


YSA
Keskinlik
%85.50

Duyarllk

F-lt

AUC

%89.80

%87.60

0.929

94

Tablo 4.14. Dzensizlik Matrisi Sonular (YSA)


YSA
a

Snflama

106

12

A=YES

10

100

B=NO

ekil 4.18 YSA iin ROC Erisi

Tablo 4.15. Dm 0 in Arlklar


Sigmoid Dm 0
Girdiler
Eik
Dm 2
Dm 3
Dm 4

Arlklar
-0.122
-2.806
6.522
2.976

95

Tablo 4.16. Dm 1 in Arlklar


Sigmoid Dm 1
Girdiler
Eik
Dm 2
Dm 3
Dm 4

Arlklar
0.122
2.806
-6.523
-2.976

Tablo 4.17. Dm 2 in Arlklar


Sigmoid Dm 2
Girdiler
Eik
Attrib YAS
Attrib PSA
Attrib RT
Attrib GY

Arlklar
-4.401
-7.481
-10.345
-1.256
1.671

Tablo 4.18. Dm 3 in Arlklar


Sigmoid Dm 3
Girdiler
Eik
Attrib YAS
Attrib PSA
Attrib RT
Attrib GY

Arlklar
9.148
-2.291
11.942
0.395
0.463

96

Tablo 4.19. Dm 4 in Arlklar


Sigmoid Dm 4
Girdiler
Eik
Attrib YAS
Attrib PSA
Attrib RT
Attrib GY

Arlklar
8.652
11.297
9.073
3.913
-0.643

ekil 4.19 Yapay Sinir A Modeli

97

ekil 4.20 Ya in Yanl Snflandrmalarn Gsterimi (YSA)

ekil 4.21 PSA in Yanl Snflandrmalarn Gsterimi (YSA)

98

ekil 4.22 Rektal Tue in Yanl Snflandrmalarn Gsterimi (YSA)

ekil 4.23 Genetik Yatknlk in Yanl Snflandrmalarn Gsterimi (YSA)

99

4.5. YNTEMLERN KARILATIRILMASI


LRA, C&RT ve YSA yntemlerini karlatrabilmek iin aada genel tablo
oluturulmutur.
Tablo 4.20. Genel Karlatrma Tablosu

Yntem

Doru
Snflandrma
Oran (%)

Hatal
Snflandrma
Oran (%)

Kappa
statistii

F-lt
(%)

AUC

Lojistik

83.90

16.10

0.678

83.3

0.924

C&RT

81.78

18.2

0.636

81.5

0.828

YSA

87.29

12.71

0.746

87.6

0.929

100

5.

TARTIMA ve SONU

Veri madencilii snflandrma modellerinden Lojistik Regresyon Analizi,


Yapay Sinir Alar ve Snflandrma ve Regresyon Aalarnn Tokat Gaziosmanpaa
niversitesi Tp Fakltesi hastanesi veritabanndan ekilen roloji Poliklinii
hastalarna ait veri seti zerinde karlatrlmas yaplmtr. Bu veri seti oluturulurken
prostat kanseri kesin tans konmu hastalar yaklak be yllk bir veri yn iinden
szlmtr. Sonu olarak kullanabileceimiz 118 adet kesin tans prostat kanseri olan
hasta bulunmutur. Bu hastalara ait muayene notlar ierisinden prostat kanseri
tehisinde kullanlan ya, genetik yatknlk, rektal tue kontrol ve PSA deerleri tespit
edilmitir. Bu 118 adet hastaya ek olarak yine ayn veritabanndan muayene notlarnda
yukardaki parametrelere sahip 118 adet prostat kanseri tans olmayan hasta tespit
edilerek toplamda 236 adet hastaya ait bir veri seti elde edilmitir.
almada baml deiken prostat kanseri tans olarak alnm, bamsz
deikenler ise ya, genetik yatknlk, rektal tue kontrol ve PSA deeri olarak tesbit
edilmitir. LRA iin belirlenen bamsz deikenler YSA iin girdi olarak kabul
edilmi ve ok katmanl yapay sinir a modeli buna gre oluturulmutur. Yine ayn
ekilde baml deiken prostat kanseri zerine bamsz deikenler ile aa
oluturulmu ve C&RT analizi gerekletirilmitir. Sonularn regresyon aac
diyagram eklinde grntlenmesi snflandrmann anlalabilir ve yorumlanabilir
olmas bakmndan nemlidir. LRA da, bamsz deikenlerin ald deerler ile
snflayc ya da sralayc lek yapsnda olan birimlerin, baml deikene gre
snflandrlmas yaplabilmektedir. Ayrca LRA yardm ile bamsz deikenler ile
baml deiken arasndaki iliki risk ynnden incelenebilmektedir. Genel olarak
YSA ise beynin ilevini yerine getirme yntemini modellemek iin tasarlanan

101

matematiksel bir sistem yardm ile oluturulan model zerinden snflama ilemi
yapmaktadr. Karmak yaps nedeniyle YSAnn oluturulmas ve deerlendirilmesi
dier yntemlere gre daha zor olduu grlmtr.
Bu almada, modellerin oluturulmas iin cretsiz bir yazlm olan ve veri
madencilii algoritmalar zerinde geni bir yelpazede analiz ans sunan WEKA
program tercih edilmitir.
Tanmlayc istatistikler Tablo 4.3. Prostat Kanseri Tans Durumuna Gre
Srekli Deikenlerin (Ya ve PSA) Dalmna gre prostat kanserli grup ile olmayan
grup arasnda ya ortalamalar bakmndan anlaml bir fark olduu gzlemlenmektedir
(p<0.001).Ya arttka prostat kanserine yakalanma riski artmaktadr. Literatre gre ise
70 ya zerine kldnda en yksek hastalanma oran ile karlalmaktadr. Yine ayn
tabloda prostat kanserli grup ile olmayan grup arasnda PSA dzeyi bakmndan anlaml
bir fark bulunmutur (p<0.001). PSA dzeyi arttka prostat kanseri vakalar daha fazla
grlmektedir.
Tanmlayc istatistikler Tablo 4.4. Prostat Kanseri Tans Durumuna Gre
Kategorik Deikenlerin (Rektal Tue ve Genetik Yatknlk) Dalmna gre
hastalarn prostat kanseri durumu ile rektal tue durumlar arasnda anlaml bir iliki
gzlemlenmektedir (p<0.001). Rektal tue kontrol pozitif olan hastalarda prostat
kanseri olma yzdesi olmayanlara gre daha fazladr. Yine ayn tabloya gre genetik
yatknlk ile prostat kanseri arasnda istatistiksel adan anlaml bir iliki
bulunamamtr.
Prostat kanseri tehisi konulan hastalar iin genetik yatknlk oranna
bakldnda %11'lik bir oran vardr. Literatr almasnda bu orann genellikle %1 ile

102

%5 orannda deitii grlmektedir. Bu adan alma yaplan hastalar iin ortaya


kan genetik yatknlk oran normallerin zerindedir.
Yntemlerin snflandrma baarlar asndan veri seti zerinde en iyi
snflandrmay Yapay Sinir Alar (YSA) gerekletirmitir.%87.29 doruluk ve 0.929
AUC ile Yapay Sinir Alar algoritmasna girilen kaytlar dier yntemlere gre daha
doru ekilde snflandrlmtr. kinci sray ise %83.90 doruluk ve 0.924 AUC ile
Lojistik Regresyon Analizi yntemi, nc sray ise %81.78 doruluk ve 0.828 AUC
ile C&RT Karar Aac algoritmas almtr.
Yine yntemlerin Kappa statistii ynnden karlatrlmasnda YSA 0,746 ile
ilk srada, LRA 0.678 ile ikinci ve C&RT 0.636 ile nc sradadr.
Literatre baktmzda ise yaptmz alma sonucu ile paralellik grmekteyiz.
Karlatrdmz yntemler ile yaplan birok almada gvenirlii ile YSA n plana
kmtr.
Bartfay ve arkadalar [69] YSA ve LRA kullanarak yaptklar almada doru
snflandrma oranlarn karlatrmay amalamlar be farkl lojistik regresyon ve
fakl YSA modeli arasnda doru snflandrma oranlar en iyi olan LRA ve YSA
modellerini almlar ve LRA iin doru snflandrma orann %65, YSA iin doru
snflandrma orann ise %67 olarak hesaplamlardr.
Karakn[7] yapt almada, meme kanseri hastalarnn koltuk alt lenf nod
durumlarn belirleyen SLNB ve AD ameliyatlar olmakszn, her hastanede kolaylkla
elde edilebilir olan klinik ve patolojik verilerinin girildii YSA nn, hastalarn koltuk
alt lenf nod durumunu belirlemesi amalanmtr. alma iin Ankara Numune Eitim
ve Aratrma Hastanesi ve Ankara Onkoloji Eitim ve Aratrma Hastanesine bavuran

103

ve meme kanseri 270 kiinin verileri kullanlmtr. Lojistik regresyon ve seilen YSA
modelleri kyaslandnda YSA deerleri daha baarl olduu grlmtr.
Ocakolunun[6] yapt almada, lojistik regresyon analizi ve yapay sinir
alarnn snflama etkinliklerini karlatrmay amalamaktadr. Lojistik regresyon
analizi ve yapay sinir alar yntemleri, bireylerin snflandrma oranlarna gre
karlatrlmtr. Buna gre YSA modelleri ile snflandrmann LRA kullanlarak
yaplan snflandrmadan daha iyi sonular verme eiliminde olduu ayrca yine ar
eitme, mimarinin hatal oluturulmas vb. problemleri olmayan YSA modellerinin daha
iyi ngr performans salayabildii grlmtr.
Kullanlabilecek istatistik analizleri karlatrldmzda farkl ltlere gre
farkl analizlerin baarl olduu grlmtr.
Doru snflama oranlarna gre en iyi modelin Yapay Sinir Alar sonra
Lojistik Regresyon Analizi ve en son olarak C&RT bulunmutur. Buradaki
almamzda kanser vakalarnn deerlendirilmesi yaplrken bir model yerine birden
fazla model kullanlmasnn belki bir zm olabilecei bulunmutur. nk aklanma
yzdelerine bakldnda farkl veri setlerinde farkl sonular

bulunabilecei

dnlmektir. almamz iin seicilik bakmndan her ne kadar Yapay Sinir Aalar
ile elde edilen sonularn daha iyi olduu elde edilmi olsa bile daha fazla bilgi
toplayarak yeni bir karar alma yoluna gidebilir.

104

KAYNAKLAR
1.

Akpnar H., Veri Tabanlarnda Bilgi Kefi ve Veri Madencilii, .. letme

Fakltesi Dergisi 2000, 29: 1-22


2.

Kktrk F., Ankaral H., Smblolu V., Veri Madencilii Yntemlerine Genel

Bak, Trkiye Klinikleri J Biostat 2009, 1(1): 20-5


3.

Tre M., mrl K.. Snflandrma Yntemlerinin Performanslarnn

Karlatrlmasna likin Simlasyon almas, (2009).


4.

Gneri N., Apaydn A., renci Baarlarnn Snflandrlmasnda Lojistik

Regresyon Analizi ve Sinir Alar Yaklam, Ankara (2008).


5.

Kurt ., Tre M., Tp rencilerinde Alkol Kullanmn Etkileyen Faktrlerin

Belirlenmesinde

Yapay

Sinir

Alar

ile

Lojistik

Regresyon

Analizinin

Karlatrlmas, Trakya niversitesi Tp Fak Dergisi 2005, 22(3):142-153.


6.

Ocakolu G., Lojistik Regresyon Analizi ve yapay Sinir Alar Yntemlerinin

Snflama zelliklerini Karlatrlmas ve Bir Uygulama, Yksek Lisans Tezi,


Uluda niversitesi, Bursa (2006).
7.

Karak R., Yapay Sinir Alar ve Lojistik Regresyon Yntemleri ile Meme

Kanseri Koltuk Alt Lenf Durumunun Belirlenmesi, Yksek Lisans Tezi, Gazi
niversitesi, Ankara (2009).
8.

Kran Z., Lojistik regresyon ve C&RT Analizi Yntemleriyle Sosyal Gvenlik

Kurumu la Provizyon Sistemi zerinde Bir Uygulama, Yksek Lisans Tezi, Gazi
niversitesi (2010).
9.

Wu X., Kumar V., QuinlANN J., Ghosh J., Yang Q., Top 10 Algorithms In

Data Mining. Knowledge of Information Systems 2008, 14: 1-37.

105

10.

Sabzevari H., Soleymani M., Noorbakhsh E., A Comparison Between

Statistical and Data Mining Methods for Credit Scoring in Case of Limited Available
Data, Eleventh ANNual APRIA Conference 2007.
11.

Zurada J., Lonial S., Comparison Of The Performance Of Several Data Mining

Methods For Bad Debt Recovery In The Healthcare Industry, The Journal of Applied
Business Research 2005, 21: 37-53.
12.

Kaya E., Bulun, M., Arslan, A., Tpta Veri Ambarlar Oluturma ve Veri

Madencilii Uygulamalar, Akademik biliim 2003, ukurova niversitesi, Adana,


(2003)
13.

Berry M., Linoff G., Data Mining Techniques for Marketing Sales and

Customer Support, John Wiley & Sons, 1997 2-12.


14.

Giudici P., Applied Data Mining: Statistical Methods for Business and Industry

1st ed., John Wiley & Sons, England, 1-15, 85-110 (2003).
15.

Holsheimer M., Siebes A., Data mining: The search for knowledge in

databases., Technical Report , CWI, Netherlands, 12 (1994).


16.

Jacobs P., Data Mining: What general managers need to know, Harvard

Management Update, 4 (10): 8-9 (1999).


17.

Fayyad, U., Piatetsky-Shapiro G., Smyth P., From Data Mining to Knowledge

Discovery in Databases, American Association for Artificial Intelligence, 3(17): 37-54


(1996).
18.

Hand, J., Data mining: statistics and more ?, The American Statistician, 52:

112-118 (1998).

106

19.

Altnta, Y., Veri Madenciliinin Tpta Kullanm Ve Bir Uygulama :

Hemodiyaliz Hastalar in Risk Seviyelerine Gre Risk Faktrlerinin Etkileimlerinin


ncelemesi, Yksek Lisans Tezi, Gazi niversitesi 2010.
20.

Han J., Kamber M., Data Mining Concepts and Techniques 2nd Ed., Editor :

Jim Grey, The Morgan KaufmANN Series in Data Management Systems, Morgan
KaufmANN 2,8,12,14,15,29,30,398-403, (2006)
21.

etinyoku, T., Veri Kplerinin Btnleik Kullanmna Ynelik Yeni Bir

OLAP Mimarisi, Yksek Lisans Tezi, Gazi niversitesi 2008.


22.

KDnuggets, In what industries/sectors were your data mining clients in 2007-

2008?, 2008.
23.

Kantardzic M., "Chapter 9: Artificial Neural Networks Chapter 1-1.4",

DataMining Concepts, Models, Methods and Algorithms, John Wiley & Sons,(2003)
24.

Hastie T., Tibshirani R., Friedman J., The Elements of StatisticalLearning;

Data Mining, Inference and Prediction, Springer Series in Statistics, New York, USA,
533 (2001).
25.

Maimon R., Data Mining & Knowledge Discovery Handbook ,Springer, 334

(2005).
26.

Bigus J.P., Data Mining With Neural Networks: Solving BusinessProblems

from Application Development to Decision Support,McGrawHill, (1996).


27.

Silahtarolu, G., Kavram ve Algoritmalaryla Temel Veri Madencilii,

Papatya Yaynclk Eitim, stanbul, 33, 45-47, 58 (2008).


28.

Aydoan, F., E-Ticarette Veri Madencilii Yaklamlaryla Mteriye Hizmet

Sunan Akll Modllerin Tasarm ve Gerekletirimi, Hacettepe niversitesi, Ankara,


(2003)

107

29.

Berry, M. J., Linoff, G. S., Data Mining Techniques: For Marketing, Sales, and

Customer Relationship Management 2nd ed., Wiley, USA, (2004).


30.

Pehlivan, G., Chaid Analizi ve Bir Uygulama, Yldz Teknik niversitesi,

stanbul, (2006).
31.

Thomas, Lyn. C., A Survey of Credit and Behavioral Scoring: Forecasting

Financial Risk of Lending to Consumer, International Journal of Forecasting, 16 (2):


149172 (2000).
32.

Temel, G. O., amdeviren, H., Akku, Z., Snflama Aalar Yardmyla

Restless Legs Syndrome (RLS) Hastalarna Tan Koyma, nn niversitesi Tp


Fakltesi Dergisi, 12 (2): 111-117 (2005).
33.

Argden, Y., Erahin, B., Veri Madencilii : Veriden Bilgiye, Masraftan

Deere, ARGE Danmanlk, 48-63, (2008)


34.

Vahaplar, A., Bir Corafi Veri Madencilii Uygulamas, Yksek Lisans Tezi,

Ege niversitesi, zmir, (2003)


35.

Masseglia, F., Poncelet, P., Teisseire, M., Using Data Mining Techniques on

Web Access Logs to Dynamically Improve Hypertext Structure, ACM Sigweb


Newsletter, 8 (3): 1-19 (1999).
36.

Teng, J., Lin, K., Ho, B., Application of Classification Tree and Logistic

Regression for The Management and Health ntervention Plans in ACommunity-Based


Study, Journal of Evaluation in Clinical Practice, 13 : 741-748 (2007)
37.

Deconinck, E., Hancock, T., Coomans, D., Massart, D.L., Heyden, Y.V.,

Classification of drugs in absorption classes using the classification and regression


trees (C&RT) methodology, Journal of Pharmaceutical and Biomedical Analysis, 39 :
91103 (2005).

108

38.

Teng, J., Lin, K., Ho, B., Application of Classification Tree and Logistic

Regression for The Management and Health ntervention Plans in A Community-Based


Study, Journal of Evaluation in Clinical Practice, 13 : 741-748 (2007)
39.

King R. D., Feng, C., Sutherland, A., StatLog: Comparison of Classification

Algorithms on Large Real-World Problems; Applied Artificial Intelligence, Vol 9,


Issue 3 , 289-333 (1995)
40.

Ediz B., Lojistik Regresyon-Ayrma Analizi, Ayrmsama Sorunu ve Kalp

Hastalarnda Lojistik Model Yardmyla Risk ltlerinin Belirlenmesi, Uluda


niversitesi, Bursa (1997).
41.

Tatldil H., Uygulamal ok Deikenli statistiksel Analiz, Engin Yaynlar,

Ankara, 11, 122, 252260 (1992).


42.

Hosmer, D. W., Lemeshow, S., Applied Logistic Regression, John Wiley &

Sons, New York, 5-50 (1989).


43.

Freeman, D.H., Logistic Regression, Applied Categorical Data Analysis,

Marcel Dekker Inc., New York, 238 (1987).


44.

ahin, .., Yapay Sinir Alar Yardm ile Dinamik Bir Senaryo Analizi,

T, stanbul, (2001).
45.

Efe, M.., Kaynak O., Yapay Sinir Aglar ve Uygulamalar, Yksek Lisans

Tezi, stanbul Boazii niversitesi, s.1, (2000).


46.

Tosun S.,

Snflandrmada Yapay Sinir

Alar Ve

Karar

Aalar

Karlatrmas: renci Baarlar zerine Bir Uygulama, T, (2007).


47.

Fausett L.V., Fundamentals Of Neural Networks, Printice-Hall Inc., New

Jersey,s. 40-45, (1994).


48.

ztemel E., Yapay Sinir Alar, Papatya Yaynclk, stanbul, s.32-33, (2003).

109

49.

Sarolu ., Bedok E., Erler M., Mhendislikte Yapay Zeka Uygulamalar I:

Yapay Sinir Alar, Ufuk Kitap, Kayseri, (2003).


50.

Seven A., Yapay Sinir Alar ile Doku Snflandrma, .T., stanbul, (1993).

51.

Judith E. D., NeuralNetwork Architectures An Introduction, Van Nostrand

Reinhold, NewYork, s. 1-6, (1990).


52.

Ta, E., Yapay sinir alarnda momentumlu dik ini ve elenik gradyan eitim

algoritmalarnn karlatrlmas, Yksek Lisans Tezi, Anadolu niversitesi Fen


Bilimleri Enstits, Eskiehir, 5-61 (2005).
53.

Haykin, S., Neural networks: a comprehensive foundation, Prentice Hall,

USA, 150, 117-156,156-256 (1999).


54.

Elder, J.F., Abbot, D. W., A Comparison of Leading Data Mining Tools;

Fourth International Conference on Knowledge Discovery& Data Mining, New York,


(1998).
55.

Elmas ., Yapay Sinir Alar, Sekin Yaynclk, Ankara, s.31-32, (2003).

56.

ztemel E., Yapay Sinir Alar, Papatya Yaynclk, stanbul, s.49, (2003).

57.

Efe, M.., Kaynak O., Yapay Sinir Aglar ve Uygulamalar, stanbul Boazii

niversitesi, s.7, (2000).


58.

Bishop C.M., Neural Networks For Pattern Recognition, Clarendon Press,

Oxford, (1995).
59.

Wang S., An Adaptive Approach To Market Development Forecasting, Neural

Computing & Applications 8, s.3-8, (1999).


60.

Binici E., Java ile yapay zeka mekanizmasna sahip bir a ynetim sistemi

gelitirilmesi, Yksek Lisans Tezi, Ege niversitesi, zmir, 28-48 (2006).

110

61.

Wigle D.T., Turner M.C., Gomes J., Role of hormonal and other factors in

human prostate cancer. J Toxicol Environ Health B Crit Rev 11 (3-4): 242-59, (Mart
2008).
62.

"Cancer Facts & Figures 2008", American Cancer Society, (2008).

63.

Huggins C., Steven R.E., Hodges C.V., Studies on prostatic cancer. Arch. Sug.

43:209-223, (1941).
64.

Frank E., Hall M., Holmes G., Kirkby R., Pfahringer B., Witten, I.H., WEKA:

A Machine Learning Workbench for Data Mining, University of Waikato, New


Zealand, 7-10 (2004).
65.

Witten I.H., Frank E., Data Mining: Practical Machine Learning Tools and

Techniques 2nd ed., Morgan Kaufmann, USA, 365-415 (2005).


66.

Dawson Saunders B, Trapp Robert G., Basic& Clinical Biostatistics, London,

s:32-33, 116, (1994).


67.

Hosmer D.W., Lemeshow S., Applied logistic regression. 2nd ed. New York:

John Wiley & Sons; (2000).


68.

Dirican A. Evaluation of the diagnostic tests performance and their

comparisons. Cerrahpasa J Med ;32:25-30 , (2001).


69.

Bartfay et al., Comparing the predictive value of neural network models to

logistic regression models on the risk of death for small-cell lung cancer patients,
European Journal of Cancer Care 15 , s:115124, (2006).

111

EKLER
Ek 1. Tokat Gaziosmanpaa niversitesi Tp Fakltesi Hastanesi roloji Polikliniine
01.01.2005 - 31.05.2011 tarihleri arasnda bavuran 236 hastaya ait veri seti. (Ekteki
veri setinin MS Excel .cvs formatdr)
age,PSA,rt,gy,pk
70,7.62,NO,NO,YES

68,33.27,NO,NO,YES 73,6.65,YES,NO,YES 62,115.6,YES,NO,YES

59,0.037,NO,NO,YES 72,151,YES,NO,YES

66,43.57,YES,NO,YES 58,3.29,YES,NO,YES

82,151,YES,YES,YES 73,4.3,YES,NO,YES

63,4.53,YES,NO,YES 69,12.47,NO,NO,YES

80,14.5,YES,NO,YES 57,10.27,YES,YES,YES73,43.02,YES,YES,YES74,3.88,NO,NO,YES
68,6.29,NO,NO,YES

66,7.44,YES,YES,YES 77,100,YES,NO,YES

61,49.16,NO,NO,YES 73,6.74,NO,NO,YES

68,12.85,YES,NO,YES

70,10.84,YES,NO,YES 67,1.92,NO,NO,YES

77,16.89,YES,YES,YES59,3.94,YES,NO,YES 80,9.78,YES,NO,YES 73,8.22,YES,NO,YES


60,4.73,YES,NO,YES 72,1.53,YES,NO,YES 78,13.37,YES,NO,YES 66,100,YES,NO,YES
68,74.1,YES,NO,YES 80,26.62,YES,NO,YES 57,37.35,YES,NO,YES 78,100,YES,NO,YES
75,1.53,NO,NO,YES

77,1.4,NO,NO,YES

71,47.39,YES,NO,YES 75,20.66,YES,NO,YES

55,45.87,YES,NO,YES 64,1.41,YES,NO,YES 74,23.2,NO,NO,YES

60,9.81,NO,NO,YES

48,32.07,YES,YES,YES63,11.31,YES,NO,YES 50,16.31,NO,NO,YES 71,4.5,YES,NO,YES


62,17.87,YES,NO,YES 63,11.65,YES,NO,YES 80,8.8,YES,YES,YES 70,9.09,YES,NO,YES
76,54.99,YES,NO,YES 60,0.587,YES,NO,YES 77,5.12,NO,NO,YES
57,3.3,YES,NO,YES

73,85.53,YES,NO,YES

70,0.91,YES,NO,YES 72,13.48,YES,NO,YES 73,24.98,YES,NO,YES

79,88.14,NO,NO,YES 55,3.21,YES,NO,YES 60,0.789,NO,NO,YES 66,15.7,YES,NO,YES


70,151,YES,NO,YES

79,3.32,YES,NO,YES 67,8.73,NO,NO,YES

78,3.95,YES,NO,YES 65,8.31,NO,NO,YES

67,77.29,YES,NO,YES

72,1.39,YES,NO,YES 76,0.375,YES,NO,YES

64,1.73,YES,NO,YES 75,54.99,YES,NO,YES 64,100,YES,NO,YES

65,6.59,YES,NO,YES

75,26.79,YES,YES,YES74,7.69,YES,NO,YES 75,68.18,NO,NO,YES 75,9.59,YES,YES,YES


76,48.13,YES,NO,YES 77,31.21,YES,NO,YES 78,3.9,YES,NO,YES

72,29.91,YES,NO,YES

78,10.43,YES,NO,YES 75,0.44,YES,NO,YES 75,35.9,YES,NO,YES 72,151,YES,NO,YES


68,6.41,YES,NO,YES 70,3.8,YES,NO,YES

62,10.29,YES,YES,YES85,13.48,YES,YES,YES

57,5.31,NO,NO,YES

60,1.48,NO,NO,NO

63,4.5,NO,NO,NO

66,0.636,NO,NO,NO

112

74,24.48,YES,NO,YES 75,2.57,YES,NO,NO

62,0.621,NO,NO,NO

49,0.869,NO,NO,NO

71,0.36,YES,NO,YES 65,0.896,NO,NO,NO

55,2.67,NO,NO,NO

65,0.55,NO,NO,NO

75,99.63,YES,YES,YES57,1.14,NO,NO,NO

70,4.73,NO,NO,NO

54,6.32,NO,NO,NO

64,7.79,NO,NO,YES

62,0.81,NO,NO,NO

65,0.397,YES,NO,NO 63,8.26,NO,NO,NO

67,5.7,NO,NO,YES

66,16.43,NO,NO,NO

68,6.98,NO,NO,NO

59,9.19,NO,NO,NO

70,28.81,YES,NO,YES 64,2.73,NO,NO,NO

66,6.66,NO,NO,NO

55,3.5,NO,NO,NO

66,14.69,YES,NO,YES 62,2.1,NO,NO,NO

76,3.76,YES,NO,NO

57,2.96,NO,NO,NO

67,22.04,NO,NO,YES 63,8.24,NO,NO,NO

48,8.63,NO,NO,NO

52,1,NO,NO,NO

72,4.39,NO,NO,YES

62,1.99,NO,NO,NO

58,1.82,NO,NO,NO

67,54.11,YES,NO,YES 67,2.35,NO,NO,NO

55,2.04,NO,NO,NO

59,1.49,NO,NO,NO

80,14.79,YES,NO,YES 48,0.515,NO,NO,NO

63,1.06,NO,NO,NO

72,6.54,NO,NO,NO

68,29.31,NO,NO,YES 73,3.47,NO,NO,NO

57,0.91,NO,NO,NO

59,3.04,YES,NO,NO

77,81.4,YES,NO,YES 65,3.02,YES,NO,NO

69,5.76,NO,NO,NO

68,100,YES,NO,YES

61,0.575,NO,NO,NO

58,0.482,NO,NO,NO

67,5.05,NO,NO,NO

62,13.93,YES,NO,YES 67,2.58,YES,NO,NO

68,3.06,NO,NO,NO

53,2.36,YES,NO,NO

43,0.671,NO,NO,NO

53,3.04,NO,NO,NO

56,3.53,NO,NO,NO

68,3.05,NO,NO,NO

54,5.3,NO,NO,NO

66,5.73,NO,NO,NO

67,3.8,NO,NO,NO

72,3.8,YES,YES,NO

58,0.99,NO,NO,NO

62,3.91,NO,YES,NO

59,6.62,YES,NO,NO

57,4.8,NO,NO,NO

56,6.33,NO,NO,NO

63,3.97,YES,NO,NO

70,1.38,YES,YES,NO 58,0.576,NO,NO,NO

65,9.48,NO,NO,NO

58,1.58,NO,NO,NO

58,1.5,NO,NO,NO

60,7.83,NO,NO,NO

64,7.38,NO,NO,NO

70,1.68,NO,NO,NO

56,1.93,YES,NO,NO

70,1.26,NO,NO,NO

60,18.3,NO,NO,NO

57,2.8,NO,NO,NO

51,2.84,NO,NO,NO

60,2.47,NO,NO,NO

58,6.84,NO,NO,NO

70,2.04,NO,YES,NO

65,4.26,NO,NO,NO

68,3.38,NO,NO,NO

60,1.64,NO,NO,NO

65,3.29,NO,NO,NO

76,4.32,NO,NO,NO

67,3.3,NO,NO,NO

66,3.29,NO,NO,NO

69,6.23,YES,NO,NO

You might also like