Doktora Sunum

YILDIZ TEKNK NVERSTES FEN BLMLER ENSTTS
Yeni Makine renmesi Metotlar ve la Tasarmnda Uygulamalar

M. Fatih Amasyal
Tez Yrtcs: Prof. Dr. Oya KALIPSIZ kinci Danman: Prof. Dr. Okan ERSOY
stanbul,2008
Sunum Plan
Makine renmesi Nedir? la nedir? Nasl tasarlanr? Snflandrma Snflandrma Komiteleri Kmeleme Kmeleme Komiteleri zellik Seimi Regresyon Regresyon Komiteleri Meta-Regresyon
Doktora tez almas olarak bu konunun seilmesinin sebepleri

Trkiyenin gelecek vizyonunda bilgisayar destekli ila tasarm konusunun yer almas ve almann bu konudaki aratrmaclara fayda salayacak olmas Makine renmesi metotlarnn elde ettikleri birok baar olmasna ramen QSAR ve QSPR gibi genelde zor modellenebilen veri tabanlar iin almalarn hala youn bir ekilde devam ediyor olmas Gelitirilen metotlarn sadece ila tasarm uygulamalar iin deil her trl snflandrma, kmeleme ve regresyon problemlerine uygulanabilecek yapda olmas
Makine renmesi
Makine renmesi metotlar gemiteki verileri kullanarak veriye en uygun modeli bulmaya alrlar. Yeni gelen verileri de bu modele gre analiz ederler ve sonu retirler.
Makine renmesinin lgilendii Problemler

Snflandrma Kmeleme Eri Uydurma (Regresyon) zellik seimi/karm
Makineler, insanln igcne saladklar katky, makine renmesi metotlar sayesinde insanln beyin gcne de salamaya balamlardr.
la Nedir?
WHO (Dnya Salk rgt) nun Tanm: Patolojik Olgular Ve Fizyolojik Sistemleri Bireyin Yarar Iin Deitirmek Ya Da ncelemek Amacyla Kullanlmas ngrlen rn
lalar Nasl alr?
lalarn etki mekanizmalarna bir rnek
lalardan Beklenen zellikler

Proteine ok sk ya da ok gevek balanmama Vcutta yan etkileri olmama Vcutta hedefin haricindeki blgelere gitmeme Kan dolamna girebilme Hastala iyi ynde etki edebilme
la gelitirme aamalar
4000-10000 Sentezi yaplan molekl in vitro / in vivo farmakolojik tarama testleri leri farmakolojik aktivite ve toksisite testleri 9-10 Molekl Klinik ncesi testler 1 Molekl Faz III testleri 1.5 Molekl Faz I / II testleri 4 Molekl
la olarak piyasaya srlr
Yaklak 800 milyon $

10-12 yl
la tasarmnda makine renmesi metotlarnn kullanm

Makine renmesi Metotlar
4000-10000 Sentezi yaplan molekl in vitro / in vivo farmakolojik tarama testleri leri farmakolojik aktivite ve toksisite testleri 9-10 Molekl Klinik ncesi testler 1 Molekl Faz III testleri 1.5 Molekl Faz I / II testleri 4 Molekl
la olarak piyasaya srlr
Molekllerin SDF formatlarndan hesaplanan zellikleri 3 grupta toplanmaktadr.
Molekllerden Saylara-1
Genel zellikler: Molekl Arl, Erime noktas, Kaynama noktas 2D zellikler: Molekl oluturan atomlarn birbirlerine ballklar, ba trleri, belirli fonksiyonel gruplarn moleklde bulunma saylar, halka saylar 3D zellikler: Yzey zellikleri
Molekllerden Saylara-2
MOE Adriana vs.
Molekl NH3 H2O NCI
zellik1 23
zellik2 5
zellikN
Snf 1
34
6.7
45
8.9
C4 H
67
Snflandrma
Karar Aalar Cline Algoritma Ailesi Deneysel Sonular
Karar Aalar
Cline Algoritma Ailesi

CL2 CL4
CLPCA
CLM
CLLDA
CLLVQ CLMIX, her blgede en iyi sonucu verecek metodu bulup kullanr. CLLDA
CLMIX
?
CLLDA CLM CLLVQ
CLM CLLVQ CLLDA
CLM CLLVQ
Cline Snflandrma Trleri

Yaprak = yapraklardaki snf etiketlerinin kullanlmas Dal = her bir dmdeki snf olaslklarnn kullanlmas
Test rnei aa zerinde ilerlerken getii her bir dmdeki bu olaslklar da toplayarak ilerler ve olasl yksek olan snfa atanr.
Veri Kmeleri
Veri Kmesi
Breast cancer Wisconsin Boston housing Congressional voting Bupa liver disorders StatLog heart disease
Kod
Bcw Bos Vot Bld Hea
zellik Says 9 12 16 6 7
Snf Says 2 3 2 2 2
rnek Says 683 506 435 345 270
Rasgele Baar (%) 64.71 33.33 61.36 57.14 55.56
Pima Indians diabetes

StatLog image StatLog vehicle silhouette
Pid
Seg Veh
7
19 18
2
7 4
532
2310 3772
66.67
14.29 25.88
Cline aalaryla elde edilen sonular

Metot Yaprak Dal Baar Oran Varyans 79.3 79.9 1.9 2.09 1.46
Baarlarna gre:
Dal>Yaprak Budanm>Budanmam CLMIX>dier Clinelar
Budanmam 79.5
Budanm
CL2 CL4 CLLDA
79.7
77.4 77.6 80.8
2.45
0.62 1.06 1.49
Varyanslarna gre:
Dal>Yaprak Budanm>Budanmam CLLVQ>dier Clinelar
CLLVQ
CLM CLMIX
80.0
79.9 82.1
0.37
0.79 1.73
%60 eitim, %40 test, optimum hata %21
CL2 %41
CLM %30
CLLDA %30
CLMIX %20
CLMIX daha baarl, nk:

Blgesel kararlar verebiliyor. Aacn tm karar dmlerinde ayn algoritmaya baml deil. Her Cline algoritmasn daha baarl olduu blgeye uyguluyor. Grltye daha dayankl.
Snflandrma Komiteleri
Karar Aalar
Karar Ormanlar
Toplu Sonular
CLM Forest CLLDA Forest CLLVQ Forest CLMIX CLMIX Forest ForestBS
Random Forest
Ormandaki aa says
10
20 30 100
81.29 0.87
82.34 0.74 82.27 0.4 82.82 0.27 81.84 0.91 82.52 0.51 81.90 0.75 82.46 0.79
82.89 1.26
82.53 1.35 82.39 1.74 82.52 1.43 81.46 0.88 83.70 0.26 82.49 1.38 82.67 1.33
81.37 1.15
82.18 0.52 82.34 0.43 82.85 0.25 81.75 0.93 82.62 0.37 82.12 1.01 82.25 0.63
82.65 1.23
83.03 1.21 83.56 1.41 83.76 0.83 82.38 0.71 84.12 0.79 82.85 0.96 83.65 1.26
81.93 1.77
83.16 1.6 83.64 1.35 84.64 1.03 82.13 1.29 84.56 0.9 83.22 1.78 83.47 1.62
82.80 1.13
83.95 1.06 84.09 1.05 84.23 1.03 84.01 1.05 83.52 1.06
Aalarn karar dmlerinde kullanlan zellik says

Test rneklerinin Snflandrlmasnda kullanlan yntem
log2M 2log2M Yaprak Dal
---
Toplu sonulardan elde edilen karmlar

En baarl algoritma bootstrapping kullanlm Cline ormanlardr. Ormandaki aa says arttka Cline ve Random ormanlarn baars artarken varyans da genelde azalyor. Ormanlarda kullanlan zellik says arttka Cline ormanlarnn baars artarken, varyans azalyor. Random ormanlarnn ise baars azalyor ve varyansnda nemli bir deiiklik yok. Bootstrapping Cline ormanlarnda baary arttryor. Cline ormanlarnda dal kullanm baary arttryor.
Veri Kmeleri
Algoritmalar CLMIX_forestBS_100_y_2log2M CLMIX_forestBS_100_d_2log2M CLMIX_forestBS_30_d_2log2M CLMIX_forestBS_30_y_2log2M Random Forest_100 _log2M
bcw
bos
vot
bld
hea
pid
seg
veh
Ort. Baar
Ort. std
* Says
? Says
* * * * *
* * * *
* * * * *
* * * * *
* * * * * * *
* * * * *
* * * * *
85.65 85.42 84.89 84.69 84.54
3.50 3.53 3.93 3.73 4.43
7 6 7 7 7
0 0 0 0 0
Random Forest_30_ log2M

QLO Random Forest_20_ log2M Random Forest_100_ 2log2M QL1 LMT
C4R C4T IM0 IB0 IM IC0 (CART) IB ST0 OCM OCU IC1 (CART) ST1 QU0 FTL FTU QU1 OCL CAL T1
*
* * * *
*
*
* * * *
*
* *
*
*
*
* * * * *
* * *
*
* * * * *
84.33
84.11 84.10 83.92 83.70 83.45
83.21 82.92 82.77 82.55 82.33 82.24 81.97
4.41
4.30 4.25
6
6 6 5 5 4
4 2 3 3 2 1 1 2 2 1 1 1 4 3 1 2 2 1 0
0
0 0 0 0 0
0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 2 1 5
* *
* *
* *
* * *
* * * * * * *
81.85 81.76 81.52 81.44 81.39 80.83 80.06 79.96 79.95 79.49 77.93
* * * *
* *
* *
* * *
* ? * ? ? ? ? ? *
* *
72.43
Bireysel sonulardan elde edilen karmlar

En baarl 4 Cline orman ve Random orman konfigrasyonlar, 22 karar aac ile karlatrlmtr. En baarl 4 algoritma Cline ailesindendir. Tek bir karar aac kullanmak yerine karar orman kullanmak daha baarl sonular retmektedir. Cline ormanlarnn varyanslar, Random ormanlardan daha azdr. Cline ormanlar 8 veri kmesinden 7sinde ilk standart sapma aralna girebilmitir. Bu da algoritmann eitli veri kmelerinde baarsn kantlamaktadr. Cline ormanlarnda dal kullanm varyans arttrmaktadr.
Eitim Zamanlar
Algoritmalarn eitimi iin gereken zaman arttka, performanslar da genelde artmaktadr. CLMIX orman, en fazla zaman gerektiren Cline algoritmasdr. CLMIX orman, en baarl algoritma olmasna ramen, en fazla eitim zamanna sahip algoritma deildir.
Aa Kararlarn Arlklandrma
Karar aalarnn verdikleri kararlara eit arlk vermek yerine aalarn eitli zelliklerine gre kararlar arlklandrlmtr: Dorulama-validation setindeki en baarl X tane aa kullanlarak: Eitim verisinden bir ksm dorulama verisi olarak ayrlm ve ormandaki her aacn bu dorulama setindeki baars llmtr. Ormann karar, en baarl X tanesinin kararnn ortalamasdr. Aataki karar dm saysyla doru/ters orantl olarak kararn arlklandrmak: Ormandaki her aacn karar dm says bulunmu ve aalarn kararlar normalize edilmi karar dm saysyla ya da tersiyle arplarak aalarn kararlar arlklandrlmtr.
la verilerindeki sonular
Algoritma RandomForest-10-8 RandomForest-20-8 RandomForest-30-8 RandomForest-100-8 RandomForest-10-16 RandomForest-20-16 RandomForest-30-16 RandomForest-100-16 CLMforest_100_yaprak_16 CLLVQ4_forest_100_yaprak_16
(arlkl yaprak says ile doru orantl )
bbp2 82,17 82,17 81,92 81,78 79,61 81,08 80,94 81,32 80 81,2 81,41 83,41
mono 91,95 93,1 93,79 93,29 92,37 93,42 93,65 93,86 93 93,35 93,23 93,81
Clean1 86,76 87,61 90,13 91,03 86,89 89,12 89,65 90,61 91 92,29 91,36 91,16
ca 68,42 71,92 70,37 71,97 69,46 70,87 71,08 71,77 73 72,12 71,2 73,76
mutag 87,76 88,82 88,82 90,82 90,39 90,49 90,82 90,45 89 90,5 88,25 89,25
232,00 56,89 57,32 58,18 59,87 57,85 58,57 59,65 59,36 58 59,25 56,09 60,47
Ort 78,99 80,16 80,54 81,46 79,43 80,59 80,97 81,23 80,66 81,45 80,26 81,98
CLLVQ_forest_100_yaprak_16
CLM_forest_100_yaprak_16
la verilerinden elde edilen karmlar

la verilerinde, en baarl algoritma yine Cline ailesindendir. Aa saysnn arttka Cline ve Random ormanlarda performans ykseliyor. Aalarda kullanlan zellik says arttka Cline ormanlarnda performans ykselirken Random ormanlarda pek deimiyor. CLLDA kt (nk ila verilerindeki zelliklerin birbiriyle yksek korelasyonu LDAdeki matris tersi alma ilemini rasgeleletiriyor). Bootstrapping kt (Sebebi bulunamad) Dal kt (Sebebi bulunamad) Budama kt (Sebebi bulunamad) Kararlarn yaprak saysyla doru orantl olarak arlklandrlmas, hepsinin ortalamasnn alnmasndan daha iyi sonu veriyor (nk byk budanmam aalar daha baarl).
Veri koleksiyonlarna gre karlatrmalar

UCI verileri la verileri
Aa says
Aalarda kullanlan zellik says En baarl algoritma
Arttka baar da artyor.

Arttka baar da artyor. CLMIX orman CLM orman
Bootstrapping
Dal Budama Karar Arlklandrma
Daha baarl
Daha baarl Daha baarl Denenmedi
Daha baarsz
Daha baarsz Daha baarsz Daha baarl
ClineToolbox
Kmeleme
Clusline Algoritmalar Deneysel Sonular
ClusLine
Karar aac yapsndadr (verileri hiper dzlemlerle alt uzaylara bler). Blme ilemi bittiinde her alt uzaydaki rneklerin merkezlerini kme merkezleri olarak belirler. Bir rnein ait olduu kmeyi belirlerken, oluan aac kullanmaz, rnee en yakn kme merkezinin kmesine atar.
ClusLine
1. adm
2.adm
Oluan kmeler
Oluan aa
Durma koulu: Veri kmesindeki tm rneklerin tm zelliklerinin varyanslarnn toplam, her bir dmdeki rneklerin tm zelliklerinin varyanslarnn toplamnn X katndan kkse blmeyi durdur. Kme says: Algoritma kendisi bulur. Tek parametre: X>1 olmal.
Clusline Versiyonlar
CLus2 CLus4
CLusW
14 veri kmesinden elde edilmi 37 kmeleme problemindeki performanslar

100 90 80 70 60 50 40 30 20 10 0 1 4 7 10 13 16 19 22 25 28 31 34 37 ClusLine2 ClusLine4 ClusLineW Farthest First Kmeans SOM
Snflandrma baarlar kriterine gre kmeleme alg. karlatrlmalar

ClusLine2 ClusLine4 ClusLineW Farthest First KMeans SOM
Ort. Snflandrma Baarlar (%) Ort. ranklar
73,4
72,7
73,3
61,5
75,1
74,2
3.595
3.297
3.622
5.216
2.622
2.649
Silet genilii ve DB indeksi kriterlerine gre kmeleme alg. karlatrlmalar

SOM
ClusLine2
ClusLine4
Farthest First ClusLineW
Kmeans
DB indeks, kme ii varyanslarn azln, kmeler aras uzaklklarn fazlaln ler. Siluet genilii, her bir rnein kendi kmesindeki dier rneklere uzaklnn azln, dier kmelerdeki rneklere uzaklnn fazlaln ler.
karmlar
Snflandrma baars ve ranka gre : K-means>SOM>dier Siluet Geniliine gre: Clusline2>Clusline4>dier Davies-Bouldin indeksine gre: SOM>Clusline2>dier Clusline basitliine ramen baarl sonular elde etmitir. Sadece SOM ve Clusline2, 3 kriterin 2sinde ilk 2ye girebilmilerdir. Siluet genilii ve DB indeks, tanmlarndaki benzerlie ramen olduka farkl sonular retmitir.
Kmeleme Komiteleri
Graf tabanl
rnek tabanl yaklam: Grafn keleri rnekler, kenar arlklar kenarn balad iki kedeki rneklerin ka kmeleme sonucunda ayn kme iinde yer aldklardr.
1
1 1
7 1 2 3 4 5 6 7
7 1 2 3 4 5 6 7
7 1 2 3 4 5 6 7
7 1 2 3 4 5 6 7
Kme tabanl yaklam: Grafn keleri kmeler, kenar arlklar kenarn balad iki kedeki kmenin birbirlerine Jaccard lmne gre benzerliidir ve Eitlik teki ekilde bulunur. Jaccard lm, ortak eleman saylarnn, birleim kmesinin eleman saysna oran olarak tanmlanmtr.
W (i, j ) Ci C j Ci C j
Birok kmeleyici sonucundan, kmeler aras benzerlik matrisi elde edilir.
Graf tabanl: Elde edilen matrisleri graf olarak dnp graf blmleme algoritmalarn kullanrlar. Hiyerarik:
Elde edilen matrislerden hiyerarik kmeleme yaparlar. Kmelerin benzerlikleri hesaplanrken en baarl sonucu centroid yaklam (kme merkezlerinin klid uzakl) vermektedir.
Karlatrlan yaklamlar
Graf Hiyerarik
rnek tabanl
Kme tabanl Meta Kme tabanl
Sonular
Kme says= Snf says En baarl kmeleme alg. Fuzzy Kmeans Kme says= says Kmeans Hiyerarik 2*Snf
En baarsz kmeleme alg. Hiyerarik
En baarl sonucu reten Hiyerarik (2log2M adet Hiyerarik (2log2M adet karar birletirme alg. zellik ve SOM ile) zellik ve Kmeans ile) Ortalama en baarl karar Graf tabanl (2log2M adet Graf tabanl (2log2M adet birletirme alg. zellik ile) zellik ile) Orijinal / birletirme orijinal<hiyerarik<graf sonularnn tabanl performans sralamas: Kmeleyicilerde kullanlan Log2M<2log2M alt uzaylardaki zellik saysnn (boyutun) etkisi hiyerarik<orijinal<graf tabanl Log2M<2log2M
Kmeleyici saysnn performansa ve standart sapmaya etkisi

0.77
Standart Deviations of Clustering Performances (%)
0.03
0.765
Clustering Performances (%)
0.025
0.76
0.755
0.02
0.75
0.015
0.745
0.01
0.74
0.735 0
25
50 75 100 Number of Combined Cluster Decisions
125
0.005 0
25
125
(zellik says 2log2M)

0.705
0.045
Standart Deviations of Clustering Performances (%)

25 50 75 100 Number of Combined Cluster Decisions 125
0.7 0.695 0.69 0.685 0.68 0.675 0.67 0.665 0
0.04 0.035 0.03 0.025 0.02 0.015 0.01 0.005 0
Clustering Performances (%)
25
125
(zellik says log2M)
1 *1 (0.7183) *2 (0.7374) *3 (0.7512) *4 (0.7572) *5 (0.7639)
0.9
0.8
performances
zellik saysnn performansa ve standart sapmaya etkisi
0.7
0.6
0.5
0.4
0.09
6 datasets
10
12
14
0.08
0.07
0.06
standart deviations
0.05 0.04
*1 (0.04) *2 (0.0393) *3 (0.0356) *4 (0.0269) *5 (0.0228)
0.03
0.02
0.01
6 datasets
10
12
14
karmlar
Kmeleyici saysnn art performans arttrrken standart sapmas azaltmtr. zellik saysnn art performans arttrrken standart sapmas azaltmtr. zellik says fazla iken kmeleyici says artarken performans daha hzl ykselirken, standart sapma daha hzl azalmaktadr.
zellik Seimi
zellik seimi karar aalaryla yaplabilir mi? Sorusuna cevap aranmtr. Gelitirilen metotla, 6 zellik seimi algoritmas 13 snflandrma veri kmesi zerinde karlatrlmtr. Her bir veri kmesinin nce 7 zellik seimi metoduyla boyutlar indirgenmi daha sonra 5 farkl snflandrma algoritmasnn bu veri kmeleri zerindeki performanslar (10 CV) llmtr.
1x2-0.33x1+0.13=0
x2
x1
SVMeval
Kullancnn istedii kadar zellik kalncaya kadar aadaki 2 adm tekrar et: 1.Snflandrma yapan hiper dzlemi SVMle bul. 2.Hiper dzlemin katsays mutlak deerce en kk olan zellii veri kmesinden sil.
Cline zellik Seim Orman

Cline karar aalarnda birok hiper dzlem bulunmaktadr. Cline karar ormanlarnda birok aa bulunmaktadr. Yeni metotla, hiper dzlem parametrelerinden zellik seimi yaplrken 2 adml bir ilem yaplr: 1. Her bir aataki hiper dzlem parametreleri kullanlarak kullancnn istedii adet zellik dndrlr. 2. Ormandaki tm ormanlardan gelen seilmi zelliklerden en fazla seilmi olanlardan kullancnn istedii adedi seilen zellikler olarak dndrlr. Her bir aatan zellik seimi iin iki metot gelitirilmitir: Aacn her dmnde bulunan hiper dzlemlerin parametrelerinin mutlak deerlerinin ortalamas alnarak zellikler, parametrelerin mutlak deerlerine gre bykten ke sralanp, en byk katsayya sahip olanlar seilir. Aacn kk dmnde bulunan hiper dzlemin parametrelerinin mutlak deeri bykten ke sralanp, en byk katsayya sahip olanlar seilir. (kullanlan)
Veri seti Amlall Ann
Snf says 2 3
rnek says 72 3772
zellik says
7129 21
Seilen zellik says

10 7
bi75ds3
derma gkanser Hava
9
6 2 2
315
286 456 281
470
34 30 34
11
10 8 11
Pima
Seg Wine Colon Mll Nerv Spam
2
7 3 2 3 2 2
388
210 118 62 57 60 4601
8
19 13 2000 12582 7129 57
3
6 6 10 11 10 11
zellik seimsiz
amlall ann bi75ds3 derma gkanser hava pima seg wine colon mll nerv spam ortalama 88 96,12 75,008 97,416 94,854 88,25 75,26 86,762 96,454 76,522 85,268 61,666 89,618 85,477
RAE 92,678 96,354 66,16 77,152 95,162 90,47 75,77 75,714 97,64 81,728 91,688 73,1 79,538 84,089
InfoGain 91,606 96,622 65,88 76,942 93,758 88,668 76,13 75,904 97,64 84,738 90,774 79,766 88,538 85,151
GainRatio 91,892 96,878 61,306 84,416 93,674 90,314 76,13 85,336 97,64 85,864 94,36 69,968 88,154 85,841
SUAE 91,608 96,634 65,628 75,056 93,892 89,678 76,13 75,524 97,64 83,88 90,254 73,168 89,826 84,532
OneRA 91,322 96,224 60,58 75,056 93,806 90,106 75,77 70,574 96,214 84,962 92,694 73,834 87,878 83,771
ChiKare 91,32 96,62 66,65 84,49 93,89 88,52 75,77 75,81 97,64 83,4 90,57 76,63 87,74 85,312
Karar ormanl zellik seimi

94,44 95,456 50,154 90,902 91,488 88,18 75,202 80,4736 93,896 84,19 90,872 76,996 86,856 84,55
Tablodaki her deer (son satr hari), 5 algoritma *10 CV=50 denemenin sonucudur.
karmlar
zellik seimi metotlar arasnda ok byk performans farkllklar yok. Ayrca zellik seimi 13 veri kmesinden 4nde baary azaltmtr. zellik seimi metotlar arasnda en baarls GainRatiodur ve zellik seimi yaplmadnda elde edilen ortalama baardan daha yksek baar elde eden tek metottur. Yeni gelitirilen metot sadece tek bir veri kmesinde baarl sonular vermitir ve gelitirilmeye ihtiyac vardr.
Regresyon
Algoritma.Kmeans Regresyon. Eitim: 1. Merkezleri rasgele ata. 2. Karesel hata bir eik deerinin altna ininceye kadar ya da maksimum tekrar saysna eriilene kadar 3. ,4. ve 5. admlar tekrar et. 3. rnekleri giri verilerine gre en yakn olduklar merkezlere ata. 4. Merkezleri kendi kmelerine dhil edilen rneklerin ortalamasna ek. 5. Merkezlere model olarak kendi kmelerindeki rneklerden geen lineer bir fonksiyon ata. Algoritma.Kmeans Regresyon. Test: Verilen rnee en yakn merkezi bul. Merkezdeki lineer modele gre rnein kn hesapla.
1.4 1.2 1 0.8 0.6 0.4 0.2 0 -0.2 -0.4 -1
KMreg (K=3) KNN (K=3) ANN-10
-0.8
-0.6
-0.4
-0.2
0.2
0.4
0.6
0.8
0.8
0.6
KMreg (K=2) KNN (K=2) ANN-10
0.4
0.2
-0.2
-0.4
-0.6 -1
-0.8
-0.6
-0.4
-0.2
0.2
0.4
0.6
0.8
KMregin problemi
0.6
0.4
KMreg KNN ANN
0.2
-0.2
-0.4
-0.6
-0.8 -1
-0.8
-0.6
-0.4
-0.2
0.2
0.4
0.6
0.8
Veri kmesi KmregK=6 KmregK=5
dela
2,80975E-08 2,85886E-08
dele
2,0937E-06 2,09641E-06
hous
15,70591 22,195441
kine
0,034173263 0,034112788
Mach
3267,8441 2165,8216
stoc
0,97289557 1,0736404
tria
0,041796712 0,052990556
wisc
239554,94 185378,38
KmregK=4
KmregK=3 KmregK=2 KmregK=1 KNNregK=6 KNNregK=5
2,87865E-08
2,94481E-08 2,96207E-08 2,96619E-08 3,74256E-08 3,82845E-08
2,09466E-06
2,09165E-06 2,09933E-06 2,09967E-06 2,6645E-06 2,70896E-06
15,025692
14,890469 14,944982 24,621887 40,150662 41,553513
0,035063155
0,036746358 0,038265193 0,040840563 0,013775948 0,014174928
2443,1484
6554,6184 2875,1032 5837,9955 3125,9503 5381,1499
1,3176651
1,6576803 2,031674 5,5020201 0,54574836 0,511075
0,052144635
0,038095091 0,034350601 0,023974772 0,021212522 0,022504716
3227,2873
4854,8612 1555,5286 1106,7495 1206,0418 1224,2698
KNNregK=4
KNNregK=3 KNNregK=2 KNNregK=1 m5p Pacereg
3,96111E-08
4,28769E-08 4,63232E-08 9,17237E-08 2,70603E-08 2,95565E-08
2,79697E-06
2,95249E-06 3,26563E-06 5,63869E-06 2,03082E-06 2,09737E-06
38,478578
40,12841 42,696759 85,107358 13,23486225 22,99645004
0,014799449
0,01612356 0,018846903 0,06944866 0,025679694 0,040801386
4140,7121
4143,7017 4270,3208 24885,115 2952,07204 4054,10145
0,46739104
0,43751096 0,41081003 42,223311 0,87560543 5,47645357
0,021173693
0,020174057 0,020109115 0,024801686 0,016987577 0,022194877
1310,1997
1399,1165 1608,5325 1268,8018 1141,09851 1128,13189
Lineerreg
m5rules Svmreg m5' Smoti
2,95668E-08
2,74631E-08 3,02169E-08 5,3824E-08 4,00001E-08
2,09772E-06
2,04041E-06 2,10616E-06 2,26576E-05 2,6569E-06
23,02706265
14,82917319 24,44568242 12,8164 18,31215173
0,040807883
0,030351243 0,04184553 0,02499561 0,037922499
3942,48030
4305,76992 4148,24907 3059,72931 3289,33916
5,46846396
0,94821679 5,74585459 3,32150625 1,23059086
0,025619303
0,017594057 0,021896305 0,04068289 0,024034301
1111,65417
1187,22476 1104,71176 2643,37471 2061,74479
Sarlar birinciler , Yeiller ikinciler.
karmlar
Her bir zellik iin elde edilen sonularn birletirilmesinde, ortalama alma gibi basit bir mekanizma kullanlmasna ramen umut vaad eden sonular elde edilmitir. Karlatrld algoritmalar literatrde en baarl olarak gsterilen algoritmalardr. Gelitirilmeye ihtiyac var.
Regresyon Komiteleri
25 komite-algoritma ikilisinin 36 ila veri kmesi zerindeki performans sralama ortalamalar
BG Rep M5P PLS2 SLR KS Ort 13.44 ADD ATT RS Orj Ort
8.47 10.67 11.36
8.61 10.51
14.14 12.92 11.86 14.33 13.42 13.33 16.31 14.81 14.33 15.89 14.89 15.24 11.28 11.14 11.36 13.06 10.56 11.48 15.50 12.94 14.81 16.03 12.89 14.43 14.13 12.06 12.61 14.13 12.07
Komite-Alg. ikililerinin 36 veri kmesindeki
performanslarna gre hiyerarik kmelenmeleri

50 ATT_SLR SLR RS_SLR BG_SLR ADD_M5P M5P ADD_SLR BG_M5P BG_PLS2 RS_PLS2 PLS2 ADD_PLS2 ATT_M5P ATT_PLS2 RS_M5P BG_Rep ADD_Rep Rep ATT_Rep RS_Rep BG_KS RS_KS ADD_KS KS ATT_KS 100 150 200 250 300 350
Algoritmalarn performanslar, komite metotlarna gre deil, komitelerdeki algoritmalara gre kmelenmi.
la veri kmelerinden elde edilen sonular

Soru Cevap
Orijinal algoritmalar yerine komiteleri kullanmak daha baarl sonular retir mi? Hangi komite daha baarl sonular retmektedir? Hangi algoritma komite ikilisi en iyi/kt sonular retmektedir? Hangi algoritmalar komitelerle daha iyi almaktadr? Hangi algoritmalar daha iyi almaktadr? Algoritmalarn birbirlerine benzerlikleri (performanslarna gre) nasldr?
Genelde hayr.
Sralama: ADD > Orj > ATT > BG =RS En iyi: ADD - Rep En kt: BG - PLS M5P ve PLS , 2 komitede (ADD, ATT) tek bana kullanldklarndan daha baarl sonular vermitir. Sralama: Rep > SLR > KS > M5P > PLS2 Temelde algoritmalar komite trlerine gre deil komitelerde kullanlan algoritmalara gre gruplanmtr. Bu nedenle performans komite trnn deil komitede kullanlan algoritmann belirledii sylenebilir.
Meta Regresyon
Her veri kmesinde en iyi performans veren bir algoritma yok. Performanslar veri kmesine baml. Bu durumda deneme yanlma metodu kanlmaz m?
Sorular
Bir algoritmann performansn tahmin etmek mmkn mdr? Veri kmesinin hangi zellikleri performans etkiliyor? Veri kmesinin hangi zelliklerine bakarak algoritmalarn performansn tahmin edebiliriz?
Meta veri kmesi

Meta zellik1 Veri kmesi1 Veri kmesi2 Veri kmesi3 Meta zellik2 Meta zellik3
...
Alg. performas
...
Veri kmesiN
Meta zellik Grubu STA
erdii meta zellik says 15
Aklama
Veri kmesinin ilk bata gze arpan istatistiki zellikleri (rnek says, zellik says vs.)
Veri kmesinin Kurtosis, skewnes, 3. ve 4. dereceden moment, korelasyon matrisleri gibi istatistiki zellikleri Yaplan kmeleme ilemleri sonucunda elde edilen zellikler (rneklerin kmelere dalmlar, kme saylar) retilen Karar aalarnn eitli zellikleri (yaprak says, dm says) eitli algoritmalarn yaptklar hatalarn RMSE deerleri Temel bileen analiziyle bulunan zellikler
ST2
220
CLUS
REGT
RMSE PCA Toplam
18
15 22 295
Friedman
60 50 50
100 40
150 30
200 20
250 10
300 50 100 150 200 250 300
Friedmanda yksek korelasyonlu zellikler

5
1707 CLUS
29
18
220
ST2
15
STA
22
PCA
1
colli
CLUS RMSE REGT 1 5 2
RMSE
REGT ST2
55
26
24
46
1 1346
6
2 3
31
54
42
STA
PCA
3
57
karmlar
PLS ailesi birbiriyle ilikilidir. Ancak PLSnin bileen says arttka iliki azalmaktadr. rnek says M5P, Reptree ve M5rules ile ters ilikili. Yani rnek says arttka algoritmalarn performans dm. Colinearity derecesi skewness, kurtosis, 3. ve 4. dereceden momentlerle ilikilidir. Bu iliki colinearity derecesi bilinmeyen veri kmelerinin colinearity tahmininde kullanlabilir.
Friedman koleksiyonunda algoritmalarn performanslarna gre kmelenmesi

25
20
rnek tabanl algoritmalar bir kmede toplanm

15
10
0 SMO SVM PLS1 PLS2 PLS3 PLS4 PLS5 LR GausP mt.Dag mt.ES mt.Vo ConR DecS LWL SLR mt.St ZeroR RBF IBK Kstar M5P mt.Bag M5R mt.AR mt.AS mt.RS mt.RD REPT
Lineer karakteristie sahip algoritmalar bir kmede toplanm
Karar aac algoritmalar ayn kmede toplanm
Friedman koleksiyonunda veri kmelerinin performanslarna gre kmelenmesi

0 2 4 6 8 10 12 14 fri_c4_100_100 fri_c3_100_25 fri_c2_100_25 fri_c4_100_50 fri_c3_100_50 fri_c2_100_50 fri_c1_100_50 fri_c0_100_50 fri_c0_100_25 fri_c0_500_5 fri_c0_1000_5 fri_c0_250_50 fri_c0_250_25 fri_c0_500_50 fri_c0_1000_50 fri_c0_500_25 fri_c0_1000_25 fri_c0_100_10 fri_c0_250_5 fri_c0_100_5 fri_c0_250_10 fri_c0_500_10 fri_c0_1000_10 fri_c3_100_5 fri_c3_250_5 fri_c2_250_5 fri_c1_500_5 fri_c1_250_5 fri_c3_500_5 fri_c3_1000_5 fri_c2_1000_5 fri_c2_500_5 fri_c1_1000_5 fri_c4_250_100 fri_c4_250_50 fri_c3_250_50 fri_c3_100_10 fri_c4_250_25 fri_c3_250_25 fri_c1_250_25 fri_c1_250_50 fri_c2_250_25 fri_c1_100_25 fri_c2_100_5 fri_c1_100_5 fri_c3_250_10 fri_c4_250_10 fri_c1_250_10 fri_c2_100_10 fri_c4_100_25 fri_c4_100_10 fri_c1_100_10 fri_c4_500_100 fri_c2_250_50 fri_c4_500_50 fri_c2_500_50 fri_c2_500_25 fri_c1_500_50 fri_c2_1000_50 fri_c2_1000_25 fri_c4_1000_50 fri_c4_1000_100 fri_c3_500_50 fri_c4_500_25 fri_c3_500_25 fri_c1_500_25 fri_c3_1000_50 fri_c4_1000_25 fri_c3_1000_25 fri_c1_1000_50 fri_c1_1000_25 fri_c2_250_10 fri_c2_500_10 fri_c1_500_10 fri_c2_1000_10 fri_c4_500_10 fri_c3_500_10 fri_c1_1000_10 fri_c4_1000_10 fri_c3_1000_10 -1 0 1
Genelde boyut says, rnek says gre kmelenmiler. Colinearity=0 olanlar ve olmayanlar ayr ayr kmelenmiler.
ila
60 50 50
100 40
150 30
200 20
250
10
50
100
150
200
250
la verilerinde yksek korelasyonlu zellikler

5
853 CLUS CLUS 1
19
RMSE
18
REGT
220
ST2
15
STA
22
PCA
RMSE
REGT ST2
36
11
4
39 562 8 78 2 35
STA
PCA
10
5
62
karmlar
Korelasyon, friedman koleksiyonundan daha az. Ekstrem rnek says ile, M5R kurallarnda geen zellik says ok ilikili (0.96). Veri ne kadar dalmsa, kurallar o kadar kompleksleiyor. zelliklerin birbirleriyle korelasyonu ne kadar bykse, cfs ile seilen zellik oran o kadar azalyor (-0.91). PCAle varyansn %95 ini aklayan boyut says ne kadar bykse cfs ile seilen zellik oran o kadar byk (0.9). kn standart sapmas ne kadar bykse REPTree, RBF, ConjunctiveRule algoritmalar o kadar baarl sonular retiyor.
la koleksiyonunda algoritmalarn performanslarna gre kmelenmesi
16
14
12
10
Lineer tabanl alg. ayn grup iindeler
PLSler bir araya toplanm
SMO SVM
SLR
LR
ConR REPT RBF ZeroR DecS M5P M5R Kstar
IBK
LWL PLS1 PLS2 PLS3 PLS4 PLS5
Algoritmalar birbirinden ok uzak iki kmeye blnm.
la koleksiyonunda veri kmelerinin performanslarna gre kmelenmesi

0 qsbralks _13_21 stevenson_5_1142 lew is_7_1142 yokoyama1_13_1142 siddiqi_10_1142 yokoyama2_12_1142 thompson_8_1142 garrat2_14_1142 doherty_6_1142 uejling_9_1142 tsutumi_13_1142 mtp2_274_1142 strupcz_34_1142 depreux_26_1142 krystek_30_1142 chang_34_1142 rosow sky_10_1142 heyl_11_1142 cristalli_32_1142 svensson_13_1142 penning_13_1142 carbolenes_37_1142 qsfrdhla _16_33 selw ood _31_53 qsbr_y2 _25_9 pdgfr _79_320 qsfsr2 _19_9 qsabr2 _15_9 PHENETYL1 _22_628 Phen _22_110 pah_80_112 mtp_4450_202 qsbr_rw 1 _14_50 qsprcmpx _22_39 qsartox _16_23 garrat_10_1142 qsfsr1 _20_9 qsabr1 _15_9 benzo32_195_32 yprop_4_1_8885_251 topo_2_1_8885_266 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
zellik says 1142 olan veri kmeleri bir grupta toplanmlar.
UCI
60 50 50
100 40
150 30
200 20
250
10
50
100
150
200
250
UCI verilerinde yksek korelasyonlu zellikler

5
655 CLUS CLUS 1
18
RMSE
18
REGT
220
ST2
15
STA
22
PCA
RMSE
REGT ST2
55
28
8
3 502 2 6
STA
PCA
7
43
karmlar
Korelasyon, friedman koleksiyonundan daha az. kn standart sapmas ne kadar bykse ZeroRule, RBF, ConjunctiveRule, PLS1, Decstump, LMS algoritmalar o kadar baarl sonular retiyor. rnek says ne kadar oksa, karar aalarnn boyutu da o kadar byk oluyor (0.88).
UCI koleksiyonunda algoritmalarn performanslarna gre kmelenmesi
4.5
3.5
2.5
1.5
0.5
SMO SVM ConR DecS LWL
SLR
ISO
PLS1 PLS2 LMS
LR
IBK
Kstar M5P
M5R
RBF ZeroR MLP
PLSler ayn kmedeler.
rnek tabanl algoritmalar bir kmede toplanm
UCI koleksiyonunda veri kmelerinin performanslarna gre kmelenmesi

hungarian _294_22 pol _15000_48 wisconsin _194_32 phary nx _195_213 sleep _58_7 mbagrade _61_2 f ruitf ly _125_8 echoMonths _130_9 pbc _418_23 breastTumor _286_34 gascons _27_4 bolts _40_7 puma8NH _8192_8 quake _2178_3 triazines _186_60 diabetes_numeric _43_2 detroit _13_13 elusage _55_13 cal_housing _20640_8 v eteran _137_10 sensory _576_32 schlv ote _37_5 puma32H _8192_32 v iney ard _52_3 pollution _60_15 py rim _74_27 kin8nm _8192_8 serv o _167_19 housing _506_13 lowbwt _189_19 cholesterol _303_22 baskball _96_4 bank32nh _8192_32 body f at _252_14 delta_elev ators _9517_6 meta _528_65 delta_ailerons _7129_5 autoHorse _203_65 machine_cpu _209_6 cpu _209_36 elev ators _16599_18 ailerons _13750_40 strike _625_23 house_8L _22784_8 house_16H _22784_16 abalone _4177_10 longley _16_6 stock _950_9 f ishcatch _158_13 cloud _108_9 bank8FM _8192_8 pwLinear _200_10 autoMpg _398_25 auto_price _159_21 auto93 _93_61 f ried _40768_10 2dplanes _40768_10 mv _40768_12 cpu_small _8192_12 cpu_act _8192_21
10
rnek saylar ve zellik saylarna gre bir kmelenme yok.
Zero ruleun RMSE Ort. Yapay veri kmesi koleksiyonu (80 veri kmesi) 0.995
En baarl algoritma ve RMSE Ortalamas meta.Bagging 0.501
En baarl algoritmalar (RMSE ortalamalarna gre srasyla) meta.Bagging M5P M5rules meta.AttrSelClas meta.RndSubSpc Reptree
la veri kmesi koleksiyonu (41 veri kmesi)
0.25
Kstar 0.222
Kstar PLS1 PLS2 PLS4 PLS3 M5P IBK PLS5 ConjunctiveRule

M5P M5R PLS2 Kstar Isotonic Reg PLS1
UCI veri kmesi koleksiyonu (60 veri kmesi)
0.195
M5P 0.106
Friedman verilerinde algoritma performans tahminleri

Performans tahmin edilen algoritma Meta.Bagging Meta.Bagging Meta zellik says 286 19 Korelasyon katsaylar 0.9064 0.9372
M5P
M5P meta.AttriSelectedClassifier meta.AttriSelectedClassifier
286
108 286 7
0.9117
0.9133 0.3761 0.7853
meta.RandomSubSpace
meta.RandomSubSpace Reptree Reptree
286
25 286 20
0.8897
0.9284 0.9135 0.9195
la verilerinde algoritma performans tahminleri

Performans tahmin edilen algoritma PLS1 PLS1 Kstar Kstar M5P M5P IBK IBK Meta zellik says 286 8 286 8 286 11 286 6 Korelasyon katsaylar 0.3791 0.7516 0.2913 0.808 -0.0219 0.4663 0.5392 0.585
UCI verilerinde algoritma performans tahminleri

Performans tahmin edilen algoritma M5P M5P PLS2 PLS2 Meta zellik says 286 9 286 13 Korelasyon katsays 0.8814 0.8813 0.9349 0.9277
Kstar
Kstar Isotonic Reg. Isotonic Reg.
286
9 286 10
0.9471
0.9524 0.9048 0.9484
Algoritma performans tahminleri

Meta zellik REGT.Veri kmesi zerinde M5rules ile bulunan kural saysnn rnek saysna oran RMSE.Decstump algoritmasnn veri kmesi zerindeki RMSE deeri REGT.Veri kmesi zerinde oluturulan M5P karar aacnn yapraklarnda (kararlarnda) en az 1 kere kullanlm zellik says REGT. Veri kmesi zerinde oluturulan M5P karar aacndaki yaprak saysnn rnek saysna oran REGT. Veri kmesi zerinde oluturulan M5P karar aacnn yapraklarnda en az 1 kere kullanlmu zellik saysnn zellik saysna oran STA. Veri kmesinde cfs ile seilen zellik says 3 koleksiyondan kanda kullanld
3
3
2 2
2 2
STA. Veri kmesindeki rnek says
Her veri koleksiyonunda en baarl algoritma farkl bir algoritmadr, dolaysyla hibir algoritmann tm veriler zerinde en baarl olmad grlmtr. la veri kmelerinde, algoritmalarn rasgele hatay (zero rule hatas) ok az drebildikleri grlmtr. Bu nedenle en zor modellenebilen veri kmeleri olduklar sylenebilir. M5P algoritmas her 3 veri kmesi koleksiyonunda da en iyi performans gsteren algoritmalar arasndadr. Bir algoritmann veri kmesindeki hatas bykse, onu tahmin etmek zordur. Baarl sonular tahmin etmek daha kolaydr.
PLSin bileen saysnn analizi

0.8 0.7 0.6
20
Veri kmesi says
0.5 0.4 0.3 0.2 0.1 0
18 16 14 12 10 8 6 4 2 0
0.05
0.1
0.15
0.2
0.25
K saysnn deiiminin performansa etkileri
K deerinin hata zerinde oluturduu deiimin standart sapmalarnn histogram
PLS algoritmasnda kullanlacak optimum bileen says meta renme yaklam ile belirlenemez. Bileen says ou veri kmesi zerinde PLSin performans zerinde etkili deildir. Minumum hataya sahip olan K deerleri incelendiinde ve en fazla minimum hataya sahip K deerinin 10 veri kmesi ile 2 deeridir. Onu 5er veri kmesiyle 1 ve 5 deerleri takip etmektedir.
Ne zaman hangi algoritma

60 UCI verisi en baarl algoritma isimleriyle etiketlendi (7 snf)
Rasgele baar %40 En baarl sonu %53 (10 CV)
Bu algoritma uygun mu sorusuna cevap veren 2 snfl veri kmeleri oluturuldu.

M5 iin rasgele baar %60, en baarl sonu %95 SVM iin rasgele baar %88, en baarl sonu %95 PLS iin rasgele baar %90, en baarl sonu %97
Hangi zellikler
En baarl algoritmay tahmin ederken kurallar reten snflandrclarda en ok kullanlan zellikler REGT, STA grubundan RMSE haricinde, algoritma performans tahminleriyle paralel
Genel Sonu
Tezin amalar ve gerekletirilenler:
Makine renmesi alannda yeni ve daha baarl algoritmalar gelitirmek:
Cline, Clusline Daha da ileriye grtlebilecek algoritmalar (KmeanReg, Karar ormanl zellik seimi, Hiyerarik kmeleme komiteleri, Meta regresyon)
la tasarm alanna uygulamak:

Saysal ila veri kmeleri oluturuldu. Baarl sonular bu alanda da elde edildi.
Makine renmesi aratrmaclar iin veri tabanlar oluturulmas:

Meta regresyon
Baz Kaynaklar
Alpaydn, E., (2004), Introduction to Machine Learning, The MIT Press. Breiman L., (2001), Random Forests, Machine Learning 45 (1), 5-32. Strehl A. ve J. Ghosh, (2002), Cluster Ensembles A Knowledge Reuse Framework for Combining Multiple Partitions, Journal of Machine Learning Research, vol.3 , 583-617. Tjen-Sien Lim, Wei-Yin Loh ve Yu-Shan Shih, (2000), A Comparison of Prediction Accuracy, Complexity, and Training Time of Thirty-three Old and New Classification Algorithms, Machine Learning, vol.40, 203-229. Witten I. H. ve Eibe Frank, (2005), Data Mining: Practical machine learning tools and techniques, 2nd Edition, Morgan Kaufmann, San Francisco.
Teekkrler

Doktora Sunum

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Doktora Sunum

Uploaded by

Copyright:

Available Formats

YILDIZ TEKNK NVERSTES FEN BLMLER ENSTTS

Yeni Makine renmesi Metotlar ve la Tasarmnda Uygulamalar

Doktora tez almas olarak bu konunun seilmesinin sebepleri

Makine renmesinin lgilendii Problemler

lalar Nasl alr?

lalarn etki mekanizmalarna bir rnek

lalardan Beklenen zellikler

la olarak piyasaya srlr

Yaklak 800 milyon $

la tasarmnda makine renmesi metotlarnn kullanm

la olarak piyasaya srlr

Molekllerin SDF formatlarndan hesaplanan zellikleri 3 grupta toplanmaktadr.

MOE Adriana vs.

Molekl NH3 H2O NCI

Cline Algoritma Ailesi

CLM CLLVQ CLLDA

Cline Snflandrma Trleri

rnek Says 683 506 435 345 270

Rasgele Baar (%) 64.71 33.33 61.36 57.14 55.56

Pima Indians diabetes

Cline aalaryla elde edilen sonular

%60 eitim, %40 test, optimum hata %21

CLMIX daha baarl, nk:

Aalarn karar dmlerinde kullanlan zellik says

log2M 2log2M Yaprak Dal

Toplu sonulardan elde edilen karmlar

Algoritmalar CLMIX_forestBS_100_y_2log2M CLMIX_forestBS_100_d_2log2M CLMIX_forestBS_30_d_2log2M CLMIX_forestBS_30_y_2log2M Random Forest_100 _log2M

85.65 85.42 84.89 84.69 84.54

3.50 3.53 3.93 3.73 4.43

Random Forest_30_ log2M

Bireysel sonulardan elde edilen karmlar

la verilerinden elde edilen karmlar

Veri koleksiyonlarna gre karlatrmalar

Arttka baar da artyor.

14 veri kmesinden elde edilmi 37 kmeleme problemindeki performanslar

Snflandrma baarlar kriterine gre kmeleme alg. karlatrlmalar

Ort. Snflandrma Baarlar (%) Ort. ranklar

Silet genilii ve DB indeksi kriterlerine gre kmeleme alg. karlatrlmalar

Farthest First ClusLineW

Birok kmeleyici sonucundan, kmeler aras benzerlik matrisi elde edilir.

En baarsz kmeleme alg. Hiyerarik

Kmeleyici saysnn performansa ve standart sapmaya etkisi

50 75 100 Number of Combined Cluster Decisions

50 75 100 Number of Combined Cluster Decisions

(zellik says 2log2M)

Standart Deviations of Clustering Performances (%)

0.7 0.695 0.69 0.685 0.68 0.675 0.67 0.665 0

0.04 0.035 0.03 0.025 0.02 0.015 0.01 0.005 0

Clustering Performances (%)

50 75 100 Number of Combined Cluster Decisions

(zellik says log2M)

1 *1 (0.7183) *2 (0.7374) *3 (0.7512) *4 (0.7572) *5 (0.7639)

zellik saysnn performansa ve standart sapmaya etkisi

*1 (0.04) *2 (0.0393) *3 (0.0356) *4 (0.0269) *5 (0.0228)

Cline zellik Seim Orman

Veri seti Amlall Ann

rnek says 72 3772

Seilen zellik says

Karar ormanl zellik seimi

1.4 1.2 1 0.8 0.6 0.4 0.2 0 -0.2 -0.4 -1

KMreg (K=3) KNN (K=3) ANN-10

KMreg (K=2) KNN (K=2) ANN-10

KMreg KNN ANN

1 1 (0.7183) 2 (0.7374) 3 (0.7512) 4 (0.7572) *5 (0.7639)

1 (0.04) 2 (0.0393) 3 (0.0356) 4 (0.0269) *5 (0.0228)