Professional Documents
Culture Documents
Doktora Sunum
Doktora Sunum
Tez Yrtcs: Prof. Dr. Oya KALIPSIZ kinci Danman: Prof. Dr. Okan ERSOY
stanbul,2008
Sunum Plan
Makine renmesi Nedir? la nedir? Nasl tasarlanr? Snflandrma Snflandrma Komiteleri Kmeleme Kmeleme Komiteleri zellik Seimi Regresyon Regresyon Komiteleri Meta-Regresyon
Makine renmesi
Makine renmesi metotlar gemiteki verileri kullanarak veriye en uygun modeli bulmaya alrlar. Yeni gelen verileri de bu modele gre analiz ederler ve sonu retirler.
Makineler, insanln igcne saladklar katky, makine renmesi metotlar sayesinde insanln beyin gcne de salamaya balamlardr.
la Nedir?
WHO (Dnya Salk rgt) nun Tanm: Patolojik Olgular Ve Fizyolojik Sistemleri Bireyin Yarar Iin Deitirmek Ya Da ncelemek Amacyla Kullanlmas ngrlen rn
la gelitirme aamalar
4000-10000 Sentezi yaplan molekl in vitro / in vivo farmakolojik tarama testleri leri farmakolojik aktivite ve toksisite testleri 9-10 Molekl Klinik ncesi testler 1 Molekl Faz III testleri 1.5 Molekl Faz I / II testleri 4 Molekl
Molekllerden Saylara-1
Genel zellikler: Molekl Arl, Erime noktas, Kaynama noktas 2D zellikler: Molekl oluturan atomlarn birbirlerine ballklar, ba trleri, belirli fonksiyonel gruplarn moleklde bulunma saylar, halka saylar 3D zellikler: Yzey zellikleri
Molekllerden Saylara-2
zellik1 23
zellik2 5
zellikN
Snf 1
34
6.7
45
8.9
C4 H
67
Snflandrma
Karar Aalar Cline Algoritma Ailesi Deneysel Sonular
Karar Aalar
CLPCA
CLM
CLLDA
CLLVQ CLMIX, her blgede en iyi sonucu verecek metodu bulup kullanr. CLLDA
CLMIX
?
CLLDA CLM CLLVQ
CLM CLLVQ
Veri Kmeleri
Veri Kmesi
Breast cancer Wisconsin Boston housing Congressional voting Bupa liver disorders StatLog heart disease
Kod
Bcw Bos Vot Bld Hea
zellik Says 9 12 16 6 7
Snf Says 2 3 2 2 2
Pid
Seg Veh
7
19 18
2
7 4
532
2310 3772
66.67
14.29 25.88
Baarlarna gre:
Dal>Yaprak Budanm>Budanmam CLMIX>dier Clinelar
Budanmam 79.5
Budanm
CL2 CL4 CLLDA
79.7
77.4 77.6 80.8
2.45
0.62 1.06 1.49
Varyanslarna gre:
Dal>Yaprak Budanm>Budanmam CLLVQ>dier Clinelar
CLLVQ
CLM CLMIX
80.0
79.9 82.1
0.37
0.79 1.73
CL2 %41
CLM %30
CLLDA %30
CLMIX %20
Snflandrma Komiteleri
Karar Aalar
Karar Ormanlar
Toplu Sonular
CLM Forest CLLDA Forest CLLVQ Forest CLMIX CLMIX Forest ForestBS
Random Forest
Ormandaki aa says
10
20 30 100
81.29 0.87
82.34 0.74 82.27 0.4 82.82 0.27 81.84 0.91 82.52 0.51 81.90 0.75 82.46 0.79
82.89 1.26
82.53 1.35 82.39 1.74 82.52 1.43 81.46 0.88 83.70 0.26 82.49 1.38 82.67 1.33
81.37 1.15
82.18 0.52 82.34 0.43 82.85 0.25 81.75 0.93 82.62 0.37 82.12 1.01 82.25 0.63
82.65 1.23
83.03 1.21 83.56 1.41 83.76 0.83 82.38 0.71 84.12 0.79 82.85 0.96 83.65 1.26
81.93 1.77
83.16 1.6 83.64 1.35 84.64 1.03 82.13 1.29 84.56 0.9 83.22 1.78 83.47 1.62
82.80 1.13
83.95 1.06 84.09 1.05 84.23 1.03 84.01 1.05 83.52 1.06
---
Veri Kmeleri
bcw
bos
vot
bld
hea
pid
seg
veh
Ort. Baar
Ort. std
* Says
? Says
* * * * *
* * * *
* * * * *
* * * * *
* * * * * * *
* * * * *
* * * * *
7 6 7 7 7
0 0 0 0 0
*
* * * *
*
*
* * * *
*
* *
*
*
*
* * * * *
* * *
*
* * * * *
84.33
84.11 84.10 83.92 83.70 83.45
83.21 82.92 82.77 82.55 82.33 82.24 81.97
4.41
4.30 4.25
6
6 6 5 5 4
4 2 3 3 2 1 1 2 2 1 1 1 4 3 1 2 2 1 0
0
0 0 0 0 0
0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 2 1 5
* *
* *
* *
* * *
* * * * * * *
81.85 81.76 81.52 81.44 81.39 80.83 80.06 79.96 79.95 79.49 77.93
* * * *
* *
* *
* * *
* ? * ? ? ? ? ? *
* *
72.43
Eitim Zamanlar
Algoritmalarn eitimi iin gereken zaman arttka, performanslar da genelde artmaktadr. CLMIX orman, en fazla zaman gerektiren Cline algoritmasdr. CLMIX orman, en baarl algoritma olmasna ramen, en fazla eitim zamanna sahip algoritma deildir.
Aa Kararlarn Arlklandrma
Karar aalarnn verdikleri kararlara eit arlk vermek yerine aalarn eitli zelliklerine gre kararlar arlklandrlmtr: Dorulama-validation setindeki en baarl X tane aa kullanlarak: Eitim verisinden bir ksm dorulama verisi olarak ayrlm ve ormandaki her aacn bu dorulama setindeki baars llmtr. Ormann karar, en baarl X tanesinin kararnn ortalamasdr. Aataki karar dm saysyla doru/ters orantl olarak kararn arlklandrmak: Ormandaki her aacn karar dm says bulunmu ve aalarn kararlar normalize edilmi karar dm saysyla ya da tersiyle arplarak aalarn kararlar arlklandrlmtr.
la verilerindeki sonular
Algoritma RandomForest-10-8 RandomForest-20-8 RandomForest-30-8 RandomForest-100-8 RandomForest-10-16 RandomForest-20-16 RandomForest-30-16 RandomForest-100-16 CLMforest_100_yaprak_16 CLLVQ4_forest_100_yaprak_16
(arlkl yaprak says ile doru orantl )
bbp2 82,17 82,17 81,92 81,78 79,61 81,08 80,94 81,32 80 81,2 81,41 83,41
mono 91,95 93,1 93,79 93,29 92,37 93,42 93,65 93,86 93 93,35 93,23 93,81
Clean1 86,76 87,61 90,13 91,03 86,89 89,12 89,65 90,61 91 92,29 91,36 91,16
ca 68,42 71,92 70,37 71,97 69,46 70,87 71,08 71,77 73 72,12 71,2 73,76
mutag 87,76 88,82 88,82 90,82 90,39 90,49 90,82 90,45 89 90,5 88,25 89,25
232,00 56,89 57,32 58,18 59,87 57,85 58,57 59,65 59,36 58 59,25 56,09 60,47
Ort 78,99 80,16 80,54 81,46 79,43 80,59 80,97 81,23 80,66 81,45 80,26 81,98
CLLVQ_forest_100_yaprak_16
(arlkl yaprak says ile doru orantl )
CLM_forest_100_yaprak_16
(arlkl yaprak says ile doru orantl )
Aa says
Aalarda kullanlan zellik says En baarl algoritma
Bootstrapping
Dal Budama Karar Arlklandrma
Daha baarl
Daha baarl Daha baarl Denenmedi
Daha baarsz
Daha baarsz Daha baarsz Daha baarl
ClineToolbox
Kmeleme
Clusline Algoritmalar Deneysel Sonular
ClusLine
Karar aac yapsndadr (verileri hiper dzlemlerle alt uzaylara bler). Blme ilemi bittiinde her alt uzaydaki rneklerin merkezlerini kme merkezleri olarak belirler. Bir rnein ait olduu kmeyi belirlerken, oluan aac kullanmaz, rnee en yakn kme merkezinin kmesine atar.
ClusLine
1. adm
2.adm
Oluan kmeler
Oluan aa
Durma koulu: Veri kmesindeki tm rneklerin tm zelliklerinin varyanslarnn toplam, her bir dmdeki rneklerin tm zelliklerinin varyanslarnn toplamnn X katndan kkse blmeyi durdur. Kme says: Algoritma kendisi bulur. Tek parametre: X>1 olmal.
Clusline Versiyonlar
CLus2 CLus4
CLusW
73,4
72,7
73,3
61,5
75,1
74,2
3.595
3.297
3.622
5.216
2.622
2.649
ClusLine2
ClusLine4
Kmeans
DB indeks, kme ii varyanslarn azln, kmeler aras uzaklklarn fazlaln ler. Siluet genilii, her bir rnein kendi kmesindeki dier rneklere uzaklnn azln, dier kmelerdeki rneklere uzaklnn fazlaln ler.
karmlar
Snflandrma baars ve ranka gre : K-means>SOM>dier Siluet Geniliine gre: Clusline2>Clusline4>dier Davies-Bouldin indeksine gre: SOM>Clusline2>dier Clusline basitliine ramen baarl sonular elde etmitir. Sadece SOM ve Clusline2, 3 kriterin 2sinde ilk 2ye girebilmilerdir. Siluet genilii ve DB indeks, tanmlarndaki benzerlie ramen olduka farkl sonular retmitir.
Kmeleme Komiteleri
Graf tabanl
rnek tabanl yaklam: Grafn keleri rnekler, kenar arlklar kenarn balad iki kedeki rneklerin ka kmeleme sonucunda ayn kme iinde yer aldklardr.
1
1 1
7 1 2 3 4 5 6 7
7 1 2 3 4 5 6 7
7 1 2 3 4 5 6 7
7 1 2 3 4 5 6 7
Kme tabanl yaklam: Grafn keleri kmeler, kenar arlklar kenarn balad iki kedeki kmenin birbirlerine Jaccard lmne gre benzerliidir ve Eitlik teki ekilde bulunur. Jaccard lm, ortak eleman saylarnn, birleim kmesinin eleman saysna oran olarak tanmlanmtr.
W (i, j ) Ci C j Ci C j
Graf tabanl: Elde edilen matrisleri graf olarak dnp graf blmleme algoritmalarn kullanrlar. Hiyerarik:
Elde edilen matrislerden hiyerarik kmeleme yaparlar. Kmelerin benzerlikleri hesaplanrken en baarl sonucu centroid yaklam (kme merkezlerinin klid uzakl) vermektedir.
Karlatrlan yaklamlar
Graf Hiyerarik
rnek tabanl
Kme tabanl Meta Kme tabanl
Sonular
Kme says= Snf says En baarl kmeleme alg. Fuzzy Kmeans Kme says= says Kmeans Hiyerarik 2*Snf
En baarl sonucu reten Hiyerarik (2log2M adet Hiyerarik (2log2M adet karar birletirme alg. zellik ve SOM ile) zellik ve Kmeans ile) Ortalama en baarl karar Graf tabanl (2log2M adet Graf tabanl (2log2M adet birletirme alg. zellik ile) zellik ile) Orijinal / birletirme orijinal<hiyerarik<graf sonularnn tabanl performans sralamas: Kmeleyicilerde kullanlan Log2M<2log2M alt uzaylardaki zellik saysnn (boyutun) etkisi hiyerarik<orijinal<graf tabanl Log2M<2log2M
0.765
Clustering Performances (%)
0.025
0.76
0.755
0.02
0.75
0.015
0.745
0.01
0.74
0.735 0
25
125
0.005 0
25
125
0.045
25
125
0.9
0.8
performances
0.7
0.6
0.5
0.4
0.09
6 datasets
10
12
14
0.08
0.07
0.06
standart deviations
0.05 0.04
0.03
0.02
0.01
6 datasets
10
12
14
karmlar
Kmeleyici saysnn art performans arttrrken standart sapmas azaltmtr. zellik saysnn art performans arttrrken standart sapmas azaltmtr. zellik says fazla iken kmeleyici says artarken performans daha hzl ykselirken, standart sapma daha hzl azalmaktadr.
zellik Seimi
zellik seimi karar aalaryla yaplabilir mi? Sorusuna cevap aranmtr. Gelitirilen metotla, 6 zellik seimi algoritmas 13 snflandrma veri kmesi zerinde karlatrlmtr. Her bir veri kmesinin nce 7 zellik seimi metoduyla boyutlar indirgenmi daha sonra 5 farkl snflandrma algoritmasnn bu veri kmeleri zerindeki performanslar (10 CV) llmtr.
1x2-0.33x1+0.13=0
x2
x1
SVMeval
Kullancnn istedii kadar zellik kalncaya kadar aadaki 2 adm tekrar et: 1.Snflandrma yapan hiper dzlemi SVMle bul. 2.Hiper dzlemin katsays mutlak deerce en kk olan zellii veri kmesinden sil.
Snf says 2 3
zellik says
7129 21
bi75ds3
derma gkanser Hava
9
6 2 2
315
286 456 281
470
34 30 34
11
10 8 11
Pima
Seg Wine Colon Mll Nerv Spam
2
7 3 2 3 2 2
388
210 118 62 57 60 4601
8
19 13 2000 12582 7129 57
3
6 6 10 11 10 11
zellik seimsiz
amlall ann bi75ds3 derma gkanser hava pima seg wine colon mll nerv spam ortalama 88 96,12 75,008 97,416 94,854 88,25 75,26 86,762 96,454 76,522 85,268 61,666 89,618 85,477
RAE 92,678 96,354 66,16 77,152 95,162 90,47 75,77 75,714 97,64 81,728 91,688 73,1 79,538 84,089
InfoGain 91,606 96,622 65,88 76,942 93,758 88,668 76,13 75,904 97,64 84,738 90,774 79,766 88,538 85,151
GainRatio 91,892 96,878 61,306 84,416 93,674 90,314 76,13 85,336 97,64 85,864 94,36 69,968 88,154 85,841
SUAE 91,608 96,634 65,628 75,056 93,892 89,678 76,13 75,524 97,64 83,88 90,254 73,168 89,826 84,532
OneRA 91,322 96,224 60,58 75,056 93,806 90,106 75,77 70,574 96,214 84,962 92,694 73,834 87,878 83,771
ChiKare 91,32 96,62 66,65 84,49 93,89 88,52 75,77 75,81 97,64 83,4 90,57 76,63 87,74 85,312
Tablodaki her deer (son satr hari), 5 algoritma *10 CV=50 denemenin sonucudur.
karmlar
zellik seimi metotlar arasnda ok byk performans farkllklar yok. Ayrca zellik seimi 13 veri kmesinden 4nde baary azaltmtr. zellik seimi metotlar arasnda en baarls GainRatiodur ve zellik seimi yaplmadnda elde edilen ortalama baardan daha yksek baar elde eden tek metottur. Yeni gelitirilen metot sadece tek bir veri kmesinde baarl sonular vermitir ve gelitirilmeye ihtiyac vardr.
Regresyon
Algoritma.Kmeans Regresyon. Eitim: 1. Merkezleri rasgele ata. 2. Karesel hata bir eik deerinin altna ininceye kadar ya da maksimum tekrar saysna eriilene kadar 3. ,4. ve 5. admlar tekrar et. 3. rnekleri giri verilerine gre en yakn olduklar merkezlere ata. 4. Merkezleri kendi kmelerine dhil edilen rneklerin ortalamasna ek. 5. Merkezlere model olarak kendi kmelerindeki rneklerden geen lineer bir fonksiyon ata. Algoritma.Kmeans Regresyon. Test: Verilen rnee en yakn merkezi bul. Merkezdeki lineer modele gre rnein kn hesapla.
-0.8
-0.6
-0.4
-0.2
0.2
0.4
0.6
0.8
0.8
0.6
0.4
0.2
-0.2
-0.4
-0.6 -1
-0.8
-0.6
-0.4
-0.2
0.2
0.4
0.6
0.8
KMregin problemi
0.6
0.4
0.2
-0.2
-0.4
-0.6
-0.8 -1
-0.8
-0.6
-0.4
-0.2
0.2
0.4
0.6
0.8
dela
2,80975E-08 2,85886E-08
dele
2,0937E-06 2,09641E-06
hous
15,70591 22,195441
kine
0,034173263 0,034112788
Mach
3267,8441 2165,8216
stoc
0,97289557 1,0736404
tria
0,041796712 0,052990556
wisc
239554,94 185378,38
KmregK=4
KmregK=3 KmregK=2 KmregK=1 KNNregK=6 KNNregK=5
2,87865E-08
2,94481E-08 2,96207E-08 2,96619E-08 3,74256E-08 3,82845E-08
2,09466E-06
2,09165E-06 2,09933E-06 2,09967E-06 2,6645E-06 2,70896E-06
15,025692
14,890469 14,944982 24,621887 40,150662 41,553513
0,035063155
0,036746358 0,038265193 0,040840563 0,013775948 0,014174928
2443,1484
6554,6184 2875,1032 5837,9955 3125,9503 5381,1499
1,3176651
1,6576803 2,031674 5,5020201 0,54574836 0,511075
0,052144635
0,038095091 0,034350601 0,023974772 0,021212522 0,022504716
3227,2873
4854,8612 1555,5286 1106,7495 1206,0418 1224,2698
KNNregK=4
KNNregK=3 KNNregK=2 KNNregK=1 m5p Pacereg
3,96111E-08
4,28769E-08 4,63232E-08 9,17237E-08 2,70603E-08 2,95565E-08
2,79697E-06
2,95249E-06 3,26563E-06 5,63869E-06 2,03082E-06 2,09737E-06
38,478578
40,12841 42,696759 85,107358 13,23486225 22,99645004
0,014799449
0,01612356 0,018846903 0,06944866 0,025679694 0,040801386
4140,7121
4143,7017 4270,3208 24885,115 2952,07204 4054,10145
0,46739104
0,43751096 0,41081003 42,223311 0,87560543 5,47645357
0,021173693
0,020174057 0,020109115 0,024801686 0,016987577 0,022194877
1310,1997
1399,1165 1608,5325 1268,8018 1141,09851 1128,13189
Lineerreg
m5rules Svmreg m5' Smoti
2,95668E-08
2,74631E-08 3,02169E-08 5,3824E-08 4,00001E-08
2,09772E-06
2,04041E-06 2,10616E-06 2,26576E-05 2,6569E-06
23,02706265
14,82917319 24,44568242 12,8164 18,31215173
0,040807883
0,030351243 0,04184553 0,02499561 0,037922499
3942,48030
4305,76992 4148,24907 3059,72931 3289,33916
5,46846396
0,94821679 5,74585459 3,32150625 1,23059086
0,025619303
0,017594057 0,021896305 0,04068289 0,024034301
1111,65417
1187,22476 1104,71176 2643,37471 2061,74479
karmlar
Her bir zellik iin elde edilen sonularn birletirilmesinde, ortalama alma gibi basit bir mekanizma kullanlmasna ramen umut vaad eden sonular elde edilmitir. Karlatrld algoritmalar literatrde en baarl olarak gsterilen algoritmalardr. Gelitirilmeye ihtiyac var.
Regresyon Komiteleri
25 komite-algoritma ikilisinin 36 ila veri kmesi zerindeki performans sralama ortalamalar
BG Rep M5P PLS2 SLR KS Ort 13.44 ADD ATT RS Orj Ort
8.61 10.51
14.14 12.92 11.86 14.33 13.42 13.33 16.31 14.81 14.33 15.89 14.89 15.24 11.28 11.14 11.36 13.06 10.56 11.48 15.50 12.94 14.81 16.03 12.89 14.43 14.13 12.06 12.61 14.13 12.07
Algoritmalarn performanslar, komite metotlarna gre deil, komitelerdeki algoritmalara gre kmelenmi.
Orijinal algoritmalar yerine komiteleri kullanmak daha baarl sonular retir mi? Hangi komite daha baarl sonular retmektedir? Hangi algoritma komite ikilisi en iyi/kt sonular retmektedir? Hangi algoritmalar komitelerle daha iyi almaktadr? Hangi algoritmalar daha iyi almaktadr? Algoritmalarn birbirlerine benzerlikleri (performanslarna gre) nasldr?
Genelde hayr.
Sralama: ADD > Orj > ATT > BG =RS En iyi: ADD - Rep En kt: BG - PLS M5P ve PLS , 2 komitede (ADD, ATT) tek bana kullanldklarndan daha baarl sonular vermitir. Sralama: Rep > SLR > KS > M5P > PLS2 Temelde algoritmalar komite trlerine gre deil komitelerde kullanlan algoritmalara gre gruplanmtr. Bu nedenle performans komite trnn deil komitede kullanlan algoritmann belirledii sylenebilir.
Meta Regresyon
Her veri kmesinde en iyi performans veren bir algoritma yok. Performanslar veri kmesine baml. Bu durumda deneme yanlma metodu kanlmaz m?
Sorular
Bir algoritmann performansn tahmin etmek mmkn mdr? Veri kmesinin hangi zellikleri performans etkiliyor? Veri kmesinin hangi zelliklerine bakarak algoritmalarn performansn tahmin edebiliriz?
...
Alg. performas
...
Veri kmesiN
Aklama
Veri kmesinin ilk bata gze arpan istatistiki zellikleri (rnek says, zellik says vs.)
Veri kmesinin Kurtosis, skewnes, 3. ve 4. dereceden moment, korelasyon matrisleri gibi istatistiki zellikleri Yaplan kmeleme ilemleri sonucunda elde edilen zellikler (rneklerin kmelere dalmlar, kme saylar) retilen Karar aalarnn eitli zellikleri (yaprak says, dm says) eitli algoritmalarn yaptklar hatalarn RMSE deerleri Temel bileen analiziyle bulunan zellikler
ST2
220
CLUS
REGT
RMSE PCA Toplam
18
15 22 295
Friedman
60 50 50
100 40
150 30
200 20
250 10
29
18
220
ST2
15
STA
22
PCA
1
colli
RMSE
REGT ST2
55
26
24
46
1 1346
6
2 3
31
54
42
STA
PCA
3
57
karmlar
PLS ailesi birbiriyle ilikilidir. Ancak PLSnin bileen says arttka iliki azalmaktadr. rnek says M5P, Reptree ve M5rules ile ters ilikili. Yani rnek says arttka algoritmalarn performans dm. Colinearity derecesi skewness, kurtosis, 3. ve 4. dereceden momentlerle ilikilidir. Bu iliki colinearity derecesi bilinmeyen veri kmelerinin colinearity tahmininde kullanlabilir.
20
10
0 SMO SVM PLS1 PLS2 PLS3 PLS4 PLS5 LR GausP mt.Dag mt.ES mt.Vo ConR DecS LWL SLR mt.St ZeroR RBF IBK Kstar M5P mt.Bag M5R mt.AR mt.AS mt.RS mt.RD REPT
Genelde boyut says, rnek says gre kmelenmiler. Colinearity=0 olanlar ve olmayanlar ayr ayr kmelenmiler.
ila
60 50 50
100 40
150 30
200 20
250
10
50
100
150
200
250
19
RMSE
18
REGT
220
ST2
15
STA
22
PCA
RMSE
REGT ST2
36
11
4
39 562 8 78 2 35
STA
PCA
10
5
62
karmlar
Korelasyon, friedman koleksiyonundan daha az. Ekstrem rnek says ile, M5R kurallarnda geen zellik says ok ilikili (0.96). Veri ne kadar dalmsa, kurallar o kadar kompleksleiyor. zelliklerin birbirleriyle korelasyonu ne kadar bykse, cfs ile seilen zellik oran o kadar azalyor (-0.91). PCAle varyansn %95 ini aklayan boyut says ne kadar bykse cfs ile seilen zellik oran o kadar byk (0.9). kn standart sapmas ne kadar bykse REPTree, RBF, ConjunctiveRule algoritmalar o kadar baarl sonular retiyor.
16
14
12
10
SMO SVM
SLR
LR
IBK
UCI
60 50 50
100 40
150 30
200 20
250
10
50
100
150
200
250
18
RMSE
18
REGT
220
ST2
15
STA
22
PCA
RMSE
REGT ST2
55
28
8
3 502 2 6
STA
PCA
7
43
karmlar
Korelasyon, friedman koleksiyonundan daha az. kn standart sapmas ne kadar bykse ZeroRule, RBF, ConjunctiveRule, PLS1, Decstump, LMS algoritmalar o kadar baarl sonular retiyor. rnek says ne kadar oksa, karar aalarnn boyutu da o kadar byk oluyor (0.88).
4.5
3.5
2.5
1.5
0.5
SLR
ISO
LR
IBK
Kstar M5P
M5R
10
Zero ruleun RMSE Ort. Yapay veri kmesi koleksiyonu (80 veri kmesi) 0.995
En baarl algoritmalar (RMSE ortalamalarna gre srasyla) meta.Bagging M5P M5rules meta.AttrSelClas meta.RndSubSpc Reptree
0.25
Kstar 0.222
0.195
M5P 0.106
M5P
M5P meta.AttriSelectedClassifier meta.AttriSelectedClassifier
286
108 286 7
0.9117
0.9133 0.3761 0.7853
meta.RandomSubSpace
meta.RandomSubSpace Reptree Reptree
286
25 286 20
0.8897
0.9284 0.9135 0.9195
Kstar
Kstar Isotonic Reg. Isotonic Reg.
286
9 286 10
0.9471
0.9524 0.9048 0.9484
3
3
2 2
2 2
Her veri koleksiyonunda en baarl algoritma farkl bir algoritmadr, dolaysyla hibir algoritmann tm veriler zerinde en baarl olmad grlmtr. la veri kmelerinde, algoritmalarn rasgele hatay (zero rule hatas) ok az drebildikleri grlmtr. Bu nedenle en zor modellenebilen veri kmeleri olduklar sylenebilir. M5P algoritmas her 3 veri kmesi koleksiyonunda da en iyi performans gsteren algoritmalar arasndadr. Bir algoritmann veri kmesindeki hatas bykse, onu tahmin etmek zordur. Baarl sonular tahmin etmek daha kolaydr.
18 16 14 12 10 8 6 4 2 0
0.05
0.1
0.15
0.2
0.25
PLS algoritmasnda kullanlacak optimum bileen says meta renme yaklam ile belirlenemez. Bileen says ou veri kmesi zerinde PLSin performans zerinde etkili deildir. Minumum hataya sahip olan K deerleri incelendiinde ve en fazla minimum hataya sahip K deerinin 10 veri kmesi ile 2 deeridir. Onu 5er veri kmesiyle 1 ve 5 deerleri takip etmektedir.
Hangi zellikler
En baarl algoritmay tahmin ederken kurallar reten snflandrclarda en ok kullanlan zellikler REGT, STA grubundan RMSE haricinde, algoritma performans tahminleriyle paralel
Genel Sonu
Tezin amalar ve gerekletirilenler:
Makine renmesi alannda yeni ve daha baarl algoritmalar gelitirmek:
Cline, Clusline Daha da ileriye grtlebilecek algoritmalar (KmeanReg, Karar ormanl zellik seimi, Hiyerarik kmeleme komiteleri, Meta regresyon)
Baz Kaynaklar
Alpaydn, E., (2004), Introduction to Machine Learning, The MIT Press. Breiman L., (2001), Random Forests, Machine Learning 45 (1), 5-32. Strehl A. ve J. Ghosh, (2002), Cluster Ensembles A Knowledge Reuse Framework for Combining Multiple Partitions, Journal of Machine Learning Research, vol.3 , 583-617. Tjen-Sien Lim, Wei-Yin Loh ve Yu-Shan Shih, (2000), A Comparison of Prediction Accuracy, Complexity, and Training Time of Thirty-three Old and New Classification Algorithms, Machine Learning, vol.40, 203-229. Witten I. H. ve Eibe Frank, (2005), Data Mining: Practical machine learning tools and techniques, 2nd Edition, Morgan Kaufmann, San Francisco.
Teekkrler