You are on page 1of 98

YILDIZ TEKNK NVERSTES FEN BLMLER ENSTTS

Yeni Makine renmesi Metotlar ve la Tasarmnda Uygulamalar


M. Fatih Amasyal

Tez Yrtcs: Prof. Dr. Oya KALIPSIZ kinci Danman: Prof. Dr. Okan ERSOY
stanbul,2008

Sunum Plan
Makine renmesi Nedir? la nedir? Nasl tasarlanr? Snflandrma Snflandrma Komiteleri Kmeleme Kmeleme Komiteleri zellik Seimi Regresyon Regresyon Komiteleri Meta-Regresyon

Doktora tez almas olarak bu konunun seilmesinin sebepleri


Trkiyenin gelecek vizyonunda bilgisayar destekli ila tasarm konusunun yer almas ve almann bu konudaki aratrmaclara fayda salayacak olmas Makine renmesi metotlarnn elde ettikleri birok baar olmasna ramen QSAR ve QSPR gibi genelde zor modellenebilen veri tabanlar iin almalarn hala youn bir ekilde devam ediyor olmas Gelitirilen metotlarn sadece ila tasarm uygulamalar iin deil her trl snflandrma, kmeleme ve regresyon problemlerine uygulanabilecek yapda olmas

Makine renmesi

Makine renmesi metotlar gemiteki verileri kullanarak veriye en uygun modeli bulmaya alrlar. Yeni gelen verileri de bu modele gre analiz ederler ve sonu retirler.

Makine renmesinin lgilendii Problemler


Snflandrma Kmeleme Eri Uydurma (Regresyon) zellik seimi/karm

Makineler, insanln igcne saladklar katky, makine renmesi metotlar sayesinde insanln beyin gcne de salamaya balamlardr.

la Nedir?
WHO (Dnya Salk rgt) nun Tanm: Patolojik Olgular Ve Fizyolojik Sistemleri Bireyin Yarar Iin Deitirmek Ya Da ncelemek Amacyla Kullanlmas ngrlen rn

lalar Nasl alr?

lalarn etki mekanizmalarna bir rnek

lalardan Beklenen zellikler


Proteine ok sk ya da ok gevek balanmama Vcutta yan etkileri olmama Vcutta hedefin haricindeki blgelere gitmeme Kan dolamna girebilme Hastala iyi ynde etki edebilme

la gelitirme aamalar
4000-10000 Sentezi yaplan molekl in vitro / in vivo farmakolojik tarama testleri leri farmakolojik aktivite ve toksisite testleri 9-10 Molekl Klinik ncesi testler 1 Molekl Faz III testleri 1.5 Molekl Faz I / II testleri 4 Molekl

la olarak piyasaya srlr

Yaklak 800 milyon $


10-12 yl

la tasarmnda makine renmesi metotlarnn kullanm


Makine renmesi Metotlar
4000-10000 Sentezi yaplan molekl in vitro / in vivo farmakolojik tarama testleri leri farmakolojik aktivite ve toksisite testleri 9-10 Molekl Klinik ncesi testler 1 Molekl Faz III testleri 1.5 Molekl Faz I / II testleri 4 Molekl

la olarak piyasaya srlr

Molekllerin SDF formatlarndan hesaplanan zellikleri 3 grupta toplanmaktadr.

Molekllerden Saylara-1

Genel zellikler: Molekl Arl, Erime noktas, Kaynama noktas 2D zellikler: Molekl oluturan atomlarn birbirlerine ballklar, ba trleri, belirli fonksiyonel gruplarn moleklde bulunma saylar, halka saylar 3D zellikler: Yzey zellikleri

Molekllerden Saylara-2

MOE Adriana vs.

Molekl NH3 H2O NCI

zellik1 23

zellik2 5

zellikN

Snf 1

34

6.7

45

8.9

C4 H

67

Snflandrma
Karar Aalar Cline Algoritma Ailesi Deneysel Sonular

Karar Aalar

Cline Algoritma Ailesi


CL2 CL4

CLPCA

CLM

CLLDA

CLLVQ CLMIX, her blgede en iyi sonucu verecek metodu bulup kullanr. CLLDA

CLMIX
?
CLLDA CLM CLLVQ

CLM CLLVQ CLLDA

CLM CLLVQ

Cline Snflandrma Trleri


Yaprak = yapraklardaki snf etiketlerinin kullanlmas Dal = her bir dmdeki snf olaslklarnn kullanlmas
Test rnei aa zerinde ilerlerken getii her bir dmdeki bu olaslklar da toplayarak ilerler ve olasl yksek olan snfa atanr.

Veri Kmeleri
Veri Kmesi
Breast cancer Wisconsin Boston housing Congressional voting Bupa liver disorders StatLog heart disease

Kod
Bcw Bos Vot Bld Hea

zellik Says 9 12 16 6 7

Snf Says 2 3 2 2 2

rnek Says 683 506 435 345 270

Rasgele Baar (%) 64.71 33.33 61.36 57.14 55.56

Pima Indians diabetes


StatLog image StatLog vehicle silhouette

Pid
Seg Veh

7
19 18

2
7 4

532
2310 3772

66.67
14.29 25.88

Cline aalaryla elde edilen sonular


Metot Yaprak Dal Baar Oran Varyans 79.3 79.9 1.9 2.09 1.46

Baarlarna gre:
Dal>Yaprak Budanm>Budanmam CLMIX>dier Clinelar

Budanmam 79.5

Budanm
CL2 CL4 CLLDA

79.7
77.4 77.6 80.8

2.45
0.62 1.06 1.49

Varyanslarna gre:
Dal>Yaprak Budanm>Budanmam CLLVQ>dier Clinelar

CLLVQ
CLM CLMIX

80.0
79.9 82.1

0.37
0.79 1.73

%60 eitim, %40 test, optimum hata %21

CL2 %41

CLM %30

CLLDA %30

CLMIX %20

CLMIX daha baarl, nk:


Blgesel kararlar verebiliyor. Aacn tm karar dmlerinde ayn algoritmaya baml deil. Her Cline algoritmasn daha baarl olduu blgeye uyguluyor. Grltye daha dayankl.

Snflandrma Komiteleri
Karar Aalar

Karar Ormanlar

Toplu Sonular
CLM Forest CLLDA Forest CLLVQ Forest CLMIX CLMIX Forest ForestBS
Random Forest

Ormandaki aa says

10
20 30 100

81.29 0.87
82.34 0.74 82.27 0.4 82.82 0.27 81.84 0.91 82.52 0.51 81.90 0.75 82.46 0.79

82.89 1.26
82.53 1.35 82.39 1.74 82.52 1.43 81.46 0.88 83.70 0.26 82.49 1.38 82.67 1.33

81.37 1.15
82.18 0.52 82.34 0.43 82.85 0.25 81.75 0.93 82.62 0.37 82.12 1.01 82.25 0.63

82.65 1.23
83.03 1.21 83.56 1.41 83.76 0.83 82.38 0.71 84.12 0.79 82.85 0.96 83.65 1.26

81.93 1.77
83.16 1.6 83.64 1.35 84.64 1.03 82.13 1.29 84.56 0.9 83.22 1.78 83.47 1.62

82.80 1.13
83.95 1.06 84.09 1.05 84.23 1.03 84.01 1.05 83.52 1.06

Aalarn karar dmlerinde kullanlan zellik says


Test rneklerinin Snflandrlmasnda kullanlan yntem

log2M 2log2M Yaprak Dal

---

Toplu sonulardan elde edilen karmlar


En baarl algoritma bootstrapping kullanlm Cline ormanlardr. Ormandaki aa says arttka Cline ve Random ormanlarn baars artarken varyans da genelde azalyor. Ormanlarda kullanlan zellik says arttka Cline ormanlarnn baars artarken, varyans azalyor. Random ormanlarnn ise baars azalyor ve varyansnda nemli bir deiiklik yok. Bootstrapping Cline ormanlarnda baary arttryor. Cline ormanlarnda dal kullanm baary arttryor.

Veri Kmeleri

Algoritmalar CLMIX_forestBS_100_y_2log2M CLMIX_forestBS_100_d_2log2M CLMIX_forestBS_30_d_2log2M CLMIX_forestBS_30_y_2log2M Random Forest_100 _log2M

bcw

bos

vot

bld

hea

pid

seg

veh

Ort. Baar

Ort. std

* Says

? Says

* * * * *

* * * *

* * * * *

* * * * *

* * * * * * *

* * * * *

* * * * *

85.65 85.42 84.89 84.69 84.54

3.50 3.53 3.93 3.73 4.43

7 6 7 7 7

0 0 0 0 0

Random Forest_30_ log2M


QLO Random Forest_20_ log2M Random Forest_100_ 2log2M QL1 LMT
C4R C4T IM0 IB0 IM IC0 (CART) IB ST0 OCM OCU IC1 (CART) ST1 QU0 FTL FTU QU1 OCL CAL T1

*
* * * *
*

*
* * * *

*
* *

*
*

*
* * * * *
* * *

*
* * * * *

84.33
84.11 84.10 83.92 83.70 83.45
83.21 82.92 82.77 82.55 82.33 82.24 81.97

4.41
4.30 4.25

6
6 6 5 5 4
4 2 3 3 2 1 1 2 2 1 1 1 4 3 1 2 2 1 0

0
0 0 0 0 0
0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 2 1 5

* *
* *

* *

* * *

* * * * * * *

81.85 81.76 81.52 81.44 81.39 80.83 80.06 79.96 79.95 79.49 77.93

* * * *

* *

* *

* * *

* ? * ? ? ? ? ? *

* *

72.43

Bireysel sonulardan elde edilen karmlar


En baarl 4 Cline orman ve Random orman konfigrasyonlar, 22 karar aac ile karlatrlmtr. En baarl 4 algoritma Cline ailesindendir. Tek bir karar aac kullanmak yerine karar orman kullanmak daha baarl sonular retmektedir. Cline ormanlarnn varyanslar, Random ormanlardan daha azdr. Cline ormanlar 8 veri kmesinden 7sinde ilk standart sapma aralna girebilmitir. Bu da algoritmann eitli veri kmelerinde baarsn kantlamaktadr. Cline ormanlarnda dal kullanm varyans arttrmaktadr.

Eitim Zamanlar
Algoritmalarn eitimi iin gereken zaman arttka, performanslar da genelde artmaktadr. CLMIX orman, en fazla zaman gerektiren Cline algoritmasdr. CLMIX orman, en baarl algoritma olmasna ramen, en fazla eitim zamanna sahip algoritma deildir.

Aa Kararlarn Arlklandrma
Karar aalarnn verdikleri kararlara eit arlk vermek yerine aalarn eitli zelliklerine gre kararlar arlklandrlmtr: Dorulama-validation setindeki en baarl X tane aa kullanlarak: Eitim verisinden bir ksm dorulama verisi olarak ayrlm ve ormandaki her aacn bu dorulama setindeki baars llmtr. Ormann karar, en baarl X tanesinin kararnn ortalamasdr. Aataki karar dm saysyla doru/ters orantl olarak kararn arlklandrmak: Ormandaki her aacn karar dm says bulunmu ve aalarn kararlar normalize edilmi karar dm saysyla ya da tersiyle arplarak aalarn kararlar arlklandrlmtr.

la verilerindeki sonular
Algoritma RandomForest-10-8 RandomForest-20-8 RandomForest-30-8 RandomForest-100-8 RandomForest-10-16 RandomForest-20-16 RandomForest-30-16 RandomForest-100-16 CLMforest_100_yaprak_16 CLLVQ4_forest_100_yaprak_16
(arlkl yaprak says ile doru orantl )

bbp2 82,17 82,17 81,92 81,78 79,61 81,08 80,94 81,32 80 81,2 81,41 83,41

mono 91,95 93,1 93,79 93,29 92,37 93,42 93,65 93,86 93 93,35 93,23 93,81

Clean1 86,76 87,61 90,13 91,03 86,89 89,12 89,65 90,61 91 92,29 91,36 91,16

ca 68,42 71,92 70,37 71,97 69,46 70,87 71,08 71,77 73 72,12 71,2 73,76

mutag 87,76 88,82 88,82 90,82 90,39 90,49 90,82 90,45 89 90,5 88,25 89,25

232,00 56,89 57,32 58,18 59,87 57,85 58,57 59,65 59,36 58 59,25 56,09 60,47

Ort 78,99 80,16 80,54 81,46 79,43 80,59 80,97 81,23 80,66 81,45 80,26 81,98

CLLVQ_forest_100_yaprak_16
(arlkl yaprak says ile doru orantl )

CLM_forest_100_yaprak_16
(arlkl yaprak says ile doru orantl )

la verilerinden elde edilen karmlar


la verilerinde, en baarl algoritma yine Cline ailesindendir. Aa saysnn arttka Cline ve Random ormanlarda performans ykseliyor. Aalarda kullanlan zellik says arttka Cline ormanlarnda performans ykselirken Random ormanlarda pek deimiyor. CLLDA kt (nk ila verilerindeki zelliklerin birbiriyle yksek korelasyonu LDAdeki matris tersi alma ilemini rasgeleletiriyor). Bootstrapping kt (Sebebi bulunamad) Dal kt (Sebebi bulunamad) Budama kt (Sebebi bulunamad) Kararlarn yaprak saysyla doru orantl olarak arlklandrlmas, hepsinin ortalamasnn alnmasndan daha iyi sonu veriyor (nk byk budanmam aalar daha baarl).

Veri koleksiyonlarna gre karlatrmalar


UCI verileri la verileri

Aa says
Aalarda kullanlan zellik says En baarl algoritma

Arttka baar da artyor.


Arttka baar da artyor. CLMIX orman CLM orman

Bootstrapping
Dal Budama Karar Arlklandrma

Daha baarl
Daha baarl Daha baarl Denenmedi

Daha baarsz
Daha baarsz Daha baarsz Daha baarl

ClineToolbox

Kmeleme
Clusline Algoritmalar Deneysel Sonular

ClusLine
Karar aac yapsndadr (verileri hiper dzlemlerle alt uzaylara bler). Blme ilemi bittiinde her alt uzaydaki rneklerin merkezlerini kme merkezleri olarak belirler. Bir rnein ait olduu kmeyi belirlerken, oluan aac kullanmaz, rnee en yakn kme merkezinin kmesine atar.

ClusLine

1. adm

2.adm

Oluan kmeler

Oluan aa

Durma koulu: Veri kmesindeki tm rneklerin tm zelliklerinin varyanslarnn toplam, her bir dmdeki rneklerin tm zelliklerinin varyanslarnn toplamnn X katndan kkse blmeyi durdur. Kme says: Algoritma kendisi bulur. Tek parametre: X>1 olmal.

Clusline Versiyonlar
CLus2 CLus4

CLusW

14 veri kmesinden elde edilmi 37 kmeleme problemindeki performanslar


100 90 80 70 60 50 40 30 20 10 0 1 4 7 10 13 16 19 22 25 28 31 34 37 ClusLine2 ClusLine4 ClusLineW Farthest First Kmeans SOM

Snflandrma baarlar kriterine gre kmeleme alg. karlatrlmalar


ClusLine2 ClusLine4 ClusLineW Farthest First KMeans SOM

Ort. Snflandrma Baarlar (%) Ort. ranklar

73,4

72,7

73,3

61,5

75,1

74,2

3.595

3.297

3.622

5.216

2.622

2.649

Silet genilii ve DB indeksi kriterlerine gre kmeleme alg. karlatrlmalar


SOM

ClusLine2

ClusLine4

Farthest First ClusLineW

Kmeans

DB indeks, kme ii varyanslarn azln, kmeler aras uzaklklarn fazlaln ler. Siluet genilii, her bir rnein kendi kmesindeki dier rneklere uzaklnn azln, dier kmelerdeki rneklere uzaklnn fazlaln ler.

karmlar
Snflandrma baars ve ranka gre : K-means>SOM>dier Siluet Geniliine gre: Clusline2>Clusline4>dier Davies-Bouldin indeksine gre: SOM>Clusline2>dier Clusline basitliine ramen baarl sonular elde etmitir. Sadece SOM ve Clusline2, 3 kriterin 2sinde ilk 2ye girebilmilerdir. Siluet genilii ve DB indeks, tanmlarndaki benzerlie ramen olduka farkl sonular retmitir.

Kmeleme Komiteleri

Graf tabanl
rnek tabanl yaklam: Grafn keleri rnekler, kenar arlklar kenarn balad iki kedeki rneklerin ka kmeleme sonucunda ayn kme iinde yer aldklardr.
1
1 1

7 1 2 3 4 5 6 7

7 1 2 3 4 5 6 7

7 1 2 3 4 5 6 7

7 1 2 3 4 5 6 7

Kme tabanl yaklam: Grafn keleri kmeler, kenar arlklar kenarn balad iki kedeki kmenin birbirlerine Jaccard lmne gre benzerliidir ve Eitlik teki ekilde bulunur. Jaccard lm, ortak eleman saylarnn, birleim kmesinin eleman saysna oran olarak tanmlanmtr.
W (i, j ) Ci C j Ci C j

Birok kmeleyici sonucundan, kmeler aras benzerlik matrisi elde edilir.

Graf tabanl: Elde edilen matrisleri graf olarak dnp graf blmleme algoritmalarn kullanrlar. Hiyerarik:
Elde edilen matrislerden hiyerarik kmeleme yaparlar. Kmelerin benzerlikleri hesaplanrken en baarl sonucu centroid yaklam (kme merkezlerinin klid uzakl) vermektedir.

Karlatrlan yaklamlar
Graf Hiyerarik

rnek tabanl
Kme tabanl Meta Kme tabanl

Sonular
Kme says= Snf says En baarl kmeleme alg. Fuzzy Kmeans Kme says= says Kmeans Hiyerarik 2*Snf

En baarsz kmeleme alg. Hiyerarik

En baarl sonucu reten Hiyerarik (2log2M adet Hiyerarik (2log2M adet karar birletirme alg. zellik ve SOM ile) zellik ve Kmeans ile) Ortalama en baarl karar Graf tabanl (2log2M adet Graf tabanl (2log2M adet birletirme alg. zellik ile) zellik ile) Orijinal / birletirme orijinal<hiyerarik<graf sonularnn tabanl performans sralamas: Kmeleyicilerde kullanlan Log2M<2log2M alt uzaylardaki zellik saysnn (boyutun) etkisi hiyerarik<orijinal<graf tabanl Log2M<2log2M

Kmeleyici saysnn performansa ve standart sapmaya etkisi


0.77
Standart Deviations of Clustering Performances (%)
0.03

0.765
Clustering Performances (%)

0.025

0.76

0.755

0.02

0.75

0.015

0.745

0.01

0.74

0.735 0

25

50 75 100 Number of Combined Cluster Decisions

125

0.005 0

25

50 75 100 Number of Combined Cluster Decisions

125

(zellik says 2log2M)


0.705

0.045

Standart Deviations of Clustering Performances (%)


25 50 75 100 Number of Combined Cluster Decisions 125

0.7 0.695 0.69 0.685 0.68 0.675 0.67 0.665 0

0.04 0.035 0.03 0.025 0.02 0.015 0.01 0.005 0

Clustering Performances (%)

25

50 75 100 Number of Combined Cluster Decisions

125

(zellik says log2M)

1 *1 (0.7183) *2 (0.7374) *3 (0.7512) *4 (0.7572) *5 (0.7639)

0.9

0.8

performances

zellik saysnn performansa ve standart sapmaya etkisi

0.7

0.6

0.5

0.4

0.09

6 datasets

10

12

14
0.08

0.07

0.06

standart deviations

0.05 0.04

*1 (0.04) *2 (0.0393) *3 (0.0356) *4 (0.0269) *5 (0.0228)

0.03

0.02

0.01

6 datasets

10

12

14

karmlar
Kmeleyici saysnn art performans arttrrken standart sapmas azaltmtr. zellik saysnn art performans arttrrken standart sapmas azaltmtr. zellik says fazla iken kmeleyici says artarken performans daha hzl ykselirken, standart sapma daha hzl azalmaktadr.

zellik Seimi
zellik seimi karar aalaryla yaplabilir mi? Sorusuna cevap aranmtr. Gelitirilen metotla, 6 zellik seimi algoritmas 13 snflandrma veri kmesi zerinde karlatrlmtr. Her bir veri kmesinin nce 7 zellik seimi metoduyla boyutlar indirgenmi daha sonra 5 farkl snflandrma algoritmasnn bu veri kmeleri zerindeki performanslar (10 CV) llmtr.

1x2-0.33x1+0.13=0

x2

x1

SVMeval
Kullancnn istedii kadar zellik kalncaya kadar aadaki 2 adm tekrar et: 1.Snflandrma yapan hiper dzlemi SVMle bul. 2.Hiper dzlemin katsays mutlak deerce en kk olan zellii veri kmesinden sil.

Cline zellik Seim Orman


Cline karar aalarnda birok hiper dzlem bulunmaktadr. Cline karar ormanlarnda birok aa bulunmaktadr. Yeni metotla, hiper dzlem parametrelerinden zellik seimi yaplrken 2 adml bir ilem yaplr: 1. Her bir aataki hiper dzlem parametreleri kullanlarak kullancnn istedii adet zellik dndrlr. 2. Ormandaki tm ormanlardan gelen seilmi zelliklerden en fazla seilmi olanlardan kullancnn istedii adedi seilen zellikler olarak dndrlr. Her bir aatan zellik seimi iin iki metot gelitirilmitir: Aacn her dmnde bulunan hiper dzlemlerin parametrelerinin mutlak deerlerinin ortalamas alnarak zellikler, parametrelerin mutlak deerlerine gre bykten ke sralanp, en byk katsayya sahip olanlar seilir. Aacn kk dmnde bulunan hiper dzlemin parametrelerinin mutlak deeri bykten ke sralanp, en byk katsayya sahip olanlar seilir. (kullanlan)

Veri seti Amlall Ann

Snf says 2 3

rnek says 72 3772

zellik says
7129 21

Seilen zellik says


10 7

bi75ds3
derma gkanser Hava

9
6 2 2

315
286 456 281

470
34 30 34

11
10 8 11

Pima
Seg Wine Colon Mll Nerv Spam

2
7 3 2 3 2 2

388
210 118 62 57 60 4601

8
19 13 2000 12582 7129 57

3
6 6 10 11 10 11

zellik seimsiz
amlall ann bi75ds3 derma gkanser hava pima seg wine colon mll nerv spam ortalama 88 96,12 75,008 97,416 94,854 88,25 75,26 86,762 96,454 76,522 85,268 61,666 89,618 85,477

RAE 92,678 96,354 66,16 77,152 95,162 90,47 75,77 75,714 97,64 81,728 91,688 73,1 79,538 84,089

InfoGain 91,606 96,622 65,88 76,942 93,758 88,668 76,13 75,904 97,64 84,738 90,774 79,766 88,538 85,151

GainRatio 91,892 96,878 61,306 84,416 93,674 90,314 76,13 85,336 97,64 85,864 94,36 69,968 88,154 85,841

SUAE 91,608 96,634 65,628 75,056 93,892 89,678 76,13 75,524 97,64 83,88 90,254 73,168 89,826 84,532

OneRA 91,322 96,224 60,58 75,056 93,806 90,106 75,77 70,574 96,214 84,962 92,694 73,834 87,878 83,771

ChiKare 91,32 96,62 66,65 84,49 93,89 88,52 75,77 75,81 97,64 83,4 90,57 76,63 87,74 85,312

Karar ormanl zellik seimi


94,44 95,456 50,154 90,902 91,488 88,18 75,202 80,4736 93,896 84,19 90,872 76,996 86,856 84,55

Tablodaki her deer (son satr hari), 5 algoritma *10 CV=50 denemenin sonucudur.

karmlar
zellik seimi metotlar arasnda ok byk performans farkllklar yok. Ayrca zellik seimi 13 veri kmesinden 4nde baary azaltmtr. zellik seimi metotlar arasnda en baarls GainRatiodur ve zellik seimi yaplmadnda elde edilen ortalama baardan daha yksek baar elde eden tek metottur. Yeni gelitirilen metot sadece tek bir veri kmesinde baarl sonular vermitir ve gelitirilmeye ihtiyac vardr.

Regresyon
Algoritma.Kmeans Regresyon. Eitim: 1. Merkezleri rasgele ata. 2. Karesel hata bir eik deerinin altna ininceye kadar ya da maksimum tekrar saysna eriilene kadar 3. ,4. ve 5. admlar tekrar et. 3. rnekleri giri verilerine gre en yakn olduklar merkezlere ata. 4. Merkezleri kendi kmelerine dhil edilen rneklerin ortalamasna ek. 5. Merkezlere model olarak kendi kmelerindeki rneklerden geen lineer bir fonksiyon ata. Algoritma.Kmeans Regresyon. Test: Verilen rnee en yakn merkezi bul. Merkezdeki lineer modele gre rnein kn hesapla.

1.4 1.2 1 0.8 0.6 0.4 0.2 0 -0.2 -0.4 -1

KMreg (K=3) KNN (K=3) ANN-10

-0.8

-0.6

-0.4

-0.2

0.2

0.4

0.6

0.8

0.8

0.6

KMreg (K=2) KNN (K=2) ANN-10

0.4

0.2

-0.2

-0.4

-0.6 -1

-0.8

-0.6

-0.4

-0.2

0.2

0.4

0.6

0.8

KMregin problemi
0.6

0.4

KMreg KNN ANN

0.2

-0.2

-0.4

-0.6

-0.8 -1

-0.8

-0.6

-0.4

-0.2

0.2

0.4

0.6

0.8

Veri kmesi KmregK=6 KmregK=5

dela
2,80975E-08 2,85886E-08

dele
2,0937E-06 2,09641E-06

hous
15,70591 22,195441

kine
0,034173263 0,034112788

Mach
3267,8441 2165,8216

stoc
0,97289557 1,0736404

tria
0,041796712 0,052990556

wisc
239554,94 185378,38

KmregK=4
KmregK=3 KmregK=2 KmregK=1 KNNregK=6 KNNregK=5

2,87865E-08
2,94481E-08 2,96207E-08 2,96619E-08 3,74256E-08 3,82845E-08

2,09466E-06
2,09165E-06 2,09933E-06 2,09967E-06 2,6645E-06 2,70896E-06

15,025692
14,890469 14,944982 24,621887 40,150662 41,553513

0,035063155
0,036746358 0,038265193 0,040840563 0,013775948 0,014174928

2443,1484
6554,6184 2875,1032 5837,9955 3125,9503 5381,1499

1,3176651
1,6576803 2,031674 5,5020201 0,54574836 0,511075

0,052144635
0,038095091 0,034350601 0,023974772 0,021212522 0,022504716

3227,2873
4854,8612 1555,5286 1106,7495 1206,0418 1224,2698

KNNregK=4
KNNregK=3 KNNregK=2 KNNregK=1 m5p Pacereg

3,96111E-08
4,28769E-08 4,63232E-08 9,17237E-08 2,70603E-08 2,95565E-08

2,79697E-06
2,95249E-06 3,26563E-06 5,63869E-06 2,03082E-06 2,09737E-06

38,478578
40,12841 42,696759 85,107358 13,23486225 22,99645004

0,014799449
0,01612356 0,018846903 0,06944866 0,025679694 0,040801386

4140,7121
4143,7017 4270,3208 24885,115 2952,07204 4054,10145

0,46739104
0,43751096 0,41081003 42,223311 0,87560543 5,47645357

0,021173693
0,020174057 0,020109115 0,024801686 0,016987577 0,022194877

1310,1997
1399,1165 1608,5325 1268,8018 1141,09851 1128,13189

Lineerreg
m5rules Svmreg m5' Smoti

2,95668E-08
2,74631E-08 3,02169E-08 5,3824E-08 4,00001E-08

2,09772E-06
2,04041E-06 2,10616E-06 2,26576E-05 2,6569E-06

23,02706265
14,82917319 24,44568242 12,8164 18,31215173

0,040807883
0,030351243 0,04184553 0,02499561 0,037922499

3942,48030
4305,76992 4148,24907 3059,72931 3289,33916

5,46846396
0,94821679 5,74585459 3,32150625 1,23059086

0,025619303
0,017594057 0,021896305 0,04068289 0,024034301

1111,65417
1187,22476 1104,71176 2643,37471 2061,74479

Sarlar birinciler , Yeiller ikinciler.

karmlar
Her bir zellik iin elde edilen sonularn birletirilmesinde, ortalama alma gibi basit bir mekanizma kullanlmasna ramen umut vaad eden sonular elde edilmitir. Karlatrld algoritmalar literatrde en baarl olarak gsterilen algoritmalardr. Gelitirilmeye ihtiyac var.

Regresyon Komiteleri
25 komite-algoritma ikilisinin 36 ila veri kmesi zerindeki performans sralama ortalamalar
BG Rep M5P PLS2 SLR KS Ort 13.44 ADD ATT RS Orj Ort

8.47 10.67 11.36

8.61 10.51

14.14 12.92 11.86 14.33 13.42 13.33 16.31 14.81 14.33 15.89 14.89 15.24 11.28 11.14 11.36 13.06 10.56 11.48 15.50 12.94 14.81 16.03 12.89 14.43 14.13 12.06 12.61 14.13 12.07

Komite-Alg. ikililerinin 36 veri kmesindeki

performanslarna gre hiyerarik kmelenmeleri


50 ATT_SLR SLR RS_SLR BG_SLR ADD_M5P M5P ADD_SLR BG_M5P BG_PLS2 RS_PLS2 PLS2 ADD_PLS2 ATT_M5P ATT_PLS2 RS_M5P BG_Rep ADD_Rep Rep ATT_Rep RS_Rep BG_KS RS_KS ADD_KS KS ATT_KS 100 150 200 250 300 350

Algoritmalarn performanslar, komite metotlarna gre deil, komitelerdeki algoritmalara gre kmelenmi.

la veri kmelerinden elde edilen sonular


Soru Cevap

Orijinal algoritmalar yerine komiteleri kullanmak daha baarl sonular retir mi? Hangi komite daha baarl sonular retmektedir? Hangi algoritma komite ikilisi en iyi/kt sonular retmektedir? Hangi algoritmalar komitelerle daha iyi almaktadr? Hangi algoritmalar daha iyi almaktadr? Algoritmalarn birbirlerine benzerlikleri (performanslarna gre) nasldr?

Genelde hayr.

Sralama: ADD > Orj > ATT > BG =RS En iyi: ADD - Rep En kt: BG - PLS M5P ve PLS , 2 komitede (ADD, ATT) tek bana kullanldklarndan daha baarl sonular vermitir. Sralama: Rep > SLR > KS > M5P > PLS2 Temelde algoritmalar komite trlerine gre deil komitelerde kullanlan algoritmalara gre gruplanmtr. Bu nedenle performans komite trnn deil komitede kullanlan algoritmann belirledii sylenebilir.

Meta Regresyon
Her veri kmesinde en iyi performans veren bir algoritma yok. Performanslar veri kmesine baml. Bu durumda deneme yanlma metodu kanlmaz m?

Sorular
Bir algoritmann performansn tahmin etmek mmkn mdr? Veri kmesinin hangi zellikleri performans etkiliyor? Veri kmesinin hangi zelliklerine bakarak algoritmalarn performansn tahmin edebiliriz?

Meta veri kmesi


Meta zellik1 Veri kmesi1 Veri kmesi2 Veri kmesi3 Meta zellik2 Meta zellik3

...

Alg. performas

...
Veri kmesiN

Meta zellik Grubu STA

erdii meta zellik says 15

Aklama

Veri kmesinin ilk bata gze arpan istatistiki zellikleri (rnek says, zellik says vs.)
Veri kmesinin Kurtosis, skewnes, 3. ve 4. dereceden moment, korelasyon matrisleri gibi istatistiki zellikleri Yaplan kmeleme ilemleri sonucunda elde edilen zellikler (rneklerin kmelere dalmlar, kme saylar) retilen Karar aalarnn eitli zellikleri (yaprak says, dm says) eitli algoritmalarn yaptklar hatalarn RMSE deerleri Temel bileen analiziyle bulunan zellikler

ST2

220

CLUS

REGT
RMSE PCA Toplam

18
15 22 295

Friedman
60 50 50

100 40

150 30

200 20

250 10

300 50 100 150 200 250 300

Friedmanda yksek korelasyonlu zellikler


5
1707 CLUS

29

18

220
ST2

15
STA

22
PCA

1
colli

CLUS RMSE REGT 1 5 2

RMSE
REGT ST2

55

26
24

46
1 1346

6
2 3

31

54

42

STA
PCA

3
57

karmlar
PLS ailesi birbiriyle ilikilidir. Ancak PLSnin bileen says arttka iliki azalmaktadr. rnek says M5P, Reptree ve M5rules ile ters ilikili. Yani rnek says arttka algoritmalarn performans dm. Colinearity derecesi skewness, kurtosis, 3. ve 4. dereceden momentlerle ilikilidir. Bu iliki colinearity derecesi bilinmeyen veri kmelerinin colinearity tahmininde kullanlabilir.

Friedman koleksiyonunda algoritmalarn performanslarna gre kmelenmesi


25

20

rnek tabanl algoritmalar bir kmede toplanm


15

10

0 SMO SVM PLS1 PLS2 PLS3 PLS4 PLS5 LR GausP mt.Dag mt.ES mt.Vo ConR DecS LWL SLR mt.St ZeroR RBF IBK Kstar M5P mt.Bag M5R mt.AR mt.AS mt.RS mt.RD REPT

Lineer karakteristie sahip algoritmalar bir kmede toplanm

Karar aac algoritmalar ayn kmede toplanm

Friedman koleksiyonunda veri kmelerinin performanslarna gre kmelenmesi


0 2 4 6 8 10 12 14 fri_c4_100_100 fri_c3_100_25 fri_c2_100_25 fri_c4_100_50 fri_c3_100_50 fri_c2_100_50 fri_c1_100_50 fri_c0_100_50 fri_c0_100_25 fri_c0_500_5 fri_c0_1000_5 fri_c0_250_50 fri_c0_250_25 fri_c0_500_50 fri_c0_1000_50 fri_c0_500_25 fri_c0_1000_25 fri_c0_100_10 fri_c0_250_5 fri_c0_100_5 fri_c0_250_10 fri_c0_500_10 fri_c0_1000_10 fri_c3_100_5 fri_c3_250_5 fri_c2_250_5 fri_c1_500_5 fri_c1_250_5 fri_c3_500_5 fri_c3_1000_5 fri_c2_1000_5 fri_c2_500_5 fri_c1_1000_5 fri_c4_250_100 fri_c4_250_50 fri_c3_250_50 fri_c3_100_10 fri_c4_250_25 fri_c3_250_25 fri_c1_250_25 fri_c1_250_50 fri_c2_250_25 fri_c1_100_25 fri_c2_100_5 fri_c1_100_5 fri_c3_250_10 fri_c4_250_10 fri_c1_250_10 fri_c2_100_10 fri_c4_100_25 fri_c4_100_10 fri_c1_100_10 fri_c4_500_100 fri_c2_250_50 fri_c4_500_50 fri_c2_500_50 fri_c2_500_25 fri_c1_500_50 fri_c2_1000_50 fri_c2_1000_25 fri_c4_1000_50 fri_c4_1000_100 fri_c3_500_50 fri_c4_500_25 fri_c3_500_25 fri_c1_500_25 fri_c3_1000_50 fri_c4_1000_25 fri_c3_1000_25 fri_c1_1000_50 fri_c1_1000_25 fri_c2_250_10 fri_c2_500_10 fri_c1_500_10 fri_c2_1000_10 fri_c4_500_10 fri_c3_500_10 fri_c1_1000_10 fri_c4_1000_10 fri_c3_1000_10 -1 0 1

Genelde boyut says, rnek says gre kmelenmiler. Colinearity=0 olanlar ve olmayanlar ayr ayr kmelenmiler.

ila
60 50 50

100 40

150 30

200 20

250

10

50

100

150

200

250

la verilerinde yksek korelasyonlu zellikler


5
853 CLUS CLUS 1

19
RMSE

18
REGT

220
ST2

15
STA

22
PCA

RMSE
REGT ST2

36
11

4
39 562 8 78 2 35

STA
PCA

10

5
62

karmlar
Korelasyon, friedman koleksiyonundan daha az. Ekstrem rnek says ile, M5R kurallarnda geen zellik says ok ilikili (0.96). Veri ne kadar dalmsa, kurallar o kadar kompleksleiyor. zelliklerin birbirleriyle korelasyonu ne kadar bykse, cfs ile seilen zellik oran o kadar azalyor (-0.91). PCAle varyansn %95 ini aklayan boyut says ne kadar bykse cfs ile seilen zellik oran o kadar byk (0.9). kn standart sapmas ne kadar bykse REPTree, RBF, ConjunctiveRule algoritmalar o kadar baarl sonular retiyor.

la koleksiyonunda algoritmalarn performanslarna gre kmelenmesi

16

14

12

10

Lineer tabanl alg. ayn grup iindeler

PLSler bir araya toplanm

SMO SVM

SLR

LR

ConR REPT RBF ZeroR DecS M5P M5R Kstar

IBK

LWL PLS1 PLS2 PLS3 PLS4 PLS5

Algoritmalar birbirinden ok uzak iki kmeye blnm.

la koleksiyonunda veri kmelerinin performanslarna gre kmelenmesi


0 qsbralks _13_21 stevenson_5_1142 lew is_7_1142 yokoyama1_13_1142 siddiqi_10_1142 yokoyama2_12_1142 thompson_8_1142 garrat2_14_1142 doherty_6_1142 uejling_9_1142 tsutumi_13_1142 mtp2_274_1142 strupcz_34_1142 depreux_26_1142 krystek_30_1142 chang_34_1142 rosow sky_10_1142 heyl_11_1142 cristalli_32_1142 svensson_13_1142 penning_13_1142 carbolenes_37_1142 qsfrdhla _16_33 selw ood _31_53 qsbr_y2 _25_9 pdgfr _79_320 qsfsr2 _19_9 qsabr2 _15_9 PHENETYL1 _22_628 Phen _22_110 pah_80_112 mtp_4450_202 qsbr_rw 1 _14_50 qsprcmpx _22_39 qsartox _16_23 garrat_10_1142 qsfsr1 _20_9 qsabr1 _15_9 benzo32_195_32 yprop_4_1_8885_251 topo_2_1_8885_266 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

zellik says 1142 olan veri kmeleri bir grupta toplanmlar.

UCI
60 50 50

100 40

150 30

200 20

250

10

50

100

150

200

250

UCI verilerinde yksek korelasyonlu zellikler


5
655 CLUS CLUS 1

18
RMSE

18
REGT

220
ST2

15
STA

22
PCA

RMSE
REGT ST2

55
28

8
3 502 2 6

STA
PCA

7
43

karmlar
Korelasyon, friedman koleksiyonundan daha az. kn standart sapmas ne kadar bykse ZeroRule, RBF, ConjunctiveRule, PLS1, Decstump, LMS algoritmalar o kadar baarl sonular retiyor. rnek says ne kadar oksa, karar aalarnn boyutu da o kadar byk oluyor (0.88).

UCI koleksiyonunda algoritmalarn performanslarna gre kmelenmesi

4.5

3.5

2.5

1.5

0.5

SMO SVM ConR DecS LWL

SLR

ISO

PLS1 PLS2 LMS

LR

IBK

Kstar M5P

M5R

RBF ZeroR MLP

PLSler ayn kmedeler.

rnek tabanl algoritmalar bir kmede toplanm

UCI koleksiyonunda veri kmelerinin performanslarna gre kmelenmesi


hungarian _294_22 pol _15000_48 wisconsin _194_32 phary nx _195_213 sleep _58_7 mbagrade _61_2 f ruitf ly _125_8 echoMonths _130_9 pbc _418_23 breastTumor _286_34 gascons _27_4 bolts _40_7 puma8NH _8192_8 quake _2178_3 triazines _186_60 diabetes_numeric _43_2 detroit _13_13 elusage _55_13 cal_housing _20640_8 v eteran _137_10 sensory _576_32 schlv ote _37_5 puma32H _8192_32 v iney ard _52_3 pollution _60_15 py rim _74_27 kin8nm _8192_8 serv o _167_19 housing _506_13 lowbwt _189_19 cholesterol _303_22 baskball _96_4 bank32nh _8192_32 body f at _252_14 delta_elev ators _9517_6 meta _528_65 delta_ailerons _7129_5 autoHorse _203_65 machine_cpu _209_6 cpu _209_36 elev ators _16599_18 ailerons _13750_40 strike _625_23 house_8L _22784_8 house_16H _22784_16 abalone _4177_10 longley _16_6 stock _950_9 f ishcatch _158_13 cloud _108_9 bank8FM _8192_8 pwLinear _200_10 autoMpg _398_25 auto_price _159_21 auto93 _93_61 f ried _40768_10 2dplanes _40768_10 mv _40768_12 cpu_small _8192_12 cpu_act _8192_21

10

rnek saylar ve zellik saylarna gre bir kmelenme yok.

Zero ruleun RMSE Ort. Yapay veri kmesi koleksiyonu (80 veri kmesi) 0.995

En baarl algoritma ve RMSE Ortalamas meta.Bagging 0.501

En baarl algoritmalar (RMSE ortalamalarna gre srasyla) meta.Bagging M5P M5rules meta.AttrSelClas meta.RndSubSpc Reptree

la veri kmesi koleksiyonu (41 veri kmesi)

0.25

Kstar 0.222

Kstar PLS1 PLS2 PLS4 PLS3 M5P IBK PLS5 ConjunctiveRule


M5P M5R PLS2 Kstar Isotonic Reg PLS1

UCI veri kmesi koleksiyonu (60 veri kmesi)

0.195

M5P 0.106

Friedman verilerinde algoritma performans tahminleri


Performans tahmin edilen algoritma Meta.Bagging Meta.Bagging Meta zellik says 286 19 Korelasyon katsaylar 0.9064 0.9372

M5P
M5P meta.AttriSelectedClassifier meta.AttriSelectedClassifier

286
108 286 7

0.9117
0.9133 0.3761 0.7853

meta.RandomSubSpace
meta.RandomSubSpace Reptree Reptree

286
25 286 20

0.8897
0.9284 0.9135 0.9195

la verilerinde algoritma performans tahminleri


Performans tahmin edilen algoritma PLS1 PLS1 Kstar Kstar M5P M5P IBK IBK Meta zellik says 286 8 286 8 286 11 286 6 Korelasyon katsaylar 0.3791 0.7516 0.2913 0.808 -0.0219 0.4663 0.5392 0.585

UCI verilerinde algoritma performans tahminleri


Performans tahmin edilen algoritma M5P M5P PLS2 PLS2 Meta zellik says 286 9 286 13 Korelasyon katsays 0.8814 0.8813 0.9349 0.9277

Kstar
Kstar Isotonic Reg. Isotonic Reg.

286
9 286 10

0.9471
0.9524 0.9048 0.9484

Algoritma performans tahminleri


Meta zellik REGT.Veri kmesi zerinde M5rules ile bulunan kural saysnn rnek saysna oran RMSE.Decstump algoritmasnn veri kmesi zerindeki RMSE deeri REGT.Veri kmesi zerinde oluturulan M5P karar aacnn yapraklarnda (kararlarnda) en az 1 kere kullanlm zellik says REGT. Veri kmesi zerinde oluturulan M5P karar aacndaki yaprak saysnn rnek saysna oran REGT. Veri kmesi zerinde oluturulan M5P karar aacnn yapraklarnda en az 1 kere kullanlmu zellik saysnn zellik saysna oran STA. Veri kmesinde cfs ile seilen zellik says 3 koleksiyondan kanda kullanld

3
3
2 2

2 2

STA. Veri kmesindeki rnek says

Her veri koleksiyonunda en baarl algoritma farkl bir algoritmadr, dolaysyla hibir algoritmann tm veriler zerinde en baarl olmad grlmtr. la veri kmelerinde, algoritmalarn rasgele hatay (zero rule hatas) ok az drebildikleri grlmtr. Bu nedenle en zor modellenebilen veri kmeleri olduklar sylenebilir. M5P algoritmas her 3 veri kmesi koleksiyonunda da en iyi performans gsteren algoritmalar arasndadr. Bir algoritmann veri kmesindeki hatas bykse, onu tahmin etmek zordur. Baarl sonular tahmin etmek daha kolaydr.

PLSin bileen saysnn analizi


0.8 0.7 0.6
20

Veri kmesi says

0.5 0.4 0.3 0.2 0.1 0

18 16 14 12 10 8 6 4 2 0

0.05

0.1

0.15

0.2

0.25

K saysnn deiiminin performansa etkileri

K deerinin hata zerinde oluturduu deiimin standart sapmalarnn histogram

PLS algoritmasnda kullanlacak optimum bileen says meta renme yaklam ile belirlenemez. Bileen says ou veri kmesi zerinde PLSin performans zerinde etkili deildir. Minumum hataya sahip olan K deerleri incelendiinde ve en fazla minimum hataya sahip K deerinin 10 veri kmesi ile 2 deeridir. Onu 5er veri kmesiyle 1 ve 5 deerleri takip etmektedir.

Ne zaman hangi algoritma


60 UCI verisi en baarl algoritma isimleriyle etiketlendi (7 snf)
Rasgele baar %40 En baarl sonu %53 (10 CV)

Bu algoritma uygun mu sorusuna cevap veren 2 snfl veri kmeleri oluturuldu.


M5 iin rasgele baar %60, en baarl sonu %95 SVM iin rasgele baar %88, en baarl sonu %95 PLS iin rasgele baar %90, en baarl sonu %97

Hangi zellikler
En baarl algoritmay tahmin ederken kurallar reten snflandrclarda en ok kullanlan zellikler REGT, STA grubundan RMSE haricinde, algoritma performans tahminleriyle paralel

Genel Sonu
Tezin amalar ve gerekletirilenler:
Makine renmesi alannda yeni ve daha baarl algoritmalar gelitirmek:
Cline, Clusline Daha da ileriye grtlebilecek algoritmalar (KmeanReg, Karar ormanl zellik seimi, Hiyerarik kmeleme komiteleri, Meta regresyon)

la tasarm alanna uygulamak:


Saysal ila veri kmeleri oluturuldu. Baarl sonular bu alanda da elde edildi.

Makine renmesi aratrmaclar iin veri tabanlar oluturulmas:


Meta regresyon

Baz Kaynaklar
Alpaydn, E., (2004), Introduction to Machine Learning, The MIT Press. Breiman L., (2001), Random Forests, Machine Learning 45 (1), 5-32. Strehl A. ve J. Ghosh, (2002), Cluster Ensembles A Knowledge Reuse Framework for Combining Multiple Partitions, Journal of Machine Learning Research, vol.3 , 583-617. Tjen-Sien Lim, Wei-Yin Loh ve Yu-Shan Shih, (2000), A Comparison of Prediction Accuracy, Complexity, and Training Time of Thirty-three Old and New Classification Algorithms, Machine Learning, vol.40, 203-229. Witten I. H. ve Eibe Frank, (2005), Data Mining: Practical machine learning tools and techniques, 2nd Edition, Morgan Kaufmann, San Francisco.

Teekkrler

You might also like