Professional Documents
Culture Documents
net/publication/267297819
Article
CITATIONS READS
0 277
8 authors, including:
Zehra Cataltepe
Istanbul Technical University
97 PUBLICATIONS 499 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Dynamic Security Assessment and Enhancement of Large Scale Electric Power Systems via Machine Learning Techniques and Population based Optimization Methods
View project
All content following this page was uploaded by Zehra Cataltepe on 18 October 2015.
Diğeri ise maksimum ilişki (maximum relevance) koşuludur: belirtmektedir. Bizim yöntemimizde iki nokta ya da diğer bir
deyişle iki öznitelik, Fi and F j , arasındaki ağırlık,
1
max V , V=
S
∑ I (F , H ) ,
Fi ∈S
i (3) ω ( Fi , F j ) , bu öznitelik çifti arasındaki simetrik belirsizlik
ile ifade edilmektedir. Bu entropi tabanlı doğrusal olmayan
Bu iki koşulu birleştiren iki basit kombinasyon ise şu şekilde
korelasyona SU denir ve şu şekilde hesaplanır:
ifade edilebilir:
max(V − W ) , (4)
IG ( Fi | F j ) , (10)
max(V / W ) , (5) SU i , j = 2
Yukarıdaki ifadelere göre en iyi kümenin elde edilmesi H ( Fi ) + H ( F j )
S
O( N ) arama gerektirdiği için, MRMR algoritması bu Daha önce tanımlandığı gibi Fi and F j iki ayrık rastlantı
optimizasyon sorununu şu şekilde çözer. Öncelikle ilk
değişkenidir ve sırasıyla öznitelik i ve öznitelik j ’yi temsil
öznitelik Eşitlik (3)’e göre seçilir. Bundan sonraki her
basamakta Eşitlik (6) ve (7)’yi sağlayan öznitelik i seçilir ve ederler.
seçilen öznitelik S kümesinde tutulur. Ω S = Ω − S seçilmiş IG ( X | Y ) = H ( X ) − H ( X | Y ) , (11)
öznitelikler dışında kalan tüm öznitelikleri ifade etmektedir.
max I ( H , Fi ) ,
Fi∈ΩS
(6) H (X ) = ∑ p( x) log ( p( x)) ,
x∈ X
2
(12)
1 H ( X | Y ) = ∑ p ( y ) ∑ p( x | y ) log 2 ( p ( x | y )) ,
min
Fi ∈Ω S S
∑ I (F , F ) ,
F j ∈S
i j (7)
y∈Y x∈ X
(13)
Eşitlik (6) ve (7)’nin eşitlik (4) ve (5)’e göre kombine edilmesi Bizim metodumuzda ω ( Fi , F j ) , SU i , j ’ye eşittir ve R1 ve
algoritma için iki seçilim kriterini ortaya çıkarmaya yeter: R2 arasındaki genel benzerlik (kararlılık seviyesi) aşağıda
Tablo 1:MRMR algoritmasının öznitelik seçme kriterleri gösterilen formül ile hesaplanmaktadır:
İsim Formül
Sim M ( R1 , R2 ) =
∑ (F , F ) ∈ M ,ω(F , F ) ,
i j i j
(14)
1 M
Ortak Bilgi
Farkı max I ( Fi , H ) −
S
∑ I ( Fi , F j )
Burada M , G çizgesindeki maximum eşleşmedir. Diğer bir
Fi ∈Ω S
(MID) F j ∈S
deyişle M iki öznitelik seti, R1 ve R2 , arasındaki maksimum
(8)
ağırlıklı eşleşmeyi temsil eder. Maksimum ağırlıklı iki parçalı
1 çizge eşleştirme problemi birçok şekilde çözülebilmektedir.
Ortak Bilgi
Oranı max I ( Fi , H ) /
S
∑ I ( F , F )
i j Biz optimum sonuca ulaşmak için Hungarin algoritmasını
(MIQ)
Fi ∈Ω S
F j ∈S kullandık. Algoritma Tennesse Üniversitesi’nden Alexander
(9)
Melin tarafından koda dökülmüş ve Matlab Central internet Tablo 2:Veri kümeleri ve özellikleri
sitesinden elde edilmiştir. İsim Örnek Öznitelik Sınıf Sayısı
İki öznitelik seti arasındaki benzerliği (kararlılığı) ölçmek Sayısı Sayısı
için böyle bir yöntemin kulanılmasının nedeni özniteliklerin Musk(Versiyon 476 166 2{0, 1}
indekslerinden ziyade içerdikleri değerlere bakarak benzerlik 1) Veri Kümesi
ölçmenin daha doğru olduğunu saptamamızdandır. Bu yöntem El Yazısı Rakam 3823 64 10{0,..,9}
iki öznitelik kümesinin çok sayıda farklı indekse sahip Veri Kümesi
öznitelik içermesine rağmen bu özniteliklerin aralarında
yüksek derecede bağlılık (korelasyon) olduğu durumlarda daha 5. Deneysel Metodoloji
mantıklı sonuçlar vermektedir.
Bizim kararlılık ölçütümüz [3]’te açıklanan yöntemden iki Bir öznitelik seçme algoritmasının kararlılığı değişken eğitim
açıdan farklıdır. İlk olarak ilgili makalede tek tek kümelerinden elde edilmiş öznitelik kümeleri sonuçlarının
özniteliklerden oluşan iki öznitelik kümesi arasındaki ortalama benzerliği olarak tanımlanabilir. Her bir veri alt
kararlılıktan ziyade öznitelik gruplarından oluşan öznitelik kümesi rastgele seçim yada bootstrap algoritmasının sonucu
kümeleri arasındaki kararlılık ölçülmeye çalışılmaktadır. İkinci olarak oluşturulabilir.
olarak ise çizgede öznitelik grupları arasındaki ağırlıklar bizim N tane örnek içeren bir D veri kümesi kullanılarak
kullandığımız simetrik belirsizlik yönteminden farklı olarak öznitelik seçme algoritmasının kararlılığı ölçülecek olsun.
her bir grubun merkezinde yer alan ya da grubu en iyi şekilde Bunu gerçekleştirmek için ilk olarak deney kümelerini
tanımlayan öznitelikler arasındaki korelasyon katsayısına oluşturmak gerekir. Bu çalışmada tüm veri kümesinden 10 kez
bakılarak hesaplanmaktadır. Bizim metodumuz [3]’te N örnek içerecek şekilde veri bootstrap algoritması
açıklanan yöntemin özel bir halidir ve öznitelik grupları yerine
kullanarak çekildi. Bu işlemin sonucunda 10 eğitim kümesi,
tek tek öznitelikler arasındaki benzerlik yukarıda belirtilen
simetrik belirsizlik yöntemiyle saptanmaktadır. Dtrain,i , i = 1,2,..., q , q = 10 oluşturuldu. Her bootstrap
işleminden sonra Dtrain,i veri kümesine ait olmayan tüm
4. Veri Kümeleri
örnekler Dtest ,i veri kümesinde tutuldu ve bu veri kümeleri
Bu bölümde deneylerin gerçekleştirildiği veri kümeleri
tanıtılacaktır. Veri kümelerinin üstünde MRMR algoritması başarım oranlarının hesaplanması için kullanıldı. Algoritmanın
MID ve MIQ teknikleriyle uygulanmadan önce tüm kararlılığını göstermek için ilk olarak öznitelik seçme
öznitelikler maximum ve minimum değerleri arasında 10 algoritması tüm eğitim veri kümelerinin üzerinde uygulanarak,
bölmeye ayrılarak ayrık rastlantı değişkenleri haline öznitelik kümeleri, Ri ’ler elde edildi. Öznitelik seçme
getirilmiştir. algoritmasının kararlı davranmasının, eğitim kümesinin örnek
sayısındaki azalmaya rağmen tüm veri kümesi kullanılarak
4.1. Musk(Versiyon 1) Veri Kümesi elde edilen öznitelik kümesi olan Ri ile benzer, tutarlı
Bu 47’si uzmanlar tarafından musk olarak nitelenen ve geri öznitelik kümeleri üretmesi olarak tanımlanmıştı. Bu amaçla
kalan 45 tanesinin musk olmayan diye tanımlandığı 92
her bir eğitim veri kümesinden ( Dtrain ,i ), r * Dtrain ,i
molekülü barındıran bir veri kümesidir. Amaç yeni
moleküllerin musk olup olmadıklarını saptamaktır. Bu veri
kümesini üretmek amacıyla ilk olarak moleküllerin düşük
[
( r = r 1 , r 2 ,..., r j ] ), sayıda örnek alınarak bu veri
enerjili biçimlenmeleri üretilmiştir, daha sonra bunlardan çok kümelerinde MRMR algoritması uygulandı ve Ri j öznitelik
benzer olanlar atılmıştır. Bu işlemin sonunda geriye 476 kümeleri elde edildi. Sonuç olarak her bir r oranı için q adet
biçimlenme kalmıştır. Son olarak bu 476 biçimlenme için 166
adet öznitelik çıkarılmıştır. Bu veri kümesi UCI Machine
Ri ve Ri j öznitelik kümesi oluşturuldu.
Learning Repository internet sitesinden alınmıştır [5]. Deneylerimizde, 5 tane r değeri kullanıldı,
r = [0.1, 0.25, 0.5, 0.75, 1] . Sonuç olarak her bir r j oranı
4.2. El Yazısı Rakamlar Veri Kümesi için, q veri alt kümesinde algoritmanın kararlılığı şu şekilde
El yazısı rakamların normalize edilmiş bit haritaları NIST hesaplandı:
tarafından sağlanan önişleme programlarını kullanarak 1 q
çıkartılmıştır. Biz bu çalışmada veri kümesinin 43 insandan ∑ Sim M ( Ri , Ri j ) ,
q i =1
(15)
30’unun katkıda bulunduğu eğitim setini kullandık. El yazısı
rakamların 32x32 bit haritaları 4x4 lük üst üste gelmeyen Deneylerde kararlılık ve başarım hesaplamaları mevcut
bloklara bölünmüş ve her bir bloktaki dolu piksel adedi eğitim veri kümelerindeki örnek sayısını azaltarak ve bootstrap
sayılmıştır. Bu her bir rakam için 1...16 aralığında tam sayı sayısını fazla tutmaya çalışılarak gerçekleştirildi. [3]’te ise
değerlerinden oluşan 8x8’lik bir veri matrisi elde edilmesine kararlılık hesaplamaları sadece tek bir bootstrap yapılmış veri
yol açmıştır. Veri kümesindeki örnek sayısı 3823’tür ve kümesi üzerinden gösterilmeye çalışılmış, bu da r değerinin
yukarıdan da anlaşılacağı gibi her bir örnek için 64 öznitelik yaklaşık olarak 0.632’ye eşit olduğu duruma karşılık
tanımlıdır. Sınıf etiketleri rakamların gerçek tam sayı gelmektedir ([4] p. 333). MID ve MIQ tekniklerinin kararlılık
değerlerinden oluşmaktadır. Bu veri kümesi UCI Machine karşılaştırmaları ve elde edilen öznitelik kümelerinin Dtest ,i
Learning Repository internet sitesinden alınmıştır [5].
veri kümelerindeki başarım oranları Deney Sonuçları kısmında
görülebilir.
6. Deney Sonuçları
Deneylerde sınıflandırıcı algoritması olarak k-en-yakın-komşu
(knn: k-nearest neighbor) sınıflandırıcısı kullanılmış ve k
değeri 3 olarak alınmıştır. Hesaplamalar her iki veri
kümesinde olası tüm öznitelik sayıları için yapılmıştır.
Şekil 1 ve 2’de Musk (Versiyon 1) veri kümesi üzerinde,
tüm verinin %25’i ( r = 0.25 ) kullanılarak yapılan deney
sonuçları gösterilmiştir. Şekil 1’de görüldüğü gibi, MID
yöntemi ile elde edilen kararlılık değerleri bütün seçilen
öznitelik sayıları için MIQ’dan daha fazladır. Şekil 2’de
görüldüğü gibi MID ve MIQ’nun başarım değerleri arasında
belirgin bir fark bulunmamaktadır. Yer darlığı dolayısı ile Şekil 4. El Yazısı Rakam veri kümesinde MID ve MIQ’nun
diğer r değerleri ve el yazısı rakam veri kümesindeki ortalama kararlılık değerleri (Öznitelik sayısı = 20)
sonuçların grafikleri verilememiştir. Fakat onlarda da aynı
durum gözlenmiştir. 7. Sonuçlar
Bu bildiride, MRMR öznitelik seçme yönteminin iki değişik
uygulaması, MID ve MIQ, başarım yönünden olduğu gibi,
kararlılık yönünden de incelenmiştir. Kararlılığın değişen veri
kümesi boyutlarında ölçülmesi için tüm veri yerine verinin
değişik sayıda alt kümeleri alınarak öznitelik seçimi yapılmış
ve bu durum için bir kararlılık ölçme yöntemi geliştirilmiştir.
MID yönteminin, özellikle veri kümelerinin küçük olduğu
durumlarda, MIQ’dan daha kararlı olduğu görülmüştür.
Teşekkür
Şekil 1. Musk (Versiyon 1) MID ve MIQ kararlılık değerleri Yazarlar SUNY Binghamton Üniversitesi Bilgisayar Bilimleri
Bölümü’nden Prof. Lei Yu’ya kararlı öznitelik seçimi
konusundaki yardımlarından, Türkiye Bilimsel ve Teknolojik
Araştırma Kurumu’na(TÜBİTAK) sağlanan burstan dolayı
teşekkür ederler.
8. Kaynakça
[1] C. Ding and H.C. Peng, “Minimum Redundancy Feature
Selection from Microarray Gene Expression Data,” Proc.
Second IEEE Computational Systems Bioinformatics
Conf., pp. 523-528, Aug. 2003.Lee, K.-F., Automatic
Speech Recognition: The Development of the SPHINX
SYSTEM, Kluwer Academic Publishers, Boston, 1989.
Şekil 2. Musk (Versiyon 1) MID ve MIQ başarım değerleri
[2] L. Yu and H. Liu. "Feature Selection for High-
Şekil 3 ve 4’de, 20 öznitelik seçilmesi durumunda MID Dimensional Data: A Fast Correlation-Based Filter
ve MIQ yöntemlerinin 10 deneyde buldukları kararlılık Solution". In Proceedings of The Twentieth International
değerleri bütün r değerleri için gösterilmiştir. Bu şekillerde Conference on Machine Learning (ICML-03), pp 856-
de görüldüğü gibi, MID, MIQ’dan daha kararlı sonuçlar 863, Washington, D.C., August 21-24, 2003.
vermektedir.
[3] Lei Yu, Chris Ding, and Steven Loscalzo. "Stable Feature
Selection via Dense Feature Groups". to appear in
Proceedings of The 14th ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining
(KDD-08), Las Vegas, NV, August, 2008.