T.C.

İstanbul Üniversitesi
Fen Bilimleri Enstitüsü Enformatik Doktora Programı

KORELASYON TABANLI NİTELİK SEÇİMİ

Ferhat Özgür ÇATAK OCAK, 2011 İSTANBUL

İçindekiler
İçindekiler............................................................................................................... 2 GİRİŞ....................................................................................................................... 4 VERİ MADENCİLİĞİNDE NİTELİK SEÇİM ALGORİTMALARI.........................................4 NİTELİK SEÇİM ALGORİTMALARININ ÖZELLİKLERİ...................................................5 SEZGİSEL ARAMA ALGORİTMALARI(HEURISTIC SEARCH).....................................6 FİLTRELEME ALGORİTMALARI............................................................................10 SARMAL ALGORİTMALAR(WRAPPER ALGORITHMS)...........................................10 SÜREKLİ NİTELİKLERİN AYRIKLAŞTIRILMASI.......................................................10 AYRIKLAŞTIRILMA YÖNTEMLERİ......................................................................11 KORELASYON TABANLI NİTELİK SEÇİMİ.................................................................11 DEĞERLERİ SÜREKLİ OLAN ÖZELLİKLERİN KORELASYONU................................12 NOMİNAL DEĞERLERE SAHİP ÖZELLİKLERİN KORELASYONU.............................13 SİMETRİK BELİRSİZLİK(Symmetrical Uncertainty)...........................................13 RELIEF............................................................................................................ 14 MDL(En düşük Tanımlama Uzaklığı)...............................................................15 KORELASYON TABANLI NİTELİK SEÇİCİ..............................................................15 OYUN VERİSETİ ÜZERİNDE UYGULAMA..............................................................17 UYGULAMA ÖRNEKLERİ........................................................................................18 KULLANILAN VERİSETLERİ.................................................................................18 DENEYSEL YÖNTEM...........................................................................................19 SONUÇ.................................................................................................................. 23 Kaynakça.............................................................................................................. 24

.........18 Tablo 8 Veri setlerinin özellikleri........ Relief Algoritması kullanılarak hesaplanmıştır.................................15 Tablo 6 Nitelik Korelasyon Tablosu...................17 Tablo 7 İleri Yönelimli Nitelik Seçim Tablosu...8 Tablo 4 Genetik Algoritma...............................................................................................9 Tablo 5 Relief Algoritması....................................................................................................19 Tablo 9 Örnek veri setlerine uygulanan sınıflandırma algoritmalarının Korelasyon Tabanlı Nitelik seçimi uygulanmış ve tüm nitelikler seçili durumda ki sonuç tablosu....................................................................................................................................................................17 Şekil 5 Kurulan WEKA Model Görüntü........21 ....................Şekiller Listesi Şekil 1 Oyun Veri Seti için Özellik Küme Uzayı......................................10 Şekil 4 Korelasyon Nitelik Seçimi...................................................8 Tablo 2 Hırslı Seçim(Greedy Hill) Algoritması...................................................................9 Şekil 3 Sarmal Nitelik Seçimi(Wrapper Feature Selection).................. .......................................................................7 Şekil 2 Fitreleme Yöntemi İle Nitelik Seçimi(Filter Feature Selection)..................................................................................................................................................................................................8 Tablo 3 En İyi İlk(Best First) Algoritması................................22 Tablolar Listesi Tablo 1 Oyun Veriseti...............................................................................

Toplanan verilerin biriktirilmesi ve saklanma maliyetleri oldukça düşmüş durumdadır. veri madenciliği yöntemleri ile analiz edilebilmesi için uygulamadan üzerinde bazı değişikliklere gidilmelidir. İlişkili olmayan gereksiz niteliklerin kaldırılması ile kurgulanan modelin performansında artma görülecektir. Özellik seçimi bir veri setinde yer alan en belirgin nitelikleri seçmeye yönelerek. Fakat sahip olunan verinin. Veri madenciliği oldukça yüksek miktarlardaki verinin otomatik olarak analiz edilebilmesi için çeşitli araçlar sunmaktadır. Makineler tarafından okunulabilir veri bu kadar artmasına rağmen bunların anlaşılması ve kullanılması aynı hızda artmamaktadır. Korelasyon tabanlı nitelik seçimi. Bunlar sırasıyla.GİRİŞ Artık bilgi çağında yaşamaktayız. öğreticili öğrenme(supervised learning) yöntemleri kullanan sınıflandırma algoritmaları için kullanılmakta ve temelinde özelliklerin birbirleri ve hedef değişken arasında yer alan korelasyon bulunmaktadır. • • • • Yüksek boyutlu verilerde oluşacak olan zorluğun azaltılması Genelleme yeteneğinin artırılması Öğrenme algoritmasının hızının artırılması Modelin birlikte çalışabilirliğini artırmaktır. veri düzenleme işleminin temelini ise özellik seçimi oluşturmaktadır. VERİ MADENCİLİĞİNDE NİTELİK SEÇİM ALGORİTMALARI Veri madenciliğinde nitelik seçimi yada diğer isimleriyle değişken seçimi. . nitelik azatlımı. Bu. verilerin analiz ve tahminleme için en uygun biçime getirmeye çalışmaktadır. daha güvenilir öğrenme modelleri için ilişkili niteliklerin seçilmesi işlemidir.

Sezgisel arama yöntemleri. Bunun yerine farklı filtreleme yöntemleri geliştirilmiştir. • Arama düzeni. • • • • • • • • Detaylı arama(Exhaustive) İlk En iyi(Best First) Benzetimli Tavlama Yöntemi(Simulated annealing) Genetik Algoritma(Genetic algorithm) Hırslı İleri Seçim(Greedy forward selection) Hırslı Geri Seçim(Greedy backward elimination) Tutarlık Odaklı Nitelik Seçimi (Consistency-based feature selection) Korelasyon Tabanlı Nitelik Seçimi NİTELİK SEÇİM ALGORİTMALARININ ÖZELLİKLERİ Nitelik seçim algoritmalarının hemen tamamı nitelik küme uzayında arama yapmakta ve dört temel arama sonucunu göstermektedir. Diğer bir yöntem ise tüm niteliklerin seçilip teker teker çıkarılması şeklinde olabilir. Diğer yöntem ise ortadan herhangi bir noktadan başlayıp ilerleme şeklindedir. Bu durumda arama ileri doğru olmaktadır. eğiticili öğrenme yöntemleri için en etkili yöntem ayrıntılı arama (exhaustive search) yöntemidir. Bir yöntem hiçbir nitelik seçilmeden yapılacak olan başlangıçla beraber her bir niteliğin eklenmesi ilerleme yöntemidir. • Başlangıç noktası. Nitelik küme uzayından seçilecek olan bir nokta aramanın yönünü etkileyecektir. Bütün nitelik kümesini kapsayacak şekilde arama yapmak oldukça yüksek maliyetli olabilmektedir. Literatürde en çok kullanılan nitelik seçim algoritmaları şu şekildedir.Teorik olarak. Bu durumda arama geri doğru olmaktadır. tüm küme arama yöntemlerine . Başlangıç olarak N tane nitelik içeren küme için 2N tane alt küme oluşacaktır. Fakat kullanılan veri setinde yer alan niteliklerin sayısı fazlaysa bu yöntem pratik olmaktan çıkmaktadır.

• Ölçüm yöntemi. Genellikle lokal değişimler sadece bir özelliğin kümeden çıkarılması veya eklenmesi şeklinde olmaktadır. nitelik kümelerinin içerisinde ilişkili niteliklerin seçilmesi. Bu yöntemde istenmeyen özellikler kaldırıldıktan sonra işlemlere devam edilir. Bir yöntem filtreleme yaklaşımıdır. SEZGİSEL ARAMA ALGORİTMALARI(HEURISTIC SEARCH) Kabul edilebilir zaman kısıtı içerisinde. Ölçüm stratejisine değişmekle beraber seçilen nitelik kümesine yeni bir eleman eklenmesi veya çıkarılması işleminden sonra ölçümde herhangi bir iyileşme gözlemlenmiyorsa arama durdurulmalıdır. [1]. Bu algoritmalarda niteliklerin sahip olduğu veriler üzerinde sezgisel yöntemler kullanılır. özellikle oldukça yüksek sayı da nitelik içeren veriler üzerinde çalışırken gerekli olmaktadır. sadece kümeden çıkarma işlemi gerçekleşiyorsa buna geri seçim(backward selection) denilmektedir. nitelik alt küme uzayında arama yaparken nerede durması gerektiğine karar vermelidir. Diğer bir yöntem ise sarmal(wrapper) yöntemlerdir.göre daha kullanışlı olmasına rağmen ortaya çıkacak olan sonuç her zaman en iyi sonuç olmayabilir. Şekil 3’de oyun veri seti için kullanılan niteliklerin alt küme uzayı yer almaktadır. Nitelik seçim işlemcisi. Bu işlemi gerçekleştirebilmek için Greedy Hill Climbing algoritması gibi basit bir şekilde her bir niteliğin seçilmesi ve seçilen niteliğin hedef değişkene olan etkileri izlenebilir. her bir algoritma da yapılan her bir değişiklikten sonra sınıflandırma algoritmasının doğruluğunu kontrol etmekte ve özellikler arasından en iyisini seçmeye çalışılmaktadır. Nitelik alt kümelerinin nasıl doğrulanacağıdır. Eğer bir algoritma sadece nitelik kümesine ekleme yapıyorsa ileri seçim(forward selection) olarak adlandırılırken. Yukarıda bahsedilen yöntemlerden herhangi biri seçildikten sonra. Eğer şekilde yukarıdan aşağıya doğru . Bu yöntemde atama algoritması ile çarpraz doğrulama(cross-validation) kullanılarak seçilen niteliklerin hassasiyeti kontrol edilmektedir • Duruş Kriteri. Alternatif bir yöntem olarak basamaklı çift yönlü arama(stepwise bi-directional search) yaklaşımı hem ekleme hem de çıkarma yöntemini kullanmaktadır. Birinci yöntem filtreleme yöntemidir.

Bundan sonra yer alan örneklerde bu veri setini kullanıyor olacağız. Şekil 1 Oyun Veri Seti için Özellik Küme Uzayı Örnek olarak Tablo 1’de yer alan oyun veri setimiz olsun. şekil bize her bir düğüm üzerinde eklemeleri gösterecektir. Örne k HAVA 1 GÜNEŞLİ 2 GÜNEŞLİ 3 KAPALI YAĞMUR 4 LU YAĞMUR 5 LU YAĞMUR 6 LU Nitelikler ISI SICA K SICA K SICA K NEM YÜKSE K YÜKSE K YÜKSE K YÜKSE K NORM AL NORM AL NORM AL YÜKSE K NORM AL RÜZG AR HAYIR EVET HAYIR HAYIR HAYIR EVET EVET HAYIR HAYIR Sınıf OYUN HAYIR HAYIR EVET EVET EVET HAYIR EVET HAYIR EVET ILIK SOĞ UK SOĞ UK SOĞ 7 BULUTLU UK 8 GÜNEŞLİ 9 GÜNEŞLİ ILIK SOĞ UK . Tam tersi olarak aşağıdan yukarıya doğru ilerlenirse olası tüm nitelik çıkarımlarını göstermektedir.ilerlersek.

then BEST s. Evaluate each child t of s. the CLOSED list empty. en etkili olan düğümü seçmek için geliştirilmiş ve genellikle yapay zeka çözümlerinde kullanılan bir yöntemdir. Begin with the OPEN list containing the start state. evaluate and add to OPEN. 6. iyileşmenin olmadığı düğüme kadar ilerleyerek ilk düğümü seçer. Let s start state. Tablo 3 En İyi İlk(Best First) Algoritması . 4. 2. 1. If e(s) _ e(BEST). 3.YAĞMUR 10 LU 11 GÜNEŞLİ ILIK ILIK 12 BULUTLU ILIK SICA 13 BULUTLU K YAĞMUR 14 LU ILIK NORM AL NORM AL YÜKSE K NORM AL YÜKSE K HAYIR EVET EVET HAYIR EVET EVET EVET EVET EVET HAYIR Tablo 1 Oyun Veriseti Sezgisel yöntemlerde kullanılan algoritmalardan ilki hırslı seçim (Greedy Hill) algoritmasıdır. 5. Nitelik seçimi için kurulan ve örnek olarak şekil 3‘de gösterilen graf üzerinde ilerleyerek. If BEST changed in the last set of expansions. 1. Expand s by making each possible local change. and BEST start state. Remove s from OPEN and add to CLOSED. goto 2. Bu algoritma bir graf içerisinde yer alan düğümler içerisinde. 6. Tablo 2 Hırslı Seçim(Greedy Hill) Algoritması Diğer bir algoritma ise “En İyi İlk” algoritmasıdır. 2. For each child t of s that is not in the OPEN or CLOSED list. Let s0 child t with highest evaluation e(t). Return BEST. Bu algoritma tablo 3’de gösterilmiştir. 4. Algoritma Tablo 2’de gösterilmiştir. 5. Let s = arg max e(x) (get the state from OPEN with the highest evaluation). If e(s0) _ e(s) then s s0. 3. goto 2. 7. Return s.

Return x 2 P for which e(x) is highest. Begin by randomly generating an initial population P. Apply crossover to x and y to produce new population members x0 and y0. Çözüm kümesindeki çözümler birbirinden tamamen bağımsızdır. 2. 11. 8. doğada gözlemlenen evrimsel sürece benzer bir şekilde çalışan arama ve eniyileme yöntemidir. Let P P0. 7. 10. 3. Apply mutation to x0 and y0. Define a probability distribution p over the members of P where p(x) / e(x). Genetik algoritmalar problemlere tek bir çözüm üretmek yerine farklı çözümlerden oluşan bir çözüm kümesi üretir. 5. 1.Diğer bir algoritma ise genetik algoritmadır. 6. goto 4. 4. Calculate e(x) for each member x 2 P. 9. Insert x0 and y0 into P0 (the next generation). goto 2. Böylelikle. Tablo 4 Genetik Algoritma Şekil 2 Fitreleme Yöntemi İle Nitelik Seçimi(Filter Feature Selection) . If |P0| < |P|. Her biri çok boyutlu uzay üzerinde bir vektördür. Genetik algoritmalar. arama uzayında aynı anda birçok nokta değerlendirilmekte ve sonuçta bütünsel çözüme ulaşma olasılığı yükselmektedir. If there are more generations to process. Karmaşık çok boyutlu arama uzayında en iyinin hayatta kalması ilkesine göre bütünsel en iyi çözümü arar. Select two population members x and y with respect to p.

SÜREKLİ NİTELİKLERİN AYRIKLAŞTIRILMASI Ayrıklaştırma işlemi sürekli değerlere sahip olan niteliklerin nominal değerlere dönüştürülme işlemdir. niteliklerin kullanışlı olup olmadıklarını öğrenme algoritmaları kullanarak yapmaktadırlar.Şekil 3 Sarmal Nitelik Seçimi(Wrapper Feature Selection) FİLTRELEME ALGORİTMALARI Veri madenciliğinde en eski özellik seçim algoritmaları filtreleme yöntemleridir. Filtreleme yöntemleri verinin karakteristik özelliklerinde sezgisel yöntemler kullanarak seçim yapmaktadır. karar ağacı oluşturulması sırasında aslında sürekli değerlere sahip olan nitelikleri kesikli aralıklara . Karar ağacı algoritmalarından C4. sarmal algoritmalara göre oldukça hızlı sonuç vermektedir ve bu yüzden fazla sayıda nitelik içeren verilerde oldukça pratik olmaktadır. Bir öğrenme algoritması kullanılmamaktadır.5 [2] algoritması. Öğrenme algoritmaları ile nitelik kümesinin eşik(merit) değeri bulunmaktadır. Filtreleme algoritmaları. SARMAL ALGORİTMALAR(WRAPPER ALGORITHMS) Veri madenciliğinde nitelik seçiminde kullanılan sarmal algoritmalar.

S örneklem kümesi için.bölerek ayrıklaştırma işlemi yapmaktadır. [4] Korelasyon. Entropi ise aşağıdaki gibi hesaplanmaktadır. olasılık kuramı ve istatistikte iki rassal değişken arasındaki doğrusal ilişkinin yönünü ve gücünü belirtir. Diğer durumda bu iki nitelik için birbiri ile ilişkisiz olduğu kabul edilir. Korelasyon tabanlı nitelik seçim işlemi sadece nominal değerlere sahip olan niteliklerde uygulanabilmektedir. Kesim noktaları son bulma kriteri ise. Genel istatistiksel kullanımda korelasyon. bağımsızlık durumundan ne kadar uzaklaşıldığını gösterir. bu iki nitelik birbiri ile ilişkilidir. KORELASYON TABANLI NİTELİK SEÇİMİ Eğer iki niteliğin sahip olduğu değerler birbirleri ile simetrik olarak değişmekteyse. AYRIKLAŞTIRILMA YÖNTEMLERİ Ayrıklaştırma işlemi 3 kısıma ayrılmaktadır. bir A niteliği ve T kesim noktası olacak şekilde. • • • Eğitimli – Eğitimsiz Genel – Yerel Statik – Dinamik Korelasyon tabanlı nitelik seçiminde kullanılan yöntem ise eğitimli bir yöntem olan minimum entropi sezgisidir [3]. Farklı durumlar için farklı korelasyon . T kesim noktasında oluşan sınıf entropi değeri şu şekilde hesaplanır.

Bu formülde rzc değeri hedef nitelikle toplam niteliklerin arasında yer alan korelasyon. Bu katsayı. bağımsız değişkenler arasındaki ilişkinin yönü ve büyüklüğünü belirten katsayıdır. Bu algoritmaya göre en iyi nitelik alt kümesi hedef değişkenle oldukça yüksek bir korelasyona sahip fakat diğer niteliklerle de oldukça düşük korelasyona sahip olan nitelikler kümesidir. DEĞERLERİ SÜREKLİ OLAN ÖZELLİKLERİN KORELASYONU Korelasyon katsayısı. niteliklerin birbirleri arasında ki korelasyonların ortalamasını göstermektedir. İki değişkenin kovaryansının. hedef değişkenle nitelikler arasındaki ortalama korelasyon. negatif değerler ise ters yönlü bir doğrusal ilişkiyi belirtir. (-1) ile (+1) arasında bir değer alır. yine bu değişkenlerin standart sapmalarının çarpımına bölünmesiyle elde edilir. Bu noktada merit değerin hesaplanması ise şu şekilde olmaktadır. k toplam nitelik sayısı. [6] Korelasyon tabanlı nitelik seçimi algoritması yukarıda ifade edilen görüşü kullanmaktadır.katsayıları geliştirilmiştir. [5] Veri madenciliğinde deneysel sonuçlardan elde edilen verilere göre ilişkili olmayan niteliklerin çıkarılması işlemi sonucunda gereksiz olan verinin temizlenmesi işlemi gerçekleşmiş olur. Bunlardan en iyi bilineni Pearson çarpım-moment korelasyon katsayısıdır. Pozitif değerler direk yönlü doğrusal ilişkiyi. Korelasyon katsayısı 0 ise söz konusu değişkenler arasında doğrusal bir ilişki yoktur. [5] Korelasyon katsayısı aşağıdaki formülle hesaplanır. .

RELIEF ve Simetrik Belirsizlik(Symmetrical Uncertainty). X niteliğine bağlı olarak. Kazanç aşağıdaki şekilde hesaplanmaktadır.Y) . Y’nin entropisi X’e göre gruplanmış olan verilerin entropisinden yüksek olacaktır. Nominal değerlerin korelasyonunda üç farklı yöntem kullanılmaktadır. Y niteliğinin entropi değerinde ki azalmaya kazanç denilmektedir. kazanç = H(Y) – H(Y|X) = H(X) – H(X|Y) = H(Y) + H(X) – H(X. MDL. Entropi bir sistemdeki karasızlığın ölçüsüdür. niteliğin her bir değerinin özel olasılığı ile hesaplanır. Bunun için entropi modeli kullanılmaktadır. [1] SİMETRİK BELİRSİZLİK(Symmetrical Uncertainty) Nominal değerlere sahip Y niteliğin bir olasılık modeli. Entropi formulü aşağıdaki gibidir. X niteliğinin gözlemine göre Y niteliğinin entropi değeri aşağıdaki şekilde hesaplanır. Eğer nitelik Y içerisinde yer alan değerlerin entropi değeri hesaplanırken ikinci bir nitelik X e göre gruplanıp hesaplanırsa.NOMİNAL DEĞERLERE SAHİP ÖZELLİKLERİN KORELASYONU Tüm nitelikler ve hedef değişken belirli bir düzden içerisinde dağıldığında 2-21’de yer alan denklem kullanılarak nitelik-sınıf ve nitelik-nitelik korelasyonları hesaplanabilir.

X niteliği için ağırlık. Yani Y niteliğinin gözlemleyerek X niteliği ile hesaplanan kazanç ile X niteliğini gözlemleyerek Y niteliği ile hesaplanan kazanç aynı çıkmaktadır. [1] RELIEF Diğer bir nominal değer korelasyon algoritması RELIEF’dir. Algoritmanın hesaplanması şu şekildedir Burada WX .Ri. Bu algoritma nitelik içerisinde yer alan değerlerin en yakın hatalı ve en yakın doğru sınıflarını bularak niteliğin kalitesini ölçmektedir. Girdi: sınıf değerlerini ve nitelik değerlerinden oluşan veri setinin vektör uzayı Çıktı: her bir niteliğin ağırlığını içeren vektör uzayı set all W[A] = 0.Ri. R rassal olarak seçilmiş olan örnek. H en yakın aynı sınıf değişkenine sahip olan örnek. Algoritma adımları ise şu şekildedir. bunların normalize edilerek [0.Bilgi kazancı simetrik bir ölçümdür.H) + diff(A. Fakat bilgi kazancının da elde edilen değerlerin aralığının yüksek olmasından dolayı. M en yakın farklı sınıf değişkenine sahip olan örnek. m ise rassal olarak seçilen örneklerin sayısıdır. Simetri nitelikler arasında ki korelasyon hesaplanmasında istenilen bir özelliktir.0 for i=1 to m do begin randomly select instance Ri find nearest hit H and nearest miss M for A=1 to all attribute do W(A) = W(A) – diff(A.1] aralığına çekilmesi gereklidir. RELIEF aslında veri setinde ki niteliklerin ağırlıklandırılması için geliştirilmiş bir algoritmadır [7].M) end .

sonuca götürecek olan algoritmanın en az karmaşık olanın seçimidir [8]. Ci’ye ait olan eğitim setinin sayısı. nij ise Ci sınıf değerine ait olan eğitim setinin sayısıdır. 3. nj j. Bu nedenle bu algoritma kullanılan her iki nitelik sırayla yer değiştirilerek uygulanmalı ve çıkan sonuçların ortalaması alınması gerekmektedir. İlişkili olmayan nitelikler kümeden kaldırılmaktadır. MDL(En düşük Tanımlama Uzaklığı) MDL prensibinde en iyi seçim. . ni. Bu denklemde n eğitim verisinin sayısı. C sınıf değerlerinin sayısı.Tablo 5 Relief Algoritması RELIEF algoritması simetrik değildir. toplam tanımlama uzunluğu şu şekilde hesaplanır. fakat birbirleri ile korelasyonu düşük olan niteliklerin seçimidir. Eğer bir veri seti V’den çıkarılacak olan teori T ise. KORELASYON TABANLI NİTELİK SEÇİCİ Korelasyon tabanlı nitelik seçici fonksiyonunun ana hedefi hedef değişkenle yüksek değerli korelasyona sahip. Bir niteliğin kabul edilebilmesi için 2.1 denkleminde tüm uzunlukların ölçü birimi bit’dir. Elemanın sahip olduğu değerin eğitim seti sayısı.21 de gösterilen denklemi biraz değiştirerek kullanılmalıdır. MDL’in karar ağaçlarında kodlanabilmesi için aşağıdaki denklem oluşturulmuştur [9].

ortalama sınıf-nitelik korelasyonu. Merit denkleminde arama uzayında yer alan nitelik kümelerinin sıralamalarını düzenlemektedir. En iyi ilk çözüm yönteminde ise nitelik kümesi boş ya da dolu olabilir. ortalama nitelik-nitelik korelasyonudur [1]. Sırasıyla nitelik ekleyerek ilerleyecektir. nitelik arama algoritmalarının temel özelliklerinde tüm olası nitelik seçimlerinin sorgulanması işlemi oldukça maliyetli bir işlemdir. Geri yönelimli nitelik seçiminin başlangıç anında bütün nitelikler seçilmiş durumdadır. İleri yönelimli nitelik seçimindeyse başlangıç noktasında küme içerisinde herhangi bir nitelik bulunmamaktadır. Bunlar ileri yönelimli seçim.Burada . geri yönelimli seçim ve en iyi ilk çözüm algoritmalarıdır. k farklı nitelik içeren S nitelik alt kümesinin merit değeri. Formal olarak arama süreci ilk önce bir niteliğin eklenmesi daha sonra başka bir niteliğin çıkarılması şeklinde devam etmektedir. . denklemin payda kısmında yer alan ifade ile nitelikler arasındaki gereksizlik hesaplanmaktadır.1 de anlatılan. Bundan dolayı korelasyon tabanlı nitelik seçimi uygulanırken genelde üç farklı sezgisel arama yöntemi kullanılmaktadır. Şekil 4’de korelasyon nitelik seçim algoritmasının nasıl işlediği anlatılmıştır. Bölüm 2. Sırasıyla bunları kümeden çıkararak ilerlemektedir. Bu denklemde pay kısmında yer alan ifade ile nitelikler ile sınıf arasında ki öngörüyü çıkarırken.

OYUN VERİSETİ ÜZERİNDE UYGULAMA Şekil 4 üzerinde gösterildiği gibi. Tablo 6 da örnek veri setimiz olan oyun tablomuzda yer alan niteliklerin birbirleriyle olan korelasyonları hesaplanmıştır. nitelikler seçilerek.02 0.00 Hava 1 6 2 7 0.11 0. Relief Algoritması kullanılarak hesaplanmıştır. korelasyon tabanlı nitelik seçiminde ilk korelasyon hesaplamaları niteliklerin birbirleri ile olacaktır. Daha sonra bu nitelik alt uzayından.Şekil 4 Korelasyon Nitelik Seçimi Korelasyon tabanlı nitelik seçiminde ilk yapılan işlem giriş veri setinde yer nalan niteliklerin hepsinin nominal hale getirilmesidir [10]. Bu şekilde boyut olarak veri setinde bir azaltma yapılmıştır. Bu hesaplama için denklem 3-1 kullanılarak yapılmaktadır. Hav Ne Rüzg Oyu a Isı m ar n 0.13 0.02 Isı 1 8 8 5 0. Bu üç nitelik ile korelasyon tabanlı nitelik seçimi yapılmalıdır. Nitelik seçiminde nitelik-sınıf korelasyonlarını ve nitelik-nitelik korelasyonlarını yukarıda anlatılan 3 farklı nominal korelasyon yöntemlerinden birini kullanarak hesaplamaktadır.18 Nem 1 0 5 Rüzg 0. .02 0.08 ar 1 1 Tablo 6 Nitelik Korelasyon Tablosu.24 0. Daha sonra yeni oluşan bu veriseti direk olarak nitelik seçim algoritmasına verilmektedir. Tablo 7 üzerinde ileri yönelimli nitelik seçimi ile her bir seçimde yer alan nitelik kümesinin meri değeri gösterilmiştir. Bu seçilen düğümler arasında en yüksek merit değerine sahip olan nitelik kümesi [HAVA NEM RUZGAR]’dır. yeni oluşan kümenin merit değeri hesaplanmaktadır. Daha sonra nitelik alt küme uzayında arama yaparak en yüksek merit değerine sahip olan nitelik alt kümesi bulunur.

022 0.191 Tablo 7 İleri Yönelimli Nitelik Seçim Tablosu UYGULAMA ÖRNEKLERİ Korelasyon tabanlı nitelik seçimi algoritmasının ne kadar etkili olduğunu görebilmek için çeşitli veri setleri ile bazı veri madenciliği algoritmaları kullanılmıştır. İnsanlar oy verirken dikkate aldığı eğitim harcamaları yada göçmen yasaı gibi konularda veriler içeren 16 farklı nominal nitelikten oluşmaktadır. California Üniversitesi’nin Enformatik ve Bilgisayar Bilimleri bölümü tarafından sunulan dosyalardır [11].25 1 0.009 RUZGAR] 3 0.133 0 0.185 1 0.081 1 0.158 0.081 [HAVA NEM] 2 0. 8124 adet örnek içeren ver setinde 22 adet nominal değerli değişkenden oluşmaktadır.133 [NEM RUZGAR] 2 0. • Mushroom(mu): bu veri setinde mantarla ilgili olarak bilgiler yer almaktadır.132 0.188 [HAVA ISI NEM] 3 0.13 [ISI] 1 0. • Voting(vo): bu veri setinde Amerikan Temsilciler Meclisinde yer alan üyelerin oyları ile ilgili bir bilgidir.22 [ISI NEM] 2 0. .133 0. Hedef sınıf değişkenin aldığı değerler ise zehirli veya yenilebilir şeklindedir.175 [HAVA NEM 0.185 [RUZGAR] 1 0. KULLANILAN VERİSETLERİ Kullanılan veri setlerinin tamamı internet üzerinde erişilebilen.Nitelik Kümesi k Merit [] 0 N/A N/A 0 [HAVA] 1 0.105 8 0. • Audiology(au): bu veri seti ile kulakta yer alan bozukluklar listelenmektedir. Bu veri seti Baylor Tıp Fakültesinden Profesör Jergen tarafından yayınlanmıştır. Hedef sınıf değişkeni ise 24 farklı değer içermektedir.258 0.105 0.226 [HAVA ISI NEM 0.025 [NEM] 1 0.13 1 0.132 6 0. 226 tane örnekten oluşan veri seti 69 tane nominal değişken içermektedir. Veri seti 435 farklı örnek içermektedir.071 RUZGAR] 4 0. Sırasıyla kullanılan veri setleri ise şu şekildedir.

Java ile geliştirimiş açık kaynak kodlu veri analizi ve tahminsel modellemeye imkan veren bir yazılımdır.3 0 0 0 Tablo 8 Veri setlerinin özellikleri DENEYSEL YÖNTEM Yukarıda anlatılan veri setlerinde ilk önce nitelik seçimi yapılmadan ve nitelik seçimi yapılarak 3 farklı veri madenciliği algoritması denenmiştir.2 5. Veri seti Örneklem Sayısı Nitelikler Kayıp% Nitelik Başına Ortalama Değişken Sayısı 2.0 2 3. Kurgulanan model üzerinde giriş olarak verilen csv . Bu modele sırasıyla yukarıda yer alan veri setleri eklenerek sonuçları kayıt edilmiştir. 42 nitelik içeren veri seti 67557 örneklem içermektedir. 36 farklı nominal nitelik içermektedir.3 5.5. • Connect-4(c4): Bu veri setinde connect-4 oyununda ki 8 farklı posizyon kaydedilmiştir. Algoritmanın hassasiyeti bu oluşan test verisinden çıkarılmaktadır.• Chess end-game(kr): Satranç turnuvaları ile ilgili bilgileri içeren 3196 tane örneğin bulunduğu bir veri setidir. Şekil 5 üzerinde tasarlanan model görülmektedir. Random Forest ve Instance Based K(IBk) kullanılmıştır.3 2. Yeni Zelanda’da bulunan Waikato üniversitesi tarafından yayınlanan. Veri madenciliği algoritmalarından sınıflandırma algoritmalarından C4. Her iki yöntemde de ilk önce veri setlerinden rassal olarak seçilen test verisi hazırlanmıştır. Bu algoritmalar yukarıda anlatılan veri setleri ile ücretsiz olarak dağıtılan WEKA [12](Waikato Environment for Knowledge Analysis) yazılımı kullanılarak modellenmiştir. Bu yazılım KnowledgeFlow özelliği kullanılarak gerekli modelleme hem tüm nitelik değerlerini hem de korelasyon tabanlı nitelik seçim algoritması ile filtrelenmiş nitelik seti ile hesaplayacak şekilde tasarlandı.0 1. WEKA. Naive Bayes.7 3 Max/Min Feature Sayısı 6/2 12/1 2/2 3/2 3/5 3/3 Sınıf Değişken Sayısı 24 2 2 2 4 3 au mu vo kr car c4 226 8124 435 3196 1728 67557 69 22 16 36 6 42 2.

1 oranlarında parçalanmaktadır. Tüm veri setlerinin sonuçları bu model ile hesaplanmıştır. Tablo 9 üzerinde kullanılan veri setleri ve bunların sonuçları tablo halinde gösterilmiştir. Bu şekilde uygulanan algoritmanın hassasiyeti ortaya çıkmaktadır. . Şekil 5 üzerinde kurgulana WEKA modeli gösterilmiştir.9 ve 0. Daha sonra veri setlerinin sahip olduğu tüm nitelikler ile sınıflandırma algoritmaları kullanılmış ve yeni sonuçlar tekrar tablo üzerinde gösterilmiştir. İlk olarak korelasyon tabanlı nitelik seçim algoritmaları uygulanarak filtreleme yapılmış ve 4 farklı sınıflandırma algoritmasının sonuçları tabloya yazılmıştır.dosyaları eğitim seti ve test seti olarak 0.

91 14 8.5 68 34 65 32.09 41 95.27 146 84.39 146 84. Nitelikler Sa Oran( Sa Oran( yı %) yı %) 132 66 135 67.36 40 93.47 5 2.23 6 2.91 1 44. Nitelikler Sa Oran( Sa Oran( yı %) yı %) 139 69. r Hatalı Sınıf.53 150 150 2 94 1 93.5 74 37 63 31.86 7 46.39 27 15.77 158 2 99 16 1 159 91.2 0 63.35 2 4. ca Doğru Sınıf.91 154 179 0 37.02 40 93.02 3 6.36 11 6.14 5 53.18 6 86.91 14 8.09 212 97.3 Tüm Nitelikler Sa Oran( yı %) 154 77 46 23 247 0 60. Örn. Hatalı Sınıf.06 12 6.4 3 6.5 Kor.Filt.98 Instance Based Learning(knn) Tüm Kor. Örn.24 207 95.Filt. Sa Oran( yı %) 140 70 60 30 259 8 63.18 0 98. m Doğru Sınıf.79 2 36.76 157 147 6 38. Örn.64 162 93.94 40 93.63 8 18.6 Tablo 9 Örnek veri setlerine uygulanan sınıflandırma algoritmalarının Korelasyon Tabanlı Nitelik seçimi uygulanmış ve tüm nitelikler seçili durumda ki sonuç tablosu .7 4 9. vo Hatalı Sınıf.4 5 11.3 4 1.67 213 98. Doğru Sınıf.5 252 227 2 62.7 205 94.93 96 6 97 6.76 147 138 3 92.02 35 81.81 159 2 39.Filt.65 a Doğru Sınıf.77 7 3.3 153 189 8 37.98 8 18.73 125 7. Örn.09 39 90.06 161 93.5 61 30. Örn.24 10 4. Naive Bayes Tüm Kor.7 212 97.3 12 5. u Hatalı Sınıf.6 RandomForest Tüm Kor. u Hatalı Sınıf. Örn. Nitelikler Sa Oran( Sa Oran( yı %) yı %) 126 63 137 68.96 146 4 36.61 38 88.39 198 91.5 252 216 4 62. Doğru Sınıf. kr Doğru Sınıf.61 27 15.94 12 6.82 212 13.98 3 6. Örn.37 35 81.04 210 96.75 162 93.C4.07 161 93.5 135 67. Örn.23 150 2 94 96 6 159 91.09 1 55. Örn.61 19 8. Örn.84 147 157 3 92. Örn.64 11 6.82 28 1.5 248 259 6 61.25 125 7. Örn.16 5 2.5 65 32. vo Hatalı Sınıf.19 211 97.Filt.

Şekil 5 Kurulan WEKA Model Görüntü .

Ve sınıflandırma sonucunda ortaya çıkan hassasiyet azalmaktadır. Aynı şekilde Random Forest sınıflandırma algoritmasında %53. korelasyon tabanlı nitelik seçimi ile bu oran %63. çıkan yeni nitelik kümesinin hassasiyeti değişmektedir.5 algoritması tüm nitelikler seçiliyken %60.14’e yükselmiştir. Duruma göre değişkenlik göstererek.”car” veri seti için sonuçta herhangi bir değişiklik olmamasına rağmen algoritmanın çalışma süresi düşmesinden dolayı bir performans iyileşmesi olmuştur.3 olan doğruluk oranı %62. Korelasyon tabanlı nitelik seçimi birbirleri ilişkili olan veri setlerinde performansı azalmaktadır.96’ya çıkmıştır. Hem sınıflandırma performansı artmakta hem de nitelik sayısının azalmasından dolayı algoritma hesaplama süresi azalmaktadır. . SONUÇ Hiçbir nitelik seçim algoritması diğerlerine göre daha iyi bir performans çizmemektedir.Örnek olarak mushroom veri setine bakarsak. Korelasyon tabanlı nitelik seçimi özellikle birbirleri ile korelasyonu düşük olan veri setlerinde daha başarılı sonuçlar üretmektedir.81 oranında doğru sınıflandırma yaparken. C4.

ac. On biases in estimating multi-valued attributes. Kira. UCI Machine Learning Database. A. Weka. Machine Learning: Proceedings of the Ninth International Conference. Informatics and Computer Science. R. 2. s. Multi-interval discretisation of continuous valued attributes for classification learning. Kohavi.edu/ml/.l. Models of incremental concept. 1992. Modeling by shortest data description. B. 9. 40. [Çevrimiçi] [Alıntı Tarihi: 01 01 2011. s. Proceedings of the Thirteenth International Join Conference on Artificial Intelligence. 7.ics. P. Weka Dağıtım Sitesi. John. NewZealand. Artificial Intelligence. U. Irani. : Hamilton.Kaynakça 1.] http://archive.org/wiki/Korelasyon. Automatica. 3. Langley ve D. 5.waikato. 11. 1989. Fayyad. 97. M.5: Programs for machine learning. 14. Multi-interval discretisation of continuous valued attributes for classification learning. . J. Kononenko. 1993. Fisher. Mark A. In Proceedings of the Thirteenth International Join Conference on Artificial Intelligence. 6. 1993. California University. 12. Rendell. L.R. 8. J. C4. Correlation-based Feature Selection for Machine Learning. 1999. 1996. Artificial Intelligence. special issue on relevance. Irani. 1978. I. [Çevrimiçi] [Alıntı Tarihi: 29 12 2010. 4. K. Wrappers for feature subset selection. U. M. H.nz/ml/weka/. Rissanen. In IJCAI95.uci. Fayyad and K. Korelasyon. 10. A practical approach to feature selection. J. Gennari. Hall.wikipedia.] http://tr. 1995. 1993. B. 10341040. Quinlan. K.] http://www.cs. [Çevrimiçi] [Alıntı Tarihi: 22 12 2010. G. Vikipedia.

Sign up to vote on this title
UsefulNot useful