Professional Documents
Culture Documents
1
VERI TABANLARıNDA BILGI KEŞFI
Veri Tabanlarında Bilgi Keşfi, veriden faydalı bilginin
keşfedilmesi sürecinin tamamına atıfta bulunmakta ve
veri madenciliği bu sürecin bir adımına karşılık
gelmektedir.
2
VERI TABANLARıNDA BILGI KEŞFI
VTBK, verinin nasıl depolanıp erişileceğinden,
algoritmaların devasa veri setlerine nasıl
ölçeklenebileceğine ve hala etkin olarak çalışmalarına,
sonuçların nasıl yorumlanabileceği ve
görselleştirilebileceğine ve bütün insan-makine
interaksiyonunun kullanışlı olarak nasıl modellenip,
desteklenebileceğine olmak üzere veriden bilginin keşfinin
tüm süreçleri üzerine odaklanır
3
VERI TABANLARıNDA BILGI KEŞFI
4
BILGI KEŞFININ AŞAMALARı
Uygulama alanını inceleme : Konuyla ilgili bilgi ve
uygulama amaçları
Amaca uygun veri kümesi oluşturma: Veri seçme
Veri ayıklama ve önişleme : işlemin %70’lik
bölümünü oluşturur
Veri azaltma ve veri dönüşümü : incelemede gerekli boyutları
(özellikleri) seçme, boyutlar arası ilişkiyi belirleme, boyut
azaltma,
Veri madenciliği tekniği seçme
Sınıflandırma, eğri uydurma, bağıntı kuralları,
demetleme
Veri madenciliği algoritmasını seçme
Model değerlendirme ve bilgi sunumu
Bulunan bilginin yorumlanması
5
VERİ MADENCİLİĞİ NEDİR?
6
VERİ MADENCİLİĞİ NEDİR?
1960’lar
Veri kolleksiyonları
Veritabanı yaratımı
(Hiyerarşik ve ağ modelleri)
VERI MADENCILIĞININ TARIHÇESI
1970’ler
İlişkisel veri modeli
İlişkisel VTYS uygulamaları
1980’ler
İlişkisel VTYS yaygınlaşıyor
Uygulamaya yönelik VTYS
(Mekansal, Bilimsel, Mühendislik,
vs.)
VERI MADENCILIĞININ TARIHÇESI
1990’lar
2000’ler
Veri Ambarları,
Veri Madenciliği yaygınlaşıyor. (Son 10 yılda veri depolama
ünitelerinin fiyatlarında sürekli bir düşüş var.)
VERİ AMBARININ TANIMI
22
VERİ AMBARININ ÖZELLİKLERİ
Kurumun operasyonel veri tabanından ayrı olarak
yapılandırılmış bir karar destek veritabanıdır.
Konsolide edilmiş, tarihi verileri sağlayarak bilgi
işlemeyi destekler.
Bir veri ambarı, yöneticilerin karar verme sürecine
destek olmak üzere verinin
• Konuya yönelik
• Entegre
• Zamana bağlı değişen (zamana endeksli)
• Değişmez
halini sunmaktadır. 23
VERI MADENCILIĞI ÖRNEK
SONUÇ
Bir veri madenciliği çalışması için öncelikle çok
miktarda kaliteli veri gerekir.
Amaç bu veri içinde saklı, gelecekle ilgili tahmin
yapmakta kullanılabilecek kural ve bağıntıların
çıkarılmasıdır.
Böyle bir çalışmanın başarılı olması için
uygulama konusundaki uzmanların veri
tabanları ve veri madenciliği konusundaki
uzmanlarla beraber çalışması gerekir.
Çalışma uzun sürebilir; zaman ve sabır gerekir.
Veri Önişleme
Veri
Veri Önişleme
Veriyi Tanıma
Veri temizleme
Veri birleştirme
Veri dönüşümü
Veri azaltma
Benzerlik ve farklılık
VERİ ÖNİŞLEME
25
Veri Nedir?
Nesneler ve nesnelerin
niteliklerinden oluşan küme
kayıt (record), varlık (entity),
örnek (sample, instance)
nesne için kullanılabilir.
Nitelik (attribute) bir nesnenin
(object) bir özelliğidir
bir insanın yaşı, ortamın
sıcaklığı…
boyut (dimension), özellik
(feature, characteristic) olarak
da kullanılır.
Nitelikler ve bu niteliklere ait
değerler bir nesneyi oluşturur.
26
Değer Kümeleri
Nitelik için sayılar veya
saptanmış semboller
Nitelik & Değer Kümeleri
aynı nitelik farklı değer kümelerinden
değer alabilir
• ağırlık: kg, lb(libre, ağırlık ölçüsü)
farklı nitelikler aynı değer kümesinden
değer alabilirler
• ID, yaş: her ikisi de sayısal
27
İstatistiksel Veri Türleri
1- Nümerik Veriler : Sayısal-Nümerik-Nicel Veriler de denmektedir. Boy,Yaş
gibi süreklilik arzeden değerler Nümerik verilerdir. “Daha fazla” ifadesi ile
kullanılabilirler. Sürekli ve süreksiz olarak iki başlıkta ele alınabilir:
a) Sürekli Nümerik Veriler: Yaş, Sıcaklık
b) Aralıklı Nümerik Veriler (Interval): Çocuk Sayısı, Kaza Sayısı
2-Nominal Veriler : Kategorik bir veri çeşididir. “Daha fazla” ifadesi
ile
kullanılmazlar. İkiye ayrılır:
a)Binary Veriler: Var-Yok, Kadın-Erkek, Hasta-Sağlıklı
b)İkiden Çok Kategorili: Medeni Durum-Renk-Irk-Şehir, İsim, Forma Numarası
Örneğin forma numarası oyuncunun seviyesi ile ilgili bir bilgi içermez.
3-Ordinal Veriler : Ordinal veriler de yine kategorik veri
türündendir. Fakat değerleri arasında sıralı bir ilişki bulunmaktadır. “Daha
fazla” ifadesi ile kullanılabilirler ancak nekadar daha fazla olduğunun ölçüsünü
veremezler. Örneğim: Eğitim Düzeyi, Sosyoekonomik ölçek skorları gibi.
Nominal veriler, ordinal verilere göre daha az bilgi taşırlar.
4-Ratio Veriler : Nümerik verilere benzerler. 100 santigrat
derece,
50 santrigat derecenin iki katı denilemez ama derece kelvine çevrilirse 60
kelvin 30 kelvinin 2 misli sıcak denilebilir. Oran verilebilir veri türlerine Ratio
veriler denir. Burada kelvin derece ratio türünden bir değişken iken, santigrat
ise nümerik veri türüne örnek olarak verilebilir.
28
Nitelik Türleri
Belli aralıkta yeralan değişkenler (interval)
sıcaklık, tarih
Gereksiz Veri
46
Veri Dönüşümü
Veri, veri madenciliği uygulamaları için uygun olmayabilir