Professional Documents
Culture Documents
1 2
3 4
1
Bilgi Keşfi Bilgi Keşfinin Aşamaları
işlemin %70’lik
Uygulama alanını inceleme
Veri madenciliği:
Model Değerlendirme bölümünü oluşturur
Konuyla ilgili bilgi ve uygulama amaçları
Bilgi keşfinin Amaca uygun veri kümesi oluşturma
Veri ayıklama ve önişleme
temel taşı
Veri Dosyaları
7 8
Bilgi Keşfi Örnek: web kayıtları Bilgi Keşfi: Farklı Alanların Bileşimi
web sitesinin yapısını inceleme
verileri seçme: tarih aralığını belirleme Makine Görüntüleme
veri ayıklama, önişleme: gereksiz kayıtları silme Öğrenmesi
veri azaltma, veri dönüşümü: kullanıcı oturumları
belirleme Veri Madenciliği ve
veri madenciliği tekniği seçme: demetleme Bilgi Keşfi
veri madenciliği algoritması seçme: k-ortalama, EM, Diğer
DBSCAN...
Model değerlendirme/yorumlama: değişik kullanıcı İstatistik Araştırma
grupları için sıkça izlenen yolu bulma Veritabanı
Uygulama alanları: öneri modelleri, kişiselleştirme, ön Alanları
belleğe alma
9 10
11 12
2
Veri Madenciliğinin Amacı Veritabanı & Veri Madenciliği İşlemleri
Sorgulama Sorgulama
Yapmak istemediğimiz: Büyük
miktardaki veri içinde arama Tanımlı Tam tanımlı değil
yapmak (Veri tabanı yönetim SQL yaygın sorgulama
sistemleri bu işi yapıyor) dili yok
Veri Veri
Canlı veri Üzerinde işlem
Amaç: Aradığımız veri mevcutsa
yapılmayan veri
sonuçlarını anlamak
Çıkış Çıkış
Belirli Belirli değil
verinin bir alt kümesi verinin bir alt kümesi
13 değil 14
15 16
17 18
3
Pazar Araştırması (1) Pazar Araştırması (2)
Veri madenciliği uygulamaları için veri kaynağı Müşteri profili
Kredi kartı hareketleri, üyelik kartları, ucuzluk kuponları,
Hangi özellikteki müşterilerin hangi ürünleri
pazar anketleri
19 20
21 22
4
Konular Veri Madenciliği Algoritmaları
Veri madenciliği ve bilgi keşfinin tanımı amaç: veriyi belli bir modele uydurmak
tanımlayıcı
Veri madenciliğinin uygulama alanları En iyi müşterilerim kimler?
Veri kaynakları Hangi ürünler birlikte satılıyor?
Hangi müşteri gruplarının alışveriş alışkanlıkları benzer?
Veri madenciliği modellerinin gruplanması kestirime dayalı
Veri ambarları Kredi başvuralarını risk gruplarına ayırma
Şirketle çalışmayı bırakacak müşterileri öngörme
Veri madenciliğinde sorunlar Borsa tahmini
seçim: veriye uyan en iyi modeli seçmek için kullanılan
kriter
arama: veri üzerinde arama yapmak için kullanılan
teknik
25 26
27 28
Özetleme (Summarization): Veriyi alt gruplara ayırır. 1 Evet Bekar 125K -1 Hayır Bekar 75K ?
2 Hayır Evli 100K -1 Evet Evli 50K ?
Her alt grubu temsil edecek özellikler bulur. 3 Hayır Bekar 70K -1 Hayır Evli 150K ?
Kümesi
Sıralı dizileri bulma (Sequence Discovery): Veri içinde 9 Hayır Evli 75K -1
Öğrenme
Sınıflandırıcı
Model
sıralı örüntüler bulmak için kullanılır.
10 Hayır Bekar 90K 1
10
Kümesi
29 30
5
Örnek: Demetleme Örnek: İlişkilendirme Kuralları
Doküman Demetleme: Veri kümesindeki nesneler arasındaki ilişkiyi
Amaç:
bulma
Döküman içinde geçen terimlere göre aynı konudaki
dokümanları gruplama bir nesnenin (nesnelerin) varlığı ile diğer bir
Yaklaşım: nesnenin (nesnelerin) de varlığını tahmin
Her doküman içinde sık geçen terimleri bul. Bu edebilecek kurallar
terimlerden ve ağırlıklarından yararlanarak bir benzerlik
ölçütü geliştir. Bu ölçüte göre demetleme yap
TID Nesneler
Kullanımı: 1 Ekmek, Kola, Süt
Bulunan Kurallar:
Yeni bir dokümanın hangi dokümanlarla benzer olduğu 2 Bira, Ekmek {Süt} --> {Kola}
terimlere göre arama yapıldığında bu terimleri içeren 3 Bira, Kola, Çocuk bezi, Süt {Çocuk bezi, Süt} --> {Bira}
dokümanları bulma 4 Bira, Ekmek, Çocuk bezi, Süt
5 Kola, Çocuk bezi, Süt
31 32
sınama verisi veya yeni veriler üzerinde belli oranda Sadece önemli örüntüler bulunabilir mi?
geçerli Bütün örüntüler bulunduktan sonra önemsiz olanların
yararlı ve kullanılabilir ayıklanması
yeni
Sadece önemli örüntülerin bulunması
nesnel / öznel metrikler
nesnel: örüntünün yapısına bağlı
öznel: kullanıcının yaklaşımına bağlı
33 34
35 36
6
En İyi 10 Veri Madenciliği Algoritması Seçilen En İyi 10 Veri Madenciliği Algoritması
Belirlenen 18 Aday ICDM’06
Sequential Patterns #1: C4.5 (61 votes)
#14. GSP: Srikant, R. and Agrawal, R. 1996. Mining Sequential Patterns:
Generalizations and Performance Improvements. In Proceedings of the 5th #2: K-Means (60 votes)
International Conference on Extending Database Technology, 1996.
#3: SVM (58 votes)
#15. PrefixSpan: J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal and M-
C. Hsu. PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern #4: Apriori (52 votes)
Growth. In ICDE '01.
Integrated Mining #5: EM (48 votes)
#16. CBA: Liu, B., Hsu, W. and Ma, Y. M. Integrating classification and association #6: PageRank (46 votes)
rule mining. KDD-98.
Rough Sets #7: AdaBoost (45 votes)
#17. Finding reduct: Zdzislaw Pawlak, Rough Sets: Theoretical Aspects of Reasoning #7: kNN (45 votes)
about Data, Kluwer Academic Publishers, Norwell, MA, 1992
Graph Mining #7: Naive Bayes (45 votes)
#18. gSpan: Yan, X. and Han, J. 2002. gSpan: Graph-Based Substructure Pattern #10: CART (34 votes)
Mining. In ICDM '02.
37 38
39 40
41 42
7
Veri Ambarları: Amaca Yönelik Veri ambarları: Birleştirilmiş
Müşteri, ürün, satış gibi belli konular için Veri kaynaklarının birleştirilmesiyle oluşturulur
düzenlenebilir Canlı veri tabanları, dosyalar
Verinin incelenmesi ve modellenmesi için Veri temizleme ve birleştirme teknikleri kullanılır
oluşturulur Değişik veri kaynakları arasındaki tutarlılık
Konuyla ilgili karar vermek için gerekli olmayan sağlanır
veriyi kullanmayarak konuya basit, özet bakış
sağlar
43 44
45 46
47 48
8
Veri Ambarı & Birleşmiş Veritabanları Veri Madenciliği & OLAP
Veri tabanlarının birleştirilmesi: OLAP (On-Line Analytical Processing)
Farklı veri tabanları arasında bir arabulucu katman Veri ambarlarının işlevi
Sorgulamalı Veriyi inceleme ve karar verme
Bir sorgulamayı her veri tabanı için alt sorgulamalara ayır OLTP (On-Line Transaction Processing) saatler sürebilen işlemler
Sonucu birleştir
OLAP avantajları
Veri ambarı:
Daha geniş kapsamlı sonuçlar
Veri daha sonra kullanılmak üzere birleştirilip veri ambarında
saklanıyor Daha kısa süreli işlem
51 52
53 54
9
Veri Madenciliğinde Sorunlar (4) Veri Madenciliğinde Sorunlar (5)
Veri madenciliği yöntemi Başarım ve ölçeklenebilirlik
Farklı tipte veriler üzerinde çalışabilme Kullanabilirlik ve ölçeklenebilirlik
Farklı seviyelerde kullanıcı ile etkileşim halinde olabilme Zaman karmaşıklığı ve yer karmaşıklığı kabul edilebilir
Uygulama ortamı bilgisini kullanabilme Örnekleme yapabilme
Veri madenciliği ile elde edilen sonucu anlaşılır şekilde
Paralel ve dağıtık yöntemler
sunabilme
Artımlı veri madenciliği
Gürültülü ve eksik veri ile çalışabilme (ve iyi sonuç
55 56
Uyarı
Veri madenciliği yöntemleri bilinçsiz olarak
kullanılmamalı
Veri madenciliği yöntemleri geçmiş olaylara
bakarak örüntüler bulur: Gelecekteki olaylar
geçmiştekilerle aynı değildir
İlişkiler her zaman nedenleri açıklamaz
David Heckerman’ın verdiği örnek (1997)
hamburger, hot-dog, barbecue sauce
%33 hamburger, %33 hot-dog, %33 hamburger+hot-dog
sadece hamurger alanlar barbecue sauce alıyor
Hot-dog -> barbecue sauce
57
10