You are on page 1of 10

Konular

 Veri madenciliği ve bilgi keşfinin tanımı


VERİ MADENCİLİĞİ  Veri madenciliğinin uygulama alanları
Giriş  Veri kaynakları
 Veri madenciliği modellerinin gruplanması
Prof. Dr. Şule Gündüz Öğüdücü
 Veri ambarları
 Veri madenciliğinde sorunlar

1 2

Problem Tanımı Veri Madenciliği: Tarihçe


 teknolojinin gelişimiyle bilgisayar ortamında  Data Fishing-Data Dredging: 1960-
ve veri tabanlarında tutulan veri miktarının
artması (terabyte -> petabyte)  istatistikçiler
 verinin kolayca toplanabilmesi  Data Mining: 1990-
 bu veriyi nasıl kullanacağımızı bilmiyoruz  veritabanı kullanıcıları, ticari
saklanan veriden bilgi elde etmek için bu veriyi
Knowledge Discovery in Databases (KDD): 1989-

yorumlamamız gerekiyor 

 kullanıcıların beklentilerinin artması  yapay zeka, makine öğrenmesi toplulukları


 basit veri tabanı sorgulama yöntemlerinin  Data Archaeology, Information Harvesting,
yeterli olmaması Information Discovery, Knowledge Extraction,...
 Veri madenciliği yöntemleri fazla miktardaki
veri içinden yararlı bilgiyi bulmak için
kullanılır.

3 4

Bilgi Keşfi Veri Madenciliği Nedir?


 Büyük veri kaynaklarından yararlı ve ilginç bilgiyi  Teoride veri madenciliği bilgi keşfi işleminin
bulmak aşamalarından biridir.
 Pratikte veri madenciliği ve bilgi keşfi eş anlamlı
 Bulunan bilgi olarak kullanılır.
 gizli  Veri madenciliği teknikleri veriyi belli bir modele
 önemli uydurur.
 önceden bilinmeyen  veri içindeki örüntüleri bulur
 yararlı  örüntü: veri içindeki herhangi bir yapı
 Sorgulama ya da basit istatistik yöntemler veri
madenciliği değildir.
5 6

1
Bilgi Keşfi Bilgi Keşfinin Aşamaları
işlemin %70’lik
Uygulama alanını inceleme
Veri madenciliği:

 Model Değerlendirme bölümünü oluşturur
 Konuyla ilgili bilgi ve uygulama amaçları
Bilgi keşfinin  Amaca uygun veri kümesi oluşturma
Veri ayıklama ve önişleme
temel taşı

Veri Madenciliği  Veri azaltma ve veri dönüşümü


 incelemede gerekli boyutları (özellikleri) seçme, boyutlar arası ilişkiyi
belirleme, boyut azaltma,
Kullanım amaçlı Veri  Veri madenciliği tekniği seçme
 Sınıflandırma, eğri uydurma, bağıntı kuralları, demetleme
 Veri madenciliği algoritmasını seçme
Veri Ambarı Seçme
 Model değerlendirme ve bilgi sunumu
 Bulunan bilginin yorumlanması
Veri Temizleme
Veri Tabanları
Veri Birleştirme

Veri Dosyaları
7 8

Bilgi Keşfi Örnek: web kayıtları Bilgi Keşfi: Farklı Alanların Bileşimi
 web sitesinin yapısını inceleme
 verileri seçme: tarih aralığını belirleme Makine Görüntüleme
 veri ayıklama, önişleme: gereksiz kayıtları silme Öğrenmesi
 veri azaltma, veri dönüşümü: kullanıcı oturumları
belirleme Veri Madenciliği ve
 veri madenciliği tekniği seçme: demetleme Bilgi Keşfi
 veri madenciliği algoritması seçme: k-ortalama, EM, Diğer
DBSCAN...
 Model değerlendirme/yorumlama: değişik kullanıcı İstatistik Araştırma
grupları için sıkça izlenen yolu bulma Veritabanı
 Uygulama alanları: öneri modelleri, kişiselleştirme, ön Alanları
belleğe alma

9 10

İstatistik & Makine Öğrenmesi &


Veri Madenciliğine Farklı Bakış Açıları Veri Madenciliği
 Veri madenciliği uygulanacak veri  İstatistik
 veri dosyaları, ilişkisel veritabanları, veri ambarları, nesneye dayalı  daha çok teoriye dayalı yaklaşımlar
veritabanları, www, konumsal veriler, zamansal veriler
 Veri madenciliği işlevleri  bir varsayımın doğruluğunu araştırır
 demetleme, sınıflandırma, ilişkilendirme kuralları, eğri uydurma,  Makine Öğrenmesi
kestirim, aykırılıkların belirlenmesi..
 daha çok sezgisel yaklaşımlar
 veri içindeki örüntülerin bulunması /aykırılıkların bulunması
 öğrenme işleminin başarımını artırmaya çalışır
 Kullanılan teknikler
 kullanıcıyla etkileşim seviyesi  Veri madenciliği ve bilgi keşfi
 veri analizi için kullanılan yöntemler (makine öğrenmesi, istatistik,  teori ve sezgisel yaklaşımları birleştirir
görüntüleme...)
 bilgi keşfinin tüm aşamalarını gerçekler: veri temizleme,
 Uygulama alanı öğrenme, sonucu sunma, yorumlama,...
 telekomunikasyon, finans, sahtekarlık belirlenmesi, biyolojik veri
madenciliği, web madenciliği  Aradaki ayrım net değil

11 12

2
Veri Madenciliğinin Amacı Veritabanı & Veri Madenciliği İşlemleri
 Sorgulama  Sorgulama
 Yapmak istemediğimiz: Büyük
miktardaki veri içinde arama  Tanımlı  Tam tanımlı değil
yapmak (Veri tabanı yönetim  SQL  yaygın sorgulama
sistemleri bu işi yapıyor) dili yok
 Veri  Veri
 Canlı veri  Üzerinde işlem
 Amaç: Aradığımız veri mevcutsa
yapılmayan veri
sonuçlarını anlamak
 Çıkış  Çıkış
 Belirli  Belirli değil
 verinin bir alt kümesi  verinin bir alt kümesi
13 değil 14

Sorgulama Örnekleri Konular


 Veritabanı uygulaması:  Veri madenciliği ve bilgi keşfinin tanımı
 Soyadı Gündüz olan kredi kartı sahiplerini bul.
 Bir ayda 2000 YTL’den fazla harcama yapan kredi kartı  Veri madenciliğinin uygulama alanları
sahiplerini bul.
 Önce bilgisayar daha sonra yazıcı satın alan tüm
 Veri kaynakları
müşterileri bul.  Veri madenciliği modellerinin gruplanması
 Veri madenciliği uygulaması
 Riski az olan tüm kredi kartı başvurularının özeliklerini  Veri ambarları
bul (sınıflandırma)  Veri madenciliğinde sorunlar
 Harcama alışkanlığı benzer olan kredi kartı sahiplerinin
özelliklerini bul (demetleme)
 Sıkça satın alınan ürünleri bul (ilişkilendirme kuralları)

15 16

Veri Madenciliğinin Uygulama Alanları Uygulamalar


 Veritabanı analizi ve karar verme desteği  Hangi promosyonu ne zaman uygulamalıyım?
Pazar araştırması

 Hangi müşteri aldığı krediyi geri ödemeyebilir?
 Hedef Pazar, müşteriler arası benzerliklerin saptanması, sepet
analizi, çapraz pazar incelemesi  Bir müşteriye ne kadar kredi verilebilir?
 Risk analizi  Sahtekarlık olabilecek davranışlar hangileridir?
 Rekabet analizi, öngörü
 Sahtekarlıkların saptanması  Hangi müşteriler yakın zamanda kaybedilebilir?
 Diğer Uygulamalar  Hangi müşterilere promosyon yapmalıyım?
 Belgeler arası benzerlik (haber kümeleri, e-posta)  Hangi yatırım araçlarına yatırım yapmalıyım?
 Sorgulama sonuçları

17 18

3
Pazar Araştırması (1) Pazar Araştırması (2)
 Veri madenciliği uygulamaları için veri kaynağı  Müşteri profili
Kredi kartı hareketleri, üyelik kartları, ucuzluk kuponları,
Hangi özellikteki müşterilerin hangi ürünleri

pazar anketleri 

 Hedef pazarlar bulma aldıkları (demetleme veya sınıflandırma)


 Benzer özellikler gösteren müşterilerin bulunması:  Müşterilerin ihtiyaçlarını belirleme
benzer gelir grupları, ilgi alanları, harcama alışkanlıkları
 Farklı müşterilerin o anki ilgisine yönelik ürünü
 Müşterilerin davranışlarında zaman içindeki değişiklik
bulma
 Tek kişilik banka hesabının ortak hesaba çevrilmesi:
evlilik  Yeni müşterileri hangi faktörlerin etkilediğini
 Çapraz pazar incelemesi: bulma
 Ürün satışları arasındaki ilişkiyi bulma

19 20

Sahtekarlık İncelemesi Risk Analizi


 Sigorta, bankacılık,  Finans planlaması ve bilanço değerlendirmesi
telekomünikasyon alanlarında  nakit para akışı incelemesi ve kestirimi
 Geçmiş veri kullanılarak sahtekarlık  talep incelemesi
yapanlar için bir model oluşturma  zaman serileri incelemesi
ve benzer davranış gösterenleri  Kaynak planlaması
belirleme
 kaynakların incelenmesi ve uygun olarak dağıtılması
 Örnek:
 Rekabet
 Araba sigortası
 rakipleri ve pazar eğilimlerini takip etme
 Sağlık Sigortası
 müşterileri sınıflara ayırma ve fiyat politikası belirleme
 Kredi kartı başvurusu

21 22

Konular Veri Kaynakları


Veri dosyaları
 Veri madenciliği ve bilgi keşfinin tanımı 

 Veritabanı kaynaklı veri kümeleri


 Veri madenciliğinin uygulama alanları  ilişkisel veritabanları, veri ambarları
Gelişmiş veri kümeleri
Veri kaynakları


 duraksız veri (data stream),
algılayıcı verileri (sensor data)
 Veri madenciliği modellerinin gruplanması
 zaman serileri, sıralı diziler
 Veri ambarları (biyolojik veriler)
 çizgeler, sosyal ağ (social
 Veri madenciliğinde sorunlar networks) verileri
 konumsal veriler (spatial data)
 çoğul ortam veritabanları
(multimedia databases)
 nesneye dayalı veritabanları
 www
23 24

4
Konular Veri Madenciliği Algoritmaları
 Veri madenciliği ve bilgi keşfinin tanımı  amaç: veriyi belli bir modele uydurmak
 tanımlayıcı
 Veri madenciliğinin uygulama alanları  En iyi müşterilerim kimler?
 Veri kaynakları  Hangi ürünler birlikte satılıyor?
 Hangi müşteri gruplarının alışveriş alışkanlıkları benzer?
 Veri madenciliği modellerinin gruplanması  kestirime dayalı
 Veri ambarları  Kredi başvuralarını risk gruplarına ayırma
 Şirketle çalışmayı bırakacak müşterileri öngörme
 Veri madenciliğinde sorunlar  Borsa tahmini
 seçim: veriye uyan en iyi modeli seçmek için kullanılan
kriter
 arama: veri üzerinde arama yapmak için kullanılan
teknik
25 26

Veri Madenciliği Modelleri Veri Madenciliği İşlevleri


veri madenciliği  Sınıflandırma (Classification): Veriyi önceden
belirlenmiş sınıflardan birine dahil eder.
 Gözetimli öğrenme
kestirime dayalı tanımlayıcı  Örüntü tanıma
 Kestirim
sıralı Eğri uydurma (Regression): Veriyi gerçek değerli bir
zaman demetleme özetleme 
sınıflandırma eğri dizi
uydurma serileri ilişkilendirme fonksiyona dönüştürür.
kuralları
 Zaman serileri inceleme (Time Series Analysis): Zaman
içinde değişen verinin değerini öngörür.
 Aykırılıkları Belirleme (Outlier Analysis): Verinin
geneline uymayan nesneleri belirleme

27 28

Veri Madenciliği İşlevleri Örnek: Sınıflandırma


 Demetleme (Clustering): Benzer verileri aynı grupta
toplama Tid Geri Medeni Gelir Geri Medeni Gelir
Dolan Dolan
 Gözetimsiz öğrenme Ödeme Durum dırıcı Ödeme Durum dırıcı

Özetleme (Summarization): Veriyi alt gruplara ayırır. 1 Evet Bekar 125K -1 Hayır Bekar 75K ?

2 Hayır Evli 100K -1 Evet Evli 50K ?
Her alt grubu temsil edecek özellikler bulur. 3 Hayır Bekar 70K -1 Hayır Evli 150K ?

 Genelleştirme (Generalization) 4 Evet Evli 120K -1 Evet Boşanmış 90K ?

 Nitelendirme (Characterization) 5 Hayır Boşanmış 95K 1 Hayır Bekar 40K ?

6 Hayır Evli 60K -1 Hayır Evli 80K ? Deneme


 İlişkilendirme kuralları (Association Rules) 7 Evet Boşanmış 220K -1
0
1

Kümesi

 Veriler arasındaki ilişkiyi belirler 8 Hayır Bekar 85K 1

 Sıralı dizileri bulma (Sequence Discovery): Veri içinde 9 Hayır Evli 75K -1
Öğrenme
Sınıflandırıcı
Model
sıralı örüntüler bulmak için kullanılır.
10 Hayır Bekar 90K 1
10
Kümesi

29 30

5
Örnek: Demetleme Örnek: İlişkilendirme Kuralları
 Doküman Demetleme:  Veri kümesindeki nesneler arasındaki ilişkiyi
Amaç:
bulma

 Döküman içinde geçen terimlere göre aynı konudaki
dokümanları gruplama  bir nesnenin (nesnelerin) varlığı ile diğer bir
 Yaklaşım: nesnenin (nesnelerin) de varlığını tahmin
 Her doküman içinde sık geçen terimleri bul. Bu edebilecek kurallar
terimlerden ve ağırlıklarından yararlanarak bir benzerlik
ölçütü geliştir. Bu ölçüte göre demetleme yap
TID Nesneler
 Kullanımı: 1 Ekmek, Kola, Süt
Bulunan Kurallar:
 Yeni bir dokümanın hangi dokümanlarla benzer olduğu 2 Bira, Ekmek {Süt} --> {Kola}
 terimlere göre arama yapıldığında bu terimleri içeren 3 Bira, Kola, Çocuk bezi, Süt {Çocuk bezi, Süt} --> {Bira}
dokümanları bulma 4 Bira, Ekmek, Çocuk bezi, Süt
5 Kola, Çocuk bezi, Süt

31 32

Bütün Önemli Örüntülerin


Bulunan Örüntüler Önemli mi? Bulunması
 Binlerce örüntü: Bir kısmı önemli  Bütünlük: Önemli bütün örüntülerin bulunması
 Veri madenciliği ile bulunan sonuç kümesi üzerinde
tekrar veri madenciliği uygulanacak kadar büyük  Önemli bütün örüntüler bulunabilir mi?
 Bulunan örüntünün önemli olması için:  Eniyileme: Sadece önemli örüntüleri bulma
 insanlar tarafından kolayca anlaşılabilir

 sınama verisi veya yeni veriler üzerinde belli oranda  Sadece önemli örüntüler bulunabilir mi?
geçerli  Bütün örüntüler bulunduktan sonra önemsiz olanların
 yararlı ve kullanılabilir ayıklanması
 yeni
 Sadece önemli örüntülerin bulunması
 nesnel / öznel metrikler
 nesnel: örüntünün yapısına bağlı
 öznel: kullanıcının yaklaşımına bağlı

33 34

En İyi 10 Veri Madenciliği Algoritması En İyi 10 Veri Madenciliği Algoritması


Belirlenen 18 Aday Belirlenen 18 Aday
 Classification  Link Mining
#1. C4.5 Quinlan, J. R. 1993. C4.5: Programs for Machine Learning. Morgan

Kaufmann Publishers Inc.  #9. PageRank: Brin, S. and Page, L. 1998. The anatomy of a large-scale
 #2. CART L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and hypertextual Web search engine. In WWW-7, 1998.
Regression Trees. Wadsworth, Belmont, CA, 1984.  #10. HITS: Kleinberg, J. M. 1998. Authoritative sources in a hyperlinked
 #3. K Nearest Neighbours (kNN) Hastie, T. and Tibshirani, R. 1996. Discriminant environment. SODA, 1998.
Adaptive Nearest Neighbor Classification. IEEE Trans. Pattern Anal. Mach. Intell.
(TPAMI). 18, 6 (Jun. 1996), 607-616.  Clustering
 #4. Naive Bayes Hand, D.J., Yu, K., 2001. Idiot's Bayes: Not So Stupid After All?  #11. K-Means: MacQueen, J. B., Some methods for classification and
Internat. Statist. Rev. 69, 385-398. analysis of multivariate observations, in Proc. 5th Berkeley Symp.
 Statistical Learning Mathematical Statistics and Probability, 1967.
 #5. SVM Vapnik, V. N. 1995. The Nature of Statistical Learning Theory. Springer-  #12. BIRCH: Zhang, T., Ramakrishnan, R., and Livny, M. 1996. BIRCH: an
Verlag New York, Inc.
efficient data clustering method for very large databases. In SIGMOD '96.
 #6. EM McLachlan, G. and Peel, D. (2000). Finite Mixture Models. J. Wiley, New
York.  Bagging and Boosting
 Association Analysis  #13. AdaBoost: Freund, Y. and Schapire, R. E. 1997. A decision-theoretic
 #7. Apriori: Rakesh Agrawal and Ramakrishnan Srikant. Fast Algorithms for Mining generalization of on-line learning and an application to boosting. J.
Association Rules. In VLDB '94. Comput. Syst. Sci. 55, 1 (Aug. 1997), 119-139.
 #8. FP-Tree: Han, J., Pei, J., and Yin, Y. 2000. Mining frequent patterns without
candidate generation. In SIGMOD '00.

35 36

6
En İyi 10 Veri Madenciliği Algoritması Seçilen En İyi 10 Veri Madenciliği Algoritması
Belirlenen 18 Aday ICDM’06
 Sequential Patterns  #1: C4.5 (61 votes)
 #14. GSP: Srikant, R. and Agrawal, R. 1996. Mining Sequential Patterns:
Generalizations and Performance Improvements. In Proceedings of the 5th  #2: K-Means (60 votes)
International Conference on Extending Database Technology, 1996.
 #3: SVM (58 votes)
 #15. PrefixSpan: J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal and M-
C. Hsu. PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern  #4: Apriori (52 votes)
Growth. In ICDE '01.
 Integrated Mining  #5: EM (48 votes)
 #16. CBA: Liu, B., Hsu, W. and Ma, Y. M. Integrating classification and association  #6: PageRank (46 votes)
rule mining. KDD-98.
 Rough Sets  #7: AdaBoost (45 votes)
 #17. Finding reduct: Zdzislaw Pawlak, Rough Sets: Theoretical Aspects of Reasoning  #7: kNN (45 votes)
about Data, Kluwer Academic Publishers, Norwell, MA, 1992
 Graph Mining  #7: Naive Bayes (45 votes)
 #18. gSpan: Yan, X. and Han, J. 2002. gSpan: Graph-Based Substructure Pattern  #10: CART (34 votes)
Mining. In ICDM '02.

37 38

Bu Konudaki Başlıca Konferanslar ve Dergiler Konular


KDD konferansları  Konuyla ilgili diğer

 ACM SIGKDD Int. Conf. on konferanslar  Veri madenciliği ve bilgi keşfinin tanımı
Knowledge Discovery in ACM SIGMOD
Veri madenciliğinin uygulama alanları

Databases and Data Mining 


 VLDB
(KDD)
 SIAM Data Mining Conf.  (IEEE) ICDE  Veri kaynakları
(SDM) WWW, SIGIR
Veri madenciliği modellerinin gruplanması

(IEEE) Int. Conf. on Data 


  ICML, CVPR, NIPS
Mining (ICDM)
 Conf. on Principles and  Dergiler  Veri ambarları
practices of Knowledge Data Mining and Knowledge
Veri madenciliğinde sorunlar

Discovery and Data Mining Discovery (DAMI or DMKD) 
(PKDD)
 Pacific-Asia Conf. on  IEEE Trans. On Knowledge
Knowledge Discovery and and Data Eng. (TKDE)
Data Mining (PAKDD)  KDD Explorations
 ACM Trans. on KDD

39 40

İlgili Konular: Veri Ambarları Veri Ambarı


 Çok fazla miktarda üzerinde işlem yapılan veri var  Amaca yönelik
 Çoğunlukla farklı veri tabanlarında ve farklı ortamlarda  Birleştirilmiş
Veri farklı formatlarda ve yerlerde (heterojen ve
Zaman değişkenli


dağıtık)
 Değişken değil

 Karar destek birimleri veriye sanal olarak tek bir


yerden ulaşabilmeli
 Ulaşım hızlı olmalı

41 42

7
Veri Ambarları: Amaca Yönelik Veri ambarları: Birleştirilmiş
 Müşteri, ürün, satış gibi belli konular için  Veri kaynaklarının birleştirilmesiyle oluşturulur
düzenlenebilir  Canlı veri tabanları, dosyalar
 Verinin incelenmesi ve modellenmesi için  Veri temizleme ve birleştirme teknikleri kullanılır
oluşturulur  Değişik veri kaynakları arasındaki tutarlılık
 Konuyla ilgili karar vermek için gerekli olmayan sağlanır
veriyi kullanmayarak konuya basit, özet bakış
sağlar

43 44

Veri Ambarları: Zaman Değişkenli Veri Ambarları: Değişken Değil


 Zaman değişkeni canlı veri tabanlarına göre  Canlı veri tabanlarından alınmış verinin fiziksel
daha uzundur olarak başka bir ortamda saklanması
 Canlı veri tabanları: Güncel veriler bulunur (en  Canlı veri tabanlarındaki değişimin veri
çok geçmiş 1 yıl) ambarlarını etkilememesi
 Veri ambarları: Geçmiş hakkında bilgi verir
(geçmiş 5-10 yıl)

45 46

Veri Ambarı Mimarisi Veri Kaynakları


İstemci
 İki yaklaşım:
İstemci
Sorgulama &  sorgulamalı
İnceleme
 veri ambarı

Metadata Veri Ambarı ?


Birleştirme
Kaynak Kaynak

Kaynak Kaynak Kaynak

47 48

8
Veri Ambarı & Birleşmiş Veritabanları Veri Madenciliği & OLAP
 Veri tabanlarının birleştirilmesi:  OLAP (On-Line Analytical Processing)
 Farklı veri tabanları arasında bir arabulucu katman  Veri ambarlarının işlevi
 Sorgulamalı  Veriyi inceleme ve karar verme
 Bir sorgulamayı her veri tabanı için alt sorgulamalara ayır  OLTP (On-Line Transaction Processing) saatler sürebilen işlemler
 Sonucu birleştir
 OLAP avantajları
 Veri ambarı:
 Daha geniş kapsamlı sonuçlar
 Veri daha sonra kullanılmak üzere birleştirilip veri ambarında
saklanıyor  Daha kısa süreli işlem

Alt Sorgulamalar  OLAP dezavantajları


 Kullanıcı neyi nasıl soracağını bilmesi gerekiyor
Birleştirme Sorgulama Sorgu
 Genelde veriden istatistiksel inceleme yapmak için kullanılır.
OLAP NE sorusuna cevap verir, veri madenciliği NEDEN
Sonuç
Veri Ambarı sorusuna cevap verir.
Sonuç Arabulucu

Veri Ambarı Kaynaklar


Birleştirilmiş veri tabanları 49 50

Konular Veri Madenciliğinde Sorunlar (1)


 Veri madenciliği ve bilgi keşfinin tanımı  Gizlilik ve sosyal haklar
 Veri madenciliğinin uygulama alanları  Kullanıcı Arabirimi
 Veri kaynakları  Veri madenciliği yöntemi
 Veri madenciliği modellerinin gruplanması  Başarım ve ölçeklenebilirlik
 Veri ambarları  Veri kaynağı
 Veri madenciliğinde sorunlar

51 52

Veri Madenciliğinde Sorunlar (2) Veri Madenciliğinde Sorunlar (3)


 Gizlilik ve sosyal haklar  Kullanıcı Arabirimi
 Kişilere ait verilerin toplanarak, kişilerden  Görüntüleme
habersiz ve izinsiz olarak kullanılması  Sonucun anlaşılabilir ve yorumlanabilir hale
 Veri madenciliği yöntemleri ile bulunan getirilmesi
sonuçların izinsiz olarak açıklanması  Bilginin sunulması
(/paylaşılması)  Etkileşim
 Gizlilik ve veri madenciliği politikalarının  Veri madenciliği ile elde edilen bilginin kullanılması
düzenlenmesi  Veri madenciliği yöntemine müdahele etmek
 Veri madenciliği yönteminin sonucuna müdahele
etmek

53 54

9
Veri Madenciliğinde Sorunlar (4) Veri Madenciliğinde Sorunlar (5)
 Veri madenciliği yöntemi  Başarım ve ölçeklenebilirlik
 Farklı tipte veriler üzerinde çalışabilme  Kullanabilirlik ve ölçeklenebilirlik
 Farklı seviyelerde kullanıcı ile etkileşim halinde olabilme  Zaman karmaşıklığı ve yer karmaşıklığı kabul edilebilir
 Uygulama ortamı bilgisini kullanabilme  Örnekleme yapabilme
Veri madenciliği ile elde edilen sonucu anlaşılır şekilde
Paralel ve dağıtık yöntemler


sunabilme
Artımlı veri madenciliği
Gürültülü ve eksik veri ile çalışabilme (ve iyi sonuç

verebilme)  Parçala ve çöz


 Değişen veya eklenen verileri kolayca kullanabilme
 Örüntü değerlendirme: önemli örüntüleri bulma

55 56

Uyarı
 Veri madenciliği yöntemleri bilinçsiz olarak
kullanılmamalı
 Veri madenciliği yöntemleri geçmiş olaylara
bakarak örüntüler bulur: Gelecekteki olaylar
geçmiştekilerle aynı değildir
 İlişkiler her zaman nedenleri açıklamaz
 David Heckerman’ın verdiği örnek (1997)
 hamburger, hot-dog, barbecue sauce
 %33 hamburger, %33 hot-dog, %33 hamburger+hot-dog
 sadece hamurger alanlar barbecue sauce alıyor
 Hot-dog -> barbecue sauce

57

10

You might also like