You are on page 1of 17

STANBUL TEKNK NVERSTES - FEN BLMLER ENSTTS GEOMATK MHENDSL ANABLM DALI GEOMATK MHENDSL PROGRAMI

Bilgi Teknolojileri ve CBS


Prof. Dr. Cengizhan PBKER

VER MADENCL

MER GKDA 501111633

STANBUL Kasm, 2012

ERK

1. Giri ..3 1.1 Veri Madencilii Nedir ? .................................................................................4 1.2 Veri Madencilii Ne Deildir ? .6 1.3 Neden Veri Madencilii ? .................6 1.4 Veri Madencilii Srecinin Ortaya k .7 2. Kullanlacak Veri Nasl Olmal ? .9 3 Veriden Bilgi Kefi .10 3.1 Veri n leme .10 3.1.1 Neden Veri n leme ? 11 3.2 Snflandrma .. 12 3.3 Kmeleme ... 12 3.4 likilendirme .. 13 3.5 Tahmin Raporu ... 13 4. Veri Taban ve Veri Madencilii .. 14 5. Uygulama Alanlar ... 15 6. Kaynaklar ..... 17

1.

GR Veri miktarnda meydana gelen olaan st art, bu verilerden nasl yararlanlabilecei

konusunu n plana karmtr. Veri deerlendirmenin klasik yntemleri veya geleneksel biliim teknikleri ile bu kadar ok veriden anlaml bilgilerin elde edilmesinin pek mmkn olamayaca anlalmtr. Biliim teknolojilerinin geliimi ve tahmin edilemeyecek oranda biriken ve derlenen bilgi dann olumasnn sonucu olarak, her alanda strateji gelitirme konusunda kurumlar ve bireyleri desteklemek amacyla Veri Madencilii adl bir teknik son yllarda yaygn olarak uygulanmaya balanmtr. Veri Madencilii Teknikleri, verinin yn halde bulunduu, akla gelebilecek btn alanlarda gizli bilgilerin aa karlabilmesi ve gelecekteki eilim ve davran ekillerinin tahmin edilebilmesinde kullanlabilmektedir. Veri Madencilii byk miktardaki veri yn ierisinden gelecekle ilgili tahmin yapmamz salayacak, bant ve kurallarn bilgisayar programlar kullanlarak aranmasdr. Maliyetli ve zahmetli bir sre olan veri toplama yatrmlarndan en yksek fayday salamak veri madencilii ile mmkndr. Veri Madencilii, insan davranlarnn nceden tahmin edilebilmesini salar. rnein nceden biliniyor olsayd; hastanelere yaplan tedavi taleplerinin blgelere, zamana ve ihtiyaca gre deerlendirilmesi, salgn hastalk riskinin ilk aamada tespiti ve kaynak planlama asndan faydal olmaz myd? Kaak enerji kullananlarn profillerini tespit eden bir model, olas kaak enerji kullanclarn tahmin etmenizi salasa idi, dk maliyet ile kaaklarla etkin mcadele edilmez miydi? Web sitenizi ziyaret eden kiiler, ilk birka klikten sonra ihtiyalar dorultusunda ynlendirilseler, kiilerin ihtiyalar dorultusunda ierik ynetimi yapabilseniz, e-devlet hedefleri doru ynetilmez miydi? Btn bu sorularn cevab elbette Evettir. Ancak bu, veriye uygulanacak doru veri madencilii modelleri sayesinde olabilecektir. Veri madencilii ile byk veri ynlarndan oluan veritaban sistemleri ierisinde gizli kalm bilgilerin ekilmesi salanr. Bu ilem, istatistik, matematik disiplinleri, modelleme teknikleri, veritaban teknolojisi ve eitli bilgisayar programlar kullanlarak yaplr.

1.1

Veri Madencilii Nedir ? Veri madencilii, byk hacimli veri ynlar ierisinden karar alabilmek iin potansiyel

olarak faydal olabilecek, uygulanabilir ve anlaml bilgilerin karlmasna verilen addr. Veri madencilii geni anlamda veri analiz teknikleri btndr ve tek bana bir zm deildir.

Mevcut problemleri zmek, kritik kararlar almak veya gelecee ynelik tahminleri yapmak iin gerekli olan bilgileri elde etmeye yarayan bir aratr. Ortaya karlmas hedeflenen bilgiler; st kapal, ok net olmayan, nceden bilinmeyen, daha nce kefedilmemi ancak potansiyel olarak kullanl anlaml ve kritik bilgilerdir.

CNNin yayn aknn her dakikasnn ald ratingden, IMDB web sayfasnn ka ziyareti aldna, stanbula eyll aylarnda den yamur miktarndan, en ok satlan st markasna, sedan otomobil satn alanlarn yalarna, pandalarn dourganlk oranndan, Evereste trmanan dac saysna kadar evremizde yaananlarn ok nemli bir ksm srekli olarak kaydedilmektedir. Saylardan oluan tm bu kaytlar ancak doru ekilde bakldnda bir anlam ifade etmektedirler. Bu nedenle veri madencilii en geni anlam ile yaadmz ve kaydettiimiz olaylara anlam katmaktr.

Veri madencilii hayatmzn iindeki bir kavramdr aslnda. Elinizde patates, biber, soan, fasulye, patlcan, ya, su, sala vb. sebzeler var fakat bunlardan trl yemeini yapamyorsanz bu rnlerin hibir anlam yoktur. Zamanla dolabnzda rmeye doru gider. te veri madencilii de byledir. Sizin devasa bir veri ambarnz veya verileri topladnz bir alan vardr. Eer siz bu verileri doru ekilde kullanp bunlardan yaplacak bir rn kartamyorsanz, veri ambarnz aslnda okta ie yaramyordur .

1.2

Veri Madencilii Ne Deildir ?

Bir restoran zincirinde; hangi ubelerin ne kadar ciro yapt, hangi rnlerin hangi noktalarda daha fazla satld, hangi saatlerde younluk yaand, gibi analizler veya Bir sat irketinde; hangi mterilerin devamllk gsterdikleri, hangi blgelerde performans dkl yaadklarn belirlemek veri madencilii deildir. Gelir ile ya ilikisinin incelendii bir deiken, bir sonu ve az sayda veriden oluan bir modeli tanmlayarak, yaa gre gelir tahmini yapmak da veri madencilii deildir. Yz deikenin olduu, deikenler arasnda sadece rakamsal deerlerin deil, sral (yksek-ortadk) veya srasz (evli-bekar-dul) kategorilerin olduu, milyon tane verinin olduu ancak doru algoritmalar ve gl bir bilgisayar ile sonuca ulamann mmkn olduu modelleri kurmak veri madenciliidir.

1.3 -

Neden Veri Madencilii ? Bilgisayarlarn ucuzlayp ayn zamanda ok gl hale gelmeleri Teknolojinin geliimiyle bilgisayar ortamnda ve veritabanlarnda tutulan veri miktarnn da artmas (terabyte to petabyte) Yeni veri toplama yollar (Otomatik veri toplama aletleri, veritaban sistemleri, bilgisayar kullanmnn artmas)

Byk veri kaynaklar ( dnyas: Web, e-ticaret, alveri, hisse senetleri, Bilim dnyas: Uzaktan alglama ve izleme, bioinformatik, simlasyonlar, Toplum: haberler, dijital kameralar, YouTube, Facebook) Ticari rekabet basksnn artmas (Kiiselletirilmi rnler, CSR ynetimi)

Veri iinde bouluyoruz, ancak bilgi elde edemiyoruz!

1.4

Veri Madencilii Srecinin Ortaya k

Veri madencilii teknikleri uzun bir aratrma ve rn gelitirme srecinin sonucunda ortaya kmtr. Bu geliim iletme verilerinin ilk olarak bilgisayarlara depolanmasyla balam, veri girilerinin geliimiyle devam etmitir ve veri madencilii gnmzde de kullanclara verilerini ynetme olana salayan bir sre haline gelmitir.

1.4

Veri Madencilii Srecinin Ortaya k

2.

Kullanlacak Veri Nasl Olmal ?

1-htiyaca gre tasarlanm olmas gerekmektedir. Siz eer gelecek sene ne kadar araba satacanz grmek istiyorsanz , veri ambarnzdaki verilerin araba ve sat istatistikleri hakknda bilgi toplayacak trden veriler olmas gerekmektedir. Gereksiz veri aslnda sizin iin bir yktr. 2-Temiz ve kaliteli veri olmaldr. Dnnki araba satnz iin cinsiyete gre kampanya dzenleyeceksiniz. Ve gelecei tahminlemek iin analiz yapyorsunuz. Burada sat sisteminizdeki raporlarda E/K olarak var olan bir veri, mteri sisteminizde Erkek/Kadn olarak geiyor. Buradaki verilerin btnlk ierisinde olduundan sz edilemez. Ayrca kullanclardan kaynaklanan E/K olarak girilecek alana baka veriler veya veri tipleri gelmesi halinde bu verilerin de temizlenmesi gerekmektedir. 3-Tarihsel derinlii olmaldr. Veri ambar zaten bu yapda kurulur. Ama nemli bir olay olduu iin belirtmekte fayda var. Eer siz gelecek 3 seneyi tahmin etmek istiyorsanz gemi 1 yla bakarak bunu tahmin edemezsiniz. rnein nmzdeki sene barajlarn doluluk oranlar ne olacak diye sorduumuzda bu sorumuza gemi 10 seneye bakarak ok daha net cevap verebiliriz. Nitekim gemi 10 senede belirleyeceiniz zaman dilimleri veya aylarda ne kadar ya-kuraklk-scaklk-nem olmu istatistiklerini grmeniz gerekecektir.

3.

Veriden Bilgi Kefi

3.1 Veri nileme

Gerek hayatta karlatmz veriler genelde eksik (missing or incomplete), hatal (noisy), ve tutarsz (inconsistent) olma eilimindedir. -Dk kaliteli veri Veri kalitesini dren sorunlar: Noise / Grlt Outliers / Sapan veri Missing values / Eksik veri Duplicate data / Tekrarl veri Veri iletim hatalar Teknolojik snrlamalar Veri isimlendirmede veya yapsnda uyumsuzluk

10

3.1.1 Neden Veri nileme ?

Dk kaliteli veri dk kaliteli veri madencilii sonularna yol aar Neden Veri nileme ? Veri madencilii kalitesini artrmak. Veri madenciliini kolaylatrmak. Verimlilii artrmak hedeflenir.

11

3.2 Snflandrma Temel olarak yapt ey yeni bir nesnenin niteliklerini inceleme ve bu nesneyi nceden tanmlanm bir snfa atamaktr. Burada nemli olan bir snfn zelliklerinin nceden net bir ekilde belirtilmi olmas gerektiidir. Gen kadnlar kk araba satn alr, yal, zengin erkekler byk, lks araba satn alr. Snflama tekniine rnek olarak verebiliriz.

3.3 Kmeleme Belli bir yap iindeki geen terimlere, verilere, zelliklere gre gruplar oluur. Bu gruplar da en ok geen verilerden yararlanlarak bir benzerlik lt gelitirilir ve buna gre demetleme yaplr. rnein gen, orta ve yal erkeklerin ald kontr miktar ayr ayr kme oluturmaktadr.

12

3.4

likilendirme

Bir nesnenin varl ile dier bir nesnenin varl arasnda tahmin yrtlerek iliki kurulur. rnein bir markette, ocuk bezi alan birisinin hemen hemen her zaman st ald tespit edildikten sonra market sahibi ocuk bezi ve st raflarnn arasndaki mesafeyi ksaltabilir. Bylece mteriye unutulan bir eyin hatrlatlmas dolaysyla kazan salanm olur. Bunun rneklerini gnlk hayatmzda bir hayli gryoruz.

3.5

Tahmin Raporu

Bizlere tahminler sunan veri ambar tekniidir. rnein 5 sene sonra barajlardaki doluluk oranlar ne olacak? Genler en ok hangi meslekleri seecek? X irketinin 2013 kar marj ne olacak? Bu tip sorulara cevap bulan bir yapdr. Buradaki en byk yardmcmz zaman ve datann gemi yllarda zamann iindeki dalmdr.

13

4.

Veri Taban ve Veri Madencilii

Veritaban uygulamas: Ad Ahmet olan kredi kart sahiplerini bul. Bir ayda 2000 TLden fazla harcama yapan kredi kart sahiplerini bul. DVD satn alan tm mterileri bul.

Veri madencilii uygulamas: Riski az olan tm kredi kart bavurularn bul (snflandrma) Harcama alkanl benzer olan kredi kart sahiplerini bul (kmeleme) DVD ile birlikte ska satn alnan rn bul (ilikilendirme)

14

5.

Uygulama Alanlar

Veri madenciliinin uygulama alanlarn bilimsel ve i dnyas olarak ikiye ayrmak mmkndr. Bilimsel almalarda veri madencilii kullanmnn ardnda yatan sebepler; gelimi veri toplama yntemleri (uydu ve uzaktan alglama sistemleri, teleskop taramalar, gen zmlemeleri) ile ilenmek zere ham olarak ok byk boyutlarda veri toplanmas, geleneksel tekniklerin ham verileri ilemede yetersiz kalmas ve hipotezler oluturma, snflandrma, karar alma gibi bilimsel alma admlarnda bilim insanlarna destek olmasdr.

dnyasnda veri madencilii uygulamalarnn kullanlmasnn temel nedeni; mteriyi tanyarak (mteri gibi dnerek) mteri memnuniyeti salamak ve bu ekilde rekabet ortamnda hzl ve doru kararlar alabilmektir.

15

Veri Madenciliinin baz uygulama alanlar u ekilde zetlenebilir: Salk verileri: Veri madencilii salk alannda da sklkla uygulanmaktadr. Veri madenciliinin salk alannda kullanlmasna; yaplan testlerinden elde edilen sonular kullanarak eitli kanserlerin n tansnn konulmas, kalp krizi riskinin tespiti rnek olarak verilebilir. verileri: sreleri boyunca ok sayda veri retilir. Bu veriler ynetimin her kademesinde karar verme aamasnda kullanlabilir. Personele ait verilerin analizi sonucunda alanlarn performanslarna etki eden faktrler belirlenebilir ve yeni personel almnda yeni kurallar oluturulabilir. Mteri veri tabanlarnn analizi ile reklam ve promosyon ile ilgili pek ok faydal bilgiye de ulalabilir. Perakendecilik marketilik verileri: Bu alanda en ok kullanlan yntem sepet analizi yaklamdr. Sepet analizi yaklamnda ama mterilerin satn aldklar rnler arasnda ilikiler kurmak ve bu ilikilerden yola karak iletmenin satn miktarn ve karn artrmaktr. Bankaclk, finans ve borsa verileri: Bankaclk sektrnde kredi riski tahminlerinde, likidite riskinin deerlendirilmesinde, mteri eilim analizlerinde, kar analizi gibi alanlarda veri madencilii kullanlmaktadr. Finans ve borsa kurulular ise stok fiyat tahminlerinde, portfy ynetimi gibi alanlarda veri madencilii yntemlerini kullanabilirler. Eitim sektr verileri: renci veri tabanlarndan elde edilebilecek veriler analiz edilerek rencilerin baar ve baarszlk nedenleri, rencilerin baarlarnn arttrlmas iin neler yaplabilecei, niversiteye giri puanlar ile okul baars arasndaki ilikiler analiz edilerek, eitim kalitesi artrlabilir. Internet (Web) verileri: Web ortamndaki verilerin says da srekli ve hzl bir ekilde artmaktadr. Web veri madencilii, internetten faydal bilgilerin bulunmas olarak tanmlanabilir. Web veri madencilii birok web sunucusu veya online servisten kullanc taleplerinin analizi iin kullanlr. rnein, internet zerinden kitap satan Amazon irketi BookMatcher adl programyla mterilerin satn alma alkanlklarn analiz ederek yeni kitap alan mterilerine tavsiyede bulunmaktadr.

16

6.

Kaynaklar

Veriden Bilgiye Masraftan Deere, Kasm 2008 (Dr. Ylmaz ARGDEN, Burak ERAHN)

Veri Madencilii Sreci Kullanlarak Portfy Performansnn Deerlendirilmesi ve MKB Hisse Senetleri Piyasasnda Bir Uygulama, 2009 (Engin KKSLLE)

Veri Madencilii ve imento Sektrnde Bir Uygulama (Adil BAYKASOLU)

Veri Madencilii Uygulama Alanlar, 2006 (Abdullah BAYKAL)

www.datawarehouse.gen.tr (Makale; Veri Madencilii Nedir)

17

You might also like