You are on page 1of 12

Analytic House Veri Analiz Danışmanlık Yazılım Tic. Ltd. Şti.

Çağrı Aksu

Veriyi ve Veri Setlerini Anlamak

Analiz süreci, analistin zihninde başlar fakat unutmamak gerekir ki; analiz sürecinin kralı
veridir. Çünkü hangi amaçla hangi algoritmayı kullanıla bileceğine veri karar verir.Bu anlamda
öncelikle elimizdeki veriyi anlamamız gerekir. Veriyi anlamak temel olarak verinin özelliklerinin
ve yapabileceklerinin farkında olmaktır. Bu aşamada farkında olmamız gereken en önemli şey
elimizdeki verinin gerçek dünyada ki nesne ve olayların özellikleri ve birbirleri ile olan
ilişkilerinden türediğidir.
Örneğin bir A müşterisinin B mağazasından C ürününü almasını irdeleyelim. Burada A
müşterisi, B mağazası ve C ürünü kendi öznitelikleri olan birer nesnedir. A müşterisinin B
mağazasından C ürününü alması ise yine kendi öznitelikleri olan bir olaydır.

Yukarıda tarif edilen satın alma olayını analiz etmek istersek aklımıza ilk gelecek olanlar ‘Kim
almış?’, ‘Neyi almış?’, ‘Nereden almış?’ gibi sorulardır. Bu soruların cevapları bize bu satın alma
olayı ile ilgili fikirler verecektir. Bu soruları cevaplandırmak için bu nesnelerin özelliklerini
çıkartırsak aşağıdaki gibi bir tablo elde etmiş olacağız.

A müşterisi B mağazası C ürünü

Öznitelik 1 Yaş Kuruluş tarihi Ürün adı


Öznitelik 2 Cinsiyet Ürün çeşit sayısı Ürün çeşidi
Öznitelik 3 Medeni hal Ana çalışma alanı Fiyat
Öznitelik 4 Yaşadığı yer Mağaza sayısı Marka
Öznitelik 5 Öğrenim durumu Toplam satış Renk

www.analytichouse.com
Analytic House Veri Analiz Danışmanlık Yazılım Tic. Ltd. Şti. Çağrı Aksu

Sonrasında zihnimizdeki analizimize Satın alma olayını irdeleyerek devam edebiliriz. Aklımıza
gelen sorular; ‘Satın alma ne zaman olmuş?’, ‘Ürün nerede satılmış?’… gibi sorular olacaktır.

Satın Alma

Öznitelik 1 Ne zaman
Öznitelik 2 Kaç adet
Öznitelik 3 Toplam Tutar
Öznitelik 4 Nereden
Öznitelik 5 Nasıl

En nihayetinde Satın alma olayı ve olayın oluşumunda rol alan nesnelerin özelliklerine ayrı ayrı
baktık ve analizimizde bayağı bir yol almış olduk. Kimin aldığını, ne aldığını, nereden aldığını
biliyoruz. Fakat yeterli değil. Bir de bütün bu özellikleri yan yana koyup bir değerlendirmemiz
gerekir ki gözümüzden bir şey kaçmış olmasın. Nesneler ile olay arasındaki bağıntıları
anlayabilelim.

Öznitelik 1 Müşteri Canan Analiz Sever


Öznitelik 2 Yaş 32
Öznitelik 3 Cinsiyet Kadın
Öznitelik 4 Medeni hal Bekar
Öznitelik 5 Yaşadığı yer İstanbul
Öznitelik 6 Öğrenim durumu Üniversite
Öznitelik 7 Mağaza XYZ ayakkabıcılık
Öznitelik 8 Kuruluş tarihi 1968
Öznitelik 9 Ürün çeşit sayısı 150
Öznitelik 10 Ana çalışma alanı Ayakkabı
Öznitelik 11 Mağaza sayısı 12
Öznitelik 12 Toplam satış 15235
Öznitelik 13 Ürün adı GA-123
Öznitelik 14 Ürün çeşidi Abiye
Öznitelik 15 Fiyat 200
Öznitelik 16 Marka XYZ
Öznitelik 17 Renk Siyah
Öznitelik 18 Ne zaman 12.02.2018
Öznitelik 19 Kaç adet 1
Öznitelik 20 Toplam Tutar 200
Öznitelik 21 Nereden Online Mağaza
Öznitelik 22 Nasıl Kredi Kartı

Artık bu olayla ilgili her şeyi aynı yerde görebiliyoruz. Zihnimizdeki analiz sürecinde
gözümüzden bir şey kaçması olasılığını oldukça düşük bir seviyeye çekmiş olduk.

www.analytichouse.com
Analytic House Veri Analiz Danışmanlık Yazılım Tic. Ltd. Şti. Çağrı Aksu

Şimdi elde ettiğimiz veri satırına bir bakalım ve bazı anlamlı cümleler türetmeye çalışalım.

• 32 Yaşında bekar bir kadın abiye bir ayakkabı için 200 TL ödemiş.
• 12.02.2018 tarihinde internette bir bayan ayakkabısı kredi kartı ile satılmış
• GA-123 ürünü şubat ayında 1 adet satılmış
Yukarıda gördüğünüz üzere hemen 3 anlamlı cümle türetebildik. Fakat bu türettiğimiz
cümlelerin genelleştirilmesi mümkün mü? Yani bizim bir mağazamız olsa idi, GA-123 ve benzeri
ayakkabıların şubat aylarında satılacağını kabul ederek üretim ve satış süreçlerimizi bu kabule
göre şekillendirebilir miydik? Tabi ki tek bir satın alma olayı üzerinden böyle bir genelleme
yapmanın güvenilir bir tarafı yoktur.
Bir genellemek yapmak istiyorsak bunun için daha fazla satın alma olayı incelemeliyiz. Mesela;
Farklı müşterilerin ne zaman ne aldıklarına bakmalıyız. Farklı ürünlerin nereden nasıl
satıldıklarına bakmalıyız. Öyle ise farklı satın alma olaylarını da bulmalıyız.

Satış Ya Cinsiye Meden Yaşadığı Öğrenim


Müşteri Mağaza
No ş t i hal yer durumu
XYZ
1 Canan Analiz Sever 32 Kadın Bekar İstanbul Üniversite ayakkabıcılık
2 Kemal Veri Seven 24 Erkek Evli Ankara Lise DET terlikçilik
Gamze
3 Görselleştirir 42 Kadın Evli İstanbul Üniversite TYER
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .

Artık elimizde 10.000 satır satın alma olayı olduğunu ve bunları yukarıdaki gibi alt alta
yazdığımızı düşünürsek, alt alta yazdığımız satırların hepsine birden veri kümesi diyebiliriz.
Burada unutmamak gereken önemli bir durum da elimizde 10.000 satır satın alama olayı verisi
var ama bunların bazıları birbirine çok benzer olabilir. Dolayısı ile elimizde ki farklı özniteliklere
sahip satın olma olaylarının sayısı daha düşük olacaktır.
Elimizdeki veri kümesinden bazı kurallar çıkartmaya kalksak, örneğin 25-35 arası erkekler ocak
ayında ayakkabı alır desek. Ve ocak ayında ayakkabı alan 25-35 yaş arası erkeklerin sayısı 25
ise, çıkardığımız bu kuralın geçerliliği kuşkusuz ki, ilk denememizdeki tek satın alma olayından
yola çıkarak elde ettiğimiz kurallardan daha fazla olacaktır. Çünkü elimizdeki veri seti toplamda
olma olasılığı olan satın alma olaylarını temsil eder ve olma olasılığı olan olaylardan biri birçok
kereler tekrarlanıyor ise bu gelecekte de bu satın alma olayının gerçekleşebileceğini
düşünmemizi sağlar.
Ve tabi moda diye bir şey var. Muhtemelen satılan X ayakkabısı gelecek sezon olmayacak.
Fakat biliyoruz ki; örneğin ocak ayında 25-35 yaş arası erkekler ayakkabı alabilirler. Daha önce
aldıkları ayakkabıları incelersek. Yani ayakkabıların değişmeyen özniteliklerini irdelersek,

www.analytichouse.com
Analytic House Veri Analiz Danışmanlık Yazılım Tic. Ltd. Şti. Çağrı Aksu

(mesela; kışlık-yazlık, iş-günlük vs) daha geniş ama çalışması muhtemel kurallar çıkarta biliriz.
Örneğin ‘Ocak ayında 25-35 yaş arası erkekler kışlık iş ayakkabısı alırlar.’ gibi bir kural
çıkartabiliriz.
Farklı satın alma olaylarının sayısı için şöyle düşünelim; A şehrinde 500 kadın yaşıyor ve bu
kadınların alabilecekleri 100 farklı çift ayakkabı var. Eğer bu kadınlar ve ayakkabılar konusunda
hiçbir bilgimiz yok ise;
(Toplam kadın sayısı)500 x (Toplam ayakkabı sayısı)100 = 50.000
farklı satın alma olayı olabileceğini düşünmemiz gerekecekti. Yani tüm olası durumların
gerçekleşebileceğini bilgisi elimizde olmuş olurdu.
Fakat ayakkabıların 50’sinin mavi, 25’inin kırmızı ve geri kalan 25’inin de siyah olduğunu
bilseydim ve “kadınların %10’u mavi ayakkabı giyinmeyi tercih ediyor” diyebilse idim;
(Toplam kadın sayısının % 10’u)50 x (Mavi ayakkabı sayısı)50 = 2.500
(Geri kalan kadınların sayısı)450x(Kırmızı ve siyah ayakkabıların sayısı)50 = 22.500
Ve toplamda 25.000 farklı satın alma olayı olabileceğini hesaplamış olacaktım. Yani elimizde
renk ile ilgili bir veri olduğunda, elimizde hiçbir veri yokken hesapladığımız farklı olay sayısının
yarısı kadar bir farklı olay sayısı ile uğraşıyor olacaktım.
Eğer ben bu hesaba ayakkabı renkleri yanında, müşterinin yaşı, geliri, medeni durumunu,
ayakkabının numarası yazlık mı kışlık mı olduğunu ekleseydim olması olası farklı satın alma
olaylarının sayısını daha da düşürmüş olacaktım.
Burada veri setindeki farklı olayların sayısı ürettiğimiz veri kümesi içerisindeki farklı olayların
sayısına yaklaştıkça çıkarttığımız kuralların geçerliliği artacaktır.

Veri Seti kaç satır, sütun olmalı?

Veri seti için önemli olan analizi yapılacak olayın bütün farklı ortaya çıkma versiyonlarını temsil
edebilmesidir.

Şöyle düşünelim; dünyada 8 milyon 700 bin farklı canlı türü var ve ben bu canlı türlerinin
fotoğraflarından tanıyabilecek bir yazılım geliştirmek istiyorsam, bu 8 milyon 700 bin canlı türü
için en az bir fotoğraf koymalıyım veri setime. Ve tabi bu canlı türlerinin yaşlarına göre
farklılıkları olabilir, bu farklı durumların fotoğraflarını da veri setime eklemeliyim. Ya da farklı
mevsimlerde farklı şekillerde görünüyor olabilirler bu farklılıkları da veri setime eklemeliyim.
Ve tabi veri setim canlıların farklı hareketleri(otururken, koşarken, yemek yerken…) içinde
fotoğraflar içeriyor olmalı.
Yani olası her farklı durumu veri setime eklemeliyim. Belki de trilyonlarca farklı durum olabilir.
Yani trilyon tane fotoğrafı analiz etmem gerekecek.

www.analytichouse.com
Analytic House Veri Analiz Danışmanlık Yazılım Tic. Ltd. Şti. Çağrı Aksu

Fakat gerçek dünyada veri setleri böyle oluşturulmaz genellikle. Rastgele gözlemler yaparız ve
bu gözlemler farklı durumları ve birbiri ile benzer durumları içerirler. Yani 1000 rastgele gözlem
yaptım 600 tanesi kuş gözlemi bu kuş gözlemlerinde de 450 tanesi karga olabilir.
Yaptığım 1000 gözlem ile eğittiğim modelim kargaları ve belki birkaç çeşit canlıyı daha iyi
tahmin ediyor olabilecek ama genel olarak doğru tahmin oranı düşük kalacaktır. Dolayısı ile
ben gözlem sayımı ne kadar arttırırsam farklı canlı türlerini ve onların farklılıklarını daha iyi
yansıtacak bir veri seti elde etmiş olurum.
Burada gözlemlerin homojenliği durumu da var, dikkat etmemiz gereken. Yani her canlı
türünden eşit sayıda gözlem almaya çalışmalıyım. Fakat gözlemlerimizi rast gele yapıyoruz.
Dolayısı ile sayıca en fazla olan canlı türü yada gözlem yöntemine göre daha kolay gözlenebilen
canlı türlerinin veri setinde doğal bir ağırlığı olacaktır. Yani gözlem sayıları diğerlerine göre
fazla olacaktır.
Ve tabi nadir türler de var. Dünya da 100 tane beyaz aslan var rastgele gözleyerek muhtemelen
hiçbir beyaz aslan gözlemini veri setimize ekleyemeyeceğiz.
Bu gözlemlerin homojen olması ama rastgelelikten dolayı bu homojenliğin sağlanamaması
durumu o türle alakalı gözlem sayısının o türü diğerlerinden ayır etmeye yeterli olmaması
bakımından tehlikelidir. Fakat rastgele gözlemlerle gözleyemediğimiz türlerin bizim
yazılımımızın karşısına çıkma şansı da diğerlerine göre düşüktür. Sokağa çıkıp canlıların
fotoğraflarını çekip bilgisayara “bu fotoğraftaki canlı nedir?” sorusunu sorduğumuzu
düşünelim. Karşımıza beyaz bir aslan çıkma olasılığı oldukça düşüktür.
Dolayısı ile bu düşük gözlem sayılı türlerin istisna olarak işaretlenmesi de mümkündür.
Veri setinin büyüklüğünü etkileyecek bir farklı durum da veri setinin içerdiği öznitelikler ve
hedeftir.
Ben canlıları ayak sayısına göre sınıflandırmak istiyorsam 2 ayaklı, 4 ayaklı, çok ayaklı ya da
ayaksız birer gözlem ile veri setimi oluştursam bütün hayvanları örneğin 4 ve 2 ayaklı canlıları
farklı bir etiket ile diğerlerini de farklı bir etiketle sınıflandıra bilirim. (Tabi belirli bir fotoğraf
şekli ile…)
Fakat bu sınıflandırmanın benim bir ihtiyacımı karşılıyor olması gerekir. “Türkiye’de x sayıda 4
ayaklı canlı olduğunu tespit ediyor olmamın benim açımdan bir getirisi var mı?” bu sorunun
cevabı evet ise sorun yok, analize devam edebilirim. Fakat bu canlılar ile alakalı bu ayrıntı
düzeyi benim için yeterli değil ise, örneğin 4 ayaklı hayvanlar için gerekli yaşan alanını tespit
etmek istiyorsam, bu canlıların boyutlarını, beslenme şekillerini de ayır edebilmem gerekir.
Dolayısı ile gözlemlerimin bu farklı özellikleri tespit edebilmemi mümkün kılmalı.

www.analytichouse.com
Analytic House Veri Analiz Danışmanlık Yazılım Tic. Ltd. Şti. Çağrı Aksu

Veri tipleri

Bir veri kümesi oluşturduk ve bu veri kümesi veri satırlarından oluşuyordu. Veri satırları da
verilerin birleşmesi ile oluşur.
Veri dediğimiz şey; bir olay, durum ya da nesneyi ya da bunların diğer şeyler ile olan ilişkilerini
niteleyen özelliklerdir. Bu özellikler; öznitelik, attribute, feature, değişken, variable şeklinde
isimlendiriliyor olabilirler. (Biz öznitelik diyelim şimdilik.) Bu öznitelikler kayıt altına alınırken
ve işlenirken ne tip bir veri taşıdıkları bilinmesi için kendilerine bir veri tipi atanır.
Tabi günümüzde birçok veri tipi var ama en çok kullanılanlar aşağıdaki tabloda belirtilmiştir.
Bu veri tipleri zaman zaman kendi aralarında birbirlerine de dönüşebilirler. Örneğin nümerik
bir ürün fiyatı bilgisi görselleştirme için belli aralıklar içerisine alınıp kategorik hale
dönüştürülebilir. Yada bir tarih bilgisi ‘Yılın ayı’, ‘Haftanın günü’ gibi kesikli nümerik veri tipine
dönüştürülebilir.

Metin(Text) : "Bu film çok güzel :)", "X marka arabalar daha iyi!"

Dosya(File) .arff .csv .xls .data .json .xml

Zaman(Time, Date,...) : "22/01/2010", "12 mart", "12:00:00 12-08-1998"

Mantıksal(Binary or Boolean) : "0-1", "yes-no", "olumlu-olumsuz"

Kategorik(Categorical, Counting) Nominal : "Sarı-Mavi-Kırmızı", "Evli-Bekar-Dul",


"İşçi-Öğretmen-Mühendis-..."

Ordinal : "Kötü-Orta-İyi-Çokiyi"

Nümerik(Numeric, Sürekli(Interval): [1,2), (100,2000)


Measurement)
Kesikli(Ratio) : 1-2-5-8-...

Düzensiz(Unstructured)
Resim, Video, Mail, Pdf, Text, Sosyal medya hareketleri, vs.

www.analytichouse.com
Analytic House Veri Analiz Danışmanlık Yazılım Tic. Ltd. Şti. Çağrı Aksu

Bu veri tiplerinin kullanımlarını bir örnek ile açıklayalım.

Öz nitelik Adı Veri Veri Tipi Veri Tipi 2


Öznitelik 1 Müşteri Canan Analiz Sever Metin Metin
Öznitelik 2 Yaş 32 Sayı integer
Öznitelik 3 Cinsiyet Kadın Kategorik nominal
Öznitelik 6 Öğrenim durumu Üniversite Kategorik ordinal
Öznitelik 8 Alışveriş Tarihi 22.10.2018 tarih tarih
Öznitelik 15 Fiyat 200,99 Sayı double/float

Biraz önce oluşturduğumuz veri kümesi içerisindeki özniteliklerden bazıları yukarıdaki tabloda
görünmektedir.
Burada ‘Müşteri’ özniteliği satın almayı yapan müşterinin adı ve soy adını içeriyor. İçeriği metin
olduğundan bu özniteliğin tipi de Metin olarak atanmıştır.
Müşterinin adı X müşterisini diğerlerinden ayırt etmemize olanak veren eşsiz bir belirteç ise
bazı analizlerde kullanıla bilir. Tabi eşsiz olması koşulu ile. Fakat bildiğiniz üzer isimler birbirine
benzeyebilmektedir. Bu sebeple genellikle isimler veri setlerine dahil edilmezler.
Müşterileri birbirinden ayırmak için eşsiz bir belirtece ihtiyacımız var ise genellikle ‘TC kimlik
no’ ya da ‘Telefon no’ gibi eşsiz belirteçler kullanırız. Elimizde bu bilgiler yok ise insanlara
kendimiz bir eşsiz belirteç atarız. Bu belirteç veri kümelerinde genellikle ‘ID’ olarak geçer.
‘Yaş’ özniteliği müşterilerin yaşlarını içerdiğinden veri tipi integer yani tam sayı olarak
atanmıştır. Herhangi bir işleme gerek duymadan tüm analizlerde kullanılabilir. Fakat grafik
yada özet tablo gibi veri görselleştirme yapılacak ise ‘Yaş’ özniteliği kategorik-ordinal veri
tipine dönüştürüle bilir.
Yandaki şekilde görüldüğü üzere ‘Yaş’ özniteliği kategorik veri tipine
dönüştürülmüştür. Bu dönüşüm genellikle eşit artan aralıklarla yapılır. Ve elde
edilen yaş aralıklarının gerçek dünyada bir karşılığı olması gerektiğini sakın
unutmayın. Kafamıza göre örneğin ‘5 er 5 er artırayım’ diyemeyiz.
Yaş özniteliğini kategorik değişkene çevirmek istiyorsak bakabileceğimiz bazı
referanslar vardır. Mesela TUİK’in kullandığı yaş aralıklarını kullanabilirsiniz.
Yada hedef kitleniz sadece gençler ise bunları öğrenim yaşlarına göre
bölebilirsiniz. Liseye şu yaşta başlanır, üniversiteye şu yaşta başlanır gibi.
Benzer şeyleri ‘Fiyat’ öz niteliği içinde söyleyebiliriz. ‘Yaş’ ile ‘Fiyat’ arasındaki şu an bilmemiz
gereken tek fark ‘Fiyat’ özniteliğinin aldığı değerlerin içerdiği sayıların virgüllü olmasıdır. Buna
dikkat etmekte fayda var.
‘Cinsiyet’ özniteliği [‘Kadın’, ‘Erkek’] değerlerini içermektedir. İnsanları kadın ve erkek olarak
ikiye böldüğümüzde bir kategorizasyon yaptığımız için bu öznitelik kategorik veri tipindedir.
Yaptığımız kategorizasyon herhangi bir sıralama içermediği için yani kadın ve erkek arasında

www.analytichouse.com
Analytic House Veri Analiz Danışmanlık Yazılım Tic. Ltd. Şti. Çağrı Aksu

herhangi bir önem sırası yada farklı bir sıralanma olmadığı için bu kategorik veri tipi Nominal
olarak adlandırılır.
Burada önemli bir husus da ‘Cinsiyet’ özniteliği sadece 2 farklı değer içerdiğinden bazen
Mantıksal veri tipiyle işaretlenmiş olabilir. Fakat bu durum yapılan analizlerde yanlış sonuçlar
ortaya çıkmasına neden olabilir. Nominal veriler rakamsal olarak ifade edilemezler. Yani
ayakkabı renkleri [‘Mavi’, ‘Kırmızı’, ‘Siyah’] ise siz bunu [1,2,3] olarak değiştiremezsiniz. Çünkü
böyle bir değişiklik özniteliğin içerdiği bilginin ortadan kaybolmasına sebep olur. Yani aslında
siz yeni bir başka öznitelik üretmiş olursunuz ama bu ürettiğiniz özniteliğin ayakkabı renkleri
ile bir alakası olmaz. Yine de işe yarar görüne bilir elbette ki bu yeni değişken fakat bu durum
tamamen sizin o anki baktığınız veri setine özel de olabilir. Yani karşınıza çıkan bazı durumlar
bu dönüşüm yüzünden yanlış değerlendirilebilir.
‘Öğrenim Durumu’ özniteliği de Kategorik veri içeren bir özniteliktir. Fakat buradaki
kategorizasyon sıralıdır. Yani [‘Lise’, ‘Üniversite’, ‘Y.Lisans’] gibi veriler arasında bir doğal sıra
ve ayrıca önem durumu vardır. Dolayısı ile bu öznitelik sayısal olarak ifade edilebilir. Fakat yine
[1,2,3] şeklinde bir dönüşüm yapmak özniteliğin içerdiği bilginin bir kısmının kayıp edilmesi
anlamına gelebilir.
Eğer analiz ettiğiniz veri kümesinin doğal durumu itibarı ile ‘Öğrenim Durumu’ özniteliği büyük
bir önem taşıyor ve bu özniteliği sayı ile ifade etmeniz gerekiyor ise, bu özniteliğin içerdiği
verileri sayı ile ifade etmek için bir referans noktanız olmalıdır. Bu referans noktası örneğin
gelir olabilir. Lise mezunları ortalama 2.500 TL, Lisans mezunları ortalama 4.000 TL, Y.Lisans
mezunları ortalama 6.000 TL kazanıyorlar ise bu dönüşümü [2.5, 4, 6] şeklinde yapabilirsiniz.
Fakat unutmayın ki bu referans noktası üzerinde çalıştığınız veri kümesinin doğal durumu
nedeni ile farklı bir şey de olabilir.
‘Alışveriş Tarihi’ buradaki en işlevsel özniteliklerden biridir. Çünkü hem olduğu gibi
kullanılabilir hem de ‘Haftanın günü’, ‘Ayın günü’, ‘Bayram tatili’ gibi gerçek hayatta önem
taşıyan özniteliklere dönüştürülebilir.
Eğer yapacağınız analiz toplam mağaza cirosunun zaman bağlı olarak artışını yada azalışını
tahmin etmeye çalışmak ise bu değişkeni olduğu gibi kullanabilirsiniz.

www.analytichouse.com
Analytic House Veri Analiz Danışmanlık Yazılım Tic. Ltd. Şti. Çağrı Aksu

Örneğin yukarıdaki grafikte görünen zaman serisinin analizinde olduğu gibi tarih öznitelikleri
kullanılabilir.
Yada tarih değişkeninizi aşağıdaki gibi yeni öznitelikler üreterek kullanabilirsiniz. Bu konuya
zaman serileri analizinde daha detaylı değineceğiz.

Tarih Türetilen Öznitelikler


23.12.2018 Yıl 2018
Ay 12
Gün 23
Haftanın Günü 1

Metin tipindeki veri setleri ile bir analiz yapacak isek genellikle bu veri setini dönüştürme
yoluna gideriz.
Örneğin elinde “Spam” ve “Spam değil” olarak etiketlenmiş mailler var ve sen bu mailler ile
eğittiğin bir sınıflandırma algoritmasını Spam Filter olarak kullanacaksın. Sınıflandırma
algoritmasının bir maili anlamasının yolu “one - hot encoding” ile veriyi dönüştürmektir.
Tabi günümüzde bazı yeni teknikler bu dönüşümleri bizim yapmamıza gerek kalmadan da bu
tip verileri işleye biliyorlar.
Görüntü işleme teknolojileri de bizim herhangi bir dönüşüm yapmamıza gerek kalmadan analiz
etmemizi sağlayan teknolojiler var. Bu teknolojiler görüntüleri alır ve bunları algoritmaların
işleyebileceği formlara dönüştürürler.

www.analytichouse.com
Analytic House Veri Analiz Danışmanlık Yazılım Tic. Ltd. Şti. Çağrı Aksu

www.analytichouse.com
Analytic House Veri Analiz Danışmanlık Yazılım Tic. Ltd. Şti. Çağrı Aksu

Meta Data-Üst Veri

Meta data kavramı verinin ortaya çıkmasında etkili olan durumlar ya da nesnelerin özelliklerini
betimler. Örneğin bir tweet attığımızda temel anlamda veri attığımız tweetin içeriği olan
metindir.

Aşağıdaki veri örneğine bakacak olursak atılan tweet ‘I'm at XXX Turizm in SAMSUN 😊’ dir.
Biz XXX Turizm için atılan tweetleri analiz ediyor olsaydık bu metin verisinden(gülen yüz ifadesi
nedeni ile) bir müşterimizin bizden memnun olduğunu anlamış olurduk.

Fakat bu bizim için yeterli olmayacaktır. Bizim ile alakalı tweet atan insanları da tanımak isteye
biliriz. Ya da ne zaman bu tweetlerin atıldığını öğrenmek istiyor olabiliriz. Bu anlamda tweet
ile ilgili bilgilere de ihtiyacımız var.

Tweet I'm at XXX Turizm in SAMSUN 😊


Tweet ID 1002842889171490000.
Time 2018-06-02 12:22:31
Favorited 0
Retweeted 0
Is Favourited 0
Is Retweeted 0
Is Retweet 0
Retweet from
Latitude 41,287235
Longitude 36,28957
Country Turkey
User selcuk_korkut_
User - Name Korkut Selcuk
User - ID 181883459
'Kaç şehir tabelası gördü gözlerim, bakışlarım kaç
User -
kilometre çizip geçti bilmem.. 'yoruldum' zannedenlere
Description
bu gülümseyişle bakarım; aslında daha yeni başladım
User - Language tr
User - Location Samsun
User - Statuses 2301
User - Followers 303
User - Friends 1603
User - Favourites 271

Yukarıdaki tweet örneğine bakacak olursak elimizdeki ana veri olan tweet ile ilgili veriler de
içerdiğini göreceğiz. Tweet’ in atıldığı tarih, kim tarafından atıldığı, nereden atıldığı gibi bilgiler
bize daha geniş bir analiz yapmak için yardımcı olacak olan ek verilerdir.

www.analytichouse.com
Analytic House Veri Analiz Danışmanlık Yazılım Tic. Ltd. Şti. Çağrı Aksu

XXX turizm için atılan 100 tweet i incelediğimizde olumsuz tweetlerin mesela öğlen saatlerinde
erkekler tarafından atıldığını keşfedersek. Bu keşiften öğlen saatlerindeki yolculuklarda
erkeklerin daha mutlu olmaları için önlemler alabiliriz.

Bir başka örnek ise instagram üzerinden paylaşılan fotoğraflardır. Bir fotoğraf paylaştığınızda
fotoğrafın kim tarafından hangi tarihte paylaşıldığı, etiketlenen başka insanlar olup olmadığı,
kullanılan HashTag ler paylaşımdaki metin verisi, fotoğrafı kimlerin beğendiği, kimin ne yorum
yaptığı gibi verilerde kayıt altına alınır.
Burada temel verimiz paylaşılan fotoğraftır. Fakat fotoğrafın içinde ne olduğunu ya da
fotoğrafın ne ile alakalı olduğu gibi bilgileri de fotoğrafın paylaşılırken belirtilen diğer
verilerden öğrene biliriz.
Aşağıdaki fotoğrafa bakarsak #catsofinstagram hashtag inin kullanıldığını görürüz. Yani
fotoğraf kediler ile ilgili. Paylaşımın metin kısmında ‘bu da bizim oğlan’ cümlesi var. Buradan
kedinin Çağrı Aksu’nun kedisi olduğu ve erkek olduğu anlaşılır.

Ve tabi paylaşılan fotoğraflar çeşitli görüntü işleme algoritmaları ile de analiz edilerek
fotoğrafta nelerin olduğu vs gibi şeyler buluna bilirdi.

www.analytichouse.com

You might also like