Professional Documents
Culture Documents
Search Write
--
“If you torture the data long enough, it will confess.” -Ronald H. Coase
1. Veri Toplama
1. Veri Toplama
Maalesef veriler her zaman makine öğrenmemiz için uygun olmuyor.
Toplanılan verilerle başa çıkıp bunları makine öğrenmesi algoritmaları için
hazırlamak oldukça zorlu bir süreç. Verilerin toplanmasın bir çok yolu var
lakin toplanmış verileri kullanıcılara sunan bir çok site mevcut. Tabii ki
buradaki veri setleri de mükemmel değiller. Çözeceğiniz probleme göre veri
seti de değişiklik gösterir. Makine öğrenmesinde her sorunun kendine özgür
bir yaklaşımı vardır.
https://www.kaggle.com/datasets
http://mlr.cs.umass.edu/ml/
https://github.com/awesomedata/awesome-public-datasets
4. Veri bilimi projeleri için kullanılıcak veri kümelerinin bulunduğu bir site.
70+ Machine Learning Datasets & Project Ideas - Work on real-
time Data Science projects - DataFlair
Finding the right dataset while researching for machine learning or
data science projects is a quite difficult task…
data-flair.training
info() ile tüm özelliklerin veri tipi ile veri setinde kaç adet bulunduklarını
kontrol edebiliriz.
Aman dikkat bunu yaptıkdan sonra içeri inplace=True yazmassak kalıcı bir
işlem yapmamış oluruz. !
4. Veri kümesini Bağımlı ve Bağımsız değişkenlere bölmek.
Veri setini içeri aktardıkdan sonraki adım, bağımsız değişken(X) ve bağımlı
değişkenleri belirlemek olacaktır.
Veri kümesi etiketli veya etiketsiz olabilir. Daha iyi anlaşılması için etiketli
bir veri seti üstünden örnek vereceğim.Veri setinde
‘Country’,’Age’,’Salary’ ve ‘Purchased’ sütunları mevcut. Bu veri
setinde müşterilerin özellikleri ve satın alınıp alınmadığı ile ilgili bir sütun
mevcut.
Kukla degişkenler bir veri sınıflandırma aracıdır. Bir kukla değişken, bir şeyin
varlığını veya yokluğunu gösterdiği 0 ve 1 değerlerini alan bir değişkendir. Bir
kategorik değişkenin ikiden fazla kategorisi olduğu durumlarda, her kategori
için bir değişken içeren bir dizi kukla değişken ile temsil edilir.
Genellikle veriler 70:30 yada 80:20 olacak şekilde böleriz. Bunun anlamı
verilerin %70'i eğitim %30'u test için ayrılır.
7. Özellik Ölçeklendirme
Veri ön işlemenin son ve en önemli adımı özellik ölçenlendirme.
Değerleri ölçeklendirmenin bir çok yolu var. Veriye, modele göre değişiklik
gösteren bu yöntemlere berabar göz atalım.
Normalleştirme(Normalization):
Kaynakça:
https://medium.com/sciforce/data-cleaning-and-preprocessing-for-
beginners-25748ee00743
https://www.linkedin.com/pulse/veri-bilimi-notlar%C4%B1-3-
%C3%B6ni%C5%9Fleme-abdullah-faruk-%C3%A7i%CC%87ftler/
Alper
Güneş
15 Followers
www.linkedin.com/in/alprgunes https://github.com/alpergunes