You are on page 1of 16

Proses persiapan data

mining
Pengenalan Data Mining
• Perangkat lunak yang digunakan untuk
menemukan pola-pola ter- sembunyi maupun
hubungan-hubungan yang terdapat dalam basis
data yang besar dan mengha silkan aturan-
aturan yang diguna- kan untuk memperkirakan
perilaku di masa medatang
• Data mining sering dikatakan ber- urusan
dengan “penemuan penge- tahun” dalam basis
data. Suatu aturan yang dihasilkan oleh data
mining misalnya seperti berikut : “Kebanyakan
pembeli mobil Forsa adalah wanita berusia di
atas 30 th”
Apa itu pra proses data mining
• merupakan langkah penting dalam proses data mining.
Ungkapan "sampah masuk, sampah" terutama berlaku
untuk proyek penelitian data mining dan mesin. Metode
pengumpulan-data seringkali dikendalikan secara
longgar, menghasilkan nilai yang tidak pasti (misalnya,
Penghasilan: -100), kombinasi data yang tidak tepat
(misalnya, Jenis Kelamin: Laki-laki, Hamil: Ya), nilai yang
hilang, dll. Menganalisis data yang memiliki Tidak
disaring dengan saksama karena masalah semacam itu
bisa menghasilkan hasil yang menyesatkan. Dengan
demikian, representasi dan kualitas data pertama dan
terutama sebelum menjalankan analisis.
Mengapa kita perlu pra proses
data mining
• Data mentah yang ada sebagian besar kotor
• Tidak komplet
• Berisi data yang hilang/kosong
• Kekurangan atribut yang sesuai
• Hanya berisi data aggregate
• Banyak “noise”
• Berisi data yang Outlier
• Berisi error
• Tidak konsisten
TEKNIK PRA PROCESSING
• Data Cleaning
• Data integration
• Data Reduction
• Data Transformation
DATA CLEANING
• ADALAH proses untuk mendeteksi dan
memperbaiki atau menghapus record korup
adalah tidak akurat dari mengatur catatan, table
,atau database
• Kegunaan nya
• Memperkecil noise
• membetulkan data yang tidak konsisten.
• Mengisi missing value
• Mengidentifikasi atau membuang outlier
DATA CLEANIG MISSING
VALUES
• Mengabaikan record
• Biasanya untuk label klasifikasi yang kosong
• Mengisikan secara manual
• Menggunakan mean/median dari atribut yang
mengandung missing value
• Mean dapat dipakai jika distribusi data normal
• Median digunakan jika distribusi data tidak
normal(condong)
• Menggunakan nilai global
• Menggunakan nilai termungkin
• Menerapkan regresi
Angkatan IPK Pekerjaan Kelamin

2004 3.45 Programmer L

2005 ? Irt P

2003 2.81 ?` p

Contoh untuk missing value IPK diisi dengan rata-


rata IPK atau diisi dengan nilai IPK yang paling mungkin
untuk angkatan 2005 dan Perempuan serta menjadi ibu
rumah tangga.
Contoh untuk missing value Pekerjaan, dapat di
isidengan pekerjaan yang paling banyak muncul.
DATA CLEANING NOISLY
DATA MINING
• Noise data adalah suatu kesalahan acak atau variasi
dalam variabel terukur.
• Kegunaan
• Teknik-teknik
• Binning
• Smoothing by bin means
• Smoothing by bin medians
• Smoothing by bin boundaries
• Regression
• Outlier Analysis
TEKNIK INTEGRASI DATA

• adalah menggabungkan data dari beberapa sumber (database ,data


,cube atau file )
• dalam penyimpana yanf sesuai
TEKNIK INTEGRASI DATA

• Digunakan untuk menguraikan data kedalam bentuk


yang lebih kecil ukuran nya tetapi menghasilkan data
analisis yang sama
DATA TRANFORMASI
• Data Transformation
• Tujuannya: diharapkan lebih efisien dalam proses data
mining dan mungkin juga agar pola yang dihasilkan lebih
mudah dipahami
• Kegunaan nya .
• Strategi:
• Smoothing
• Attribute (feature) construction
• Aggregation
• Normalization
• Discretization
Data Transformation: Aggregation
dan Smoothing
Data Transformation: Normalization
• Unit ukuran dapat mempengaruhi analisis data.
• Unit yang lebih kecil akan menghasilkan rentang nilai
• yang besar
• Atribut akan memiliki “bobot” yang lebih besar dari atribut
• lain
• Sehingga
• Data perlu dinormalisasi atau dibakukan.
• Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0]
• Diperlukan dalam klasifikasi (termasuk neural network
• dan nearest network) dan clustering.
Data Transformation: Discretization
• Melakukan pergantian atribut numerik menjadi
• interval label (misalnya: 0-10,11-20, dst.) atau
• konseptual label (misalnya: bawah, tengah, atas)
• Data Transformation: Data Reduction
• Teknik
• Dimensionality reduction
• Wavelet transform
• Principal Component Analysis
• Attribute Subset Selection
• Numerosity reduction
• sampling
• Data compression
Kesimpulan
• Data pra processing adalah persiaapan data meliputi pembersihan data
integrasi data reduksi data dan pemiliha proses metode diskretisasi telah di
kembangkan
• merupakan langkah penting dalam proses data mining. Ungkapan "sampah
masuk, sampah" terutama berlaku untuk proyek penelitian data mining dan
mesin. Metode pengumpulan-data seringkali dikendalikan secara longgar,
menghasilkan nilai yang tidak pasti (misalnya, Penghasilan: -100),
kombinasi data yang tidak tepat (misalnya, Jenis Kelamin: Laki-laki, Hamil:
Ya), nilai yang hilang, dll.

You might also like