Professional Documents
Culture Documents
mining
Pengenalan Data Mining
• Perangkat lunak yang digunakan untuk
menemukan pola-pola ter- sembunyi maupun
hubungan-hubungan yang terdapat dalam basis
data yang besar dan mengha silkan aturan-
aturan yang diguna- kan untuk memperkirakan
perilaku di masa medatang
• Data mining sering dikatakan ber- urusan
dengan “penemuan penge- tahun” dalam basis
data. Suatu aturan yang dihasilkan oleh data
mining misalnya seperti berikut : “Kebanyakan
pembeli mobil Forsa adalah wanita berusia di
atas 30 th”
Apa itu pra proses data mining
• merupakan langkah penting dalam proses data mining.
Ungkapan "sampah masuk, sampah" terutama berlaku
untuk proyek penelitian data mining dan mesin. Metode
pengumpulan-data seringkali dikendalikan secara
longgar, menghasilkan nilai yang tidak pasti (misalnya,
Penghasilan: -100), kombinasi data yang tidak tepat
(misalnya, Jenis Kelamin: Laki-laki, Hamil: Ya), nilai yang
hilang, dll. Menganalisis data yang memiliki Tidak
disaring dengan saksama karena masalah semacam itu
bisa menghasilkan hasil yang menyesatkan. Dengan
demikian, representasi dan kualitas data pertama dan
terutama sebelum menjalankan analisis.
Mengapa kita perlu pra proses
data mining
• Data mentah yang ada sebagian besar kotor
• Tidak komplet
• Berisi data yang hilang/kosong
• Kekurangan atribut yang sesuai
• Hanya berisi data aggregate
• Banyak “noise”
• Berisi data yang Outlier
• Berisi error
• Tidak konsisten
TEKNIK PRA PROCESSING
• Data Cleaning
• Data integration
• Data Reduction
• Data Transformation
DATA CLEANING
• ADALAH proses untuk mendeteksi dan
memperbaiki atau menghapus record korup
adalah tidak akurat dari mengatur catatan, table
,atau database
• Kegunaan nya
• Memperkecil noise
• membetulkan data yang tidak konsisten.
• Mengisi missing value
• Mengidentifikasi atau membuang outlier
DATA CLEANIG MISSING
VALUES
• Mengabaikan record
• Biasanya untuk label klasifikasi yang kosong
• Mengisikan secara manual
• Menggunakan mean/median dari atribut yang
mengandung missing value
• Mean dapat dipakai jika distribusi data normal
• Median digunakan jika distribusi data tidak
normal(condong)
• Menggunakan nilai global
• Menggunakan nilai termungkin
• Menerapkan regresi
Angkatan IPK Pekerjaan Kelamin
2005 ? Irt P
2003 2.81 ?` p