Tambahan DM

1.
Enrichment, yaitu proses memperkaya data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal. 2. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basisdata. Melibatkan keputusan cirri-ciri penting representasi data (bergantung pada tujuan). Penggunaan reduksi dimensionalitas atau metode-metode transformasi untuk mengurangi banyaknya variable efektif di bawah pertimbangan atau menemukan representasi invariant bagi data, dan memproyeksikan data pada ruang-ruang yang didalamnya sebuah solusi lebih mudah ditemukan. 3. Memilih task data mining (melibatkan keputusan tujuan dari proses KDD yaitu : klasifikasi, regresi, clustering, peringkasan, pemodelan kebergantungan atau deteksi perubahan dan deviasi.) 4. Memilih algoritma data mining (memilih metode yang digunakan untuk menemukan pola atau mencocokan model kedalam data. Pemilihan model dan parameter yang sesuai seringkali bersifat kritikal. Sebagai tambahan, metode data mining harus kompatibel dengan tujuan (pengguna akhir seringkali lebih tertarik pada memahami model daripada memprediksi kapabilitasnya). 5. Mencari pola-pola yang sering muncul dalam data. Pengetahuannya biasanya berupa rule yang menunjukkan pola-pola tersebut (biasanya disebut association rule). Teknik yang digunakan misalnya Apriori, FP-Growth, CLOSET. 6. Mencari sebuah model yang mampu melakukan prediksi pada suatu data baru yang belum pernah ada. Decision tree, neural network, bayesian network, support vector machines, k-nearest neighbor adalah contoh alat yang digunakan untuk membentuk model tersebut. Classification digunakan untuk prediksi categorical data (diskrit), sedangkan untuk numerical data (numerik) biasanya menggunakan analisa regresi. 7. Mengelompokkan data dalam sebuah cluster berdasarkan kemiripannya. Prinsipnya adalah memaksimalkan kemiripan dalam sebuah cluster, dan meminimalisasikan kermiripan antar cluster. Jadi data-data yang berada pada sebuah cluster akan memiliki kemiripan yang tinggi, dan sebaliknya data akan memiliki nilai kemiripan yang rendah dengan data yang berada pada cluster yang berbeda. Beberapa teknik
yang digunakan dalam cluster analysis ini misalnya k-means, k-medoids, SOM, CLARANS, ROCK, BIRCH, Chameleon 8. Mencari data object yang sifatnya anomali (berbeda dengan sifat umum data). Analisa ini berkaitan dengan yang namanya fraud detection. Justru data anomali tersebut, yang jumlahnya relatif sedikit ini menarik untuk dianalisa. Misalnya deteksi fraud credit card. 9. Mencari model atau tren untuk data-data yang sifatnya terus berubah. Analisa ini berkaitan dengan data time-series. Tasknya bisa meliputi clustering, classification, association dan correlation analysis 10. Berikut ini memperlihatkan masalah-masalah dalam data mining : a. Memprediksi harga suatu saham dalam beberapa bulan kedepan berdasarkan performansi perusahaan dan data-data ekonomi.Untuk masalah harga saham menggunakan teknik prediksi yang sering disebut regresi. b. Memprediksi apakah yang akan terjadi tornado berdasarkan informasi dari sebuah radar tentang kondisi angin dan kondisi atmosfir yang lain.dalam prediksi tornado kita gunakan teknik klasifikasi. c. Barang apa yang biasanya dibeli oleh customer supermarket ketika dia membeli diaper bayi? Bagaimana manajemen supermarket memberi respon setelah mengetahui pola pembelian customer. Untuk masalah ini menggunakan aturan asosiasi. d. Dalam e-commerce, misalkan seseorang membeli buku lewat Amazon.com. Kita bisa menyarankan buku lain apa yang seharusnya dibeli olah customer yang sama. Misalnya customer yang membeli Data Mining: Teknik memenfaatkan data, juga membeli Data Mining dengan Matlab 11. Association rule mining adalah teknik mining untuk menemukan aturan asosiatif antara suatu kombinasi atribut. Contoh dari aturan asosiatif dari analisa pembelian di suatu pasar swalayan diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang strategi pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support yaitu
prosentasi kombinasi atribut tersebut dalam basisdata dan confidence yaitu kuatnya hubungan antar atribut dalam aturan asosiatif. 12. Classification : Model itu sendiri bisa berupa aturan jika-maka, berupa decision tree, formula matematis atau neural network. 13. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. 14. Metode hierarki yang terbagi dua : bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil. 15. Teknik unsupervised learning dimana kita tidak perlu melatih metode tersebut atau dengan kata lain, tidak ada fase learning. Masuk dalam pendekatan unsupervised learning adalah metode-metode yang tidak membutuhkan label atau pun keluaran dari setiap data yang kita investigasi. Sebaliknya supervised learning adalah metode yang memerlukan training (melatih) dan testing (menguji). Masuk dalam kategori ini adalah regresi, neural network (ANN) analisis diskriminan (LDA) dan support vector machine (SVM). 16. Dari beberapa teknik klastering yang paling sederhana dan umum dikenal adalah klastering k-mean. Dalam teknik ini kita ingin mengelompokan obyek kedalam k kelompok klaster. Untuk melakukan klastering ini, nilai k harus ditentukan terlebih dahulu. Secara detail kita bias menggunakan ukuran ketidakmiripan untuk mengelompokan obyek kita. Ketidakmiripan bias diterjemahkan dalam kosep jarak. Jika jarak dua obyek atau data titik cukup dekat, maka dua obyek itu mirip. Semakin dekat berarti semakin tinggi kemiripannya. Semakin tinggi nilai jarak, semakin tinggi ketidakmiripannya. Algoritma k-means klastering bisa diringkas sebagai berikut : Pilih jumlah klaster k Inisialisasi k pusat klaster ini bisa dilakukan dengan berbagai cara. Yang paling sering dilakukan adalah dengan cara random. Pusat-pusat klaster diberi nilai awal dengan angka-angka random. Tempatkan setiap data/obyek ke klaster terdekat. Kedekatan dua obyek ditentukan berdasar jarak kedua obyek tersebut. Demikian juga kedekatan suatu data
keklaster tertentu ditentukan jarak antara data dengan pusat klaster. Dalam tahap ini perlu dihitung jarak tiap data ke tiap pusat klaster. Jarak paling dekat antara satu data dengan satu klaster tertentu akan menentukan suatu data masuk dalam klaster mana. Hitung kembali pusat klaster dengan keanggotaan klaster yang sekarang Pusat klaster adalah rata-rata dari semua data/obyek dalam klaster tertentu. Jika dikehendaki bisa juga memakai median dari klaster tersebut. Jadi rata-rata(mean) bukan satu-satunya ukuran yang bisa dipakai. Tugaskan lagi setiap obyek dengan memakai tugas klaster yang baru. Jika pusat klaster tidak berubah lagi, maka proses pengklasteran selesai. Atau, kembali lagi kelangkah nomor 3 sampai pusat klaster tidak berubah lagi. 17. Algoritma farthest first menggunakan pemilihan secara acak untuk menentukan centroid dalam setiap pembentukan cluster. Untuk setiap perhitungan dilakukan dengan membandingkan setiap jarak antar kejadian dan mencari jarak yang terdekat dengan centroid. Pemilihan untuk cluster centroid selanjutnya menggunakan jarak yang terjauh dari cluster centroid yang aktif. Proses ini akan terus diulang sampai jumlah cluster yang terbentuk lebih dari batas yang telah ditetapkan 18. Algoritma Make Density Based Cluster, Algoritma ini didukung pula dalam analisis menggunakan WEKA, dalam algoritma ini menemukan kembali cluster dengan bentuk yang arbitary (secara acak). Pertumbuhan setiap region dengan kepadatan yang cukup dari setiap cluster. Mengikuti jaringan (rantai) dari setiap objek yang terhubung dengan region. Dalam model ini menghasilkan setiap estimate anggota di setiap cluster. 19. Untuk model algoritma EM setiap klaster sama dengan distibution probability ( kemungkinan penyebaran) dan untuk setiap kejadian data digunakan parameter nilai estimate pada setiap distribution. Algoritma pencarian yang digunakan adalah maximum likelihood, algoritma ini menguraikan parameter dari distribution dengan cara melakukan secara berulang-ulang untuk memperkirakan nilai expected dari parameter dengan hipotesis yang digunakan. Hipotesis tersebut dihitung ulang dengan expected values. EM terdiri dari dua tahap yaitu Estimation dan Maximization. Pada tahap estimation dilakukan perhitungan expected values dari parameter menggunakan
hipotesis. Tahap maximization menghitung nilai hipotesis maximum likelihood dengan mengasumsikan parameter sama dengan expected value dari tahap estimation. Kedua tahap tersebut dilakukan berulang-ulang sampai hypotesa dari converge (terpusat) mencapai nilai yang stationer.

Tambahan DM

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tambahan DM

Uploaded by

Copyright:

Available Formats

1.

You might also like