You are on page 1of 4

Data Mining adalah ekstraksi pola yang menarik dari data dalam jumlah besar [1].

Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Perbedaan utama di antara data mining dan data warehouse adalah desain sistem, metodologi yang digunakan, dan juga tujuan penggunaan. Data mining menggunakan pola pengenalan logika (pattern recognition logic) untuk mengidentifikasikan trend di dalam sebuah set sampel data dan meramalkan kemungkinan informasi tersebut terhadap data yang lebih besar. Sedangkan data warehousing merupakan proses mengekstrak dan menyimpan data untuk memungkinkan pelaporan (reporting) yang lebih mudah. Analisis asosiasi atau association rule mining adalah teknik data mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Contoh Analisa Asosiasi : 1. Apriori 2. Generalized rule induction 3. Algoritma hash based Fungsi Association Rules seringkali disebut dengan "market basket analysis", yang digunakan untuk menemukan relasi atau korelasi diantara himpunan item. Itemset adalah kumpulan dari sejumlah item dalam suatu transaksi, dimana untuk sebuah kumpulan itemset yang berisi satu barang disebut dengan 1-itemset, dan untuk 2 barang disebut dengan 2-itemset dan seterusnya. Support adalah jumlah frekuensi kemunculan itemset dalam keseluruhan transaksi yang terjadi. Confidence atau tingkat keyakinan adalah jumlah presentasi dari kejadian itemset atau support(A,B) dibagi dengan support(A). Market Basket Analysis adalah Analisis dari kebiasaan membeli customer dengan mencari asosiasi dan korelasi antara item-item berbeda yang diletakkan customer dalam keranjang belanjaannya Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan jika-maka, berupa decision tree, formula matematis atau neural network. RainForest Decision Trees, Neural Network dan Naives Bayes Dari sekian banyak daftar calon customer, kira-kira mana yang akan benar-benar menjadi customer baru? Kita dapat menggunakan teknik klasifikasi (misal: Logistic Regression, Classification Trees, atau metode lainnya) untuk mengenali individu yang mempunya kemiripan faktor dengan customer terbaik yang kita miliki. faktor ini dapat berupa faktor demografi, faktor usia, faktor kelas pendapatan, atau faktor lainnya. Customer mana yang kira kira berpotensi untuk melakukan kejahatan penipuan ?, kita dapat menggunakan metode klasisfikasi untuk mengenali aplikasi kartu kredit yang berpotensi tinggi dalam keterlibatan kejahatan penipuan, serta memberikan perhatian lebih kepada mereka-mereka yang masuk dalam klasifikasi tersebut. Mengenali calon nasabah mana yang mungkin akan menunggak pembayaran personal loan ?, kita dapat menggunakan teknik klasifikasi dalam mengidentifikasi mereka (atau dengan metode logistic regression dalam menentukan nilai yang akan menjadi patokan dalam mengidentifikasi calon penunggak) Mengenali pelanggan mana yang kira-kira berpotensi akan mengabaikan tagihan berlangganan (telepon, majalah, dan lainnya) ?. sekali lagi, kita dapat menggunakan teknik klasifikasi untuk mengidentifikasikan mereka (logistic regression dapat digunakan untuk menetapkan nilai "probability of leaving") Bayesian Pembelajaran probabilistik: menghitung peluang eksplisit dari hipotesa, diantara pendekatan yang paling praktis untuk tipe-tipe pembelajaran tertentu

Penambahan: setiap contoh pelatihan bisa menaikkan/menurunkan peluang bahwa suatu hipotesa adalah benar. Pengetahuan sebelumnya bisa dikombinasikan dengan data pengamatan. Prediksi probabilistik: menaksir banyak hipotesa, diberi pemberat dengan peluangnya Standard: Meskipun metoda Bayes secara komputasi tak mudah untuk ditangani, metoda ini bisa menyediakan suatu standard dari pembuatan keputusan optimal terhadap mana metodametoda lain bisa diukur Pohon Keputusan Pohon yang dalam analisis pemecahan masalah pengambilan keputusan adalah pemetaan mengenai alternatif-alternatif pemecahan masalah yang dapat diambil dari masalah tersebut. Entropi merupakan suatu besaran yang digunakan untuk menentukan nilai root awal yang akandijadikan pembentukan tree. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin kecil nilai entropy , maka semakin baik untuk digunakan dalam mengekstrak suatu kelas. TID Itemset 1 A, C, D 2 B, C, E 3 A, B, C, E 4 B, E Itemset A B C D E Support 50% 75% 75% 25% 75%

Langkah 2: Mencari kandidat itemset untuk L2: 2.1 : Gabungkan itemset pada L1 (algoritma apriori-gen) { A B, A C, A D, A E, B C, B D, B E, C D, C E, D E} 2.2 : Hapus yang tidak ada dalam itemset Itemset { B D, DE} dihapus karena tidak ada dalam itemset Langkah 3 : Hitung support dari setiap kandidat itemset Itemset AB 25 % AC 50 % AD 25 % AE 25% BC 50% BE 75% CD 25% CE 50% Support Itemset AC 50 % BC 50% BE 75% CE 50% Support Langkah 4: L2 { large 2-itemset}

Langkah 5 : Ulangi langkah 2-4 5.1 : Gabungkan itemset pada L2 & L2: Itemset Hasil Gabungan (3 itemset) AC+BC ACB AC+BE A C B, A C E, A B E AC+CE ACE BC+BE BCE BC+CE BCE BE+CE BCE Langkah 6 : Hitung support dari setiap kandidat itemset L3 Itemset Support A B C 25 % A B E 25 % B C E 50 % Langkah 7 : L3 { large 3-itemset } { B C E}

Langkah 8 : STOP karena sudah tidak ada lagi kandidat untuk 4-itemset. Aturan (X Y) Sup(X Y) Sup(X) Confidence B C E 50% 50% 100% C E B 50% 50% 100% A C 50% 50% 100 % B E 75% 75% 100% E B 75% 75% 100% Dari hasil hasil diatas hasil akhir sebagai berikut: L1 L2 L3 A 50% AC 50% B C E 50% B 75% BC 50% C 75% BE 75% D 25% CE 50% E 75% Untuk mencari aturan asosiasi diperlukan juga minconf Misal minconf : 75 %, aturan asosiasi yang mungkin terbentuk: Aturan (X Y) Sup(X Y) Sup(X) Confidence B C E 50% 50% 100% B E C 50% 75% 66.67% C E B 50% 50% 100% A C 50% 50% 100 % C A 50% 75% 66.67% B C 50% 75% 66.67% C B 50% 75% 66.67% B E 75% 75% 100% E B 75% 75% 100%

CE EC

50% 50%

75% 75%

66.67% 66.67%

Sehingga diperoleh hasil asosiasi yang mempunyai minsupp=50% dan minconf=75% adalah : Aturan yang dapat dibentuk : If B and C then E If C and E then B If A then C If B then E If E then B

You might also like