You are on page 1of 0

BAB II

LANDASAN TEORI
A. DATA MINING
1. Definisi Data Mining
Data mining adalah suatu istilah yang digunakan untuk
menguraikan penemuan pengetahuan di dalam database. Data mining
adalah proses yang menggunakan teknik statistik, matematika, kecerdasan
buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi
informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai
database besar (Turban, dkk. 2005). Menurut Gartner Group data mining
didefinisikan sebagai suatu proses menemukan hubungan yang berarti,
pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data
yang tersimpan dalam penyimpanan dengan menggunakan teknik
pengenalan pola seperti teknik statisik dan matematika.
Selain definisi diatas beberapa definisi juga diberikan seperti
tertera dibawah ini :
Data mining adalah serangkaian proses untuk menggali nilai
tambah dari suatu kumpulan data berupa pengetahuan yang selama
ini tidak diketahui secara manual. (Pramudiono, 2006)
Data mining merupakan bidang dari beberapa bidang keilmuan
yang menyatukan teknik dari pembelajaran mesin, pengenalan
pola, statistik, database, dan visualisasi untuk pengenalan
5
6
permasalahan pengambilan informasi dari database yang besar.
(Larose, 2005)
Kemajuan luar biasa yg terus berlanjut dalam bidang data mining
didorong oleh beberapa faktor, antara lain (Larose, 2005) :
1. Pertumbuhan yang cepat dalam pengumpulan data.
2. Penyimpangan data dalam data warehouse, sehingga seluruh
perusahaan memiliki akses kedalam database yang handal.
3. adanya peningkatan akses data melalui navigasi web dan
intranet.
4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan
pasar dalam globalisasi ekonomi.
5. Perkembangan teknologi perangkat lunak untuk data mining
(ketersediaan teknologi).
6. Perkembangan yang hebat dalam kemampuan komputasi dan
pengembangan kapasitas media penyimpanan.
Dari definisi-definisi yang telah disampaikan, hal penting yang
terkait dengan data mining adalah :
1. Data mining merupakan suatu proses otomatis terhadap data
yang sudah ada.
2. Data yang akan diproses berupa data yang sangat besar.
3. Tujuan data mining adalah mendapatkan hubungan atau pola
yang mungkin memberikan indikasi yang bermanfaat.
7
2. Langkah Langkah Data Mining
Untuk melakukan penggalian data, ada beberapa tahapan. Tahap-
tahap tersebut bersifat interaktif di mana pemakai terlibat langsung atau
dengan perantaraan knowledge base.
a. Pembersihan data
Pada umumnya data yang diperoleh dari perusahaan
memiliki data yang tidak sempurna seperti data yang hilang, data
yang tidak valid. Sebaiknya data-data yang tersebut lebih baik
dibuang karena keberadaannya dapat mengurangi mutu atau
akurasi dari hasil data mining nantinya.
b. Integrasi data
Tidak jarang data yang diperlukan untuk data mining tidak
hanya berasal dari satu database tetapi juga berasal dari beberapa
database atau file teks. Integrasi data perlu dilakukan secara hati
hati dikarenakan kesalahan pada integrasi data dapat terjadi
penyimpangan pada data keluaran proses datamining. Sebagai
contoh bila integrasi data berdasarkan jenis produk ternyata
menggabungkan produk dari kategori yang berbeda maka akan
didapatkan korelasi antar produk yang sebenarnya tidak ada.
Dalam integrasi data ini juga perlu dilakukan transformasi dan
pembersihan data karena seringkali data dari dua database berbeda
tidak sama cara penulisannya atau bahkan data yang ada di satu
8
database ternyata tidak ada di database lainnya. Hasil dari integrasi
data sering diwujudkan dalam sebuah data warehouse atau OLAP.
c. Transformasi data
Beberapa teknik data mining membutuhkan format data
yang khusus sebelum bisa diaplikasikan. Disini juga dilakukan
pemilihan data yang diperlukan oleh teknik data mining yang
dipakai. Transformasi dan pemilihan data ini juga menentukan
kualitas dari hasil data mining nantinya karena ada beberapa
karakteristik dari teknik-teknik data mining tertentu yang
tergantung pada tahapan ini.
d. Aplikasi teknik data mining
Aplikasi teknik data mining sendiri hanya merupakan salah
satu bagian dari proses data mining. Gunakan teknik data mining
yang sesuai dengan hasilyang diinginkan.
e. Evaluasi pola yang ditemukan
Dalam tahap ini hasil dari teknik data mining berupa pola-
pola yang khas maupun model prediksi dievaluasi untuk menilai
apakah hipotesa yang ada memang tercapai. Bila ternyata hasil
yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang
dapat diambil seperti : menjadikannya umpan balik untuk
memperbaiki proses data mining, mencoba teknik data mining lain
9
yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang
di luar dugaan yang mungkin bermanfaat.
f. Presentasi pola
Tahap terakhir dari proses data mining adalah bagaimana
memformulasikan keputusan atau aksi dari hasil analisa yang
didapat. Dalam presentasi ini, visualisasi juga bisa membantu
mengkomunikasikan hasil data mining.
3. Data Mining dan KDD
Penjelasan umum yang diberikan di atas memberikan pengertian
bahwa seolah-olah teknologi data mining adalah teknologi utuh dan
berdiri sendiri. Dibandingkan dengan Knowledge Data Discovery (KDD),
istilah data mining lebih dikenal oleh para pelaku bisnis. Pada
aplikasinya, sebenarnya data mining merupakan bagian dari proses KDD.
Sebagai komponen dalam KDD, data mining berkaitan dengan ekstraksi
dan penghitungan pola-pola dari data yang ditelaah/yang tersembunyi
dalam basis data. KDD mencakup keseluruhan proses pencarian
pola/informasi dalam basis data yang dimulai dari pemilihan dan persiapan
data sampai representasi pola yang ditemukan dalam bentuk yang mudah
dimengerti oleh pihak berkepentingan.
4. Tahapan KDD
Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi
beberapa tahap. Tahap-tahap tersebut bersifat interaktif di mana pemakai
10
terlibat langsung atau dengan perantaraan knowledge base.
a. Data selection
Pemilihan (seleksi) data dari sekumpulan data oprasional
perlu dilakukan sebelum tahap penggalian informasi dalam KDD
dimulai. Data hasil seleksi yang akan digunakan untuk proses data
mining, disimpan dalam suatu berkas, terpisah dari basis data
operasional.
b. Pre-processing atau cleaning
Sebelum proses dta mining dapat dilaksanakan, perlu
dilakukan proses cleaning pada data yang menjadi fokus KDD.
Proses cleaning mencakup antara lain membuang duplikasi data,
memeriksa data yang inkonsisten, dan memperbaiki kesalahan
dalam data, seperti kesalahan cetak (tipografi).juga dilakukan
proses entrikmen, yaitu proses memeperkaya data yang sudah
ada dengan data atau informasi lain yang relevan dan di perlukan
untuk KDD, seperti data atau informasi.
c. Transformation
Coding adalah proses tranformasi pada data yang telah
dipilih, sehingga data tersebut sesuai untuk proses data mining.
Proses coding dalam KDD merupakan proses kreatif dan sangat
tergantung apada jenis atau pola informasi yang akan dicari dalam
basis data.
d. Data mining
Data mining adalah proses mencari pola atau informasi
11
menarik dalam data terpilih dengan menggunakan teknik atau
metode tertentu.Teknik, metode, atau algoritma dalam data mining
sangat bervariasi. Pemilihan metode atau algoritma yang tepat
sangat tergantung pada tujuan dan proses KDD secara keseluruhan.
e. Interpretation atau evaluation
Pola informasi yang dihasilkan dari proses data mining
perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak
yang berkepentingan. Tahap ini merupakan bagian dari proses
KDD yang disebut interpretation. Tahap ini mencakup
pemeriksaan apakah pola informasi yang ditemukan bertentangan
dengan fakta atau hipotesis yang ada sebelumnya.
.
Gambar 1. Tahapan KDD
5. TeknikTeknik dalam Data Mining
Ada beberapa teknik yang digunakan dalam data mining, yaitu :
12
a. Klasifikasi / Classification
Klasifikasi adalah proses untuk menemukan model atau
fungsi yang menjelaskan atau membedakan konsep atau kelas data,
dengan tujuan untuk dapat memperkirakan kelas dari suatu objek
yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan
berbentuk pohon pengambilan keputusan (decision tree), formula
matematis seperti Bayesian dan Support Vector Maching (SVM)
atau bisa juga berupa jaringan seperti Neural Network. Proses
klasifikasi biasanya dibagi menjadi dua fase yaitu learning dan
test. Pada fase learning, sebagian data yang telah diketahui kelas
datanya diumpankan untuk membentuk model prediksi. Karena
menggunakan data yang telah diberikan label terlebih dulu oleh
ahli di bidang itu sebagai contoh data yang benar maka klasifikasi
sering juga disebut sebagai metoda diawasi (supervised method).
Kemudian pada fase test-nya model yang sudah terbentuk diuji
dengan sebagian data lainnya untuk mengetahui akurasi dari model
tersebut. Bila akurasinya mencukupi model ini dapat dipakai untuk
prediksi kelas data yang belum diketahui.
b. Klasterisasi / Clustering
Klasterisasi melakukan pengelompokan data tanpa
berdasarkan kelas data tertentu. Bahkan klasterisasi dapat dipakai
untuk memberikan label pada kelas data yang belum diketahui itu.
Karena itu klasterisasi sering digolongkan sebagai metode
13
unsupervised learning. Prinsip dari klasterisasi adalah
memaksimalkan kesamaan antar anggota satu kelas dan
meminimumkan kesamaan antar kelas/klaster. Klasterisasi dapat
dilakukan pada data yang memiliki beberapa atribut yang
dipetakan sebagai ruang multidimensi.
c. Association Rule Mining
Association rule mining adalah teknik mining untuk
menemukan aturan asosiatif antara suatu kombinasi item. Contoh
dari aturan asosiatif dari analisa pembelian di suatu pasar swalayan
adalah bisa diketahui berapa besar kemungkinan seorang
pelanggan membeli roti bersamaan dengan susu. Analisis asosiasi
dikenal juga sebagai salah satu teknik data mining yang menjadi
dasar dari berbagai teknik data mining khususnya salah satu tahap
dari analisis asosiasi yang disebut analisis pola frequensi tinggi
yang menarik perhatian guna menghasilkan algoritma yang efisien.
Penting tidaknya suatu aturan asosiatif dapat diketahui dengan dua
parameter, yaitu support dan confidence. Support adalah presentase
kombinasi item tersebut dalam database sedangkan confidence
adalah kuatnya hubungan antar item dalam aturan asosiatif. Karena
analisis asosiasi menjadi terkenal karena aplikasinya untuk
menganalisa isi keranjang belanja di pasar swalayan, analisis
asosiasi juga sering disebut dengan istilah basket analysis.
14
B. ASSOCIATION RULES
1. Definisi Association Rules
Analisis asosiasi atau Association Rules didefinisikan sebagai suatu
proses untuk menemukan semua aturan asosiatif yang memenuhi syarat
minimum untuk support (minsup) dan syarat minimum untuk confidence
(minconf) pada database.
Association rule mining adalah suatu prosedur untuk mencari
hubungan antar item dalam suatu dataset yang ditentukan. Association
Rule Mining meliputi dua tahap:
a. Mencari kombinasi yang paling sering terjadi dari suatu itemset
(frequent itemset).
b. Mendefinisikan Association Rule dari frequent itemset yang
telah dibuat sebelumnya.
Umumnya ada dua ukuran kepercayaan (interestingness measure)
yang digunakan dalam menentukan suatu Association Rules, yaitu support
dan confidence. Kedua ukuran ini nantinya berguna dalam menentukan
interesting association rules, yaitu untuk dibandingkan dengan batasan
yang telah ditentukan. Batasan tersebut terdiri dari minsup dan minconf.
2. Proses Pencarian Association Rules
Pencarian Association Rules meliputi dua tahap, yaitu:
a. Pencarian semua kombinasi item item yang memiliki support
diatas minsup (minimum support) yang disebut dengan Large
15
Itemset.
b. Large Itemset yang telah dibentuk akan digunakan untuk
membentuk Association Rules yang memenuhi minimum
confidence (minconf) yang diberikan.
3. Metodologi Dasar Analisis Asosiasi
Metodologi dasar analisis aturan asosiasi terbagi menjadi dua
tahap, yaitu :
a. Analisa Pola Frekuensi Tinggi
Tahap ini mencari kombinasi item yang memenuhi syarat
minimum dari nilai support dalam database. Nilai support
sebuah item diperoleh dengan rumus berikut [3]:

Transaksi Total
A Mengandung Transaksi Jumlah
A Support
(1)
Pada rumus 1 menjelaskan bahwa nilai support diperoleh
dengan cara mencari jumlah transaksi yang mengandung nilai A (satu
item) dibagi dengan jumlah keseluruhan transaksi.
Sedangkan nilai support dari 2-item diperoleh dari rumus
berikut :

Transaksi Total
B dan A Mengandung Transaksi Jumlah
B A P B A Support ,
...(2)
Pada rumus 2 menjelaskan bahwa nilai support diperoleh
dengan cara mencari jumlah transaksi yang mengandung nilai A dan B
(item pertama bersamaan dengan item yang lain) dibagi dengan jumlah
keseluruhan transaksi.
16
Berikut ini pada tabel 1 disajikan contoh basisdata transaksi
penyewaan alat berat dari sebuah perusahaan penyedia jasa sewa alat
berat.
Tabel 1. Contoh data transaksi
ID
Transaksi
Item Tersewa
1 Mini Backhoe loader, Backhoe Loader, Dump
Truck
2 Backhoe Loader, Dump Truck, Mini Truck,
Boom Truck
3 Boom Backhoe Loader, Mini Truck, Boom Truck
4 Backhoe Loader, Dump Truck
5 Backhoe Loader, Dump Truck, Traktor, Mini
Truck, Boom Truck
Pada tabel 1 diatas dapat dilihat bahwa setiap transaksi sewa
mengandung satu sampai lebih dari satu item alat berat yang disewa.
Dengan memperhatikan data pada tabel yang sama maka selanjutnya
ditetapkan syarat minimum dari nilai support untuk pola frekuensi
tinggi adalah 30%.
Diketahui bahwa jumlah transaksi yang memuat {Backhoe
Loader, Dump Truck} ada 4 (support 80%), sedangkan jumlah
transaksi yang memuat {Backhoe Loader, dump Truck, Boom Truck }
17
ada 2 (support 40%), transaksi yang memuat {Boom Backhoe Loader}
hanya 1 (support 20%) dan sebagainya. Sehingga diperoleh pola
frekuensi tinggi yang memenuhi syarat minimum nilai support adalah
Tabel 2. Contoh hasil nilai support
Kombinasi Item Support
{backhoe loader} 80%
{dump truck} 80%
{mini truck} 60%
{boom truck} 60%
{backhoe loader,dump truck} 80%
{mini truck,boom truck} 60%
{backhoe loader,boom truck} 40%
{dump truck,boom truck} 40%
{backhoe loader,mini truck} 40%
{dump truck,mini truck} 40%
{backhoe loader,dump truck,boom
truck}
40%
{backhoe loader,dump truck,mini
truck,boom truck}
40%
Keterangan : item {backhoe loader,dump truck} mempunyai nilai support
80% diperoleh dengan perhitungan 4 / 5 * 100%, (4 adalah
banyaknya item backhoe loader yang disewa bersamaan
18
dengan dump truck dan 5 adalah banyaknya transaksi yang
terjadi).
c. Pembentukan Aturan Assosiatif
Setelah semua pola frekuensi tinggi ditemukan, barulah dicari
aturan asosiatif yang memenuhi syarat minimum untuk confidence
(minconf) dengan menghitung confidence aturan assosiatif A->B dari
support pola frekuensi tinggi A dan B dengan menggunakan rumus
berikut :

A Mengandung Transaksi Jumlah
B dan A Mengandung Transaksi Jumlah
A B P Confidence |
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .[rumus 3]
Pada rumus 3 menjelaskan bahwa nilai confidence diperoleh
dengan cara mencari jumlah transaksi yang mengandung nilai A dan B
(item pertama bersamaan dengan item yang lain) dibagi dengan jumlah
transaksi yang mengandung A (item pertama).
Bila syarat minimum untuk confidence dari contoh diatas adalah
50% maka salah satu aturan assosiatif yang dapat ditemukan adalah
{mini truck, boom truck} -> {backhoe loader, dump truck} : dengan
nilai confidence 66.6% karena support({backhoe loader, dump
truck})/support({backhoe loader, dump truck, mini truck, boom
truck})=40% / 60% = 66.6%
Aturan assosiatif lain yang dapat ditemukan diantaranya adalah :
19
Tabel 3. Contoh hasil nilai support dan confidence
Aturan Assosiatif Support Confidence
{mini truck, boom truck} ->
{backhoe loader, dump truck}
40% 66.6%
{backhoe loader, dump truck} ->
{bump truck}
40% 50%
{dump truck, boom truck} ->
{backhoe loader}
40% 100%
Keterangan : item {mini truck, boom truck} -> {backhoe loader, dump truck}
mempunyai nilai confidence 66.6% diperoleh dengan
perhitungan 2 / 3 * 100%, (2 adalah banyaknya item {mini
truck, boom truck} yang disewa bersamaan dengan {bachhoe
loader,dump truck} dan 3 adalah banyaknya transaksi yang
terjadi pada saat penyewaan mini truck dan boom truck).
Perlu dicatat bahwa tahap pertama untuk mencari pola frekuensi
tinggi biasanya paling banyak menghabiskan waktu. Karenanya banyak
peneliti berusaha mengembangkan algoritma yang efisien.
C. REVIEW RISET RELEVAN
Eko Wahyu Tyas D (2008) melakukan penelitian dengan menggunakan
metode Association Rule (aturan asosiatif) yang merupakan salah satu teknik
utama dalam data mining dan merupakan bentuk yang paling umum dipakai
20
dalam menemukan pattern atau pola dari suatu kumpulan data. Sedangkan
algoritma yang digunakan adalah algoritma Apriori karena merupakan algoritma
yang paling banyak diimplementasikan dalam produk komersial untuk data
mining karena dianggap algoritma yang paling mapan.
.

You might also like