You are on page 1of 13

Veronika S.

Moertini

DATA MINING SEBAGAI SOLUSI


BISNIS
Abstraksi
Dunia bisnis yang penuh persaingan membuat para pelakunya harus selalu
memikirkan strategi-strategi terobosan yang dapat menjamin kelangsungan
bisnis mereka. Salah satu aset utama yang dimiliki oleh perusahaan masa
kini adalah data bisnis dalam jumlah yang luar biasa banyak. Ini
melahirkan kebutuhan akan adanya teknologi yang dapat memanfaatkannya
untuk membangkitkan “pengetahuan-pengetahuan” baru, yang dapat
membantu dalam pengaturan strategi bisnis. Teknologi data mining hadir
sebagai solusi. Makalah ini akan mengulas permasalahan bisnis yang ada
dan dasar-dasar data mining melalui bahasan kegunaan, cara kerja dan
metodologi-metodologi populer pada teknologi ini (pohon keputusan,
klasifikasi, regresi non-linier, berbasis sampel, kebergantungan grafik, dll.).

Abstract
The world of business has always been full of competitions. The executors
think relentlessly of the way to get survived. Fortunately, in the modern
business world, there is valuable data warehouse that could be utilized to
generate new knowledge to help the executives in arranging their business
strategies. The knowledge generator, which is data mining technology,
would be introduced to the readers. This paper presents the business
problems to be solved and the foundations of data mining: the usage, how
data mining works, the tasks, and the popular methods (decision rule,
classification, non-linear regression, sample based, graphical dependency,
etc.).

Diterima : 7 Maret 2002


Disetujui untuk dipublikasikan : 16 Maret 2002

1. Pendahuluan kebutuhan-kebutuhan untuk memanfa-


Tahun 90-an telah melahirkan atkan gudang data yang sudah dimiliki,
“gunungan” data di bidang ilmu para peneliti melihat peluang untuk
pengetahuan, bisnis dan pemerintah. melahirkan sebuah teknologi baru yang
Kemampuan teknologi informasi untuk menjawab kebutuhan ini, yaitu data
mengumpulkan dan menyimpan berbagai mining. Teknologi ini sekarang sudah ada
tipe data jauh meninggalkan kemampuan dan diaplikasikan oleh perusahaan-
untuk menganalisis, meringkas dan perusahaan untuk memecahkan berbagai
mengekstraksi “pengetahuan” dari data. permasalahan bisnis.
Metodologi tradisional untuk
menganalisis data yang ada, tidak dapat Makalah ini akan membahas kebutuhan
menangani data dalam jumlah besar. bisnis, solusi yang dipikirkan para pelaku
Sementara para pelaku bisnis memiliki bisnis, pemanfaatan, cara kerja tugas dan

44 INTEGRAL, vol. 7 no. 1, April 2002


metodologi-metodologi populer pada halaman Web) agar kustomer merasa
data mining. Bahasan akan diberikan dari diperlakukan secara khusus dan
sudut pandang pelaku bisnis dan peneliti. karenanya akan tetap setia dengan
Hal ini dimaksudkan agar para pembaca perusahaan itu. (3) Menampilkan
memperoleh gambaran yang kongkret informasi produk-produk lain yang biasa
mengenai data mining di dunia bisnis, dibeli bersamaan dengan produk tertentu.
sekaligus juga mengenal konsep-konsep (4) Mengklasifikasi artikel-artikel secara
teoretis yang melandasi teknologi data otomatis. (5)Mengelompokkan pengun-
mining. jung Web yang memiliki kesamaan
karakteristik tertentu. (6)Mengestimisasi
2. Kebutuhan Bisnis data yang hilang. (7) Memprediksi
Dalam dunia bisnis yang selalu dinamis kelakukan di masa yang akan datang2.
dan penuh persaingan, para pelakunya Pencarian solusi dari masalah-masalah
harus senantiasa memikirkan cara-cara ini akan berkaitan dengan penemuan dan
untuk terus survive dan jika mungkin pemanfaatan dari berbagai jenis pola-
mengembangkan skala bisnis mereka. pola yang tersembunyi dari gudang data
Untuk mencapai hal itu, dapat yang kemungkinan sudah dimiliki oleh
diringkaskan tiga kebutuhan bisnis, perusahaan.
yaitu1:
a) Penambahan jenis maupun Penjelasan lebih lanjut dari masalah-
peningkatan kapasitas produk. masalah di atas dan konsep dasar yang
b) Pengurangan biaya operasi dipikirkan oleh para pelaku dan
perusahaan. penganalisis bisnis sebagai solusinya
c) Peningkatan efektifitas pemasaran diberikan di bawah ini.
dan keuntungan.
Untuk memenuhi kebutuhan-kebutuhan a. Perumusan target. Para ahli
di atas, banyak cara yang dapat pemasaran menggunakan teknik-teknik
ditempuh. Salah satunya adalah dengan tertentu untuk memilih orang-orang yang
memikirkan teknik-teknik pemasaran menjadi target pemasaran untuk disuguhi
yang efektif dengan biaya yang minimal. advertensi tertentu. Tujuannya antar lain
Berikut ini akan dibahas mengenai hal- adalah untuk meningkatkan profit
hal yang berkaitan dengan kegiatan bisnis perusahaan, pengenalan produk secara
di bidang pemasaran, seperti identifikasi luas, atau hasil-hasil terukur lainnya.
dan pemahaman permasalahan, analisis
pencarian solusi dan pembahasan teknik- b. Personalisasi. Para ahli pemasaran
teknik untuk mengimplementasikan memanfaatkan personalisasi untuk
solusi. memilih advertensi yang paling sesuai
untuk (atau memberikan rekomendasi
3. Pemahaman Permasalahan dan tertentu kepada) orang tertentu.
Konsep Dasar Solusi Bisnis Personalisasi dapat dipandang sebagai
Langkah pertama untuk menyelesaikan kontradiksi dari “perumusan target”.
permasalahan bisnis adalah Pada perumusan target, yang disasar
mendefinisikan permasalahan dengan adalah sebanyak mungkin orang yang
sejelas-jelasnya. Sebagai contoh, memiliki potensi untuk membeli produk-
permasalahan umum yang dihadapi oleh produk tertentu, sedangkan pada
perusahaan-perusahaan dot-com adalah: personalisasi, tujuannya adalah agar
(1) Bagaimana menyajikan advertensi kustomer yang sudah menjadi pelanggan
kepada target yang tepat sasaran. (2) membeli sebanyak mungkin produk-
Menyajikan halaman Web yang khusus produk yang dijual oleh perusahaan.
untuk setiap kustomer (mempersonalisasi

INTEGRAL, vol. 7 no. 1, April 2002 45


c. Asosiasi (juga dinamakan analisis f. Estimasi dan Prediksi. Estimasi
keranjang-pasar). Asosiasi ini menerka sebuah nilai yang belum
mengidentifikasi item-item produk yang diketahui, misalnya penghasilan
mungkin dibeli bersamaan dengan seseorang, ketika informasi lain
produk lain, atau “dilihat” secara mengenai orang tersebut diketahui.
bersamaan pada saat mencara informasi Prediksi memperkirakan nilai untuk masa
mengenai produk tertentu. Pada halaman mendatang, misalnya probabilitas orang
Web, kustomer diingatkan untuk melihat untuk membeli sebuah mobil baru tahun
atau membeli produk-produk yang depan, ketika orang itu belum
berkaitan dengan produk yang menjadi melakukannya. Atau nilai saham yang
minat kustomer. akan dibeli tahun depan.

d. Manajemen pengetahuan. Sistem ini g. Pohon keputusan. Pohon keputusan


mengidentifikasi dan memanfaatkan ini dapat dipandang sebagai diagram alir
pola-pola di dalam dokumen yang dari titik-titik pertanyaan yang menuju
berbahasa alami, atau berformat text. Di pada sebuah keputusan. Pohon keputusan
sini didefinisikan asosiasi antara kata- ini diterapkan pada sistem pemilihan
kata dan konteksnya dalam konsep produk-produk yang dijual perusahaan.
tingkat-atas. Hal ini dapat dilakukan
dengan “melatih” sistem dengan 4. Kebutuhan dan Kesempatan
dokumen-dokumen yang sudah ditandai untuk Data Mining
dengan konsep-konsep yang relevan. Ketersediaan data yang melimpah,
Sistem kemudian membangun sebuah kebutuhan akan informasi (atau
pencocok pola untuk tiap konsep. Ketika pengetahuan) sebagai pendukung
dihadapkan pada dokumen baru, pengambilan keputusan untuk membuat
pencocok pola akan memutuskan tingkat solusi bisnis, dan dukungan infrastruktur
relevansi dari dokumen ini terhadap di bidang teknologi informasi merupakan
konsep. Pendekatan ini dapat digunakan cikal-bakal dari lahirnya teknologi data
untuk menyortir dokumen-dokumen baru mining.
yang masuk ke dalam kategori-kategori
yang sudah ada. Juga dapat digunakan Ketersediaan data transaksi dalam
untuk mempersonalisasi publikasi online. volume yang besar: Bidang-bidang
Selain itu, dapat juga dimanfaatkan industri yang memiliki data transaksi
untuk menciptakan atau membangkitkan dalam volume besar ini misalnya jaringan
dokumen jawaban-jawaban secara ritel, telekomunikasi, perbankan, kartu
otomatis terhadap pertanyaan-pertanyaan kredit, dll. Sistem manajemen transaksi
yang masuk. pada industri tersebut merekord
informasi-informasi rinci yang
e. Pengelompokan (Clustering). diperlukan dalam bisnis mereka.
Pengelompokan mengidentifikasi orang-
orang yang memiliki kesamaan Informasi sebagai aset perusahaan yang
karakteristik tertentu, dan kemudian penting: Kebutuhan terhadap informasi
menggunakan karakteristik tersebut telah melahirkan gudang data yang
sebagai “vektor karakteristik” atau mengintegrasikan informasi dari sistem-
“centroid”. Pengelompokan ini sistem yang tersebar untuk mendukung
digunakan oleh perusahaan untuk pengambilan keputusan. Seringkali
membuat laporan mengenai karakteristik gudang data ini juga dilengkapi dengan
umum dari grup-grup pengunjung data demografis kustomer dan informasi
(kustomer) yang berbeda. mengenai rumah-tangga.

46 INTEGRAL, vol. 7 no. 1, April 2002


Ketersediaan teknologi informasi dalam dimaksud di sini adalah set data yang
skala yang terjangkau: Saat ini teknologi berbentuk tabulasi, seperti yang banyak
informasi berbasis sistem yang terbuka diimplementasikan dalam teknologi
sudah dapat diadopsi secara luas. Ini manajemen basis data relasional. Akan
termasuk sistem manajemen basis data, tetapi, teknik-teknik data mining dapat
kakas penganalisis, dan yang terkini juga diaplikasikan pada representasi data
adalah pertukaran informasi dan yang lain, seperti domain data spatial,
publikasi melalui jaringan Intranet. berbasis text, dan multimedia (citra).
Data mining dapat juga didefinisikan
Faktor-faktor tersebut di atas dikom- sebagai “pemodelan dan penemuan pola-
binasikan dengan konsep solusi bisnis pola yang tersembunyi dengan
yang telah diuraikan sebelumnya, telah memanfaatkan data dalam volume yang
melahirkan teknologi data mining. Data besar”1.
mining dimaksudkan untuk memberikan
solusi nyata bagi para pengambil Data mining menggunakan pendekatan
keputusan di dunia bisnis, untuk discovery-based dimana pencocokan pola
mengembangkan bisnis mereka. (pattern-matching) dan algoritma-
algoritma yang lain digunakan untuk
5. Bahasan Umum Data Mining menentukan relasi-relasi kunci di dalam
Data Mining merupakan teknologi baru data yang diekplorasi. Data mining
yang sangat berguna untuk membantu merupakan komponen baru pada
perusahaan-perusahaan menemukan arsitektur sistem pendukung keputusan
informasi yang sangat penting dari (DSS) di perusahaan-perusahaan.
gudang data mereka. Kakas data mining
meramalkan tren dan sifat-sifat perilaku Ruang Lingkup Data Mining
bisnis yang sangat berguna untuk
mendukung pengambilan keputusan Data mining (penambangan data), sesuai
penting. Analisis yang diotomatisasi yang dengan namanya, berkonotasi sebagai
dilakukan oleh data mining melebihi pencarian informasi bisnis yang berharga
yang dilakukan oleh sistem pendukung dari basis data yang sangat besar. Usaha
keputusan tradisional yang sudah banyak pencarian yang dilakukan dapat
digunakan. Data Mining dapat menjawab dianalogikan dengan penambangan
pertanyaan-pertanyaan bisnis yang logam mulia dari lahan sumbernya.
dengan cara tradisional memerlukan Dengan tersedianya basis data dalam
banyak waktu untuk menjawabnya. Data kualitas dan ukuran yang memadai,
Mining mengeksplorasi basis data untuk teknologi data mining memiliki
menemukan pola-pola yang tersembunyi, kemampuan-kemampuan sebagai
mencari informasi pemrediksi yang berikut1:
mungkin saja terlupakan oleh para pelaku ! Mengotomatisasi prediksi tren dan
bisnis karena terletak di luar ekspektasi sifat-sifat bisnis. Data mining
mereka. mengotomatisasi proses pencarian
informasi pemprediksi di dalam basis
Definisi Data Mining data yang besar. Pertanyaan-
pertanyaan yang berkaitan dengan
Data mining didefinisikan sebagai satu prediksi ini dapat cepat dijawab
set teknik yang digunakan secara langsung dari data yang tersedia.
otomatis untuk mengeksplorasi secara Contoh dari masalah prediksi ini
menyeluruh dan membawa ke permukaan misalnya target pemasaran,
relasi-relasi yang kompleks pada set data peramalan kebangkrutan dan bentuk-
yang sangat besar. Set data yang bentuk kerugian lainnya.

INTEGRAL, vol. 7 no. 1, April 2002 47


! Mengotomatisasi penemuan pola- dimisalkan pihak manajemen sebuah
pola yang tidak diketahui perusahaan bermaksud untuk menjaring
sebelumnya. Kakas data mining kustomer baru untuk jasa layanan
“menyapu” basis data, kemudian sambungan langsung jarak jauh (SLJJ).
mengidentifikasi pola-pola yang Pihak manajemen dapat “menghubungi”
sebelumnya tersembunyi dalam satu calon-calon kustomer dengan memilih
sapuan. Contoh dari penemuan pola secara acak kemudian menawari mereka
ini adalah analisis pada data penjulan dengan diskon khusus, dengan hasil yang
ritel untuk mengidentifikasi produk- kemungkinan besar kurang
produk, yang kelihatannya tidak menggemberikan, atau dengan
berkaitan, yang seringkali dibeli memanfaatkan pengalaman-pengalaman
secara bersamaan oleh kustomer. bisnis yang saat ini sudah tersimpan di
Contoh lain adalah pendeteksian basis data perusahaan untuk membangun
transaksi palsu dengan kartu kredit sebuah model. Perusahaan ini telah
dan identifikasi adanya data anomali memiliki banyak informasi mengenai
yang dapat diartikan sebagai data kustomer perusahaan tersebut: umur,
salah ketik (karena kesalahan jenis kelamin, sejarah penggunaan
operator). fasilitas kredit dan penggunaan SLJJ.
Juga sudah diketahui informasi mengenai
Cara Kerja Data Mining calon-calon kustomer: umur, jenis
kelamin, sejarah penggunaan fasilitas
Bagaimana tepatnya data mining kredit, dll. Masalahnya adalah
“menggali” hal-hal penting yang belum penggunaan SLJJ untuk para calon
diketahui sebelumnya atau memprediksi kustomer ini belum diketahui, karena
apa yang akan terjadi? Teknik yang mereka saat ini menjadi kustomer dari
digunakan untuk melaksanakan tugas ini perusahaan lain. Yang dipikirkan pihak
disebut pemodelan. Pemodelan di sini manajemen adalah mencari calon
dimaksudkan sebagai kegiatan untuk kustomer yang akan menggunakan
membangun sebuah model pada situasi banyak jasa SLJJ. Usaha untuk mencari
yang telah diketahui “jawabannya” dan jawaban masalah ini dilakukan dengan
kemudian menerapkannya pada situasi membangun sebuah model. Tabel 1
lain yang akan dicari jawabannya. memberikan ilustrasi mengenai
pembangunan model untuk menentukan
Sebagai contoh di sini diambil pencarian calon kustomer (prospek) di sebuah
solusi bisnis di bidang telekomunikasi3. gudang data.
Ada beberapa perusahaan telekomunikasi
yang beroperasi di sebuah negara dan

Tabel 1. Data Mining untuk Menentukan Prospek


kustomer prospek
informasi umum (contoh: data demografis) diketahui diketahui
informasi khusus (contoh: trasaksi kustomer) diketahui target

Gol dari pemodelan ini adalah untuk sederhana untuk perusahaan


membuat perkiraan yang didasari telekomunikasi itu adalah: 98%
kalkulasi untuk mengisi informasi di kustomer “milik” perusahaan itu yang
kuadran kanan bawah pada Tabel 1, berpenghasilan $60.000/tahun membe-
berdasar pada informasi umum dan lanjakan lebih dari $80/bulan untuk
khusus yang sudah ada (dimiliki oleh penggunaan SLJJ. Model ini kemudian
perusahaan itu). Misalnya, sebuah model dapat diterapkan untuk menarik

48 INTEGRAL, vol. 7 no. 1, April 2002


kesimpulan dari informasi khusus Skenario lain dalam membangun model
(sebagai data prospek), dimana saat ini adalah: memprediksi apa yang akan
informasi khusus tersebut tidak dimiliki terjadi di masa mendatang. Model ini
oleh perusahaan. Dengan model ini, ditunjukkan oleh Tabel 2.
calon-calon kustomer baru dapat ditarget
secara selektif.

Tabel 2. Data Mining untuk Prediksi


kemarin sekarang besok
informasi statis dan rencana terkini (contoh: data diketahui diketahui diketahui
demografis, rencana pemasaran, dll.)
informasi dinamik (contoh: transaksi kustomer) diketahui diketahui target

6. Bahasan Teknis Data Mining discovery (KDD), istilah data mining


Hubungan Data Mining dan Knowledge lebih dikenal para pelaku bisnis. Pada
Data Discovery (KDD) aplikasinya, sebenarnya data mining
merupakan bagian dari proses KDD.
Penjelasan umum yang diberikan di atas Sebagai komponen dalam KDD, data
memberikan pengertian bahwa seolah- mining terutama berkaitan dengan
olah teknologi data mining adalah ekstraksi dan penghitungan pola-pola
teknologi utuh dan berdiri sendiri. dari data yang ditelaah.
Dibandingkan dengan knowledge data

Gambar 1. Langkah-langkah dalam proses KDD4.

Secara garis besar, langkah-langkah 3. Pemrosesan pendahuluan dan


utama dalam proses KDD adalah (lihat pembersihan data: operasi dasar
Gambar 1): seperti penghapusan noise dilakukan.
1. Pemahaman terhadap domain dari 4. Proyeksi dan pengurangan data:
aplikasi, relevansinya terhadap pencarian fitur-fitur yang berguna
pengetahuan yang ada dan goal dari untuk mempresentasikan data
end-user. bergantung kepada goal yang ingin
2. Menciptakan himpunan data target: dicapai.
pemilihan himpunan data, atau 5. Pemilihan tugas data mining:
memfokuskan pada subset variabel pemilihan goal dari proses KDD
atau sampel data, dimana penemuan misalnya klasifikasi, regresi,
(discovery) akan dilakukan. clustering, dll.
6. Pemilihan algoritma data mining
untuk pencarian (searching).

INTEGRAL, vol. 7 no. 1, April 2002 49


7. Data mining: pencarian pola-pola Kebanyakan metodologi data mining
yang diinginkan di himpunan didasarkan pada konsep mesin belajar,
representasi. pengenalan atau pencocokan pola dan
8. Penterjemahan pola-pola yang statistik: klasifikasi, pengelompokan
dihasilkan dari data mining (langkah (clustering), pemodelan grafis, dll.4
7), kemungkinan dapat kembali
langkah 1-7 untuk iterasi lebih lanjut. Tugas Utama Data Mining
9. Konsolidasi pengetahuan yang
ditemukan: pendokumentasian hasil, Telah disebutkan di ruang lingkup data
pencarian penyelesaian apabila ada mining bahwa pada kebanyakan
konflik dengan pengetahuan yang aplikasinya, gol utama dari data mining
telah dipercaya sebelumnya. adalah untuk membuat prediksi dan
deskripsi. Prediksi menggunakan
Metodologi Data Mining beberapa variabel atau field-field basis
data untuk memprediksi nilai-nilai
Komponen data mining pada proses variabel masa mendatang yang
KDD seringkali merupakan aplikasi diperlukan, yang belum diketahui saat
iteratif yang berulang dari metodologi ini. Deskripsi berfokus pada penemuan
data mining tertentu. Pada pembahasan pola-pola tersembunyi dari data yang
di sini akan digunakan istilah pola dan ditelaah. Dalam konteks KDD, deskripsi
model. Pola dapat diartikan sebagai dipandang lebih penting daripada
instansiasi dari model. Sebagai contoh prediksi4. Ini berlawanan dengan aplikasi
f(x) = 3x2 + x adalah pola dari model f(x) pengenalan pola dan mesin belajar.
= ax2 + bx.
Prediksi dan deskripsi pada data mining
Data mining melakukan “pengepasan” dilakukan dengan tugas-tugas utama
atau pencocokan model ke, atau yang akan dijelaskan di bawah ini. Pada
menentukan pola dari data yang setiap tugas akan diberikan pointer ke
diobservasi. Ada dua pendekatan masalah bisnis yang dapat diselesaikan
matematis yang digunakan dalam (yang telah dibahas pada butir 3).
pencocokan model: statistik yang Gambar-gambar yang ada dimisalkan
memberikan efek non-deterministik dan menunjukkan hubungan antara
logik yang murni deterministik. Yang penghasilan pengecer dan kekurangan
lebih banyak digunakan adalah pembayaran yang ditanggung oleh
pendekatan statistik, mengingat distributor (pemasok barang).
ketidakpastian yang ada dalam proses
pembangkitan data di dunia nyata.

50 INTEGRAL, vol. 7 no. 1, April 2002


a) Klasifikasi adalah fungsi ruang kelas (punya dan tidak punya
pembelajaran yang memetakan peminjaman). Pada gambar tersebut
(mengklasifikasi) sebuah unsur x merepresentasikan peminjaman
(item) data ke dalam salah satu dari yang bermasalah dan o peminjaman
beberapa kelas yang sudah yang pengembaliannya lancar.
didefinisikan. Gambar 2 (Sebagai solusi 3.e, 3.d dan 3.g).
menunjukkan pembagian sederhana
pada data peminjaman menjadi dua

Gambar 2.
Batas klasifikasi linier sederhana pada himpunan data
peminjaman4.

b) Regresi adalah fungsi pembelajaran pembiayaan advertensi, dll. Gambar


yang memetakan sebuah unsur data 3 menunjukkan regresi linear
ke sebuah variabel prediksi bernilai sederhana dimana “total
nyata. Aplikasi dari regresisi ini peminjaman” (total debt) diplot
misalnya adalah pada prediksi sebagai fungsi linier dari penghasilan
volume biomasa di hutan dengan (income): pengeplotan ini
didasari pada pengukuran gelombang menghasilkan kesalahan besar karena
mikro penginderaan jarak jauh hanya ada korelasi sedikit antara
(remotely-sensed), prediksi kedua variabel ini. (Solusi 3.a dan
kebutuhan kustomer terhadap sebuah 3.f)
produk baru sebagai fungsi dari

Gambar 3.
Regresi linier sederhana untuk himpunan data peminjaman4.

INTEGRAL, vol. 7 no. 1, April 2002 51


c) Pengelompokan (clustering) (overlapping). Gambar 4
merupakan tugas deskripsi yang menunjukkan pembagian himpunan
banyak digunakan dalam data peminjaman menjadi 3 cluster.
mengidentifikasi sebuah himpunan Di sini, cluster - cluster dapat saling
terbatas pada kategori atau cluster menumpu, sehingga titik-titik data
untuk mendeskripsikan data yang dapat menjadi anggota lebih dari satu
ditelaah. Kategori-kategori ini dapat cluster. (Label x dan o pada gambar
bersifat eksklusif dan ekshaustif sebelumnya diubah menjadi + untuk
mutual, atau mengandung represen- mengindikasikan bahwa keanggotaan
tasu yang lebih kaya seperti kategori kelas diasumsikan belum diketahui.)
yang hirarkis atau saling menumpu (Solusi 3.e).

Gambar 4.
Pengelompokan himpunan data peminjaman menjadi 3 cluster4.

d) Peringkasan melibatkan metodologi f) Pendeteksian Perubahan dan


untuk menemukan deskripsi yang Deviasi berfokus pada penemuan
ringkas dari sebuah himpunan data. perubahan yang paling signifikan di
Satu contoh yang sederhana adalah dalam data dari nilai-nilai yang telah
mentabulasikan mean dan deviasi diukur sebelumnya. (Solusi 3.f)
standar untuk semua field-field tabel.
(Solusi 3.f). Komponen Algoritma Data Mining

e) Pemodelan Kebergantungan adalah Setelah tugas-tugas utama dari data


penemuan sebuah model yang mining didefinisikan seperti di atas, maka
mendeskripsikan kebergantungan perlu dirumuskan algoritma-algoritma
yang signifikan antara variabel- untuk mencari solusi dari tugas-tugas
variabel. Model kebergantungan ini tersebut di atas. Dalam setiap algoritma
ada di 2 tingkat: tingkat struktural data mining ada tiga komponen utama
yang menspesifikasikan variabel- yaitu representasi model, evaluasi model
variabel yang secara local bergantung dan metodologi pencarian.
satu sama lain, dan tingkat kuantitatif a) Representasi Model adalah bahasa
yang menspesifikasikan tingkat untuk mendeskripsikan pola-pola
kebergantungan dengan menggu- yang dapat ditemukan. Jika
nakan skala numerik. (Solusi 3.c). representasi terlalu terbatas, maka
tidak akan ada jumlah waktu

52 INTEGRAL, vol. 7 no. 1, April 2002


pelatihan maupun sampel yang pada representasi aturan dan pohon
mencukupi, yang akan menghasilkan tertentu dapat secara signifikan
model yang akurat untuk data. membatasi bentuk fungsional dari model.
b) Evaluasi Model mengestimasi tingkat Sebagai contoh, Gambar 2 memberikan
kecocokan sebuah pola tertentu untuk ilustrasi mengenai efek penerapan
memenuhi kriteria pada proses KDD. pemisahan, yang didasarkan pada nilai
Evaluasi pada keakuratan prediksi ambang tertentu, pada variabel
(validasi) didasarkan pada validasi penghasilan (income) di himpunan data
silang. Evaluasi kualitas deskriptif peminjaman: sangat jelas terlihat bahwa
berkaitan dengan akurasi, kebaruan, penerapan pemisahan nilai ambang
utilitas dan kemampuan untuk sederhana sangat membatasi tipe batas
dipahami dari model yang (boundary) klasifikasi yang dapat
diterapkan. Kiteria logika dan dihasilkan. Jika ruang model dilebarkan
statistik dapat digunakan untuk untuk memfasilitasi ekspresi-ekspresi
evaluasi model. yang lebih umum (misalnya multivariate
c) Metodologi Pencarian terdiri dari dua hyperplanes pada berbagai sudut), maka
komponen: pencarian parameter dan model ini menjadi lebih canggih untuk
pencarian model. Pada pencarian prediksi. Hanya saja, mungkin akan lebih
parameter, algoritma harus mencari sulit untuk dipahami pemakai.
parameter-parameter yang
mengoptimisasi kriteria evaluasi Metodologi ini terutama digunakan untuk
model dengan tersedianya data yang pemodelan prediksi, keduanya untuk
diobservasi dan representasi model klasifikasi dan regresi4. Selain itu, dapat
yang tetap. Pencarian model terjadi digunakan juga untuk pemodelan
sebagai sebuah loop di atas deskripsi ringkasan.
metodologi pencarian parameter:
representasi model diubah sehingga b. Metodologi Klasifikasi dan Regresi
dibentuk satu keluarga model-model. Non-linier
Untuk setiap representasi model,
metodologi pencarian parameter Kedua metodologi ini terdiri dari
diinstansiasi untuk mengevaluasi sekumpulan teknik-teknik untuk
kualitas dari model itu. Implementasi memprediksi kombinasi variabel-variabel
metodologi pencarian model masukan yang pas dengan kombinasi
cenderung untuk menggunakan linier dan non-linier pada fungsi-fungsi
teknik pencarian heuristic. dasar (sigmoid, splines, polinomial).
Contohnya antara lain adalah jaringan
7. Metodologi Data Mining yang saraf feedforward, metodologi spline
Populer adaptif, dan proyeksi regresi pursuit.
Ada banyak metodologi data mining, tapi Gambar 5 menunjukkan tipe boundary
di sini hanya akan dibahas yang populer keputusan non-linier yang mungkin
saja. Bahasan metodologi akan meliputi dihasilkan oleh jaringan saraf .
segi representasi model, evaluasi model Metodologi regresi non-linier, walaupun
dan metodologi pencarian. canggih dalam representasinya, mungkin
sulit untuk diinterpretasikan. Gambar 5
a. Aturan dan Pohon Keputusan bisa jadi lebih akurat dibandingkan
Metodologi ini, yang menggunakan dengan Gambar 2, tapi Gambar 2 lebih
pemisahan (split) univariate, mudah mudah untuk diinterpretasikan (jika
dipahami oleh pemakai karena bentuk penghasilan lebih dari t, maka
representasinya yang sederhana.. Akan peminjaman akan memiliki status yang
tetapi, batasan-batasan yang diterapkan bagus).

INTEGRAL, vol. 7 no. 1, April 2002 53


Gambar 5.
Contoh boundary klasifikasi yang “dipelajari” pengklasifikasi
non-linier4.

c. Metodologi Berbasis-sampel terdekat, algoritma regresi dan sistem


Representasi dari metodologi ini cukup reasoning berbasis-kasus. Gambar 6
sederhana: gunakan sampel dari basisdata menunjukkan hasil dari klasifikasi
untuk mengaproksimasi sebuah model, tetangga terdekat pada himpunan data
misalnya, prediksi sampel-sampel baru peminjaman: kelas pada setiap titik di
diturunkan dari properti sampel-sampel dalam ruang 2-dimensi sama dengan
yang “mirip” di dalam model yang kelas dari titik terdekat di dalam
prediksinya sudah diketahui. Teknik ini himpunan data yang ditelaah dan orisinil.
misalnya adalah klasifikasi tetangga-

Gambar 6.
Boundary klasifikasi untuk pengklasifikasi tetangga-terdekat
pada himpunan data peminjaman4.

54 INTEGRAL, vol. 7 no. 1, April 2002


Kekurangan pada metodologi berbasis- mengelola informasi secara intensif
sampel (misalnya jika dibandingkan seperti perbankan, tetapi juga perusahaan
dengan berbasis-pohon) adalah dibutuh- apa saja yang ingin memanfaatkan
kannya metrik jarak yang akurat untuk gudang data untuk memanajemen
mengevaluasi jarak antara titik-titik data. kustomer dengan lebih baik. Dua faktor
penting yang menentukan keberhasilan
penggunaan dari data mining adalah:
d. Model Kebergantungan Grafik gudang data yang berukuran besar dan
Probabilistik terintegrasi dengan baik, dan pemahaman
Model grafik menspesifikasikan keber- atau identifikasi yang baik terhadap
gantungan probabilistik yang mendasari proses bisnis dimana data mining akan
sebuah model dalam menggunakan diaplikasikan5.
struktur grafik. Dalam bentuknya yang
paling sederhana, model ini Beberapa contoh bidang-bidang bisnis
menspesifikasikan variabel-variabel yang telah berhasil menerapkan aplikasi
mana yang bergantung satu sama lain. data mining adalah:
Pada umumnya, model ini digunakan a) Perusahaan farmasi dapat
dengan variabel kategorial atau bernilai menganalisis aktivitas penjualan
diskret, tapi pengembangan untuk kasus terkininya dan menggunakan hasil-
khusus, seperti densitas Gausian, untuk nya untuk mentargetkan dokter-
variabel yang bernilai real (pecahan) juga dokter yang berpotensi menggunakan
dimungkinkan. Baru-baru ini riset di produknya dan menentukan aktifitas
bidang inteligensia buatan dan statistik pemasaran yang paling efektif untuk
dilakukan untuk mencari teknik dimana beberapa bulan mendatang.
struktur dan parameter-parameter pada b) Perusahaan kartu kredit dapat
model grafik “dipelajari” secara langsung memanfaatkan data transaksi
dari basisdata. kustomer-kustomernya untuk meran-
cang produk kredit baru yang akan
e. Model Belajar Relasional menarik minat para kustomer
Jika aturan dan pohon-keputusan tersebut.
memiliki sebuah representasi yang c) Perusahaan transportasi yang
terbatas pada logika proporsional, menyediakan berbagai jenis
pembelajaran relasional (yang juga pelayanan. Data mining dapat
dikenal sebagai pemrograman logika digunakan untuk mengidentifikasi
induksi) menggunakan bahasa pola yang prospek-prospek pelayanan yang
lebih sederhana dengan logika tingkat- menjanjikan keuntungan.
satu. Pembelajar relasional dengan d) Perusahaan produk makanan atau
mudah dapat menemukan formula seperti kebutuhan sehari-hari. Data mining
X=Y. Kebanyakan riset pada metodologi dapat dimanfaatkan untuk
evaluasi model untuk pembelajaran meningkatkan penjualan produk ke
relasional bersifat logik. para pengecer (retailer). Data
kustomer, pengiriman, aktivitas
kompetitor dapat digunakan untuk
8. Teknologi yang Mendatangkan menganalisis sebab-sebab kustomer
Profit berpindah ke produk merek lain.
Banyak perusahaan yang sudah Kemudian, hasilnya dapat digunakan
meluncurkan aplikasi data mining (KDD) untuk menyusun strategi pemasaran
dan telah mendapatkan keuntungan. yang lebih efektif.
Teknologi ini tidak hanya cocok untuk
digunakan oleh industri-industri yang

INTEGRAL, vol. 7 no. 1, April 2002 55


9. Pengembangan KDD dan Data teknologi ini harus terus dapat “bekerja”
Mining berdampingan dengan bidang lain di
Walaupun telah banyak diaplikasikan di dunia teknologi informasi yang
dunia bisnis dan mendatangkan profit, berkembang dengan sangat cepat.
teknologi KDD dan Data Mining masih Penyempurnaan di sana-sini masih terus
memiliki tantangan-tantangan yang harus diperlukan, karena itu peluang riset di
diatasi. Riset untuk menyempurnakan bidang ini masih terbuka lebar.
KDD diperlukan antar lain untuk
mengatasi4:
a) Basisdata yang berukuran besar, Pustaka
dengan ratusan tabel, jutaan rekord [1] Seiner R., “Digging Up $$$ with
dan berukuran sampai dengan multi- Data Mining – An Executive’s
gigabyte. Guide”, The Data Administration
b) Dimensi yang besar, basisdata tidak Newsletter, 1999,
hanya memiliki jutaan rekord tetapi http://www.tdan.com/i010ht01.htm.
juga jumlah field (atribut, variabel) [2] Greening D., “Data Mining on the
yang besar. Web: There’s Gold in that Mountain
c) Data dan pengetahuan yang berubah of Data”, Web Techniques, Januari
terus sehingga pola-pola yang telah 2000,
ditemukan sebelumnya menjadi tidak http://www.webtechniques.com/archives/
berlaku lagi. 2000/01/greening/.
d) Data yang hilang dan banyak salah, [3] Therling K., “An Introduction to Data
hal ini banyak terjadi pada basisdata. Mining: Discovering hidden value in
e) Relasi antar-field basisdata yang your data warehouse”,
kompleks. Saat ini data mining masih http://www.thearling.com.
dirancang untuk relasi yang cukup [4] Fayyad U.M., Piatetsky-Shapiro G.,
sederhana. Smyth P., Uthurusamy R., “Advance
f) Integrasi dengan sistem lain. Sistem in Knowledge Discovery and Data
KDD standalone bisa jadi agak Mining”, MIT Press, Cambridge
kurang bermanfaat. Integrasi yang MA, 1996.
dimaksud bisa terjadi dengan DBMS, [5] Moxon B, “Defining Data Mining”,
kakas-kakas spreadsheet dan DBMS Online, 1996,
visualisasi, serta pencatat sensor http://www.dbmsmag.com/9608d53.html
waktu-nyata. .
[6] Michalski R.S., Bratko I., Kubat M.,
10. Kesimpulan “Machine Learning and Data
Data mining, yang hadir sebagai Mining, Methods and Applications”,
teknologi untuk memanfaatkan John Wiley & Sons Ltd., New York,
ketersediaan data bisnis yang melimpah, 1999.
telah membantu para pelaku bisnis untuk
mempertahankan dan mengembangkan Penulis
bisnis mereka. Akan tetapi, agar Veronica S. Moertini adalah staf pengajar
teknologi data mining dan KDD ini dapat Jurusan Ilmu Komputer, Universitas
dimanfaatkan terus dengan baik, Katolik Parahyangan, Bandung.

56 INTEGRAL, vol. 7 no. 1, April 2002

You might also like