Professional Documents
Culture Documents
c
Tahun 90-an telah melahirkan ³gunungan´ data di bidang ilmu pengetahuan, bisnis dan
pemerintah. Kemampuan teknologi informasi untuk mengumpulkan dan menyimpan berbagai
tipe data jauh meninggalkan kemampuan untuk menganalisis, meringkas dan mengekstraksi
³pengetahuan´ dari data. Metodologi tradisional untuk menganalisis data yang ada, tidak
dapat menangani data dalam jumlah besar.
1. mntuk dapat memahami konsep data mining dan memahami bagaimana data mining
dapat diaplikasikan untuk mengatasi berbagai persoalan nyata.
2. mntuk dapat menganalisis, meringkas, mengekstrasi pengetahuan dari data dengan
cepat.
3. mntuk dapat mengaplikasikan teknik ± teknik berbasis statistic dan non statistic untuk
mengevaluasi hasil ± hasil sesi data mining.
4. mntuk dapat memahami beberapa teknik data mining dan mengatahui kapan masing ±
masing teknik harus digunakan.
c c
c
Data mining didefinisikan sebagai satu set teknik yang digunakan secara otomatis untuk
mengeksplorasi secara menyeluruh dan membawa ke permukaan relasi-relasi yang kompleks
pada set data yang sangat besar.
Selain itu juga ada beberapa definisi dari data mining yang dikenal di buku-buku teks data
mining. Diantaranya adalah :
ï Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.
ï Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks
dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang
biasanya tidak disadari keberadaannya
Menarik untuk diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit
barang berharga dari sejumlah besar material dasar. Dari definisi-definisi itu, dapat dilihat
ada beberapa faktor yang mendefinisikan data mining :
1. data mining adalah proses otomatis terhadap data yang dikumpulkan di masa lalu
2. objek dari data mining adalah data yang berjumlah besar atau kompleks
3. tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola yang
mungkin memberikan indikasi yang bermanfaat
Sejarah Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk
mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan
teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Gambar 1 menunjukkan
bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan
(artificial intelligent), machine learning, statistic, database dan juga information retrieval.
Data Mining merupakan teknologi baru yang sangat berguna untuk membantu perusahaan-
perusahaan menemukan informasi yang sangat penting dari gudang data mereka.
Kakas data mining meramalkan tren dan sifat-sifat perilaku bisnis yang sangat berguna untuk
mendukung pengambilan keputusan penting. Analisis yang diotomatisasi yang dilakukan oleh
data mining melebihi yang dilakukan oleh sistem pendukung keputusan tradisional yang
sudah banyak digunakan.
Data Mining dapat menjawab pertanyaan-pertanyaan bisnis yang dengan cara tradisional
memerlukan banyak waktu untuk menjawabnya. Data Mining mengeksplorasi basis data
untuk menemukan pola-pola yang tersembunyi, mencari informasi pemrediksi yang mungkin
saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi mereka.
Tugas mtama Data Mining Telah disebutkan di ruang lingkup data mining bahwa pada
kebanyakan aplikasinya, gol utama dari data mining adalah untuk membuat prediksi dan
deskripsi. Prediksi menggunakan beberapa variabel atau field-field basis data untuk
memprediksi nilai-nilai variabel masa mendatang yang diperlukan, yang belum diketahui saat
ini.
Prediksi dan deskripsi pada data mining dilakukan dengan tugas-tugas utama yang akan
dijelaskan di bawah ini. Pada setiap tugas akan diberikan pointer ke masalah bisnis yang
dapat diselesaikan (yang telah dibahas pada butir 3). Gambar-gambar yang ada dimisalkan
menunjukkan hubungan antara penghasilan pengecer dan kekurangan pembayaran yang
ditanggung oleh distributor (pemasok barang).
b) Regresi adalah fungsi pembelajaran yang memetakan sebuah unsur data ke sebuah
variabel prediksi bernilai nyata. Aplikasi dari regresisi ini misalnya adalah pada prediksi
volume biomasa di hutan dengan didasari pada pengukuran gelombang mikro penginderaan
jarak jauh (remotely-sensed), prediksi kebutuhan kustomer terhadap sebuah produk baru
sebagai fungsi dari pembiayaan advertensi, dll.
Di sini, cluster ± cluster dapat saling menumpu, sehingga titik-titik data dapat menjadi
anggota lebih dari satu cluster. (Label x dan o pada gambar sebelumnya diubah menjadi +
untuk mengindikasikan bahwa keanggotaan kelas diasumsikan belum diketahui).
f) Pendeteksian Perubahan dan Deviasi berfokus pada penemuan perubahan yang paling
signifikan di dalam data dari nilai-nilai yang telah diukur sebelumnya.
Data mining (penambangan data), sesuai dengan namanya, berkonotasi sebagai pencarian
informasi bisnis yang berharga dari basis data yang sangat besar. msaha pencarian yang
dilakukan dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya.
Dengan tersedianya basis data dalam kualitas dan ukuran yang memadai, teknologi data
mining memiliki kemampuan-kemampuan sebagai berikut:
! "
# $
%
Teknik yang digunakan untuk melaksanakan tugas ini disebut pemodelan. Pemodelan di sini
dimaksudkan sebagai kegiatan untuk membangun sebuah model pada situasi yang telah
diketahui ³jawabannya´ dan kemudian menerapkannya pada situasi lain yang akan dicari
jawabannya
Ada banyak metodologi data mining, tapi di sini hanya akan dibahas yang popular saja.
Bahasan metodologi akan meliputi segi representasi model, evaluasi model dan metodologi
pencarian.
Metodologi ini, yang menggunakan pemisahan (split) univariate, mudah dipahami oleh
pemakai karena bentuk representasinya yang sederhana.. Akan tetapi, batasan-batasan yang
diterapkan pada representasi aturan dan pohon tertentu dapat secara signifikan membatasi
bentuk fungsional dari model. Memberikan ilustrasi mengenai efek penerapan pemisahan,
yang didasarkan pada nilai ambang tertentu, pada variable penghasilan (income) di himpunan
data peminjaman: sangat jelas terlihat bahwa penerapan pemisahan nilai ambang sederhana
sangat membatasi tipe batas (boundary) klasifikasi yang dapat dihasilkan.
Jika ruang model dilebarkan untuk memfasilitasi ekspresi-ekspresi yang lebih umum
(misalnya multivariate hyperplanes pada berbagai sudut), maka model ini menjadi lebih
canggih untuk prediksi. Hanya saja, mungkin akan lebih sulit untuk dipahami pemakai.
Metodologi ini terutama digunakan untuk pemodelan prediksi, keduanya untuk klasifikasi
dan regresi4. Selain itu, dapat digunakan juga untuk pemodelan deskripsi ringkasan.
Non-linier Kedua metodologi ini terdiri dari sekumpulan teknik-teknik untuk memprediksi
kombinasi variabel-variabel masukan yang pas dengan kombinasi linier dan non-linier pada
fungsi-fungsi dasar (sigmoid, splines, polinomial). Contohnya antara lain adalah jaringan
saraf feedforward, metodologi spline adaptif, dan proyeksi regresi pursuit. menunjukkan tipe
boundary keputusan non-linier yang mungkin dihasilkan oleh jaringan saraf . Metodologi
regresi non-linier, walaupun canggih dalam representasinya, mungkin sulit untuk
diinterpretasikan
c. Metodologi Berbasis-sampel
Representasi dari metodologi ini cukup sederhana: gunakan sampel dari basisdata untuk
mengaproksimasi sebuah model, misalnya, prediksi sampel-sampel baru diturunkan dari
properti sampel-sampel yang ³mirip´ di dalam model yang prediksinya sudah diketahui.
Teknik ini misalnya adalah klasifikasi tetangga terdekat, algoritma regresi dan system
reasoning berbasis-kasus. Gambar 6 menunjukkan hasil dari klasifikasi tetangga terdekat
pada himpunan data peminjaman: kelas pada setiap titik di dalam ruang 2-dimensi sama
dengan kelas dari titik terdekat di dalam himpunan data yang ditelaah dan orisinil.
Kekurangan pada metodologi berbasis sampel (misalnya jika dibandingkan dengan berbasis-
pohon) adalah dibutuhkannya metrik jarak yang akurat untuk mengevaluasi jarak antara titik-
titik data.
Jika aturan dan pohon-keputusan memiliki sebuah representasi yang terbatas pada logika
proporsional, pembelajaran relasional (yang juga dikenal sebagai pemrograman logika
induksi) menggunakan bahasa pola yang lebih sederhana dengan logika tingkatsatu.
Pembelajar relasional dengan mudah dapat menemukan formula seperti X=Y. Kebanyakan
riset pada metodologi evaluasi model untuk pembelajaran relasional bersifat logik.
c c#
#
%
Data mining, yang hadir sebagai teknologi untuk memanfaatkan ketersediaan data bisnis yang
melimpah, telah membantu para pelaku bisnis untuk mempertahankan dan mengembangkan
bisnis mereka. Akan tetapi, agar teknologi data mining dan KDD ini dapat dimanfaatkan
terus dengan baik, teknologi ini harus terus dapat ³bekerja´ berdampingan dengan bidang lain
di dunia teknologi informasi yang berkembang dengan sangat cepat. Penyempurnaan di sana-
sini masih terus diperlukan, karena itu peluang riset di bidang ini masih terbuka lebar.