You are on page 1of 38

DAFTAR ISI

BAB 1 ............................................................................................................................................. 1
1.1 Definisi Data Mining............................................................................................................. 1
1.2 Data Warehouse .................................................................................................................... 1
1.3 Operasi Data Mining ............................................................................................................. 1
1.4 Permasalahan dalam Data Mining......................................................................................... 2
1.5 Teknik Data Mining .............................................................................................................. 2
1.6 Tantangan dalam Data Mining .............................................................................................. 3
BAB 2 ............................................................................................................................................. 1
2.1 Definisi Data ......................................................................................................................... 1
2.1.1 Tipe Data ........................................................................................................................ 1
2.2 Kualitas Data ......................................................................................................................... 3
BAB 3 ............................................................................................................................................. 4
3.1 Data Processing: An Overview ........................................................................................... 4
3.2 Data Cleaning ...................................................................................................................... 5
3.3 Data Integration ................................................................................................................... 5
3.4 Data Reduction .................................................................................................................... 6
3.5 Data Transformation and Data Discretization ..................................................................... 7
4.1 Karakteristik Data Warehouse .......................................................................................... 11
4.2 Proses Dalam Data Warehouse ......................................................................................... 11
4.3 Data Warehouse dan Sistem OLTP ................................................................................... 13
4.4 Model Data Warehouse ..................................................................................................... 14
BAB 6 ........................................................................................................................................... 17
6.1 Konsep Dasar Klasifikasi .................................................................................................. 17
6.2 Klasifikasi Bayes ............................................................................................................... 17
6.3 Decission Tree ................................................................................................................... 17
6.4 Artificial Neural Network ................................................................................................. 18

1
6.5 Support Vector Machine ................................................................................................... 19
6.6 Nearest Neighbor Rule ...................................................................................................... 19
6.7 Klasifikasi Berbasis Fuzzy Logic ...................................................................................... 20
6.8 Evaluation Method ............................................................................................................ 21
6.9 Referensi: ..............................................................................Error! Bookmark not defined.
BAB 7 ........................................................................................................................................... 22
7.1 Konsep QAS...................................................................................................................... 22
7.2 Arsitektur QAS.................................................................................................................. 22
7.3 Implementasi QAS ............................................................................................................ 23
BAB 8 ........................................................................................................................................... 24
8.1 Konsep NLP ...................................................................................................................... 24
8.2 Konsep Text Mining ......................................................................................................... 26
8.3 Information Extraction ...................................................................................................... 28
8.4 Information Retrieval ........................................................................................................ 29
DAFTAR PUSTAKA ................................................................................................................... 31

2
3
BAB 1
PENDAHULUAN

1.1 Definisi Data Mining

Istilah data mining dapat diartikan dengan menguraikan penemuan pengetahuan di dalam
database. Data mining merupakan proses yang menggunakan teknik statistik, matematika,
kecerdasan buatan, dan machine learning untuk mengekstrasi, mengenali pola yang penting, dan
mengidentifikasi informasi yang bermanfaat dalam berbagai database besar.

Dalam Knowledge Discovery of Database (KDD) data mining berfungsi untuk


mengkonversi raw data ke dalam informasi yang berguna. Hasil dari data mining sering
digunakan untuk menyelesaikan permasalahan melalui Decision Support System (DSS).

1.2 Data Warehouse

Data warehouse adalah tempat penyimpanan informasi yang dikumpulkan dari berbagai
sumber, disimpan di dalam skema terpadu, dan biasanya berada di satu tempat. Data warehouse
dibangun melalui proses data cleaning, integrasi data, transformasi data, data loading, dan
penyegaran data secara berkala.

1.3 Operasi Data Mining

Operasi data mining menurut Fayyad, 1996:

1. Data Selection: Pemilihan data dari data operasional sebelum tahap penggalian
data dimulai. Data hasil seleksi ini kemudian digunakan untuk proses data mining,
disimpan dalam berkas, terpisah dari database operasional.

2. Data Cleaning: Proses pembuangan duplikasi data, memeriksa data yang


inkonsisten, dan memperbaiki kesalahan pada data, dan memperkaya data yang
sudah ada dengan data atau informasi lain yang relevan.

1
3. Transformation: Proses coding dari data yang telah dipilih menjadi data yang
sesuai untuk proses data mining.
4. Data Mining: Proses pencarian pola atau informasi menggunakan teknik tertentu.
5. Interpretation/ Evaluation: Penerjemahan pola-pola yang dihasilkan dari data
mining dan pemeriksaan pola/informasi agar sesuai dengan fakta atau hipotesis
sebelumnya.

1.4 Permasalahan dalam Data Mining


1. Mining Methodology
 Mining different kinds of knowledge in databases: tugas-tugas dalam data
mining dapat dikerjakan menggunakan database yang sama dengan cara
yang berbeda dan berbagai macam teknik data mining.
 Mining knowledge in multidimensional: pencarian pola yang menarik dalam
set data besar di antara kombinasi dimensi (atribut) pada berbagai tingkat
abstraksi.
 Data mining—an interdisciplinary effort: peningkatan kekuatan data mining
secara substansial dengan mengintegrasikan berbagai disiplin ilmu.
 Boosting the power of discovery in a networked environment: objek data
yang saling berkaitan dari lingkungan yang saling terhubung seperti web,
database relations, data, atau dokumen dapat digunakan dalam peningkatan
penemuan.
 Handling uncertainty, noise, or incompleteness data: beberapa contoh teknik
yang dapat mengatasi masalah ini adalah pembersihan data, preprocessing
data, deteksi dan penghapusan pencilan, dan penalaran ketidakpastian.
 Pattern evaluation: teknik untuk menilai ketertarikan pola, dan
memperkirakan nilai pola berdasarkan keinginan pengguna.

1.5 Teknik Data Mining

2
1. Classification: Pengelompokkan data sesuai fungsi yang menjelaskan atau
membedakan konsep atau kelas data. Beberapa metode classification yaitu decision
tree, neural network, fuzzy.

2. Clustering: Pengelompokkan data yang memiliki kemiripan atribut, dimana


kemiripan data dalam satu kelompok bernilai maksimal dan kemiripan data dalam
kelompok lain akan bernilai minimal.

3. Association Rule Discovery: Menemukan atribut yang muncul dalam satu waktu.

1.6 Tantangan dalam Data Mining


1. Menangani Data yang Kompleks
Data yang kompleks muncul karena adanya keberagaman aplikasi, sehingga
tidak mungkin bila me-mining seluruh data. Perlunya sistem data mining yang
hanya mengekstrak jenis data tertentu.
2. Mining dynamic, networked, and global data repositories:
Mengekstrak jaringan informasi raksasa dan saling terkait dapat membantu
mengungkapkan lebih banyak pola dan informasi dalam rangkaian data heterogen
daripada yang dapat ditemukan dari sekumpulan kecil penyimpanan data yang
terisolasi sehingga menimbulkan suatu tantangan bagi data mining.

3
BAB 2

DATA

2.1 Definisi Data


Secara etimologi, data merupakan bentuk jamak dari kata datum, yang berarti pernyataan
atau nilai dari suatu kenyataan. Pernyataaan atau nilai ini dapat berupa angka (numeric), karakter
(text), gambar (image) atau suara (sound).
Data merupakan sekumpulan dari objek data. Dalam database, objek data mewakili entitas.
Objek data dapat berupa pelanggan, menyimpan barang, dan penjualan. Objek data biasanya
dijelaskan oleh atribut atau tipe data.

2.1.1 Tipe Data


Atribut adalah bagian data, yang mewakili karakteristik atau fitur dari objek data. Jenis
atribut ditentukan oleh himpunan nilai yang mungkin muncul, yaitu nominal, biner, ordinal, atau
numerik.

1) Atribut Nominal

Nilai-nilai atribut nominal merupakan simbol atau nama-nama dari suatu benda.
Setiap nilai adalah kategori, kode, atau status dan sebagainya sehingga atribut
nominal juga disebut sebagai kategorikal. Nilai-nilai di dalamnya tidak memiliki
urutan. Nilai-nilai tersebut biasa disebut juga dengan enumerasi dalam bidang
komputer.

Contoh: warna_rambut menjelaskan objek sesorang dengan nilai dari


warna_rambut adalah hitam, cokelat, dan putih. Walaupun nilai dari atribut
nominal merupakan nama-nama benda, nilai dapat berupa angka. Misalnya untuk
warna hitam bernilai 1, cokelat bernilai 2, dan putih bernilai 3.

2) Atribut Biner

1
Atribut biner adalah atribut nominal yang hanya berisi dua jenis nilai saja: 0
atau 1, dimana 0 biasanya berarti bahwa atribut tidak ada, dan 1 berarti bahwa itu
ada. Atau berisi jawaban true atau false. Atribut yang bernilai true atau false
disebut sebagai atribut Boolean.

Contoh: dalam kasus medis, nilai 1 berarti pasien merupakan perokok, nilai 0
berarti pasien tidak merokok.

3) Atribut Ordinal

Atribut ordinal adalah atribut dengan nilai-nilai yang memiliki urutan atau
peringkat, tetapi besaran nilai-nilai yang berurutan tidak diketahui.

Contoh: dalam survey biasanya menyertakan nilai seperti 0: sangat tidak puas,
1: agak tidak puas, 2: netral, 3: puas, dan 4: sangat puas.

4) Atribut Numerik

Atribut numerik adalah atribut yang nilainya bisa diukur, dan ditampilkan
dalam bentuk integer atau desimal.

a. Atribut Interval-Scaled

Atribut ini diukur dengan basis skala unit dengan ukuran yang sama.
Nilai-nilainya memiliki urutan dan bisa berupa positif, 0, atau negatif.
Nilainya pun dapat dihitung selisihnya.

Contoh: dalam kalender 2002 dan 2010 selisihnya adalah 8.

b. Atribut Rasio-Scaled

Atribut ratio-Scaled adalah atribut numerik dengan titik nol absoulut.


Nilai dapat diurutkan, dihitung perkalian dan perbandingan, serta dapat
menghitung mean, median, dan modus.

5) Atribut Diskrit vs Atribut Kontinu

 Atribut diskrit adalah atribut yang memiliki himpunan nilai-nilai yang


berhingga (finite) atau nilai-nilai tak-hingga (infinite) tetapi yang bisa

2
dihitung (countably infinite), dan dapat ditampilkan dalam bentuk integer
atau bukan.

 Atribut kontinu adalah atribut yang bukan merupakan atribut diskrit. Atribut
kontinu biasanya ditampilkan sebagai variabel floating-point (desimal).

2.2 Kualitas Data

Berikut beberapa indikator data dapat dikatakan berkualitas:

 Accuracy: data memiliki nilai yang akurat; tidak keliru dan tidak menyesatkan.

 Completeness: lengkapnya suatu data.

 Consistency: nilai sebuah field data akan sama semua dalam berbagai berkas.

 Timeliness: merepresentasikan waktu dari data yang dimasukkan.

 Believability: data dipercaya oleh pengguna.

 Interpretability: data mudah dipahami.

3
BAB 3

DATA PREPOCESSING

3.1 Data Processing: An Overview

Untuk membuat keputusan yang baik, harus menggunakan data yang baik pula (lengkap,
benar, konsisten, terintegrasi). Sebelum melakukan data mining perlu dilakukan pre processing
untuk memastikan data yang akan diolah di data mining adalah data yang baik. data yang
kualitasnya kurang baik, dapat disebabkan oleh beberapa hal yaitu:

 Tidak lengkap, data kolom tertentu tidak ada atau banyak data yang hilang .
 Noisy, adanya data yang lain sendiri dibandingkan dengan data yang lain (random error
atau varian).
 Tidak konsisten, tidak sesuai dengan rule tertentu.

Ketidaklengkapan ini dapat disebabkan oleh beberapa hal yaitu:


 Kesalahan manusia atau mesin pada saat entry, misalnya karena tidak ada type checking
pada saat input, atau data kolom a dimasukkan ke kolom b.
 Kesalahan pada transmisi data, pada saat menyimpan data ke server, koneksi terputus
sehingga hanya beberapa data saja yang berhasil disimpan.
 Memang tidak di entry bersama data lain karena dianggap tidak penting, misalnya history
hargabarang yang tidakdisimpan, sehingga tidak dapat dilihat pergerakan harga barang
selama beberapa periode.
 Dihapus karena tidak konsisten dengan data yang lain, misalnya kode sub organisasi yang
berbeda-beda format, padahal kode tersebut dapat dipakai untuk identifikasi data.
 Hanya berupa data agregat, misal hanya dicatat jumlah total belanja, sehingga subtotal
per jenis barang tidak dapat diketahui atau subtotal nilai belanja barang per jenis barang
dicatat, tapi jumlah per jenis barang tidak dicatat sehingga tidak dapat diketahui trend
jumlah pembelian atau harga satuannya.

4
3.2 Data Cleaning

Data cleaning bertujuan untuk memperkecil jumlah data yang hilang atau berbeda, dapat
dilakukan dengan langkah sebagai berikut.

1. Mengisi data yang hilang dengan default value.2.


2. Mengisi data secara manual, misal: trace ulang transaksi untuk mengetahui data yang
hilang.
3. Mengisidengan rata-rata atribut tersebut, misal: gaji pegawai yang kosong diisi dengan
rata-rata gaji pegawai.
4. Mengisi dengan rata-rata suatu atribut untuk kelas yang sama, misal: gaji pegawai yang
kosong diisi dengan rata-rata gaji pegawai yang memiliki jabatan yang sama.
5. Menggunakan regresi, prediksi berdasarkan dua variabel yang lain, misal: mengisi gaji
pegawai yang kosong dengan nilai prediksi dengan regresi berdasarkan jabatan dan lama
masa kerja.
6. Menghilangkan baris yang mengandung data yang hilang.
7. Binning by means, menggunakan rata-rata pengelompokkan. misal: sorted data dibagi
menjadi beberapa kelompok, dan dicari rata-rata masing2 kelompok untuk mengganti
setiap data yang ada, sesuai dengan kelompoknya. misal data dari kelompok A diganti
dengan a rata-rata kelompok A.
8. Binning by range boundries, menggunakan batas terdekat suatu kelompok data, misal:
sorted data dibagi menjadi beberapa kelompok, di cari nilai minimum dan maximum dari
masing-masing kelompok, lalu gantikan tiap nilai di suatu kelompok dengan batas atas
atau batas bawah kelompoknya, sesuai dengan yang paling dekat.
9. Mencari dan menghilangkan outlier dengan pengelompokan atau regresi.

3.3 Data Integration

5
Integrasi data merupakan proses mengkombinasikan dua atau lebih set data agar
mempermudah dalam berbagi dan analisis, dalam rangka mendukung manajemen informasi di
dalam sebuah lingkungan kerja. Integrasi data menggabungkan data dari berbagai sumber
database yang berbeda ke dalam sebuah penyimpanan seperti gudang data (data warehouse).

Alasan perlunya dilakukan integrasi data adalah:

 Data yang sama (misalnya: data penduduk) dapat dipakai bersama antar bagian
organisasi (antar instansi).
 Data suatu instansi dapat dipakai bersama oleh instansi-instansi lain yang
memerlukan (tidak perlu ada duplikasi data dalam suatu lingkungan organisasi).
 Meskipun fokus integrasi adalah data, tapi perlu juga integrasi hal-hal lain yang
terkait.
 Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data
bisa menghasilkan ouput/keluaran yang menyimpang dan bahkan menyesatkan
pengambilan keputusan nantinya.

Syarat integrasi data dapat dipenuhi dengan berbagai cara seperti konsisten dalam penamaan
variabel, konsisten dalam ukuran variabel, konsisten dalam struktur pengkodean dan konsisten
dalam atribut fisik dari data. Masalah-masalah yang ada pada integrasi data yaitu heterogenitas
data, otonomi sumber data, kebenaran dan kinerja query/permintaan.
Integrasi data membuat penyatuan pandangan dari data bisnis. Pandangan ini bisa dibuat
dengan bermacam teknik, yang akan kita paparkan selanjutnya. Bagaimanapun juga, integrasi
data bukanlah jalan satu-satunya untuk data bisa digabungkan melalui sebuah perusahaan.

3.4 Data Reduction

Teknik ini dilakukan dengan cara mengurangi jumlah data sehingga resource yang
digunakan lebih sedikit, sehingga prosesnya dapat lebih cepat dilakukan dengan langkah sebagai
berikut:

1. Sampling/generalisasi.

6
2. Agregasi, seperti agregasi padat ransformasi. Data ribuan memiliki volume byte
yang lebih kecil dari pada data jutaan.
3. Mengurangi atribut yang tidak perlu (korelasi yang rendah terhadap keseluruhan
data)
4. Kompresi data.

3.5 Data Transformation and Data Discretization

Ada 7 (tujuh) tahapan proses data mining, dimana 4 (empat) tahap pertama disebut juga
dengan data preprocessing (terdiri dari data cleaning, data integration, data selection, dan data
transformation), yang dalam implementasinya membutuhkan waktu sekitar 60% dari keseluruhan
proses. Dalam data transformation, terdapat beberapa pendekatan/teknik untuk melakukan
transformasi data, yaitu smoothing, generalization, normalization, aggregation, dan attribute
construction.

A. Smoothing

Smoothing dilakukan jika data mengandung noise/nilai yang tidak valid terhadap data
yang di-mining. Untuk mengatasinya harus dilakukan smoothing (dengan memperhatikan
nilai-nilai tetangga). Berikut teknik atau metode untuk smoothing:

 Binning Metode binning dilakukan dengan memeriksa “nilai tetangga”, yaitu nilai-
nilai yang ada disekelilingnya. Berikut adalah langkah-langkah metode binning: 1.
Data diurutkan dari yang terkecil sampai dengan yang terbesar. 2. Data yang sudah
urut kemudian dipartisi ke dalam beberapa bin. Teknik partisi ke dalam bin ada 2
(dua) cara: equal-width (distance) partitioning dan equaldepth (frequency)
partitioning. 3. Dilakukan smoothing dengan tiga macam teknik, yaitu: smoothing by
binmeans, smoothing by bin-medians, dan smoothing by bin-boundaries.
 Clustering Digunakan untuk menyingkirkan outliers (keluar jauh-jauh dari
cluster/centroid), data yang memiliki noise. Algoritma k-Means yang merupakan
kategori metode partitioning dapat digunakan jika ukuran database tidak terlalu besar.
Algoritma ini didasarkan pada nilai tengah dari objek yang ada dalam cluster.
Algoritma k-Means meminta inputan parameter k, dan mempartisi satu set n objek ke

7
dalam k cluster sehingga menghasilkan tingkat kemiripan yang tinggi antar objek
dalam kelas yang sama (intra-class similarity) dan tingkat kemiripan yang paling
rendah antar objek dalam kelas yang berbeda (inter-class similarity). Kemiripan
cluster diukur dengan menghitung nilai tengah dari objek yang ada di dalam cluster.
 Regression Linear regression memodelkan sebuah random variable, Y (disebut
response variable) sebagai sebuah fungsi linier dari random variable yang lain, X
(disebut sebagai predictor variable), dengan persamaan empiris: X Y βα += , dimana
α dan β adalah koefisien regresi. Koefisien ini dapat dihitung menggunakan metode
least squares dengan persamaan sebagai berikut: ()∑ ∑ ∑∑ ∑ − − = 2 2 ii iiii xxn
yxyxn β dan x y βα −= , dimana x adalah nilai ratarata dari x1, x2, …, xi dan y adalah
nilai rata-rata dari y1, y2, …, yi.

B. Generalization

Generalization atau generalisasi adalah ketika data level rendah (low-level data) diganti
dengan konsep yang lebih tinggi, yaitu dengan melakukan diskretisasi. Teknik diskretisasi
dapat digunakan untuk mereduksi sekumpulan nilai yang terdapat pada atribut continuous,
dengan membagi range dari atribut ke dalam interval.

Proses diskretisasi secara umum terdiri dari 4 tahapan, yaitu:

1. Sorting, melakukan sorting nilai atribut continuous yang mau didiskretisasi.


2. Memilih “cut-point”, banyak fungsi evaluasi yang dapat digunakan seperti binning
dan pengukuran entropy.
3. Splitting, dilakukan evaluasi cut-point yang ada dan pilih satu yang terbaik dan
lakukan split range nilai atribut continuous ke dalam dua partisi. Diskretisasi berlanjut
untuk tiap partisi sampai kondisi berhenti tercapai.
4. Stopping criterion, diperlukan untuk menghentikan proses diskretisasi.

C. Normalization

Normalization atau normalisasi adalah proses transformasi dimana sebuah atribut


numerik diskalakan dalam range yang lebih kecil seperti -1.0 sampai 1.0, atau 0.0 sampai 1.0.

Ada beberapa metode/teknik yang diterapkan untuk normalisasi data, diantaranya:


8
 Min-max Normalization: Min-max normalization memetakan sebuah value v dari
atribut A menjadi v’ ke dalam range [new_minA, new_maxA] berdasarkan rumus
 Z-Score Normalization: Disebut juga zero-mean normalization, dimana value dari
sebuah atribut A dinormalisasi berdasarkan nilai rata-rata dan standar deviasi dari
atribut A.
 Normalization by Decimal Scaling: Normalisasi yang diperoleh dengan melakukan
penggeseran titik desimal dari value sebuah atribut A. Jumlah titik desimal yang
digeser tergantung dari nilai absolut maksimum dari atribut A.

D. Aggregation

Adalah operasi summary (peringkasan) diaplikasikan pada data numerik. Misalnya pada
data penjualan harian digabungkan untuk menghitung pendapatan perbulan dan pertahun
dengan dirata-rata atau ditotal. Langkah ini dilakukan dengan memanfaatkan operator data
cube (operasi roll up/meringkas).

E. Attribute/Feature Construction

Pada attribute construction, atribut baru dibentuk dari atribut yang sudah ada dan
ditambahkan bersama atribut lainnya untuk membantu meningkatkan ketelitian/ketepatan dan
pemahaman struktur dalam high-dimensional data. Contohnya, mau menambahkan atribut
luas berdasarkan atribut tinggi dan lebar. Atau, atribut lama kerja jadi dosen dan usia bisa
digantikan dengan senioritas, yunioritas, dan orientasi.

9
10
BAB 4

DATA WAREHOUSE

4.1 Karakteristik Data Warehouse

Menurut Inmon (2002), yang dikenal sebagai “Bapak Data Warehouse”, mendefinisikan
data warehouse sebagai berikut : “A data warehouse is a subject-oriented, integrated, nonvolatile,
and time-variant collection of data in support of management’s decisions”.

Ada beberapa kata kunci yang dapat dijelaskan dari definisi di atas yaitu :

1. Subject-oriented: Data warehouse diogranisir berdasarkan subyek yang akan dicapai


dengan menggali informasi yang terdapat pada database suatu perusahaan. Contohnya
adalah pembuatan data warehouse untuk analisis keuntungan transaksi penjualan pada
tahun 2012.

2. Integrated: Data warehouse terintegrasi dari berbagai data operasional yang berbeda
dalam suatu sumber database.

3. Nonvolatile: Data dalam data warehouse tidak dapat berubah secara real-time tetapi dapat
diperbaharui secara periodik.

4. Time-variant: Data dalam data warehouse sangat bergantung pada keputusan waktu
pengambilan. Contohnya adalah data warehouse yang bersifat bulanan atau tahunan.

4.2 Proses Dalam Data Warehouse

Arsitektur data warehouse:

11
Dari gambar di atas terlihat bahwa data warehouse merupakan kumpulan dari sebuah data
operasional atau sumber data lain yang terseleksi dengan proses ETL (Extraction Transformation
Loading) untuk kemudian dilanjutkan pada 3 tahap pemanfaatan data warehouse (Olap Analysis,
Reporting, dan Data Mining).

Salah satu proses yang paling penting dalam pembuatan data warehouse adalah proses ETL.
Oleh karena berikut akan dijelaskan mengenai rangkaian proses ETL:

1. Extraction: Proses ektraksi merupakan proses pengambilan data dari satu database atau
beberapa database yang berbeda, text files, dan sumber data yang lainnya. Proses
ektraksi mencakup tugas memvalidasi data dan membuang data yang tidak cocok
dengan pola yang diharapkan. Sehingga tidak seluruh data yang ada dalam data
operasonal dimasukkan, tetapi hanya bagian-bagian yang dibutuhkan saja.

2. Transformation: Proses transformasi data merupakan proses mengubah data dari format
operasional menjadi format data warehouse. Proses transformasi berupa tugas-tugas
seperti mengkonversi tipe data, melakukan beberapa perhitungan, penyaringan data
yang tidak relevan, dan meringkasnya. Proses transformasi dibutuhkan untuk memenuhi
kebutuhan bisnis suatu perusahaan.

3. Loading: Proses loading merupakan tahap akhir dalam pengisian data warehouse. Tujuan
dari proses ini adalah untuk memuat data yang sudah terseleksi dari proses transformasi
ke dalam data warehouse.

12
4.3 Data Warehouse dan Sistem OLTP

Online Transaction Processing atau sering dikenal dengan OLTP adalah sistem yang
berorientasi proses yang memproses transaksi secara langsung melalui komputer yang terhubung
dalam jaringan.

Misalnya biasa digunakan pada sebuah supermarket, kasir menggunakan mesin dalam
proses transaksinya.

OLTP mempunyai karakteristik beberapa user dapat creating, updating, retrieving untuk
setiap record data, OLTP sangat optimal untuk updating data.

Perbedaan Data Warehouse OLTP

Karakteristik Proses penyajian informasi Proses operasional

Orientasi Analisis Transaksi

Struktur data Dioptimasi untuk query, Dioptimasi untuk transaksi,


denormalisasi normalisasi

Tipe data History, hanya akurat pada Bernilai sekarang atau up-
saat update to-date

Frekuensi akses Sedang-rendah Tinggi

Tipe akses Read Read, update, delete

Penggunaan Update secara periodic Update secara terus-


menerus

Pengguna Lebih sedikit Banyak

Jumlah record yang diakses Jutaan Ribuan

Desain database Data multidimensi Model E-R

13
Ukuran database 100 GB hingga TB 100 MB hingga GB

4.4 Model Data Warehouse

Model yang sering digunakan di dalam data warehouse saat ini adalah skema bintang dan
skema snowflake. Masing-masing model tentunya memiliki kelebihan dan kekurangannya
masing-masing. Dalam artikel ini dijelaskan dengan detil mengenai perbedaan kedua skema
tersebut. Selain itu dijelaskan pula kondisi-kondisi yang sesuai di dalam mengimplementasikan
skema bintang maupun skema snowflake.

Skema bintang dan skema snowflake adalah sarana untuk mengorganisir data mart – data
mart atau gudang-gudang data dengan menggunakan basis data relasional. Kedua skema tersebut
menggunakan tabel-tabel dimensi untuk mendeskripsikan data-data yang terdapat di dalam tabel
fakta.

a. Skema Bintang

Karakteristik utama dari skema bintang adalah bahwa tabel dimensinya tidak
dinormalisasi. Pada model di atas, tabel fakta fact_sales (warna merah muda)berisi data-
data yang diekstrakdari database operasional. Sedangkan tabel yang berwarna biru muda
adalah tabel dimensi. Pada gambar di atas terdapat lima tabel dimensi yaitu
dim_sales_type, dim_store, dim_employee, dim_product, dan dim_time.
Dari model ini, kita dapat dengan mudah melihat mengapa skema ini disebut ‘skema
bintang’, karena model tersebut terlihat seperti bintang, dengan tabel dimensi yang
mengelilingi tabel fakta.

14
b. Skema Snowflake
Skema snowflakejuga menyimpan data yang sama seperti pada skema bintang. Tabel
fakta yang digunakan pada skema bintang maupun pada skema snowflake berisi field-field
yang sama. Perbedaan utama antara skema bintang dan skema snowflake adalah semua tabel
dimensi pada skema snowflake telah dinormalisasi. Proses normalisasi tabel-tabel dimensi
pada skema snowflake ini disebut dengan proses snowflaking,sehingga tampilan tabel-tabel
pada skema snowflake bentuknya menyerupai snowflake.

15
16
BAB 6

KLASIFIKASI

6.1 Konsep Dasar Klasifikasi

Klasifikasi adalah suatu pengelompokan data dimana data yang digunakan tersebut
mempunyai kelas label atau target.

Klasifikasi digunakan untuk memprediksi label clas (diskrit atau kontinu) serta
mengklasifikasi data (membangun model) yang didasarkan pada data training dan nilai label
class dalam mengklasifikasikan atribut dan menggunakannya saat mengklasifikasikan data baru.

6.2 Klasifikasi Bayes

Model Naïve Bayes adalah klasifikasi statistikk yang dapat digunakan untuk memprediksi
suatu kelas. Model Naïve Bayes dapat diasumsikan bahwa efek dari suatu nilai atribut sebuah
kelas yang diberikan adalah bebas dari atribut-atribut lain. Kelebihan yang dimiliki oleh Naïve
Bayes adalah dapat menangani data kuantitatif dan data diskrit, Naïve Bayes kokoh terhadap
noise, Naïve Bayes hanya memerlukan sejumlah kecil data pelatihan untuk mengestimasi
parameter yang dibutuhkan untuk klasifikasi, Naïve Bayes dapat menangani nilai yang hilang
dengan mengabaikan instansi selama perhitungan estimasi peluang, Naïve Bayes cepat dan
efisiensi ruang.

6.3 Decission Tree

Decision tree merupakan salah satu metode klasifikasi yang menggunakan representasi
struktur pohon (tree) di mana setiap node merepresentasikan atribut, cabangnya
merepresentasikan nilai dari atribut, dan daun merepresentasikan kelas. Node yang paling atas
dari decision tree disebut sebagai root. Decision tree merupakan metode klasifikasi yang paling

17
populer digunakan. Selain karena pembangunannya relatif cepat, hasil dari model yang dibangun
mudah untuk dipahami.

Pada decision tree terdapat 3 jenis node, yaitu:

a. Root Node, merupakan node paling atas, pada node ini tidak ada input dan bisa
tidak mempunyai output atau mempunyai output lebih dari satu.

b. Internal Node , merupakan node percabangan, pada node ini hanya terdapat satu
input dan mempunyai output minimal dua.

c. Leaf node atau terminal node , merupakan node akhir, pada node ini hanya terdapat
satu input dan tidak mempunyai output.

6.4 Artificial Neural Network

Artificial Neural Network bekerja dnegan cara meniru otak manusia dengan menggunakan
'neuron' buatan untuk membandingkan atribut satu sama lain dan mencari koneksi yang kuat.
Dengan mengambil nilai atribut, memprosesnya, dan menghasilkan node yang terhubung oleh
neuron, model penambangan data ini dapat menawarkan prediksi dan persentase keyakinan,
bahkan di tengah ketidakpastian dalam beberapa data. Jaringan syaraf buatan tidak terbatas
mengenai rentang nilai seperti beberapa metodologi lainnya.

Dalam representasi grafisnya, jaring neural ditarik menggunakan node dan neuron. Semakin
tebal atau semakin gelap garis antara simpul, semakin kuat koneksi yang diwakili oleh neuron
itu. Neuron yang lebih kuat menyamakan kemampuan yang lebih kuat dengan atribut itu untuk
diprediksi. Meskipun tampilan grafis bisa sulit dibaca, yang sering dapat terjadi ketika ada
sejumlah besar atribut, komputer dapat membaca jaringan dan menerapkan model untuk
mencetak data untuk membuat prediksi. Persentase keyakinan dapat lebih lanjut
menginformasikan nilai prediksi observasi, seperti yang diilustrasikan dengan atlet hipotetis
kami, Lance Goodwin dalam bab ini. Antara prediksi dan persentase keyakinan, kita dapat
menggunakan jaringan syaraf untuk menemukan pengamatan menarik yang mungkin tidak jelas,
tetapi masih mewakili peluang bagus untuk menjawab pertanyaan atau memecahkan masalah.

18
6.5 Support Vector Machine

Support Vector Machine adalah model pembelajaran yang diawasi dengan algoritma
pembelajaran terkait yang menganalisis data yang digunakan untuk klasifikasi dan analisis
regresi.

Santoso (2007): adalah suatu teknik untuk melakukan prediksi, baik dalam kasus klasifikasi
maupun regresi. SVM berada dalam satu kelas dengan Artificial Neural Network (ANN) dalam
hal fungsi dan kondisi permasalahan yang bisa diselesaikan. Keduanya masuk dalam
kelas supervised learning.

6.6 Nearest Neighbor Rule

Algoritma k-nearest neighbor (k-NN atau KNN) adalah sebuah metode untuk melakukan
klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan
objek tersebut. K-Nearest Neighbor berdasarkan konsep ‘learning by analogy’. Data learning
dideskripsikan dengan atribut numerik n-dimensi. Tiap data learning merepresentasikan sebuah
titik, yang ditandai dengan c, dalam ruang n-dimensi. Jika sebuah data query yang labelnya tidak
diketahui diinputkan, maka KNearest Neighbor akan mencari k buah data learning yang jaraknya
paling dekat dengan data query dalam ruang n-dimensi. Jarak antara data query dengan data
learning dihitung dengan cara mengukur jarak antara titik yang merepresentasikan data query
dengan semua titik yang merepresentasikan data learning dengan rumus Euclidean Distance.
Pada fase training, algoritma ini hanya melakukan penyimpanan vektorvektor fitur dan
klasifikasi data training sample. Pada fase klasifikasi, fitur – fitur yang sama dihitung untuk
testing data (klasifikasinya belum diketahui). Jarak dari vektor yang baru ini terhadap seluruh
vektor training sample dihitung, dan sejumlah k buah yang paling dekat diambil. Titik yang baru
klasifikasinya diprediksikan termasuk pada klasifikasi terbanyak dari titik – titik tersebut. Nilai k
yang terbaik untuk algoritma ini tergantung pada data; secara umumnya, nilai k yang tinggi akan
mengurangi efek noise pada klasifikasi, tetapi membuat batasan antara setiap klasifikasi menjadi
lebih kabur. Nilai k yang bagus dapat dipilih dengan optimasi parameter, misalnya dengan
menggunakan cross-validation. Kasus khusus di mana klasifikasi diprediksikan berdasarkan data
pembelajaran yang paling dekat (dengan kata lain, k = 1) disebut algoritma nearest neighbor.
Ketepatan algoritma k-NN ini sangat dipengaruhi oleh ada atau tidaknya fitur-fitur yang tidak
19
relevan, atau jika bobot fitur tersebut tidak setara dengan relevansinya terhadap klasifikasi. Riset
terhadap algoritma ini sebagian besar membahas bagaimana memilih dan memberi bobot
terhadap fitur, agar performa klasifikasi menjadi lebih baik. K buah data learning terdekat akan
melakukan voting untuk menentukan label mayoritas. Label data query akan ditentukan
berdasarkan label mayoritas dan jika ada lebih dari satu label mayoritas maka label data query
dapat dipilih secara acak di antara label-label mayoritas yang ada.

6.7 Klasifikasi Berbasis Fuzzy Logic

Logika Fuzzy adalah peningkatan dari logika Boolean yang berhadapan dengan
konsep kebenaran sebagian. Saat logika klasikmenyatakan bahwa segala hal dapat diekspresikan
dalam istilah biner (0 atau 1, hitam atau putih, ya atau tidak), logika fuzzy menggantikan
kebenaran boolean dengan tingkat kebenaran.

Logika Fuzzy memungkinkan nilai keanggotaan antara 0 dan 1, tingkat keabuan dan juga
hitam dan putih, dan dalam bentuk linguistik, konsep tidak pasti seperti "sedikit", "lumayan", dan
"sangat".

Teori ini membantu pekerjaan tingkat abstraksi tinggi yang menawarkan sarana untuk
pengukuran data yang tidak tepat.

Contohnya: dalam pengaplikasian kartu kredit, perusahaan memberikan batas pennggunaan


kartu kredit hanya untuk orang yang berpenghasilan $50.000 sehingga:

IF (years_employed ≥2) AND (income ≥ 50,000) THEN credit = approved.

Tetapi ini tidak adil bagi seseorang yang mendapatkan penghasilan $49.000 sehingga bila
menggunakan metode fuzzy logic:

20
6.8 Evaluation Method

Metode evaluasi adalah tolak ukur untuk memeriksa efisiensi dan kinerja model apa pun.
Evaluasi penting untuk memahami kualitas model atau teknik untuk memperbaiki parameter
dalam proses pembelajaran berulang dan untuk memilih model atau teknik yang paling dapat
diterima dari seperangkat model atau teknik yang diberikan. Ada beberapa kriteria yang dapat
menjadi penting juga, seperti kompleksitas komputasional atau komprehensibilitas model.
Langkah-langkah yang paling banyak digunakan untuk mengevaluasi kinerja teknik yang
digunakan untuk melaksanakan tugas data mining yang berbeda.

21
BAB 7

QUESTION ANSWERING SYSTEM (QAS)

7.1 Konsep QAS

Question answering system (QA system) adalah sistem yang mengijinkan user menyatakan
kebutuhan informasinya dalam bentuk natural language question (pertanyaan dalam bahasa
alami), dan mengembalikan kutipan teks singkat atau bahkan frase sebagai jawaban.
Ketersediaan sumber informasi yang luas dan bervariasi, serta adanya perkembangan yang pesat
dari teknik Natural Language Processing (NLP), Information Extraction (IE), dan Information
Retrieval (IR) sangat mempengaruhi perkembangan dari QA system, yang mana dulunya hanya
dapat menjawab pertanyaan-pertanyaan yang terbatas pada suatu bidang (domain) tertentu
dengan berdasarkan pada sumber informasi yang terstruktur seperti database, hingga kini dapat
menjawab berbagai jenis pertanyaan dengan bersumber pada informasi dari sebuah koleksi teks
yang tidak terstruktur. Dilihat dari ruang lingkup permasalahan, QAS dapat dibagi menjadi dua
jenis yaitu QAS dengan domain terbuka (pada domain ini semua permasalahan dapat dibahas
melalu proses tanya jawab pada sistem) dan QAS dengan domain terbatas/ tertutup (pada domain
ini hanya membahas satu topik saja misalnya kesehatan, olahraga, politik dan sebagainya).

7.2 Arsitektur QAS

Umumnya arsitektur question answering system yang berbasis teks dibangun atas enam
tahapan proses, yaitu analisis pertanyaan, preprocessing koleksi dokumen, pemilihan kandidat
dokumen, analisis kandidat dokumen, ekstraksi jawaban, dan pemberian respon. Aplikasi-
aplikasi QA system (baik yang dapat diakses melalui internet maupun tidak) yang dikembangkan
dengan ciri khasnya masing-masing memiliki urutan proses yang tidak jauh berbeda satu dengan
lainnya. Jawaban yang dikembalikan oleh sebuah QA system sebagai respon terhadap pertanyaan
perlu dievaluasi untuk menilai performansi sistem.

22
7.3 Implementasi QAS

Berdasarkan penelitian berjudul “Implementasi Question Answering System (QAS) dengan


Metode Rule-Based Untuk Temu Kembali Informasi Berbahasa Indonesia” yang dibangun oleh
Ikhsani dan Nafi tahun 2006, Question Answering System (QAS) dapat diterapkan untuk
membangun sistem temu kembali jawaban atas pertanyaan dalam suatu bacaan (reading
comprehension). Dengan memasukkan kueri berupa pertanyaan ke dalam sistem, maka sistem
akan mengembalikan sebuah kalimat sebagai jawabannya. Proses penemukembalian jawaban
dimulai dengan memecah (parsing) suatu dokumen bacaan menjadi kalimat-kalimat. Kalimat-
kalimat tersebut dipecah dan di-stem menjadi token-token. Begitu pula dengan kalimat
pertanyaan pada kueri dipecah dan di-stem menjadi token-token. Token-token dari setiap kalimat
dokumen maupun kueri diproses dalam rules sesuai dengan tipe pertanyaannya. Dalam penelitian
ini tipe pertanyaan yang digunakan hanya lima tipe, yaitu: APA, SIAPA, KAPAN, MANA, dan
MENGAPA. Proses di dalam rules itu memberikan nilai (score) untuk masing-masing kalimat
dokumen. Kalimat yang memiliki nilai tinggi akan dikembalikan sebagai jawaban. Kalimat yang
dikembalikan sebagai jawaban bisa lebih dari satu, karena ada kemungkinan beberapa kalimat
yang memiliki nilai yang sama tingginya. Banyaknya kalimat yang ditemukembalikan juga
bergantung pada ambang batas nilai (threshold of score) yang digunakan. Threshold of score
yang digunakan dalam penelitian ini adalah 1 sampai 12. Kinerja sistem tertinggi dicapai saat
menggunakan ambang batas 7 dan 8, yang mengembalikan rata-rata tiga kalimat dan banyaknya
hasil yang benar mencapai 82,5%. Dari evaluasi berdasarkan rules, rules ”APA” mempunyai
kinerja yang paling tinggi, dan akurasi rata-rata rules adalah 74,65%. Namun, akurasi yang
cukup tinggi yang dapat dicapai sistem ini hanya berlaku untuk penelitian ini saja dengan
berbagai asumsi yang digunakan.

23
BAB 8

TEXT MINING DAN NATURAL LANGUAGE PROCESSING

8.1 Konsep NLP

Natural Language Processing (NLP) merupakan salah satu cabang ilmu AI yang berfokus
pada pengolahan bahasa natural. Bahasa natural adalah bahasa yang secara umum digunakan
oleh manusia dalam berkomunikasi satu sama lain. Bahasa yang diterima oleh komputer butuh
untuk diproses dan dipahami terlebih dahulu supaya maksud dari user bisa dipahami dengan baik
oleh komputer.

Ada berbagai terapan aplikasi dari NLP. Diantaranya adalah Chatbot (aplikasi yang
membuat user bisa seolah-olah melakukan komunikasi dengan computer), Stemming atau
Lemmatization (pemotongan kata dalam bahasa tertentu menjadi bentuk dasar pengenalan fungsi
setiap kata dalam kalimat), Summarization (ringkasan dari bacaan), Translation Tools
(menterjemahkan bahasa) dan aplikasi-aplikasi lain yang memungkinkan komputer mampu
memahami instruksi bahasa yang diinputkan oleh user.

I. NLP Area

Pustejovsky dan Stubbs (2012) menjelaskan bahwa ada beberapa area utama penelitian
pada field NLP, diantaranya:

a. Question Answering Systems (QAS): Kemampuan komputer untuk menjawab


pertanyaan yang diberikan oleh user. Daripada memasukkan keyword ke dalam
browser pencarian, dengan QAS, user bisa langsung bertanya dalam bahasa natural
yang digunakannya, baik itu Inggris, Mandarin, ataupun Indonesia.

b. Summarization: Pembuatan ringkasan dari sekumpulan konten dokumen atau


email. Dengan menggunakan aplikasi ini, user bisa dibantu untuk
mengkonversikan dokumen teks yang besar ke dalam bentuk slide presentasi.

c. Machine Translation: Produk yang dihasilkan adalah aplikasi yang dapat


memahami bahasa manusia dan menterjemahkannya ke dalam bahasa lain.

24
Termasuk di dalamnya adalah Google Translate yang apabila dicermati semakin
membaik dalam penterjemahan bahasa. Contoh lain lagi adalah BabelFish yang
menterjemahkan bahasa pada real time.

d. Speech Recognition: Field ini merupakan cabang ilmu NLP yang cukup sulit.
Proses pembangunan model untuk digunakan telpon/komputer dalam mengenali
bahasa yang diucapkan sudah banyak dikerjakan. Bahasa yang sering digunakan
adalah berupa pertanyaan dan perintah.

e. Document classification: Sedangkan aplikasi ini adalah merupakan area penelitian


NLP Yang paling sukses. Pekerjaan yang dilakukan aplikasi ini adalah menentukan
dimana tempat terbaik dokumen yang baru diinputkan ke dalam sistem. Hal ini
sangat berguna pada aplikasi spam filtering, news article classification, dan movie
review.

II. Terminologi NLP

Perkembangan NLP menghasilkan kemungkinan dari interface bahasa natural menjadi


knowledge base dan penterjemahan bahasa natural. Poole dan Mackworth (2010) menjelaskan
bahwa ada 3 (tiga) aspek utama pada teori pemahaman mengenai natural language:

a. Syntax: menjelaskan bentuk dari bahasa. Syntax biasa dispesifikasikan oleh sebuah
grammar. Natural language jauh lebih daripada formal language yang digunakan untuk
logika kecerdasan buatan dan program compute.

b. Semantics: menjelaskan arti dari kalimat dalam satu bahasa. Meskipun teori semantics
secara umum sudah ada, ketika membangun sistem natural language understanding
untuk aplikasi tertentu, akan digunakan representasi yang paling sederhana.

c. Pragmatics: menjelaskan bagaimana pernyataan yang ada berhubungan dengan dunia.


Untuk memahami bahasa, agen harus mempertimbangan lebih dari hanya sekedar
kalimat. Agen harus melihat lebih ke dalam konteks kalimat, keadaan dunia, tujuan dari
speaker dan listener, konvensi khusus, dan sejenisnya.

25
Contoh kalimat di bawah ini akan membantu untuk memahami perbedaan diantara ketiga
aspek tersebut di atas. Kalimat-kalimat ini adalah kalimat yang mungkin muncul pada bagian
awal dari sebuah buku Artificial Intelligence (AI):

1. This book is about Artificial Intelligence

2. The green frogs sleep soundly

3. Colorless green ideas sleep furiously

4. Furiously sleep ideas green colorless

Kalimat pertama akan tepat jika diletakkan pada awal sebuah buku, karena tepat secara
sintaks, semantik, dan pragmatik. Kalimat kedua tepat secara sintaks dan semantic, namun
kalimat tersebut akan menjadi aneh apabila diletakkan pada awal sebuah buku AI, sehingga
kalimat ini tidak tepat secara pragmatik. Kalimat ketiga tepat secara sintaks, tetapi tidak secara
semantik. Sedangkan pada kalimat keempat, tidak tepat secara sintaks, semantik, dan pragmatik.

Selain daripada ketiga istilah tersebut ada beberapa istilah yang terkait dengan NLP, yaitu:

a. Morfologi. Adalah pengetahuan tentang kata dan bentuknya sehingga bisa dibedakan
antara yang satu dengan yang lainnya. Bisa juga didefinisikan asal usul sebuah kata itu
bisa terjadi. Contoh : membangunkan –> bangun (kata dasar), mem- (prefix), -kan
(suffix)

b. Fonetik. Adalah segala hal yang berhubungan dengan suara yang menghasilkan kata yang
dapat dikenali. Fonetik digunakan dalam pengembangan NLP khususnya bidang speech
based system.

8.2 Konsep Text Mining

Text mining (juga disebut dengan text data mining, atau knowledge discovery in textual
database) adalah proses semi-otomatis dalam mengekstrak berbagai pola data (informasi dan
database yang bermanfaat) dari sumber data tak-terstruktur. Perlu diingat bahwa data mining
adalah suatu proses untuk mengidentifikasi pola-pola yang valid, baru, berpotensi bermanfaat,
dan akhirnya bisa dipahami yang ada di dalam data yang disimpan dalam database terstruktur,
dimana data dikelola secara terstruktur berdasarkan atribut atau variable-variabel categorical,

26
ordinal, atau continuous. Text mining sama dengan data mining dalam arti dia punya maksud
yang sama dan menggunakan proses yang sama, tetapi dalam text mining input terhadap proses
adalah file-file data tak-terstruktur (atau kurang terstruktur) seperti dokumen word, file-file pdf,
kutipan-kutipan text, file-file XML, dan seterusnya. Pada dasarnya, text mining bisa dipikir
sebagai suatu proses (dengan dua langkah utama) yang mulai dengan memaksakan struktur ke
berbagai sumber data berbasis teks yang diikuti dengan mengektrak informasi dan knowledge
yang relevan dari data berbasis teks yang sudah terstruktur tersebut dengan menggunakan
berbagai tool dan teknik data mining.

Manfaat text mining sangat terasa di bidang-bidang yang memiliki banyak data teks,
seperti bidang hukum (perintah pengadilan), penelitian akademis (artikel-artikel ilmiah),
keuangan (laporan quarterly), pengobatan/kedokteran, biologi (interaksi molekuler), teknologi
(file-file paten), dan marketing (komentar-komentar pelanggan). Sebagai contoh, berbagai
macam jenis interaksi dengan para pelanggan berbasis teks dengan format yang sembarangan
dalam hal complain (atau mungkin juga pujian) dan klaim jaminan bisa digunakan untuk
mengidentifikasi karakteristik produk dan layanan secara objektif yang dianggap kurang
sempurna untuk dijadikan sebagai input terhadap pengembangan produk dan alokasi layanan.
Demikian juga, dengan berbagai macam program untuk menjangkau market yang menghasilkan
jumlah data yang besar. Dengan tidak membatasi feedback terhadap produk dan layanan dengan
bentuk yang terformat, pelanggan bisa menyajikan dengan kata-kata mereka sendiri apa yang
mereka pikirkan tentang produk dan layanan perusahaan. Bidang lain dimana pemrosesan
otomatis terhadap text tak terstruktur telah membawa berbagai impact adalah dalam email dan
komunikasi elektronik. Text mining tidak hanya bisa digunakan untuk mengklasifikasikan dan
memfilter junk email, tetapi juga bisa digunakan untuk memprioritaskan email secara otomatis
berdasarkan tingkat kepentingannya dan juga menghasilkan respon otomatis (Weng and Liu,
2004).

Berikut ini adalah bidang-bidang penerapan text mining yang paling popular:

 Information extraction (ekstraksi informasi). Identifikasi terhadap hubungan dan


frase-frase kunci dalam text dengan mencari urutan yang sudah ditetapkan dalam
text menggunakan pencocokan pola.

27
 Topic tracking (pelacakan topic). Berdasarkan pada profil user dan berbagai
dokumen yang dilihat user, text mining bisa memprediksi dokumen-dokumen lain
yang menjadi perhatian/minat user tersebut.
 Summarization (peringkasan). Meringkas suatu dokumen untuk menghemat
waktu dari sis si pembaca
 Clustering. Mengelompokkan dokumen-dokumen yang mirip tanpa memiliki
kategori yang sudah ditetapkan sebelumnya.
 Concept linking. Menghubungkan berbagai dokumen terkait dengan
mengidentifikasi konsep yang digunakan berbsama dan dengan demikian
membantu para user untuk menemukan informasi yang barangkali mereka tidak
akan temukan dengan menggunakan metode-metode pencarian tradisional.
 Question answering. Menemukan jawaban terbaik pada pertanyaan yang
diberikan melalui pencocokan pola berbasis knowledge

8.3 Information Extraction

IE merupakan proses identifikasi fragmen-fragmen khusus suatu dokumen yang membentuk


inti dari isi semantiknya. IE biasanya bergantung pada aturan ekstraksi yang dibuat khusus untuk
sumber informasi tertentu, yang biasa disebut wrapper (berupa program atau set aturan-aturan).
Dengan wrapper ini, berbagai macam struktur sumber data dapat diproses.

IE mengekstraksi data terstruktur atau pengetahuan dari teks tak terstruktur dengan
mengidentifikasi referensi entitas nama serta hubungan antar entitas. Jadi, IE secara umum
berhubungan dengan penggalian informasi semantik dalam teks. IE meliputi pengenalan entitas,
resolusi coreference, ekstraksi hubungan, dan sebagainya. Tujuan umum IE adalah agar
komputer dapat melakukan pengolahan dengan data-data yang pada mulanya tidak terstruktur.
Lebih spesifik lagi, IE memungkinkan komputer untuk menarik kesimpulan dari konteks logis
sebuah data.

IE merupakan proses mengolah teks sebagai input dan memproduksi data dengan format
yang baku dan tidak ambigu sebagai outputnya. Aplikasi IE menganalisis teks dan menyajikan
hanya informasi khusus yang menarik minat pengguna atau sesuai konteks pengguna. Prosees IE

28
dapat dipermudah dengan pemanfaatkan teknik-teknik lainnya, seperti bag of words, NLP,
machine learning, model hidden markov, model statistik, dan lain sebagainya.

Dalam praktiknya, IE sering dibantu dengan penggunaan pola tata bahasa serta aturan
linguistik yang diterapkan pada bahasa alami manusia. Namun, dengan bantuan domain
pengetahuan yang sesuai konteks, representasi pengetahuan yang dihasilkan oleh proses IE dapat
berkurang dari sisi kompleksitasnya. Selain itu, algoritma pembelajarannya serta efisiensi
ekstraksi menjadi semakin baik. Bahkan, disebutkan bahwa tanpa domain pengetahuan yang
sesuai konteks, proses dari IE tidak dapat menghasilkan analisis yang tepat.

8.4 Information Retrieval

Information Retrieval (IR) adalah pekerjaan untuk menemukan dokumen yang relevan
dengan kebutuhan informasi yang dibutuhkan oleh user. Contoh sistem IR yang paling popular
adalah search engine pada World Wide Web. Seorang pengguna Web bisa menginputkan query
berupa kata apapun ke dalam sebuah search engine dan melihat hasil dari pencarian yang
relevan. Karakteristik dari sebuah sistem IR (Russel & Norvig, 2010) diantaranya adalah:

 A corpus of documents. Setiap sistem harus memutuskan dokumen yang ada akan
diperlakukan sebagai apa. Bisa sebagai sebuah paragraf, halaman, atau teks
multipage.
 Queries posed in a query language. Sebuah query menjelaskan tentang apa yang
user ingin peroleh. Query language dapat berupa list dari kata-kata, atau bisa juga
menspesifikasikan sebuah frase dari kata-kata yang harus berdekatan
 A result set. Ini adalah bagian dari dokumen yang dinilai oleh sistem IR sebagai
yang relevan dengan query.
 A presentation of the result set. Maksud dari bagian ini adalah tampilan list judul
dokumen yang sudah di ranking.

29
30
DAFTAR PUSTAKA

1. Kusrini, dan Emha Taufiq Luthfi. 2009. Algoritma Data Mining. Yogyakarta: C.V ANDI
OFFSET
2. Feri Sulianta dan Domunikus Juju. Data Mining: Meramalkan Bisnis Perusahaan. 2010.
Jakarta: Elex Media Komputindo
3. Han, Jiawei, dkk. Data Mining Concepts and Techniques. 2012. The Morgan Kauffman
4. Sungkono, Christian. 2008. Pengantar Ilmu Penggalian Data Bisnis. Jakarta: Penerbit
Salemba Empat
5. Defiyanti dan Jajuli. 2015. Integrasi Metode Klasifikasi Dan Clustering dalam Data Mining.
Konferensi Nasional Informatik, 2354-645X/15.Diambil dari: https://goo.gl/R89Vq3
6. https://mti.binus.ac.id/2017/11/24/klasifikasi/: ANTONI WIBOWO, Lecturer Specialist S3,
Universitas Bina Nusantara
7. Nuryani, A., Susanto, B., dan Proboyekti, U., 2007, Implementasi Naive Bayes Classifier
pada Program Bantu Penentuan Buku Referensi Mata Kuliah, Jurnal Informatika Vol 3 No.
2, 32-36.
8. Gunawan Gunawan, dan Gita Lovina. 2006. Question Answering System dan Penerapannya
Pada Alkitab. Jurnal Informatika Vol. 7.
http://jurnalinformatika.petra.ac.id/index.php/inf/article/view/16479
9. Piskorski, J. and Yangarber, R., 2013, Information Extraction: Past, Present and Future, In:
T. Poibeau et al., eds., Multi-source, Multilingual Information Extraction and
Summarization, Springer-Verlag, Berlin, Ch.2.
10. Pustejovsky, J., Stubbs A. (2012). Natural Language Annotation for Machine Learning.
Beijing: O’Reilly.
11. Massachusetts Institute of Technology (2010). Advanced Natural Language Processing.
http://people.csail.mit.edu/regina/6864/. Cambridge
12. Kowalski, M. (2011). Information Retrieval Architecture and Algorithms. New York:
Springer.
13. North, D.M. 2012. Data Mining For The Masses. A Global Text Project Book

31
14. Keekyoung Seo; Jaeyoung Yang; Joongmin Choi, "Building intelligent systems for mining
information extraction rules from web pages by using domain knowledge," Industrial
Electronics, 2001. Proceedings. ISIE 2001. IEEE International Symposium on , vol.1, no.,
pp.322,327 vol.1, 2001
15. Mooney, Raymond J., and Razvan Bunescu. "Mining knowledge from text using
information extraction." ACM SIGKDD explorations newsletter 7.1 (2005): 3-10.
16. Turban, E dan Jay E, (2001), “Decision Support Systems and Intelligent Systems”,.
Aronson, 6th edition, Copyright 2001, Prentice Hall, Upper Saddle River, NJ
17. Hammer, J., Garcia-molina, H., Cho, J., Aranha, R., dan Crespo, A, 1997, Extracting
Semistructured Information from the Web, Proceedings of the Workshop on Management of
Semistructured Data, Tucson, Arizona.

32

You might also like