You are on page 1of 13

USULAN PENELITIAN

Aplikasi E-Library Menggunakan Wap Dengan Implementasi


Text Mining Pada Pencarian Data Buku
Proposal ini dibuat untuk memenuhi tugas akhir mata kuliah Metode Penelitian
dengan dosen pengampu Tim Metpen Jurusan Teknik Informatika UIN MMI Malang

Dosen Pembimbing :

Suhartono, M. Kom

NIP. 196805192003121001

Oleh:

Nurul Muflichah

NIM. 07650015

UNIVERSITAS ISLAM NEGERI MAULANA MALIK IBRAHIM

(UIN-MMI) MALANG

FAKULTAS SAINS DAN TEKNOLOGI

JURUSAN TEKNIK INFORMATIKA

JUNI 2009
Proposal Penelitian

Aplikasi E-Library Menggunakan Wap Dengan Implementasi


Text Mining Pada Pencarian Data Buku
Nurul Muflichah (07650015)

1. Latar Belakang

Semua lapisan masyarakat seyogyanya dapat mempelajari berbagai


informasi melalui membaca. Hal ini dikarenakan membaca merupakan
salah satu kunci dalam meningkatkan kecerdasan dan kreatifitas
masyarakat. Namun minat dan kemampuan membaca di Indonesia sangat
rendah. Berdasarkan hasil survey UNESCO pada dua tahun lalu, minat
baca masyarakat Indonesia adalah paling rendah di ASEAN, sedangkan
survei yang dilakukan terhadap 39 negara–negara di dunia, Indonesia
menempati urutan ke-38. Begitu banyak faktor yang menyebabkan
rendahnya minat baca masyarakat Indonesia, yang salah satunya adalah
sebagian besar masyarakat Indonesia menghabiskan waktunya untuk
bekerja, sehingga tidak tersedia waktu untuk membaca. Hanya kalangan
tertentu saja yang benar – benar mencurahkan waktu untuk membaca dan
atau menulis seperti wartawan, guru, dosen, peneliti dan pustakawan.
Itupun dalam jumlah yang terbatas. Kurang tersedianya buku – buku yang
berkualitas dengan harga yang terjangkau, sehingga buku masih dianggap
sebagai barang mewah juga menjadi faktor penyebab rendahnya minat
baca. Selain itu, kurang tersedianya perpustakaan di tempat-tempat umum
yang mudah dijangkau, serta tidak memadai koleksi, fasilitas, dan
pelayanan yang ada. Kemudian, tidak meratanya penerbitan buku dan
distribusinya ke seluruh pelosok tanah air di indonesia.
Didalam Al-Qur‟an surat pertama yang diturunkan adalah surat al-
alaq, dimana pada ayat pertama adalah perintah untuk membaca.

)1( ‫اقزأ باسم ربّك الذى خلق‬

“Bacalah dengan (menyebut) nama Tuhanmu yang menciptakan”.


Q.S Al-Alaq : 1.
Didalam kitab Shahih Bukhori diriwayatkan bahwa “Wahyu pertama yang
sampai kepada Nabi saw adalah perintah membaca dan pembicaraan
tentang pena dan ilmu. Tidakkah kaum Muslimin menjadikan ini sebagai
pelajaran lalu menyebarkan ilmu dan mengibarkan panjinya. Sedangkan
Nabi yang ummi ini saja perintah pertama yang harus dikerjakan adalah
membaca dan menyebarkan ilmu.” Hal ini membuktikan bahwa membaca
merupakan hal terpenting yang harus dilakukan oleh seseorang yang ingin
sukses.
Dan dengan kemajuan teknologi yang semakin pesat kini seseorang
yang ingin mendapat informasi tidak harus bersusah payah untuk datang
keperpustakaan hanya untuk mendapatkan referensi juga mengeluarkan
banyak uang untuk mendapatkan berita dari koran. Karena di internet telah
banyak tersedia situs-situs yang menyediakan informasi-informasi yang
kita butuhkan. Namun seseorang dengan tingkat mobilitas yang tinggi,
tidak mungkin menghabiskan banyak waktunya untuk duduk didepan
komputer untuk mendapatkan informasi. Dan tidak jarang juga seseorang
akan merasa kesulitan dalam mencari informasi yang dibutuhkan karena
fasiltas searching yang disediakan tidak dapat memproses keyword yang
kita masukkan dengan baik
Saat ini Wireless Application Protocol (WAP) merupakan salah
satu solusi pemecahan masalah diatas yang dianggap sangat
memungkinkan, karena pengguna dapat mengakses internet melalui
peralatan wireless (tanpa kabel) seperti handphone dan PDA. Dan agar
proses searching yang dilakukan lebih optimal maka digunakan algoritma
text minning dimana dalam prosesnya digunakan Vector Space Model
(VSM) yang merupakan bentuk dari Information Retrieval.
Untuk itu dalam penelitian ini akan dibangun sebuah aplikasi
electronik library (eLibrary) menggunakan WAP dengan implementasi
text minning pada proses pencariannya, yang akan memungkinkan
seseorang dapat membaca abstraksi buku, artikel, dan mendapatkan
informasi lainnya yang sesuai dengan yang diinginkan kapan saja dan
dimana saja. Dengan dibangunnya aplikasi ini diharapkan mampu
meningkatkan minat membaca masyarakat Indonesia, yang nantinya akan
berimbas pada peningkatan kualitas SDM masyarakat Indonesia sendiri.

2. Rumusan Masalah

Berdasarkan latar belakang diatas, adapun rumusan masalah


sebagai berikut: “Bagaimana mengoptimalkan proses searching dengan
algoritma text minning sebagai bentuk Information Retrieval untuk
menemukan dokumen yang memenuhi kriteria pencari? ”

3. Batasan Masalah

Dalam permasalahan tersebut akan diberi batasan-batasan masalah


sebag berikut:
1. Dokumen yang dicari berdasarkan isi dari abstrak buku.
2. Diasumsikan setiap buku mempunyai abstrak.
3. Buku dan artikel yang disipan pada database adalah buku yang
berhubungan dengan ilmu komputer.
4. Dokumen yang digunakan adalah yang dokumen dengan bahasa
indonesia dan inggris.
4. Tujuan dan Manfaat penelitian

Tujuan dari penelitian ini adalah membangun sebuah aplikasi e-


library dimana proses searching yang dilakukan mejadi lebih optimal
karena menggunakan metode text minning yang merupakan bentuk
Information Retrieval sehingga akan menghasilkan dokumen dengan
tingkat similaritas yang tinggi.
Sedangkan manfaat dari pembuatan aplikasi ini, memudahkan para
pencari informasi untuk mendapatkan informasi yang sesuai dengang yang
diinginkan dan membantu meningkatkan kegemaran membaca masyarakat
Indonesia.

5. Kajian Teori

5.1 Wireless Application Protocol (WAP)

Wireless Application Protocol atau yang lebih dikenal dengan


istilah WAP adalah protocol yang memungkinkan sebuah ponsel untuk
mengakses internet secara langsung dimana ponsel tersebut dilengkapi
dengan Micro Browser, yaitu sebuah program yang berfungsi sebagai
browser seperti Netscape atau Microsoft Internet Explorer yang ada
pada PC.
Protocol sendiri dapat didefinisikan sebagai suatu cara atau
aturanyang dibakukan unutk melakukan komunikasi antara satu
peralatan jaringan (bisa berupa komputer, switch, hub, dan lain-lain)
dengan peralatan jaringan lainnya. Desain atau standart protokol
merupakan arsitektur protokol yang ditetapkan secara internasional
oleh ISO (International Stndart Organization). Arsitektur tersebut
dinamakan Open System Interconnection(OSI Reference Model).
Tahapan-tahapan dalam arsitektur WAP terdiri atas:

1) Wireless Application Environment (WAE)

Wireless Aplication Environment ini memiliki fungsi dasar


untuk menggabungkan World Wide Web (WWW) dengan
teknologi telepon selular. WAE ini berisi Micro Browser yang
berfungsi sebagai pendukung WML (Wireless Markup Language).
WML ini hampir sama dengan HTML, namun bahasa ini
dikhususkan untuk mobile terminal.

2) Wireless Session Protocol (WSP)

Wireless Session Protokol ini berfungsi memeriksa format


data, konversi data, dan atau pengkodean data yang akan
ditransferkan misalnya :
 Memeriksa kebenaran data antar user
 Memerika nomor pesan yang dikirim
 Menyinkronkan data transaksi

3) Wireless Transport Layer Security (WTSL)

WTSL adalah protocol untuk keamanan data yang


disesuaikan oleh standart industri Transport Layer Security (TSL)
yang mendukung Secure Socket Layer (SSL). WTSL ini ditunjukan
pada penggunaan aplikasi WAP untuk :
 Integritas data yaitu menyangkut kebenaran isi pesan
 Privasi, yaitu menyangkut kerahasiaan data, artinya data yang
dikirimkan tidak bisa dimengerti oleh orang lain yang tidak
terkoneksi dengan pengirim
 Autentifikasi, yang menyangkut kebenaran jati diri seseorang.

4) Wireless Datagram Protocol (WDP)

WDP ini merupakan kelanjutan dari WTSL yang mampu


berkomunikasi dengan benar. WDP bertugas untuk mentrasmisikan
data dalam format biner melalaui gateway, serta mendefinisikan
pengalamatan jaringan yang akan dikenali oleh bearer.

5) Bearer

Bearer terdiri dari data switch, pesan pendek (Short


Message), dan data paket yang berfungsi untuk melakukan transfer
data dari suatu unit informasi yang berisi alamat ke unit lain san
melakukan pemeriksaan kesalahan serta penundaan transfer hingga
proses benar.

6) Aplikasi Pendukung

Selain dari layer-layer diatas, aplikasi pendukung juga


dibutuhkan. Aplikasi pendukung ini biasanya berupa program
aplikasi jaringan, seperti email, kalender, mobile banking, e-
commerce, dan lain-lain.

Model pemrogramn WAP terdiri atas tiga bagian, yaitu WAP


client yag mengirim permintaan informasi, gateway sebagai penerjemah
antara WAP dan HTTP serta server yang memproses permintaan dan
gateway untuk kemudian menjawabnya.
Prinsip kerjanya adalah aliran data dari handphone (client)/ WAP
protocol, akan mengirimkan encode request. Protocol gateway akan
mentranlasikan request dari WAP protocol yang terdiri atas WSP WTP,
WTSL, dan WDP tersebut menuju WWW protocol (origin server yaitu
HTTP, TCP/IP). Encode akan menyesuaikan format data dengan server
jaringan WWW yang dapat berupa CGI dan Script, kemudian server
akan merespon request tersebut dan mengirimkan kembali melalui
protocol gateway untuk ditranslasikan kembali menuju WAP client
dalam hal ini adalah handphone.

5.2 Text Mining

Text Mining adalah proses penemuan akan informasi atau trend


terbaru yang sebelumya tidak terungkap dengan memproses dan
menganalisa data dalam jumlah besar. Dalam menganalisa sebagian
atau keseluruhan undtructured text, text mining mencoba untuk
mengasosiasikan satu bagian text dengan yang lainnya berdasarkan
aturan-aturan tertentu. Selain itu Text Mining juga bisa diartikan
sebagai proses menambah data yang berupa text dimana sumber data
biasanya didapatkan dari dokumen sehingga dapat dilakukan analisa
keterhubungan antar dokumen.
Langkah-langkah yang dilakukan dalam Text Mining adalah :

1. Tokenizing

Proses ini memotong setiap kata dalam teks, dan mengubah


semua huruf dalam dokumen menjadi huruf kecil. Haya huruf „a‟
sampai „z‟ yang diterima, sedangkan karakter selain huruf
dihilangkan. Contoh : “Pemrograman Web menggunakan PHP dan
MySQL”. Setelah ditoken maka kata-kata diatas menjadi :

pemrogram web menggunakan php dan mysql

2. Filtering

Pada proses ini dilakukan proses filter atau penyaringan kata


hasil dari proses tokenizing, dimana kata yang tidak relevan dibuag.
Proses ini menggunakan pendekatan stoplist. Yang termasuk stoplist
adalah “yang”, “di”, ”dari”, dan lain-lain. Contoh :

pemrogram web menggunakan php dan mysql

program web php mysql

3. Stemming

Stemming adalah proses untuk menggabungkan atau


memecahkan setiap varian-varian suatu kata menjadi kata dasar.
4. Tagging

Tagging adalah suatu proses untuk mencari bentuk asal dari kata
bentuk lampau. Contoh : Connected connect

5. Analyzing

Pada tahap ini dilakukan proses penghitungan bobot (w)


dokumen agar diketahui seberapa jauh tingkat similaritas antara
keyword yang dimasukkan dengan dokumen. Algoritma yang
digunakan adalah TF-IDF yang disempurnakan dengan menghitung
nilai cosine sebagai bentuk Vector Space Model (VSM).

 TF-IDF (Term Frequency-Inverse Document Frequency)

Metode pembobotan ini digunakan karena paling baik


dalam Information Retrieval. Nilai bobot suatu term menyatakan
kepentingan bobot tersebut dalam mempresentasikan dokumen.
Metode ini dapat dirumuskan dengan :

W(d,t)=tf(d,t) * log (D/df)

Dimana :
W(d,t) = Bobot dokumen ke-d terhadat kata ke-t
D = Jumlah dokumen
Tf = Jumlah kata yang dicari pada sebuah dokumen
Df = Jumah dokumen yang mengandung kata yang dicari

 Cosine

Cara kerja metode ini dengan menghitung cosinus sudut


dari 2 vector, yaitu W dari tiap dokumen dan W dari kata kunci
(keyword), sehingga dapat dirumuskan dengan :

Sim(di,q)= cosӨ (x,y = ‫׀‬x‫׀׀‬y‫׀‬cosӨ)


͢ ͢ t
∑ (wij. wqj)
d . q͢
i
͢
_________ i=1
Cosine (di,q) = = _____________________
ǀdi ǀ .ǀq ǀ
t 2 t 2
∑ wij . ∑ wqj
i=1 i=1

Dimana :
q = kata kunci Wqj = bobot kata kunci
d = dokumen Wij = bobot dokumen
t = kata didatabase
6. Penelitian Terkait

1. Distributed LSI: Scalable Concept-based Information Retrieval


with High Semantic Resolution
“Devasis Bassu and Clifford Behrens Telcoridia Technologies, Inc.
dbassu, cliff@research.telcordia.com ”

Abstract :

In this paper we propose extensions to Latent Semantic Indexing (LSI)


that specifically address and solve the problems it has exhibited scaling
to massive document collections: an SVD is difficult to compute for
extremely large term-document matrices, and the precisionrecall
performance tends to degrade as collections become very large. We
believe that the latter result is symptomatic of a sampling problem: as
the size of a document collection increases, so too does the probability
of polysemy, i.e., multiple meanings for the same term. This has the
consequence of introducing noise and confusion into the LSI vector
space. Therefore, we have developed an approach we call “distributed
LSI” that solves this problem by partitioning information sources with
respect to the conceptual domains they cover, indexing the content of
each derived subcollection with LSI, then enabling one to query over
these distributed LSI vector spaces. Because the LSI vector spaces
computed from documents related by conceptual domain are
semantically more homogeneous, they nicely capture their documents'
context. Vector space representations of these contexts can be used to
select appropriate sources of information needed to service a query.

Keyword : latent semantic indexing, concept-based information


retrieval, scalability, massive document collections, document
clustering.

2. Text Mining untuk pencarian dokumen berbahasa inggris


menggunakan suffix tree clustering
“Tatas Wicaksono – Jurusan Teknik Informatika – Politeknik
Elektronika Negeri Surabaya – Institut Teknologi Sepuluh Nopember –
tatas@student.eepis-its.edu ”

Abstrak :

Sebuah pencarian terhadap kumpulan dokumen umumnya memberikan


hasil berupa cuplikan dokumen-dokumen yang disusun berdasarkan
peringkat kecocokan dalam daftar yang panjang. Tidak jarang suatu
pencarian menghasilkan puluhan bahkan ratusan cuplikan dokumen
yang menyebabkan seorang pengguna harus menggulung layar ke atas
dan ke bawah (scrolling) untuk meneliti satu persatu cuplikan
dokumen. Keadaan ini menyebabkan seorang pengguna mengalami
kesulitan dalam hal menentukan dokumen yang relevan dengan topik
yang ia inginkan.
Pada Proyek Akhir ini dikembangkan suatu aplikasi pengelompokan
dokumen berbasis web dengan metode suffix tree clustering. Konsep
dasar metode ini adalah dengan mengelompokkan dokumen hasil
pencarian ke dalam bentuk grup-grup atau clusters berdasarkan kata
atau frase yang terdapat di dalam dokumen-dokumen tersebut.
Aplikasi membutuhkan input pencarian dan akan menghasilkan output
berupa cluster yang di dalamnya terdapat dokumen yang bersesuaian.
Cluster ini bisa bertingkat-tingkat tergantung dari kata atau frase yang
mungkin bisa dibedakan lagi pada cluster induk yang sama. Cluster-
cluster yang dihasilkan inilah yang ditampilkan kepada pengguna.
Selanjutnya pada cluster terakhir yang dipilih akan menampilkan
kumpulan dokumen yang masing-masing terdiri dari judul, cuplikan
dan URL dokumen. Dengan metode ini diharapkan hasil pencarian
akan lebih mudah untuk ditelusuri.

Kata kunci : text mining, suffix tree, suffix tree clustering,


pengelompokan dokumen.

Dua penelitian diatas membahas information Retrieval dengan


metode lain, yaitu Latent Semantic Indexing dan text mining
menggunakan metode suffix tree clustering.
Dimana Latent Semantic Indexing adalah sebuah algoritma yang
mirip dengan proses pemikiran yang sebenarnya “manusia” akan
melakukan searching dalam rangka untuk menentukan apakah hasil dari
permintaan mereka relevan dengan apa yang mereka cari. LSI merupakan
teknik pengindeksan-analisis, mendaftar atau mengkategorikan kata kunci
atau frasa tertentu dalam isi dari berbagai website, buku atau dokumen
dengan sedemikian rupa sehingga mereka memiliki kontekstual dan
konseptual yang sama atau terkait dengan maksud dan arti meskipun
menggunakan kata yang berbeda di dalamnya.
Sedangkan text mining dengan metode suffix tree clustering
merupakan proses penemuan akan informasi yang dilakukan dengan 3
tahap utama yaitu cleaning documen, identifikasi Base Cluster
menggunakan STC, mengkombinasikan base cluster kedalam suatu
cluster. Namun untuk pembentukkan suffix tree membutuhkan waktu yang
lama karena selain tergantung pada jumlah dokumen yang dikoleksi juga
tergantung pada jumlah kata untuk setiap dokumen yang ingin
diklasifikasikan.
Dalam penelitian kali ini peneliti akan meneliti bagaimana keakuratan
algoritma text mining menggunakan algoritma TF-IDF pada tahap analyzing
yang diimplementasikan pada pencarian data dalam e-Library yang menggunakan
teknologi WAP.

7. Desain Penelitian
1) Interaksi dalam sistem
Diagram dibawah ini menunjukkan sistem kerja aplikasi eLib
mining.
Gateway

MOBILE
Internet
&/
Database
PC

Web,
Application
server

 Administrator bertugas untuk mengendalikan server web, dari


membuat, menambah, menghapus, dan mengedit semua data yang
telah dirancang dan disimpan dalam database.
 Database MySQL diguakan untuk menyimpan informasi buku,
artikel, member, dan lain-lain yang berhubungan dengan sistem
eLibrary.
 Ketika member (client) melakukan request maka akan melalui
suatu gateway yang akan memproses request dari client. Kemudian
server yang terhubung dengan internet akan merespon request
tersebut dan server akan memberikan informasi berdasarkan
database lalu mengirimkan kembali melalui gateway untuk
diproses kembali menuju client.

2) Flowchart proses Text Mining

 Input abstrak buku oleh administrator

Proses penginputan abstrak buku, artikel, dan lain-lain yang


dilakukan oleh administrator berupa abstraksi buku dimasukkan
kedalam database dengan proses text mining. Setiap dokumen yang
dimasukkan akan melalui tahap tokenizing yaitu memotong setiap
kata dalam teks, kemudian dilakukan proses filtering dengan
membandingkan kata yang ada di tabel stoplist. Dokumen hasil
filtering diproses untuk dihitung bobotnya. Semua kata yang ada
dalam dokumen beserta hasil perhitungannya dimasukkan ke dalam
database.
START

Abstraksi Buku

Tokenizing

Kata ke i=0 i++

Ada di DB Stoplist? Y
Kata tdk diproses

T
Ada di DB
KataLengkap?

Y
Ubah jd kata dasar
sesuai DB KataDasar

Y Update nilai df
Kata ada di DB?
Df=df+1
T
Df = 1

Masukkan Nilai Tf ke DB

Hitung bobot
dokumen (WD2), Buat dok. Txt
simpan ke database baru

STOP
 Penginputan kata kunci oleh pengguna

START

Dokumen

Kata Kunci

Tokenizing

Kata ke i=0 i++

Ada di DB Stoplist? Y
Kata tdk diproses

T
Ada di DB
KataLengkap?

Y
Ubah jd kata dasar
sesuai DB KataDasar

Y Pesan:
Proses TF-IDF W = 0?
Dokumen tdk
ditemukan

Proses Cosine

Ranking Dokumen

Informasi yang
dibutuhkan STOP
Pada proses ini kata kunci yang diinputkan oleh pengguna
diproses untuk menentukan tingkat similaritas antara dokumen
dengan kata kunci, sehingga akan diperoleh output dokumen yang
paling sesuai dengan keinginan user. Tahapan yang dilalui pada
proses ini hampir sama dengan proses yang pertama yaitu
tokenizing, filtering, dan penghitungan bobot kata kunci.

8. Daftar Pustaka

Baeza Yates dan Ribeiro Neto. Information Retrieval. Universitas


Indonesia, 2007

Dr. E. Garcia. The Classic Vector Space Model. www.MiIslita.com , 2006

www.informatika.org/~rinaldi/Stmik/Makalah/MakalahStmik37.pdf
( diakses pada tanggal 21 Juni 2010)

http://www.imamsuprayogo.com/viewd_artikel.php?pg=728 ( diakses
pada tanggal 23 Juni 2010)

http://journal.uii.ac.id/index.php/Snati/article/viewFile/1301/1060
( diakses pada tanggal 21 Juni 2010)

http://mgmpbismp.co.cc/2009/12/26/mendiknas-tumbuhkan-kesadaran-
kolektif-gemar-membaca/ ( diakses pada tanggal 23 Juni 2010)

http://www.dakwatuna.com/2009/tafsir-surat-al-alaq/ ( diakses pada


tanggal 23 Juni 2010)

http://www.itmaranatha.org/jurnal/jurnal.informatika/Jurnal/Juni2007/artik
el/artikelpdf/juni07_3.pdf ( diakses pada tanggal 21 Juni 2010)

You might also like