USULAN PENELITIAN

RANCANG BANGUN SEARCH ENGINE TAFSIR AYAT-AYAT AL-QURAN
YANG SESUAI DENGAN DOKUMEN TEKS BERBAHASA INDONESIA
MENGGUNAKAN METODE JACCARD SIMILARITY


Oleh:
Sofi Silvia Sulistiani Purwandari
NIM. 08650007






JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI (UIN) MAULANA
MALIK IBRAHIM
MALANG
2011
1

1. JUDUL
RANCANG BANGUN SEARCH ENGINE TAFSIR AYAT-AYAT AL-QURAN
YANG SESUAI DENGAN DOKUMEN TEKS BERBAHASA INDONESIA
MENGGUNAKAN METODE JACCARD SIMILARITY

2. LATAR BELAKANG
Al-Quran adalah mukjizat Allah yang diturunkan kepada Nabi Muhammad
melalui malaikat Jibril. Kitab Allah yang paling sempurna dan merupakan
petunjuk dari segala petunjuk. Setiap Muslim tentu menyadari, bahwa Al-Quran
adalah kitab Suci yang merupakan pedoman hidup dan dasar setiap langkah
hidup. (Hadhiri, 2005). Selain itu, kemurnian Kitab Suci ini dijamin langsung
oleh Allah dan pada kenyataannya dapat dilihat bahwa satu-satunya kitab suci
yang mudah dipelajari bahkan sampai dihafal oleh beribu-ribu umat Islam adalah
Al-Quran. Al-Quran mempunyai banyak pelajaran yang terkandung di dalamnya.
Pelajaran yang sangat berharga dan terkandung di dalam Al-Quran seperti firman
Allah dibawah ini :

QS. Al-Ma’idah:49
÷pÒ¡4Ò ª7¯;O- ª×´4LuO4
.E©) 4·4O^Ò¡ +.- ºº4Ò ;7)l4©·>
¯ª¬-47.-4Ou-Ò¡ ¯ª¬-¯OEOuÞ-4Ò
pÒ¡ ¬CONLg^¼4C }4N ^*u¬4 .4`
4·4O^Ò¡ +.- El^O·¯)³ W p)¯··
W-¯O-¯4O·> ¯ªÞUu×·· 4©^^Ò¡
÷³C@ONC +.- pÒ¡ ª×g=¯O´NC
^*u¬4l) ¯ªjgj±O+^¬O ¯ Ep)³4Ò
-LOOg1E =}g)` +EEL¯-
4pO¬³´OE¼·¯ ^j_÷
49. dan hendaklah kamu memutuskan perkara di antara mereka menurut apa
yang diturunkan Allah, dan janganlah kamu mengikuti hawa nafsu mereka. dan
berhati-hatilah kamu terhadap mereka, supaya mereka tidak memalingkan kamu
2

dari sebahagian apa yang telah diturunkan Allah kepadamu. jika mereka
berpaling (dari hukum yang telah diturunkan Allah), Maka ketahuilah bahwa
Sesungguhnya Allah menghendaki akan menimpakan mushibah kepada mereka
disebabkan sebahagian dosa-dosa mereka. dan Sesungguhnya kebanyakan
manusia adalah orang-orang yang fasik.
;³·³·¯4Ò 4^uO-OEC 4p-47¯O¬³^¯-
@O^g]~-g¯ ¯E_·· }g` ¯OgO³G`
^gg÷

Dan sesungguhnya telah Kami mudahkan Al-Quran untuk pelajaran, maka
adakah orang yang mengambil pelajaran. (QS. Al-Qamar: 22)

Al-Quran juga merupakan petunjuk bagi umat manusia seperti dalam ayat Al-
Quran berikut ini:
QS. Al-Baqarah :1-2

¦.¯- ^¯÷ Elg¯·O CU4-´:^¯-
ºº =UuC4O O gOOg· O O1³¬-
=}1´³+÷©·Ug¢¯ ^g÷
1. Alif laam miin.
2. Kitab (Al-Quran) ini tidak ada keraguan padanya; petunjuk bagi mereka
yang bertaqwa

Selain itu, Al-Quran banyak memuat ilmu pengetahuan yang dapat dibaca
secara induktif maupun deduktif yang banyak bermanfaat bagi manusia
(Wardhana, 2006). Isi kandungan dari Al-Quran juga dapat menjelaskan ilmu
pengetahuan dan teknologi yang bahkan masih ditemukan maupun berkembang
sekarang ini. Salah satu bukti adalah fakta bahwa beberapa kebenaran ilmiah yang
ternyata baru mampu ditemukan sekitar abad ke-20 ternyata telah ada dalam Al-
Quran lebih dari 1400 tahun yang lalu. Dalam sejumlah ayat juga terdapat banyak
fakta ilmiah yang dinyatakan secara sangat akurat dan benar yang baru dapat
ditemukan dengan teknologi abad ke-20. Fakta-fakta ini belum dapat diketahui di
3

masa Al-Quran diwahyukan, dan ini semakin membuktikan bahwa Al-Quran
adalah firman Allah.



Seperti Firman Allah dibawah ini.
¯¦)_C)ON6Ec 4Lg4C-47 O)×
´-··E- EO)×4Ò ¯ªjg´O¬¼^Ò¡
_/4®EO 4×E-4lE©4C ¯ª÷_·¯ +O^^Ò¡
O-O4^¯- ¯ ¯ª·¯4ÒÒ¡ ´-'¯4C
El)Þ4O) +O^^Ò¡ _OÞ>4N ÷]7
¡7¯/E* N³OjgE+ ^)@÷
“Kami akan memperlihatkan kepada mereka tanda-tanda (kekuasaan) Kami di
segenap ufuk dan pada diri mereka sendiri, sehingga jelaslah bagi mereka bahwa
Al-Qur`an itu adalah benar. Dan apakah Tuhanmu tidak cukup (bagi kamu)
bahwa sesungguhnya Dia menyaksikan segala sesuatu?” (Fushshilat: 53)
Dari ayat-ayat di atas dapat kita ketahui bahwa Al-Quran merupakan petunjuk
bagi manusia. Segala permasalahan dan pemecahannya haruslah berlandaskan
Al-Quran. Hanya saja banyak sekali kesulitan untuk menemukan ayat Al-Quran
yang sesuai dengan permasalahan. Ditambah kesulitan memahami terjemahan Al-
Quran yang bahasanya kadang masih membingungkan, ayat-ayat Al-Quran yang
mengandung topik berbeda-beda dalam satu surat serta persamaan topik pada
surat yang lain, dan sebagainya. Sebagai seorang Muslim, sudah seharusnya kita
menjadikan Al-Quran sebagai pedoman hidup dan petunjuk bagi setiap
permasalahan. Menjadikannya cermin melihat dan mengukur akhlak dan setiap
aktivitas yang kita lakukan.
Hal itulah yang memotivasi untuk merancang dan membuat suatu sistem yang
dapat memudahkan seseorang dalam menemukan padanan ayat Al-Quran yang
sesuai dengan suatu teks/dokumen tertentu. Dalam mencari padanan ayat dalam
tafsir Al-Quran tersebut peneliti mengukur kemiripan dari dokumen yang terkait.
4

Dokumen berupa teks yang berbahasa Indonesia. Data ini sebagai sebuah inputan
melalui beberapa proses sebelum disamakan dengan tafsir Al-Quran berbahasa
Indonesia. Tafsir Al-Quran ini dalam bentuk database dan dalam penelitian ini,
peneliti menggunakan metode Jaccard Similarity dalam proses menemukan
padanan ayat yang sesuai dengan isi dokumen.


3. RUMUSAN MASALAH
Bagaimana membangun sistem untuk mencari padanan ayat dari Tafsir
Al-Quran dengan dokumen teks yang dikehendaki menggunakan metode Jaccard
Similarity?
4. BATASAN MASALAH
a. Aplikasi yang akan dibuat berbasis desktop dengan bahasa pemrograman
JAVA (Java 2 Standart Edition) dengan database MySQL.
b. Teks yang akan diinputkan dalam format txt dan merupakan isi dari
sebuah bacaan (tidak termasuk daftar pustaka dan sebagainya).
c. Tafsir Al-Qur’an yang digunakan adalah Tafsir Jalalain.
d. Pada tahap preprocessing, stemming bahasa Indonesia menggunakan
algoritma stemming Arifin.
e. Padanan dokumen dengan tafsir Al-Quran diukur berdasarkan tingkat
frekuensi kemunculan kata.
f. Dalam mengukur bobot frekuensi kemunculan kata, untuk mengetahui
pengaruh algoritma pembobotannya menggunakan pembobotan term
frequency- inverse document frequncy (TF-IDF) ternormalisasi.
g. Dalam mencari padanan (similarity) dokumen dengan terjemahan ayat Al-
Quran menggunakan metode Jaccard similarity.

5. TUJUAN
Tujuan dari penelitian adalah untuk membangun sistem yang dapat mencari
padanan ayat dari Tafsir Al-Quran Jalalain dengan dokumen teks yang
dikehendaki menggunakan metode Jaccard Similarity.

5

6. MANFAAT
Manfaat penelitian ini adalah untuk mempermudah user dalam pencocokan
teks Indonesia dengan beberapa ayat Al-Quran menggunakan Tafsir Jalalain
secara efisien.



7. TINJAUAN PUSTAKA
a. Text Mining
Text Mining adalah sebuah proses untuk menggali, mengolah dan mengatur
informasi dengan cara menganalisa hubungan, pola dan aturan-aturan yang ada
pada data tekstual semi terstruktur atau tidak terstruktur. Kunci dari proses ini
adalah menggabungkan informasi yang berhasil diekstraksi dari berbagai sumber
(Tan,1999). Tujuan yang paling utama dari proses ini adalah mendukung proses
knowledge discovery pada koleksi dokumen yang besar.
Dalam teks mining ini dibagi dalam 3 proses utama, yaitu Text
Preprocessing, Text Transformation dan Pattern Discovery.
1. Text Preprocessing
Dalam text mining, tahapan awal yang dilakukan adalah text preprocessing.
Tahap ini bertujuan untuk mempersiapkan teks menjadi data yang akan diproses
pada tahapan berikutnya. Terdapat beberapa hal yang dilakukan dalam tahapan
ini, baik itu berupa tindakan yang bersifat kompleks seperti part-of-speech (pos),
tagging, parse tree, maupun tindakan sederhana seperti tokenization, yaitu tugas
memisahkan deretan kata di dalam kalimat, paragraf atau halaman menjadi token
atau potongan kata tunggal atau termmed word. Tahapan ini juga menghilangkan
karakter-karakter tertentu seperti tanda baca dan mengubah semua token ke
bentuk huruf kecil (case folding) (Husni).
2. Text Transformation (feature generation)
Pada tahap ini dilakukan penyaringan (filtration) dengan menghilangkan
stopword. Stopword merupakan kata-kata yang bukan merupakan ciri (kata unik)
sehingga dengan menghilangkannya dari suatu text maka sistem hanya akan
memperhitungkan kata-kata yang dianggap penting. Penghapusan stop-word dari
6

dalam suatu koleksi dokumen pada satu waktu membutuhkan banyak waktu.
Solusinya adalah dengan menyusun suatu pustaka stop-word atau stop-list dari
term yang akan dihapus. Konversi term ke bentuk akar (stemming) juga
merupakan tindakan yang dapat dilakukan pada tahap ini. Menurut Tala (2003)
stemming merupakan proses untuk mereduksi kata ke bentuk dasarnya.
Karena pada penelitian ini menggunakan dokumen teks bahasa Indonesia
maka dalam melakukan proses stemming kata ke bentuk dasarnya perlu
mengetahui tentang struktur bahasa Indonesia. Dan pada penelitian ini algoritma
yang digunakan dalam melakukan stemming bahasa Indonesia adalah algoritma
Arifin. Pembahasan tentang stemming akan dipaparkan berikutnya.
3. Pattern Discovery
Tahap ini merupakan tahap terpenting dari seluruh proses text mining. Pada
penelitian ini, operasi yang dilakukan adalah clustering dengan pengukuran
kemiripan text (similarity). Teknik yang digunakan pada tahap ini adalah dengan
melakukan pembobotan (weighting) terhadap term dari hasil tahap text
transformation. Setiap term diberikan bobot sesuai dengan skema pembobotan
yang dipilih, baik itu pembobotan lokal, global atau kombinasi keduanya. Banyak
aplikasi menerapkan pembobotan kombinasi berupa perkalian bobot lokal term
frequency dan global inverse document frequency, ditulis tf .idf. Di sini peneliti
akan menggunakan tf.idf yang telah dinormalisasi.
Dan dalam kemiripan antar dokumen didefinisikan berdasarkan representasi
bag-of-words dan dikonversi ke suatu model ruang vektor (vector space model,
VSM). Model ini diperkenalkan oleh Salton (Salton, 1983) dan telah digunakan
secara luas. Setelah merepresentasi term ke dalam bentuk vektor akan dilakukan
proses pencarian kemiripan dengan menghitung nilai cosinus antar vektor yang
dalam penelitian ini menggunakan metode Jaccard similarity yang akan
dijelaskan pada pembahasan berikutnya.

b. Algoritma Stemming Arifin dan Setiono
Dalam Algoritma Arifin dan Setiono ini didahului dengan pembacaan tiap
kata dari data yang ada. Sehingga tahap yang dilakukan dalam Algoritma ini
adalah sebagai berikut :
7

1. Pemeriksaan semua kemungkinan bentuk kata. Setiap kata diasumsikan
memiliki 2 Awalan (prefiks) dan 3 Akhiran (sufiks). Sehingga bentuknya
menjadi:


Jika dalam kata yang diperiksa tidak memiliki imbuhan sebanyak
imbuhan seperti formula di atas, maka imbuhan yang kosong atau tidak ada
tersebut diberi tanda x untuk prefiks dan diberi tanda xx untuk sufiks.
2. Pemotongan dalam Algoritma ini dilakukan secara berurutan sebagai
berikut :
AW : AW (Awalan)
AK : AK (Akhiran)
KD : KD (Kata Dasar)
a. AW I, hasilnya disimpan pada pe1 (prefiks 1)
b. AW II, hasilnya disimpan pada pe2 (prefiks 2)
c. AK I, hasilnya disimpan pada su1 (sufiks 1)
d. AK II, hasilnya disimpan pada su2 (sufiks 2)
e. AK III, hasilnya disimpan pada su3 (sufiks 3)
Dalam setiap tahap pemotongan di atas selalu diikuti dengan
pemeriksaan di dalam kamus. Hal ini untuk mengetahui apakah hasil
pemotongan tersebut sudah ada dalam bentuk dasar. Apabila pemeriksaan ini
berhasil maka proses dinyatakan selesai dan tidak perlu melanjutkan proses
pemotongan imbuhan selanjutnya. Contoh pemenggalan kata
“mempertanyakannya”:
a. Langkah 1 :
Cek kata tersebut dalam kamus
Ya : Sukses
Tidak : melakukan pemotongan AW I
Kata = pertanyakannya
b. Langkah 2 :
Cek kata tersebut dalam kamus
Ya : Sukses
Prefiks 1 + Prefiks 2 + Kata dasar + Sufiks 3 + Sufiks 2 + Sufiks 1

8

Tidak : melakukan pemotongan AW II
Kata = tanyakannya
c. Langkah 3 :
Cek kata tersebut dalam kamus
Ya : Sukses
Tidak : melakukan pemotongan AK I
Kata = tanyakan
d. Langkah 4 :
Cek kata tersebut dalam kamus
Ya : Sukses
Tidak : lakukan pemotongan AK II
Kata = tanya
e. Langkah 5 :
Cek kata tersebut dalam kamus
Ya : Sukses
Tidak : lakukan pemotongan AK III. Dalam hal ini AK III tidak
ada, sehingga kata tidak diubah.
Kata = main
f. Langkah 6
Cek kata tersebut dalam kamus
Ya : Sukses
Tidak : "Kata tersebut tidak ada"
3. Akan tetapi, apabila sampai pada pemotongan AK III, belum ditemukan
dalam kamus, maka akan dilakukan proses kombinasi.
Kata dasar yang dihasilkan dikombinasikan dengan imbuhan-
imbuhannya dalam 12 konfigurasi berikut :
a. KD
b. KD + AK III
c. KD + AK III + AK II
d. KD + AK III + AK II + AK I
e. AW I + AW II + KD
f. AW I + AW II + KD + AK III
9

g. AW I + AW II + KD + AK III + AK II
h. AW I + AW II + KD + AK III + AK II + AK I
i. AW II + KD
j. AW II + KD + AK III
k. AW II + KD + AK III + AK II
l. AW II + KD + AK III + AK II + AK I
Kombinasi a, b, c, d, h, dan l sudah diperiksa pada tahap sebelumnya,
karena kombinasi ini adalah hasil pemotongan bertahap tersebut. Dengan
demikian, kombinasi yang masih perlu dilakukan tinggal 6 yakni pada
kombinasi-kombinasi yang belum dilakukan (e, f, g, i, j, dan k). Apabila
dalam proses kombinasi yang dilakukan itu ada, maka pemeriksaan pada
kombinasi lainnya sudah tidak diperlukan lagi.
Pemeriksaan dalam 12 kombinasi ini sangat diperlukan, hal ini
dikarenakan fenomena overstemming pada algoritma pemotongan imbuhan.
Kelemahan ini berakibat pada pemotongan bagian kata yang sebenarnya
adalah milik kata dasar itu sendiri yang kebetulan mirip dengan salah satu
jenis imbuhan yang ada. Dengan 12 kombinasi itu, pemotongan yang sudah
terlanjur tersebut dapat dikembalikan sesuai posisinya. (Arifin-Setiono, 2000)
Alasan dalam pemilihan Algoritma Stemming ini salah satu
keuntungannya adalah jika kata dasar dari sebuah kata turunan tidak dapat
ditemukan setelah menghilangkan prefix dan suffix nya maka algoritma ini
akan mencoba mengembalikan kembali semua imbuhan yang telah
dihilangkan tadi dengan menggunakan 12 kombinasi untuk dikombinasikan
dengan kata hasil stemming dari kata turunan yang kata dasarnya tidak
ditemukan dalam kamus.

c. Algoritma Pembobotan
Pembobotan tf-idf ternormalisasi
Dalam pembobotan tf-idf ternormalisasi ini menggabungkan dua konsep
untuk perhitungan bobot yaitu, pertama frekuensi kemunculan sebuah kata di
dalam sebuah dokumen tertentu dan kedua inverse frekuensi dokumen yang
mengandung kata tersebut. Frekuensi kemunculan kata yang ada di dalam
10

dokumen menunjukkan seberapa penting kata tersebut di dalam dokumen
tersebut. Frekuensi dokumen yang mengandung kata tersebut menunjukkan
seberapa umum kata tersebut. Jadi, bobot hubungan antara sebuah kata dan
sebuah dokumen akan tinggi apabila frekuensi kata tersebut tinggi di dalam
dokumen dan frekuensi keseluruhan dokumen yang mengandung kata tersebut
yang rendah pada kumpulan dokumen atau database.
Rumus umum untuk tf-idf:
w
ij
= tf
ij
x idf
i
(1)

(2)

dimana:
i = dokumen ke-i
j =kata ke-j dari kata kunci
w = bobot dokumen ke-i terhadap kata ke-j
N = jumlah semua dokumen yang ada dalam database
n = jumlah dokumen yang mengandung kata/term tj
(minimal ada satu kata yaitu term tj)
Berdasarkan pada rumus diatas, berapapun besarnya nilai tfij, apabila N = n
maka akan didapatkan hasil 0 (nol) untuk perhitungan idf. Untuk itu dapat
ditambahkan nilai 1 pada sisi idf, sehingga perhitungan bobotnya menjadi sbb:

(

)

(3)

Rumus (3) dapat dinormalisasi dengan Rumus (4) bertujuan untuk
menstandarisasi nilai bobot ke dalam interval 0 s.d. 1, sbb:
Rumus tf-idf dengan menggunakan normalisasi

(

)
√∑

(

)

(4)

Berdasarkan dari hasil perhitungan diatas, dapat dilihat bahwa semakin
sedikit suatu term ditemukan dalam documen dan semakin banyak term tersebut
11

dalam dokumen tersebut, maka bobot hubungan antara term terhadap dokumen
akan semakin besar. (Intan)
Faktor normalisasi ini digunakan untuk menormalkan vektor dokumen
sehingga proses similarity tidak terpengaruh oleh panjang dari dokumen.
Normalisasi ini diperlukan karena dokumen panjang biasanya mengandung
perulangan term yang sama sehingga menaikkan frekuensi term (tf). Dokumen
panjang juga mengandung banyak term yang berbeda sehingga menaikkan ukuran
kemiripan antara query dengan dokumen tersebut.

d. Vector Space Model (VSM)
Pada Information Retrieval System terdapat beberapa metode yang digunakan
dalam Searching salah satunya adalah dengan merepresentasikan proses
Searching menggunakan Model Ruang Vektor (Vector Space Model). Untuk
mengimplementasikan model ruang vektor, diasumsikan sudah tersedia
sekumpulan term yang dapat mendeskripsikan kumpulan dokumen yang
tersimpan dalam suatu sistem temu-kembali informasi. Baik query maupun
dokumen-dokumen yang disimpan, dinyatakan dalam bentuk vector (Salton,
1983).
Misalkan terdapat sejumlah n kata yang berbeda sebagai kamus kata
(vocabulary) atau indeks kata (terms index). Kata-kata ini akan membentuk ruang
vektor yang memiliki dimensi sebesar n. Setiap kata i dalam dokumen atau query
diberikan bobot sebesar wi. Baik dokumen maupun query direpresentasikan
sebagai vektor berdimensi n. Sebagai contoh terdapat 3 buah kata (T
1
, T
2
dan T
3
),
2 buah dokumen (D1 dan D2) serta sebuah query Q. Masing-masing bernilai:
D
1
= 2T
1
+3T
2
+5T
3

D
2
= 3T
1
+7T
2
+0T
3

Q = 0T
1
+0T
2
+2T
3

12


Gambar 1: Contoh model ruang vektor dengan dua dokumen D
1
dan D
2
, serta
query Q
1


Koleksi dokumen direpresentasikan juga dalam ruang vector sebagai matriks
kata-dokumen (term-document matrix). Nilai setiap sel dalam elemen matriks
bersesuaian dengan bobot yang diberikan dari suatu term dalam dokumen yang
ditentukan. Nilai nol berarti bahwa term tersebut tidak hadir di dalam dokumen.
(Cios, Krzysztof: 2007).
Misalkan terdapat sekumpulan kata T sejumlah n, yaitu T = (T
1
, T
2
, … , T
n
)
dan sekumpulan dokumen D sejumlah m, yaitu D = (D
1
, D
2
, … , D
m
) serta w
ij

adalah bobot kata i pada dokumen j. Maka gambar 2 adalah representasi
matriks kata-dokumen (Mandala, 2006).

Gambar 2: Contoh Representasi matriks kata-dokumen

Keberhasilan dari Model Ruang Vektor ini ditentukan dari skema
pembobotan terhadap suatu term untuk cakupan lokal maupun global, dan faktor
normalisasi.

e. Jaccard Similarity
Dalam penelitian kali ini metode kemiripan yang digunakan adalah Jaaccard
Similarity. Indeks Jaccard, juga dikenal sebagai koefisien Jaccard Similarity
diciptakan oleh Paul de communauté Jaccard adalah statistik yang digunakan
untuk membandingkan kesamaan dan keragaman set sampel. Koefisien Kesamaan
13

antara Jaccard mengukur set sampel dan didefinisikan sebagai ukuran dari
persimpangan dibagi ukuran persatuan set.

f. Tingkat Kemiripan
Persamaan untuk mendapatkan kemiripan antara query dengan dokumen
adalah:



(5)
Contoh:
Dilakukan pencarian dengan menggunakan kata kunci “pelajaran Al-Quran”,
di dalam database terdapat 3 dokumen:
D
1
: “Sesungguhnya pada yang demikian itu benar-benar terdapat tanda-
tanda) yakni pelajaran bagi orang-orang yang beriman”
D
2
: “(Dan sesungguhnya telah kami mudahkan Alquran untuk pelajaran,
maka adakah orang yang mengambil pelajaran?)”
D
3
: “(Ingatlah) Di sini menunjukkan makna Istiftah atau kata itu Al-
Quran”
Kata yang tidak terdapat dalam tabel adalah stopword yang dihilangkan
sebelum pembobotan. Dalam table merupakan kata-kata dasar yang telah
dilakukann proses stemming dan pembentukan vector yaitu pada proses text
transformation.
Pembentukan vektor dari query dan dokumen dengan pembobotan tf dapat
dilihat pada Tabel 1
Tabel 1 Term Vektor Model
Count, tf
i
Weight,

(

)
√∑

(

)

Term Q D
1
D
2
D
3
df
i
D/df
i
IDF
i
Q D
1
D
2
D
3

sungguh 0 1 1 0 2 3/2=1.5 0.1761 0 0.5288 0.3305 0
mudah 0 0 1 0 1 3/1=3 0.4771 0 0 0.415 0
14

Al-Quran 1 0 1 1 2 3/2=1.5 0.1761 0.707 0 0.3305 0.492
ajar 1 1 2 0 2 3/2=1.5 0.1761 0.707 0.5288 0.6611 0
ambil 0 0 1 0 1 3/1=3 0.4771 0 0 0.415 0
iman 0 1 0 0 1 3/1=3 0.4771 0 0.6641 0 0
makna 0 0 0 1 1 3/1=3 0.4771 0 0 0 0.618
Istiftah 0 0 0 1 1 3/1=3 0.4771 0 0 0 0.618

Untuk semua dokumen dan query, dihitung semua vektor length:
W
ij1
2
=

.002
W
ij2
2
=

W
ij3
2
=

W
iq
2
=

Setelah itu dihitung semua dot product:
W
iq
∙ W
ij1

= 0.707 * 0.5288 = 0.3738
W
iq
∙ W
ij2

= (0.707 * 0.3305) + (0.707 * 0.6611) = 0.7009
W
iq

∙ W
ij3

= 0.707 * 0.492 = 0.3478

Dan kemudian menghitung nilai dari kemiripan

Dari perhitungan tersebut jika diurutkan berdasarkan nilai kemiripan antara
query dengan dokumen, yaitu dari nilai yang paling mendekati 1, maka sebagai
berikut:
Rank 1: dokumen 2 = 0.5411
Rank 2: dokumen 3 = 0.209
Rank 3: dokumen 1 = 0.229

15

8. PENELITIAN TERKAIT
Terdapat beberapa penelitian yang terkait dengan penelitian yang dilakukan
oleh penulis, diantaranya yaitu:
a. Pengembangan Aplikasi Pendeteksi Plagiarisme Menggunakan Metode
Latent Semantic Analysis (LSA)
Penelitian yang dilakukan oleh mahasiswa jurusan Ilmu Komputer ini
termasuk dalam bidang text mining. Document similarity sebagai bagian dari
bidang text mining ini diimplementasikan oleh peneliti dalam pengembangan
aplikasi pendeteksi plagiarisme dengan mengukurur nilai
antar dokumen. Dalam metode Latent Semantic Analysis (LSA) yang
digunakan oleh peneliti terdapat beberapa tahap yang dilakukan hingga
mendapat nilai similarity antara dokumen dengan dokumen yang lainnya,
tahapan tersebut adalah parsing text dan pembobotan dengan algoritma Term
Frequency-Inverse Document Frequence (TF-IDF) hingga tahap perhitungan
similarity dengan menggunakan cosine similarity.
b. HARD : Subject-Based Search Engine Menggunakan TF-IDF dan Jaccard’s
Coefficient
Paper ini memperkenalkan suatu algorima search engine berdasarkan konsep
HARD (High Accuracy Retrieval from Documents) dengan menggabungkan
penggunaan metoda TF-IDF (Term Frequency Inverse Document Frequency)
dan Jaccard’s Coefficient. Similarity term terhadap term bisa juga
didapatkan dengan menerapkan metode Jaccard’s Coefficient. Metode Tf-Idf
merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term)
terhadap dokumen. Metode ini menggabungkan dua konsep untuk
perhitungan bobot. Pencarian similarity ini perlu didasarkan pada sesuatu
yang memiliki relasi dengan term. Dalam hal ini digunakan hubungan term
terhadap subyek maupun dokumen yang telah didapatkan. Masing–masing
hubungan antara term terhadap subyek dan hubungan term terhadap
dokumen memiliki kelemahannya masing-masing.
c. Automated Multiple Related Documents Summarization via Jaccard’s
Coefficient
16

Dalam paper ini menggunakan Jaccard Coefficient untuk mencare dokumen
yang sama. Dalam menggunakan Jaccard Coefficent, juga menggunakan text
mining dan stemming. Disini dibandingkan perhitungan menggunakan
system yang telah jadi dengan perhitungan manual dan hasilnya tidak
berbeda jauh.

9. METODE PENELITIAN
Dalam penelitian ini terdapat beberapa tahap dalam pengerjaan untuk
digunakan sebagai awal dalam menyelesaikan penelitian. Acuan ini
menjelaskan apa yang harus dilakukan dalam penelitian hingga pembuatan
laporan akhir. Tahap-tahap dalam penelitian adalah sebagai berikut:





















Pattern Discovery /
Analysis
Hasil padanan
Ayat
Evaluasi dan Uji Coba
Penyusunan Laporan Akhir
Ukuran kemiripan
(Jaccard similarity)
Text
Preprocessing
Teks
Transformation
VSM (Vector Space Model)
VSM (Vector Space Model)
Pembobotan tf-idf
ternormalisasi
Stemming
Filtering Stemming
Case Folding Tokenization Case Folding Tokenization
Filtering
Pengambilan Data
Teks dokumen
berbahasa Indonesia
Database Tafsir
Jalalain Al-Quran
Pencarian Literatur
Pembobotan tf-idf
ternormalisasi
17





Gambar 3: Tahapan penelitian

1. Pengumpulan literatur
Dalam tahap ini dikumpulkan beberapa informasi seperti : Pertama,
Pengumpulan informasi tentang cara mengolah kata dan kalimat dalam
Pemrograman Java dan informasi tentang penggunaan database dalam
pengolahan tersebut. Kedua, pencarian data tafsir Al-Quran Jalalain
berbahasa Indonesia. Data tafsir ini didapatkan melalui situs
http://www.maktabah-alhidayah.tk/. Ketiga, Pengumpulan informasi tentang
bagaimana cara menghitung frekuensi kemunculan kata pada suatu dokumen
dalam melakukan pembobotan dan representasi model ruang vektor.
Pengumpulan informasi tentang metode pencarian padanan (similarity) ayat
yang sesuai dengan dokumen serta teknik-tekniknya.
2. Perancangan dan Desain Aplikasi
Perancangan aplikasi terdiri dari perancangan proses-proses utama dan desain
aplikasi terdiri atas desain antar muka dan desain database Al-Quran
terjemah. Terdapat beberapa proses utama yaitu: text preprocessing (case
folding, tokenization), text transformation (filtering, stemming), dan yang
ketiga adalah Pattern Discovery yaitu dengan melakukan representasi nilai
numerik (model ruang vektor, normalisasi, pembobotan tf-idf ternormalisasi)
dan mengukur kemiripan dengan Jaccard Similarity. Pemodelan proses-
proses tersebut dibuat dalam UML dengan menggunakan aplikasi pemodelan
visual Rational Rose.
3. Pembuatan aplikasi
Pada tahap ini, perancangan dan desain aplikasi diimplementasikan dengan
bahasa pemrograman Java dan database MySQL. Aplikasi dibangun dengan
IDE NetBeans 6.9 untuk mempermudah desain antarmuka dan database yang
18

digunakan adalah MySQL. Pemilihan ini dikarenakan MySQL mudah dan
tidak berat dalam pengoperasiannya.
4. Uji coba dan evaluasi
Uji coba dan evaluasi dilakukan pada aplikasi dan hasil dari pencarian
padanan ayat yang sesuai dengan teks.
5. Penyusunan laporan
Penyusunan laporan akhir merupakan dokumentasi dari keseluruhan
pelaksanaan penelitian. Diharapkan dokumentasi penelitian berguna dan
bermanfaat untuk penelitian atau pengembangan lebih lanjut.

10. RANCANGAN SISTEM
Dalam sistem ini terdapat satu aktor, yaitu user. User dapat menginputkan
dokumen yang kemudian akan diproses dalam sistem untuk dicocokkan dengan
database Tafsir Al-Quran berbahasa Indonesia sehingga akan diperoleh padanan
ayat yang sesuai dengan input dokumen oleh user.








Gambar 4: Diagram usecase
Untuk memperoleh padanan ayat yang sesuai dengan dokumen yang
diinputkan user terdapat akan melalui tahapan proses text mining, yaitu: text
prepocessing, text transformation, dan pattern discovery.
1. Text prepocessing
Tahapan awal yang dilakukan adalah prepocessing, langkah-langkah yang
akan dilakukan adalah case folding atau dalam Java disebut toLowerCase, yaitu
mengubah semua huruf dalam dokumen teks menjadi huruf kecil. Kemudian
dilakukan proses parsing. Parsing yang digunakan dalam penelitian ini yaitu
memecah dokumen teks menjadi kumpulan kata-kata tanpa memperhatikan
User

Input data
Hasil Padanan Ayat Al-Quran

19

keterkaitan antar kata dan peran atau kedudukannya dalam kalimat dan seperti
yang dijelaskan sebelumnya, karakter yang diterima dalam pembentukan kata
adalah karakter huruf saja sehingga selain huruf akan dihapus. Proses ini juga
sering disebut disebut tokenizing. Jadi, seperti kata ulang yang ada dalam kaidah
bahasa Indonesia, ini akan diurai menjadi dua kata bukan satu kesatuan kata.
Setelah itu, akan disimpan dalam database. Dalam proses ini terdapat perulangan
hingga kata = 0. Apabila kata > 0 maka proses ini akan terus berlanjut. Berikut
diagram alir tentang proses text preprocessing :

















Gambar 5: Diagram alir tahap prepocessing
2. Text transformation
Tahap text transformation ini dilakukan filtering, yaitu dengan
menghilangkan stop-word dari daftar term yang telah diproses dalam
preprocessing dan disimpan dalam database. Daftar stop-word yang akan
digunakan dalam penelitian ini bersumber dari Tala (2003). Lalu akan dilakukan
proses stemming (mencari akar kata) menggunakan algoritma stemming Arifin.

START
Dokumen
END
Merubah menjadi huruf
kecil (toLowerCase)
Pemotongan dokumen per-
kata dan menghilangkan
tanda baca (Tokenization)
Simpan dalam
database
Jumlah
kata > 0
T
Y
START
kata hasil
proses
preprocessing
20












Gambar 6: Diagram alir penghilangan stop-word (filtering)











Gambar 7: Diagram alir algoritma stemming Arifin

3. Pattern Discovery
Pada tahap ini dilakukan representasi nilai numerik yaitu dengan melakukan
pembobotan, normalisasi, dan model ruang vektor (vektor space model). Dari nilai
vector tersebut diukur kemiripan dengan menghitung Jaccard antar vektor query
dengan vektor tiap tafsir Al-Quran sehingga diperoleh nilai dengan range antara 0
sampe 1, semakin nilai mencapai angka 1 maka dokumen tersebut semakin sama.

START
END
Kata
Memotong
Imbuhan
Cek kombinasi
balikan
Kata dasar
ketemu
Y
T
21












Gambar 8: Diagram alir tahap pattern discovery
11. JADWAL
Penelitian dibuat dengan menganut jadwal yang tertera pada tabel 2.
Tabel 2 : Jadwal pelaksanaan penelitian

No Uraian
I II III IV
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1.
Studi literature dan
pengumpulan data

2.
Perancangan system dan
interface

3. Tahap preprocesing
4. Proses Stemming Arifin
5.
Pembobotan tf-idf
ternormalisasi

6.
Representasi vector space
model (VSM)

7.
Pembuatan pencari ayat
sederhana dan Uji coba tahap
awal

8. Evaluasi
9.
Pencocokan document dengan
Jaccard similarity

START
Hitung nilai pembobotan
(Weighting) TF-IDF
Ternormalisasi
Representasi Vector Space
Model
Hitung nilai Similarity
(Jaccard Similarity)
Hasil
Perhitungan
(0-1)
Padanan Ayat
yang sesuai
END
Daftar term
dalam koleksi
22

10. Evaluasi tahap 2
11.
Dokumentasi dan pembuatan
laporan



12. DAFTAR PUSTAKA

Al-Quran al-Karim
Arifin, Agus Zainal dan Ari Setiono, Novan. Klasifikasi Dokumen Berita
Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering.
Institut Teknologi Sepuluh November (ITS). Surabaya.
http://www.its.ac.id/personal/files/pub/667-agusza-
SITIAKlasifikasiEvent.pdf. Diakses pada 25 Juli 2011
Cios, Krzysztof J. Etc. (2007) Data Mining A Knowledge Discovery Approach,
Springer. http://uploading.com/files/get/c96m96a8/. Diakses pada tanggal
8 Juni 2011
Hadhiri, Choiruddin SP. 2005. Klasifikasi Kandungan Al-Qur'an .Jakarta :
GEMA INSANI
Intan, Rolly, et al. HARD: Subject-Based Search Engine Menggunakan Tf-Idf
dan Jaccard’s Coefficient. Universtas Kristen Petra Surabaya.
http://www.maktabah-alhidayah.tk/ . Diakses pada tanggal 30 November 2011
http://www.republika.co.id/berita/dunia-islam/islam-nusantara/10/09/25/136336-
jumlah-penghafal-alquran-indonesia-terbanyak-di-dunia. Diakses pada
tanggal 20 Agustus 2011
http://en.wikipedia.org/wiki/Jaccard_index#Tanimoto_Similarity_and_Distance
Diakses pada tanggal 20 Agustus 2011
http://vemby-yoel.blogspot.com/2011/05/text-mining.html Diakses pada tanggal
20 Agustus 2011
http://liyantanto.wordpress.com/2011/06/28/pencarian-dengan-metode-vektor-
space-model-vsm/ Diakses pada tanggal 20 Agustus 2011
http://people.revoledu.com/kardi/tutorial/Similarity/WhatIsSimilarity.html#Dista
nce Diakses pada tanggal 20 Agustus 2011
23

http://people.revoledu.com/kardi/tutorial/Similarity/Jaccard.html Diakses pada
tanggal 20 Agustus 2011
http://people.revoledu.com/kardi/tutorial/Similarity/index.html Diakses pada
tanggal 20 Agustus 2011
http://en.wikipedia.org/wiki/Jaccard_index Diakses pada tanggal 20 Agustus
2011
http://www.lans.ece.utexas.edu/~strehl/diss/node56.html Diakses pada tanggal
20 Agustus 2011
http://jenigroup.blogspot.com/2009/01/kekurangan-dan-kelebihan-java.html
Diakses pada tanggal 20 Agustus 2011
Mandala, Rila . 2006. Evaluasi Kinerja Sistem Penyaringan Informasi Model
Ruang Vektor . Institut Teknologi Bandung
Martin, Indrajani. 2007. Pemrograman Berbasis Objek dengan Bahasa Java.
Jakarta : Elex Media Komputindo
Polettini, Nicola. 2004. The Vector Space Model in Information Retrieval –
Term Weighting Problem
Raymond J. Mooney. 2006. CS 391L: Machine Learning Text Categorization.
University of Texas at Austin.
Salton, Gerard. 1983. Introduction to Modern Information Retrieval, McGraw
Hill
Sanjaya, Ridwan, SE, S.Kom. 2005. Pengolahan Database MySQL 5 dengan
Java 2. Yogyakarta: Penerbit Andi
Swastika, Windra. 2006. PHP 5 dan MYSQL 4 Proyek Membuat BLOG.
Jakarta : Dian Rakat
Thalib, Farid. 2010. Pembuatan Program Aplikasi untuk Pendeteksian
Kemiripan Dokumen Teks dengan Algoritma Smith – Waterman.
Universitas Gunadara. Depok
Tata, Sandeep, Patel M, Jignesh. 2007. Estimating he Selectivity of tf-idf based
Cosine Similarity Predicates, Sigmod Record December 2007 Vol 36 No.
2
Tala., Fadillah Z. 2003. A Study of Stemming Efects on Information Retrieval in
Bahasa Indonesia. Institute for Logic, Language and Computation
24

Universite itvan Amsterdam The Netherlands.
www.illc.uva.nl/publications/ResearchReport/Mol200302.text.pdf.
Diakses tanggal 8 Juni 2011.
Trunojoyo, Husni. Buku Ajar. Information Retrieval dan Klasifikasi.
http://husni.trunojoyo.ac.id/wp-content/uploads/2010/03/Husni-IR-dan-
Klasifikasi.pdf. Diakses pada 8 Juni 2011.
Yasin, Huda. 2011. Automated Multiple Related Documents Summarization via
Jaccard’s Coefficient. University of Karachi. Pakistan
Wardhana, Wisnu Arya. 2006. Melacak Teori Einstein dalam Al-Qur'an.
PUSTAKA PELAJAR : Yogyakarta


USULAN PENELITIAN
RANCANG BANGUN SEARCH ENGINE TAFSIR AYAT-AYAT AL-QURAN
YANG SESUAI DENGAN DOKUMEN TEKS BERBAHASA INDONESIA
MENGGUNAKAN METODE JACCARD SIMILARITY



Oleh
SOFI SILVIA S.P
NIM. 08650007


Telah Disetujui oleh :

25

Penguji I



M. Faisal, M.T
19740510 200501 1 007
Penguji II



Zainal Abidin, M.Kom
19760613 200501 1 001
Penguji III



Fatchurrohman, M.Kom
19700731 200501 1 002

26



- Input artikel -


- Output hasil padanan ayat -

file
cari
Input :
Hasil :

1. JUDUL
RANCANG BANGUN SEARCH ENGINE TAFSIR AYAT-AYAT AL-QURAN YANG SESUAI DENGAN DOKUMEN TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE JACCARD SIMILARITY

2. LATAR BELAKANG Al-Quran adalah mukjizat Allah yang diturunkan kepada Nabi Muhammad melalui malaikat Jibril. Kitab Allah yang paling sempurna dan merupakan petunjuk dari segala petunjuk. Setiap Muslim tentu menyadari, bahwa Al-Quran adalah kitab Suci yang merupakan pedoman hidup dan dasar setiap langkah hidup. (Hadhiri, 2005). Selain itu, kemurnian Kitab Suci ini dijamin langsung oleh Allah dan pada kenyataannya dapat dilihat bahwa satu-satunya kitab suci yang mudah dipelajari bahkan sampai dihafal oleh beribu-ribu umat Islam adalah Al-Quran. Al-Quran mempunyai banyak pelajaran yang terkandung di dalamnya. Pelajaran yang sangat berharga dan terkandung di dalam Al-Quran seperti firman Allah dibawah ini :

QS. Al-Ma’idah:49







                              

 
49. dan hendaklah kamu memutuskan perkara di antara mereka menurut apa yang diturunkan Allah, dan janganlah kamu mengikuti hawa nafsu mereka. dan berhati-hatilah kamu terhadap mereka, supaya mereka tidak memalingkan kamu
1

Maka ketahuilah bahwa Sesungguhnya Allah menghendaki akan menimpakan mushibah kepada mereka disebabkan sebahagian dosa-dosa mereka. Kitab (Al-Quran) ini tidak ada keraguan padanya. Dalam sejumlah ayat juga terdapat banyak fakta ilmiah yang dinyatakan secara sangat akurat dan benar yang baru dapat ditemukan dengan teknologi abad ke-20. Al-Qamar: 22) Al-Quran juga merupakan petunjuk bagi umat manusia seperti dalam ayat AlQuran berikut ini: QS. dan Sesungguhnya kebanyakan manusia adalah orang-orang yang fasik. jika mereka berpaling (dari hukum yang telah diturunkan Allah). (QS.         Dan sesungguhnya telah Kami mudahkan Al-Quran untuk pelajaran. maka adakah orang yang mengambil pelajaran. Fakta-fakta ini belum dapat diketahui di 2 . Al-Quran banyak memuat ilmu pengetahuan yang dapat dibaca secara induktif maupun deduktif yang banyak bermanfaat bagi manusia (Wardhana. 2006). Isi kandungan dari Al-Quran juga dapat menjelaskan ilmu pengetahuan dan teknologi yang bahkan masih ditemukan maupun berkembang sekarang ini. 2. Al-Baqarah :1-2             1. petunjuk bagi mereka yang bertaqwa Selain itu. Salah satu bukti adalah fakta bahwa beberapa kebenaran ilmiah yang ternyata baru mampu ditemukan sekitar abad ke-20 ternyata telah ada dalam AlQuran lebih dari 1400 tahun yang lalu.dari sebahagian apa yang telah diturunkan Allah kepadamu. Alif laam miin.

Dalam mencari padanan ayat dalam tafsir Al-Quran tersebut peneliti mengukur kemiripan dari dokumen yang terkait. Segala permasalahan dan pemecahannya haruslah berlandaskan Al-Quran. Sebagai seorang Muslim. sudah seharusnya kita menjadikan Al-Quran sebagai pedoman hidup dan petunjuk bagi setiap permasalahan. Hanya saja banyak sekali kesulitan untuk menemukan ayat Al-Quran yang sesuai dengan permasalahan. Dan apakah Tuhanmu tidak cukup (bagi kamu) bahwa sesungguhnya Dia menyaksikan segala sesuatu?” (Fushshilat: 53) Dari ayat-ayat di atas dapat kita ketahui bahwa Al-Quran merupakan petunjuk bagi manusia. 3 . sehingga jelaslah bagi mereka bahwa Al-Qur`an itu adalah benar.                      “Kami akan memperlihatkan kepada mereka tanda-tanda (kekuasaan) Kami di segenap ufuk dan pada diri mereka sendiri. dan sebagainya. dan ini semakin membuktikan bahwa Al-Quran adalah firman Allah. ayat-ayat Al-Quran yang mengandung topik berbeda-beda dalam satu surat serta persamaan topik pada surat yang lain. Seperti Firman Allah dibawah ini. Hal itulah yang memotivasi untuk merancang dan membuat suatu sistem yang dapat memudahkan seseorang dalam menemukan padanan ayat Al-Quran yang sesuai dengan suatu teks/dokumen tertentu. Menjadikannya cermin melihat dan mengukur akhlak dan setiap aktivitas yang kita lakukan. Ditambah kesulitan memahami terjemahan AlQuran yang bahasanya kadang masih membingungkan.masa Al-Quran diwahyukan.

Pada tahap preprocessing. Tafsir Al-Quran ini dalam bentuk database dan dalam penelitian ini. f. RUMUSAN MASALAH Bagaimana membangun sistem untuk mencari padanan ayat dari Tafsir Al-Quran dengan dokumen teks yang dikehendaki menggunakan metode Jaccard Similarity? 4. 3. TUJUAN Tujuan dari penelitian adalah untuk membangun sistem yang dapat mencari padanan ayat dari Tafsir Al-Quran Jalalain dengan dokumen teks yang dikehendaki menggunakan metode Jaccard Similarity. Data ini sebagai sebuah inputan melalui beberapa proses sebelum disamakan dengan tafsir Al-Quran berbahasa Indonesia. untuk mengetahui pengaruh algoritma pembobotannya menggunakan pembobotan term frequency. b. 5. Dalam mengukur bobot frekuensi kemunculan kata. d. c. e. Teks yang akan diinputkan dalam format txt dan merupakan isi dari sebuah bacaan (tidak termasuk daftar pustaka dan sebagainya). 4 . Dalam mencari padanan (similarity) dokumen dengan terjemahan ayat AlQuran menggunakan metode Jaccard similarity. peneliti menggunakan metode Jaccard Similarity dalam proses menemukan padanan ayat yang sesuai dengan isi dokumen. Tafsir Al-Qur’an yang digunakan adalah Tafsir Jalalain. stemming bahasa Indonesia menggunakan algoritma stemming Arifin. g.Dokumen berupa teks yang berbahasa Indonesia.inverse document frequncy (TF-IDF) ternormalisasi. BATASAN MASALAH a. Padanan dokumen dengan tafsir Al-Quran diukur berdasarkan tingkat frekuensi kemunculan kata. Aplikasi yang akan dibuat berbasis desktop dengan bahasa pemrograman JAVA (Java 2 Standart Edition) dengan database MySQL.

maupun tindakan sederhana seperti tokenization. yaitu Text Preprocessing. 2. Tahap ini bertujuan untuk mempersiapkan teks menjadi data yang akan diproses pada tahapan berikutnya. Dalam teks mining ini dibagi dalam 3 proses utama. Text Transformation dan Pattern Discovery. 1. tahapan awal yang dilakukan adalah text preprocessing. Tahapan ini juga menghilangkan karakter-karakter tertentu seperti tanda baca dan mengubah semua token ke bentuk huruf kecil (case folding) (Husni). Kunci dari proses ini adalah menggabungkan informasi yang berhasil diekstraksi dari berbagai sumber (Tan. Stopword merupakan kata-kata yang bukan merupakan ciri (kata unik) sehingga dengan menghilangkannya dari suatu text maka sistem hanya akan memperhitungkan kata-kata yang dianggap penting. Penghapusan stop-word dari 5 . MANFAAT Manfaat penelitian ini adalah untuk mempermudah user dalam pencocokan teks Indonesia dengan beberapa ayat Al-Quran menggunakan Tafsir Jalalain secara efisien. Tujuan yang paling utama dari proses ini adalah mendukung proses knowledge discovery pada koleksi dokumen yang besar. TINJAUAN PUSTAKA a. yaitu tugas memisahkan deretan kata di dalam kalimat. Terdapat beberapa hal yang dilakukan dalam tahapan ini.1999). parse tree. paragraf atau halaman menjadi token atau potongan kata tunggal atau termmed word. baik itu berupa tindakan yang bersifat kompleks seperti part-of-speech (pos). pola dan aturan-aturan yang ada pada data tekstual semi terstruktur atau tidak terstruktur. Text Preprocessing Dalam text mining. Text Mining Text Mining adalah sebuah proses untuk menggali. mengolah dan mengatur informasi dengan cara menganalisa hubungan. Text Transformation (feature generation) Pada tahap ini dilakukan penyaringan (filtration) dengan menghilangkan stopword. tagging. 7.6.

Sehingga tahap yang dilakukan dalam Algoritma ini adalah sebagai berikut : 6 . Pattern Discovery Tahap ini merupakan tahap terpenting dari seluruh proses text mining.idf. Setelah merepresentasi term ke dalam bentuk vektor akan dilakukan proses pencarian kemiripan dengan menghitung nilai cosinus antar vektor yang dalam penelitian ini menggunakan metode Jaccard similarity yang akan dijelaskan pada pembahasan berikutnya. Pada penelitian ini. 1983) dan telah digunakan secara luas. Setiap term diberikan bobot sesuai dengan skema pembobotan yang dipilih. Teknik yang digunakan pada tahap ini adalah dengan melakukan pembobotan (weighting) terhadap term dari hasil tahap text transformation. VSM). operasi yang dilakukan adalah clustering dengan pengukuran kemiripan text (similarity). Algoritma Stemming Arifin dan Setiono Dalam Algoritma Arifin dan Setiono ini didahului dengan pembacaan tiap kata dari data yang ada. global atau kombinasi keduanya.idf yang telah dinormalisasi. b.dalam suatu koleksi dokumen pada satu waktu membutuhkan banyak waktu. Solusinya adalah dengan menyusun suatu pustaka stop-word atau stop-list dari term yang akan dihapus. Menurut Tala (2003) stemming merupakan proses untuk mereduksi kata ke bentuk dasarnya. baik itu pembobotan lokal. Dan dalam kemiripan antar dokumen didefinisikan berdasarkan representasi bag-of-words dan dikonversi ke suatu model ruang vektor (vector space model. 3. Dan pada penelitian ini algoritma yang digunakan dalam melakukan stemming bahasa Indonesia adalah algoritma Arifin. Model ini diperkenalkan oleh Salton (Salton. Konversi term ke bentuk akar (stemming) juga merupakan tindakan yang dapat dilakukan pada tahap ini. Karena pada penelitian ini menggunakan dokumen teks bahasa Indonesia maka dalam melakukan proses stemming kata ke bentuk dasarnya perlu mengetahui tentang struktur bahasa Indonesia. Di sini peneliti akan menggunakan tf. Pembahasan tentang stemming akan dipaparkan berikutnya. ditulis tf . Banyak aplikasi menerapkan pembobotan kombinasi berupa perkalian bobot lokal term frequency dan global inverse document frequency.

hasilnya disimpan pada pe1 (prefiks 1) b. hasilnya disimpan pada su3 (sufiks 3) Dalam setiap tahap pemotongan di atas selalu diikuti dengan pemeriksaan di dalam kamus. maka imbuhan yang kosong atau tidak ada tersebut diberi tanda x untuk prefiks dan diberi tanda xx untuk sufiks. Contoh pemenggalan kata “mempertanyakannya”: a. Langkah 1 : Cek kata tersebut dalam kamus Ya Tidak Kata : Sukses : melakukan pemotongan AW I = pertanyakannya b. hasilnya disimpan pada su1 (sufiks 1) d. Setiap kata diasumsikan memiliki 2 Awalan (prefiks) dan 3 Akhiran (sufiks). 2. hasilnya disimpan pada su2 (sufiks 2) e. Pemeriksaan semua kemungkinan bentuk kata. Sehingga bentuknya menjadi: Prefiks 1 + Prefiks 2 + Kata dasar + Sufiks 3 + Sufiks 2 + Sufiks 1 Jika dalam kata yang diperiksa tidak memiliki imbuhan sebanyak imbuhan seperti formula di atas. AW II. hasilnya disimpan pada pe2 (prefiks 2) c. Langkah 2 : Cek kata tersebut dalam kamus Ya : Sukses 7 . Apabila pemeriksaan ini berhasil maka proses dinyatakan selesai dan tidak perlu melanjutkan proses pemotongan imbuhan selanjutnya.1. AK II. AK I. AW I. Hal ini untuk mengetahui apakah hasil pemotongan tersebut sudah ada dalam bentuk dasar. Pemotongan dalam Algoritma ini dilakukan secara berurutan sebagai berikut : AW : AW (Awalan) AK : AK (Akhiran) KD : KD (Kata Dasar) a. AK III.

belum ditemukan dalam kamus. Langkah 5 : Cek kata tersebut dalam kamus Ya Tidak : Sukses : lakukan pemotongan AK III. apabila sampai pada pemotongan AK III. KD + AK III + AK II d. Langkah 3 : Cek kata tersebut dalam kamus Ya Tidak Kata : Sukses : melakukan pemotongan AK I = tanyakan d. Langkah 4 : Cek kata tersebut dalam kamus Ya Tidak Kata : Sukses : lakukan pemotongan AK II = tanya e. AW I + AW II + KD + AK III 8 . KD + AK III c. Kata = main f. KD + AK III + AK II + AK I e. Langkah 6 Cek kata tersebut dalam kamus Ya Tidak 3. KD b. sehingga kata tidak diubah. Dalam hal ini AK III tidak ada.Tidak Kata : melakukan pemotongan AW II = tanyakannya c. AW I + AW II + KD f. Kata dasar yang dihasilkan dikombinasikan dengan imbuhan- imbuhannya dalam 12 konfigurasi berikut : a. maka akan dilakukan proses kombinasi. : Sukses : "Kata tersebut tidak ada" Akan tetapi.

Apabila dalam proses kombinasi yang dilakukan itu ada. kombinasi yang masih perlu dilakukan tinggal 6 yakni pada kombinasi-kombinasi yang belum dilakukan (e. karena kombinasi ini adalah hasil pemotongan bertahap tersebut. dan l sudah diperiksa pada tahap sebelumnya. AW I + AW II + KD + AK III + AK II + AK I i. AW II + KD + AK III k. AW I + AW II + KD + AK III + AK II h.g. maka pemeriksaan pada kombinasi lainnya sudah tidak diperlukan lagi. Dengan demikian. Dengan 12 kombinasi itu. dan k). Kelemahan ini berakibat pada pemotongan bagian kata yang sebenarnya adalah milik kata dasar itu sendiri yang kebetulan mirip dengan salah satu jenis imbuhan yang ada. Algoritma Pembobotan Pembobotan tf-idf ternormalisasi Dalam pembobotan tf-idf ternormalisasi ini menggabungkan dua konsep untuk perhitungan bobot yaitu. j. c. h. AW II + KD + AK III + AK II + AK I Kombinasi a. c. Frekuensi kemunculan kata yang ada di dalam 9 . f. pemotongan yang sudah terlanjur tersebut dapat dikembalikan sesuai posisinya. i. g. AW II + KD + AK III + AK II l. pertama frekuensi kemunculan sebuah kata di dalam sebuah dokumen tertentu dan kedua inverse frekuensi dokumen yang mengandung kata tersebut. b. d. AW II + KD j. hal ini dikarenakan fenomena overstemming pada algoritma pemotongan imbuhan. (Arifin-Setiono. Pemeriksaan dalam 12 kombinasi ini sangat diperlukan. 2000) Alasan dalam pemilihan Algoritma Stemming ini salah satu keuntungannya adalah jika kata dasar dari sebuah kata turunan tidak dapat ditemukan setelah menghilangkan prefix dan suffix nya maka algoritma ini akan mencoba mengembalikan kembali semua imbuhan yang telah dihilangkan tadi dengan menggunakan 12 kombinasi untuk dikombinasikan dengan kata hasil stemming dari kata turunan yang kata dasarnya tidak ditemukan dalam kamus.

1. sbb: Rumus tf-idf dengan menggunakan normalisasi ( ) √∑ ( ) (4) Berdasarkan dari hasil perhitungan diatas. bobot hubungan antara sebuah kata dan sebuah dokumen akan tinggi apabila frekuensi kata tersebut tinggi di dalam dokumen dan frekuensi keseluruhan dokumen yang mengandung kata tersebut yang rendah pada kumpulan dokumen atau database. apabila N = n maka akan didapatkan hasil 0 (nol) untuk perhitungan idf. Untuk itu dapat ditambahkan nilai 1 pada sisi idf.d. berapapun besarnya nilai tfij.dokumen menunjukkan seberapa penting kata tersebut di dalam dokumen tersebut. Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata tersebut. sehingga perhitungan bobotnya menjadi sbb: ( ) (3) Rumus (3) dapat dinormalisasi dengan Rumus (4) bertujuan untuk menstandarisasi nilai bobot ke dalam interval 0 s. dapat dilihat bahwa semakin sedikit suatu term ditemukan dalam documen dan semakin banyak term tersebut 10 . Jadi. Rumus umum untuk tf-idf: wij = tfij x idfi (1) (2) dimana: i j w N n = dokumen ke-i =kata ke-j dari kata kunci = bobot dokumen ke-i terhadap kata ke-j = jumlah semua dokumen yang ada dalam database = jumlah dokumen yang mengandung kata/term tj (minimal ada satu kata yaitu term tj) Berdasarkan pada rumus diatas.

(Intan) Faktor normalisasi ini digunakan untuk menormalkan vektor dokumen sehingga proses similarity tidak terpengaruh oleh panjang dari dokumen. Vector Space Model (VSM) Pada Information Retrieval System terdapat beberapa metode yang digunakan dalam Searching salah satunya adalah dengan merepresentasikan proses Searching menggunakan Model Ruang Vektor (Vector Space Model).dalam dokumen tersebut. Untuk mengimplementasikan model ruang vektor. Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi n. Masing-masing bernilai: D1 = 2T1+3T2+5T3 D2 = 3T1+7T2+0T3 Q = 0T1+0T2+2T3 dinyatakan dalam bentuk vector (Salton. Setiap kata i dalam dokumen atau query diberikan bobot sebesar wi. Misalkan terdapat sejumlah n kata yang berbeda sebagai kamus kata (vocabulary) atau indeks kata (terms index). Sebagai contoh terdapat 3 buah kata (T1. 2 buah dokumen (D1 dan D2) serta sebuah query Q. 1983). Baik query maupun dokumen-dokumen yang disimpan. maka bobot hubungan antara term terhadap dokumen akan semakin besar. d. Normalisasi ini diperlukan karena dokumen panjang biasanya mengandung perulangan term yang sama sehingga menaikkan frekuensi term (tf). diasumsikan sudah tersedia sekumpulan term yang dapat mendeskripsikan kumpulan dokumen yang tersimpan dalam suatu sistem temu-kembali informasi. T2 dan T3). Dokumen panjang juga mengandung banyak term yang berbeda sehingga menaikkan ukuran kemiripan antara query dengan dokumen tersebut. 11 . Kata-kata ini akan membentuk ruang vektor yang memiliki dimensi sebesar n.

Tn) dan sekumpulan dokumen D sejumlah m. Nilai nol berarti bahwa term tersebut tidak hadir di dalam dokumen. Misalkan terdapat sekumpulan kata T sejumlah n. Maka gambar 2 adalah representasi matriks kata-dokumen (Mandala. e.Gambar 1: Contoh model ruang vektor dengan dua dokumen D1 dan D2. Jaccard Similarity Dalam penelitian kali ini metode kemiripan yang digunakan adalah Jaaccard Similarity. juga dikenal sebagai koefisien Jaccard Similarity diciptakan oleh Paul de communauté Jaccard adalah statistik yang digunakan untuk membandingkan kesamaan dan keragaman set sampel. T2. yaitu T = (T1. Krzysztof: 2007). dan faktor normalisasi. yaitu D = (D1. (Cios. Nilai setiap sel dalam elemen matriks bersesuaian dengan bobot yang diberikan dari suatu term dalam dokumen yang ditentukan. 2006). … . D2. serta query Q1 Koleksi dokumen direpresentasikan juga dalam ruang vector sebagai matriks kata-dokumen (term-document matrix). Indeks Jaccard. Koefisien Kesamaan 12 . Dm) serta wij adalah bobot kata i pada dokumen j. … . Gambar 2: Contoh Representasi matriks kata-dokumen Keberhasilan dari Model Ruang Vektor ini ditentukan dari skema pembobotan terhadap suatu term untuk cakupan lokal maupun global.

di dalam database terdapat 3 dokumen: D1: “Sesungguhnya pada yang demikian itu benar-benar terdapat tandatanda) yakni pelajaran bagi orang-orang yang beriman” D2: “(Dan sesungguhnya telah kami mudahkan Alquran untuk pelajaran.antara Jaccard mengukur set sampel dan didefinisikan sebagai ukuran dari persimpangan dibagi ukuran persatuan set.4771 0 0. Pembentukan vektor dari query dan dokumen dengan pembobotan tf dapat dilihat pada Tabel 1 Tabel 1 Term Vektor Model Count. maka adakah orang yang mengambil pelajaran?)” D3: “(Ingatlah) Di sini menunjukkan makna Istiftah atau kata itu AlQuran” Kata yang tidak terdapat dalam tabel adalah stopword yang dihilangkan sebelum pembobotan. tfi √∑ Weight. Tingkat Kemiripan Persamaan untuk mendapatkan kemiripan antara query dengan dokumen adalah: (5) Contoh: Dilakukan pencarian dengan menggunakan kata kunci “pelajaran Al-Quran”.5 0.415 0 13 .5288 0. f.1761 0 1 3/1=3 0. Dalam table merupakan kata-kata dasar yang telah dilakukann proses stemming dan pembentukan vector yaitu pada proses text transformation.3305 0 0 0. ( ) ( ) Term sungguh mudah Q D1 D2 D3 dfi D/dfi 0 0 1 0 1 1 0 0 IDFi Q D1 D2 D3 2 3/2=1.

3305 0.229 14 .5288 = 0.7009 Wiq ∙ Wij3 = 0.618 0.4771 0 0.5 0.707 0 0.6611 0 1 3/1=3 1 3/1=3 1 3/1=3 1 3/1=3 0. yaitu dari nilai yang paling mendekati 1.707 0.707 * 0.1761 0.492 = 0. maka sebagai berikut: Rank 1: dokumen 2 = 0.618 0.415 0 0 0.6611) = 0.492 2 3/2=1.5411 Rank 2: dokumen 3 = 0.707 * 0.3305) + (0.3738 Wiq ∙ Wij2 = (0.Al-Quran 1 ajar ambil iman makna Istiftah 1 0 0 0 0 0 1 0 1 0 0 1 2 1 0 0 0 1 0 0 0 1 1 2 3/2=1.002 Dari perhitungan tersebut jika diurutkan berdasarkan nilai kemiripan antara query dengan dokumen.707 * 0.4771 0 0 0.6641 0 0 0 0 0 Untuk semua dokumen dan query.4771 0 0.5 0.707 * 0.3478 Dan kemudian menghitung nilai dari kemiripan ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ .5288 0.4771 0 0. dihitung semua vektor length: Wij12= Wij22= Wij32= Wiq2= Setelah itu dihitung semua dot product: Wiq∙ Wij1 = 0.1761 0.209 Rank 3: dokumen 1 = 0.

Document similarity sebagai bagian dari bidang text mining ini diimplementasikan oleh peneliti dalam pengembangan aplikasi pendeteksi plagiarisme dengan mengukurur nilai antar dokumen. b. Pengembangan Aplikasi Pendeteksi Plagiarisme Menggunakan Metode Latent Semantic Analysis (LSA) Penelitian yang dilakukan oleh mahasiswa jurusan Ilmu Komputer ini termasuk dalam bidang text mining. Pencarian similarity ini perlu didasarkan pada sesuatu yang memiliki relasi dengan term. diantaranya yaitu: a. Dalam metode Latent Semantic Analysis (LSA) yang digunakan oleh peneliti terdapat beberapa tahap yang dilakukan hingga mendapat nilai similarity antara dokumen dengan dokumen yang lainnya. Similarity term terhadap term bisa juga didapatkan dengan menerapkan metode Jaccard’s Coefficient. Metode ini menggabungkan dua konsep untuk perhitungan bobot. HARD : Subject-Based Search Engine Menggunakan TF-IDF dan Jaccard’s Coefficient Paper ini memperkenalkan suatu algorima search engine berdasarkan konsep HARD (High Accuracy Retrieval from Documents) dengan menggabungkan penggunaan metoda TF-IDF (Term Frequency Inverse Document Frequency) dan Jaccard’s Coefficient.8. tahapan tersebut adalah parsing text dan pembobotan dengan algoritma Term Frequency-Inverse Document Frequence (TF-IDF) hingga tahap perhitungan similarity dengan menggunakan cosine similarity. Automated Multiple Related Documents Summarization via Jaccard’s Coefficient 15 . c. Masing–masing hubungan antara term terhadap subyek dan hubungan term terhadap dokumen memiliki kelemahannya masing-masing. PENELITIAN TERKAIT Terdapat beberapa penelitian yang terkait dengan penelitian yang dilakukan oleh penulis. Metode Tf-Idf merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap dokumen. Dalam hal ini digunakan hubungan term terhadap subyek maupun dokumen yang telah didapatkan.

METODE PENELITIAN Dalam penelitian ini terdapat beberapa tahap dalam pengerjaan untuk digunakan sebagai awal dalam menyelesaikan penelitian. 9.Dalam paper ini menggunakan Jaccard Coefficient untuk mencare dokumen yang sama. Tahap-tahap dalam penelitian adalah sebagai berikut: Pencarian Literatur Pengambilan Data Teks dokumen berbahasa Indonesia Database Tafsir Jalalain Al-Quran Case Folding Tokenization Tokenization Case Folding Text Preprocessing Teks Stemming Filtering Filtering Stemming Transformation Pembobotan tf-idf ternormalisasi Pembobotan tf-idf ternormalisasi Pattern Discovery / Analysis VSM (Vector Space Model) Ukuran kemiripan (Jaccard similarity) VSM (Vector Space Model) Hasil padanan Ayat Evaluasi dan Uji Coba 16 Penyusunan Laporan Akhir . juga menggunakan text mining dan stemming. Disini dibandingkan perhitungan menggunakan system yang telah jadi dengan perhitungan manual dan hasilnya tidak berbeda jauh. Acuan ini menjelaskan apa yang harus dilakukan dalam penelitian hingga pembuatan laporan akhir. Dalam menggunakan Jaccard Coefficent.

Data tafsir ini didapatkan melalui situs http://www. pencarian data tafsir Al-Quran Jalalain berbahasa Indonesia. Pengumpulan informasi tentang metode pencarian padanan (similarity) ayat yang sesuai dengan dokumen serta teknik-tekniknya.9 untuk mempermudah desain antarmuka dan database yang 17 .maktabah-alhidayah.tk/. tokenization). Perancangan dan Desain Aplikasi Perancangan aplikasi terdiri dari perancangan proses-proses utama dan desain aplikasi terdiri atas desain antar muka dan desain database Al-Quran terjemah. 3. Pengumpulan literatur Dalam tahap ini dikumpulkan beberapa informasi seperti : Pertama.Gambar 3: Tahapan penelitian 1. Pengumpulan informasi tentang bagaimana cara menghitung frekuensi kemunculan kata pada suatu dokumen dalam melakukan pembobotan dan representasi model ruang vektor. text transformation (filtering. Terdapat beberapa proses utama yaitu: text preprocessing (case folding. Ketiga. pembobotan tf-idf ternormalisasi) dan mengukur kemiripan dengan Jaccard Similarity. Pembuatan aplikasi Pada tahap ini. Pemodelan prosesproses tersebut dibuat dalam UML dengan menggunakan aplikasi pemodelan visual Rational Rose. dan yang ketiga adalah Pattern Discovery yaitu dengan melakukan representasi nilai numerik (model ruang vektor. perancangan dan desain aplikasi diimplementasikan dengan bahasa pemrograman Java dan database MySQL. Pengumpulan informasi tentang cara mengolah kata dan kalimat dalam Pemrograman Java dan informasi tentang penggunaan database dalam pengolahan tersebut. normalisasi. Kedua. stemming). 2. Aplikasi dibangun dengan IDE NetBeans 6.

RANCANGAN SISTEM Dalam sistem ini terdapat satu aktor. yaitu: text prepocessing. yaitu user. Input data User Hasil Padanan Ayat Al-Quran Gambar 4: Diagram usecase Untuk memperoleh padanan ayat yang sesuai dengan dokumen yang diinputkan user terdapat akan melalui tahapan proses text mining. langkah-langkah yang akan dilakukan adalah case folding atau dalam Java disebut toLowerCase. Kemudian dilakukan proses parsing. dan pattern discovery. Text prepocessing Tahapan awal yang dilakukan adalah prepocessing. 1. Parsing yang digunakan dalam penelitian ini yaitu memecah dokumen teks menjadi kumpulan kata-kata tanpa memperhatikan 18 . User dapat menginputkan dokumen yang kemudian akan diproses dalam sistem untuk dicocokkan dengan database Tafsir Al-Quran berbahasa Indonesia sehingga akan diperoleh padanan ayat yang sesuai dengan input dokumen oleh user.digunakan adalah MySQL. 4. Pemilihan ini dikarenakan MySQL mudah dan tidak berat dalam pengoperasiannya. 5. Uji coba dan evaluasi Uji coba dan evaluasi dilakukan pada aplikasi dan hasil dari pencarian padanan ayat yang sesuai dengan teks. 10. text transformation. Diharapkan dokumentasi penelitian berguna dan bermanfaat untuk penelitian atau pengembangan lebih lanjut. yaitu mengubah semua huruf dalam dokumen teks menjadi huruf kecil. Penyusunan laporan Penyusunan laporan akhir merupakan dokumentasi dari keseluruhan pelaksanaan penelitian.

START 19 kata hasil proses preprocessing . Berikut diagram alir tentang proses text preprocessing : START Dokumen Merubah menjadi huruf kecil (toLowerCase) Pemotongan dokumen perkata dan menghilangkan tanda baca (Tokenization) Y Simpan dalam database Jumlah kata > 0 T END Gambar 5: Diagram alir tahap prepocessing 2. yaitu dengan menghilangkan stop-word dari daftar term yang telah diproses dalam preprocessing dan disimpan dalam database. karakter yang diterima dalam pembentukan kata adalah karakter huruf saja sehingga selain huruf akan dihapus. Daftar stop-word yang akan digunakan dalam penelitian ini bersumber dari Tala (2003). seperti kata ulang yang ada dalam kaidah bahasa Indonesia. Lalu akan dilakukan proses stemming (mencari akar kata) menggunakan algoritma stemming Arifin. Apabila kata > 0 maka proses ini akan terus berlanjut. Proses ini juga sering disebut disebut tokenizing. Dalam proses ini terdapat perulangan hingga kata = 0. akan disimpan dalam database.keterkaitan antar kata dan peran atau kedudukannya dalam kalimat dan seperti yang dijelaskan sebelumnya. ini akan diurai menjadi dua kata bukan satu kesatuan kata. Jadi. Setelah itu. Text transformation Tahap text transformation ini dilakukan filtering.

semakin nilai mencapai angka 1 maka dokumen tersebut semakin sama. 20 . Dari nilai vector tersebut diukur kemiripan dengan menghitung Jaccard antar vektor query dengan vektor tiap tafsir Al-Quran sehingga diperoleh nilai dengan range antara 0 sampe 1. dan model ruang vektor (vektor space model).Gambar 6: Diagram alir penghilangan stop-word (filtering) START Kata Memotong Imbuhan T Cek kombinasi balikan ketemu Y Kata dasar END Gambar 7: Diagram alir algoritma stemming Arifin 3. Pattern Discovery Pada tahap ini dilakukan representasi nilai numerik yaitu dengan melakukan pembobotan. normalisasi.

sederhana dan Uji coba tahap awal 8. 3. 4. JADWAL Penelitian dibuat dengan menganut jadwal yang tertera pada tabel 2. Tabel 2 : Jadwal pelaksanaan penelitian No 1. 5. 6. 7. Evaluasi Pencocokan document dengan Jaccard similarity 21 .START Daftar term dalam koleksi Hitung nilai pembobotan (Weighting) TF-IDF Ternormalisasi Representasi Vector Space Model Padanan Ayat yang sesuai Hasil Perhitungan (0-1) Hitung nilai Similarity (Jaccard Similarity) END Gambar 8: Diagram alir tahap pattern discovery 11. 9. Uraian 1 2 I 3 4 1 2 II 3 4 1 III 2 3 4 1 IV 2 3 4 Studi literature dan pengumpulan data Perancangan system dan interface Tahap preprocesing Proses Stemming Arifin Pembobotan tf-idf ternormalisasi Representasi vector space model (VSM) Pembuatan pencari ayat 2.

Universtas Kristen Petra Surabaya. Klasifikasi Kandungan Al-Qur'an . Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering.com/2011/05/text-mining. http://uploading.wordpress. Etc. Rolly. tanggal 20 Agustus 2011 http://en.its.html Diakses pada tanggal 20 Agustus 2011 http://liyantanto.Jakarta : GEMA INSANI Intan. Institut Teknologi Sepuluh November (ITS).maktabah-alhidayah.revoledu.com/files/get/c96m96a8/.wikipedia.co.id/berita/dunia-islam/islam-nusantara/10/09/25/136336jumlah-penghafal-alquran-indonesia-terbanyak-di-dunia.id/personal/files/pub/667-aguszaSITIAKlasifikasiEvent. (2007) Data Mining A Knowledge Discovery Approach. Evaluasi tahap 2 Dokumentasi dan pembuatan laporan 12. DAFTAR PUSTAKA Al-Quran al-Karim Arifin. 11.blogspot. 2005. Agus Zainal dan Ari Setiono.republika.ac.pdf. http://www.com/2011/06/28/pencarian-dengan-metode-vektorspace-model-vsm/ Diakses pada tanggal 20 Agustus 2011 http://people.com/kardi/tutorial/Similarity/WhatIsSimilarity.10. Krzysztof J. Springer. http://www.tk/ .html#Dista nce Diakses pada tanggal 20 Agustus 2011 22 Diakses pada . Diakses pada tanggal 8 Juni 2011 Hadhiri. Novan. et al. Diakses pada tanggal 30 November 2011 http://www. Diakses pada 25 Juli 2011 Cios. Choiruddin SP. Surabaya. HARD: Subject-Based Search Engine Menggunakan Tf-Idf dan Jaccard’s Coefficient.org/wiki/Jaccard_index#Tanimoto_Similarity_and_Distance Diakses pada tanggal 20 Agustus 2011 http://vemby-yoel.

The Vector Space Model in Information Retrieval – Term Weighting Problem Raymond J. Estimating he Selectivity of tf-idf based Cosine Similarity Predicates. 1983. Yogyakarta: Penerbit Andi Swastika.edu/~strehl/diss/node56. 2006. Jakarta : Dian Rakat Thalib. Patel M. 2007. Introduction to Modern Information Retrieval. CS 391L: Machine Learning Text Categorization. Jignesh. 2 Tala. 2007. Pembuatan Program Aplikasi untuk Pendeteksian Kemiripan Dokumen Teks dengan Algoritma Smith – Waterman.Kom.blogspot..wikipedia. PHP 5 dan MYSQL 4 Proyek Membuat BLOG.utexas.org/wiki/Jaccard_index Diakses pada tanggal 20 Agustus 2011 http://www. McGraw Hill Sanjaya. 2010. Universitas Gunadara. Depok Tata. Institute for Logic.revoledu. SE. 2004. Institut Teknologi Bandung Martin. Ridwan.com/kardi/tutorial/Similarity/Jaccard. University of Texas at Austin.html Diakses pada tanggal 20 Agustus 2011 Mandala. 2003. Jakarta : Elex Media Komputindo Polettini.html Diakses pada tanggal 20 Agustus 2011 http://people.revoledu.com/kardi/tutorial/Similarity/index. A Study of Stemming Efects on Information Retrieval in Bahasa Indonesia. Sigmod Record December 2007 Vol 36 No. Language and Computation 23 Diakses pada .com/2009/01/kekurangan-dan-kelebihan-java. Windra. Pengolahan Database MySQL 5 dengan Java 2. 2005. Salton. Evaluasi Kinerja Sistem Penyaringan Informasi Model Ruang Vektor . Pemrograman Berbasis Objek dengan Bahasa Java.html tanggal 20 Agustus 2011 http://en. Indrajani. Fadillah Z.ece. Rila . Gerard. 2006. Farid. Sandeep. Nicola. Mooney.http://people. 2006. S.html Diakses pada tanggal 20 Agustus 2011 http://jenigroup.lans.

Pakistan Wardhana.Universite itvan Amsterdam The Netherlands. 2011. Trunojoyo.illc.text. Automated Multiple Related Documents Summarization via Jaccard’s Coefficient. Buku Ajar.pdf. www. PUSTAKA PELAJAR : Yogyakarta USULAN PENELITIAN RANCANG BANGUN SEARCH ENGINE TAFSIR AYAT-AYAT AL-QURAN YANG SESUAI DENGAN DOKUMEN TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE JACCARD SIMILARITY Oleh SOFI SILVIA S.pdf. Wisnu Arya. University of Karachi. 08650007 Telah Disetujui oleh : 24 . Diakses tanggal 8 Juni 2011. http://husni. Husni. Yasin.P NIM. 2006.nl/publications/ResearchReport/Mol200302. Diakses pada 8 Juni 2011.id/wp-content/uploads/2010/03/Husni-IR-danKlasifikasi. Melacak Teori Einstein dalam Al-Qur'an.trunojoyo.uva. Information Retrieval dan Klasifikasi.ac. Huda.

Faisal.Kom 19700731 200501 1 002 25 .T 19740510 200501 1 007 Zainal Abidin. M. M. M.Penguji I Penguji II Penguji III M.Kom 19760613 200501 1 001 Fatchurrohman.

Input : .Input artikel - file cari Hasil : .Output hasil padanan ayat - 26 .