73 377 2 PB

TRANSFORMASI Jurnal Informasi & Pengembangan Iptek(STMIK BINA PATRIA )
INFORMATION RETRIEVAL DOKUMEN TESIS UNTUK

MENGETAHUI KEMIRIPANNYA DENGAN
PENELITIAN YANG TELAH ADA
Monica Mayeni1, Wing Wahyu Winarno2, Andi Sunyoto3

1
Mahasiswa Pascasarjana MTI STMIK AMIKOM Yogyakarta
2
Dosen MTI STMIK AMIKOM, Yogyakarta
3
Dosen STMIK AMIKOM, Yogyakarta
Abstract
Information retrieval system is a system used in rediscovering ever previously stored

information. This study discusses the design of information retrieval system by
employing Vector Space Model in the tracking and also similarity measures of Cosine
Similarity as the method to rank the documents found that match with the
keywords/query. The purposes of this study are to facilitate students in drawing
prediction whether the research will be proposed is accepted or rejected and also to
design a system to show documents which are similar to the query entered as the search
limitation. This study did not calculate the plagiarism degree of the selected documents.
The focus of this study was on designing the tracking system; however, the prototype
application was tested to show the result of the system implementation. Testing was
conducted to 60 .pdf formatted documents. The application was executed in the desktop
with a local host display and the database was stored in the computers hard drives. The
final result of this system was a sequence of selected documents which were relevant or
similar to the users query that later can also be used as a research reference. Due to the
limitations of rules on Porter stemmer algorithm, a list of words that are not perfectly
drawn during the stemming process needs to be added for the development of the system.
Keywords: Information Retrieval System, Vector Space Model, Porter Stemmer

Algorithm, Cosine Similarity
Abstrak
Information retrieval system adalah sistem yang digunakan dalam menemukan kembali
informasi yang pernah tersimpan sebelumnya. Penelitian ini membahas perancangan
sistem temu kembali informasi dengan menggunakan Vector Space Model dalam
penelusurannya serta menggunakan ukuran kesamaan Cosine Similarity sebagai metode
dalam meranking dokumen yang ditemukan yang sesuai dengan kata kunci/query.
Tujuan dari penelitian ini adalah untuk membantu memudahkan mahasiswa dalam
memprediksi apakah penelitian yang akan diajukan tersebut diterima atau ditolak, dan
merancang sistem untuk memperlihatkan dokumen-dokumen yang mirip dengan query
yang dimasukkan sebagai batasan pencarian. Penelitian ini tidak menghitung tingkat
plagiasi dari dokumen terpilih. Fokus penelitian adalah pada perancangan sistem
penelusuran namun aplikasi prototype diuji untuk memperlihatkan hasil implementasi
sistem. Uji coba dilakukan dengan menggunakan 60 dokumen berformat .pdf, aplikasi
dieksekusi secara desktop dengan tampilan localhost dan database disimpan dalam
hardisk komputer. Hasil akhir sistem adalah urutan dokumen-dokumen terpilih yang
relevan atau mirip dengan query user yang nantinya dapat juga digunakan sebagai
referensi penelitian. Karena keterbatasan aturan pada Porter stemmer algorithm maka
Jurnal TRANSFORMASI, Vol. 12, No. 2, Desember 2016 : 105 - 115

sebaiknya untuk pengembangan sistem perlu ditambahkan daftar kata yang tidak terambil
secara sempurna pada saat dilakukan proses stemming.
Kata kunci: Information Retrieval System, Vector Space Model, Porter Stemmer
Algorithm, Cosine Similari
1. Pendahuluan informasi secara otomatis. Prinsip

Syarat akhir bagi mahasiswa untuk kerja sistem temu kembali informasi
dapat lulus dari suatu perguruan tinggi jika ada sebuah kumpulan dokumen
adalah membuat suatu penelitian dan seorang user yang
(skripsi, tesis ataupun tugas akhir). memformulasikan sebuah pertanyaan
Sebagai mahasiswa, biasanya akan (request atau query). Jawaban dari
mengalami kendala dalam mencari pertanyaan tersebut adalah sekumpulan
judul maupun memperkirakan apakah dokumen yang relevan dan membuang
judul ataupun penelitian yang akan dokumen yang tidak relevan (Amin,
diajukan tersebut akan diterima 2012).
ataupun ditolak oleh program studi; Fungsi utama IRS seperti
terkait dengan sama, mirip atau dikemukakan oleh Lancaster (1979)
tidaknya penelitian tersebut dengan dan Kent (1971) adalah sebagai
penelitian yang pernah ada berikut:
sebelumnya. 1) Mengidentifikasi sumber informasi
Sementara itu pemerintah telah yang relevan dengan minat
mengatur batasan suatu penelitian masyarakat pengguna yang
dikategorikan masuk dalam tindak ditargetkan.
plagiarism dalam PERMEN no.17 2) Menganalisis isi sumber informasi
tahun 2010, tentang pencegahan dan (dokumen)
penanggulangan plagiat di perguruan 3) Merepresentasikan isi sumber
tinggi. Intinya, jika dalam penelitian informasi dengan cara tertentu
mengandung isi yang mengutip yang memungkinkan untuk
penelitian lain namun tidak dipertemukan dengan pertanyaan
mencantumkan rujukan kutipan, maka (query) pengguna.
dapat dikatakan penelitian tersebut 4) Merepresentasikan pertanyaan
masuk kategori plagiat. (query) pengguna dengan cara
Penelitian ini akan membuat tertentu yang memungkinkan
rancangan sistem untuk menelusuri untuk dipertemukan sumber
dokumen dalam suatu repository informasi yang terdapat dalam
berdasarkan query yang dimasukkan basis data.
user sehingga akan ditemukan 5) Mempertemukan pernyataan
dokumen-dokumen yang mirip dengan pencarian dengan data yang
query tersebut, serta ranking/urutan tersimpan dalam basis data.
dokumen yang ditemukan berdasarkan 6) Menemu-kembalikan informasi
nilai kemiripannya. yang relevan.
7) Menyempurnakan unjuk kerja
2. Information Retrieval System (IRS) sistem berdasarkan umpan balik
Menurut Salton (1989), sistem yang diberikan oleh pengguna.
temu kembali informasi merupakan Penelitian mengenai IRS
suatu sistem yang menemukan sebelumnya sudah banyak dilakukan,
(retrieve) informasi yang sesuai mulai dari temu kembali informasi
dengan kebutuhan user dari kumpulan untuk mencari informasi berbahasa

Indonesia (Karyono et al., 2012)

maupun sistem deteksi plagiarsme
dokumen bahasa Indonesia (Tudesman
et al., 2014). Bahkan, Gadge et al.
(2015) telah melakukan penelitian
untuk mempercepat unjuk kerja model
penelusuran dengan melakukan
segmentasi terhadap dokumen yang
akan ditelusuri. Untuk kategori
penelusuran yang lebih spesifik, yaitu
penelusuran untuk bidang pertanian,
Luan et al. (2013) telah melakukan
penelitian dengan menggunakan fitur Gambar 1. Bagian-bagian IRS
multy_query agar identifikasi
dokumen lebih baik. Berdasarkan Gambar 1, maka
Dalam proses pencarian informasi, proses dalam IRS terdiri atas 3 bagian
diperlukan interaksi antara user dan besar kegiatan, yaitu:
sistem secara langsung maupun tidak. 1. Text Operation, dimana kegiatan
Seperti digambarkan pada Gambar 1, ini meliputi pemilihan kata-kata di
interaksi dan bagian-bagian dalam dalam query maupun dokumen
sistem ada yang memerlukan ekseskusi untuk ditransformasikan terhadap
dari user dan juga sistem.. dokumen atau query tersebut dan
Menurut Kurniasih (2015), Tujuan menjadi terms index (indeks dari
IRS adalah sebagai berikut: kata-kata).
1) Suatu sistem temu kembali 2. Query Formulation, adalah
informasi bertujuan formulasi terhadap query yang
mengumpulkan dan akan memberikan bobot pada
mengorganisasikan informasi indeks kata-kata query.
dalam sebuah sistem agar dapat 3. Ranking, yang merupakan
memberikan informasi kepada pengurutan dokumen-dokumen
pengguna secepat permintaannya. yang ditelusuri dan relevan dengan
2) Sistem temu kembali (IRS) tidak query yang dimasukkan.
menunjukkan perkembangan ilmu 4. Indexing, merupakan proses
pengetahuan, tetapi menunjukkan membuat indeks dari koleksi
3) ada tidaknya sebuah dokumen, dokumen. Proses ini adalah proses
sebagaimana dikemukakan oleh awal sebelum seluruh proses pada
Lancaster : an information sistem temu kembali.
retrieval system does not inform
(i.e., change the knowledge of) the 3. Vector Space Model (VSM)
user on the subject of his enquiry.
It merely inform him of the Menurut Baeza (1999), Vector
existence (or non-existence) and Space Model (VSM) adalah metode
where aboutsof documents relating untuk melihat tingkat kedekatan atau
to his request. (Lancaster, 1979). kesamaan (similarity) term dengan cara
pembobotan term. Dokumen dipandang
sebagi sebuah vektor yang memiliki
magnitude (jarak) dan direction (arah).
Pada Vector Space Model, sebuah
istilah direpresentasikan dengan sebuah
dimensi dari ruang vektor. Relevansi

sebuah dokumen ke sebuah query

didasarkan pada similaritas diantara
vektor dokumen dan vektor query (2)
(Amin, 2012). Bobot wij yang merupakan bobot
Dokumen dan query didalam VSM suatu term, dihitung menggunakan
diekspresikan sebagai vektor dimensi di persamaan (3).
dalam koleksi dokumen, seperti
dicontohkan pada Gambar 2.
(3)
Pada dokumen-dokumen biasanya
panjangnya tidaklah seragam,
sementara bobot term dihitung juga
frekuensinya, untuk itu maka dilakukan
normalisasi panjang query dan
dokumen dengan persamaan (4) dan
persamaan (5).
(4)
Dimana |q| adalah jarak query dan wiq

bobot query dokumen ke-i.
Gambar 2. Model Ruang Vektor

dengan dokumen D1 dan D2, serta
query Q1 (5)
Dengan |d j| adalah jarak dokumen.
Pada VSM, database dari semua Perhitungan pengukuran
dokumen direpresentasikan oleh matriks similaritas antara query dan dokumen
term-document (atau matriks term- dihitung dengan menggunakan
frequency), dimana setiap sel pada persamaan (6).
matriks kerkorespondensi dengan bobot
yang diberikan dari suatu term. Nilai
nol berarti bahwa term tidak terdapat
dalam dokumen. (6)
Term-frequency akan menghitung 4. Cosine Similarity
frekuensi term tersebut yang muncul
dalam suatu dokumen, dengan Salah satu ukuran kemiripan teks
persamaan (1). yang digunakan pada VSM untuk
mengurutkan kemiripan dokumen
adalah cosine similarity, yang
(1) menghitung nilai kosinus sudut antara
Untuk mengukur seberapa penting vektor. Nilai cosine similarity
suatu term dalam dokumen secara didefinisikan dengan persamaan (7).
keseluruhan, maka akan dihitung idf
(inverse document frequency) dengan
menggunakan persamaan (2).
(7)

5. Porter Stemmer Algorithm penelitian mahasiswa dalam bentuk

digital dan disimpan dalam satu
Stemming adalah proses untuk repository.
memisahkan kata menjadi bentuk dasar Sistem ini dirancang dengan
dengan menghilangkan awalan, akhiran mengambil database repository yang
ataupun sisipan. Pada IRS proses telah tersedia dan penggunaannya local
stemming dilakukan dengan maksud untuk satu institusi itu saja.
memudahkan pencarian dan Beberapa hal yang harus
meningkatkan kualitas informasi yang diperhatikan sehubungan dengan
didapatkan. batasan penelitian ini adalah sebagai
Algoritma Porter adalah algoritma berikut:
yang dibuat oleh Martin Porter pada a) Sistem yang dirancang adalah sistem
tahun 1980 untuk men-stemming teks temu kembali informasi dengan
dengan bahasa Inggris. Pada tahun corpus dokumen .pdf dan teks
1992, W.B. Frakes melakukan beberapa berbahasa Indonesia.
modifikasi untuk stemming bahasa b) Dokumen tersebut adalah dokumen
Indonesia. Frakes melakukan proses dalam bentuk naskah publikasi,
penghilangan awalan dan sisipan yang dimana format penulisan harus
tidak ada didalam proses stemming teks seragam, yaitu penulisan dibuat
berbahasa Inggris. Frakes juga dalam dua kolom, dan struktur
membuat 5 (lima) tabel aturan untuk penulisan yang terurut.
mendapatkan kata dasar bahaa c) Data utama adalah database
Indonesia. Desain untuk teks berbahasa repository, dimana koleksi dokumen
Indonesia tersebut dijelaskan dalam naskah publikasi tersimpan.
Gambar 3. d) Sistem akan membaca/mengambil
koleksi dokumen tersebut tanpa
memperhatikan bagaimana admin
menyimpan dokumen ke dalam
media penyimpanan.
e) Opsi pilihan pencarian yang dibuat
adalah berdasarkan judul, batasan
Masalah, abstrak dan kesuluruhan isi
dokumen.
f) Prototype dibuat untuk dapat

memperoleh gambaran hasil proses
sistem yang dirancang.
g) Untuk mempercepat proses
pembacaan maupun penelusuran,
maka dokumen hasil index akan
dipotong/kluster sesuai dengan opsi
pilihan yang ditawarkan.
h) Pada aplikasi prototype ini, naskah
publikasi yang digunakan sebagai
Gambar 3. Desain Porter Stemmer bahan testing adalah dokumen
untuk bahasa Indonesia dengan penulisan dua kolom,
6. Pembahasan kecuali abstrak. Susunan
Sistem yang dirancang ini dapat penulisannya terdiri dari abstrak,
digunakan oleh institusi manapun latar belakang, batasan masalah, dan
selama institusi telah menyimpan hasil selanjutnya boleh struktur apa saja.

i) Hasil akhir dari sistem adalah besar tahapan prosesnya terlihat pada
dokumen teranking yang dianggap alusr sistem pada Gambar 4.
relevan dengan query, serta estimasi Repository adalah database yang
dalam bentuk persentase dokumennya akan diambil dan
berdasarkan nilai kosinus yang ditelusuri dan file index adalah
dihasilkan sistem. simpanan dokumen setelah dilakukan
kluster sesuai dengan opsi pilihan.
Gambaran sistem yang dirancang
menggunakan VSM ini secara garis
PROSES TOKENIZING PROSES STEMMING

(Menghilangkan kata yang ( Menentukan kata dasar
Algoritma Porter
tdk perlu sesuai kaidah dengan aturan algoritma
bahasa Indonesia) Porter)
REPOSITORY
FILE INDEX START
QUERY/KATA KUNCI
TOKENIZING
KEY TERMS STEMMING
DOKUMEN-
PERHITUNGAN FREKUENSI
CHECKING DFILE INDEX DOKUMEN YES
TERM (Dengan metode tf/idf)
RELEVANT?
PERHITUNGAN BOBOT
NO DOKUMEN (dengan VSM)
PERHITUNGAN COSINE
SIMILARITY
PERANKINGAN
STOP HASIL
Gambar 4. Alur Sistem IRS dengan VSM
6.1 Rancangan dilakukan parsing dan stemming

dokumen, yang setelah diextract ke
Sistem ini dirancang dengan dua
dalam format .txt lalu dikelompokkan.
sisi pengguna, sisi admin dan sisi user.
Gambaran jelasnya seperti pada
Gambar 5 dan Gambar 6.
Admin akan melakukan proses
indexing dimana dalam proses ini akan

Admin Sides
Tokenizing
Repository
Filtering Stopwords list
Porter Stemmer
Stemming
Algorthm
Extracting to .txt
Collection Index
Klustering document
Gambar 5. Proses Indexing (sisi Gambar 7. Interface Pengambilan

Admin) dokumen
Berikutnya adalah dari sisi user, Gambar 7 menjelaskan dokumen
dimana user hanya perlu memasukkan yang dimasukkan dalam sistem adalah
query untuk memulai penelusuran. dokumen yang ada dalam repository
tanpa ada perubahan apapun. Setelah
User Sides itu, dokumen tersebut dikonversi atau
Text Operation
di extract ke dalam bentuk .txt seperti
Kata Kunci Tokenizing Stopwords list
pada Gambar 8. Proses ekstraksi

User
Filtering dilakukan hanya dengan mngeksekusi

button extract file pada aplikasi
Collection Index
Stemming Porter Stemmer Algorthm
(Gambar 8, label a).
Ranked documents :
Dokumen 1
Comparing token and
Dokumen 2 Perhitungan tf-idf
Matching document
Dokumen 3
.
Normalisasi panjang Perhitungan term

dokumen Weighting
Ranking
Perhitungan similarity
(cosine similarity)
Gambar 6. Proses Testing (sisi User)
Interface sistem yang dirancang

untuk aplikasi ini dikategorikan
menjadi dua sesuai dengan kategori
pengguna. Kategori admin, maka
interface yang dirancang seperti pada
Gambar 7, 8 dan 9.
Gambar 8. Ekstraksi
dokumen
Untuk proses berikutnya yang
masih menjadi hak admin adalah
memasukkan data stopword, dan
interface untuk memasukkan stopword
ini terlihat dalam Gambar 9.

Memasukkan stopword dapat

dilakukan dengan cara mengunggah
file dengan format .txt dan dengan
ukuran maksimal 1024KB (Gambar 9
label a).
Gambar 11. Interface button

Proses
a b
Gambar 9. Interface Unggah

Stopword
Gambar 12. Interface hasil
Interface pertama bagi user adalah
kolom untuk memasukkan query penelusuran
sebagai kata kunci untuk memulai
Gambar 12 adalah hasil hasil yang
pencarian, yang diperlihatkan pada
akan diberikan kepada user, dimana
Gambar 10 label a. Query yang
dokumen-dokumen tersebut telah
dimasukkan adalah dalam bentuk
diranking sesuai dengan nilai
kalimat-kalimat dan bukan file.
kemiripannya dengan query. Nilai
kosinus (Gambar 12 label a)
merupakan nilai kemiripan dengan
nilai maksimal adalah 1 (satu).
Semakin mendekati nilai 1 maka
a semakin mirip dokumen tersebut
dengan query yang dimasukkan oleh
b user. Sedangkan persentase (label b)
merupakan nilai kosinus yang
dipersenkan.
Gambar 10. Interface input query

6.2 Testing
Langkah selanjutnya setelah
Untuk menguji rancangan sistem,
memasukkan query, user dapat memilih
penelitian ini membuat prototype
opsi pencarian yang terdiri dari 4
dengan menggunakan 60 dokumen
(empat) pilihan seperti dijelaskan pada
sebagai bahan testing seperti terlihat
Gambar 10 label b. Jika user telah
pada Gambar 13 label a. 60 dokumen
memilih salah satu opsi maka akan
tersebut memiliki kriteria yang terinci
nampak button proses, yang akan
dalam Tabel 1.
memulai eksekusi setelah user
melakukan clicking seperti pada
Gambar 11.

Tabel 1. Daftar dokumen Testing

No. Jumlah Format Keterangan
1. 50 a. Dua Dokumen
kolom ini adalah
(P1 b. Sesuai dokumen
- Format dengan
P50) format
sesuai
dengan
item pilihan
pencarian
yang dibuat
dalam
penelitian
ini, dimana
tersedia
Gambar 13. Koleksi dokumen
abstrak, testing
judul, serta
batasan
masalah. Query untuk opsi pencarian judul,
2. 8 a. Dua Dokumen yang dimasukkan adalah Perancangan
kolom ini dibuat sistem perhitungan upah tambahan
(P51 b. Tidak dalam dua buruh, dijelaskan pada Gambar 14.
- sesuai kolom
P58) Format tetapi satu
item pilihan
pencarian
tidak ada,
yaitu
bataasan
masalah.
3. 2 a. Satu Dokumen
kolom dengan
(P59 b. Tidak format
- sesuai penulisan
P60) format satu Gambar 14. Opsi penelusuran
kolom/form judul
at IEEE ini
juga tidak Setelah dilakukan proses maka
memiliki akan terlihat kata-kata dalam query
item yang tidak terdapat dalam koleksi
batasan dokumen seperti digambarkan pada
masalah. Gambar 15 label a.
Dokumen yang tidak sesaui format
dimasukkan sebagai data testing untuk
mengetahui apakah dokumen tersebut
memiliki kemungkinan untuk
ditelusuri oleh sistem.
Testing dilakukan dengan semua
opsi pilihan, namun yang disampaikan
disini hanya untuk pencarian judul dan
batasan masalah saja.

execution dari bahasa pemrograman

yang digunakan.
Untuk pengembangan penelitian,
jika akan menggunakan algoritma
Porter sebaiknya tambahkan tabel
pelengkap kata bahasa Indonesia agar
semua kata dapat dikenali sistem.
Koleksi dokumen yang digunakan juga
sebaiknya dengan format yang
beragam dan akan lebih maksimal jika
a menggunakan database yang lebih luas
Gambar 15. Query yang tidak sehingga aplikasi dapat digunakan
terdapat dalam kumpulan secara bersama antar institusi.
dokumen
8. Referensi
Hasil akhir yang diberikan kepada
Agusta, Ledy; 2009, Perbandingan
user adalah urutan dokumen-dokumen
Algoritma Stemming Porter Dan
sesuai dengan nilai kemiripannya
Algoritma Nazief & Adriani Untuk
dengan query user, seperti dijelaskan
Stemming Dokumen Teks Bahasa
pada Gambar 16. Dokumen yang
Indonesia, Konferensi Nasional
paling mirip adalah P8 dengan nilai
Sistem dan Informatika, 14 November
kemiripan 6.5%.
2009, hal. 196-201, KNS&I09-036,
https://yudiagusta.files.wordpress.com
Amin, Fatkhul; Pebruari 2012, Sistem
Temu Kembali Informasi dengan
Metode Vector Space Model, Jurnal
Sistem Informasi Bisnis 02(2012)
Karyono, Giat; Fandy Setyo Utomo,
2012, Temu Balik Informasi Pada
Dokumen Teks Berbahasa Indonesia
Dengan Metode Vector Space
Retrieval Model, Seminar Nasional
Gambar 16. Hasi penelusuran Teknologi Informasi & Komunikasi
Terapan (SEMANTIK), ISSN: 979-
26-0255-0, 23 Juni 2012
7. Penutup Kurniasih, Nuning, Konsep Dasar Temu
Kembali Informaasi, 10 Nopember
Setelah dilakukan testing maka
2015,
rancangan sistem ini dapat digunakan
https://www.academia.edu/6138333
sebagai alat bantu untuk mendapatkan
Luan, RuPeng; Qian Zhang; JunFeng
referensi dokumen yang mirip dengan
Zhang; Feng Yu, 2013, An Improved
query yang dimasukkan sehingga user
Vector Space Model to Retrieval
dapat memperkirakan sejauh mana
Systems for Content Matching in
kemiripan penelitian yang akan
Agricultural Information, 10th
dilakukannya.
International Conference on Fuzzy
Prototype masih memiliki error
Systems and Knowledge Discovery
sistem ketika opsi pilihan user adalah
(FSKD), 978-1-4673-5253-6/13, June
isi, hal ini dimungkinkan karena
2013
keterbatasan hardware serta time limit

Riadi, Muchlisin; Information Retrieval

System (IRS), 2012, 10 Nopember
2015, http://www.kajianpustaka.com
Salton, G., 1989, Automatic Text
Processing, The Transformation,
Analysis, and Retrieval of information
by computer, Addison Wesly
Publishing Company, Inc. USA.
Tudesman ; Oktalina, Enny; Tinaliah;
Yoannita; Sistem Plagiarisme Dokumen
Bahasa Indonesia Menggunakan
Metode Vector Space Model, 2014,
http://eprints.mdp.ac.id

73 377 2 PB

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

73 377 2 PB

Uploaded by

Copyright:

Available Formats

TRANSFORMASI Jurnal Informasi & Pengembangan Iptek(STMIK BINA PATRIA )

INFORMATION RETRIEVAL DOKUMEN TESIS UNTUK

Monica Mayeni1, Wing Wahyu Winarno2, Andi Sunyoto3

Information retrieval system is a system used in rediscovering ever previously stored

Keywords: Information Retrieval System, Vector Space Model, Porter Stemmer

Jurnal TRANSFORMASI, Vol. 12, No. 2, Desember 2016 : 105 - 115

1. Pendahuluan informasi secara otomatis. Prinsip

Jurnal TRANSFORMASI, Vol. 12, No. 2, Desember 2016 : 105 - 115

Indonesia (Karyono et al., 2012)

Jurnal TRANSFORMASI, Vol. 12, No. 2, Desember 2016 : 105 - 115

sebuah dokumen ke sebuah query

Dimana |q| adalah jarak query dan wiq

Gambar 2. Model Ruang Vektor

Jurnal TRANSFORMASI, Vol. 12, No. 2, Desember 2016 : 105 - 115

5. Porter Stemmer Algorithm penelitian mahasiswa dalam bentuk

f) Prototype dibuat untuk dapat

Jurnal TRANSFORMASI, Vol. 12, No. 2, Desember 2016 : 105 - 115

PROSES TOKENIZING PROSES STEMMING

FILE INDEX START

KEY TERMS STEMMING

Gambar 4. Alur Sistem IRS dengan VSM

6.1 Rancangan dilakukan parsing dan stemming

Jurnal TRANSFORMASI, Vol. 12, No. 2, Desember 2016 : 105 - 115

Filtering Stopwords list

Gambar 5. Proses Indexing (sisi Gambar 7. Interface Pengambilan

pada Gambar 8. Proses ekstraksi

Filtering dilakukan hanya dengan mngeksekusi

Normalisasi panjang Perhitungan term

Gambar 6. Proses Testing (sisi User)

Interface sistem yang dirancang

Jurnal TRANSFORMASI, Vol. 12, No. 2, Desember 2016 : 105 - 115

Memasukkan stopword dapat

Gambar 11. Interface button

Gambar 9. Interface Unggah

Gambar 10. Interface input query

Jurnal TRANSFORMASI, Vol. 12, No. 2, Desember 2016 : 105 - 115

Tabel 1. Daftar dokumen Testing

Jurnal TRANSFORMASI, Vol. 12, No. 2, Desember 2016 : 105 - 115

execution dari bahasa pemrograman

Jurnal TRANSFORMASI, Vol. 12, No. 2, Desember 2016 : 105 - 115

Riadi, Muchlisin; Information Retrieval

Jurnal TRANSFORMASI, Vol. 12, No. 2, Desember 2016 : 105 - 115

You might also like