You are on page 1of 18

Pengaplikasian Algoritma Irisan dan Levenshtein

Distance dalam aplikasi TESSY (Test of Text


Similarity) untuk mendeteksi plagiat dokumen di
Perpustakaan Daerah Kota Tangerang





Riski Febriandi
1110094000032

Universitas Islam Negeri Syarif Hidayatullah Jakarta

Bab I
Pendahuluan
1.1. Latar Belakang
Dengan semakin berkembangnya teknologi sehingga membuat karya tulis semakin mudah.
Semakin mudahnya dalam mengakses informasi dari berbagai lata seperti komputer,
handphone, dan yang lainnya, maka tak jarang ditemukan juga kemiripan dan kesamaan dalam
berbagai karya tulis.(Anna K, UGM, 2008)
Didunia pendidikan khususnya, penjiplakan sangat marak terjadi. Misalnya dalam
mengerjakan tugas, para siswa lebih memilih mencari lewat Google karena hanya dengan
mengetikkan kata kunci yang sesuai maka mereka sudah menemukan beberapa hal yang mirip
dengan yang mereka cari sehingga mereka tinggal memilih dan menyalinnya untuk tugas
mereka. (Anna K, UGM, 2008)
Di internet, sudah banyak aplikasi-aplikasi yang beredar untuk mendeteksi atau
menganalisis seberapa mirip atau persis dua dokumen yang diuji berdasarkan dua metode,
yaitu metode uji kemiripan teks dan uji kemiripan frase. Untuk uji kemiripan teks, digunakan
algoritma perbandingan huruf yang sudah baku, yaitu difference algorithm. Sedangkan untuk
metode uji kemiripan frase. Salah satu aplikasi yang dipakai yaitu TESSY ( Test of Text
Simillarity). (Nahtasya Nur, UIN, 2010)
TESSY (Test of Text Simillarity) menggunakan perbandingan kata dengan cara
menghilangkan semua selain kata dan tanda baca dan menghitung jumlah kemunculan setiap
frase dalam satu dokumen dan membandingkan dengan hasil dari dokumen lain. Untuk
pengujian dokumen, masih harus dicek lagi oleh ahlinya untuk dokumen yang dinyatakan
suspect plagiat. (Nahtasya Nur, UIN, 2010)


1.2. Rumusan Masalah
Berdasarkan permasalahan yang ada, maka penulis merumuskan suatu masalah, yaitu :
1. Bagaimana membuat aplikasi TESSY (Test of Text Simillarity) yang efektif?
2. Bagaimana membuat algoritma irisan sehingga dari berbagai macam algoritma ditemukan
satu algoritma yang efektif dalam mendeteksi plagiat karya tulis?
1.3. Batasan Masalah
Dalam hal ini, penulis membatasi masalah hanya dalam dokumen yang berukuran kurang dari
1000 kata dan algoritma yang digunakan adalah algoritma irisan kata dengan pemrogramaan
JAVA dan databasenya MySQL. Lalu untuk tempat penelitiannya penulis hanya meneliti
didaerah Tangerang Kota.

1.4. Tujuan Penulisan
Berdasarkan uraian latar belakang, maka tujuan penelitian ini adalah :
1. Mengatasi permasalah penurunan kualitas karya ilmiah.
2. Mengimplementasikan TESSY (Test of Text Simillarity) untuk mendeteksi plagiat karya tulis
dan memberikan laporan kepada pengambil keputusan secara akurat.








Bab II
Landasan Teori
2.1. Konsep Dasar Plagiat
Akar kata plagiat berasal dari bahasa Latin, plagiarius yang berarti penculik dan
plagiare yang berarti mencuri.(Gaduh,2009). Menurut Kamus Besar Bahasa Indonesia, ialah
pengambilan karangan (pendapat dan sebagainya) orang lain dan menjadikannya seolah-olah
karangan (pendapat dan sebagainya) sendiri, misal menerbitkan karya tulis orang lain atas
namanya sendiri. Pusat Bahasa Departemen Pendidikan (2008), Plagiarisme, menurut Kamus
Besar Bahasa Indonesia, ialah penjiplakan yang melanggar hak cipta, yaitu hak seorang atas
hasil penemuannya yang dilindungi oleh undang-undang. Orang yang melakukan plagiat disebut
plagiator atau penjiplak (Nias, 2008).
2.1.1. Tipe-tipe Plagiarisme
Menurut Kurniawati et all (2008), ada beberapa tipe plagiarisme, yaitu :
1. Word for-word plagiarism
Menyalin setiap kata secara langsung tanpa diubah sedikitpun.
2. Plagiarism of autorship
Mengakui hasil karya orang lain sebagai hasil karya sendiri dengan cara
mencantumkan nama sendiri menggantikan nama pengarang yang sebenarnya.
3. Plagiarism of source
Jika seorang penulis menggunakan kutipan dari penulis lain tanpa mencantumkan
sumbernya.
4. Plagiarism of ideas
Mengakui hasil pemikiran atau ide orang lain
Sedangkan menurut Goenawan et all (2008), tipe-tipe plagiarisme sebagai berikut :
1. Word-for-word plagiarism
Menyalin setiap kata secara langsung tanpa diubah sedikitpun.
2. Plagiarism of the form of source
Menyalin dan atau menulis ulang kode-kode program tanpa mengubah struktur
dan jalannya program.
3. Plagiarism of authorship
Mengakui hasil karya orang lain sebagai hasil karya sendiri dengan cara
mencantumkan nama sendiri menggantikan nama pengarang sebelumnya.

2.1.2. Metode Pendeteksi Plagiarisme
Menurut Kurniawati et all (2008), Metode Pendeteksi Plagiarisme dibagi menjadi
bagian yaitu metode perbandingan teks lengkap, metode dokumen fingerprinting
dan metode kesamaan kata kunci. Berikut ini penjelasan dari masing-masing metode
dan algoritma pendeteksi plagiarisme. Ketiga metode tersebut adalah :
1. Perbandingan Teks Lengkap
Metode ini diterapkan dengan membandingkan semua isi dokumen. Dapat
diterapkan untuk dokumen yang besar. Pendekatan ini membutuhkan waktu
yang lama tetapi cukup efektif, karena kumpulan dokumen yang diperbandingkan
adalah dokumen yang disimpan dalam penyimpanan lokal. Metode perbandingan
ini tidak dapat diterapkan untuk kumpulan dokumen yang tidak terdapat pada
dokumen lokal. Algoritma yang digunakan dalam metode ini adalah algoritma
Brute Force, algoritma edit distance, algoritma bayer moore dan algoritma
lavenshtein distance.
2. Dokumen Fingerprinting
Dokumen fingerprinting merupakan metode yang digunakan untuk mendeteksi
keakuratan salinan antar dokumen, baik semua teks yang terdapat dalam
dokumen atau hanya sebagian teks saja. Prinsip kerja dari metode dokumen
fingerprinting ini adalah dengan menggunakan teknik hashing. Teknik hashing
adalah fungsi yang mengkonversi setiap string atau kata menjadi bilangan.
3. Kesamaan Kata Kunci
Prinsip dari metode ini adalah mengekstrak kata kunci dari dokumen dan
kemudian dibandingkan dengan kata kunci yang didapatkan dari dokumen lain.
Pendekatan yang digunakan pada metode ini adalah teknik dot.


2.2. Konsep Dasar TESSY (Test of Text Simillarity)
TESSY(Test of Text Simillarity) adalah sebuah aplikasi yang dirancang oleh Dr Didi Achjari
M.Kom (Dosen UGM Fakultas Ekonomika dan Bisnis) pada tahun 2006, yang dapat didefinisikan
sebagai suatu aplikasi yang dapat menguji teks untuk mendeteksi karya ilmiah dengan memberi
laporan plagiat atau tidaknya karya ilmiah tersebut.(Nahtasya Nur 2010). Adapun metode
pengujian yang digunakan oleh TESSY (Test of Text Simillarity) adalah sebagai berikut :
1. Uji Kemiripan Teks
Uji ini dilakukan dengan cara menghitung prosentase kemiripan dokumen yang sudah diuji
dengan dokumen yang sudah ada.
2. Uji Kemiripan Frase
Uji ini dilakukan dengan cara aplikasi TESSY (Test of Text Simillarity) akan mencari dan
menghitung kemunculan frase dan kombinasinya dalam dokumen. Dalam metode ini,
karakter-karakter selain teks dan separator dihilangkan dari dokumen. Lalu aplikasi akan
mencari frase dalam dokumen dan menghitung jumlah kemunculannya (Arjanti 2008).
Asumsi level kemiripan teks atau frase yang menjurus ke plagiat juga bisa diatur dan
disesuaikan dengan standar kemiripan yang diadopsi setiap lembaga. Satu lembaga dengan
lembaga lainnya bisa saja memiliki standar kemiripan yang berbeda untuk masuk ke katogeri
plagiat (Tempo 2008).
2.3. Algoritma Differential
Menurut Arjanti (2008), algoritma differensial adalah algoritma perbandingan huruf yang
dipakai pada aplikasi TESSY (Test of Text Simillarity) dan digunakan oleh Dr Didi Achjari M.Kom
(Dosen UGM Fakultas Ekonomika dan Bisnis) untuk menguji kemiripan teks dengan menghitung
kemiripan teks dengan menghitung prosentase kemiripan dokumen yang diuji dengan dokumen
yang sudah ada, nilai prosentase tinggi menunjukkan tingkat kemiripan yang sangat tinggi.
2.4. Pendekatan Manber
Pendekatan manber merupakan salah satu pendekatan pada metode dokumen
fingerprinting. Pendekatan ini digunakan untuk memilih hasil dari proses hashing dengan cara
memilih semua hasil hashing yang memenuhi kriteria 0 mod p (Kurniawati et all 2008).
2.5. Pendekatan Algoritma Winnowing
Menurut Kurniawati et all (2008), algoritma winnowing merupakan algoritma dokumen
fingerprinting yang digunakan untuk mendeteksi salinan dokumen dengan teknik hashing.
Untuk mengkonversi setiap string menjadi bilangan yang terdapat pada dokumen dengan
menggunakan k-gram, panjang substring k dimana k merupakan nilai yang dipilih pengguna.
Dokumen akan dibagi kedalam k-gram yang mungkin dan kemudian k-gram tersebut akan di-
hash. Untuk memilih fingerprinting dari hasil hashing, dilakukan pembagian dengan window w,
dan dipilih nilai yang paling kecil. Definisi Winnowing : Dari setiap window yang dipilih nilai hash
yang paling minimum atau kecil. Jika terdapat niliai minimum lebih dari satu nilai, maka pilih
dari window sebelah kanan. Kemudian simpan semua hasil hash yang telah dipilih yang
merupakan fingerprint dokumen. Diberikan kumpulan dokumen, ingin menemukan substring
yang sama diantara dokumen-dokumen itu maka properties yang dilakukan adalah :
1. Jika terdapat string yang sama yang panjangnya sama dengan panjang t dimana t
merupakan jaminan mabang nilai yang ditentukan, maka pencocokan terdeteksi.
2. Tidak dapat mendeteksi beberapa pencocokan jika lebih pendek dari gangguan nilai
ambang , k. Nilai konstan t dan k t dipilih oleh pengguna. Menghindari pencocokan string
yang sama dibawah nilai gangguan nilai ambang dengan mempertimbangkan hash k-gram.
2.6. Pendekatan Algoritma Jaro Winkler
Jaro-Winkler distance adalah varian dari Jaro-Winkler metric yaitu algoritma yang
digunakan untuk mengukur kesamaan antara dua string. Semakin tinggi jaro-winkler distance
untuk dua string, semakin terlihat kemiripan antara dua string tersebut.
Algoritma jaro-winkler distance memiliki kompleksitas waktu quadratic runtime complexity
yang sangat efektif pada string pendek dan dapat bekerja lebih cepat dengan algoritma edit
distance. Dasar dari algoritma ini memiliki tiga bagian yaitu :
1. Menghitung panjang string
2. Menentukan jumlah karakter yang sama dalam dua string, dan
3. Menemukan jumlah transposisi


2.7. Algoritma Smith Waterman
Algoritma Smith-Waterman merupakan algoritma klasik yang telah dikenal luas dalam
bidang bioinformatika yang dipakai sebagai sebagai metode yang dapat mengidentifikasi
penyejajaran sekuens yaitu proses penyusunan dua rangkaian/susunan atau rentetan
nukleotida atau susunan protein sehingga kemiripan antara dua rangkaian tersebut akan
terlihat. Berdasarkan fungsi proses penyejajaran sekuens tersebut, algoritma ini dapat
diterapkan dalam pemprograman komputer untuk pendeteksian kesamaan atau pengukuran
tingkat kemiripan sebuah dokumen teks dengan dokumen teks lain dengan cara melihat
kesamaan isi (local similarities) dari kedua dokumen teks tersebut [2]. Dalam gambar 1
diandaikan bahwa lambang X dan Y merupakan dua urutan (sekuens) string yang masing-masing
berasal dari dokumen yang berbeda. Panjang X dan Y masing-masing dinyatakan sebagai m dan
n. Dari dua string ini dapat dihitung nilai kecocokan yang diperoleh dari pembandingan
substring X dari string X dengan substring Y dari string Y. Proses pembandingan ini akan
menghasilkan penyejajaran yang identik/mirip (hit) dengan atau tanpa perubahan urutan string
seperti penghilangan (deletion), penyisipan (insertion), dan penggantian (replacement). Anggap
h adalah kontribusi positif yang merepresentasikan hit atau cocok, d untuk kontribusi negatif
yang merepresentasikan penyisipan atau penghilangan (atau bisa disebut indel), sedangkan r
adalah kontribusi negatif yang dibuat dengan menggantikan satu simbol dengan simbol yang
lain. Model yang lebih umum pada khususnya digunakan di dalam bidang biologi
komputasional. Dengan menggunakan nilai positif untuk identik dan nilai negatif untuk
penghilangan dan penggantian, maka pembentukan nilai dari tiap-tiap simbol dari dua buah
string tersebut dapat direpresentasikan di dalambentuk matriks. Namun demikian, nilai
hubungan antarah, d, dan r belum diketahui secara jelas. Pada intinya, dalam pengidentifikasian
kesamaan string digunakanprinsip penambahan dan pengurangan. Huruf h merepresentasikan
penambahan, sedangkan d dan r merepresentasikan pengurangan. Dapat diasumsikan bahwa
penambahan dan pengurangan memiliki bobot yang sama. Dengan demikian dapat dianggap
nilai dari h, d, dan r adalah 1. Sebagai contoh, bila substring X = abcbadbca dan substring Y =
abbdbda, dengan penyejajaran yang optimal didapatkan 6 hit, 2 indel, dan 1 replacement,
seperti yang ditunjukkan pada gambar di bawah ini, dan didapatkan nilai untuk dua string yang
diberikan ini, yaitu 6h - 2d - r, atau 6 - 2 - 1 = 3 untuk kasus h = d = r = 1 dengan keterangan
tanda menunjukan kecocokan atau match, sedangkan tanda - menunjukan adanya
kesenjangan atau gap di antara dua sekuens string.
2.8. Algoritma Levenshtein Distance
Dalam teknologi informasi dan komunikasi, Levenshtein Distance merupakan algoritma
yang sering digunakan untuk mengukur keterbedaan jarak antara dua sekuensi. Levenshtein
distance antara dua string ditentukan antara dua jumlah minimum perubahan/pengeditan yang
diperlukan untuk melakukan suatu tranfromasi dari satu bentuk string ke bentuk string yang
lain. Contoh nya kata hallo dengan hullo mempunyai LD=1.
Langkah-langkah yang digunakan untuk algoritma Levenshtein Distance menurut
Andika,2011 adalah sebagai berikut:
a. Insertion
Insertion atau penyisipan adalah menyisipkan satu buah karakter kedalam string
tertentu. Contohnya menyisipkan karakter a di string bca setelah karakter b
maka string bca berubah menjadi baca.
b. Deletion
Deletion atau penghapusan adalah penghapusan sebuah karakter kedalam string
tertentu. Contoh menghapus karakter m pada string ayam maka string ayam
berubah menjadi aya.
c. Subtitution
Subtitution atau menukarkan adalah penukaran sebuah karakter didalam stirng untuk
diganti dengan karakter lain.

2.9. Algoritma Edit Distance
Algoritma edit distance adalah algoritma perbandingan teks lengkap yang digunakan
untuk mendeteksi kemiripan antara dua teks dengan cara memasukkan isi tiap file sumber
kedalam string. Algoritma ini pun dapat digunakan untuk dua buah teks yang panjangnya tidak
sama. Kompleksitas waktu algoritma edit diistance adalah O(|String1|*|String2|) atau
kuadratik (O(n2)) jika panjang kedua string tidak sama (Goenawan et all 2008).



2.10. Algoritma Irisan
Menurut Nahtasya Nur (2008), algoritma irisan mempunyai beberapa proses untuk
mendeteksi kesamaan, yaitu proses algoritma import dan algoritma verify.
1 Proses algoritma import :
1 Tentukan dokumen pembanding
2 Himpun semua paragraf
3 Himpun semua kata dan lakukan stopword, yaitu pembersihan tanda baca, buang
kata yang berulang dan jadikan lowercase, dan kata berupa bilangan tidak disimpan.
4 Simpan semua paragraf
5 Simpan himpunan kata
2 Proses algoritma verify:
1 Tentukan file dokumen yang akan dibandingkan
2 Himpun semua paragraf
3 Himpun semua katan dan lakukan stopword, yaitu pembersihan tanda baca, buang
kata yang berulang dan jadikan lowercase, dan kata berupa bilangan tidak disimpan.
4 Simpan himpunan kata
5 Ambil himpunan kata yang telah di-import
6 Lakukan irisan pada himpunan kata
7 Hitung prosentase : [jumlah kata yang beririsan]/[jumlah kata himpunan file]*100%
2.11. Rumusan Pemecahan Masalah
2.10.1. Diagram Alur (Flowchart)
Diagram alur memberikan bentuk gambar dalam merepresentasikan suatu aliran
kontrol logika dengan menggunakan notasi-notasi simbol grafis (Pressman 2002).
2.10.2. Pseudocode
Kode palsu atau dalam bahasa Inggris lebih disebut pseudo-code merupakan
deskripsi tingkat tinggi informal dan ringkas atas algoritma pemrograman komputer
yang menggunakan konvensi struktural atas suatu bahasa pemrograman, dan
ditujukan untuk dibaca manusia dan bukan untuk mesin. Kode palsu biasanya tidak
menggunakan elemen detil yang tidak diperlukan untuk kebutuhan pemahaman
manusia atas suatu algoritma, seperti deklarasi variabel, kode ataupun subrutin
untuk sistem yang bersifat spesifik. Bahasa pemrograman yang digunakan lebih
diperbanyak dengan deskripsi dalam bahasa natural atau sesuatu hal yang bersifat
detil atau dengan menggunakan notasi matematis. Tujuan dari penggunaan kode
palsu adalah untuk mempermudah manusia dalam pemahaman dibandingkan
dengan menggunakan bahasa pemrograman yang umum digunakan, terlebih
aspeknya yang ringkas serta tidak bergantung pada suatu sistem tertentu
merupakan prinsip utama dalam suatu algoritma. Kode palsu biasanya digunakan
untuk buku-buku maupun publikasi karya ilmiah yang mendokumnetasikan suatu
algoritma dan juga dalam perencanaan pengembangan program komputer, untuk
membuat sketsa atas struktur data sebuah program yang sesungguhnya ditulis.
2.10.3. Bahasa Pemrograman
Bahasa pemrograman adalah bahasa yang digunakan untuk setiap aplikasi pembuat
program untuk membaca baris per baris dari tulisan yang kita buat. Setiap bahasa
memiliki struktur dan keunikan masing-masing dan sangat berbeda antara satu dan
yang lainnya. Sehingga bahasa dipelajari setelah mereka mempelajari algoritma,
pseudocode dan flowchart.

2.12. Alat Pengembangan Aplikasi TESSY (Test of Text Simillarity)
2.11.1 Java
Java pertama kali dibuat oleh James Gosling dan rekan-rekannya di SUN
Microsystem. Bahasa pemrograman tersebut dahulu diberi nama OAK yang
merupakan nama pohon yang terletak diseberang kantor Gosling. Fitur utama dari
Java adalah portabilitasnya untuk dapat dijalankan diberbagai platform. Fitur
portabilitas dari pemrograman Java seringkali diucapkan dengan tag seperti berikut :
Write Once Run Anywhere. Bahasa pemrograman Java dtujukan untuk membuat
sebuah bahasa yang memiliki fitur yaitu :
a) Harus menggunakan metodologi bahasa pemrograman berorientasi objek.
b) Program yang dibuat dengan Java harus dapat dijalankan diberbagai platform
komputer.
c) Harus memiliki dukungan dalam bekerja dalam jaringan.
d) Didesain agar mampu mengeksekusi kode secara remote dengan aman.
e) Harus mudah dipakai dan meminjam berbagai fitur yang baik dari bahasa
pemrograman berorientasi objek yang sudah ada.
2.11.2 MySQL
MySQL merupakan software sistem manajemen database (Database Manajemen
System DBMS) yang sangat populer dikalangan pemrogram web, terutama
dikalangan lingkungan Linux dengan menggunakan script PHP dan Perl. Software
database ini kini telah tersedia juga pada platforms sistem operasi Windows (98
keatas).
MySQL merupakan database yang paling populer digunakan untuk membangun
aplikasi web yang menggunakan database sebagai sumber dan pengelola datanya.
Kepopuleran MySQL dimungkinkan karena kemudahannya untuk digunakan, cepat
secara kinerja query dan mencukupi untuk kebutuhan database perusahaan skala
menengah-kecil. MySQL merupakan database yang digunakan oleh situs-situs
terkemuka diinternet untuk menyimpan datanya.
Software database MySQL kini dilepas sebagai software manajemen database yang
open source. Sebelumnya merupakan database yang shareware. Shareware adalah
suatu software yang dapat didistribusikan secara bebas untuk keperluan
penggunaan secara pribadi tetapi jika digunakan secara komersil maka pemakai
harus mempunyai lisensi dari pembuatnya. Software opensource menjadikan
software dapat didistribusikan secara bebas dan dapat dipergunakan untuk pribadi
maupun komersil, termasuk didalamnya source code dari software tersebut (Betha
2003).





















BAB III
METODOLOGI PENELITIAN
Metodologi penelitian pada penelitian ini , penulis menggunakan tahapan pengumpulan data
dengan studi pustaka, tahapan untuk pengembangan sistem, dan penerapan aplikasi.
3.1 Tahapan Pengumpulan Data
Dalam rangka penelitian ini, diperlukan data-data informasi yang relatif lengkap sebagai bahan
yang dapat mendukung kebenaran materi uraian pembahasan.
1 Studi Pustaka
Yaitu dengan cara membaca buku-buku serta surfing melalui internet untuk mendapatkan
informasi yang berhubungan dengan aplikasi ini yaitu aplikasi TESSY (Test of Text Simillarity).
3.2 Tahapan Pengembangan Sistem
Pada tahap pengembangan sistem penulis memakai metode Rapid Aplication Development
(RAD). Menurut Kendall (2003) Rapid Application Development adalah salah satu metode
pengembangan suatu sistem informasi dengan waktu yang relatif singkat. Pada saat RAD
diimplementasikan, maka para pemakai bisa menjadi bagian dari keseluruhan proses
pengembangan sistem dengan bertindak sebagai pengambil keputusan pada setiap tahap
pengembangan. Rapid Application Development (RAD) bisa menghasilkan suatu sistem dengan
cepat karena sistem yang dikembangkan dapat memenuhi keingininan dari para pemakai
sehingga dapat megurangi waktu untuk pengembangan ulang setelah tahap implementasi.
Pendekatan Rapid Application Development (RAD) melingkupi fase-fase: rancangan kebutuhan,
proses desain, dan implementasi (Jurnal Informatika 2002).
Alasan penulis menggunakan metode RAD karena aplikasi TESSY yang penulis kembangkan ini
membutuhkan waktu yang singkat dan alasan ini dilihat dari sisi metode RAD sendiri. Yaitu salah
satu metode pengembangan suatu sistem informasi dengan waktu yang relatif singkat.(Kendall
2003).
3.2.1 Rencana Kebutuhan
Pada tahap ini rencana kebutuhan melakukan identifikasi tujuan dari aplikasi dan
identifikasi kebutuhan informasi untuk mencapai tujuan, adapun penjelasan identifikasi
tersebut sebagai berikut :
1 Identifikasi Tujuan
Identifikasi tujuan adalah mengidentifikasi rencana aplikasi yang dapat memberikan
keluaran dengan proses-proses yang telah ditentukan.
2 Identifikasi Kebutuhan
Identifikasi kebutuhan adalah mengidentifikasi rencana kebutuhan informasi untuk
mencapai tujuan sehingga kebutuhan informasi untuk mengembangkan sebuah
apliasi dapat dipenuhi.
3.2.2 Proses Desain
Pada tahap ini, dijelaskan algoritma irisan seperti apa dan digambarkan sejelas-jelasnya.
3.2.3 Implementasi
Pada tahap ini, model proses diimplementasikan kedalam bahasa pemrograman
generasi ke-empat. Yang digunakan dalam penelitian ini adalah Java untuk bahasanya
dan MySQL untuk databasenya.
3.3 Penerapan Aplikasi
Dalam Penerapannya, kita lihat contoh kasus berikut :
1 File pembanding memiliki jumlah kata sebanyak 200 kata.
2 File uji memiliki jumlah kata sebanyak 100 kata
3 Lakukan stopword (pembersihan tanda baca, buang kata penghubung dan kata berulang dan
angka) pada dokumen 1 dan 2 sehingga didapat hasil file pembanding tinggal 150 kata dan
file uji tinggal 50 kata.
4 Himpun file pembanding dan file uji, lakukan irisan pada file pembanding dan file uji.
5 Didapatkan jumlah irisan misalnya 25 maka prosentase kemiripan antara dokumen uji dan
pembanding adalah :
Prosentase = [jumlah kata yang beririsan]/[jumlah kata file uji]*100% = 50%
Jadi, jumlah prosentase setelah melakukan proses irisan didapat 50%, maka nilai tersebut
menunjukkan nilai kemiripan pada dokumen yang dibandingkan. Asumsi level kemiripan teks
atau frase yang menjurus keplagiat juga bisa diatur dan disesuaikan dengan standar kemiripan
yang diadopsi setiap lembaga. (Tempo 2008).













Referensi

1. http://permalink.gmane.org/gmane.org.region.indonesia.itcenter/59216
2. http://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=3&cad=rja&ved=0CDs
QFjAC&url=http%3A%2F%2Fti.ukdw.ac.id%2Fojs%2Findex.php%2Finformatika%2Farticle%2F
download%2F141%2Fpdf&ei=kVt_UoSKIYmnrAe2pID4Bg&usg=AFQjCNEY1BJLpeT8lrytwpUdl
BfRXUU0WQ&bvm=bv.56146854,d.bmk
3. http://rubyzanuar.blogspot.com/2012/05/metoda-persamaan-text-kata.html
4. http://en.wikipedia.org/wiki/Jaro-Winkler_distance
5. http://jurnal.stiki.ac.id/index.php/snatika/article/view/52/48
6. http://lib.uin-malang.ac.id/?mod=th_detail&id=07650102

You might also like