You are on page 1of 5

REVIEW ARTIKEL

Research on Text Similarity Computing Based on Word
Vector Model of Neural Networks
Yuan Sun *", Weikang Li*", Peilei Dong*"

Untuk memenuhi Tugas Akhir Mata Kuliah Stokastik
yang di bimbing oleh
Dr. Eng. Panca Mudjirahardjo, S.T., M.T.

Disusun oleh:
Syahroni Wahyu Iriananda (156060300111006)

PROGRAM PASCA SARJANA TEKNIK ELEKTRO
KONSENTRASI SISTEM KOMUNIKASI DAN INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS BRAWIJAYA MALANG

Kami menganggap kalimat yang terdiri dari kata-kata w1. Pan Qianhong mengusulkan cara untuk menghitung kemiripan teks yang berdasarkan Auttribute Theory [3]. dan membangun model Properties Gravity Splitting pada suatu teks. Probabilitas yang menyatakan sebuah node diklasifikasikan ke dalam kelas yang negatif adalah sebagai rumus (6). Dalam makalah ini. 2.j) mewakili konten yang dilingkari oleh dua tanda penjumlahan ganda dalam fungsi obyektif. yang memungkinkan untuk mendeskripsikan informasi teks dalam simpul/gabungan. dan Machine Learning[1-2]. Lapisan masukan terdiri dari 2c vektor kata seperti yang digambarkan pada rumus (2). Dan yang terakhir adalah membandingan metode ini dengan metode tradisional TF-IDF pada kemiripan teks dan menganalisa hasilnya. namun demikian masih banyak hal yang dapat dilakukan untuk teks semantik. yang secara efektif mengurangi persyaratan biaya (cost of computing) dan penyimpanan (harddisk). Fungsi Obyektif dari Neural Network [11] dinyatakan dalam rumus (7) C. Saat ini telah banyak sekali penelitian yang matang tentang metode-metode penghitungan kemiripan teks non-semantik. Sementara itu hal ini berbeda dengan menggunakan konsep spasi (vektor space) secara tradisional. Probabilitas yang menyatakan sebuah node diklasifikasikan ke dalam kelas yang positif adalah pada rumus (5). yang tergantung pada model bahasa statistik. RINGKASAN Penilaian Kemiripan Teks (Text Similarity) memainkan peranan yang sangat penting dalam bidang NLP (Natural Language Processing). Sejauh ini. selanjutnya metode yang ditawarkan akan dibandingan dengan metode tradisional seperti TF-IDF. Menghitung kemiripan teks merupakan metrik dalam membandingkan dua atau lebih artikel. Metode ini menghitung korelasi dari kedua basis vektor artikel pada semantik leksikal dari How-Net dan mendapatkan kemiripan dari kedua artikel tersebut. kami telah mendapat pendekatan dilatih untuk menghasilkan pendekatan vektor proses kata (Word Vector Process). METODE WORD VECTOR MODEL DAN NEURAL NETWORK 1. dan lain sebagainya. 2. Automatic Question Answering. Pembahasan Jaringan Saraf Tiruan Vektor kata dalam artikel ini digunakan dengan cara Distributed Representation.w2. Sehingga perhitungan Xw disederhanakan menjadi rumus (8). Berikutnya yang ketiga mengusulkan metode untuk menghitung kemiripan teks berbasis Jaringan Syaraf. Metode ini merepresentasikan informasi teks dengan menggunakan kode kata (codeword). Optimasi Parameter Model Pada artikel ini menggunakan metode Stochastic Gradient Ascent [12] sebagai fungsi untuk mengoptimasi. Dalam artikel ini. World News. Metode ini menggunakan cara baru untuk menghitung dengan kenyamanan yang sangat baik dan akurasi yang tinggi. menggunakan model tersebut untuk melatih kata dari korpus bahasa Cina yang besar untuk menghitung jarak semantiknya. Artikel ini mengusulkan metode untuk menghitung nilai kemiripan teks semantik menggunakan Word Vector Model.w3…. yang menghitung korelasi antara kata kunci dengan bantuan jarak antar titik koordinat. dibangun Model Vektor Kata (Word Vector Model) berbasis JST dan melatih corpus Bahasa Cina dari Sohu News. Hanya elemen non-zero yang disimpan dan direpresentasikan pada metode ini. Seandainya G(w. Yu Gang mengusulkan metode untuk menghitung kemiripan teks berbasis semantik leksikal [7] dengan Algoritma Maximum Matching.wt dengan probabilitas yang dapat dihitung dengan menggunakan rumus (1). Membangun Word Vector Model . Pada umumnya hal ini dapat dipisahkan yaitu:  Menghitung kemiripan semantic  Menghitung ketidak-miripan non-semantik Penelitian ini memiliki aplikasi yang sangat luas pada bidang Information Retrieval. Lw adalah node pada jalur di pohon Huffman. dan hasilnya percobaan membuktikan bahwa metode yang ditawarkan cukup efektif. dibangun model Word Vector Training berbasis Jaringan Syaraf untuk untuk meningkatkan efisiensi sistem. Metode Word Vector Model Pada artikel ini yang pertama. kata dilambangkan dengan m Vektor kata 2x adalah diakumulasikan dalam penjumlahan di lapisan proyeksi pada rumus (3) Dengan Setiap kategori node diwakili dengan menggunakan rumus (4). PEMBAHASAN 1. Huo Hua mengusulkan cara untuk menghitung kemiripan teks berdasarkan Compressed Sparse Vector Multiplying. Zhang Huanjiong mengusulkan metode untuk menghitung kemiripan teks berbasis Hamming Distance dan juga menggunakan Hamming Concept [4]. Kemudian yang kedua. 2016 A. kami mengasumsikan fungsi sigmoid sebagai fungsi eksitasi struktur jaringan [10]. B.

2) Statistik frekuensi kata dan tidak termasuk kata-kata frekuensi rendah. kita perlu menghitung . . Leaf Node (Simpul Daun) sesuai dengan kata kata dalam kamus. Va3. kami menyesuaikan tingkat belajar setelah pelatihan 1000 dengan rumus yang telah disesuaikan pada rumus (9). kita menggunakan vektor kata untuk menghitung jarak antara mereka. Dengan asumsi ambang (threshold) k. Perhitungan Nilai Kemiripan Teks Semantik Makalah ini membahas perhitungan kemiripan teks semantik melalui vektor kata. 2) Dapatkan frekuensi kata. (2) (3) Lapisan output adalah Huffman Tree. Va2. 5) Hitung jumlah kata-kata yang terlatih dan memperbarui tingkat pembelajaran saat learning rate saat itu adalah lebih besar dari 1000. Kemudian. Context(w) [9]. yang terdiri dari bobot setiap kata di corpus. didapatkan kata c ganda sebelum dan sesudah kata w untuk membentuk konteks dari w. Langkah-langkah dari pembangunan model vektor kata dalam makalah ini adalah sebagai berikut: 1) Dapatkan kata-kata membentuk teks latihan. jika pendek. (4) . 2) Hitung jarak semantik. Untuk berbagai kata di dalam korpus. lapisan proyeksi dan lapisan output. dan Cabang Pohon sebelah kanan disebut kelas positif "0". 2) Dapatkan kata-kata fitur teks LA dan LB. 4. 6) Simpan vektor kata Untuk mengoptimalkan vektor kata [13].. Langkah-langkah dari algoritma adalah sebagai berikut: 1) Dapatkan kosakata teks. Jika nilainya terlalu kecil. Untuk meningkatkan kenyamanan menghitung jarak semantik. Cabang Pohon sebelah kiri dicatat sebagai kategori negatif "1". ukuran tingkat belajar memiliki dampak yang besar pada hasil tingkat konvergensi jaringan dan pelatihan.. kita membuat vektor dibagi dengan panjang vektor mereka. Pikiran utama menghitung kemiripan teks untuk membandingkan kemiripan teks dengan menghitung kemiripan semantik kata fitur.025 di awal. Untuk pengoperasian yang mudah.. No Rumus Keterangan (1) Model Jaringan Syaraf terdiri dari satu lapisan masukan. kita menggunakan rumus (13) untuk mendapatkan kemiripan teks. Jika tinggi. 3) Gunakan rumus untuk menghitung kemiripan teks.. kita menghitung jarak antara kata pusat dan kata lain di perpustakaan kata melalui aturan Cosine. Langkah-langkah dari algoritma adalah sebagai berikut: 1) Muat model vektor biner. Selama proses pelatihan. seperti yang ditunjukkan pada rumus (11) Kata Vektor direpresentasikan sebagai Va1. kami menggunakan perhitungan perkiraan metode dalam tulisan ini. Jumlah simpul daun adalah sama dengan ukuran kamus. Dalam tulisan ini. dapat menyebabkan osilasi atau divergen [14]. Dan Setelah mendapatkan kata-kata fitur teks. . tingkat pelatihan rendah. paraf vektor kata dan kemudian menempatkan mereka ke dalam tabel hash 3) Membangun pohon Huffman. Nilai learning rate ditetapkan 0. 3) Menghasilkan kata-kata fitur dipersiapkan untuk menghitung kemiripan. 4) Hapus kata frekuensi tinggi. Vb3. mendapatkan jumlah kata-kata yang lebih besar dari k. dapatkan Huffman jalan pohon setiap kata. Pada akhirnya. Vbn). tingkat kata kesesuaian rendah.. Van dan vektor kata B direpresentasikan sebagai (Vb1. tingkat kata kesesuaian tinggi.. Formula untuk menghapus kata dengan frekuensi tinggi terdapat pada rumus (10) 3. pertama kami dapatkan kata pusat dan vektor kata-kata mereka. Vb2. Langkah-langkah menghitung kata jarak semantik adalah sebagai berikut: 1) Jalankan model dan dapatkan vektor kata dilatih. Menghitung Jarak Semantik Kata jarak semantik adalah tingkat kata sesuai [15]. kita menggunakan vektor kata yang disebutkan di atas untuk menghitung kemiripan teks semantik. jika jarak panjang. Dalam rangka mengoptimalkan tingkat belajar. Jadi rumus menghitung dari semantik antara kata A dan kata B tertera pada rumus (12). mendapatkan vektor kata dan mengoptimalkan fungsi tujuan. Penulis berasumsi setiap node memiliki coding "d". sehingga nilai "d" dapat menjadi "0" atau "1".

. Car Home News 55 Juta Corpus dan sebagainya. (11) Untuk meningkatkan kenyamanan menghitung jarak semantik. Pada akhirnya.000 kalimat Cina sebagai corpus pelatihan vektor kata dan mendapatkan file vektor sekitar 400 Juta kata. Va3. kita menggunakan vektor kata untuk menghitung jarak antara mereka. Hasil dari kata “Liu Xiang” . HASIL DAN KESIMPULAN 1.. kata (Xiaomi) dekat dengan (Apple). . Misalnya. Jadi rumus menghitung dari semantik antara kata A dan kata B adalah sebagai berikut: (13) Setelah mendapatkan kata-kata fitur teks. Hasil hitung jarak semantik adalah sebagai berikut: Dari tabel hasil di atas.000. tetapi hasil di sini berubah menjadi lebih besar. kita menggunakan web crawler untuk mendapatkan corpus untuk analisis kami dari banyak website seperti Sohu News 136 Juta Corpus. ukuran tingkat belajar memiliki dampak yang besar pada hasil tingkat konvergensi jaringan dan pelatihan. (9) Selama proses pelatihan. kita menggunakan rumus untuk mendapatkan kemiripan teks.. (10) Dimana wordCountActual adalah jumlah kata yang terlatih. Van dan vektor kata B direpresentasikan sebagai (Vb1. Ini berarti bahwa semakin dekat. Vbn). jarak antara mereka lebih besar. Kemudian. Vb3. Netease News 145 Juta Corpus. Va2. Pelatihan Vektor Kata & Jarak Semantik Dalam tulisan ini. dipilih sekitar 1. jarak bagian kata 'tidak begitu besar intuitif. (5) Probabilitas yang menyatakan sebuah node diklasifikasikan ke dalam kelas yang positif (6) Probabilitas yang menyatakan sebuah node diklasifikasikan ke dalam kelas yang negatif (7) Objective Function dari struktur jaringan saraf [11]: (8) Konten yang dilingkari oleh dua tanda penjumlahan ganda dalam Objective Function. Jika nilainya terlalu kecil. mendapatkan jumlah kata-kata yang lebih besar dari k. trainWordCount adalah jumlah semua kata. . Dengan asumsi ambang (threshold) k.. kita membuat vektor dibagi dengan panjang vektornya (12) Kata Vektor direpresentasikan sebagai Va1. Situasi ini dapat terjadi ketika terdapat asosiasi kata di corpus. Jadi perhitungan tentang Xw disederhanakan.. Tabel 1. kita dapat mengamati bahwa jarak dari kata-kata yang dekat dengan kata-kata sentral lebih besar daripada yang lain.. D. Vb2. tingkat pelatihan rendah. Jadi korpus yang dipilih juga memiliki pengaruh penting pada hasil pelatihan vektor kata. World News 64 Juta Corpus.

RBF Filter. 3. 6. Ketika kata-kata ini tombol yang sama yang sedikit atau paling. Misalnya. Teks-teks pengujian didapatkan crawler web dari situs Sohu News. Kelebihan Menggunakan metode Machine Learning daripada metode tradisional seperti TF-IDF sehingga hasil dapat lebih baik. 4. Namun. Hasil Perhitungan Kemiripan Teks Polos Kalimat 2: (Kobe adalah semua-bintang di NBA.867. Ketika teks yang sebagian mirip. kita Teks Semantik menemukan bahwa cara tradisional hanya menghitung kata-kata kunci yang sama. Evolutionary Algorithm dan lain sebagainya E. Hasil Perhitungan Nilai Kemiripan Vector lebih baik dari cara-cara tradisional. ketika kesamaan teks lebih tinggi atau lebih rendah. Dia sangat mencintai basket dan melihatnya hidupnya. Ada 4900 SMS grup untuk dibandingkan. Berdasarkan kalimat tersebut. dsb 5. Kesimpulan Makalah ini telah dirancang dan mencapai metode penghitungan kesamaan teks berdasarkan jaringan saraf.). data mining. mulai dari search engine. Hasilnya pada gambar 1 Pada saat yang sama. nilai kesamaan teks dihitung dengan metode kami berdasarkan jaringan saraf adalah 0.deteksi kemiripan dokumen. Setelah analisis. deteksi plagiasi artikel atau karya ilmiah. ada perbedaan sedikit antara dua cara tersebut. klasifikasi teks.) Gambar 1. Analisis dan Hasil Perhitungan Nilai Kemiripan Teks Pertama. hasilnya bisa buruk. dan sebagainya. masih menggunakan Algoritma Neural Network murni sedangkan saat ini telah banyak perkembangannya antara lain seperti Fuzzy ANN. APLIKASI Penggunaan kemiripan teks dapat dilihat pada berbagai sistem yang beredar. GANN. Metode ini dapat diterapkan di daerah tertentu seperti pencarian informasi. kita menganalisis kesamaan teks teks biasa dengan menggunakan TF-IDF dan Word Vector. Saran Dapat menggunakan Algoritma Machine Learning yang lain seperti SVM. metode ini tidak hanya menjamin keakuratan kesamaan teks antara teks non-semantik. Dan dia adalah anggota dari basket sekolah. Dengan membandingkan cara tradisional menghitung kesamaan teks menggunakan TF-IDF dan Hukum Cosine. Kelemahan Kelemahan utama pada artikel ini adalah tidak menggunakan Bahasa Indonesia sebagai obyek penelitian. teks semantik adalah sebagai berikut: Kalimat 1: (Xiao Ming suka bermain basket. hasil yang dihasilkan oleh dua cara ini hampir sama. Adapun teks polos. cara Word Gambar 2. Backpropagation. pengelolaan pengaduan masyarakat dan lain sebagainya . nilai kemiripan teks dihitung dengan TF-IDF adalah 0.435. cara Firman Vector akan menghitung semua kata-kata dalam teks ini. Pada gambar 2 kita dapat mengamati fitur ini. kami juga menganalisis kesamaan teks-teks semantik dalam dua cara yang berbeda. Word Vector cara dapat langsung menghitung jarak.2. namun. kategorisasi teks. Adapun pada teks semantik. Alasannya adalah bahwa cara tradisional hanya menghitung hubungan kata-kata kunci yang sama. tapi ketika menghitung kesamaan antara teks-teks yang terkait secara semantik memiliki keunggulan yang jelas.