Professional Documents
Culture Documents
|| (
4
Hasil dari perhitungan kemiripan kemudian akan
disimpan untuk proses selanjutnya yaitu klasifikasi
dengan menggunakan K-Nearest Neighbor. K-Nearest
neighbor adalah sebuah algoritma untuk melakukan
pengkategorian teks yang merupakan metode terbaik
dalam bidang text categorization [8]. Gambar 3
menunjukkan diagram alir K-Nearest Neighbor.
Start
Input (Hasil
pembobotan)
Hitung Similarity antar
dokumen
menentukan nilai K
Tentukan kelas
dokumen
Simpan hasil
klasifikasi
Return
KNN
Gambar 3. Diagram Alir KNN
Hasil dari klasifikasi dengan metode KNN akan
dideteksi tingkat kedalaman kesopanan yang berlabel
negatif. Pelabelan kedalaman sentiment analysis terbagi
dari 4 level kedalaman (deep) yaitu level 0, level 1, level
2 dan level 3. Contoh kata-kata yang sudah
mendapatkan nilai level menurut tingkat kesopanan
dapat dilihat pada tabel 1
KATA LEVEL
beban 1
aneh 2
ancam 3
bagal 3
Tabel 1. Database kata deep sentiment
3. IMPLEMENTASI
Implementasi sistem menerapkan metode-metode
yang telah disebutkan pada pembahasan metode
penelitian dan perancangan. Adapun untuk antarmuka
dapat dilihat pada gambar berikut.
Gambar 4. Antarmuka Sistem
4. PENGUJIAN DAN ANALISIS
Untuk mempelajari pengaruh jumlah data latih dan
nilai k terhadap efektivitas sistem klasifikasi maka
dilakukan 5 kali pengujian menggunakan stemming
pada masing-masing skenario dan tanpa menggunakan
stemming pada 1 skenario yang terdiri dari 4 kali
pengujian. Setiap skenario menggunakan jumlah data
uji 21 dengan jumlah data latih dan nilai k yang
berbeda.
Tabel 2. Skenario Uji Coba
Skenario
Data Latih Data Uji
P N Jumlah P N Jumlah
1 55 100 155 7 14 21
2 45 85 130 7 14 21
3 35 70 105 7 14 21
4 25 55 80 7 14 21
Pada tabel 1 masing-masing skenario memiliki
perbedaan jumlah data latih yang digunakan dalam
melakukan pengujian.
Tabel 3. Hasil Pengujian Skenario 1
No Nilai K Akurasi (dalam persen)
1 2 71.4286
2 5
80.9524
3 10
76.1905
4 15
76.1905
5 20 85.7143
Tabel 3 memperoleh prosentase tertinggi dengan
nilai 80,9524% dengan menggunakan nilai k=5.
Tabel 4. Hasil Pengujian Skenario 2
No Nilai K Akurasi (dalam persen)
1 2 71.4286
2 5 80.9523
3 10 80.9523
4 15 76.1905
5 20 76.1905
5
Tabel 4 menghasilkan nilai tertinggi pada dua
percobaan yang menunujukan nilai 80,9523% dengan
nilai k=5 dan k=10.
Tabel 5. Hasil Pengujian Skenario 3
No Nilai K Akurasi (dalam persen)
1 2 47,6191
2 5 71,4286
3 10 71,4286
4 15 80,9524
5 20 71,4286
Tabel 5 menghasilkan nilai tertinggi pada k=15
dengan hasil mencapai 80,9524% dan menghasilkan
nilai terendah dengan nilai k=2 mencapai akurasi
47,6191%.
Tabel 6. Hasil Pengujian Skenario 4
No Nilai K Akurasi (dalam persen)
1 2 57,1429
2 5 61,9048
3 10 76,1905
4 15 66,6667
5 20 66,6667
Tabel 6. Menghasilkan nilai tertinggi pada k=10
dengan hasil mencapai 76,1905% dan menghasilkan
nilai terendah dengan nilai k=2 mencapai akurasi
57,1429%. Pada pengujian skenario ini memiliki rata-
rata yang relatif kecil.
Tabel 7. Hasil Pengujian tanpa stemming
No Nilai K Akurasi (dalam persen)
1 2 61,9048
2 5 80,9524
3 10 76,1905
4 15 76,1905
5 20 71,4286
Tabel 7 menghasilkan nilai yang diperoleh dari
pengujian tanpa stemming berdasarkan skenario 1.
Hasil tertinggi mencapai 80,9524% dengan
menggunakan nilai k=5.
Tabel 8. Hasil Pengujian Berdasarkan Nilai k
k s 1 s2 s3 s4 TS
2 71.43 71.43 47.62 57.14 61.90
5 80.95 80.95 71.43 61.90 80.95
10 76.19 80.95 71.43 76.19 76.19
15 76.19 76.19 80.95 66.67 76.19
20 85.71 76.19 71.43 66.67 71.43
Keterangan :
k : Nilai k yang diberikan pada KNN
s1 : Pengujian dengan skenario 1
s2 : Pengujian dengan skenario 2
s3 : Pengujian dengan skenario 3
s4 : Pengujian dengan skenario 4
TS : Pengujian dengan tanpa stemming
Gambar 5. Hasil pengujian berdasarkan nilai k
Tabel 9. Hasil rata-rata pengujian
Skenario rata-rata dalam persen ( % )
1 78.0952
2 77.1428
3 68.5715
4 65.7143
tanpa stemming 73.3333
Tabel 9 menunjukan nilai rata-rata dari hasil
masing-masing skenario percobaan menggunakan
stemming dan tanpa stemming. Skeneraio 1
menunjukan nilai tertinggi pada menggunakan
stemming. Rata-rata nilai pengujian tanpa stemming
berprosentase 73,3333%.
Gambar 6. Hasil rara-rata pengujian
Nilai tertinggi terdapat pada skenario 1 yaitu
dengan rata-rata akurasi 78,0952% (pada gambar 5).
Setelah menghilangkan proses stemming pada proses
pengujian akurasi di skenario 1, didapatkan hasil yang
6
lebih kecil. Hasil ini dapat disimpulkan bahwa akurasi
pengujian menggunakan stemming mendapatkan hasil
yang lebih baik.
5. PENUTUP
Kesimpulan
Kesimpulan hasil dari skripsi sentimen analisis ini
dengan menggunakan metode K-Nearest Neighbor
(KNN) sebagai berikut:
1. Aplikasi dengan metode KNN untuk
mengklasifikasikan sentimen dari dokumen E-
Complaint dengan cara melakukan preprocessing
terlebih dahulu pada dokumen sehingga
didapatkan kata-kata yang sudah terpisah,
kemudian menghitung bobot dari dokumen uji
terhadap dokumen semua latih serta
mengurutkan nilai kedekatannya, setelah itu
dihitung kemiripannya pada masing-masing
kelas terhadap k-tetangga terdekat yang berada
dalam proses KNN.
2. Sistem perangkat lunak deep sentiment analysis
mampu menentukan sentimen pada data E-
Complaint dan mengklasifikasikannya ke dalam
kategori positif dan negatif dengan beberapa nilai
k, setelah itu aplikasi mampu melabelkan sejauh
mana kedalaman tingkat kesopanan data E-
Complaint yang bersifat negatif dengan
membandingkan kata-kata dalam data latih.
3. Hasil pengujian sentiment analysis terhadap data
E-Complaint universitas Brawijaya dengan
metode K-Nearest Neighbor (k-NN) memiliki
nilai akurasi tertinggi yaitu dengan rata-rata
81,17647% dengan pengujian pada perbandingan
data latih dan data uji 90 : 10 menggunakan
proses stemming. Sedangkan nilai rata-rata
dengan akurasi terendah mencapai 45.45455 %
pada pengujian skenario 6 dengan nilai k = 5.
Untuk pengujian tanpa stemming mencapai rata
rata akurasi hingga 78,82352% berdasarkan
ekstraksi fitur yang telah ditentukan.
Saran
Saran dari penelitian deep sentiment analysis
dengan metode K-Nearest Neighbor (k-NN) untuk
pengembangan lebih lanjut adalah sebagai berikut :
1. Metode K-Nearest Neighbor pada sistem ini kurang
dapat menangani jumlah data latih dan data uji
yang memiliki perbandingan 50:50 dari jumlah
data keseluruhan yaitu 175 data E-Complaint
sehingga distribusi antara data latih dengan data
uji kurang merata yang mengakibatkan
sedikitnya kesamaan kata antara data uji dengan
data latih, maka diharapkan adanya penelitian
lanjutan dengan menggunakan data latih yang
memiliki distribusi seimbang disetiap kategori
data latih.
2. Pada penelitian selanjutnya diharapkan
melakukan pengujian tanpa proses stemming
dengan menggunakan data ektraksi fitur yang
berimbuhan untuk mendapatkan hasil yang
optimal.
DAFTAR PUSTAKA
[1] Rismawan, T., Wiedha, A., Prabowo, W. (2008).
"Sistem Pendukung Keputusan Berbasis Pocket
PC sebagai Penentu Status Gizi menggunakan
Metode KNN (K-NEAREST NEIGHBOR)".
[2] Hidayat, Wahyu .(2008). Penerapan K-Nearst
Neighbor Untuk Klasifikasi Gambar Landscape
Berdasarkan Fitur Warna dan Tekstur.
[3] Glen Toker, znur Krmemi. (2009). TEXT
CATEGORIZATION USING k-NEAREST
NEIGHBOR CLASSIFICATION
[4] Guo, G., Hui Wang, David Bell, Yaxin Bi, dan
Kieran Greer. 2004. An KNN Model Based Approch
and Its Application in Text Categorization. Northern
Ireland, UK.
[5] Sebastiani, F. 2002. Machine Learning in Automated
Text Categorization.
[6] Baldi, P, P. Frasconi, P. Smyth.2003. modelling The
Internet and The Web.
[7] Robertson, S. 2004. Understanding Inverse
Document Frequency On theoritical arguments for
IDF, Journal of Documentation.
[8] Bergo, Alexander. 2001. Text Categorization and
Prototypes.
[9] Garcia, Dr. E. 2005. The Classic Vector Space Model
(Description, Advantages and Limitations of the
Classic Vector Space Model).