Professional Documents
Culture Documents
net/publication/292831965
CITATIONS READS
4 2,951
3 authors:
Wing Winarno
STIE YKPN
21 PUBLICATIONS 31 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Nurrun Muchammad Shiddieqy Hadna on 03 February 2016.
ABSTRAKS
The growth of websites and social provide us a huge-and-easy-accessed-textual-resources. Twitter is an example
of a social media that has been widely used. People usually post their opinions, experiences or whatever concern
them through this service. Thank’s to technology, at the present of time we are able to analyze the sentiment
polarity of the tweets. There are several methods that can be used to do sentiment analysis e.g. Naive Bayes
Classifier, Support Vector Machine and Maximum Entropy. Before the sentimen analysis proces can be started,
data must be preprocessed to make sure that the data is ready to analyze. In this preprocessing phase, the data
should be labeled, tokenized and weighted, then the data can be analyzed. After being analyzed, the quality of
the sentiment analysis process should be measured. There are several parameters that can be used to measure
the quality of sentiment analysis e.g. accuracy, precision and recall.
Perkembangan berbagai macam portal web dan media sosial yang sangat pesat membuat ketersediaan sumber
dokumen tekstual menjadi sangat besar dan mudah diakses. Salah satu contoh media sosial yang banyak
digunakan adalah Twitter. Melalui media sosial ini, berbagai macam opini, pengalaman maupun hal lain yang
menjadi perhatian banyak dituliskan setiap harinya oleh para penggunanya. Tulisan ini sering disebut dengan
istilah tweet. Berkat perkembangan teknologi, tweet yang dikirimkan oleh pengguna Twitter sudah bisa
dianalisis polaritas sentimennya. Ada beberapa macam metode untuk melakukan analisis sentimen yang bisa
digunakan, antara lain Naive Bayes Classifier, Support Vector Machine dan Maximum Entropy. Sebelum data
dapat dianalisis, terlebih dahulu dilakukan tahap preprocessing untuk memastikan data siap untuk dianalisis.
Tahapan ini antara lain pelabelan, tokenisasi dan pembobotan kata, baru kemudian data memasuki tahap
analisis sentimen. Setelah proses sentimen analisis dilakukan, masih terdapat proses lanjutan untuk menentukan
kualitas pengujian dengan beberapa parameter, antara lain accuracy, precision dan recall.
Kata Kunci: Analisis sentimen, Naive Bayes Classifier, Support Vector Machine, Twitter
Bayes Classifier adalah salah satu algoritma yang 2. Hashtag. Hashtag digunakan untuk
populer digunakan untuk keperluan data mining menandai sebuah topik pembicaraan di
karena kemudahan penggunaannya (Hall, 2006) Twitter. Penulisan hashtag dimulai
serta waktu pemrosesan yang cepat, mudah dengan tanda ‘#’ diikuti dengan topik
diimplementasikan dengan strukturnya yang cukup yang sedang dibahas. Hashtag biasa
sederhana dan tingkat efektifitas yang tinggi (Taheri digunakan untuk meningkatkan
& Mammadov, 2013) visibilitas tweet pengguna.
Selain Naive Bayes Classifier, metode lain yang 3. Emoticon. Emoticon adalah ekspresi
juga cukup populer dan banyak digunakan di wajah yang direpresentasikan dengan
berbagai penelitian adalah Support Vector Machine. kombinasi antara huruf, tanda baca dan
Di dalam paper ini, akan dibahas tahapan yang angka. Pengguna biasa menggunakan
dilalui untuk melakukan proses analisis sentimen. emoticon untuk mengekspresikan mood
Dimulai dari tahap preprocessing (pelabelan, yang sedang mereka rasakan.
tokenisasi dan pembobotan), kemudian tahap 4. Trending topics. Jika hashtag adalah
analisis sentimen dengan perbandingan dua metode cara untuk menandai sebuah topik
yaitu Naive Bayes Classifier dan Support Vector pembicaraan di Twitter, maka trending
Machine serta bagaimana mengukur kualitas hasil topics adalah kumpulan dari topik
analisis menggunakan beberapa parameter seperti pembicaraan yang sangat populer di
accuracy, precision dan recall. Twitter.
2009). Hasil dari pemotongan ini disebut dengan Skor TF-IDF dapat diperoleh menggunakan
token. Pada beberapa kasus, proses tokenisasi juga Persamaan (1).
dilakukan dengan membuang tanda baca yang tidak
diperlukan. tf idft,d tft , d * idft (1)
Ada beberapa model tokenization yang bisa
digunakan, yaitu unigram, bigram, trigram dan n- 2.4 Analisis Sentimen
gram. 2.4.1 Naive Bayes Classifier
Naive Bayes Classifier adalah salah satu
2.2.2 Cleansing algoritma yang populer digunakan untuk keperluan
Cleansing adalah suatu tahap di mana data mining karena kemudahan penggunaannya
karakter maupun tanda baca yang tidak diperlukan (Hall, 2006) serta waktu pemrosesan yang cepat,
dibuang dari teks. Contoh karakter yang dibuang mudah diimplementasikan dengan strukturnya yang
adalah tanda seru, tanda tanya, koma dan titik. cukup sederhana dan tingkat efektifitas yang tinggi
(Taheri & Mammadov, 2013).
2.2.3 Filtering Dengan bahasa yang lebih sederhana, Naive
Filtering adalah tahap menghilangkan kata- Bayes Classifier mengasumsikan bahwa keberadaan
kata yang muncul dalam jumlah besar, namun maupun ketidakberadaan sebuah fitur dalam sebuah
dianggap tidak memiliki makna (stopwords). Pada kelas tidak memiliki keterkaitan dengan keberadaan
dasarnya, stop words list adalah sekumpulan kata- maupun ketidakberadaan fitur lainnya. Sebagai
kata yang banyak digunakan dalam berbagai bahasa. contoh, sesuatu yang berwarna merah, bulat dan
Alasan penghapusan stop words dalam banyak memiliki diameter sekitar 10 cm bisa dikategorikan
program aplikasi yang berkaitan dengan text mining sebagai buah apel. Walaupun fitur ini bergantung
adalah karena penggunaannya yang terlalu umum, antara satu dengan yang lainnya, Naive Bayes
sehingga pengguna dapat berfokus pada kata-kata Classifier akan tetap menganggap bahwa fitur-fitur
lain yang jauh lebih penting (Ganesan, 2015). tersebut independen dan tidak memiliki pengaruh
satu sama lainnya (Rocha, 2006).
2.3 Pembobotan Kata Bergantung pada model probabilitasnya, Naive
Pembobotan kata adalah suatu mekanisme untuk Bayes Classifier dapat dilatih untuk melakukan
memberikan skor terhadap frekuensi kemunculan supervised learning dengan sangat efektif. Dalam
sebuah kata dalam dokumen teks. Salah satu metode berbagai macam penerapannya, estimasi parameter
populer untuk melakukan pembobotan kata adalah untuk model Naive Bayes menggunakan metode
TF-IDF (Term Frequency-Inverse Document maximum likelihood; yang artinya pengguna dapat
Frequency). Term Frequency–Inverse Document bekerja menggunakan model Naive Bayes tanpa
Frequency adalah sebuah metode pembobotan yang perlu mempercayai probabilitas Bayesian atau tanpa
menggabungkan dua konsep, yaitu Term Frequency menggunakan metode Bayesian.
dan Document Frequency (Asrofi, 2015). Term Naive Bayes Classifier dapat diformulasikan
Frequency adalah konsep pembobotan dengan menjadi Persamaan (2).
mencari seberapa sering (frekuensi) munculnya
sebuah term dalam satu dokumen (Huang & Wu,
P ( x | c ) P (c )
2013). Dikarenakan setiap dokumen memiliki P (c | x ) (2)
panjang yang berbeda-beda, bisa saja terjadi sebuah P( x)
kata muncul lebih banyak di dokumen yang panjang
dibandingkan dengan dokumen-dokumen yang
pendek. Dengan demikian, term frequency sering 2.4.2 Support Vector Machine
dibagi dengan panjangnya dokumen (total kata yang Support Vector Machine adalah seperangkat
ada di dokumen tersebut). metode pembelajaran terbimbing (supervised
Sedangkan Document Frequency adalah learning) yang menganalisis data dan mengenali
banyaknya jumlah dokumen di mana sebuah term itu pola, digunakan untuk klasifikasi dan analisis regresi
muncul (Huang & Wu, 2013). Semakin kecil (Saraswati, 2011). Klasifikasi ini dilakukan dengan
frekuensi kemunculannya, maka semakin kecil pula mencari hyperplane atau garis pembatas (decision
nilai bobotnya. Ketika proses perhitungan term boundary) yang memisahkan antara satu kelas
frequency, semua kata di dalamnya dianggap sama dengan kelas yang lain (Novantirani et al., 2015).
pentingnya. Namun, terdapat kata yang sebenarnya Dalam konsep ini, Support Vector Machine berusaha
kurang penting dan tidak perlu diperhitungkan untuk mencari hyperplane terbaik diantara fungsi
seperti “di-”, “ke-”, “dan” dan lain sebagainya. Oleh yang tidak terbatas jumlahnya (Widiastuti, 2007).
sebab itu, kata-kata yang kurang penting tersebut Fungsi yang tidak terbatas dalam pencarian
perlu dikurangi bobotnya dan menambah bobot kata hyperplane di metode Support Vector Machine
penting lainnya. Inilah ide dasar mengapa diperlukan merupakan sebuah keuntungan, dimana pemrosesan
stopword. pasti akan selalu bisa dilakukan bagaimanapun data
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) ISSN: XXXX-XXXX
Yogyakarta, 18-19 Maret 2016
yang dimilikinya. Hyperplane dapat dilihat pada negative). Recall dapat diperoleh dengan
Gambar 2. menggunakan Persamaan (5).
tp
R (5)
tp fn
(tp tn)
A (6)
(tp fp tn fn)
Gambar 2. Hyperplane memisahkan dua
Variabel seperti TN, TP, FN dan FP berasal dari
kelas
confusion matrix.TN adalah singkatan dari True
Negative, data negatif yang diklasifikan sebagai
Data yang digunakan pada metode Support negatif. TP adalah singkatan dari True Positive, data
Vector Machine xi R d dan label
dengan positif yang diklasifikasikan sebagai positif. FN
adalah singkatan dari False Negative, data positif
dinotasikan dengan yi {1,2} untuk i 1,2,...l yang diklasifikasikan sebagai negatif. FP adalah
yang mana l adalah banyaknya data. singkatan dari False Positive, data negatif yang
Support Vector Machine dapat diformulasikan ke diklasifikasikan sebagai positif. Untuk penjelasan
lebih jelas, perhatikan Tabel 1.
dalam Persamaan (3) untuk yi 1 dan
Persamaan (4) untuk yi 1 . Tabel 1. Confusion Matrix (Prabowo &
xi * w b 1 (3) Thelwall, 2009)
2
Penelitian lain tentang perbandingan metode
Naive Bayes Classifier dan Support Vector Machine
3 juga dilakukan oleh (Chandani et al., 2014).
Penelitian ini dilakukan terhadap 1000 data review
4
film yang diambil dari situs IMDB. Hasil dari
5 penelitian ini menunjukkan bahwa metode Support
Vector Machine lebih baik jika dibandingkan dengan
6
metode Naive Bayes Classifier, walaupun selisih
7 skor parameter yang dihasilkan tidak terpaut jauh.
Hasil perbandingan metode yang dilakukan oleh
8 Chandani et al. dapat dilihat pada Tabel 4.
9
10
Tabel 4. Hasil Perbandingan Metode Analisis
oleh Chandani et al.
Dari Tabel 2, bagian kotak berwarna putih adalah Backward
Informatio Chi Forward
Eliminatio
training data, sedangkan bagian kotak berwarna n Gain Square Selection
n
hitam adalah testing data. Top K Top K
(K=200) (K=100)
2.6 Perbandingan Metode Acc Acc Acc Acc
AU AU AU AU
ura ura ura ura
Penelitian yang dilakukan oleh (Padmaja et al., cy
C
cy
C
cy
C
cy
C
2014) membandingkan dua metode analisis AN 91.4 0.91 79.6 0.90 75.5 0.78 70.2 0.72
sentimen, yaitu Naive Bayes Classifier dan Support N 0% 4 0% 0 0% 1 0% 4
Vector Machine. Penelitian ini dilakukan dengan SV 81.5 0.92 80.8 0.85 67.6 0.68 79.2 0.84
mengumpulkan data berupa berita sebanyak 689 M 0% 9 0% 3 7% 9 5% 4
80.8 0.85 80.3 0.86 79.0 0.80 71.2 0.68
artikel terhadap tiga partai yang bersaing pada NB
0% 3 0% 7 0% 7 5% 9
Pemilu India 2009 yaitu United Progressive Alliance Ave 84.5 0.89 80.2 0.87 74.0 0.76 73.5 0.75
(UPA), Telugu Desam Party (TDP) dan Telangana rage 7% 9 3% 3 6% 2 7% 2
Rasthra Samithi (TRS).
Data yang digunakan dalam penelitian ini Penelitian lain yang dilakukan oleh (Taheri &
dikumpulkan dari surat kabar harian yang beredar di Mammadov, 2013) tentang model optimasi
India dan menggunakan Bahasa Inggris seperti The klasifikasi juga membandingkan beberapa metode
Hindu dan Times of India and Economic Times. klasifikasi yang berbeda seperti Naive Bayes,
Hasil penelitian ini menunjukkan bahwa secara Augmented Naive Bayes, SVM, C4.5 dan NN.
umum Support Vector Machine memiliki skor Data set yang digunakan dalam penelitian ini
parameter yang lebih baik dibandingkan dengan adalah public data sets untuk machine learning yang
Naive Bayes Classifier, walaupun dalam beberapa diambil dari UCI seperti data set tentang breast
perhitungan Naive Bayes Classifier tampak lebih cancer, congress vote, credit approval, diabetes,
unggul. German.numer, haberman, heart disease, hepatitis,
Hasil perbandingan metode yang dilakukan oleh ionosphere, liver disorders, sonar, spambase,
Padmaja et al. dapat dilihat pada Tabel 3. svmguide1 dan svmguide3.
Simpulan akurasi dari hasil uji perbandingan
metode ini dapat dilihat pada Tabel 5.
Tabel 3. Hasil Perbandingan Metode Analisis
oleh Padmaja et al.
Tabel 5. Simpulan Hasil Uji Perbandingan
UPA TDP TRS
Me
S S S
Metode oleh Taheri & Mammadov
tri SV SV SV
NB W NB W NB W Data NB SVM
c M M M
N N N Breast Cancer 96.37 95.32
Re Congress Vote 91.43 96.76
0.7 0.6 0.5 0.7 0.7 0.5 0.6 0.6 0.5
cal
19 52 8 00 25 0 67 36 4 Credit Approval 84.92 85.51
ll
Diabetes 75.93 76.72
Pre
0.6 0.7 0.8 0.6 0.7 0.5 0.6 0.6 0.6 German.numer 75.32 76.15
cisi
90 25 6 89 21 4 58 23 3 Haberman 75.22 73.54
on
Seminar Nasional Teknologi Informasi dan Komunikasi 2016 (SENTIKA 2016) ISSN: XXXX-XXXX
Yogyakarta, 18-19 Maret 2016