You are on page 1of 12

Walisongo Journal of Information Technology, Vol. 1 No.

1 (2019)
DOI : http://dx.doi.org/10.21580/wjit.2019.1.1.3915
Copyright © 2019 WJIT : Walisongo Journal of Information Technology

Klasifikasi Berita Hoax Dengan Menggunakan Metode


Naive Bayes
Hery Mustofa1 Adzhal Arwani Mahfudh2
1 2 Universitas
Islam Negeri Walisongo Semarang
herymustofa@walisongo.ac.id, adzhal@walisongo.ac.id

Abstract
Hoaxes contain false news or non-sourced news. Today, hoaxes are very widely
spread through internet media. The development of information technology that
has so quickly triggered the spread of hoax information through the internet has
become uncontrolled. So we need an intelligent system that can classify hoax news
content that is spread through internet media. The hoax classification process can
be done through the preprocessing stage then weighting the word and
classification using naive bayes. Measurements were made using the 10-ford cross
validation method. The results obtained from these measurements, it is known
that the value of fold 6 has the highest accuracy, which is equal to 85.28% which
is classified as relevant documents as much as 307 and irrelevant as much as 53
or an error rate of 14.72%. While the average value based on hoax news and true
news value precision 0.896 and recall 0.853

Keywords : hoax, klasifikasi, naive bayes, text minning

Abstrak
Hoax mengandung makna berita bohong atau berita tidak bersumber. Saat ini,
hoax sangat banyak tersebar melalui media internet. Perkembangan teknologi
informasi yang begitu cepat memicu penyebaran informasi hoax melalui
internet menjadi tidak terkontrol. Sehingga diperlukan suatu sistem cerdas
yang dapat melakukan klasifikasi konten berita hoax yang tersebar melalu
media internet. Proses klasifikasi hoax dapat dilakukan melalui tahap
preprocessing kemudian pembobotan kata dan dilakukan klasifikasi
menggunakan naive bayes. Pengukuran dilakukan dengan metode 10-ford cross
validation. Hasil yang diperoleh dari pengukuran tersebut, diketahui bahwa
nilai fold 6 mempunyai keakuratan tertinggi, yaitu sebesar 85.28 % yang mana
terklasifikasi dokumen yang relevan sebanyak 307 dan yang tidak relevan
sebanyak 53 atau error rate sebesar 14.72%. Sedangkan nilai rata-rata
berdasarkan berita hoax dan berita benar nilai precision 0,896 dan recall 0.853.

Kata kunci : hoax, klasifikasi, naive bayes text minning

http://journal.walisongo.ac.id/index.php/jit/index
WJIT : Walisongo Journal of Information Technology

|1
Hery Mustofa1 Adzhal Arwani Mahfudh2

1. PENDAHULUAN Klasifikasi dokumen merupakan


Menurut KBBI hoax proses menemukan sekumpulan
mengandung makna berita bohong, model yang mendeskripsikan dan
berita tidak bersumber. membedakan kelas-kelas data sesuai
(Kemendikbud, 2019) Hoax adalah dengan kategori yang dimilikinya.
informasi sesat dan berbahaya karena (Asosiasi Penyelenggara Jasa Internet
menyesatkan persepsi manusia Indonesia (APJII) , 2017) Tujuan dari
dengan menyampaikan informasi klasifikasi adalah untuk melakukan
palsu sebagai kebenaran. (Afriza & prediksi kelas dari obyek yang belum
Adisantoso, 2018) Secara garis besar diketahui kelas dan karakteristik tipe
hoax adalah berita yang menyesatkan datanya. Identifikasi konten hoax
karena tidak mempunyai sumber yang sudah dilakukan oleh komunitas
bisa dipertanggungjawabkan dan internet yang tergabung di situs
bukti yang jelas. Berita hoax sengaja turnbackhoax.id. Situs tersebut
diciptakan oleh segelintir orang untuk dikelola oleh MAFINDO (masyarakat
memperoleh keuntungan pribadi anti hoax Indonesia), sumber konten
demi tujuannya tercapai. berasal dari laporan dari forum di
Saat ini berita hoax banyak jejaring sosial Facebook dengan nama
tersebar melalui internet. FAFHH (forum anti fitnah hasut dan
Perkembangan teknologi informasi hoax). Metode identitas atau
yang begitu cepat, memicu klasifikasi yang dilakukan pada situs
penyebaran informasi melalu internet turnbackhoax.id masih dilakukan
yang tidak terkontrol, salah satu di secara manual, sehingga jika
dalamnya informasi dokumen yang informasi semakin berkembang akan
mengandung hoax. Di Indonesia kesulitan dikarenakan informasi yang
Teknologi informasi untuk ikut masuk semakin banyak. Dalam
berkembang denan pesat di mana penelitian ini kan dilakukan klasifikasi
pengguna internet di Indonesia saat menggunakan model pendekatan data
ini terus bertambah. Menurut survei mining sehingga klasifikasi dapat
yang dilakukan oleh Asosiasi dilakukan oleh sistem secara
Penyelenggara Jasa Internet Indonesia otomatis.
(APJII) pada tahun 2017 dijelaskan Proses ekstraksi atau penggalian
bahwa penetrasi pengguna internet data yang belum diketahui
Indonesia mencapai 143,26 juta jiwa sebelumnya disebut data mining.
atau 54,56% dari total populasi (Connoly & Begg, 2015) Data tersebut
penduduk Indonesia 262 juta orang. digali informasinya berdasarkan
(Asosiasi Penyelenggara Jasa Internet database besar untuk diambil
Indonesia (APJII) , 2017) Untuk keputusan yang penting. Sedangkan
mengetahui berita informasi hoax klasifikasi adalah kumpulan model
atau fakta yang tersebar di internet, yang menggambarkan dan
diperlukan metode klasifikasi membedakan kelas data atau konsep,
dokumen secara manual maupun dengan tujuan mampu menggunakan
secara otomatis oleh sistem. model untuk memprediksi kelas dari

2 |WJIT : Walisongo Journal of Information Technology


Klasifikasi Berita Hoax Dengan Menggunakan Metode Naive Bayes

objek yang label kelasnya tidak klasifikasi naive bayes dengan


diketahui. Model tersebut didasarkan enhanced confix stripping stemmer
pada pola analisis kumpulan data sebesar 77%. (Pramudita, Putro, &
latih. (Han & Kamber, 2000) Makhmud, 2018)
Sebelum berita dilakukan Penelitian selanjutnya klasifikasi
klasifikasi maka diperlukan tahap hoax pada berita kesehatan bahasa
preprocessing. Preprocessing Indonesia dengan menggunakan
mempunyai tahapan sebagai berikut, metode Modified K-Nearest Neighbor.
yaitu case folding, tokenizing/parsing, Proses klasifikasi hoax menggunakan
filtering dan stemming. Proses beberapa tahapan mulai dari
stemming menjadi tahapan paling preprocessing, pembobotan dan
penting di dalam tahap preprocessing klasifikasi dengan menggunakan
dikarenakan pada stemming terjadi metode Modified K-Nearsest Neighbor.
proses penghilangan kata imbuhan Datasets yang digunakan diperoleh
sehingga kata menjadi kata dasar. secara manual dari jejaring sosial dan
(Triawati, 2009) Model klasifikasi portal berita yang mana sejumlah 51
akan menggunakan dalam penelitian berita telah dilabeli oleh pakar, 67
ini adalah metode klasifikasi naive dilabeli oleh tim hoax buster dan 52
bayes. Naive bayes telah banyak berita dilabeli oleh situs itu sendiri.
digunakan pada data medis, jaringan Dari penelitian itu diperoleh hasil
komputer dan teks dikarenakan pengujian menghasilkan nilai k
kesederhanaan, efektif dan terbaik berjumlah 4, precision sebesar
kompabilitas menangkap visualisasi 0,83 recall sebesar 0,75, f-measure
model data. (Abraham, 2009) sebesar 0.79 dan akurasi sebesar 75%.
Penelitian terkait dengan Berdasarkan paparan di atas,
klasifikasi konten berita pernah diketahui bahwa klasifikasi naive
dilakukan sebelumnya, yaitu bayes memberikan akurasi lebih tinggi
penelitian menggunakan metode dibandingkan dengan klasifikasi K-
naive bayes untuk klasifikasi berita Nearsest Neighbor. Oleh karena itu,
olahraga dengan enhanced confix pada penelitian ini akan dilakukan
stripping stemmer. Terdapat 2 jenis klasifikasi berita hoax menggunakan
dokumen berita yaitu berita latih dan naive bayes . Tujuannya adalah untuk
berita uji. Berita latih didapat dari mengetahui tingkat akurasi metode
situs berita olahraga sport.detik.com. naive bayes untuk melakukan
Peneliti mengambil 151 berita latih klasifikasi berita hoax berbahasa
dari 6 kategori yaitu sepakbola, Indonesia.
basket, raket, motoGP, formula 1 dan
berita olahraga lainnya. Pengujian 2. METODE
dilakukan menggunakan 18 berita Metode penelitian ini akan
yang dipilih acak. Dari 18 berita yang menggunakan algoritma naive bayes
diujikan terdapat 14 berita yang dengan data masukan berupa
bernilai benar. Dari Penelitian itu dokumen teks. Setelah itu dokumen
dapat disimpulkan bahwa keakuratan teks dilakukan preprocessing dengan

http://journal.walisongo.ac.id/index.php/jit/index
WJIT : Walisongo Journal of Information Technology

|3
Hery Mustofa1 Adzhal Arwani Mahfudh2

tanpa menggunakan steming. Setelah atau istilah terkait dasar teori yang
itu, kemudian dilakukan proses digunakan di dalam penelitian.
pembobotan kata antar data latih.
Selanjutnya dilakukan klasifikasi teks 3.1 Berita
berita tersebut dengan menggunakan Berita adalah informasi terbaru
algoritma naive bayes. Pengukuran yang menarik pembaca dan
dilakukan dengan menggunaka disampaikan lewat media seperti
metode 10-Ford Cross Validation. Hasil koran, layar kaca, internet, jejaring
akhir dari proses klasifikasi akan sosial, dan lainya. Sebuah berita harus
menghasilkan keluaran berupa berita mengandung unsur 5W+1H (what,
hoax dan fakta. Tahapan sistem dapat who, when, where, why dan How).
digambarkan seperti pada gambar 1. (Cahya, 2012)

3. KERANGKA TEORI
Di dalam kerangka teori akan
dibahas dan dikupas beberapa hal

Gambar 1
Metode Penelitian

3.2 Hoax 3.3 Preprocessing


Hoax mengandung makna berita Preprocessing adalah proses
bohong, berita tidak bersumber. melakukan perubahan dari dokumen
(Kemendikbud, 2019) Hoax adalah teks menjadi term index dengan tujuan
informasi sesat dan berbahaya karena untuk menghasilkan hasil set term
menyesatkan persepsi manusia index yang dapat digunakan sebagai
dengan menyampaikan informasi kata kunci untuk mengawali sebuah
palsu sebagai kebenaran. (Afriza & dokumen. Tahapan preprocessing
Adisantoso, 2018) Hoax merupakan adalah sebagai berikut : (Fauzi, t.thn.)
manipulasi berita yang sengaja dibuat
dengan tujuan untuk memberikan
informasi yang salah.

4 |WJIT : Walisongo Journal of Information Technology


Klasifikasi Berita Hoax Dengan Menggunakan Metode Naive Bayes

3.3.1 Parsing 3.3.3 Stemming


Dokumen sebelum di proses, Stemming merupakan suatu
proses awal yaitu dilakukan parsing. teknik untuk mentransformasi kata-
Parsing yaitu proses pemotongan kata dalam sebuah dokumen teks
struktur dokumen menjadi beberapa menjadi bentuk kata dasar. Proses
komponen yang terpisah. stemming berbeda dalam tiap bahasa
karena pada setiap bahasa yang
3.3.2 Tokenisasi digunakan di berbagai Negara
Pada proses ini dilakukan proses memiliki aturan-aturan yang berbeda
penghilangan tanda baca, angka dan dalam penggunaan kata berimbuhan.
karakter selain huruf alfabet. Selain Bahasa Perancis memiliki perbedaan
itu, juga dilakukan proses aturan penggunaan tata bahasa
pemotongan string input berdasarkan dengan Bahasa Arab. Pada Bahasa
tiap kata penyusunya. karena karakter Indonesia terdapat kompleksitas pada
tersebut merupakan suatu pemisah variasi imbuhan yang menjadi titik
kata (delimeter) yang mana tidak fokus pada pembentukan kata
memiliki kegunaan terhadap dasarnya.
pemrosesan teks. Pada tahapan ini
juga dilakukan proses case folding, 3.4 Pembobotan Kata
yakni proses perubahan huruf, di Pembobotan kata tergantung
mana semua kata yang mengandung pada jumlah kemunculan masing-
huruf besar diubah menjadi huruf masing token dalam dokumen. Perlu
kecil. Selanjutnya adalah tahapan dilakukan proses pembobotan skema
cleaning yang berfungsi untuk pembobotan yang paling banyak
menghilangkan informasi yang tidak digunakan adalah skema term
berhubungan dengan dokumen frequency-inverse document frequency
seperti misalnya code script, link, (TF-IDF). Term frequency (TF)
HTML dan lain sebagainya. didefinisikan sebagai jumlah
kemunculan suatu kata/istilah dalam
3.3.2 Stopword Removal dan Filtering suatu dokumen. (Fauzi, t.thn.)
Di dalam tahapan ini dilakukan
proses stoplist atau stopword. Proses 3.5 Term Frequency
1 + 𝑙𝑜𝑔10 𝑡𝑓𝑡,𝑑, 𝑖𝑓 𝑡𝑓𝑡,𝑑 > 0 Merupakan banyaknya kemun
𝑊𝑡 𝑓 𝑡,𝑑 = { culan kata t dalam dokumen d. Rumus
0, 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
term frequency dapat dituliskan dalam
tersebut adalah melakukan persamaan berikut :
penghilangan kata-kata yang tidak
penting dengan pendekatan bag-of- Keterangan :
word. Hasil dari stoplist adalah 𝑊𝑡 𝑓 𝑡,𝑑 = Frekuensi kemunculan kata
wordlist yang berisi kata penting. t dalam dokumen d

http://journal.walisongo.ac.id/index.php/jit/index
WJIT : Walisongo Journal of Information Technology

|5
Hery Mustofa1 Adzhal Arwani Mahfudh2

3.6 Invers Document Frequency latih. Rumus untuk menghitung


Merupakan banyak dokumen tingkat kemiripan dokumen satu
yang mengandung kata/token/term t. dengan dokumen lain dijelaskan pada
Rumus inverse document frequency persamaan (5) dan normalisasinya
akan dijelaskan pada persamaan pada persamaan (6).
berikut : Tanpa normalisasi Wt, d :

𝑁 𝒅𝒋 .̇ 𝒒
𝑖𝑑𝑓𝑡 = log10 𝑪𝒐𝒔𝑺𝒊𝒎(𝑑𝑗 , 𝒒) =
𝑑 𝑓𝑡 |𝒅𝒋 |. |𝒒|
𝒕
∑𝒊=𝟏(𝑾𝒊𝒋 . 𝑾𝒊𝒒 )
=
Keterangan :
𝑖𝑑𝑓𝑡 = Banyaknya dokumen yang √∑𝒕𝒊=𝟏 𝑾𝒊𝒋𝟐 . ∑𝒕𝒊=𝟏 𝑾𝒊𝒋𝟐 . 𝑾𝒊𝒒𝟐
memuat t Dengan normalisasi
𝑁 = Jumlah total dokumen berdasarkan persamaan Wt.d
sebelumnya :
3.7 TF.IDF Weighting
Bobot disini merupakan hasil 𝑪𝒐𝒔𝑺𝒊𝒎(𝑑𝑗 , 𝒒) (6)
perkalian dari 𝑡 𝑓 𝑡,𝑑 dan 𝑖𝑑𝑓𝑡 , rumus = 𝑑𝑗 . 𝑞
tf.idf weighting akan dijelaskan pada 𝑡
persamaan (3) dan normalisasinya = ∑ (𝑊𝑖𝑗 . 𝑊𝑖𝑞 )
𝑖=1
pada persamaan (4).
Keterangan :
𝑁 (3) 𝑑𝑗 = Data latih j
𝑖𝑑𝑓𝑡 = log10
𝑑 𝑓𝑡 q = Tetangga data latih j
𝑊𝑖𝑗 = Nilai pembobotan kata pada
𝑊𝑡,𝑑 (4 dokumen latih
𝑊𝑡 𝑑 ) 𝑊𝑖𝑞 = Nilai pembobotan kata pada
= tetangga dokumen latih
√∑𝑛𝑡 = 1 𝑊𝑡,𝑑𝑑2
𝐶𝑀𝐴𝑃 =
arg 𝑐𝑐∈{𝑐𝑙𝑚𝑎𝑥 𝑚𝑎𝑥
,𝑐𝑠 }𝑃(𝑐|𝑑) = arg 𝑐∈{𝑐𝑙 ,𝑐𝑠 }
3.8 Cousine Similarity 𝑚
Merupakan proses untuk 𝑃 (𝑐) ∏ 𝑃(𝑡𝑘 | 𝑐)
menghitung besarnya derajat 𝑘=1
kemiripan antara dokumen dan query.
Nilai cousine similarity ditentukan
berdasarkan perhitungan besarnya 3.9 Naive Bayes
nilai fungsi cosine terhadap sudut Klasifikasi adalah bentuk
yang dibentuk oleh dua vektor. Jika analisis data yang mengekstrak model
ditarik pada penelitian ini cousine untuk menggambarkan kelas data.
similarity adalah sebuah representasi Model yang dibangun meliputi
dari beberapa dokumen antar data pengklasifikasian dan prediksi

6 |WJIT : Walisongo Journal of Information Technology


Klasifikasi Berita Hoax Dengan Menggunakan Metode Naive Bayes

kategori label kelas. Klasifikasi dapat maksimal posteriori (MAP) kelas 𝐶𝑀𝐴𝑃
di aplikasikan ke dalam berbagai didefinisikan
bidang seperti deteksi penipuan, Persamaan di bawah ini
target marketing, prediksi kerja dan melibatkan banyak perkalian
lainnya. probabilitas bersyarat, salah satu fitur
Naive bayes Classifier
merupakan pengklasifikasi dapat menghasilkan
probabilitas sederhana yang perhitungan titik bawah
didasarkan pada teory Bayes, yang mengambang. Dalam prakteknya
menyatakan bahwa kemungkinan perkalian probabilitas di konversi ke
terjadinya suatu peristiwa sama dalam logaritma probabilitas oleh
dengan probabilitas intrinsik karena itu persamaanya didefinisakan
(dihitung dari data yang tersedia
sekarang) dikalikan probabilitas 𝑚𝑎𝑥
𝐶𝑀𝐴𝑃 = arg 𝑐∈{𝑐𝑙
bahwa hal serupa akan terjadi lagi di 𝑚
,𝑐𝑠 }

masa depan (berdasarkan


[log 𝑃(𝑐) + ∑ 𝑙𝑜𝑔𝑃(𝑡𝑘 | 𝑐)]
pengetahuan yang terjadinya di masa
𝑘=1
lalu).
Naïve bayes adalah algoritma
pembelajaran probabilitas yang 3.10 Pengukuran
berasal dari teori Keputusan Bayesian. Model klasifikasi yang dibangun
Probabilitas d berada di kelas c, P (c | perlu dievaluasi untuk mengetahui
d), dihitung sebagai seberapa bagus model tersebut dalam
melakukan klasifikasi yang di
𝑃(𝑐|𝑑) (7) inginkan. Dalam mengevaluasi kinerja
𝑚
pengklasifikasi khususnya klasifikasi
∝ 𝑃 (𝑐) ∏ 𝑃(𝑡𝑘 | 𝑐)
teks umumnya dilakukan dengan
𝑘=1
accuracy atau dengan precision and
Di mana 𝑃(𝑡𝑘 | 𝑐) adalah recall (Minner, Delen, & Elder, 2012).
probabilitas bersyarat dari fitur 𝑡𝑘 Nilai accuracy merepresentasikan
yang ada dalam pesan kelas c dan seberapa banyak keseluruhan
𝑃 (𝑐) adalah dokumen diklasifikasikan dengan
benar. Semakin tinggi nilai accuracy
probabilitas sebelumnya dari yang dihasilkan
pesan yang terjadi di kelas c. 𝑃(𝑡𝑘 | 𝑐)
dapat digunakan untuk mengukur
kontribusi tk ke dalam c, di mana c maka semakin bagus dan akurat
kelas yang benar. Dalam klasifikasi model tersebut dalam melakukan
teks kelas pesan ditentukan dengan klasifikasi. Persamaan untuk
mendapatkan nilai accuracy adalah
𝐴𝑐𝑢𝑟𝑎𝑐𝑦
sebagai berikut:
mencari kemungkinan besar atau 𝑇𝑜𝑡𝑎𝑙 𝑘𝑎𝑡𝑎 𝑦𝑎𝑛𝑔 𝑑𝑖𝑘𝑙𝑎𝑠𝑖𝑓𝑖𝑘𝑎𝑠𝑖𝑘𝑎𝑛 𝑏𝑒𝑛𝑎𝑟
=
𝑇𝑜𝑡𝑎𝑙 𝐷𝑜𝑘𝑢𝑚𝑒𝑛
http://journal.walisongo.ac.id/index.php/jit/index
WJIT : Walisongo Journal of Information Technology

|7
Hery Mustofa1 Adzhal Arwani Mahfudh2

Tabel 1
𝑇𝑃 (10)
𝑃= Confuion Matrix
(𝑇𝑃 + 𝐹𝑃)
Non
𝑇𝑃 (11) Relevant
𝑅= relevant
(𝑇𝑃 + 𝐹𝑁) Retrieved True False
positives positives
Pengukuran precision dan recall (TP) (FP)
merupakan metrik evaluasi yang
paling sering digunakan pada kasus Not False Trus
klasifikasi teks. Misalnya terdapat dua retrieved negatives negatives
kelas A dan B, precision yaitu jumlah (FN) (TN)
sampel berkategori A yang ditebak
dengan benar sebagai A dibanding Precision dan recall dapat
dengan jumlah total data yang ditebak merepresentasikan nilai keakuratan
sebagai A, sedangkan recall yaitu model pada setiap kelas. Sedangkan
jumlah sampel berkategori A yang untuk mengetahui akurasi secara
ditebak dengan benar dibandingkan keseluruhan digunakan pengukuran
dengan jumlah total sampel A. Dalam FI yang merupakan pengukuran
melakukan pengukuran ini biasanya tunggal dari kombinasi precision dan
dibangun confusion matrix yang recall.
merupakan sebuah tabel yang terdiri
atas banyaknya baris data uji yang
diprediksi benar dan tidak benar oleh
model klasifikasi.

Gambar 2
Proses Transformasi String to Vector dalam Tool Weka

8 |WJIT : Walisongo Journal of Information Technology


Klasifikasi Berita Hoax Dengan Menggunakan Metode Naive Bayes

Gambar 3
Pengujian 10-Fold Cross Validation

4. PEMBAHASAN Tahap tersebut dimulai dari tahap


Data berita hoax yang digunakan parsing yaitu melakukan pemotongan
dalam penelitian ini diperoleh secara dokumen, di mana data berformat
manual dari situs turnbackhoax.com. spreeadsheet di rubah menjadi format
Data berita hoax diambil dari bulan .arff sesuai dengan format dokumen
November 2018 sampai dengan yang kompatibel Tool Weka 3.8.
Februari 2019 berisi judul, tanggal Setelah itu, dilakukan tahap
berita terbit, dan label. Data yang tokenisasi. Tahap tersebut akan
diambil total sebanyak 300 di labeli melakukan proses penghilangan
oleh para pakar yang disebut sebagai tanda baca, spasi dan lain sebagainya.
data latih dan data tes. Dari 300 data Selanjutnya dilakukan proses stop
tersebut terdapat 297 dokumen berita word, yaitu dokumen yang
berkategori hoax, dan 63 dokumen mengandung kata hoax dihilangkan,
berkategori fakta. Dokumen tersebut supaya tidak mengganggu hasil
dikumpulkan dalam bentuk format akurasi. Dari hasil preprocessing
spreadsheet. semua dokumen berita dapat
Dari 300 data berita tersebut terbentuk attribut sebanyak 1650
akan diolah menggunakan Tool Weka atribut. Seperti terlihat pada gambar
3.8.1. Pertama yang dilakukan, yaitu 2.
melakukan tahap preprocessing.
http://journal.walisongo.ac.id/index.php/jit/index
WJIT : Walisongo Journal of Information Technology

|9
Hery Mustofa1 Adzhal Arwani Mahfudh2

Tahapan selanjutnya, dilakukan Tabel 2


proses transformasi kalimat ke dalam Confusion Matrix
matrix vector. Dari proses
transformasi tersebut, diketahui TF
Hasil Aktual
dan IDF. Setelah itu, dilakukan proses Prediksi
klasifikasi dengan naive bayes. Hasil
Fakta H
Tahapan terakhir yaitu pengukuran
dengan untuk menentukan nilai Fakta 55 8
accuracy, precision and recall serta
terbentuk conffusion matrix. Hoax 45 252
Pengujian dilakukan dengan
menggunakan metoded 10-Fold Cross
Validation dengan mengubah nilai
Fold untuk dicari nilai akurasi terbaik. 5. PENUTUP
Hasil pengujian 10-Fold Cross Metode naive bayes dapat
Validation sesuai terlihat pada gambar digunakan pada sistem klasifikasi
3. berita dengan masukan berupa teks
Dari hasil pengujian dengan dengan diawali tahap preprocessing
metode 10-Fold Cross Validation, yang berupa parsing, tokenization,
diketahui bahwa nilai pengujian stopword, dan pembobotan kata (term
terbaik didapat dengan nilai fold 6 weighting). Kemudian dilakukan
dengan nilai keakuratan sebesar klasifikasi dengan metode naive bayes.
85.28 % yang mana terklasifikasi Tahap terakhir yaitu dilakukan
dokumen yang relevan sebanyak 307 pengukuran dengan menggunakan
dan yang tidak relevan sebanyak 53 pengujian 10-fold cross validation.
atau error rate sebesar 14.72%. Dari hasil penelitian diketahui nilai
Sedangkan nilai terendah didapat dari fold 6 memberikan nilai akurasi
nilai fold 7 dengan nilai keakuratan dengan hasil terbaik dengan hasil
80.85% yang mana terklasifikasi dengan nilai keakuratan sebesar
dokumen yang relevan sebanyak 291 85.28 % yang mana terklasifikasi
dan tidak relevan sebanyak 69 dokumen yang relevan sebanyak 307
dokumen atau error rate sebesar dan yang tidak relevan sebanyak 53
19,17%. atau error rate sebesar 14.72%.
Nilai rata-rata berdasarkan Sedangkan nilai rata-rata berdasarkan
berita hoax dan berita benar dengan berita hoax dan berita benar nilai
metode pengujian 10-Fold Cross precision 0,896 dan recall 0.853.
Validation dengan nilai fold 6 didapat Dalam penentuan klasifikasi,
nilai precision 0,896, recall 0.853 dan sistem sangat bergantung dengan
F-Measure 0.865. Tabel confusion frekuensi kata dalam dokumen. Dalam
matrix ditunjukkan pada tabel 2. penelitian selanjutnya jumlah data
berita bisa ditambah dengan
mencantumkan isi konten berita,
jumlah kata semakin banyak akan
mempengaruhi nilai akurasi.

10 |WJIT : Walisongo Journal of Information Technology


Klasifikasi Berita Hoax Dengan Menggunakan Metode Naive Bayes

Dalam penelitian ini,


dikarenakan keterbatasan jumlah
dokumen yang hanya berjumlah 360
dokumen, maka perlu dilakukan
penelitian lebih lanjut dengan
menambah jumlah dokumen.
Sehingga sistem semakin memiliki
dataset yang beragam.
Dokumen yang diambil dalam
penelitian ini masih bersifat umum,
sehingga perlu dilakukan kajian
penelitian dengan menggunakan
konten dokumen yang bersifat khusus
atau konten berita yang sebelumnya
sudah terklasifikasi. Misalnya konten
berita khusus kesehatan, konten
berita khusus politik, konten berita
khusus agama, dan sebagainya.
Selain itu, perlu dilakukan
penelitian tentang stemming atau
pencarian kata pada bentuk kata
dasar khusus untuk bahasa Indonesia.
Dengan dilakukan stemming akan
mereduksi jumlah suku kata atau
attribut. Dengan suku kata yang
semakin berkurang akan
mempengaruhi hasil klasifikasi
konten berita hoax.

http://journal.walisongo.ac.id/index.php/jit/index
WJIT : Walisongo Journal of Information Technology

| 11
Hery Mustofa1 Adzhal Arwani Mahfudh2

DAFTAR PUSTAKA

Abraham, S. R. (2009). Effective Discretization and Hybrid Feature Selection Using Naive
Bayesian Classifier For Medical Data Mining. International Journal of Computational
Intelligence Research 4.

Afriza, A., & Adisantoso, J. (2018). Metode Klasifikasi Rocchio untuk Analisis Hoax. Jurnal
Ilmu Komputer Agri-Informatika, Volume 5 Nomor 1, 1-10.

Asosiasi Penyelenggara Jasa Internet Indonesia (APJII) . (2017). Infografis Penetrasi dan
Pengguna Internet Indonesia.

Cahya, I. (2012). Menulis Berita di Media Massa. Citra Aji Pratama.

Connoly, T. C., & Begg, C. E. (2015). Database System: A Practical Approach to Design,
Implementation, and Management.

Fauzi, A. (t.thn.). Text Mining 2017/2018. Diambil kembali dari


http://malifauzi.lecture.ub.ac.id/2017/09/text-mining-20172018/

Han, J. W., & Kamber, M. (2000). Data Mining: Concepts and Techniques.

Han, J., & Kamber, M. (2006). Data Mining : Conceps and Techniques. San Francisco: Elsevier
Inc.

Kemendikbud, K. (2019, Juni 25). Hasil Pencarian - KBBI Daring . Diambil kembali dari
https://kbbi.kemdikbud.go.id/entri/hoaks

Minner, G., Delen, D., & Elder, J. (2012). Excerpt from: Practical Text Mining and Statistical
Analysis for Non-Structured Text Data Applications.

Pramudita, Y. D., Putro, S. S., & Makhmud, N. (2018). Klasifikasi Berita Olahraga
Menggunakan Metode Naive Bayes dengan Enhanced Confix Stripping Stemmer.
Jurnal Teknologi Informasi dan Ilmu Komputer, Vol. 5, No. 3, 269-276.

Severin, W. J., & James, J. T. (1998). Communication Theories: Origins, Methode, Uses (2th
ed). New York: Longman Inc.

Ting, S. L., Ip, W. H., & Tsang, A. H. (2011). Is Naïve Bayes a Good Classifier for Document
Classification? International Journal of Software Engineering and Its Applications,
5(3).

Triawati, C. (2009). Metode Pembobotan Statical Concept Based unuk Klastering dan
Kategorisasi Dokumen Berbahasa Indonesia. Institide Teknologi Telkom. Bandung.

12 |WJIT : Walisongo Journal of Information Technology

You might also like