You are on page 1of 7

Author Jurnal ______, Vol. __, No.

__, Bulan ___

PERANCANGAN SISTEM PAKAR BERBASIS WEB UNTUK


DIAGNOSA PENYAKIT COVID DENGAN METODE TEOREMA
NAIVE BAYES

M. Satya Yusaka, Linda Wuri Rahayu, Himawan Egi Febrianto

Informatics & Business Institute Darmajaya


1

Jl. 2.A. Pagar Alam No. 93, Bandar Lampung - Indonesia 35142
Telp. (0721) 787214 Fax. (0721) 700261
e-mail : yusakasatya424@gmail.com , lindawurirahayu@gmail.com , egifebrianto19@gmail.com

ABSTRACT
Coronavirus Disease 19 (COVID-19) is a new virus that causes respiratory infection.
This virus comes from animals that can infect humans by spraying their saliva. According
to epidemiological data, the average age of patients infected with this virus is 15-80 years.
This virus has an incubation period of 2 to 14 days and is accompanied by initial
symptoms such as high fever, shortness of breath, cough and runny nose. Indonesia had its
first two cases on March 2 2020. The problem raised in this research is how to rank the
risk of contracting the Covid-19 virus based on the symptoms it causes. The purpose of this
study was to determine the risk of infection with the Covid-19 virus based on the
Knowledge Discovery in Database method which consists of five steps, namely selection,
pretreatment, transformation, data mining and evaluation. The material used by
researchers was taken from the official site kaggle.com. This study uses 4 (four)
algorithms, namely K-Nearest Neighbor (K-NN), Neural Network (NN), Random Forest
(RF) and Naive Bayes using the Rapidminer tool. The data values include a low level of
25.98%, a medium level of 54.33% and a high level of 19.69%. The accuracy value of 127
patient data infected with Covid-19 using the k-nearest neighbor algorithm is 57.89%,
neural network 73.68%, random forest 68.42%, naive Bayes 65.38%. In this study, the
neural network classification algorithm gives the highest accuracy value.

Keywords— Covid-19, Rapidminer,Neural Network, Random Forest, Naive Bayes, Knowledge Discovery in Database,
kaggle.com, Machine Learning

ABSTRAK

Coronavirus Disease 19 (COVID-19) adalah virus baru yang menyebabkan infeksi pernafasan. Virus ini
berasal dari hewan yang dapat menginfeksi manusia dengan menyemprotkan air liurnya. Menurut data epidemiologi,
usia rata-rata pasien yang terinfeksi virus ini adalah 15-80 tahun. Virus ini memiliki masa inkubasi 2 hingga 14 hari
dan disertai gejala awal seperti demam tinggi, sesak napas, batuk, dan pilek. Indonesia memiliki dua kasus pertama
pada 2 Maret 2020. Masalah yang diangkat dalam penelitian ini adalah bagaimana mengurutkan risiko tertular virus
Covid-19 berdasarkan gejala yang ditimbulkannya. Tujuan dari penelitian ini adalah untuk mengetahui risiko infeksi
virus Covid-19 berdasarkan metode Knowledge Discovery in Database yang terdiri dari lima langkah yaitu seleksi,
pretreatment, transformasi, data mining dan evaluasi. Materi yang digunakan peneliti diambil dari situs resmi
kaggle.com. Penelitian ini menggunakan 4 (empat) algoritma yaitu K-Nearest Neighbor (K-NN), Neural Network
(NN), Random Forest (RF) dan Naive Bayes dengan menggunakan tool Rapidminer. Nilai data tersebut meliputi level
rendah 25,98%, level sedang 54,33% dan level tinggi 19,69%. Nilai akurasi 127 data pasien terinfeksi Covid-19
menggunakan algoritma k-nearest neighbor 57,89%, neural network 73,68%, random forest 68,42%, naive bayes
65,38%. Pada penelitian ini, algoritma klasifikasi neural network memberikan nilai akurasi tertinggi.

Kata Kunci— Covid-19, Rapidminer, Neural Network, Naive Bayes, Knowledge Discovery in Database, kaggle.com,

Informatics and Business Institute Darmajaya 1


Author Jurnal ______, Vol. __, No. __, Bulan ___

MachineLearning

I. PENDAHULUAN Covid-19 dalam pedoman WHO dan

Organisasi Kesehatan Dunia (WHO) stigma orang positif Covid-19, yaitu orang

telah mengumumkan kasus baru dalam pengawasan, pasien dalam

pneumonia di kota Wuhan, Hubei, China, pengawasan, orang tanpa gejala dan

yang telah mengidentifikasi jenis baru positif. per Desember 2020, sekitar

novel coronavirus. Nama Coronavirus 719.219 ribu orang telah terkonfirmasi

Disease 2019 secara resmi ditetapkan oleh terjangkit COVID-19 di Indonesia, dan

WHO [1]. Menurut para ahli virologi dari kasus kematian mencapai 21 ribu orang

Cina, virus covid-19 ini adalah [4]. Menurut penelitian Tidora, kelompok

coronavirus terkait sindrom pernafasan yang berisiko tinggi tertular Covid-19

akut yang parah (SARS-COV2) yang adalah orang dengan penyakit bawaan,

berasal dari Guangdong, Cina pada tahun perokok dan lansia [5]. Indonesia sendiri

2003, tetapi memiliki gejala yang serupa berupaya memperlambat penyebaran

[1]. Laju penyebaran Covid-19 lebih luas Covid-19 dengan melakukan 3M, menjaga

dibandingkan dengan SARS, namun angka jarak, memakai masker dan mencuci

kematian SARS mencapai 9,6% tangan [6]. Penelitian ini menggunakan 2

dibandingkan dengan angka kematian (dua) algoritma yang umum digunakan

Covid-19 yang kurang dari 5% [1]. yaitu Naive Bayes dan Klasifikasi yang

Homologi Covid-19 memiliki ciri DNA merupakan algoritma terbaik [7]. Naive

yang hingga 85% mirip dengan SARS Bayes memberikan nilai akurasi lebih dari

kelelawar. Penularan virus ini dari hewan 75% [10]. Para peneliti menggunakan

ke manusia disebut transmisi zoonosis, perangkat lunak rapidminer [11] untuk

dan dapat ditularkan dari manusia ke memudahkan analisis.

manusia melalui kontak langsung atau


dengan menyebarkan air liurnya [2]. Dari
data pertama di Wuhan, 15% kasus fatal
berusia di atas 80 tahun, 8,0% berusia 70
tahun, 1% anak di bawah 15 tahun.
Sedangkan kasus ringan dan berat dengan
penyakit bawaan 49,0% [1]. Ada 4
(empat) kategori yang menyebutkan

Informatics and Business Institute Darmajaya 2


II. METODE PENELITIAN

2.1 Knowledge Discovery in Database Fitur presentase data yang terpilih berupa
(KDD)
kode, dan bergantung pada pola informasi.
Pada tahap penelitian peneliti
2.1.3 Data Mining
menggunakan metode KDD untuk
Pencarian pola dengan metode tertentu, yang
mengklasifikasi pasien terjangkit covid-19
artinya metode ini bergantung pada alat dan
dengan mencari pola data pada dataset
algoritma yang digunakan. Peneliti
yang sudah diunduh di web resmi
menggunakan software RapidMiner dan
kaggle.com. Dibawah ini merupakan
empat Algoritma.
tahapan pelaksanaan dari metode KDD
2.1.4 Evaluation
sebagai berikut:
Hasil dari proses pengujian yaitu
2.1.1 Selection
pemeriksaan pola. Dilakukan untuk
Pemilihan data yang relavan untuk
mengetahui apakah pola tersebut sama
dikelola sesuai dengan tujuan penelitian.
dengan apa yang diharapkan atau hasilnya
Dari pemilihan data yang telah
bertentangan.
dilakukan akan disimpan terpisah dan
2.2 Metode Pengumpulan Data
dikembalikan pada database. Penelitian klasifikasi ini peneliti
Pre-processing menggunakan data Gejala Peyakit
Berfungsi untuk pembersihan data Coronavirus Disease 19 yang diunduh
seperti data duplikat atau permasalahan pada situs kaggle.com. Dataset tersebut
yang lain dan untuk memperbanyak data. berisi 127 rows, 21 columns, dan 21
relavan sebelum digunakan. atribut.
2.1.2 Transformation
Start
ketiga mengidentifikasi masalah yaitu
Persiapan dengan memilih metode dan algoritma
2.3 Alur Penelitian yang akan digunakan pada penelitian,
peneliti menggunakan software rapidminer
Metode Pengumpulan Data Metode Knowledge
(Kaggle.com) Discovery in dengan dua algoritma yaitu, Naïve Bayes
Database
(KDD) : dan klasifikasi. Yang ke empat yaitu
Identifikasi Masalah
1. Selection
2. Pre-processing mencari solusi dari permasalahan yang
3. Transformation
Rumusan Masalah 4. Data Mining
telah ditemukan. Selanjutnya pengolahan
5. Evaluation data dengan menggunakan Rapid Mainer
Kesimpulan

dengan algoritma yang telah ditentukan.Untuk


Finish mengetahui kelompok tingkat rendah,
sedang, tinggi pasien terjangkit covid-19.
Gambar 1. Alur Pelaksanaan
Kemudian memberikan hasil serta
pembahasan melakukan pengujian
Alur pelaksanaan pada penelitian merupakan
menggunakan tools dan algoritma yang
hal yang penting, agar penelitian yang akan
telah dipilih. Dan terakhir saran, pada
dilaksanakan dapat berjalan dengan baik
tahap ini peneliti akan memberikan
dan sesuai dengan keinginan. Dan dapat
kesimpulan dari hasil uji data mining serta
juga mempermudah peneliti untuk
memberikan sedikit saran untuk penelitian
memahami proses yang akan dilaksanakan.
selanjutnya.
Pada penelitian ini akan melalui tahapan
tahapan : Persiapan yang dilakukan adalah
mengenali apa yang akan diteliti dengan
mempelajari masukan jurnal terdahulu dan III. HASIL DAN PEMBAHASAN
studi litelature lainnya yang dapat menjadi
3.1 Hasil Perhitungan
sumber tentang judul yang akan diteliti.
Tahapan yang kedua peneliti melakukan Dari penelitian yang telah dilakukan

pengambilan data dari situs resmi menggunakan rapidminer terdapat tiga

Kaggle.com yang merupakan web label klasifikasi yaitu tingkat rendah (low

pengumpulan data untuk bahan risk), tingkat sedang (medium risk),

pembelajaran, data yang diambil berasal tingkat tinggi (high risk) menggunakan

dari india yang mempunyai 127 data pasien dua algoritma naive bayes dan

yang terjangkit Covid-19. Kemudian tahap klassifikasi dengan data (127 pasien).
menggunakan data random dikarenakan
algoritma ini memiliki pengaturan tersendiri mempunyai label. Performance untuk
dalam pengelolaan label pada aplikasi mengevaluasi hasil kerja yang akan
rapidminer Naive Bayes menggunakan mendapatkan nilai akurasi sebesar
data training dan testing dimulai dari 65,38%. Berikut adalah pengaplikasian
50:50 sampai 80:20. Hasil Akurasi dari metode Naïve Bayes di rapid miner:
keempat algoritma tersebut dapat dilihat
pada table di bawah ini :

Nilai Akurasi
Split data
Naive Bayes
50 : 50 63,49%
60 : 40 47,06%
70 : 30 63,16%
80 : 20 65,38%
Gambar 2. Grafik perbandingan

Algoritma Naive Bayes diambil pada nilai


akurasi tertinggi yaitu terdapat nilai Gambar 3. Model Sub Proses Naïve Bayes

akurasi tertinggi 80:20 (65,38%) . Hal ini


menunjukan bahwa pada dataset dapat
mempengaruhi performa klasifikasi pada
setiap Algoritma.

3.2 Naive Bayes (NB)


Naive Bayes terkenal sebagai algoritma Gambar 4. Hasil Akurasi dari Naive Bayes
yang mempunyai kinerja. dan merupakan
algoritma yang mampu memperkirakan 3.1. Pembahasan Gejala Covid-19
variabel bersifat bebas . Penelitian ini data
Dari dataset yang diunduh pada
sebanyak 127 baris dengan 21 kolom, dan
situs kaggle.com berupa 127 data
split data pada Machine Learning untuk
pasien terjangkit covid-19 telah di
membagi antara data latih (80%) dan uji
klasifikasi menggunakan software
(20%) setelah itu digunakan algoritma
rapidminer dan menunjukan hasil
Naive Bayes sebagai metode klasifikasi,
absolute count pada tingkat rendah
dan dihubungkan dengan split data
sebesar 25,98%, tingkat sedang
algoritma yang digunakan pada Apply
54,33%, dan tingkat tinggi sebesar
Model untuk mengetahui data yang tidak
19,69%. Dapat dilihat pada Gambar 1 55 1 1 1 1 0
2 52 1 0 0 0 1
berikut : 3 53 1 1 1 1 0
4 ... ... ... ... ... ...
69 30 1 0 0 1 0
Table 2 Dari Data Klasifikasi Gejala Sedang
 Gejala Tinggi : Ada beberapa gejala yang
paling banyak muncul dari data pasien
covid-19 yang telah di klasifikasi, yaitu
suhu tubuh ≥ 39 C, batuk kering, sakit
tenggorokan, permasalahan dalam
pernapasan, memiliki riwayat perjalanan,
dapat dilihat pada table 6 Sekitar 0,16%
pasien covid- 19 merasakan seluruh gejala
tersebut.
Gambar 5 Hasil Nominal Values
Sakit Gangguan Riwayat
NoUmur Suhu Batuk
Tenggor Pernapasa Perjalana
Tubuh Kering
okan n n
 Gejala Rendah : Telah dipilih 1 40 1 0 0 0 1
beberapa gejala yang paling banyak 2 33 1 0 1 1 1
muncul pada pasien positif Covid-19 3 51 1 1 1 1 0
4 ... ... .. ... ... ...
yang telah di klasifikasi. Ada 5 .
gejala yaitu memiliki suhu tubuh ≥ 25 20 1 0 1 1 1
39 C, batuk kering, sakit Table 3 Dari Data Klasifikasi Gejala Tinggi
tenggorokan, perkembangan gejala,
perubahan pada nafsu makan, dapat
dilihat pada table 4 Sekitar 0,27%
IV. SIMPULAN
pasien merasakan tiga gejala yang
sama. Berdasarkan hasil dan pembahasan dari
Sakit Perkemban Perubahan dataset yang telah diuji menggunakan
No Umur Suhu Batuk
Tenggo gan Gejala Nafsu
Tubuh Kering
rokan Makan software rapidminer menunjukan nilai
1 58 1 1 1 0 0
2 44 1 1 0 1 1
absolute count 25,98% untuk tingkat
3 37 1 1 1 0 1
rendah, 54,33% untuk tingkat sedang,
4 ... ... ... ... ... ...
33 33 1 0 1 1 1 dan 19,69% untuk tingkat tinggi.
Table 1 Dari Data Klasifikasi Gejala Rendah
Algoritma Neural Network mempunyai

 Gejala Sedang : Dipilih beberapa nilai akurasi tertinggi sebesar 73,68%,


gejala yang paling banyak muncul dari Random Forest memiliki nilai akurasi
data pasien covid-19 yang telah di
klasifikasi antara lain suhu tubuh ≥ sebesar 68,42%, Naive Bayes
39 C, batuk kering, sakit mendapatkan nilai akurasi sebesar
tenggorokan, kantuk, memiliki
65,38%, sedangkan Algoritma K-Nearest
riwayat perjalanan, dapat dilihat pada
table 5 Sekitar 0,14% pasien Neighbor memiliki nilai akurasi paling
merasakan empat gejala sekaligus. rendah yaitu 57,89%.
Sakit Riwayat
NoUmur Suhu Batuk Kantu
Tenggor Perjalanan
Tubuh Kering k
okan
UCAPAN TERIMA KASIH

Penulis mengucapkan terima kasih kepada [5] Siagian, T. H. (2020). Mencari


pihak pihak yang telah berkontribusi kelompok berisiko tinggi terinfeksi virus
dalam penyusunan jurnal ini. Tak lupa corona dengan discourse network analysis.
juga untuk pihak pihak yang telah Jurnal Kebijakan Kesehatan Indonesia:
membimbing hingga jurnal ini bisa selesai JKKI, 9(2), 98-106.

DAFTAR PUSTAKA

[1] Tim Kerja Kementerian Dalam Negeri,


D. S. “Pedoman Umum Menghadapi
Pandemi Covid-19 bagi Pemerintah
Daerah” Jakarta, Indonesia: Kementerian
Dalam Negeri RI 2020, [Online]
Available

[2] N. Sholikah. P.S “Kesiapsiagaan


Indonesia Menghadapi Potensi
Penyebaran Corona Virus Disease” PPBK
DPR RI, vol. XII, No. 3, pp 13-18, 2020,

[3] Abdillah, L. (2020). Stigma Terhadap


Orang Positif COVID-19 (Stigma on Positive
People COVID-19). Pandemik COVID-19:
Antara Persoalan Dan Refleksi Di
Indonesia, Forthcoming.

[4] JHU CSSE COVID-19


Data,desember2020.
https://news.google.com/covid19/map?
hl=id&mid=%2Fm%2F02j71&gl
=ID&ceid=ID%3Aid

You might also like