Professional Documents
Culture Documents
AI Tugas Paper Kelompok 4
AI Tugas Paper Kelompok 4
Jl. 2.A. Pagar Alam No. 93, Bandar Lampung - Indonesia 35142
Telp. (0721) 787214 Fax. (0721) 700261
e-mail : yusakasatya424@gmail.com , lindawurirahayu@gmail.com , egifebrianto19@gmail.com
ABSTRACT
Coronavirus Disease 19 (COVID-19) is a new virus that causes respiratory infection.
This virus comes from animals that can infect humans by spraying their saliva. According
to epidemiological data, the average age of patients infected with this virus is 15-80 years.
This virus has an incubation period of 2 to 14 days and is accompanied by initial
symptoms such as high fever, shortness of breath, cough and runny nose. Indonesia had its
first two cases on March 2 2020. The problem raised in this research is how to rank the
risk of contracting the Covid-19 virus based on the symptoms it causes. The purpose of this
study was to determine the risk of infection with the Covid-19 virus based on the
Knowledge Discovery in Database method which consists of five steps, namely selection,
pretreatment, transformation, data mining and evaluation. The material used by
researchers was taken from the official site kaggle.com. This study uses 4 (four)
algorithms, namely K-Nearest Neighbor (K-NN), Neural Network (NN), Random Forest
(RF) and Naive Bayes using the Rapidminer tool. The data values include a low level of
25.98%, a medium level of 54.33% and a high level of 19.69%. The accuracy value of 127
patient data infected with Covid-19 using the k-nearest neighbor algorithm is 57.89%,
neural network 73.68%, random forest 68.42%, naive Bayes 65.38%. In this study, the
neural network classification algorithm gives the highest accuracy value.
Keywords— Covid-19, Rapidminer,Neural Network, Random Forest, Naive Bayes, Knowledge Discovery in Database,
kaggle.com, Machine Learning
ABSTRAK
Coronavirus Disease 19 (COVID-19) adalah virus baru yang menyebabkan infeksi pernafasan. Virus ini
berasal dari hewan yang dapat menginfeksi manusia dengan menyemprotkan air liurnya. Menurut data epidemiologi,
usia rata-rata pasien yang terinfeksi virus ini adalah 15-80 tahun. Virus ini memiliki masa inkubasi 2 hingga 14 hari
dan disertai gejala awal seperti demam tinggi, sesak napas, batuk, dan pilek. Indonesia memiliki dua kasus pertama
pada 2 Maret 2020. Masalah yang diangkat dalam penelitian ini adalah bagaimana mengurutkan risiko tertular virus
Covid-19 berdasarkan gejala yang ditimbulkannya. Tujuan dari penelitian ini adalah untuk mengetahui risiko infeksi
virus Covid-19 berdasarkan metode Knowledge Discovery in Database yang terdiri dari lima langkah yaitu seleksi,
pretreatment, transformasi, data mining dan evaluasi. Materi yang digunakan peneliti diambil dari situs resmi
kaggle.com. Penelitian ini menggunakan 4 (empat) algoritma yaitu K-Nearest Neighbor (K-NN), Neural Network
(NN), Random Forest (RF) dan Naive Bayes dengan menggunakan tool Rapidminer. Nilai data tersebut meliputi level
rendah 25,98%, level sedang 54,33% dan level tinggi 19,69%. Nilai akurasi 127 data pasien terinfeksi Covid-19
menggunakan algoritma k-nearest neighbor 57,89%, neural network 73,68%, random forest 68,42%, naive bayes
65,38%. Pada penelitian ini, algoritma klasifikasi neural network memberikan nilai akurasi tertinggi.
Kata Kunci— Covid-19, Rapidminer, Neural Network, Naive Bayes, Knowledge Discovery in Database, kaggle.com,
MachineLearning
Organisasi Kesehatan Dunia (WHO) stigma orang positif Covid-19, yaitu orang
pneumonia di kota Wuhan, Hubei, China, pengawasan, orang tanpa gejala dan
yang telah mengidentifikasi jenis baru positif. per Desember 2020, sekitar
Disease 2019 secara resmi ditetapkan oleh terjangkit COVID-19 di Indonesia, dan
WHO [1]. Menurut para ahli virologi dari kasus kematian mencapai 21 ribu orang
Cina, virus covid-19 ini adalah [4]. Menurut penelitian Tidora, kelompok
akut yang parah (SARS-COV2) yang adalah orang dengan penyakit bawaan,
berasal dari Guangdong, Cina pada tahun perokok dan lansia [5]. Indonesia sendiri
[1]. Laju penyebaran Covid-19 lebih luas Covid-19 dengan melakukan 3M, menjaga
dibandingkan dengan SARS, namun angka jarak, memakai masker dan mencuci
Covid-19 yang kurang dari 5% [1]. yaitu Naive Bayes dan Klasifikasi yang
Homologi Covid-19 memiliki ciri DNA merupakan algoritma terbaik [7]. Naive
yang hingga 85% mirip dengan SARS Bayes memberikan nilai akurasi lebih dari
kelelawar. Penularan virus ini dari hewan 75% [10]. Para peneliti menggunakan
2.1 Knowledge Discovery in Database Fitur presentase data yang terpilih berupa
(KDD)
kode, dan bergantung pada pola informasi.
Pada tahap penelitian peneliti
2.1.3 Data Mining
menggunakan metode KDD untuk
Pencarian pola dengan metode tertentu, yang
mengklasifikasi pasien terjangkit covid-19
artinya metode ini bergantung pada alat dan
dengan mencari pola data pada dataset
algoritma yang digunakan. Peneliti
yang sudah diunduh di web resmi
menggunakan software RapidMiner dan
kaggle.com. Dibawah ini merupakan
empat Algoritma.
tahapan pelaksanaan dari metode KDD
2.1.4 Evaluation
sebagai berikut:
Hasil dari proses pengujian yaitu
2.1.1 Selection
pemeriksaan pola. Dilakukan untuk
Pemilihan data yang relavan untuk
mengetahui apakah pola tersebut sama
dikelola sesuai dengan tujuan penelitian.
dengan apa yang diharapkan atau hasilnya
Dari pemilihan data yang telah
bertentangan.
dilakukan akan disimpan terpisah dan
2.2 Metode Pengumpulan Data
dikembalikan pada database. Penelitian klasifikasi ini peneliti
Pre-processing menggunakan data Gejala Peyakit
Berfungsi untuk pembersihan data Coronavirus Disease 19 yang diunduh
seperti data duplikat atau permasalahan pada situs kaggle.com. Dataset tersebut
yang lain dan untuk memperbanyak data. berisi 127 rows, 21 columns, dan 21
relavan sebelum digunakan. atribut.
2.1.2 Transformation
Start
ketiga mengidentifikasi masalah yaitu
Persiapan dengan memilih metode dan algoritma
2.3 Alur Penelitian yang akan digunakan pada penelitian,
peneliti menggunakan software rapidminer
Metode Pengumpulan Data Metode Knowledge
(Kaggle.com) Discovery in dengan dua algoritma yaitu, Naïve Bayes
Database
(KDD) : dan klasifikasi. Yang ke empat yaitu
Identifikasi Masalah
1. Selection
2. Pre-processing mencari solusi dari permasalahan yang
3. Transformation
Rumusan Masalah 4. Data Mining
telah ditemukan. Selanjutnya pengolahan
5. Evaluation data dengan menggunakan Rapid Mainer
Kesimpulan
Kaggle.com yang merupakan web label klasifikasi yaitu tingkat rendah (low
pembelajaran, data yang diambil berasal tingkat tinggi (high risk) menggunakan
dari india yang mempunyai 127 data pasien dua algoritma naive bayes dan
yang terjangkit Covid-19. Kemudian tahap klassifikasi dengan data (127 pasien).
menggunakan data random dikarenakan
algoritma ini memiliki pengaturan tersendiri mempunyai label. Performance untuk
dalam pengelolaan label pada aplikasi mengevaluasi hasil kerja yang akan
rapidminer Naive Bayes menggunakan mendapatkan nilai akurasi sebesar
data training dan testing dimulai dari 65,38%. Berikut adalah pengaplikasian
50:50 sampai 80:20. Hasil Akurasi dari metode Naïve Bayes di rapid miner:
keempat algoritma tersebut dapat dilihat
pada table di bawah ini :
Nilai Akurasi
Split data
Naive Bayes
50 : 50 63,49%
60 : 40 47,06%
70 : 30 63,16%
80 : 20 65,38%
Gambar 2. Grafik perbandingan
DAFTAR PUSTAKA