Professional Documents
Culture Documents
Imple Me Ntasi Algoritma Random Fore ST Untuk Diagnosis Pasie N Pende Rita Diabe Te S
Imple Me Ntasi Algoritma Random Fore ST Untuk Diagnosis Pasie N Pende Rita Diabe Te S
Penyusun :
1.Ellisia kumalasari S.pd.,Mpd.
2.Dian Anisa Agustina
3.Intin Rista Pratiwi
4.Zahrotul Ilmi Wijayanti
5.Desy Intan Permatasari
IMPLEMENTASI ALGORITMA RANDOM FOREST UNTUK DIAGNOSIS PASIEN
PENDERITA DIABETES
ABSTRAK
Penyakit diabetes adalah gangguan pada metabolisme yang bersifat kronis pada tubuh manusia
l l l l l l
ditandai dengan kadar gula darah yang tinggi dan disertai dengan gangguan metabolisme karbohidrat, lipid
l l l l l
dan protein sebagai akibat dari ketidakmampuan insulin untuk menjalankan fungsinya secara memadai.
l l l l l l
Dari tahun ke tahun jumlah pengidap penyakit diabetes semakin bertambah. Merujuk dari sumber data
l l l l l l l l l
Federasi Diabetes Internasional, pengidap penyakit diabetes sebanyak 10 juta jiwa pada tahun 2015 di
l l l l l l l l l l
Indonesia, ditahun 2040 diprediksi jumlah warga Indonesia yang terjangkit penyakit diabates mengalami
l l l l l l l
meningkatan sebesar 16.2 juta jiwa penduduk Indonesia. Oleh sebab itu deteksi penyakit diabetes sangat
l l l l l l l l l l l l
diperlukan guna merendahkan komplikasi penyakit diabetes di waktu yang akan datang. Untuk melakukan
l l l l l l l
Klasifikasi penyakit diabetes hal yang bisa dilakukan salah satunya adalah dengan melakukan
l l l l l
pengklasifikasian terhadap penyakit diabetes. Salah satu cara untuk melakukan pengklasifikasian adalah
l l l l l l l
dengan dilakukannya klasifikasi dalam Machine Learning. Machine Learning sendiri dapat mempermudah
l l l l l l l l
penulis untuk mendapatkan hasil prediktif untuk penyakit diabetes, dataset yang akan digunakan pada
l l l l l l l
penelitian kali ini adalah pima-indian-diabetes dengan dataset 768 data, dari data tersebut terdapat delapan
l l l l l l l l l l
data attribut yang diantaranya adalah Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI l l l l l l
(Body Mass Index), Diabetes Pedigree Function, Age dan outcome. Di dalam Penelitian ini penulis akan
l l l l l l l l l l l
membandingkan hasil akurasi dari Algoritma Random dalam melakukan klasifikasi terhadap dataset pima-
l l l l
indian-diabetes. l l
Dewasa ini banyak orang yang bekerja keras tanpa memikirkan diri sendiri. Hal tersebut
l l l l l l l l
menyebabkan pola hidup yang tidak sehat tanpa adanya olahraga bahkan mengkonsumsi makanan atau
l l l l
minuman instant ataupun cepat saji. Pola hidup yang buruk tersebut dapat menyebabkan kesehatan tubuh l l l l l l l
semakin menurun dan juga dapat mengakibatkan penyakit diabetes. Diabetes adalah sebuah penyakit di
l l l l l l l l l l
mana kandungan kadar gula dalam darah menjadi tinggi sehingga tubuh tidak mampu mengolah kadar gula l l l
tersebut. Diabetes yang disebabkan oleh gangguan metabolik, terjadi karena pankreas tidak menghasilkan
l l l l l l l l l l l
cukup insulin (hormone yang mengatur gula darah) atau tubuh tidak menggunakan insulin yang diproduksi l l l
secara efektif, sehingga menyebabkan tingkat glukosa diatas normal. Secara global, diperkirakan 422 juta
l l l l l l l l
orang dewasa hidup dengan diabetes dan 1,5 juta diantaranya meninggal dunia pada tahun 2014. Di
l l l l l
Indonesia sendiri diabetes merupakan penyebab kematian terbesar nomor 3 dengan persentase sebesar 6,7
l l l l l l l l l l l l l l l l
%, setelah Stroke 21,1 % dan penyakit Jantung Koroner 12,9 % pada tahun 2016 saja dan meningkat setiap
l l l l l l l
tahunnya.[1]
Data mining adalah sebuah metode untuk melakukan akuisisi pengetahuan. Dengan data mining, l l l l l l l
informasi-informasi implisit dan berharga dari sebuah data dapat diekstrak. Adapun metode yang biasanya l l l l l
operasikan pada data mining antara lain: deskripsi atau penggambaran, prediksi atau ramalan, clustering ,
l l l l l
klasifikasi dan asosiasi, dan estimasi. Klasifikasi merupakan sebuah proses untuk menciptakan fungsi atau l l l l l
model menjelaskan kelas pada data atau konsep guna untuk memprediksi kelas dari sebuah objek yang
l l l l l l l l l l
labelnya belum didapatkan. Pada penelitian ini, teknik klasifikasi dimanfaatkan untuk meramal orang mana
l l l l l l
yang terjangkit penyakit diabetes dan tidak terjangkit. Beberapa algoritma dapat digunakan untuk
l l l l l l l
Seiring dengan berkembangnya teknologi saat ini metode machine learning telah banyak digunakan
l l l l l l l l l l
dalam segala bidang tidak terkecuali dalam bidang medis. Penelitian sebelumnya dilakukan klasifikasi
l l l l l l l l
dengan data diabetes menggunakan Neural Network menghasilkan akurasi 86.26%. Selain itu juga terdapat
l l l l l l l l l
penelitian lainnya yang menggunakan dataset diabetes dari mldata.org dengan metode J48 Decision Tree
l l l l l l l l l l l l
yang di mana menghasilkan akurasi sebesar 73,82%. Adapun penilitan yang dilakukan pada tahun 2021 ini l l l l
sudah dilakukan penelitian dengan topik deteksi diabetes menggunakan metode pengembangan Decision l l l l l l l l l l l l l
Tree yaitu Random Forest (RF) yang menghasilkan akurasi sebesar 95.45%.[1]
l l l l l l
BAB II
LANDASAN TEORI
buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang
l l l l l l
bermanfaat dan pengetahuan yang terkait dari berbagai database besar. Data mining merupakan
l l l l l l l l
serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan
l l l l l l
yang selama ini tidak diketahui secara manual. Data mining bukanlah suatu bidang yang sama
l l l
sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data
l l l l l
mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang dulu sudah mapan terlebih
l l l l l
dulu.[3]
Ilmu Data mining adalah perpaduan ilmu dari artificial intelligence, statistik, dan penelitian l l l l l l
basis data yang selalu meningkat. Menurut artikel metode data mining merupakan sebuah proses
l l l l l l l l l
menentukan ikatan yang mengandung arti, pola, dan keterkaitan dengan mengolah kelompok data.
l l l l l l l l
Dalam data mining terdapat 6 metode yang biasa di jalankan yaitu ramalan atau prediksi,
l l l l
a. Deskripsi Tujuan dari operasi adalah untuk mengenal pola yang terbentuk
l l l l l l
tapi di sini data bagi kelas sesuai dengan perilaku atau nilai yang diprediksi pada l l l l l
waktu mendatang. l
d. Estimasi atau bisa disebut menerka, teknik ini memiliki kesamaan dengan prediksi,
L l l l l l l l l
e. Clustering adalah klasterisasi atau pengelompokan data dengan kelas data yang
l l l l l l
f. Asosiasi Teknik asosiasi adalah mencari atribut yang nampak pada kondisi tertentu l l l l
Proses mencari sebuah karakteristik data dan dipetakan dalam kelas-kelas sesuai dengan
l l l l l l l l l
karakteristik sebuah objek dilakukan, selanjutnya objek dengan karakteristik yang sama dimasukan
l l l l l l l
ke dalam salah satu kelas yang sudah diartikan terlebih dahulu. Proses klasifikasi adalah proses
l l l l l l
menghitung data yang ada sebelumnya atau disebut juga data training dengan data baru atau data
l l l l l
testing. Proses ini akan menghasilkan kemungkinan dalam data testing. Dalam klasifikasi dataset
l l l l l l
yang digunakan harus memiliki label atau atribut tujuan. Meramal objek kelas pada setiap persoalan
l l l l l l l
dalam data adalah tujuan dari klasifikasi. Dimulai dengan satu set data di mana kelas dikenal adalah l l l l
Algoritma Random Forest didesain oleh J. Ross Quinlan, dinamakan Random Forest l l l l
karena merupakan keturunan dari pendekatan ID3 untuk membangun pohon keputusan. Random
l l l l l l l
Forest merupakan algoritma yang cocok digunakan untuk masalah klasifikasi pada machine
l l l
learning dan data mining. Random Forest memetakan atribut dari kelas sehingga dapat digunakan
l l l l l l
untuk menemukan prediksi terhadap data yang belum muncul. Pohon keputusan sendiri merupakan
l l l l l l l l
pendekatan “divide and conquer” dalam mempelajari masalah dari sekumpulan data independen
l l l l l l l l l l
yang digambarkan dalam bagan pohon. Pohon keputusan juga merupakan sekumpulan pertanyaan l l l l
yang tersusun secara sistematis, dimana setiap pertanyaan yang ada menentukan percabangan
l l l l l l l l
berdasarkan nilai atribut dan berhenti pada daun dari pohon yang merupakan prediksi dari kelas
l l l l l l
variabel.[4] l
Cara kerja algoritma Random Forest dapat dijabarkan dalam langkah-langkah berikut:
l l l
2. Membuat decision tree untuk setiap sampel yang dipilih. Kemudian akan didapatkan hasil
l l l l l l l
3. Dilakukan proses voting untuk setiap hasil prediksi. Untuk masalah klasifikasi
l l l
menggunakan modus (nilai yg paling sering muncul), sedangkan untuk masalah regresi
l l l l l
4. Algoritma akan memilih hasil prediksi yang paling banyak dipilih (vote terbanyak) sebagai
l l l l l
prediksi akhir.
l
Confusion matrix adalah suatu metode yang biasanya digunakan untuk melakukan perhitungan l l l l
akurasi pada konsep data mining.Confusion matrix digambarkan dengan tabel yang menyatakan
l l l l
jumlah data uji yang benar diklasifikasikan dan jumlah data uji yang salah diklasifikasikan.
l
a. True Positives (TP) adalah jumlah record datapositif yang diklasifikasikan sebagai nilai positif
l l l l
b. False Positives (FP) adalah jumlah record data negatif yang diklasifikasikan sebagai nilai
l l l l l
positif
c. False Negatives (FN) adalah jumlah record data positif yang diklasifikasikan sebagai nilai
l l l l l
positif
d. True Negatives (TN) adalah jumlah record data negatif yang diklasifikasikan sebagai nilai
l l l l l l
negative
l l
Nilai yang dihasilkan melalui metode Confusion Matrix adalah berupa evaluasi sebagai
l l l l l l
berikut :
l
(prediksi secara salah oleh algoritma. Rumus : (FP + FN) / Total data =
l l l
Misclassification Rat
BAB III
METODE PENELITIAN
Metode Penelitian Di dalam penelitian ini, penulis menetapkan tiga tahapan yang akan dilakukan oleh
l l l l l l l l l l
penulis. Tahapannya terdiri dari tahap identifikasi masalah, analisa kebutuhan dan perancangan, dan yang
l l l l l
terakhir adalah hasil dan kesimpulan, untuk penjelasannya dapat dilihat pada gambar:
l l l l
3.1 Dataset
Pada penelitian ini menggunakan data Pima Indians Diabetes dari sumber dataset UCI Machine
l l l l l l l l
indians-diabetes-database , data set ini berisi data – data informasi tentang pasien yang diduga memiliki
l l l l l l l l
penyakit diabetes. Keseluruhan data pada data set ini berjumlah 768 records yang setiap record nya
l l l l l l l l l l
NO ATRIBUT DESCRIPTION L
oral
Dari atribut data set diatas (1 sampai 8) akan dilakukan proses training & test menggunakan metode
l l l l l l
Random Forest, sedangkan atribut ke – 9 akan menjadi target hasil dari proses klasifikasi. dan disini kami
l l l l l l
akan mencoba menganalisis perbedaan dari akurasi dan error yang didapat dengan melakukan perubahan
l l l l l l l l
No Parameter Deskripsi
1 n_estimators l
Jumlah tree dalam Random Forest. l l l
sekali baru.
l
Preprocessing adalah sebuah langkah penting dalam proses penambangan data. Data yang
l l l l l l
akan digunakan dalam proses penambangan data tidak selalu dalam kondisi terbaik untuk diproses. l l l l l
Ada kalanya dalam data tersebut terdapat beberapa masalah yang nantinya dapat mempengaruhi l l l l l l l
hasil yang diberikan dari proses penambangan itu sendiri seperti terdapat nilai yang hilang, data
l l l l l l l
yang berlebihan, outliner, atau format data yang tidak sesuai dengan sistem. Oleh karena itu untuk
l l l l l l l l
mengatasi masalah tersebut perlu dilakukan tahap preprocessing. Preprocessing adalah salah satu
l l l l l l l l
langkah dalam menghilangkan masalah yang dapat mengganggu hasil dari pada proses klasifikasi
l l l
data.[1]
3.3 Data Cleaning
Pada dataset terdapat atribut yang memiliki missing value, sehingga perlu dilakukanya
l l l l l l
proses data cleaning. Data cleaning adalah proses menyiapkan data dengan menghapus atau
l l l l l l l
mengisi nilai yang kosong untuk seluruh dataset dengan menggunakan rata-rata dari tiap kolom
l l l l l
3.4 Evaluasi
Evaluasi berfungsi untuk mengetahui nilai performa dari metode yang diterapkan seperti
L l l l l l l l l l
akurasi, recall, precission, dan F1- Score. Penelitian ini menggunakan model Confusion Matrix
l l l l l l l
merupakan model yang memiliki nilai fungsi untuk melakukan analisis apakah klasifikasi pada
l l l l
metode yang dinilai memiliki label baik atau buruk dan K-Fold Cross Validation yaitu model untuk
l l l l l
melakukan evaluasi performa sebuah algoritma dengan cara data yang akan dievaluasi akan dipisah
l l l l l l
menjadi data training dan data testing setelah itu dilakukan lipatan/fold yaitu iterasi sesuai dengan
l l l l l l l
jumlah K yang telah ditentukan. Terdapat enam kemungkinan hasil yang diperoleh dari Confusion
l l l l l l l
Matrix.[7]
BAB III
HASIL & PEMBAHASAN
Penelitian ini dilakukan dengan cara mencari dataset secara online melalui website kaggle.com .
l l l l l l l l l l l
Dataset yang di gunakan adalah Dataset Pima Diabetes memiliki total 768 row data dan 9 attribut, attribut
l l l l l
DiabetesPedigreeFunction, Age, Outcome, isi atribut tersebut dapat dilihat pada gambar.[8]
l l l l l l l l l
Penulis selanjutnya melakukan tahapan preprocessing data agar data dapat digunakan secara tepat
l l l l l l l
dalam proses klasifikasi. Tahapan yang dilakukan dimulai dari Data cleansing dengan untuk melihat adakah
l l l l
data null atau missing value. Setelah di temukannya nilai null (missing value) langkah selanjutnya mencari
l l l l l l l
nilai median dari setiap kolom untuk diisi ke dalam data yang bernilai null. Selanjutnya memisahkan data
l l l l l l
variabel X dan y serta melakukan splitting data. Dan tahap terakhir yang dilakukan adalah Feature Scaling
l l l l l l
untuk menyetarakan skala dari nilai data yang digunakan. Setelah data dilakukan preprocessing dataset bisa
l l l l l l l
di implementasi-kan dengan Algoritma Random Forest. Lihat hasil pada gambar dibawah.[8]
l l l l
Pada Algoritma Random Forest penulis akan membagi data training dan data testing dari l l l l
keseluruhan data yang memiliki total 768 data. Data tersebut akan di uji menggunakan perbandingan rasio
l l l l l l l
70:30. Karena perbandingan 70 : 30 adalah salah satu pilihan yang umum digunakan untuk pembagian ini.
l l l
Alasan dibalik ini adalah untuk memberikan jumlah data yang cukup besar untuk melatih model pada saat
l l l l l
yang sama juga memberikan data ang cukup untuk menguji kinerjanya.
l l l l
Tahap selanjutnya adalah melakukan evaluasi prediksi menggunakan Confusion Matrix, Confusion Matrix
l l l l l
adalah suatu metode yang sering sekali digunakan untuk melakukan perhitungan akurasi pada data
l l l l l l
mining.[8]
a) Hasil prediksi dari dataset Pima Indians Diabetes yang memiliki nilai benar(True positif) sebanyak 51
l l l l l l l l
prediksi, dan hasil prediksi yang memiliki nilai salah (False positif) adalah sebanyak 17 prediksi
l l l l l l
b) Hasil Prediksi dari dataset Pima Indians Diabetes yang memiliki nilai benar (True Negatif) sebanyak 125
l l l l l l l l l
prediksi, dan hasil prediksi yang memiliki nilai salah (False Negatif) adalah sebanyak 38 prediksi.
l l l l l l l
Dari hasil yang di dapat dari Confusion Matrix Algoritma Random Forest penulis dapat menghitung l l l
𝑇𝑁 + 𝑇𝑃
Nilai Akurasi =
𝑇𝑁 + 𝐹𝑁 + 𝐹𝑃 + 𝑇𝑃
125+51
Nilai Akurasi = 125+38+17+51
176
Nilai Akurasi = 231
Dari hasil perhitungan yang telah didapat, algoritma random forest memiliki nilai akurasi model sebesar
l l l l l l l
Setelah di dapatkan hasil dari Confusion Matrix, tahap selanjutnya penulis akan melakukan perhitungan
l l l l l l
terhadap nilai Recall, Precision, dan F1-Score. Recall memiliki fungsi untuk mengevaluasi seberapa besar
l l l l l l l l l l l
cakupan dari sebuah model dalam melakukan prediksi suatu kelas tertentu. Berikut ini adalah perhitungan
l l l l l l l l l
𝑇𝑃
Recall = 𝑇𝑃+𝐹𝑁
l
51
Recall = 51+38
l
51
Recall = 89 l
Recall = 0, 72665
l
Dari hasil perhitungan yang telah didapat, algoritma random forest memiliki nilai Recall sebesar 0,72665
l l l l l l l
atau 72,66%.
Langkah selanjutnya adalah mencari nilai Precision, Precision dihitung untuk melakukan evaluasi seberapa
l l l l l l l l
baik ketepatan model dapat memprediksi suatu kelas. Di dalam perhitungan ini, penulis akan melakukan
l l l l l l l l l
perhitungan nilai Precision pada Algoritma Random Forest yang dapat di lihat di bawah ini[8].
l l l
𝑇𝑃
Precision = 𝑇𝑃+𝐹𝑃l
51
Precision = l
51+17
51
Precision = l
68
Precision = 0, 75843
l
Dari hasil perhitungan yang telah didapat, algoritma random forest memiliki nilai precision sebesar 0,75843
l l l l l l l
atau 75,84%.
Langkah selanjutnya adalah penulis akan melakukan perhitungan terhadap F1-Score, F1-Score adalah
l l l l l l l
perhitungan kombinasi antara Recall dan Precision. Untuk perhitungannya F1-Score pada Algoritma
l l l l l
2(𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙)
F1 – Score = l
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙
2(0,7584 ∗0,7266)
F1 – Score = l
0,7584+0,7266
2(0,551)
F1 – Score = l
1,485
1,102
F1 – Score = l
1,485
F1 – Score = 0,73467 l
Berdasarkan hasil perhitungan yang telah didapat, algoritma random forest memiliki nilai F1 – Score
l l l l l l
Dari hasil perhitungan diatas kita dapat melihat bahwa Algoritma Random Forest dengan menggunakan
l l l l l
rasio 70:30 memiliki hasil akurasi 76,19%, Recall 72,66%, Precision 75,84%, F1-Score73,46% dalam
l l l l
4.1 Kesimpulan l
Berdasarkan hasil penelitian implementasi algoritma random forest untuk diagnosis pasien
l l l l l l l
kinerja yang baik dalam memprediksi penyakit diabetes. 70% data digunakan untuk
l l l l l l
melatih (training) model, sedangkan 30% digunakan untuk menguji (testing) model.
l l l l l l
Pembagian data ini memungkinkan model untuk belajar dari data yang cukup banyak dan
l l l l
kemudian diuji pada data yang belum pernah dilihat sebelumnya. Hal ini membantu dalam
l l l l l l
recall, dan F1-score. Dalam hasil Confusion Matrix algoritma random forest di dapatkan
l l l
Akurasi sebesar 76,19%, precision sebesar 75,84% , recall sebesar 72,66% , dan F1-score
l l l l l l l l l
sebesar 73,46%. Dalam pengujian dengan rasio 70:30, model Random Forest menunjukkan
l l l l l l l
3. Random Forest umumnya lebih efisien dalam hal waktu komputasi dibandingkan dengan
l l l l l
algoritma lain seperti Support Vector Machine (SVM). Namun, dengan data yang sangat l l l l l
besar, pelatihan Random Forest mungkin membutuhkan sumber daya komputasi yang lebih
l l l l l l
besar. Oleh karena itu, skalabilitas dan efisiensi algoritma perlu diperhatikan terutama
l l l l l l l l
Vector Machine dan Modified Balanced Random Forest dalam Deteksi Pasien Penyakit Diabetes,”
l l l l l l l l l l l
J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 5, no. 2, pp. 393–399, 2021, doi:
L l l
10.29207/resti.v5i2.3008. l
[2] F. M. Hana, “Klasifikasi Penderita Penyakit Diabetes Menggunakan Algoritma Decision Tree C4.5,”
l l l l l l l l l
J. SISKOM-KB (Sistem Komput. dan Kecerdasan Buatan), vol. 4, no. 1, pp. 32–39, 2020, doi:
l l l
10.47970/siskom-kb.v4i1.173.
[3] Yuli Mardi, “Data Mining : Klasifikasi Menggunakan Algoritma C4 . 5 Data mining merupakan l l
bagian dari tahapan proses Knowledge Discovery in Database ( KDD ) . Jurnal Edik Informatika,” J.
l l l l l L
[4] A. U. Zailani and N. L. Hanun, “Penerapan Algoritma Klasifikasi Random Forest Untuk Penentuan l l l l l
Kelayakan Pemberian Kredit Di Koperasi Mitra Sejahtera,” Infotech J. Technol. Inf., vol. 6, no. 1, pp.
l l l l l l l l l
“Peningkatan Hasil Klasifikasi pada Algoritma Random Forest untuk Deteksi Pasien Penderita
l l l l l l l
Diabetes Menggunakan Metode Normalisasi,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol.
l l l l l L l l
[7] T. F. Basar, D. E. Ratnawati, and I. Arwani, “Analisis Sentimen Pengguna Twitter terhadap
L l l l l l
Pembayaran Cashless menggunakan Shopeepay dengan Algoritma Random Forest,” vol. 6, no. 3,
l l l l l l l
Forest dan Algoritma Artificial Neural Network untuk Klasifikasi Penyakit Diabetes,” e-Proceeding
l l l l l l l l l