Imple Me Ntasi Algoritma Random Fore ST Untuk Diagnosis Pasie N Pende Rita Diabe Te S

JURNAL ORKOM
Penyusun :
1.Ellisia kumalasari S.pd.,Mpd.
2.Dian Anisa Agustina
3.Intin Rista Pratiwi
4.Zahrotul Ilmi Wijayanti
5.Desy Intan Permatasari
IMPLEMENTASI ALGORITMA RANDOM FOREST UNTUK DIAGNOSIS PASIEN
PENDERITA DIABETES
ABSTRAK
Penyakit diabetes adalah gangguan pada metabolisme yang bersifat kronis pada tubuh manusia
l l l l l l
ditandai dengan kadar gula darah yang tinggi dan disertai dengan gangguan metabolisme karbohidrat, lipid
l l l l l
dan protein sebagai akibat dari ketidakmampuan insulin untuk menjalankan fungsinya secara memadai.
l l l l l l
Dari tahun ke tahun jumlah pengidap penyakit diabetes semakin bertambah. Merujuk dari sumber data
l l l l l l l l l
Federasi Diabetes Internasional, pengidap penyakit diabetes sebanyak 10 juta jiwa pada tahun 2015 di
l l l l l l l l l l
Indonesia, ditahun 2040 diprediksi jumlah warga Indonesia yang terjangkit penyakit diabates mengalami
l l l l l l l
meningkatan sebesar 16.2 juta jiwa penduduk Indonesia. Oleh sebab itu deteksi penyakit diabetes sangat
l l l l l l l l l l l l
diperlukan guna merendahkan komplikasi penyakit diabetes di waktu yang akan datang. Untuk melakukan
l l l l l l l
Klasifikasi penyakit diabetes hal yang bisa dilakukan salah satunya adalah dengan melakukan
l l l l l
pengklasifikasian terhadap penyakit diabetes. Salah satu cara untuk melakukan pengklasifikasian adalah
l l l l l l l
dengan dilakukannya klasifikasi dalam Machine Learning. Machine Learning sendiri dapat mempermudah
l l l l l l l l
penulis untuk mendapatkan hasil prediktif untuk penyakit diabetes, dataset yang akan digunakan pada
l l l l l l l
penelitian kali ini adalah pima-indian-diabetes dengan dataset 768 data, dari data tersebut terdapat delapan
l l l l l l l l l l
data attribut yang diantaranya adalah Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI l l l l l l
(Body Mass Index), Diabetes Pedigree Function, Age dan outcome. Di dalam Penelitian ini penulis akan
l l l l l l l l l l l
membandingkan hasil akurasi dari Algoritma Random dalam melakukan klasifikasi terhadap dataset pima-
l l l l
indian-diabetes. l l
Kata Kunci : Random Forest,Diabetes, Data Mining l l l

BAB I
PENDAHULUAN
Dewasa ini banyak orang yang bekerja keras tanpa memikirkan diri sendiri. Hal tersebut
l l l l l l l l
menyebabkan pola hidup yang tidak sehat tanpa adanya olahraga bahkan mengkonsumsi makanan atau
l l l l
minuman instant ataupun cepat saji. Pola hidup yang buruk tersebut dapat menyebabkan kesehatan tubuh l l l l l l l
semakin menurun dan juga dapat mengakibatkan penyakit diabetes. Diabetes adalah sebuah penyakit di
l l l l l l l l l l
mana kandungan kadar gula dalam darah menjadi tinggi sehingga tubuh tidak mampu mengolah kadar gula l l l
tersebut. Diabetes yang disebabkan oleh gangguan metabolik, terjadi karena pankreas tidak menghasilkan
cukup insulin (hormone yang mengatur gula darah) atau tubuh tidak menggunakan insulin yang diproduksi l l l
secara efektif, sehingga menyebabkan tingkat glukosa diatas normal. Secara global, diperkirakan 422 juta
l l l l l l l l
orang dewasa hidup dengan diabetes dan 1,5 juta diantaranya meninggal dunia pada tahun 2014. Di
l l l l l
Indonesia sendiri diabetes merupakan penyebab kematian terbesar nomor 3 dengan persentase sebesar 6,7
l l l l l l l l l l l l l l l l
%, setelah Stroke 21,1 % dan penyakit Jantung Koroner 12,9 % pada tahun 2016 saja dan meningkat setiap
l l l l l l l
tahunnya.[1]
Data mining adalah sebuah metode untuk melakukan akuisisi pengetahuan. Dengan data mining, l l l l l l l
informasi-informasi implisit dan berharga dari sebuah data dapat diekstrak. Adapun metode yang biasanya l l l l l
operasikan pada data mining antara lain: deskripsi atau penggambaran, prediksi atau ramalan, clustering ,
l l l l l
klasifikasi dan asosiasi, dan estimasi. Klasifikasi merupakan sebuah proses untuk menciptakan fungsi atau l l l l l
model menjelaskan kelas pada data atau konsep guna untuk memprediksi kelas dari sebuah objek yang
l l l l l l l l l l
labelnya belum didapatkan. Pada penelitian ini, teknik klasifikasi dimanfaatkan untuk meramal orang mana
l l l l l l
yang terjangkit penyakit diabetes dan tidak terjangkit. Beberapa algoritma dapat digunakan untuk
l l l l l l l
perhitungan proses klasifikasi.[2]

l l
Seiring dengan berkembangnya teknologi saat ini metode machine learning telah banyak digunakan
l l l l l l l l l l
dalam segala bidang tidak terkecuali dalam bidang medis. Penelitian sebelumnya dilakukan klasifikasi
l l l l l l l l
dengan data diabetes menggunakan Neural Network menghasilkan akurasi 86.26%. Selain itu juga terdapat
l l l l l l l l l
penelitian lainnya yang menggunakan dataset diabetes dari mldata.org dengan metode J48 Decision Tree
l l l l l l l l l l l l
yang di mana menghasilkan akurasi sebesar 73,82%. Adapun penilitan yang dilakukan pada tahun 2021 ini l l l l
sudah dilakukan penelitian dengan topik deteksi diabetes menggunakan metode pengembangan Decision l l l l l l l l l l l l l
Tree yaitu Random Forest (RF) yang menghasilkan akurasi sebesar 95.45%.[1]
l l l l l l
BAB II
LANDASAN TEORI
2.1 Data Mining

Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan l l l l l l
buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang
l l l l l l
bermanfaat dan pengetahuan yang terkait dari berbagai database besar. Data mining merupakan
l l l l l l l l
serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan
l l l l l l
yang selama ini tidak diketahui secara manual. Data mining bukanlah suatu bidang yang sama
l l l
sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data
l l l l l
mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang dulu sudah mapan terlebih
l l l l l
dulu.[3]
Ilmu Data mining adalah perpaduan ilmu dari artificial intelligence, statistik, dan penelitian l l l l l l
basis data yang selalu meningkat. Menurut artikel metode data mining merupakan sebuah proses
l l l l l l l l l
menentukan ikatan yang mengandung arti, pola, dan keterkaitan dengan mengolah kelompok data.
l l l l l l l l
Dalam data mining terdapat 6 metode yang biasa di jalankan yaitu ramalan atau prediksi,
l l l l
penggambaran atau deskripsi, klasifikasi, estimasi, asosiasi dan clustering. [2]

l l l l
a. Deskripsi Tujuan dari operasi adalah untuk mengenal pola yang terbentuk
l l l l l l
berulang-ulang pada sekelompok data, selanjutnya menjadikan pola data tersebut

l l l l l l l
membentuk kriteria dan aturan yang gampang dipahami.

l l l
b. Prediksi atau ramalan Ramalan mempunyai kemiripan dengan teknik klasifikasi,

l l l l l
tapi di sini data bagi kelas sesuai dengan perilaku atau nilai yang diprediksi pada l l l l l
waktu mendatang. l
c. Klasifikasi atau pengelompokan adalah teknik mengenali suatu karakteristik dari l l l l l l
data dan data tersebut dikelompokan dalam suatu kelas-kelas. l l l l l
d. Estimasi atau bisa disebut menerka, teknik ini memiliki kesamaan dengan prediksi,
L l l l l l l l l
tapi di sini yang diestimasi berupa bilangan numerik. l l l
e. Clustering adalah klasterisasi atau pengelompokan data dengan kelas data yang
l l l l l l
mempunyai karakteritik sama dijadikan satu kelompok dan yang berbeda

l l l l l
dikelompok yang lain. l
f. Asosiasi Teknik asosiasi adalah mencari atribut yang nampak pada kondisi tertentu l l l l
atau menghasilkan aturan assosiatif antara suatu kombinasi item.

l l
2.2 Klasifikasi
Proses mencari sebuah karakteristik data dan dipetakan dalam kelas-kelas sesuai dengan
l l l l l l l l l
karakteristiknya masing-masing disebut dengan klasifikasi. Pada klasifikasi proses mencari

l l l l l
karakteristik sebuah objek dilakukan, selanjutnya objek dengan karakteristik yang sama dimasukan
l l l l l l l
ke dalam salah satu kelas yang sudah diartikan terlebih dahulu. Proses klasifikasi adalah proses
l l l l l l
menghitung data yang ada sebelumnya atau disebut juga data training dengan data baru atau data
l l l l l
testing. Proses ini akan menghasilkan kemungkinan dalam data testing. Dalam klasifikasi dataset
l l l l l l
yang digunakan harus memiliki label atau atribut tujuan. Meramal objek kelas pada setiap persoalan
l l l l l l l
dalam data adalah tujuan dari klasifikasi. Dimulai dengan satu set data di mana kelas dikenal adalah l l l l
sebuah tugas klasifikasi.[2]

l
2.3 Random Forest
Algoritma Random Forest didesain oleh J. Ross Quinlan, dinamakan Random Forest l l l l
karena merupakan keturunan dari pendekatan ID3 untuk membangun pohon keputusan. Random
l l l l l l l
Forest merupakan algoritma yang cocok digunakan untuk masalah klasifikasi pada machine
l l l
learning dan data mining. Random Forest memetakan atribut dari kelas sehingga dapat digunakan
l l l l l l
untuk menemukan prediksi terhadap data yang belum muncul. Pohon keputusan sendiri merupakan
l l l l l l l l
pendekatan “divide and conquer” dalam mempelajari masalah dari sekumpulan data independen
l l l l l l l l l l
yang digambarkan dalam bagan pohon. Pohon keputusan juga merupakan sekumpulan pertanyaan l l l l
yang tersusun secara sistematis, dimana setiap pertanyaan yang ada menentukan percabangan
l l l l l l l l
berdasarkan nilai atribut dan berhenti pada daun dari pohon yang merupakan prediksi dari kelas
l l l l l l
variabel.[4] l
Cara kerja algoritma Random Forest dapat dijabarkan dalam langkah-langkah berikut:
l l l
1. Algoritma memilih sampel acak dari dataset yang disediakan.

l l l l
2. Membuat decision tree untuk setiap sampel yang dipilih. Kemudian akan didapatkan hasil
l l l l l l l
prediksi dari setiap decision tree yang telah dibuat.

l l l l l l
3. Dilakukan proses voting untuk setiap hasil prediksi. Untuk masalah klasifikasi
l l l
menggunakan modus (nilai yg paling sering muncul), sedangkan untuk masalah regresi
l l l l l
akan menggunakan mean (nilai rata-rata).

l l
4. Algoritma akan memilih hasil prediksi yang paling banyak dipilih (vote terbanyak) sebagai
l l l l l
prediksi akhir.
l
[Gambar Cara Kerja Algoritma Random Forest]

2.4. Confussion Matrix
Confusion matrix adalah suatu metode yang biasanya digunakan untuk melakukan perhitungan l l l l
akurasi pada konsep data mining.Confusion matrix digambarkan dengan tabel yang menyatakan
l l l l
jumlah data uji yang benar diklasifikasikan dan jumlah data uji yang salah diklasifikasikan.
l
Berdasarkan tabel Confusion Matrix diatas:

l l
a. True Positives (TP) adalah jumlah record datapositif yang diklasifikasikan sebagai nilai positif
l l l l
b. False Positives (FP) adalah jumlah record data negatif yang diklasifikasikan sebagai nilai
l l l l l
positif
c. False Negatives (FN) adalah jumlah record data positif yang diklasifikasikan sebagai nilai
l l l l l
positif
d. True Negatives (TN) adalah jumlah record data negatif yang diklasifikasikan sebagai nilai
l l l l l l
negative
l l
Nilai yang dihasilkan melalui metode Confusion Matrix adalah berupa evaluasi sebagai
l l l l l l
berikut :
l
a. Accuracy,presentase jumlah record data yang diklasifikasikan (prediksi) secara benar

l l l l l l l
oleh algoritma Rumus : (TP + TN) / Total data = Accuracy

l
b. Misclassification (Error) Rate, presentase jumlah record data yang diklasifikasikan

L l l l l l
(prediksi secara salah oleh algoritma. Rumus : (FP + FN) / Total data =
l l l
Misclassification Rat
BAB III
METODE PENELITIAN
Metode Penelitian Di dalam penelitian ini, penulis menetapkan tiga tahapan yang akan dilakukan oleh
l l l l l l l l l l
penulis. Tahapannya terdiri dari tahap identifikasi masalah, analisa kebutuhan dan perancangan, dan yang
l l l l l
terakhir adalah hasil dan kesimpulan, untuk penjelasannya dapat dilihat pada gambar:
l l l l
[Gambar Alur Klasifikasi Data]
3.1 Dataset
Pada penelitian ini menggunakan data Pima Indians Diabetes dari sumber dataset UCI Machine
l l l l l l l l
Learning yang dapat dilihat dalam website Sumber Dataset: https://www.kaggle.com/datasets/uciml/pima-

l l l l l l l
indians-diabetes-database , data set ini berisi data – data informasi tentang pasien yang diduga memiliki
l l l l l l l l
penyakit diabetes. Keseluruhan data pada data set ini berjumlah 768 records yang setiap record nya
l l l l l l l l l l
memiliki 9 diantaranya yaitu:

l
NO ATRIBUT DESCRIPTION L
1 Pregnancies l l Number of times pregnant l l l
2 Glucose l Konsentrasi glukosa plasma 2 jam dalam tes toleransi glukosa

l l l
oral
3 BloodPressure l l Tekanan darah diastolik (mm Hg)

l
4 SkinThickness l Ketebalan lipatan kulit trisep (mm)

l l l
5 Insulin Insulin serum 2 jam (mu U/ml) l

6 BMI Indeks massa tubuh (berat dalam kg/(tinggi dalam m)^2)
l l
7 DiabetesPedigreeFunc tion 7 Fungsi silsilah diabetes

l l l l l l l
8 Age l Umur (tahun)

9 Outcome l Variabel kelas (0 or 1)
l l
0=tidak terkena diabetes

l l l l
1=ya terkena diabetes

l l l l
Dari atribut data set diatas (1 sampai 8) akan dilakukan proses training & test menggunakan metode
l l l l l l
Random Forest, sedangkan atribut ke – 9 akan menjadi target hasil dari proses klasifikasi. dan disini kami
l l l l l l
akan mencoba menganalisis perbedaan dari akurasi dan error yang didapat dengan melakukan perubahan
l l l l l l l l
pada jumlah neuron pada hidden layer.[5]

l l l
3.2 Parameter Algoritma Random Forest
No Parameter Deskripsi
1 n_estimators l
Jumlah tree dalam Random Forest. l l l
2 criterion l Untuk mengukur kualitas sebuah split. l l
3 max_depth l Kedalaman maksimum tree.

l l l
4 min_samples_split l Jumlah minimum sampel yang diperlukan untuk l l
membagi simpul internal.

l l
5 min_samples_leaf l l Jumlah minimum sampel yang diperlukan untuk l l
berada di simpul daun.

l
6 min_weight_fraction_leaf l l Weighten fraction minimum dari jumlah total bobot

l l
yang diperlukan untuk berada di simpul daun. l l
7 max_features l l Jumlah fitur yang perlu dipertimbangkan saat l l
mencari split terbaikl l

8 max_leaf_nodes Simpul terbaik didefinisikan sebagai pengurangan l l l l
relatif dalam pengotor. Jika tidak ada maka jumlah

l l
simpul daun tidak terbatas. l
N min_impurity_decrease Sebuah simpul akan terbelah jika pemisahan ini

l l l l
menyebabkan penurunan pengotor lebih besar dari

l l l l l l
atau sama dengan nilai ini. l
10 bootstrap Apakah sampel l bootstrap digunakan saat

membangun pohon. Jika Salah, seluruh dataset
l l l
digunakan untuk membangun setiap pohon. l l
11 oob_score Apakah akan menggunakan sampel out-of-bag l l
untuk memperkirakan skor generalisasi. Hanya l l l l
tersedia jika bootstrap=True.

l l l
12 n_jobs Jumlah pekerjaan untuk dijalankan secara paralel l l l l
13 random_state Mengontrol keacakan bootstrap sampel yang

l l l
digunakan saat membangun pohon dan pengambilan l l
sampel fitur untuk dipertimbangkan saat mencari

l l l
pemisahan terbaik di setiap node

l l l l
14 verbose Mengontrol l verbositas l saat memasang l dan

memprediksi. l l
15 warm_start Saat disetel ke True, gunakan kembali solusi dari

l l l l l
panggilan sebelumnya untuk menyesuaikan dan l l l l
menambahkan lebih banyak estimator ke ansambel,

l l l l l
jika tidak, cukup sesuaikan dengan hutan yang sama l l
sekali baru.
l
16 class_weight Bobot yang terkait dengan kelas dalam bentuk l l l l
{class_label: weight}. Jika tidak diberikan, semua l l l l
kelas seharusnya memiliki bobot satu. Untuk

l l l
masalah multi-output, daftar dict dapat diberikan l
dalam urutan yang sama dengan kolom y. l

17 ccp_alpha Parameter kompleksitas yang digunakan untuk
l l l
Pemangkasan Kompleksitas Biaya Minimal.

l l
18 max_samples Jika bootstrap Benar, jumlah sampel yang diambil l l
dari X untuk melatih setiap penaksir dasar. l l l
3.2 Data Preprocessing
Preprocessing adalah sebuah langkah penting dalam proses penambangan data. Data yang
l l l l l l
akan digunakan dalam proses penambangan data tidak selalu dalam kondisi terbaik untuk diproses. l l l l l
Ada kalanya dalam data tersebut terdapat beberapa masalah yang nantinya dapat mempengaruhi l l l l l l l
hasil yang diberikan dari proses penambangan itu sendiri seperti terdapat nilai yang hilang, data
l l l l l l l
yang berlebihan, outliner, atau format data yang tidak sesuai dengan sistem. Oleh karena itu untuk
l l l l l l l l
mengatasi masalah tersebut perlu dilakukan tahap preprocessing. Preprocessing adalah salah satu
l l l l l l l l
langkah dalam menghilangkan masalah yang dapat mengganggu hasil dari pada proses klasifikasi
l l l
data.[1]
3.3 Data Cleaning
Pada dataset terdapat atribut yang memiliki missing value, sehingga perlu dilakukanya
l l l l l l
proses data cleaning. Data cleaning adalah proses menyiapkan data dengan menghapus atau
l l l l l l l
mengisi nilai yang kosong untuk seluruh dataset dengan menggunakan rata-rata dari tiap kolom
l l l l l
pada nilai yang kosong.[6]
3.4 Evaluasi
Evaluasi berfungsi untuk mengetahui nilai performa dari metode yang diterapkan seperti
L l l l l l l l l l
akurasi, recall, precission, dan F1- Score. Penelitian ini menggunakan model Confusion Matrix
l l l l l l l
merupakan model yang memiliki nilai fungsi untuk melakukan analisis apakah klasifikasi pada
l l l l
metode yang dinilai memiliki label baik atau buruk dan K-Fold Cross Validation yaitu model untuk
l l l l l
melakukan evaluasi performa sebuah algoritma dengan cara data yang akan dievaluasi akan dipisah
l l l l l l
menjadi data training dan data testing setelah itu dilakukan lipatan/fold yaitu iterasi sesuai dengan
l l l l l l l
jumlah K yang telah ditentukan. Terdapat enam kemungkinan hasil yang diperoleh dari Confusion
l l l l l l l
Matrix.[7]
BAB III
HASIL & PEMBAHASAN
Penelitian ini dilakukan dengan cara mencari dataset secara online melalui website kaggle.com .
Dataset yang di gunakan adalah Dataset Pima Diabetes memiliki total 768 row data dan 9 attribut, attribut
l l l l l
tersebut diantara-Nya adalah Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI,

l l l l l l l l
DiabetesPedigreeFunction, Age, Outcome, isi atribut tersebut dapat dilihat pada gambar.[8]
l l l l l l l l l
Penulis selanjutnya melakukan tahapan preprocessing data agar data dapat digunakan secara tepat
l l l l l l l
dalam proses klasifikasi. Tahapan yang dilakukan dimulai dari Data cleansing dengan untuk melihat adakah
l l l l
data null atau missing value. Setelah di temukannya nilai null (missing value) langkah selanjutnya mencari
l l l l l l l
nilai median dari setiap kolom untuk diisi ke dalam data yang bernilai null. Selanjutnya memisahkan data
l l l l l l
variabel X dan y serta melakukan splitting data. Dan tahap terakhir yang dilakukan adalah Feature Scaling
l l l l l l
untuk menyetarakan skala dari nilai data yang digunakan. Setelah data dilakukan preprocessing dataset bisa
l l l l l l l
di implementasi-kan dengan Algoritma Random Forest. Lihat hasil pada gambar dibawah.[8]
l l l l
Pada Algoritma Random Forest penulis akan membagi data training dan data testing dari l l l l
keseluruhan data yang memiliki total 768 data. Data tersebut akan di uji menggunakan perbandingan rasio
l l l l l l l
70:30. Karena perbandingan 70 : 30 adalah salah satu pilihan yang umum digunakan untuk pembagian ini.
l l l
Alasan dibalik ini adalah untuk memberikan jumlah data yang cukup besar untuk melatih model pada saat
l l l l l
yang sama juga memberikan data ang cukup untuk menguji kinerjanya.
l l l l
Tahap selanjutnya adalah melakukan evaluasi prediksi menggunakan Confusion Matrix, Confusion Matrix
l l l l l
adalah suatu metode yang sering sekali digunakan untuk melakukan perhitungan akurasi pada data
l l l l l l
mining.[8]
Pada Algoritma Random Forest penulis menarik kesimpulan bahwa: l l l l
a) Hasil prediksi dari dataset Pima Indians Diabetes yang memiliki nilai benar(True positif) sebanyak 51
l l l l l l l l
prediksi, dan hasil prediksi yang memiliki nilai salah (False positif) adalah sebanyak 17 prediksi
l l l l l l
b) Hasil Prediksi dari dataset Pima Indians Diabetes yang memiliki nilai benar (True Negatif) sebanyak 125
l l l l l l l l l
prediksi, dan hasil prediksi yang memiliki nilai salah (False Negatif) adalah sebanyak 38 prediksi.
l l l l l l l
Dari hasil yang di dapat dari Confusion Matrix Algoritma Random Forest penulis dapat menghitung l l l
prediksi dengan menggunakan rumus berikut[8]:

l l l l
𝑇𝑁 + 𝑇𝑃
Nilai Akurasi =
𝑇𝑁 + 𝐹𝑁 + 𝐹𝑃 + 𝑇𝑃
125+51
Nilai Akurasi = 125+38+17+51
176
Nilai Akurasi = 231
Nilai Akurasi = 0,76190
Dari hasil perhitungan yang telah didapat, algoritma random forest memiliki nilai akurasi model sebesar
l l l l l l l
0,76190 atau 76,19%.
Setelah di dapatkan hasil dari Confusion Matrix, tahap selanjutnya penulis akan melakukan perhitungan
l l l l l l
terhadap nilai Recall, Precision, dan F1-Score. Recall memiliki fungsi untuk mengevaluasi seberapa besar
cakupan dari sebuah model dalam melakukan prediksi suatu kelas tertentu. Berikut ini adalah perhitungan
l l l l l l l l l
untuk menemukan Recall pada Algoritma Random Forest[8].

l l l l
𝑇𝑃
Recall = 𝑇𝑃+𝐹𝑁
l
51
Recall = 51+38
l
51
Recall = 89 l
Recall = 0, 72665
l
Dari hasil perhitungan yang telah didapat, algoritma random forest memiliki nilai Recall sebesar 0,72665
l l l l l l l
atau 72,66%.
Langkah selanjutnya adalah mencari nilai Precision, Precision dihitung untuk melakukan evaluasi seberapa
l l l l l l l l
baik ketepatan model dapat memprediksi suatu kelas. Di dalam perhitungan ini, penulis akan melakukan
l l l l l l l l l
perhitungan nilai Precision pada Algoritma Random Forest yang dapat di lihat di bawah ini[8].
l l l
𝑇𝑃
Precision = 𝑇𝑃+𝐹𝑃l
51
Precision = l
51+17
51
Precision = l
68
Precision = 0, 75843
l
Dari hasil perhitungan yang telah didapat, algoritma random forest memiliki nilai precision sebesar 0,75843
l l l l l l l
atau 75,84%.
Langkah selanjutnya adalah penulis akan melakukan perhitungan terhadap F1-Score, F1-Score adalah
l l l l l l l
perhitungan kombinasi antara Recall dan Precision. Untuk perhitungannya F1-Score pada Algoritma
l l l l l
Random Forest dapat di lihat di bawah ini[8].

l
2(𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙)
F1 – Score = l
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙
2(0,7584 ∗0,7266)
F1 – Score = l
0,7584+0,7266
2(0,551)
F1 – Score = l
1,485
1,102
F1 – Score = l
1,485
F1 – Score = 0,73467 l
Berdasarkan hasil perhitungan yang telah didapat, algoritma random forest memiliki nilai F1 – Score
l l l l l l
sebesar 0,73467 atau 73,46%.

l l
Dari hasil perhitungan diatas kita dapat melihat bahwa Algoritma Random Forest dengan menggunakan
l l l l l
rasio 70:30 memiliki hasil akurasi 76,19%, Recall 72,66%, Precision 75,84%, F1-Score73,46% dalam
l l l l
melakukan klasifikasi penyakit diabetes berdasarkan dataset Pima Indians Diabetes.

l l l l l l l l
BAB IV
PENUTUP
4.1 Kesimpulan l
Berdasarkan hasil penelitian implementasi algoritma random forest untuk diagnosis pasien
l l l l l l l
penderita diabetes. Berikut adalah kesimpulan yang dapat di ambil :

l l l l l l
1. Dalam pengujian menggunakan rasio 70:30, algoritma Random Forest menunjukkan

l l l l
kinerja yang baik dalam memprediksi penyakit diabetes. 70% data digunakan untuk
l l l l l l
melatih (training) model, sedangkan 30% digunakan untuk menguji (testing) model.
l l l l l l
Pembagian data ini memungkinkan model untuk belajar dari data yang cukup banyak dan
l l l l
kemudian diuji pada data yang belum pernah dilihat sebelumnya. Hal ini membantu dalam
l l l l l l
mengukur kinerja dan akurasi model.

l l l
2. Evaluasi model dilakukan dengan menggunakan matrix-matrix seperti akurasi, precision,

L l l l l l l
recall, dan F1-score. Dalam hasil Confusion Matrix algoritma random forest di dapatkan
l l l
Akurasi sebesar 76,19%, precision sebesar 75,84% , recall sebesar 72,66% , dan F1-score
l l l l l l l l l
sebesar 73,46%. Dalam pengujian dengan rasio 70:30, model Random Forest menunjukkan
l l l l l l l
nilai-nilai matrix yang baik, yang menunjukkan kemampuannya dalam mengklasifikasikan l l l
penyakit diabetes dengan akurasi tinggi.

l l l l
3. Random Forest umumnya lebih efisien dalam hal waktu komputasi dibandingkan dengan
l l l l l
algoritma lain seperti Support Vector Machine (SVM). Namun, dengan data yang sangat l l l l l
besar, pelatihan Random Forest mungkin membutuhkan sumber daya komputasi yang lebih
l l l l l l
besar. Oleh karena itu, skalabilitas dan efisiensi algoritma perlu diperhatikan terutama
l l l l l l l l
ketika menerapkan pada dataset yang besar.

l l l l l
DAFTAR PUSTAKA
[1] M. D. Purbolaksono, M. Irvan Tantowi, A. Imam Hidayat, and A. Adiwijaya, “Perbandingan Support l
Vector Machine dan Modified Balanced Random Forest dalam Deteksi Pasien Penyakit Diabetes,”
J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 5, no. 2, pp. 393–399, 2021, doi:
L l l
10.29207/resti.v5i2.3008. l
[2] F. M. Hana, “Klasifikasi Penderita Penyakit Diabetes Menggunakan Algoritma Decision Tree C4.5,”
l l l l l l l l l
J. SISKOM-KB (Sistem Komput. dan Kecerdasan Buatan), vol. 4, no. 1, pp. 32–39, 2020, doi:
l l l
10.47970/siskom-kb.v4i1.173.
[3] Yuli Mardi, “Data Mining : Klasifikasi Menggunakan Algoritma C4 . 5 Data mining merupakan l l
bagian dari tahapan proses Knowledge Discovery in Database ( KDD ) . Jurnal Edik Informatika,” J.
l l l l l L
Edik Inform., vol. 2, no. 2, pp. 213–219, 2019.

L
[4] A. U. Zailani and N. L. Hanun, “Penerapan Algoritma Klasifikasi Random Forest Untuk Penentuan l l l l l
Kelayakan Pemberian Kredit Di Koperasi Mitra Sejahtera,” Infotech J. Technol. Inf., vol. 6, no. 1, pp.
l l l l l l l l l
7–14, 2020, doi: 10.37365/jti.v6i1.61.

[5] M. F. Rahman, D. Alamsah, M. I. Darmawidjadja, and I. Nurma, “Klasifikasi Untuk Diagnosa
Diabetes Menggunakan Metode Bayesian Regularization Neural Network (RBNN),” J. Inform., vol.
l l l l l l l l l
11, no. 1, p. 36, 2017, doi: 10.26555/jifo.v11i1.a5452.

[6] Gde Agung Brahmana Suryanegara, Adiwijaya, and Mahendra Dwifebri Purbolaksono,
l l l l
“Peningkatan Hasil Klasifikasi pada Algoritma Random Forest untuk Deteksi Pasien Penderita
l l l l l l l
Diabetes Menggunakan Metode Normalisasi,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol.
l l l l l L l l
5, no. 1, pp. 114–122, 2021, doi: 10.29207/resti.v5i1.2880. l
[7] T. F. Basar, D. E. Ratnawati, and I. Arwani, “Analisis Sentimen Pengguna Twitter terhadap
L l l l l l
Pembayaran Cashless menggunakan Shopeepay dengan Algoritma Random Forest,” vol. 6, no. 3,
l l l l l l l
pp. 1426–1433, 2022.

[8] E. C. P. Witjaksana, R. R. Saedudin, and V. P. Widartha, “Perbandingan Akurasi Algoritma Random
L l l
Forest dan Algoritma Artificial Neural Network untuk Klasifikasi Penyakit Diabetes,” e-Proceeding
l l l l l l l l l
Eng., vol. 8, no. 5, pp. 9765–9772, 2021.

L

Imple Me Ntasi Algoritma Random Fore ST Untuk Diagnosis Pasie N Pende Rita Diabe Te S

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Imple Me Ntasi Algoritma Random Fore ST Untuk Diagnosis Pasie N Pende Rita Diabe Te S

Uploaded by

Copyright:

Available Formats

JURNAL ORKOM

Kata Kunci : Random Forest,Diabetes, Data Mining l l l

perhitungan proses klasifikasi.[2]

2.1 Data Mining

penggambaran atau deskripsi, klasifikasi, estimasi, asosiasi dan clustering. [2]

berulang-ulang pada sekelompok data, selanjutnya menjadikan pola data tersebut

membentuk kriteria dan aturan yang gampang dipahami.

b. Prediksi atau ramalan Ramalan mempunyai kemiripan dengan teknik klasifikasi,

c. Klasifikasi atau pengelompokan adalah teknik mengenali suatu karakteristik dari l l l l l l

data dan data tersebut dikelompokan dalam suatu kelas-kelas. l l l l l

tapi di sini yang diestimasi berupa bilangan numerik. l l l

mempunyai karakteritik sama dijadikan satu kelompok dan yang berbeda

dikelompok yang lain. l

atau menghasilkan aturan assosiatif antara suatu kombinasi item.

karakteristiknya masing-masing disebut dengan klasifikasi. Pada klasifikasi proses mencari

sebuah tugas klasifikasi.[2]

2.3 Random Forest

1. Algoritma memilih sampel acak dari dataset yang disediakan.

prediksi dari setiap decision tree yang telah dibuat.

akan menggunakan mean (nilai rata-rata).

[Gambar Cara Kerja Algoritma Random Forest]

Berdasarkan tabel Confusion Matrix diatas:

a. Accuracy,presentase jumlah record data yang diklasifikasikan (prediksi) secara benar

oleh algoritma Rumus : (TP + TN) / Total data = Accuracy

b. Misclassification (Error) Rate, presentase jumlah record data yang diklasifikasikan

[Gambar Alur Klasifikasi Data]

Learning yang dapat dilihat dalam website Sumber Dataset: https://www.kaggle.com/datasets/uciml/pima-

memiliki 9 diantaranya yaitu:

1 Pregnancies l l Number of times pregnant l l l

2 Glucose l Konsentrasi glukosa plasma 2 jam dalam tes toleransi glukosa

3 BloodPressure l l Tekanan darah diastolik (mm Hg)

4 SkinThickness l Ketebalan lipatan kulit trisep (mm)

5 Insulin Insulin serum 2 jam (mu U/ml) l

7 DiabetesPedigreeFunc tion 7 Fungsi silsilah diabetes

8 Age l Umur (tahun)

0=tidak terkena diabetes

1=ya terkena diabetes

pada jumlah neuron pada hidden layer.[5]

3.2 Parameter Algoritma Random Forest

2 criterion l Untuk mengukur kualitas sebuah split. l l

3 max_depth l Kedalaman maksimum tree.

4 min_samples_split l Jumlah minimum sampel yang diperlukan untuk l l

membagi simpul internal.

5 min_samples_leaf l l Jumlah minimum sampel yang diperlukan untuk l l

berada di simpul daun.

6 min_weight_fraction_leaf l l Weighten fraction minimum dari jumlah total bobot

yang diperlukan untuk berada di simpul daun. l l

7 max_features l l Jumlah fitur yang perlu dipertimbangkan saat l l

mencari split terbaikl l

relatif dalam pengotor. Jika tidak ada maka jumlah

simpul daun tidak terbatas. l

N min_impurity_decrease Sebuah simpul akan terbelah jika pemisahan ini

menyebabkan penurunan pengotor lebih besar dari

atau sama dengan nilai ini. l

10 bootstrap Apakah sampel l bootstrap digunakan saat

digunakan untuk membangun setiap pohon. l l

11 oob_score Apakah akan menggunakan sampel out-of-bag l l

untuk memperkirakan skor generalisasi. Hanya l l l l

tersedia jika bootstrap=True.

12 n_jobs Jumlah pekerjaan untuk dijalankan secara paralel l l l l

13 random_state Mengontrol keacakan bootstrap sampel yang

digunakan saat membangun pohon dan pengambilan l l

sampel fitur untuk dipertimbangkan saat mencari