Komparasi Algoritma Neural Network, K-Nearest Neighbor Dan Naive Baiyes Untuk Memprediksi Pendonor Darah Potensial Wahyu Eko Susanto Dwiza Riana

Journal Speed – Sentra Penelitian Engineering dan Edukasi – Volume 8 No 3 - 2016 speed.web.
id
Komparasi Algoritma Neural Network, K-Nearest Neighbor Dan Naive Baiyes

Untuk Memprediksi Pendonor Darah Potensial
Wahyu Eko Susanto 1) Dwiza Riana2)
1)
Manajemen Informatika
Akademin Manajemen Informatika dan Komputer BSI Yogyakarta (AMIK BSI Yogyakarta)
wahyueko851@gmail.com
2)
Program Pascasarjana Magister Ilmu Komputer
Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri (STMIK Nusa Mandiri)
dwiza@bsi.ac.id
Abstrct – To be able to maintain a minimum stock of blood transfusion, donate their blood,potential
pendonror returned must be known, since the blood results tranfusi can no longer be used after 42
days. During this time in predicting potential donors donate their blood again produces different
accuracy on some algorithms of classification by using dataset are different. So it is not yet known
where the dataset with algorithm suitable for predictions. Need to find out and distinguish between
potential blood donors donate their blood again and what not, need to be built so that the blood donor
unit can take the decision to keep the blood stock to keep it secure. In this study performed
comparisons of Neural Network Algorithm, K-Nearest Neighbor and Naïve Bayes data is applied to the
donors and blood donor transaction data with RFMTC dataset and PMI dataset. From the test results
by measuring the performance of these three algorithms when applied to both of the dataset test using
the Confusion Matrix and ROC Curves, it is known that neural network algorithm with dataset RFMTC
has the value of the highest accuracy. Soobtained the use if neural network algorithm with dataset
RFMTC which fits in this research to applied to the prediction of potential blood donors.
Keyword: Blood Donors, Neural Network, Naïve Bayes, K-NN, RFMTC.
1. PENDAHULUAN Unit Donor Darah (UDD) menjadi rendah (Pusat

Pemenuhan kebutuhan darah sangat Data dan informasi Kementrian Kesehatan RI,
penting untuk meningkatkan kualitas pelayanan 2014).
kesehatan dan menyelamatkan nyawa Dilain sisi menurut American Red Cross,
seseorang (Kementrian Kesehatan Republik darah hasil donor tidak lagi dapat digunakan
Indonesia, 2014). Idealnya ketersediaan darah setelah 42 hari. Satu-satunya cara untuk
yang diperuntukkan untuk donor adalah 2,5% memenuhi permintaan adalah dengan memiliki
dari Jumlah Penduduk. Indonesia pada tahun sumbangan rutin dari sukarelawan yang sehat
2013 terdapat kekurangan sebanyak 2.476.389 (Darwiche, Feuilloy, Bousaleh, & Schang, 2010).
kantong darah (Pusat Data dan informasi Untuk menjawab tantangan tersebut beberapa
Kementrian Kesehatan RI, 2014) penelitian telah dilakukan untuk menentukan
Mengingat darah adalah salah satu media pendonor darah yang potensial mendonorkan
yang digunakan untuk penularan berbagai darahnya kembali.
penyakit, maka sebaiknya darah transfusi Penelitian mengenai donor darah potensial
berasal dari donor resiko rendah. Menurut antara lain diteliti oleh Mahmud, Soekotjo dan
rekomendasi World Health Organization (WHO) Santoso (2014) menggunakan algoritma C4.5
darah beresiko rendah yang aman dan dan Fuzy Tahani dengan menggunakan variabel
berkualitas adalah darah yang berasal dari golongan darah, jenis kelamin, usia, berat
pendonor sukarela, daripada berasal dari donor badan, tekanan darah, kadar HB (hemoglobin),
pengganti (Kementrian Kesehatan Republik dan kadar HTC (hematocit) adapun target
Indonesia, 2014). Donor sukarela adalah variabel outputnya adalah atribut Donor Lagi
pendonor yang memberikan darahnya dimana yang berisikan nilai ‘ya’ atau ‘tidak’ berdasarkan
darah tersebut tidak diperuntukkan bagi orang nilai ambang batas jumlah donor, bernilai ‘ya’
tertentu sebagai pengguna darah yang apabila jumlah donor >=2 dan bernilai ‘tidak’
didonorkan sedangkan yang maksud dengan apabila jumlah donor < 2 . Pada penelitian ini
donor pengganti ialah pendonor yang menghasilkan akurasi rata-rata sebesar 89,64%
memberikan darahnya ditujukan untuk orang dengan menggunakan dataset yang berasal dari
tertentu yang telah ditunjuk oleh pendonor PMI Kota Malang.
(American Cancer Society, 2014). Namun Penelitian lainnya juga dilakukan oleh
minimnya kesadaran masyarakan untuk menjadi Darwiche, Feuilloy, Bousaleh dan Schang
pendonor sukarela hal ini menjadi salah satu (2010) pada penelitian ini mereka menggunakan
faktor yang mengakibatkan persediaan darah di algoritma MLP dan SVM dan metode yang
ISSN : 1979-9330 (Print) - 2088-0154 (Online) - 2088-0162 (CDROM) 18

Journal Speed – Sentra Penelitian Engineering dan Edukasi – Volume 8 No 3 - 2016 speed.web.id
digunakan adalah RFMTC (Recency, kepada pasien untuk tujuan penyembuhan

Frequency, Monetary, Time, Churn Probability) penyakit dan pemulihan kesehatan.
yang dikembangkan oleh I-Cheng et all Adapun syarat yang diatur oleh PMI
merupakan pengembangan metode Kabupaten Bantul agar seseorang dapat
RFM(Recency, Frequency, Monetary). Dataset mendonorkan darahnya ialah dengan memenuhi
yang digunakan berasal dari UCI Machine ketentuan sebagai berikut (Nurfajar, 2015) :
Learning adapun variabel yang digunakan a. Sehat.
adalah kebaruan (Recency) , b. Umur 17 – 60 tahun.
frekwensi(Frequency), jumlah darah yang c. Berat badan minimal 50 kg.
diambil (Monetary), lama menjadi d. Kadar hemoglobin 12,5 g/dl – 18 g/dl.
pedonor(Time), dan variabel targetnya adalah e. Tidak berpenyakit yang bisa ditularkan
menyumbang atau tidak menyumbang melalui darah.
(Donation or non donation) berdasarkan apakah f. Bukan pecandu alkohol dan narkoba.
pada bulan maret 2007 pendonor tersebut g. Bagi wanita, tidak sedang haid, hamil atau
melakukan donor atau tidak. Dari penelitian ini menyusui.
dihasilkan sensitivity 65.8% dan specificity h. Jarak terakhir donor 3 bulan
78.2% dari 600 data training dan 148 data
testing . 2.2 KDD (Knowledge Discovery in
Fais A, Aditya D, Mulya I, Ramadien dan
Databases)
Sani (2015) melakukan penelitian klasifikasi
pendonor menggunakan metode naïve baiyes Knowledge Discovery in Databases
clasifier. Adapun variabel yang digunakan dalam ( Maimon and Rokach, 2010) adalah proses
penelitian ini adalah hemoglobin(HB), tensi yang terorganisir untuk mengidentifikasi valid,
atas, tensi bawah, berat badan, umur, jenis baru, berguna, dan pola yang dapat dimengerti
kelamin, riwayat penyakit menular, interval dari kumpulan data besar dan kompleks.
donor serta mempunyai variabel target Dimana Data Mining (DM) merupaka bagian dari
pendonor dan non pendonor. Dalam penelitian proses Knowledge Discovery in Database
ini digunakan dataset sebanyak 400 record (KDD). Adapun Data Mining sendiri didefinisikan
yang dibagi menjadi 350 record sebagai data (Witten, 2011) sebagai proses penemuan pola
training dan 50 record sebagai data testing. dalam data. Dimana dengan menggunakan data
Hasil yang didapatkan dalam penelitian ini mining ini kita dapat menemukan pola tersebut
adalah keakuratan rata-rata yang didapatkan dengan cara menganalisa data yang sudah ada
dari pengujian ini sebesar 74% dari 4 percobaan dalam database
pengujian.
Dengan melihat perbedaan akurasi dari
penelitian terdahulu maka untuk menjawab
permasalahan dalam penelitian ini dicarilah
dataset dan algoritma yang tepat dalam
menentukan pendonor darah potensial di UDD
PMI Kabupaten Bantul dengan cara
membandingkan penerapan dataset RFMTC
dan penerapan dataset donor darah dari PMI,
pada Algoritma Neural Network, K-Nearest
Neighbor dan Naïve Baiyes. agar di ketahui
tingkat akurasi yang paling tinggi pada masing-
masing dataset dan masing-masing algoritma Sumber: ( Maimon and Rokach, 2010)
dalam menentukan pendonor darah yang Gambar 1. KDD Proses
potensial mendonorkan darahnya kembali
2.3 K-Nearest Neighbor
2. LANDASAN/KERANGKA PEMIKIRAN Algoritma Nearst Neighbor menurut Prasetyo
2.1 Donor Darah (2010) merupakan Algoritma yang melakukan
Donor darah (Donor, 2012) adalah proses klasifikasi berdasarkan kedekatan lokasi (jarak)
pengambilan darah dari seseorang secara satu data dengan data yang lain. Pengenalan
sukarela untuk disimpan dibank darah untuk pola wilayah dengan menggunakan algoritma
kemudian dipakai pada transfusi darah. "k-Nearest Neighbor" (k-NN) merupakan metode
Sedangkan Berdasarkan PP NO 7 Tahun 2011 klasifikasi, dimana objek baru diberi label
Pendonor Darah adalah orang yang berdasarkan objek yang terdekat (Gorunescu,
menyumbangkan darah atau komponennya 2011).
Rumus untuk menghitung kedekatan antara

objek pada algoritma k-Nearest Neighbor
(Kusrini dan Luthfi, 2009)adalah:
P(H|E) Probabilitas akhir bersyarat
(conditional probability) suatu hipotesis
H terjadi jika diberikan bukti (evidence)
E terjadi. (2.1)
Keterangan : P(H) Probabilitas awal (priori) hipotesis H
T : Kasus baru terjadi tanpa memandang bukti apapun
S : Kasus yang ada dalam penyimpanan P(E|H) Probabilitas sebuah bukti E terjadi
n : Jumlah variabel dalam tiap kasus akan memengaruhi hipotesis H
i : Variabel individu antara 1 sampai P(E) Probabilitas awal (priori) bukti E terjadi
dengan n tanpa memandang hipotesis/bukti yang
f : Fungsi similarity variabel i lain
antara kasus T dan S
w : Bobot yang diberikan pada variabel ke-i 2.5 Variabel Klasifikasi Donor Darah
1. Dataset RFMTC
2.4 Neural Network Variabel yang dimiliki dataset RFMTC (
Neural Network menurut Prasetyo(2012) Recency, Frequency, Monetary value, Time
merupakan suatu konsep rekayasa since first purchase and Churn probability)
pengetahuan dalam bidang kecerdasan buatan merupakan modifikasi dari teknik RFM yang
yang di desain dengan mengadopsi system digunakan untuk meramalkan perilaku
syaraf manusia, yang pemrosesan utamanya konsumen dimasa yang akan datang, RFM
adalah otak. Pada Jaringan Saraf Tiruan (JST) didasarkan pada tiga variabel sederhana, yaitu
pemrosesan informasi mempunya karakteristik Recency of purchase, Frequency of purchase,
sama dengan jaringan saraf biologis (Siang, dan Monetary value of purchase, (Aviliani,
2009) Sumarwan, Sugema, dan Saefuddin, 2011)
Terdapat beberapa algoritma dalam Neural Y, I-Cheng, Y, King-Jang, and T, Tao-
Network yang dapat digunakan untuk mencari Ming merupakan orang yang melakukan
pola dalam proses pelatihannya (Prasetyo, modifikasi sehingga terciptalah RFMTC yang
2012) antaralain Preceptor, Backpropagation, digunakan untu meramalkan perilaku pendonor
Self-Organizing Map (SOM), Delta, Associative darah apakah pendonor tersebut termasuk
Memory, Learning Vector Quantization dan klasifikasi yang potensial mendonorkan
sebagainya. darahnya kembali atau tidak, Akurasi dari
Backpropagation (Prasetyo, 2012) adalah RFMTC ini menurut I-Cheng dkk, lebih tinggi
salah satu Multilayer Perceptorn yang daripada RFM, Adapun penjelasan dari variabel
merupakan pengembangan dari preceptorn RFMTC tersebut (Darwiche, Feuilloy, Bousaleh,
untuk mengatasi kekurangan-kekurangan pada and Schang, 2010) adalah Recency Jumlah
perceptorn salah satunya karena ketidak bulan sejak terakhir menyumbangkan darah.
mampuannya untuk bekerja dengan baik pada Frequency adalah Jumlah berapakali donor,
data yang tidak dapat dipisahkan secara linear. Monetaryadalah Jumlah darah yang disumbang
kan dalam c.c.,Time yaitu Jumlah bulan sejak
2.5 Naive Bayes pertama menyumbangkan darah, Donation or
non Donation yaitu Variabel biner yang
Naïve Bayesian Classifier (Abidin, 2015) merepresentasikan apakah pendonor
Adalah metode pengklasifikasian yang mendonorkan darahnya kembali atau tidak, 1
berdasarkan probabilitas dan Teorema menyatakan mendonorkan darah, 0 menyatakan
Bayesian dengan asumsi bahwa setiap variabel tidak menyumbangkan darah.
X bersifat bebas (independence).
Hubungan antara klasifikasi, korelasi 2. Dataset PMI
hipotesis dan bukti dengan klasifikasi pada Variabel yang terdapat pada dataset PMI
naïve bayes (Prasetyo, 2012) adalah label kelas yang digunakan dalam penelitian ini adalah
yang menjadi target pemetaan dalam klasifikasi variabel yang di catatat oleh petugas dari
bayes merupakan hipotesisnya, dan fitur-fitur seorang pendonor ketika melakukan donor
yang menjadi inputan kelas tersebut adalah darah di UDD PMI Kabupaten bantul, Adapun
buktinya. Adapun formula umum teorima bayes variabel yang digunakan dalam penelitian ini
adalah sebagai berikut : adalah jenis kelamin, golongan darah,
pekerjaan, usia, tensi, berat badan, hemoglobin.

Jenis Kelamin atau seks adalah Kesehatan Republik Indonesia, 2014) (1)
perbedaan fisik yang secara kodrat Normal yaitu Tekanan darah systolic<120 dan
membedakan laki-laki dan perempuan (Udau, diastolic < 80,(2) Prehipertensi yaitu Tekanan
2013). Selain itu pengertian jenis kelamin (seks) darah systolic 120-139 dan diastolic 80-89,(3)
merupakan pembagian dua jenis kelamin yang Hipertensi Level 1 yaitu Tekanan darah systolic
ditentukan secara biologis , yaitu bahwa pria 140-159 dan diastolic 90-99,(4) Hipertensi level
mempunyai penis (zakar) serta memproduksi 2 yaitu Tekanan darah systolic≥160 dan
sperma, sedangkan wanita memiliki alat diastolic 100 atau > 100.
reproduksi seperti memiliki rahim. Jenis kelamin Menurut Cipto Surono mendefinisikan berat
secara permanen tidak dapat berubah dan badan adalah ukuran tubuh dalam sisi beratnya
merupakan ketentuan biologis (Sudarma, 2008). yang ditimbangkan dalam keadaan berpakaian
Golongan darah merupakan sebuah minimal tanpa perlengkapan apapun. (Dinkes
pengklasifikasian darah berdasarkan kehadiran Lumajang, 2013)
atau ketidakhadiran dari substansi antigen yang Hemoglobin (Hb) adalah protein
menempel pada permukaan sel darah merah kompleks yang ada dalam eritrosit mengandung
(Nofiansyah dan Rochmawati, 2014). Dalam zat besi dan berwarna merah ( Fa’rifah dan
proses transfusi darah golongan darah ini Purhadi, 2012). Kadar Hemoglobin normal
diperlukan untuk mencocokkan golongan darah dinyatakan pada wanita antara
pendonor dan golongan darah dari pasien. 12,1 sampai 15,1 g/dl dan untuk
Adapun jenis A, B, AB, dan O merupakan jenis pria 13,8 sampai 17,2 g/dl (Low hemoglobin,
penggolongan darah manusia yang dikenal 2014 ).
didunia kedokteran (Melati, Passarella,
Primartha, dan Murdiansyah, 2011). 2.6 Pengujian Metode Klasifikasi Data Mining
Definisi dari Pekerjaan adalah kegiatan Sebagai langkah untuk menguji algoritma
yang dilakukan dan mendapatkan upah, yang teleh digunakan dalam penelitian ini
Pekerjaan seseorang akan menggambarkan penulis menggunakan pengujian dengan
aktivitas dan kesejahteraan ekonomi yang akan metode Confusion Matrix, dan kurva ROC
didapatkan ( Wadud , 2012). (Receiver Operating Characteristic).
Menurut Chaniago dalam (Widyasih,
Mubin, dan Hidyati, 2014) Umur adalah lamanya a. Confusion Matrix
waktu hidup yaitu terhitung sejak lahir sampai Pada Tabel 2.16 di tampilkan tabel
dengan sekarang, Penentuan umur dilakukan Confusion Matrix dimana terdapat empat sel
dengan menggunakan hitungan tahun. Menurut yang menyusunnya, dimana keempat sel
psikolog dari Universitas Indonesia yang tersebut diberi label TP, FP, FN, dan TN. Jika
beranama Dra. Ny. Jos Masdani menyatakan pada data hanya terdiri dari dua kelas, maka
bahwa usia lansia merupakan kelanjutan dari kelas yang satu dianggap sebagai positif dan
usia dewasa. Adapun kedewasaan dapat dibagi yang lainnya negative. (Bramer, 2007).
menjadi empat bagian, yaitu (Nugroho, 2006): Untuk menentukan nilai accuracy digunakan
1) Fase Iuventus (20 Tahun – 40 Tahun) rumus sebagai berikut :
2) Fase Verilitas (40 Tahun -50 Tahun)
3) Fase Prasenium (55 Tahun – 65 Tahun)
4) Fase Senium (Usia 65 Tahun hingga tutup Keterangan :
usia) TP = Jumlah true positive
Tensi atau tekanan darah adalah daya yang TN = Jumlah true negative
diperlukan agar darah dapat mengalir di dalam P = Total Instances positive
pembuluh darah dan beredar mencapai semua N = Total Instances negative
jaringan tubuh manusia (Moniaga, Pangemanan, FP = Jumlah false positive
dan Rampengan, 2013), Tekanan darah FN = Jumlah false negative
melibatkan dua pengukuran yaitu sistolik dan
diastolik, tergantung apakah otot jantung b. Kurva ROC
berkontraksi (sistole) atau berelaksasi di antara Receiver Operating Characteristics (ROC)
denyut (diastole). merupakan teknik untuk memvisualisasikan,
Klasifikasi tekanan darah atau tensi untuk mengatur dan memilih pengklasifikasi
usia 18 tahun atau lebih seperti yang diberikan berdasarkan performa. Pada kurva ROC
oleh the Seventh Report of the Joint National terdapat dua dimensi kurva, nilai true positive
Committee on Prevention Detection, Evaluation (TP) ditempatkan pada sumbu Y dan nilai false
and Treatment of High Blood Pressure (JNC 7) positive (FP) ditempatkan pada sumbu Y (Olson
di bagi menjadi 4 kategori yaitu (Kementrian dan Delen, 2008).

AUC pada kurva ROC memiliki tingkat nilai dalam penelitian ini adalah keakuratan rata-rata
diagnosa yaitu (Gorunescu, 2011): yang didapatkan dari pengujian ini sebesar 74%
1) Akurasi 0,90 – 1,00 = excellent classification dari 4 percobaan pengujian.
2) Akurasi 0,80 – 0,90 = good classification Dalam penelitian ini akan dibandingkan
3) Akurasi 0,70 – 0,80 = fair classification dataset RFMTC dengan dataset PMI dalam
4) Akurasi 0,60 – 0,70 = poor classification penentuan pendonor darah yang potensial untuk
5) Akurasi 0,50 – 0,60 = failure mendonorkan darahnya kembali, serta data
yang digunakan dalam penelitian ini adalah data
2.7 Tinjauan Studi real yang ada di PMI Kabupaten Bantul,
Penelitian mengenai donor darah potensial Kemudian dicari algoritma yang paling akurat
antara lain diteliti oleh Mahmud, Soekotjo dan untuk digunakan pada kedua dataset tersebut
Santoso (2014) menggunakan algoritma C4,5 dengan cara membandingkan tiga algoritma
dan Fuzy Tahani dengan menggunakan variabel yaitu Neural Network, K-Nearest Neighbor dan
golongan darah, jenis kelamin, usia, berat Naive Bayes tujuannya agar mendapatkan
badan, tekanan darah, kadar HB (hemoglobin), algoritma dengan akurasi terbaik dari dataset
dan kadar HTC (hematocit) adapun target yang diuji, untuk memprediksi pendonor darah
variabel outputnya adalah variabel Donor Lagi yang potensial mendonorkan darahnya kembali.
yang berisikan nilai ‘ya’ atau ‘tidak’ berdasarkan
nilai ambang batas jumlah donor, bernilai ‘ya’ 2.8 Kerangka Pemikiran
apabila jumlah donor >=2 dan bernilai ‘tidak’ Sebagai proses awal analisa data
apabila jumlah donor < 2 , Pada penelitian ini dilakukan pada awal penelitian ini dan untuk
menghasilkan akurasi rata-rata sebesar 89,64% memberikan kemudahan dibuat suatu kerangka
dengan menggunakan dataset yang berasal dari pemikiran yang dapat dilihat pada Gambar 2 di
PMI Kota Malang, bawah ini.
Penelitian lainnya juga dilakukan oleh
Darwiche, Feuilloy, Bousaleh dan Schang
(2010) pada penelitian ini mereka menggunakan
algoritma MLP dan SVM dan metode yang
digunakan adalah RFMTC (Recency,
Frequency, Monetary, Time, Churn Probability)
yang dikembangkan oleh I-Cheng et all
merupakan pengembangan metode
RFM(Recency, Frequency, Monetary), Dataset
yang digunakan berasal dari UCI Machine
Learning adapun variabel yang digunakan
adalah kebaruan (Recency) ,
frekwensi(Frequency), jumlah darah yang
diambil (Monetary), lama menjadi
pedonor(Time), dan variabel targetnya adalah
menyumbang atau tidak menyumbang
(Donation or non donation) berdasarkan apakah
pada bulan maret 2007 pendonor tersebut
melakukan donor atau tidak, Dari penelitian ini
dihasilkan sensitivity 65,8% dan specificity
78,2% dari 148 data testing,
Fais A, Aditya D, Mulya I, Ramadien dan
Sani (2015) melakukan pula penelitian
klasifikasi pendonor menggunakan metode
naïve baiyes clasifier, Adapun variabel yang
digunakan dalam penelitian ini adalah
hemoglobin(HB), tensi atas, tensi bawah, berat
badan, umur, jenis kelamin, riwayat penyakit Gambar 2. Kerangka pemikiran
menular, interval donor serta mempunyai
variabel target pendonor dan non pendonor, Untuk penelitian ini data diperoleh melalui
Dalam penelitian ini digunakan dataset data pendonor yang melakukan donor darah di
sebanyak 400 record yang di bagi menjadi 350 UDD PMI Kabupaten Bantul. Melalui
record sebagai data training dan 50 record pengamatan data tersebut dan dari studi
sebagai data testing, Hasil yang didapatkan literature baik dari jurnal maupun buku,

ditentukan variabel yang berhubungan dengan mendapatkan data yang baik, dari 15.201 data
pendonor darah. Dengan menggunakan teknik yang didapatkan dari UDD PMI Kabupaten
data mining dengan pendekatan Algoritma Bantul dilakukan preprocesing, sebanyak
neural network, k-nearest neighbor dan naive 15.201 record direduksi dengan menghilangkan
bayes serta menggunakan program aplikasi duplikasi data sehingga didapatkan 6874 data
aplikasi rapid miner. Kemudian diukur dengan sebagai dataset PMI. Dan jumlah record
confusion matrix dan kurfa ROC. Sehingga sebagai dataset RFMTC terdapat 9.680 data
melalui proses tersebut akan terlihat suatu pola dan didapatkan 824 data setelah dihilangkan
pendonor darah apakah pendonor tersebut duplikasi datanya
termasuk pendonor potensial atau bukan dan Untuk pembentukan model dengan
tingkat keakuratan hasil dari tiga algoritma pada dataset RFMTC dan dataset PMI, sebagai data
dua dataset yang kita uji dapat diketahui, untuk training diambil 700 record dan data testing
kemudian dipilih algoritma dan dataset terbaik diambil 100 record , sebagai data baru diambil
sebagai dasar membangun sistemnya. sebanyak 24 record . Untuk menentukan
pembagian sampel data training dan data
3. METODOLOGI PENELITIAN testing dibagi dengan menggunakan metode
Penelitian ini adalah penelitian eksperimen. Systematic Random Sampling.
Penelitian ini bertujuan untuk mencari algoritma Langkah awal yang dilakukan dalam
dan dataset yang paling tepat untuk digunakan Systematic Random Sampling adalah
untuk mengklasifikasikan pendonor sukarela menentukan interval sampel. Adapun cara
yang potensial mendonorkan darahnya kembali mendapatkan Interval sampel dengan membagi
dan yang tidak. Variabel target dari penelitian ini jumlah populasi dengan jumlah sampel yang
adalah donor lagi yang mempunyai class “Ya” akan diambil (Eriyanto, 2007).
dan “Tidak”. Data yang digunakan dalam
penelitian ini berasal dari data pendonor yang Interval sampel= Jumlah Populasi
melakukan donor darah di UDD PMI Kabupaten Jumlah sampel
Bantul tahun 2012 sampai 2014 Data pendonor
tersebut akan dianalisa untuk kemudian ditarik Selanjutnya menentukan record pertama dari
kesimpulan algoritma serta dataset mana yang sampel. Jika record pertama kita beri simbol x
tepat untuk digunakan dalam pengklasifikasian. dan jarak antar sampel kita beri simbol i, maka
3.1 Variabel Dataset record selanjutnya adalah :
Variabel yang digunakan berkaitan record pertama =x
dengan pendonor darah sukarela yang potensial record kedua =x+i
mendonorkan darahnya kembali, pada record ketiga =x + 2i dan seterusnya
penelitian ini akan digunakan dua dataset yaitu hingga unsur ke-n
menggunakan dataset RFMTC dan dataset PMI.
Adapun variabel dari masing-masing dataset 3.2. Metode Pengumpulan Data
yang digunakan adalah sebagai berikut : Dalam penelitian ini metode
Tabel 1. Variabel Dataset PMI pengumpulan data yang digunakan adalah
Variabel Keterangan metode pengumpulan data sekunder, yaitu
Jkel Jenis Kelamin dengan cara mengunduh data yang telah
Levelumur Tingkat umur tersedia di database sistem informasi donor
Pekerjaan Pekerjaan darah UDD PMI Kabupaten Bantul. Sampel dari
Goldarah Golongan darah data penelitian ini adalah data profile pendonor
Tensi Tekanan darah darah dan data hasil transaksi donor darah yang
Beratbadan Berat badan didapatkan dari UDD PMI Kabupaten Bantul.
KadarHB Kadar Hemoglobin 3.3. Analisis Data
1. Domain Understanding dan KDD Goals
Tabel 2. Variabel Dataset RFMTC Tahap pertama dari KDD yaitu Domain
Keterangan Understanding dan KDD Goals dimana pada
Variabel
tahapan ini adalah mencari persoalan-persoalan
Recency Jarak waktu dengan donor terakhir
yang berkaitan dengan klasifikasi pendonor
Frequency Jumlah total donor
darah yang potensial mendonorkan darahnya
Monetary Jumlah darah yang didonorkan
kembali, yang dilanjutkan dengan menentukan
Time Jarak waktu sejak donor pertama rumusan masalah serta menganalisa kebutuhan
untuk dapat memecahkan madsalah tersebut.
Populasi dari penelitian ini adalah 15.201
data yang merupakan hasil olahan dari
database UDD PMI Kabupaten Bantul. Untuk
2. Selection and Addition RFMTC dan dataset PMI dengan melihat hasil
Pada tahapan Selection and Addition akurasi pada proses klasifikasi pada dataset
data yang didapatkan dari database PMI PMI maupun dataset RFMTC menggunakan
dianalisa agar dapat ditentukan variabel apa algoritma Neural Network, K-Nearest Neighbor
saja yang diperlukan berdasarkan analisa dan naïve bayes. Serta dievaluasi
kebutuhan yang diperoleh. Adapun variabel menggunakan metode confusion matrix dan
yang digunakan ada di tabel 1 untuk variabel kurva ROC.
dataset PMI dan tabel 2 variabel dataset
RFMTC. 6. Discovered Knowledge
Setelah pembentukan model, dilakukan
3. Preprocessing Data Cleaning analisa, dan pengukuran, selanjutnya pada
Pada tahap ini akan dilakukan tahap ini diterapkan model yang paling akurat
pembersihan data. Data yang didapat untuk dari algoritma dan dataset yang diuji dengan
penelitian ini sebanyak 15.147 record . Untuk menggunakan data baru sebagai dasar
penggunaan metode dengan dataset PMI pada pembuatan aplikasi yang dibuat berdasarkan
penelitian ini digunakan 7 variabel adapun algoritma dan dataset terbaik
variabel dataset PMI yang digunakan terdapat
pada tabel 1. Sedangkan yang menggunakan 4. HASIL DAN PEMBAHASAN
dataset RFMTC digunakan 4 variabel adapun Penelitian ini bertujuan untuk
variabel yang digunakan ada pada tabel 2. melakukan klasifikasi pendonor darah yang
Setelah dihilangkan duplikasi dan null value, potensial mendonorkan darahnya kembali pada
6874 record dapat digunakan untuk pembuatan unit donor darah dan melihat akurasi algoritma
model dengan dataset PMI dan terdapat 824 Neural network , K-Nearest Neighbor, dan Naïve
record untuk dataset RFMTC. Karena akan Bayes dengan menggunakan dataset PMI dan
dilakukan pengujian akurasi algoritma klasifikasi dataset RFMTC, kemudian menganalisa
antara kedua dataset, maka penggunaan jumlah akurasi ketiga algoritma dengan
data antara dataset PMI dan dataset RFMTC membandingkan ketiga algoritma tersebut pada
disamakan yaitu dengan menggunakan 824 masing-masing dataset . Sehingga didapatkan
data sebagai dataset, adapun pemilihan data dataset dan algoritma yang paling cocok
sampel menggunakan Systematic Random digunakan untuk melakukan klasifikasi pendonor
Sampling. darah yang akan mendonorkan darahnya
kembali atau tidak.
4. Transformation
Data yang digunakan dalam penulisan 4.1 Pengujian Confussion Matrix
ini beberapa masih dalam bentuk angka, oleh 1. Pengujian Dataset RFMTC
karenanya data ditransformasikan ke dalam Dari Tabel confussion matrix dari
klasifikasi atau kelompok berdasar interval untuk masing-masing algoritma pada pengujian
pengujian algoritma K-Nearst Neighbour dan dengan dataset RFMTC, menghasilkan
Naive bayes sedangkan untuk pengujian perbandingan nilai accuracy pada masing-
menggunakan algoritma Neural Network, tetap masing algoritma pada Tabel 3.
dalam bentuk angka . Tabel 3. Nilai accuracy dataset RFMTC
Pilihan interval kelas tergantung pada Algoritma Akurasi
jumlah kelas untuk distribusi tertentu dan ukuran Neural network 80%
data. Interval kelas diusahakan harus dengan K-Nearest Neighbor 71%
ukuran yang sama. Prof. Sturge telah Naïve Bayes 71%
memberikan rumus berikut untuk menentukan
ukuran interval kelas (Jain dan Aggarwal, 2010): Dari Tabel 3 diatas, dapat kita lihat
perbandingan nilai accuracy pada masing-
masing algoritma pada dataset RFMTC
menunjukkan hasil bahwa algoritma neural
Keterangan : network memiliki nilai akurasi 80%. Selanjutnya
N = Total Frekuensi algoritma naïve bayes dengan akurasi 71%.
i = Ukuran Kelas Intervalence Sedangkan algoritma K-Nearst neighbor
mempunyai akurasi sama dengan naïve bayes
5. Evaluation and Interpretation sebesar 71% .
Pada tahap ini adalah tahap pengujian Sehingga dari hasil pada Tabel 3 diatas
dilakukan dengan menggunakan 700 data didapatkan bahwa algoritma neural network
training data dan 100 data testing untuk dataset yang paling cocok untuk digunakan untuk
klasifikasi pendonor darah potensial dengan Tabel 6. Komparasi nilai ROC

dataset RFMTC dibandingkan dengan Datase
algoritma K-Nearst neighbor dan naïve bayes. Algoritma Dataset t
Dengan tingkat akurasi 80%. RFMTC PMI
2. Pengujian Dataset PMI Neural network 0,851 0,605
Sedangkan dari tabel confussion matrix K-Nearest Neighbor 0,500 0,500
dari masing-masing algoritma pada pengujian Naïve Bayes 0,751 0,566
dengan dataset PMI, Berikut perbandingan nilai
accuracy pada masing-masing algoritma pada Berdasarkan komparasi nilai ROC pada Tabel 5
dataset tersebut yang disajikan pada Tabel 4. pada dataset RFMTC, nilai pada Neural
Tabel 4. Nilai accuracy dataset PMI network memiliki tingkat ROC paling tinggi yaitu
Algoritma Akurasi 0,851 dengan tingkat nilai diagnosa good
Neural network 65% classification. Sedangkan nilai ROC yang
K-Nearest Neighbor 52% dihasilkan berdasarkan komparasi nilai ROC
Naïve Bayes 56% pada dataset PMI, nilai pada Neural network
Dari Tabel 4 diatas, dapat kita lihat juga memiliki tingkat ROC paling tinggi yaitu
perbandingan nilai accuracy pada masing- 0,744 dengan tingkat nilai diagnosa fair
masing algoritma pada dataset PMI, classification diantara algoritma yang lainnya.
menunjukkan hasil bahwa algoritma neural Sedangkan jika di bandingkan antara dataset
network memiliki tingkat akurasi yang lebih RFMTC dan dataset PMI , maka dataset
tinggi dengan akurasi 65% .Tingkat akurasi RFMTC dengan algoritma Neural Network yang
yang paling tinggi diantara ketiga algoritma yang mempunyai nilai paling tinggi.
lainnya pada dataset PMI dimiliki oleh algoritma Berdasarkan perbandingan akurasi
neural network . yang dihasilkan dengan pengujian Confusion
Sehingga dari hasil pada Tabel 4 diatas Matrix dan perbandingan nilai ROC maka
didapatkan bahwa algoritma neural network dataset RFMTC dengan algoritma Neural
yang paling memungkinkan untuk digunakan Network lah yang mempunyai nilai paling tinggi.
sebagai klasifikasi pendonor darah potensial Kemudian ketika algoritma dan dataset telah
dengan dataset PMI dibandingkan dengan terpilih diterapkan pada data baru, didapatkan
algoritma K-Nearst neighbor dan naïve bayes. akurasi sebesar 83,33% untuk data baru
Dengan menggunakan Confusion Matrix
pada kedua dataset dengan tiga algoritma, .Tabel 7. Hasil Akurasi Data Baru
dapat dilihat perbandingan akurasi kedua
dataset dengan tiga lagoritma tersebut pada
Tabel 5:
Tabel 5. Perbandingan Akurasi
Akurasi
Metode Dataset Dataset
RFMTC PMI 3. KESIMPULAN
Neural network 80% 65% Kesimpulan yang dapat diambil dari
K-Nearest Neighbor 71% 52% penelitian mengenai pendonor yang potensial
Naïve Bayes 71% 56% mendonorkan darahnya kembali yang dilakukan
Dari hasil akurasi pada Tabel 6 di UDD PMI Kabupaten Bantul adalah:
algoritma neural network dengan dataset 1. Penelitian ini membandingkan dua dataset
RFMTC memiliki nilai akurasi yang paling tinggi yaitu dataset RFMTC dan dataset PMI serta
dengan akurasi 80%, dibandingkan dengan tiga algoritma yaitu neural network, k-nearest
yang lainnya sehingga algoritma neural network neighbor dan naïve bayes, untuk
dan dataset RFMTC dapat digunakan sebagai mendapatkan dataset dan algoritma yang
dasar untuk melakukan klasifikasi pendonor tepat dalam memprediksi pendonor darah
yang potensial menyumbangkan darahnya yang potensial mendonorkan darahnya
kembali. kembali pada UDD PMI Kabupaten Bantul.
2. Dalam penelitian ini pembuatan model
4.2 Pengujian Curva ROC dilakukan menggunakan dataset PMI dan
Adapun hasil evaluasi dengan kurva dataset RFMC serta algoritma neural
ROC pada pengujian dengan dataset RFMTC network, k-nearest neighbor dan naïve bayes
dan dataset PMI, hasilnya dapat dilihat pada menggunakan data pendonor yang
Tabel 5, sebagai berikut: melakukan donor darah pada tahun 2012
sampai 2014. Model yang dihasilkan dari
masing-masing dataset , dikomparasi untuk [3] American Cancer Society. (7. Oktober
mengetahui algoritma dan dataset yang 2014). Blood Transfusion and Donation. 20.
paling baik dalam memprediksi pendonor January 2015: http://www.cancer.org.
darah potensial. Untuk mengukur kinerja [4] Aviliani, Sumarwan, U., Sugema, I., &
ketiga algoritma tersebut digunakan metode Saefuddin, A. (2011). Segmentasi Nasabah
pengujian Confusion Matrix dan Kurva ROC, Tabungan Mikro Berdasarkan Recency,
diketahui bahwa algoritma neural network Frequency, Dan Monetary : Kasus Bank
dengan dataset RFMTC memiliki nilai BRI. Finance and Banking Journal, 97.
akurasi paling tinggi, diikuti oleh metode [5] Billett, H. (26. February 2015). Chapter 151
Naïve bayes dengan dataset RFMTC dan k- Hemoglobin and Hematocrit. 26 February
nearest neighbor dengan dataset RFMTC, 2015:
dataset PMI dengan algoritma neural http://www.ncbi.nlm.nih.gov/books/NBK259/
network, k-nearest neighbor dan naïve bayes [6] Bramer, M. (2007). Principles of Data
menempati urutan terbawah. Mining. Verlag London: Springer.
3. Algoritma neural network dengan dataset [7] Darwiche, M., Feuilloy, M., Bousaleh, G., &
RFMTC mempunyai akurasi yang cukup baik Schang, D. (2010). Prediction of blood
dengan nilai akurasi data testing 80% , transfusion donation. IEEE , 978.
dibandingkan dengan algoritma K-Nearest [8] Dinkes Lumajang. (20 November 2013).
Neighbor dan Naïve Bayes maupun ketiga berat-badan : dinkeslumajang.or.id. 3 Maret
algoritma tersebut dengan variabel PMI. 2015: http://dinkeslumajang.or.id/berat-
Sehingga algoritma neural network dengan badan/
dataset RFMTC pada penelitian ini dapat [9] Eriyanto. (2007). Teknik Sampling Analisis
direkomendasikan untuk melakukan prediksi Opini Publik. Yogyakarta:LKIS.
pendonor yang potensial mendonorkan [10] Fais A, S. N., Aditya D, M., & Mulya I, S.
darahnya kembali. (2015). Klasifikasi Calon Pendonor Darah
Dengan Metode Naive Bayes Clasifier.
Adapun saran untuk penelitian selanjutnya Malang: Universitas Brawijaya
mengenai prediksi pendonor darah potensial [11] Fa’rifah, R., & Purhadi. (2012). Analisis
agar penelitian ini menjadi lebih berkembang Survival Faktor-Faktor yang Mempengaruhi
yaitu : Laju Kesembuhan Pasien Penderita
1. Penelitian pendonor darah potensial ini dapat Demam Berdarah Dengue (DBD) di RSU
dikembangkan lagi dengan lebih spesifik Haji Surabaya dengan Regresi Cox. Jurnal
pada masing-masing golongan darah Sains Dan Seni Its, 271-276.
sehingga didapatkan prediksi pendonor [12] Gorunescu, F. (2011). Data Mining
darah potensial menurut golongan darah dan Concepts, Models and Techniques. Verlag
menurut rhesus. Berlin Heidelrbeg: Springer.
2. Membandingkan algoritma maupuan dataset [13] Institut Tekhnologi Sepuluh November. (28
yang terpilih menggunakan algoritma yang November 2014). Open Content. 18
lainnya agar dapat diketahui algoritma yang January 2015
terbaik untuk memprediksi pendonor darah http://oc.its.ac.id/ambilfile.php?idp=77
potensial. [14] Jain, T.R & Aggarwal, S.C . (2010).
3. Penelitian ini dapat dikembangkan dengan Statistics for BBA. New Delhi: VK Indiana
melakukan optimasi pada variabel dengan Enterprises.
menggunakan feature selection sehingga [15] Jeffheaton. (2008, September 14). The
dapat menentukan variabel yang paling Number Of Hidden Layers. Retrieved
berpengaruh terhadap akurasi hasil. December 18, 2014, From
Http://Www.Heatonresearch.Com/:
4. DAFTAR PUSTAKA Http://Www.Heatonresearch.Com/Node/707
[1] Abidin, T. F., & Subianto, M. (2015). [16] Kementrian Kesehatan Republik Indonesia.
Http://Www.Informatika.Unsyiah.Ac.Id/. (24 Juni 2014).
Retrieved 12 5, 2014, From Darah Untuk Menyelamatkan Ibu. 6
Http://Www.Informatika.Unsyiah.Ac.Id/: Desember 2014:
Http://Www.Informatika.Unsyiah.Ac.Id/Tfa/D http://www.depkes.go.id/article/print/201406
m/Dm-Praktikum-Naive-Bayesian.Pdf 250001/darahuntukmenyelamatkanibu.html
[2] Akthar, F., & Hahne , C. (2012). RapidMiner [17] Kusrini, & Luthfi, E. T. (2009). Algoritma
5 Operator Reference. Dortmund: Rapid-I Data Mining. Yogyakarta: Andi Offset.
GmbH.

[18] Maimon, O., & Rokach, L. (2010). Data Hipertensi pada Responden Obes Usia
Mining and Knowledge Discovery Dewasa di Indonesia. Maj Kedokt Indon,
Handbook. New York: Springer. 406-412.
[19] Melati, E., Passarella, R., Primartha, R., & [28] Sudarma, M. (2008). Serologi Untuk
Murdiansyah, A. (2011). Desain dan Kesehatan. Jakarta: Salemba Medika.
Pembuatan Alat Pendeteksi Golongan [29] Udau, U. (2013). Pemahaman Orang Tua
Darah Menggunakan Mikrokontroler. Jurnal Tentang Gender dalam Menerapkan Pola
Generic, 48-54. Asuk Kepada Anak Remaja di Desa Long
[20] Moniaga, V., Pangemanan, D., & Payau. eJournal sosiatri, 72-84.
Rampengan, J. (2013). Pengaruh Senam [30] Wadud , M. (2012). Hubungan Umur dan
Bugar Lansia Terhadap Tekanan Darah Pekerjaan Ibu Dengan Kejadian
Penderita Hipertensi Di BPLU Senja Cerah Hyperemesis Gravidarum di Instalasi
Paniki Bawah. Jurnal e-Biomedik (eBM), Kebidanan Rumah Sakit Muhammadiyah
785-789. Kota Palembang Tahun 2012. S. 1-16.
[21] Nofiansyah, & Rochmawati, D. H. (2014). [31] Widyasih, E., Mubin, M., & Hidyati, E.
Hubungan Antara Golongan Darah Dengan (2014). Persepsi Masyarakat Terhadap
Perilaku Kekerasan pada Pasien Gangguan Pelayanan BPJS Di RSI Kendal. Prosiding
Jiwa di Rumah Sakit Jiwa Daerah Dr. Konferensi Nasional II PPNI Jawa Tengah
Amino Gondohutomo Semarang. Prosiding 2014, (S. 274-279).
Konferensi Nasional II PPNI Jawa Tengah [32] Witten, I. H., Frank, E., & Hall, M. A.
2014, 213-221. (2011).Data Mining: Practical Machine
[22] Nugroho, W. (2006). Komunikasi Dalam Learning and Tools. Burlington: Morgan
Keperawatan Gerontik. Jakarta: EGC. Kaufmann Publisher.
[23] Nurfajar, L. (24. Januari 2015).Personal [33] Yuniar, R. J., Rahadi S, D., & Setyawati, O.
Interview. (2013). Perbaikan Metode Prakiraan Cuaca
[24] Prasetyo, E. (2012). Data Mining Konsep Bandara Abdulrahman Saleh dengan
dan Aplikasi Menggunakan Matlab. Algoritma Neural Network Backpropagation.
Yogyakarta: Andi Offset. Jurnal EECCIS, 65-70.
[25] Pusat Data dan informasi Kementrian [34] Yunus, M., Dahlan, H. S., & Santoso , P. B.
Kesehatan RI. (2014). Situasi Donor Darah (2014). SPK Pemilihan Calon Pendonor
di Indonesia. Jakarta Selatan: Pusat Data Darah Potensial dengan Algoritma C4.5
dan informasi Kementrian Kesehatan RI. dan Fuzzy Tahani. Jurnal EECCIS, 47-54.
[26] Siang, J. J. (2009). Jaringan Syaraf Tiruan [35] Zailani, A. U. (2014). Pengujian Model
& Pemrogramannya menggunakan Matlab. Neural Network Berbasis Particle Swarm
Yogyakarta: Andi Offset. Optimization Untuk Prediksi Penyakit
[27] Sihombing, M. (2010). Hubungan Perilaku Kanker Payudara. Pamulang:
Merokok, Konsumsi Makanan/Minuman, Http://Www.Unpam.Ac.Id/.
dan Aktivitas Fisik dengan Penyakit

Komparasi Algoritma Neural Network, K-Nearest Neighbor Dan Naive Baiyes Untuk Memprediksi Pendonor Darah Potensial Wahyu Eko Susanto Dwiza Riana

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Komparasi Algoritma Neural Network, K-Nearest Neighbor Dan Naive Baiyes Untuk Memprediksi Pendonor Darah Potensial Wahyu Eko Susanto Dwiza Riana

Uploaded by

Copyright:

Available Formats

Journal Speed – Sentra Penelitian Engineering dan Edukasi – Volume 8 No 3 - 2016 speed.web.

Komparasi Algoritma Neural Network, K-Nearest Neighbor Dan Naive Baiyes

1. PENDAHULUAN Unit Donor Darah (UDD) menjadi rendah (Pusat

ISSN : 1979-9330 (Print) - 2088-0154 (Online) - 2088-0162 (CDROM) 18

digunakan adalah RFMTC (Recency, kepada pasien untuk tujuan penyembuhan

Rumus untuk menghitung kedekatan antara

ISSN : 1979-9330 (Print) - 2088-0154 (Online) - 2088-0162 (CDROM) 20

ISSN : 1979-9330 (Print) - 2088-0154 (Online) - 2088-0162 (CDROM) 21

ISSN : 1979-9330 (Print) - 2088-0154 (Online) - 2088-0162 (CDROM) 22

klasifikasi pendonor darah potensial dengan Tabel 6. Komparasi nilai ROC

ISSN : 1979-9330 (Print) - 2088-0154 (Online) - 2088-0162 (CDROM) 26

ISSN : 1979-9330 (Print) - 2088-0154 (Online) - 2088-0162 (CDROM) 27

You might also like