You are on page 1of 17

TUGAS MATAKULIAH

MANAJEMEN METODOLOGI PENELITIAN


DOSEN PENGAMPU : DR. R.Z. ABDUL AZIZ

DISUSUN OLEH :

DALIMAN

PROGRAM PASCA SARJANA MAGISTER TEKNIK


INFORMATIKA
INSTITUT INFORMATIKA & BISNIS DARMAJAYA
BANDAR LAMPUNG
2017
IDENTITAS JURNAL

1. Identifikasi Jurnal

PREDICTIVE ANALYSIS OF DISEASE USING A-


Judul
PRIORI AND K- MEAN TECHNIQUE
Volume 4 Halaman

Tahun 2016
Supriya1, Asst. Prof. Manoj Kumar Singh2
Penulis 1M.Tech (CSE)1, HOD (CSE)2
BM Group Of Institutions,Gurgaon
Reviewer Daliman
Tanggal Review 22 April 2017
REVIEW JURNAL

ANALISIS PREDIKTIF PENYAKIT MENGGUNAKAN TEKNIK A-


PRIORI AND K-MEAN

Supriya1, Asst. Prof. Manoj Kumar Singh2


1M.Tech (CSE)1, HOD (CSE)2
BM Group Of Institutions,Gurgaon

Reviewer

Daliman

ABSTRAK

Prognostikasi / prediksi penyakit adalah salah satu masalah


terpenting yang kita hadapi saat ini. Sejumlah besar pasien
berjuang untuk melakukan pemeriksaan mereka bahkan jika
menyangkut prediktif penyakit seperti kemungkinan serangan
jantung, kerusakan ginjal dan bahkan kemungkinan masalah
paru-paru. Ini memotivasi kita untuk mengembangkan algoritma
hibrid yang menggunakan K-means dan A-priori untuk data
mining ke dalam data dengan jumlah besar dan mengekstrak
informasi yang dapat dikonversi menjadi pengetahuan yang
berguna dan secara keseluruhan untuk memprediksi
kemungkinan penyakit yang diderita pasien menggunakan
konsol. Konsol ini dikembangkan dengan kedua algoritma
tersebut dan bekerja di belakang layar. Makalah penelitian ini
terutama difokuskan pada prediksi penyakit paru paru dan
jantung. Hasil percobaan akan menunjukkan bahwa banyak rule
untuk membantu prediksi penyakit paru dan jantung dengan
cara yang terbaik, bahkan membantu dokter dalam pengambilan
keputusan dalam mendiagnosa penyakit pasien.

Keyword : Data mining, Penyakit paru-paru, penyakit jantung,


algoritma A-priori and K-means.
1. PENDAHULUAN

Penyakit jantung dan paru-paru adalah salah satu penyebab


utama kematian di seluruh dunia dan sebagian besar karena
kurangnya sistem prediksi penyakit yang baik. Saat ini dokter
membuat prediksi penyakit berdasarkan pembelajaran dan
pengalaman mereka dari sejarah. Masalahnya dimulai di sini
karena kecerdasan manusia itu sendiri tidak dapat membuat
prediksi yang efektif setiap saat dan rentan terhadap
kesalahan, yang mungkin fatal bagi pasien. Teknologi
database mulai berkembang dan ini menghasilkan
ketersediaan data medis dalam jumlah besar mengenai
pasien dan penyakit mereka. Data mining dapat diterapkan
pada catatan ini untuk mendapatkan informasi yang berguna
untuk prediksi penyakit. Dengan demikian, model prediksi
yang efisien terdiri dari metode data mining: K-means
clustering dan A-priori dikembangkan di sini untuk
memprediksi penyakit tersebut. Dengan algoritma
pembelajaran dan algoritma data mining yang bekerja di
back-end mesin ini, konsol dibuat yang membantu
memprediksi penyakit berdasarkan informasi yang
dimasukkan oleh dokter atau pasien yang juga dapat
menggunakannya bahkan jika tidak ada dokter.

Penemuan pengetahuan dalam database adalah proses yang


terdefinisi dengan baik yang memiliki beberapa tahap dimana
atribut data mining menjadi langkah inti. Data mining
menghasilkan penemuan informasi tersembunyi dan berguna
dari database raksasa melalui penggunaan perspektif yang
berbeda. Informasi ini membantu dalam memberikan layanan
berkualitas kepada pasien yaitu pasien dapat didiagnosis
dengan benar dan perawatan yang efektif dapat diberikan
kepada mereka.

Rekaman jutaan pasien dapat disimpan, teknik digitalisasi dan


teknik data mining dapat diterapkan pada mereka untuk
menjawab banyak pertanyaan penting dan penting yang
berkaitan dengan perawatan kesehatan. Dengan
menggunakan hibrida algoritma k-means dan algoritma A-
priori, kita dapat menemukan keadaan paru-paru dan jantung
dan dengan demikian dapat memprediksi pada tahap apa
penyakit tersebut dan bahkan bisa memberikan saran kepada
dokter & pasien, tentang obat-obatan atau perawatan yang
efektif digunakan. Hal Ini tentunya terbukti lebih efisien
daripada menggunakan algoritma tunggal untuk menemukan
informasi yang berguna.

Clustering adalah pendekatan data mining yang


mengelompokkan satu set objek nonfiguratif ke dalam kelas
objek analog. Salah satu metode clustering yang utama
adalah metode clustering K-means dimana masing-masing
cluster ditandai dengan nilai mean dari objek dalam cluster.
Pendekatan lain adalah menemukan set istilah berulang dari
dataset transaksi dan mendapatkan peraturan asosiasi.
Menemukan istilah yang berulang tidak sepele karena ledakan
kombinatorialnya. Setelah set istilah berulang diperoleh,
biasanya langsung untuk menghasilkan aturan asosiasi yang
memiliki kepercayaan lebih tinggi daripada atau sama dengan
keyakinan minimum yang ditentukan pengguna.

2. LATAR BELAKANG

Organisasi kesehatan dunia [1] mempresentasikan sepuluh


penyebab utama kematian oleh broad income group 2008.

Liao, S-C mempresentasikan sebuah teori bahwa data


kategoris bagus untuk teknik klasifikasi data mining (seperti
klasifikasi kelompok penyakit dan non-penyakit) dan relatif
mudah digunakan untuk mengekstrak pengetahuan medis.

S. Vijiyarani [6] mempresentasikan prediksi berbagai jenis


penyakit. Makalah ini mengulas makalah penelitian, yang
terutama berkonsentrasi pada memprediksi penyakit jantung,
Diabetes dan Kanker Payudara.

My Chau Tu [7] mengatakan bahwa diagnosis penyakit jantung


adalah isu penting, mendorong banyak peneliti untuk
mengembangkan sistem pendukung keputusan medis cerdas
untuk meningkatkan kemampuan dokter.
M.Akhil Jabbar [8] mempresentasikan hasil eksperimen, yang
menunjukkan bahwa sebagian besar aturan klasifikasi
membantu prediksi penyakit jantung terbaik, yang bahkan
membantu dokter dalam keputusan diagnostik mereka.

N. Aditya Sundar [9] mempresentasikan alat pelatihan untuk


melatih perawat dan mahasiswa kedokteran untuk
mendiagnosa pasien penyakit jantung. Itu adalah sistem yang
mudah digunakan dan bisa digunakan di rumah sakit jika
mereka memiliki bank data untuk rumah sakit mereka.

C Y Hsu [10] mempresentasikan beberapa penelitian yang


menentukan bagaimana risiko gagal ginjal akut yang didapat
di rumah sakit bervariasi dengan tingkat perkiraan laju filtrasi
glomerulus.

Mohammed Abdul Khaleel [11] mempresentasikan sebuah


metodologi untuk menemukan penyakit yang sering terjadi di
daerah dengan bantuan teknik pengumpulan data A-priori.

Chris Ding [12] menyajikan titik data Pemetaan ke ruang


dimensi yang lebih tinggi melalui kernel dan menunjukkan
bahwa Kernel PCA memberikan solusi untuk Kernel K-means.
Saat belajar, hasilnya menunjukkan teknik yang efektif untuk
pengelompokan K-means.

K.R. Lakshmi [13] mengatakan bahwa diagnosis penyakit


jantung adalah tugas yang signifikan dan membosankan
dalam pengobatan. Studi ini menjelaskan diskusi algoritmik
dataset penyakit jantung dari database Penyakit Jantung
Cleveland, pada gudang data besar. Ini menunjukkan hasil
yang lebih baik pada klasifikasi gen berbasis fungsional dan
struktural.

3. PENGGUNAAN ALGORITMA

Algoritma k-means:

Stuart Lloyd mengusulkan algoritma ini pada tahun 1957


sebagai teknik untuk modulasi kode pulsa. K-means adalah
algoritma pembelajaran tanpa pengawasan yang
memecahkan masalah pengelompokan. Prosedurnya
sederhana dan mudah dengan cara mengklasifikasikan
kumpulan data tertentu melalui kelompok k (asumsi) tertentu,
yang diperbaiki untuk memulai. Algoritma ini terdiri dari
langkah-langkah berikut:
Tempatkan K ke dalam ruang yang dicirikan oleh benda-
benda yang sedang dikelompokkan. Poin ini mewakili
centroid kelompok awal dan didefinisikan dengan cara
yang cerdik (lebih baik ditempatkan jauh sekali) karena
lokasi yang berbeda menyebabkan hasil yang berbeda.
Tetapkan setiap objek ke grup yang memiliki centroid
terdekat.
Bila semua benda telah ditetapkan, hitung ulang posisi
senar K.
Ulangi Langkah 2 dan 3 sampai sentroid tidak lagi
bergerak. Ini menghasilkan pemisahan objek ke dalam
kelompok yang metriknya diminimalkan dapat dihitung.
Algoritma ini bertujuan untuk meminimalkan fungsi
objektif; Dalam hal ini fungsi error kuadrat. Fungsi
objektifnya adalah: jarak titik data n dari cluster center
masing-maSING

A-priori adalah algoritma yang diajukan oleh R. Agrawal dan R


Srikant [15] untuk istilah frequent mining yang sering
digunakan untuk aturan asosiasi Boolean. Pembentukan
aturan Asosiasi Proses Umum biasanya dibagi menjadi dua
tahap:

Pertama, dukungan minimum diterapkan untuk


menemukan semua kumpulan item yang sering ada dalam
database.
Kedua, kumpulan item yang sering ini dan batasan
kepercayaan minimum digunakan untuk membentuk
peraturan.

Langkah pertama membutuhkan perhatian lebih karena kedua


hal ini relatif mudah. Menemukan semua rangkaian item yang
sering ada dalam database sulit dilakukan karena melibatkan
pencarian semua item set yang mungkin dikombinasikan
(kombinasi item).
Rangkaian set item yang mungkin adalah set daya di atas 1
dan memiliki ukuran 2n-1 (tidak termasuk kumpulan
himpunan kosong yang bukan merupakan rangkaian item
yang valid ) . Meski ukuran power set tumbuh secara
eksponensial dalam jumlah item n di 1, efisien
Pencarian dimungkinkan dengan menggunakan properti
dukungan turun ke bawah (juga disebut anti monotonisitas)
yang menjamin bahwa untuk rangkaian yang sering muncul,
semua subsetnya juga sering dan dengan demikian untuk
item yang jarang, semua supersetsnya juga harus jarang
terjadi. Memanfaatkan properti ini, Apriori bisa menemukan
semua item set yang paling sering ada / muncul.

Adapun pseudo codenya sebagai berikut :


Apriori(T,minSupport) // T adalah database and minSupport
adalah minimal support

{
L1= {frequent items}; for (k= 2; Lk-1!=0; k++)
{
Ck= candidates generated from Lk-1
for each transaction t in database do
{
Ck that are
contained in t
Lk= candidates in Ck with minSupport
}
}
return Uk Lk;
}

Seperti yang umum dalam aturan asosiasi data mining ,


dengan serangkaian himpunan item (misalnya, rangkaian
transaksi ritel, setiap daftar item individual yang dibeli),
algoritma mencoba untuk menemukan sub kumpulan yang
umum untuk setidaknya jumlah minimum C dari kumpulan
item. Apriori menggunakan pendekatan "bottom up", di mana
sub set yang sering diperpanjang satu item pada satu waktu
(sebuah langkah yang dikenal sebagai generasi kandidat), dan
kelompok kandidat diuji terhadap data tersebut. Algoritma
berakhir saat tidak ada ekstensi sukses lebih lanjut yang akan
ditemukan. Apriori menggunakan pencarian pertama dan
struktur pohon untuk menghitung kumpulan kandidat secara
efisien. Ini menghasilkan rangkaian barang kandidat dengan
panjang k dari kumpulan item dengan panjang k - 1.
Kemudian dipangkas kandidat yang memiliki pola sub yang
jarang. kumpulan kandidat berisi semua rangkaian item k-
panjang set yang sering muncul.

Setelah itu, itu memindai Database transaksi untuk


menentukan kumpulan item yang sering di antara kandidat
yang ada. Generasi kandidat menghasilkan sejumlah besar
himpunan bagian (algoritma mencoba memuat daftar
kandidat sebanyak mungkin sebelum setiap pemindaian).
Eksplorasi sub set bottom-up (pada dasarnya merupakan
traversal pertama dari kisi subset) untuk menemukan subset
maksimal S hanya setelah semua 2 | S | - 1 dari subset yang
tepat

4. LANGKAH KERJA

4.1 Pengumpulan data medicine


4.2 Data preprocessing
4.3 Cluster data dengan k-mean
4.4 Pengaplikasian A-Priori dan menemukan frequency
item set
4.5 Pengesetan asosiasi rule
4.6 Menampilkan result dan konsol

Penjelasan :

a. Data pre processing

Awalnya data pre - processing dilakukan pada data obat


untuk mengurangi atribut yang kita butuhkan juga dikenal
sebagai dimensi reduksi dataset.

b. Cluster data dengan K-Mean


Selanjutnya masing-masing atribut diberi tanda secara
individual dengan sentralitas, frekuensi dan inisiasi inti
cluster klasik kedalam algoritma pengelompokan K-means
yang mengelompokkan informasi umpan ke jenis yang
sama berdasarkan atribut / faktor mana yang dikategorikan
rendah, menengah dan tinggi. Kemudian kategori ini
dijadikan sebagai sub atribut

c. Pengaplikasian apriori

Semua atribut dan sub atribut sekarang digunakan dalam


tabel transaksi sebagai kolom dan transaksi sebagai baris
& kolom masing-masing atribut ditandai dengan 1 atau 0
berdasarkan item yang dimiliki atau tidak. Transaksi tabel
ini yang sebenarnya merupakan matriks sekarang
diumpankan ke algoritma A-priori yang menemukan
rangkaian item yang sering terjadi dan dengan demikian
ambang batasnya.

d. Pengesetan asosiasi rule :

Urutan item yang sering ini kemudian membantu dalam


menghasilkan peraturan dan prosedur asosiasi adalah:
- Untuk setiap frequent itemset "1", buat semua
himpunan bagian yang tidak kosong dari 1.
- For every nonempty subset s of l, output the rule
s (l-s) if support_count(l) / support_count(s) >=
min_conf where min_conf is minimum confidence
threshold

e. Prediksi

Akhirnya kami memprediksi tingkat risiko di dalam konsol,


yang sulit dikodekan dengan kedua algoritma yang bekerja
di dalamnya. Tingkat risiko dipilih baik rendah, atau sedang
atau tinggi dan beberapa obat dan saran dapat diberikan
sesuai dengan itu. Model kami akhirnya diuji dengan 100
laporan dan 86 di antaranya terbukti benar yang
mengevaluasi 86% keputusan yang benar, yang memang
sangat menarik untuk model hibrida kami.
5. KESIMPULAN

Dalam tulisan ini, kami telah menghadirkan Sistem Diagnostik


Penyakit Jantung dan Paru dengan menggunakan teknik data
mining. Pengelompokan pertama dilakukan dengan algoritma
k-means clustering. Algoritma a-priori kemudian digunakan
untuk menemukan rangkaian item yang sering.
Mendefinisikan cluster dan kemudian menggunakan A-priori
pada mereka meningkatkan akurasi prediksi penyakit dan
mengurangi biaya diagnosis. Ini memberi pengguna atau
pasien konsol untuk memantau laporan mereka sendiri. Hal ini
juga mampu memberikan saran untuk obat jika ditemukan
masalah dan juga dapat menyarankan konsultasi dokter
dalam situasi kritis

6. HASIL DAN DISKUSI

Menggunakan K-means dan Apriori Data untuk prediksi


penyakit jantung dikumpulkan dari berbagai rumah sakit
perusahaan dan pendapat dari dokter ahli.

Atribut yang dipilih untuk tes fungsi ginjal adalah usia,


tekanan darah, PCR, ACR, GFR. Sedangkan Atribut yang dipilih
untuk penyakit jantung adalah Umur, nyeri dada, tekanan
darah, kolesterol, tiroid, tingkat stress. Ini dipilih karena kita
diwajibkan untuk menemukan berbagai tahap penyakit. Ginjal
pun terbagi menjadi dua tahap kondisi yaitu normal, dan
rusak yang Artinya ginjal berfungsi dengan baik atau tidak.
Demikian pula dengan penyakit jantung, stadium penyakit
jantung berisiko rendah, risiko sedang dan stadium berisiko
tinggi. Untuk ini dalam jurnal ini Algoritma yang digunakan
adalah K-means dan Apriori.

Dengan menggunakan kedua algoritma ini kita dapat


menemukan cara yang efisien untuk mengetahui stadium di
mana penyakit itu ada.

Model Simulasi
Gambar 1 tampilan GUI untuk prediksi penyakit dengan mean
algoritma clustering & apriori

Gambar 2- Hasil Fungsi Ginjal


Gambar 3: Uji Penyakit Jantung

Gambar 4: Uji Fungsi Ginjal & Uji Penyakit Jantung

Table Data testing dari simulasi


Hasil di atas menunjukkan akurasi yang baik untuk
mendeteksi penyakit jantung. Probabilitas mendeteksi penyakit
sesuai dengan laporan aktual
P(e) = N (e) / N (s) = 5/7 = 71. Dalam hal persentase 71%
yang sangat menarik untuk model kita.

7. RUANG LINGKUP PENGEMBANGAN UNTUK MASA DEPAN

Lebih banyak laporan dapat diberikan untuk memperbaiki


keakuratan algoritma sebagai algoritma pembelajaran mesin
belajar lebih banyak bila diberi lebih banyak contoh (kasus di
sini). Penggabungan teknik optimasi lebih lanjut dapat
meningkatkan akurasi dari dua buah algoritma yang
digabungkan ini. Sebagian besar penduduk membutuhkan
dokter. Tapi kekurangan mereka adalah menciptakan sebuah
konsol yang bisa memainkan peran penting sebagai dokter
untuk memudahkan pengguna dalam memprediksi kondisi
jantung dan paru-paru sendiri meskipun mereka berada di
lokasi terpencil dan sulit bagi mereka untuk menghubungi
dokter secara teratur. Dengan demikian akan lebih murah dan
menghemat waktu jika terintegrasi ke portal web.

8. CATATAN REVIEWER
Ada beberapa catatan review tentang jurnal
a. Tema yang diangkat tentang jurnal sangat sesuai dengan
isu yang ada di masyarakat tentang prediksi penyakit.
b. Terdapat ketidak konsistensian Dalam jurnal yang tertulis.
pada abstrak penulis ingin mengupas tentang jantung dan
paru-paru tapi pada bagian simulasi ternyata data yang
dipaparkan adalah hasil simulasi pengetesan penyakit
jantung dan ginjal. Artinya ada ketidak konsistenan pada
bagian abstrak, dan pendahuluan dengan hasil, diskusi dan
kesimpulan.
DAFTAR PUSTAKA

[1]Jyoti Soni, Sunitha Soni. Predictive data Mining for Medical


Diagnosis: An Overview of Heart Disease Prediction; International
Journal of Computer Applications(0975-8887) Volume 17-No.8,
March 2011.

[2]Fariba Shadabi, Dharmendra Sharma, Artificial Intelligence and


Data Mining Techniques in Medicine - Success Stories,
International Conference on Bio - Medical Engineering &
Informatics, vol. 1, pp.235 - 239, 2008

[3] Bodon.F. A Fast A-priori Implementation, FIMI03, November


2003

[4] Liao, S.C. and I.N. Lee, Appropriate medical data


categorization for data mining classification techniques. MED.
INFORM., 2002. Vol. 27, no. 1, 59 67.

[5] S.Vijiyarani, Disease Prediction in Data Mining Techniqueijc


ait, Vol. II, Issue I, January 2013 (ISSN: 2278 - 7720)

[6] My Chau Tu, Dongil Shin, Dongkyoo Shin, Effective Diagnosis


of Heart Disease through Bagging Approach, 2nd International
Conference on Biomedical Engineering and Informatics, 2009.

[7] M.Akhil Jabbar, Heart Disease Prediction System using


Associative Classification and Genetic Algorithm. ICECIT, 2012.

[8] N. Aditya Sundar, Performance analysis of classification data


mining techniques over heart disease database, Volume-2, Issue-
3, 470 478.

[9]C Y Hsu, J D Ordonez. The risk of acute renal failure in patients


with chronic kidney disease. 2 April 2008

[10] Mohammed Abdul Khaleel, Sateesh Kumar Pradhan J Finding


Locally Frequent Diseases Using Modified A-priori Algorithm,
International Journal of Advanced Research in Computer and
Communication Engineering Vol. 2, Issue 10, October 2013.

[11] Chris Ding, Xiaofeng He,K-means Clustering via Principal


Component Analysis, Computational Research Division, Lawrence
Berkeley National Laboratory, Berkeley, CA 947208.
[12] K.R. Lakshmi, Performance Comparison of Data Mining
Techniques for Predicting of Heart Disease Survivability
.International Journal of Scientific and Research Publications,
Volume 3, Issue 6, June 2013.

[13] Lloyd, S. P. (1982). "Least squares quantization in PCM.IEEE


Transactions on Information Theory28 (2): 129 137.

[14] R. Agrawal and R. Srikant-Fast algorithms for mining


association rules. In 1994. pp. 487-49 VLDB'94, , Santiago, Chile,
Sept.1994. pp. 487-49

You might also like