Professional Documents
Culture Documents
Evy Priyanti
Program Studi Komputerisasi Akuntansi
Akademik Manajemen Informatika dan Komputer Bina Sarana Informatika
Jl. Rs Fatmawati 24 Jakarta Selatan
http://www.bsi.ac.id
evy.evp@bsi.ac.id
Abstract - The classification depends on the variety Abstrak - Klasifikasi bakteri tergantung dari
of bacteria that exist. The important feature to varietas yang ada. Fitur penting untuk
identify an organism of bacterial phenotype is the mengidentifikasi suatu organisme dari bakteri
scheme that utilizes the morphology and staining adalah dengan skema fenotipe yang memanfaatkan
properties of the bacteria itself, to classify the morfologi dan pewarnaan sifat dari bakteri itu
phenotype scheme is used Naïve Bayes algorithm sendiri, untuk mengklasifikasikan skema fenotipe
that has proven to have a high degree of accuracy tersebut digunakanlah algoritma Naïve Bayes yang
and high rate of speed when applied into E.coli sudah terbukti memiliki tingkat akurasi dan tingkat
dataset in E. coli dataset consisting of seven kecepatan yang tinggi saat diaplikasikan kedalam
features are: mcg, gvh, lips, chg, aac, alm1, alm2, dataset E.coli Dalam dataset E.coli yang terdiri dari
and proteins are classified into 8 classes: tujuh fitur yaitu : mcg, gvh, bibir, chg, aac, alm1,
cytoplasmic (cp), an inner membrane without the alm2. Dan protein diklasifikasikan ke dalam 8
signal sequence (im), perisplasm (pp), in the kelas: sitoplasma (cp), membran dalam tanpa
membrane with uncleavable signal sequence (IMU), urutan sinyal (im), perisplasm (pp), dalam
outer membrane (oM), outer membrane lipoprotein membran dengan uncleavable sinyal urutan (IMU),
(OML), the membrane lipoprotein (IML), an inner luar membran (om), luar membran lipoprotein
membrane with cleavable signal sequence (IMS) (OML), dalam membran lipoprotein (IML),
with an accuracy of 80.93%, with Naïve Bayes membran dalam dengan cleavable urutan sinyal
algorithm so it can be ascertained that the (IMS) dengan tingkat akurasi sebesar 80.93%,
classification of gram-negative bacteria with E. coli dengan demikian algoritma Naïve Bayes sudah
phenotype datasets prove to be accurate. dapat dipastikan bahwa klasifikasi bakteri gram-
negatif dengan fenotipe dataset E.coli terbukti
Keyword : Bacteria Gram-Negative, Naïve Bayes, akurat.
Ecoli
Kata Kunci : Bakteri Gram-Negatif, Naïve Bayes,
Ecoli
I. PENDAHULUAN
Bakteri Gram-negatif merupakan bakteri yang ada gastrointestinal.Infeksi sekunder di rumah sakit
disekitar kita, sebagian merugikan dan sebagian biasanya akibat dari infeksi oleh bakteri Gram negatif.
bermafaat bagi kehidupan manusia. Berikut adalah beberapa contoh bakteri Gram negatif,
Berikut penjelasan bakteri Gram-Negatif menurut termasuk penjelasan singkat dari struktur, fungsi dan
Chatterjee dan Chaudhuri, Selama proses pewarnaan signifikansi medis.
Gram, bakteri Gram negatif tidak mempertahankan zat a. Salmonella
warna kristal violet. Bakteri gram negatif berwarna Salmonella adalah genus bakteri berbentuk
merah atau merah muda di bawah mikroskop, dengan batang.Mereka tidak membentuk spora enterobacteria
penambahan counter-noda. dengan flagela. Mereka mengoksidasi dan mengurangi
Mereka memiliki membran sitoplasma dan zat organik dan, dalam proses, menghasilkan hidrogen
membran luar yang mengandung lipopolisakarida. sulfida. Salmonella ditemukan di seluruh kerajaan
Selain itu, ada lapisan-S yang melekat pada membran hewan. Mereka biasanya hidup dalam saluran usus
luar. Lipopolisakarida yang di membran luar bakteri burung dan hewan lain dan dapat menyebar dari hewan
Gram negatif merupakan endotoksin, yang memicu ke manusia melalui konsumsi susu, telur, unggas dan
respons dari sistem kekebalan tubuh bawaan. daging sapi yang tercemar. Mual, muntah, diare dan
Peradangan adalah gejala umum dari infeksi dan dapat demam adalah gejala umum pada manusia yang
menyebabkan keracunan. terinfeksi Salmonella.
Bakteri gram negatif menyebabkan infeksi, seperti
kolera, tipus, meningitis dan berbagai macam kesesakan
e.Fase Evaluasi (Evaluation Phase) menentukan model dengan data yang tidak pasti dengan
f.Fase Penyebaran (Deployment Phase) tujuan dan hasil yang menarik dengan menggabungkan
pengetahuan dari hasil eksperimental dan bukti-bukti
c. Naïve bayes pengamatan.
Klasifikasi adalah salah satu tugas yang penting dalam
II. METODOLOGI PENELITIAN
data mining, dalam klasifikasi sebuah pengklasifikasi
Menurut Berson dan Smith metode Naive Bayes
dibuat dari sekumpulan data latih dengan kelas yang
merupakan metode yang digunakan memprediksi
telah di tentukan sebelumnya. Performa pengklasifikasi
probabilitas. sedangkan klasifikasi Bayes adalah
biasanya diukur dengan ketepatan (atau tingkat galat)
klasifikasi statistik yang dapat memprediksi kelas suatu
(Prasetyo, 2012).
anggota probabilitas. Untuk klasifikasi Bayes sederhana
Teorema Bayes adalah teorema yang digunakan dalam
yang lebih dikenal sebagai naïve Bayesian Classifier
statistika untuk menghitung peluang untuk suatu
dapat diasumsikan bahwa efek dari suatu nilai atribut
hipotesis, Bayes Optimal Classifier. Menghitung
sebuah kelas yang diberikan adalah bebas dari atribut-
peluang dari suatu kelas dari masing-masing kelompok
atribut lain. Naïve Bayes Classifier merupakan sebuah
atribut yang ada, dan menentukan kelas mana yang
metoda klasifikasi yang berakar pada teorema Bayes.
paling optimal. Umumnya kelompok atribut E
Ciri utama dari Naïve Bayes Classifier ini adalah
direpresentasikan dengan sekumpulan nilai atribut
asumsi yang sangat kuat (naif) akan independensi dari
(x1,x2,x3,….,xn) dimana xi adalah nilai atribut Xi. C
masing-masing kondisi/kejadian, dimana diasumsikan
adalah variable klasifikasi dan c adalah nilai dari C.
bahwa setiap atribut contoh (data sampel) bersifat saling
Pengklasifikasian adalah sebuah fungsi yang
lepas satu sama lain berdasarkan atribut kelas.
menugaskan data tertentu kedalam
sebuah kelas. Dari sudut pandang peluang, berdasarkan
Mulai
aturan Bayes kedalam kelas c adalah :
Atribut tunggal
Mendapatkan prediksi
Sumber : Kusrini & Luthfi, 2009 menggunakan nilai atribut
Gambar 2.3 Teorema Bayes tunggal didalam sebuah class
S emua nilai No
atribut
Sumber : Kusrini & Luthfi, 2009
tunggal
Gambar 1.4 Teorema Naive Bayes didapatkan?
µ =∑ 𝑥𝑖𝑛𝑖=1𝑛
atau
µ =𝑥1+ 𝑥2+ 𝑥3+ …+ 𝑥𝑛𝑛
di mana :
µ : rata – rata hitung (mean)
xi : nilai sample ke -i
n : jumlah sampel
Dan persamaan untuk menghitung nilai simpangan baku C (Posterior) adalah peluang munculnya kelas C
(standar deviasi) dapat (sebelum masuknya sampel tersebut, seringkali disebut
dilihat sebagai berikut: prior), dikali dengan peluang kemunculan karakteristik-
karakteristik sampel pada kelas C (disebut juga
𝜎 = v∑ (𝑥𝑖- µ)2𝑛𝑖=1𝑛 - 1 likelihood), dibagi dengan peluang kemunculan
di mana : karakteristik-karakteristik sampel secara global (disebut
s : standar deviasi juga evidence). Karena itu, rumus di atas dapat pula
xi ditulis secara sederhana sebagai berikut:
: nilai x ke -i
µ : rata-rata hitung 𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 = 𝑝𝑟𝑖𝑜𝑟 𝑥 𝑙𝑖𝑘𝑒𝑙𝑖h𝑜𝑜𝑑
n : jumlah sampel 𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒
b. Cari nilai probabilistik dengan cara menghitung Nilai Evidence selalu tetap untuk setiap kelas pada satu
jumlah data yang sesuai dari kategori yang sama sampel. Nilai dari posterior tersebut nantinya akan
dibagi dengan jumlah data pada kategori tersebut. dibandingkan dengan nilai-nilai posterior kelas lainnya
3. Mendapatkan nilai dalam tabel mean, standard untuk menentukan ke kelas apa suatu sampel akan
deviasi dan probabilitas. diklasifikasikan. Penjabaran lebih lanjut rumus Bayes
4. Solusi kemudian dihasilkan. tersebut dilakukan dengan menjabarkan (𝐶|𝐹1, … , 𝐹𝑛)
menggunakan aturan perkalian sebagai berikut:
Naive Bayes didasarkan pada asumsi
penyederhanaan bahwa nilai atribut secara kondisional
𝑃(𝐶|𝐹1, … , 𝐹𝑛= 𝑃(𝐶)𝑃(𝐹1, … , 𝐹𝑛|𝐶)
saling bebas jika diberikan nilai output. Dengan kata
= 𝑃(𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2, … , 𝐹𝑛|𝐶, 𝐹1)
lain, diberikan nilai output, probabilitas mengamati
= 𝑃(𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2|𝐶, 𝐹1)𝑃(𝐹3, … , 𝐹𝑛|𝐶, 𝐹1,𝐹2
secara bersama adalah produk dari probabilitas
= (𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2|𝐶, 𝐹1)𝑃(𝐹3|𝐶, 𝐹1,𝐹2)𝑃(𝐹4, … ,
individu. Keuntungan penggunaan Naive Bayes adalah
𝐹𝑛|𝐶, 𝐹1, 𝐹2, 𝐹3)
bahwa metode ini hanya membutuhkan jumlah data
pelatihan yang kecil untuk menentukan estimasi = 𝑃(𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2|𝐶, 𝐹1)𝑃(𝐹3|𝐶, 𝐹1,𝐹2)…𝑃(𝐹
paremeter yang diperlukan dalam proses 𝑛|𝐶, 𝐹1, 𝐹2, 𝐹3, … , 𝐹𝑛-1)
pengklasifikasian. Naive Bayes sering bekerja jauh Dapat dilihat bahwa hasil penjabaran tersebut
lebih baik dalam kebanyakan situasi dunia nyata yang menyebabkan semakin banyak dan semakin
kompleks dari pada yang diharapkan (Keogh, 2006). kompleksnya faktor-faktor syarat yang mempengaruhi
Persamaan dari teorema Bayes menurut Bustami nilai probabilitas, yang hampir mustahil untuk dianalisa
adalah : satu persatu. Akibatnya, perhitungan tersebut menjadi
sulit untuk dilakukan. Disinilah digunakan asumsi
independensi yang sangat tinggi (naif), bahwa masing-
𝑃(𝐻|𝑋) = 𝑃(𝑋|𝐻). 𝑃(𝐻) masing petunjuk (F1,F2...Fn) saling bebas (independen)
𝑃(𝑋) (1) satu sama lain. Dengan asumsi tersebut, maka berlaku
suatu kesamaan sebagai berikut:
Di mana :
X :Data dengan class yang belum diketahui 𝑃(𝐹𝑖|𝐹𝑗) =𝑃(𝐹𝑖∩ 𝐹𝑗)𝑃(𝐹𝑗)
H : Hipotesis data merupakan suatu class spesifik 𝑃(𝐹𝑗)
P(H|X) :Probabilitas hipotesis H berdasar kondisi X =𝑃(𝐹𝑖)𝑃(𝐹𝑗)
(posteriori probabilitas) 𝑃(𝐹𝑗)
P(H) : Probabilitas hipotesis H (prior probabilitas) = 𝑃(𝐹𝑖)
P(X|H) :Probabilitas X berdasarkan kondisi pada Untuk i≠j , sehingga
hipotesis H
P(X) : Probabilitas X 𝑃(𝐹𝑖|𝐶, 𝐹𝑗) = 𝑃(𝐹𝑖|𝐶)
tujuh fitur atau atribut sebagai berikut: mcg, gvh, lip, (om), luar membran lipoprotein (OML), dalam
chg, aac, alm1, alm2, dan protein diklasifikasikan ke membran lipoprotein (IML), membran dalam dengan
dalam 8 kelas: sitoplasma (cp), membran dalam tanpa cleavable urutan sinyal (IMS).
urutan sinyal (im), perisplasm (pp), dalam membran
dengan uncleavable sinyal urutan (IMU), luar membran
Pmcg (Yes)=4/336=0,0119048
P mcg (No)=332/336=0,9880952
Pgvc (Yes)=4/336=0,0119048
P gvc (No)=332/336= 0,9880952
P chg (Yes)=335/336=0,9970238
P chg (No)= 1/336=0,0029762
P alm1 (Yes)=5/336=0,014881
Gambar 4.1 nilai akurasi Naïve Bayes
P alm1 (No)= 331/336=0,9851
Gambar 4.1 menunjukkan nilai akurasi yang
P alm2 (Yes)=12/336 =0,0357143 dilakukan algoritma Naïve bayes untuk dataset Ecoli
P alm2 (No)= 324/336=0,9642857 dengan tujuh fitur atau atribut dalam delapan class.