You are on page 1of 29

Bayesian Decision Theory

Konsep Klasifikasi
• Klasifikasi merupakan suatu pekerjaan yang melakukan penilaian
terhadap suatu obyek data untuk masuk dalam suatu kelas tertentu
dari sejumlah kelas yang tersedia.

• Ada dua pekerjaan utama:


– Pembangunan model sebagai prototype untuk disimpan sebagai
memori
– Menggunakan model tersebut untuk melakukan
pengenalan/klasifikasi/prediksi pada suatu obyek data lain masuk pada
kelas mana

• Contoh aplikasi:
– Klasifikasi pengenalan jenis hewan spesies baru.
– Diagnosis penyakir pasien
– Pengenalan jenis bunga
– Pemeriksaan kualitas bunga kamboja (bahan teh)
– Absensi karyawan (dengan sidik jari, mata, wajah, tangan, dsb.)

2
Model
• Klasifikasi merupakan pekerjaan yang melakukan pelatihan/pembelajaran
terhadap fungsi target f yang memetakan setiap set atribut (fitur) x ke satu dari
sejumlah label kelas y yang tersedia.
– Akan menghasilkan suatu model yang kemudian disimpan sebagai memori.

• Model dalam klasifikasi sama artinya dengan black box


– Ada suatu model yang menerima masukan kemudian mampu melakukan pemikiran
terhadap masukan dan memberikan jawaban sebagai keluaran dari hasil pemikirannya.

• Pembangunan model selama proses pelatihan menggunakan algoritma


pelatihan (learning algorithm)
Masukan Algoritma
Data Latih (x,y) Pelatihan

Pembangunan
Model

Masukan Keluaran
Penerapan Model
Data Uji (x,?) Data Uji (x,y)
3
Algoritma Klasifikasi
• Dibagi menjadi dua macam: eager learner dan lazy learner.

• Eager learner
– Didesain untuk melakukan pembacaan/ pelatihan/ pembelajaran
pada data latih untuk dapat memetakan dengan benar setiap
vektor masukan ke label kelas keluarannya.
– Model (berupa bobot / sejumlah nilai kuantitas tertentu) disimpan
sebagai memori, sedangkan semua data latihnya dibuang.
– Prediksi dilakukan menggunakan model yang tersimpan, tidak
melibat data uji sama sekali
• Trade-off:
– Proses prediksi berjalan dengan cepat
– Proses pelatihan lama
• Contoh: Artificial Neural Network (ANN), Support Vector
Machine (SVM), Decision Tree, Bayesian, dan sebagainya.

4
Algoritma Klasifikasi
• Lazy learner
– Hanya sedikit melakukan pelatihan (bahkan tidak sama
sekali)
– Hanya menyimpan sebagian atau seluruh data latih,
kemudian menggunakan data latih tersebut ketika proses
prediksi.
• Trade-off
– Proses prediksi menjadi lama karena model harus
membaca kembali semua data latihnya untuk dapat
memberikan keluaran label kelas dengan benar pada data
uji yang diberikan.
– Proses pelatihan berjalan dengan cepat
• Contoh: K-Nearest Neighbor (K-NN), Fuzzy K-Nearest
Neighbor (FK-NN), Regresi Linear, dan sebagainya.

5
Pengukuran Kinerja Klasifikasi
• Kinerja prediksi suatu sistem tidak bisa bekerja 100% benar.
• Untuk sebuah sistem klasifikasi harus diukur kinerjanya.
– Menggunakan matrik confusion (confusion matrix).
• Matrik confusion: tabel yang mencatat hasil kerja klasifikasi
• Jumlah data dari masing-masing kelas yang diprediksi secara
benar adalah (f11 + f00), dan data yang diprediksi secara salah
adalah (f10 + f01)
• Pengukuran akhir: akurasi dan laju error
Kelas hasil prediksi (j)
fij C = confusionmat(group,grouphat)
Kelas = 1 Kelas = 0
Kelas Kelas = 1 f11 f10
asli (i) Kelas = 0 f01 f00
Jumlah data yang diprediksi secara benar f11  f 00
Akurasi  
Jumlah prediksi yang dilakukan f11  f10  f 01  f 00

Jumlah data yang diprediksi secara salah f10  f 01


Laju error  
Jumlah prediksi yang dilakukan f11  f10  f 01  f 00 6
Naive Bayes Classifier
• Teknik prediksi berbasis probabilistik sederhana yang berdasar
pada penerapan teorema Bayes
– Asumsi independensi (ketidaktergantungan) yang kuat (naif).
– Model yang digunakan adalah “model fitur independen”

• Independensi yang kuat pada fitur adalah bahwa sebuah fitur pada
sebuah data tidak ada kaitannya dengan adanya atau tidak
adanya fitur yang lain dalam data yang sama.

• Contoh: Kasus : prediksi hujan


– Hujan tergantung angin, cuaca kemarin, kelembaba udara (tidak ada
kaitan satu sama lain)
– Tapi juga tidak boleh memasukkan fitur lain yang tidak ada
hubungannya dengan hujan, seperti: gempa bumi, kebakaran, dsb.

7
Prosedur Keputusan Bayes
• Prosedur dan pengambilan keputusan

Observables Features Inner belief Action


subjects
X x w a

X --- semua data observasi menggunakan sensors dan instruments yang tersedia
x --- merupakan himpunan fitur yang dipilih dari komponen X, atau fungsi linier dari X.
w --- adalah inner belief/perception tentang subject dari kelas/group/kategori.
a --- adalah aksi/keputusan yang kita ambil untuk x.

Dari prosedur tersebut didapatkan definisi dari 3 ruang vektor sebagai berikut:
x  d , w  C , α  α

x  ( x1 , x2 ,..., xd ) adalah vector dan d menyatakan banyak fitur


w adalah index kelas , C  {w1 , w2 ,..., wk } dan C menyatakan banyak kelas
Contoh

Diagnosis Medis Klasifikasi Ikan


X= semua hasil test medis, citra hasil scan X=I adalah Image/ citra ikan,
x =(blood pressure, glucose level, cough, x- x =(brightness, length, fin, ….)
ray….)
w merupakan tingkat kepercayaan kita
w merupakan tipe sakit yang diderita bahwa tipe ikan tersebut adalah
c={“Flu”, “cold”, “TB”, “pneumonia”, “lung c={“sea bass”, “salmon”, “trout”,
cancer”…} …}
a merupakan keputusan tipe ikan,
a merupakan keputusan untuk penanganan pada kasus ini c= a
yang diberikan pada pasien,
a ={“sea bass”, “salmon”, “trout”,
a ={“Tylenol”, “Hospitalize”, …} …}
Fokus Metode

Observables Features Inner belief Decision


subjects
X x w a

selecting
control statistical risk/cost
Informative
sensors inference minimization
features

• Pada teori keputusan Bayes, kita perhatikan tiga


langkah terakhir yang mengasumsikan bahwa
observasi telah dilakukan dan fitur telah dipilih
sebelumnya.
Teori Keputusan Bayes
Features statistical Inner belief risk/cost Decision
x Inference p(w|x) minimization a(x)

Two probability tables: A risk/cost function


a). Prior p(w) (is a two-way table)
b). Likelihood p(x|w) l(a | w)

Tingkat kepercayaan terhadap class w dihitung menggunakan


aturan Bayes : p( x | w) p( w)
p( w | x) 
p ( x)

Tingkat resiko dihitung dengan :


k
R(a i | x)   l (a i | w j )p(w j | x)
j1
Teori Keputusan Bayes
• Kita mendefiniskan fitur untuk setiap objek
dengan : P(x| w1) & P(x| w2) : class-specific
density (Probabilitas kodisional objek (x)
terhadap kelas (wj) / Likelihood)
• Aturan Bayes:
Aturan Keputusan
• Aturan keputusan merupakan fungsi mapping dari ruang fitur ke
himpunan keputusan yang akan diambil a (x) : d  a

• Keputusan yang acak (random) tidak akan optimal


• Keputusan yang dibuat berdasarkan fungsi yang meminimalkan
resiko / average cost
R   R(a ( x) | x) p( x) dx

• Fungsi tersebut akan minimal ketika keputusan yang kita ambil


dibuat untuk meminimalkan cost /resiko untuk setiap instance/data x
k
a ( x)  arg min R(a | x)  arg min  l (a | w j ) p(w j | x)
a a j 1
Bayessian Error
• Pada kasus khusus, seperti klasifikasi ikan, aksi yang diambil adalah
klasifikasi yang diasumsikan eror : 0/1 l (a i | w j )  0 if a i  w j
l (a i | w j )  1 if a i  w j

• Resiko klasifikasi x ke class ai adalah,


R(a i | x)  a p(w
wj
j | x)  1  p(a i | x)
i

• Keputusan optimal adalah memilih class yang memiliki probabilitas


posterior maximum a ( x)  arg min (1  p(a | x))  arg max p(a | x)
a a

• Total resiko untuk aturan keputusan (Bayesian error)

R  p(error )   p(error | x) p( x)dx   (1  p(a ( x) | x)) p( x)dx


Fase Data Training (contoh 1)
• Contoh Dataset (Smurf or Troll) :
(Misal hanya menggunakan 1 fitur, yaitu “Height”)  menggunakan
konsep univariate normal distribution.
Height Creature
2.70” Smurf
2.52” Smurf
2.57” Smurf
2.22” Smurf
3.16” Troll
3.58” Troll
3.16” Troll

• Jika Height = 2” , tentukan kelas Creaturenya !


Fase Data Training
• Contoh Dataset (Smurf or Troll) :
(Misal hanya menggunakan 1 fitur, yaitu “Height”)  menggunakan
konsep univariate normal distribution.
Langkah-langkah penyelesaian :
1. Menghitung STD dari trolls dan smurfs.
Fase Data Training
• Contoh Dataset (Smurf or Troll) :
(Misal hanya menggunakan 1 fitur, yaitu “Height”)  menggunakan
konsep univariate normal distribution.
Langkah-langkah penyelesaian :
2. Menghitung Prob. Likelihood dari trolls dan smurfs.
Fase Data Training
• Contoh Dataset (Smurf or Troll) :
(Misal hanya menggunakan 1 fitur, yaitu “Height”)  menggunakan
konsep univariate normal distribution.
Langkah-langkah penyelesaian :
3. Menghitung Prob. Prior dari trolls dan smurfs.

4. Sehingga didapatkan Prob. Posterior berikut :

dan
Jika P(smurf | 2”) > P(troll | 2”) maka Height = 2” masuk kelas Smurf.
Dan sebaliknya.
Fase Data Training (Contoh 2)
• Jika fiturnya lebih dari satu, maka gunakan :
– Distribusi Normal multivariate (Data Kontinyu) :
Contoh :
Curvature Diameter Quality Control Result
2.95 6.63 Passed
2.53 7.79 Passed
3.57 5.65 Passed
3.57 5.45 Passed
3.16 4.46 Not passed
2.58 6.22 Not passed
2.16 3.52 Not passed

Jika diketahui “Curvatur Chip Ring = 2.81” dan “Diameter Chip


Ring = 5.46” maka, Tentukan kelas Quality Control Result-nya?
Fase Data Training
• Jika fiturnya lebih dari satu, maka gunakan :
– Distribusi Normal multivariate (Data Kontinyu) :
Fase Training :

X = features (variables independent)


Y = Kelas/ Group (variables dependent)

1. Labeling Dataset : 2. Memisahkan x berdasarkan group :


Fase Data Training
• Jika fiturnya lebih dari satu, maka gunakan :
– Distribusi Normal multivariate (Data Kontinyu) :
Fase Training :

X = features (variables independent)


Y = Kelas/ Group (variables dependent)

4. Hitung x i (Mean Corrected) :


3. Hitung μi = mean features dari 0
group i dan μ = mean global (xi minus mean global)
Fase Data Training
• Jika fiturnya lebih dari satu, maka gunakan :
– Distribusi Normal multivariate (Data Kontinyu) :
Fase Training :
5. Hitung matrik Kovarian group i
Fase Data Training
• Jika fiturnya lebih dari satu, maka gunakan :
– Distribusi Normal multivariate (Data Kontinyu) :
Fase Training :
6. Hitung Likelihood dari Curvatur = 2.81” dan “Diameter = 5.46” :

Sehingga didapat nilai p(2.81,5.46 | Passed) dan p(2.81,5.46 | Not_passed)


Fase Data Training
• Jika fiturnya lebih dari satu, maka gunakan :
– Distribusi Normal multivariate (Data Kontinyu) :
Fase Training :
7. Jadi Prob. Posterior Curvatur = 2.81” dan “Diameter = 5.46” adalah sbb :
Probabilitas Prior : p(Passed) = 4/7 dan p(Not_passed) = 3/7

p(2.81,5.46 | Passed ) p( Passed )


p( Passed | 2.81,5.46) 
p(2.81,5.46)
p(2.81, 5.46 | Not _ passed)p(Not _ Passed)
p(Not _ passed | 2.81,5.46) =
p(2.81, 5.46)
Jika p(Passed | 2.81,5.46) > p(Not_passed | 2.81,5.46) , maka
Curvatur = 2.81” dan “Diameter = 5.46” masuk kelas “Passed”. Dan
sebaliknya.
Latihan 1
• Perhatikan grafik distribusi pada proses klasifikasi ikan Sea Bass (ω2) dan ikan Salmon (ω1). A1 :
Memberikan hasil keputusan bahwa ikan yang diuji coba adalah termasuk kelas ikan Sea Bass.
A2 : Memberikan hasil keputusan bahwa ikan yang diuji coba adalah termasuk kelas ikan Salmon.
Probabilitas Prior ikan Sea Bass dan Salmon masing-masing P(ω2) = 2/3 dan P(ω1) = 1/3.
• Biaya/Cost jika hasil klasifikasinya adalah ikan salmon, tapi sebenarnya ikan tersebut adalah ikan
sea bass sebesar λ(A2 | ω2) = $2, dan Biaya jika hasil klasifikasinya adalah ikan Sea Bass, tapi
sebenarnya ikan tersebut adalah Salmon sebesar λ(A1 | ω1) = $1.
• Tentukan hasil keputusan klasifikasi jika input x = 13, dimana probabilitas likelihoodnya masing-
masing P(x | ω1) = 0,28 dan P(x | ω2) = 0,17 dengan pertimbangan Cost/ Resiko yang ada !

• Penyelesaian :
• Diketahui :
ω1  Kelas Salmon
ω2  Kelas Sea Bass
A1  Decide Input is Sea Bass
A2  Decide Input is Salmon
λ(A2 | ω2) = $2 dan λ(A1 | ω1) = $1

l ( Ai | w j )  0 satuan biaya jika Ai  w j (mengarah pada kelas yang sama)


l ( Ai | w j )  0 satuan biaya jika Ai  w j (mengarah pada kelas yang berbeda)
Latihan 1 (Cont.)
• (Menghitung
Jawab : Probabilitas Posterior ) (Menghitung Risk/Cost)
2
P( x w1 ) P(w1 ) R ( Ai x)   l( A w )P (w j x)
P(w1 x)  j 1
i j
P( x)
(0,28)(1 / 3) ( 2  menyatakanbanyaknya kelas)

P( x w1 ) P(w1 )  P( x w2 ) P(w2 ) R( A2 x)  l ( A2 w1 ) P(w1 x)  l ( A2 w2 ) P(w2 x)

(0,28)(1 / 3)  (($ 0)(0,4479))  (($ 2)(0,5521))
(( 0,28)(1 / 3))  (( 0,17)( 2 / 3))
 $0  $1,1042  $1,1042
0,0924 0,0924
   0,4479
0,0924  0,1139 0,2063
R( A1 x)  l ( A1 w1 ) P(w1 x)  l ( A1 w2 ) P(w2 x)

P( x w2 ) P(w2 )  (($ 1)(0,4479))  (($ 0)(0,5521))


P(w2 x) 
P( x)  $0,4479  $0  $0,4479
(0,17)( 2 / 3)
 Keputusan dilihat dari nilai :
P( x w1 ) P(w1 )  P( x w2 ) P(w2 )
a ( x)  arg min R( Ai x)
(0,17)( 2 / 3)
 Melihat nilai biaya resiko dari
(( 0,28)(1 / 3))  (( 0,17)( 2 / 3))
R(A1 | x) < R(A2 | x) , maka x = 13
0,1139 0,1139
   0,5521 masuk kelas Sea Bass.
0,0924  0,1139 0,2063
Latihan Individu
• Perhatikan Dataset berikut :

No Diameter Kelas
1 2.5 Pen
2 2.3 Pensil
3 2.7 Pen
4 1.6 Pen
5 1.1 Pensil

ω1  Kelas Pen
ω2  Kelas Pensil
A1  Decide Input is Pensil
A2  Decide Input is Pen
λ(A2 | ω2) = Rp 40000 dan λ(A1 | ω1) = Rp 15000

Jika Diameter = 2.1, Tentukan kelasnya dengan mempertimbangan


Cost/ Resiko yang ada !
(Gunakan fungsi pdf untuk menghitung likelihoodnya)
Tugas Kelompok
• Perhatikan Dataset berikut :

Jika Height = 2.90”, Tentukan kelas Creaturenya !


• Buatlah 1 soal cerita beserta jawaban, sesuaikan konsepnya
dengan contoh yang ada di Latihan 1. Topiknya buat se-unik
mungkin sesuai dengan kreatifitas kelompok anda !
Selesai

You might also like