You are on page 1of 7

Dokumen

Dok 1
Dok 2
Dok 3
Dok 4

Fitur (Kemunculan)
rakyat (2), aturan (3), subsidi (2)
pemerintah (3), bbm (2), korupsi (4)
rakyat (1), aturan (2), korupsi (3)
pemerintah (2), rakyat (1), bbm (2)

Kelas
Positif
Negatif
?
?

a. Term documents matrix


aturan korupsi Subsidi rakyat Pemerintah Bbm
3
0
2
2
0
0
0
4
0
0
3
2
2
3
0
1
0
0
0
0
0
1
2
2

Dok 1
Dok 2
Dok 3
Dok 4

b. Model Probabilistik awal


=

+ 1
+ ||

: nilai kemunculan kata pada kata


: jumlah keseluruhan kata pada kategori

||: jumlah keseluruhan kata/fitur yang digunakan


=


||

: jumlah dokumen yang memiliki kategori


||

: jumlah seluruh training dokumen

Model probabilistik awal yang terbentuk (Menggunakan Nave bayes


classifier) adalah sebagai berikut :
Kelas

P (Ci)

Positif
Negatif

/2

P (Wkj|Ci)
aturan Korupsi subsidi Rakyat pemerintah
4
1
3
3
1
/13
/13
/13
/13
/13
1
5
1
1
4
/15
/15
/15
/15
/15

c. Expectation Step
d

p( | )=

j
p k=1
p( | )

||
=1

dj

k=1 p( | )

p : probabilitas kemunculan kejadian kelas


p(positif|dok 3) = (p(positif) x (p rakyat|positif) x

Bbm
1
/13
3
/15

(aturan|positif)

p(korupsi|positif))

((p(positif)

p(rakyat|positif) x p(aturan|positif) x p(korupsi|positif)) +


(p(negatif)

p(rakyat|negatif)

p(aturan|negatif)

p(korupsi|negatif)))
= (1/2 x 3/13 x 4/13 x 1/3 ) : ((1/2 x 3/13 x 4/13 x 1/13 ) + (1/2 x 1/15
x 1/15 x 5/15 ))
= (12/4394) : ((12/4394) + (5/6750))
= 0,0027 : (0,0027 + 0,0027)
= 0,0027 : 0,0034
0,7941
p(negatif|dok 3) = (p((negatif) x (p rakyat | negatif) x
p(aturan|negatif) x p(korupsi| negatif)) : ((p(positif) x
p(rakyat| positif) x p(aturan|posif) x p(korupsi|positif)) +
(p(negatif) x p(rakyat| negatif) x p(aturan|negatif) x
p(korupsi|negatif)))
= (1/2 x 1/15 x 1/15 x 5/15 ) : ((1/2 x 3/13 x 4/13 x 1/13 ) + (1/2 x 1/15
x 1/15 x 5/15 ))
= (5/6750) : ((12/4394) + (5/6750))
= 0,0007 : (0,0027 + 0,0007)
= 0,0007 : 0,0034
= 0,2058
Karena P (negatif|dok 3) > (Pnegatif|dok 3) maka kelas
perkiraan untuk dok 3 adalah positif.
d. Maximization Step.
| =

1+
+

=1 ,

=1 =1 ,

( | )
( | )

, : jumlah kata wk pada dokumen dj


Karena nilai +

=1

=1

, ( | ) akan selalu sama

untuk setiap perhitungan, maka nilainya dihitung terlebih dahulu,


sebagai pengganti akan diberi nama f(p). karena masih terdapat
beberapa

probabilitas

yang

memiliki

nilai

yaitu

p(negatif|dokumen1) dan p(positif|dokumen2) serta terdapat

beberapa kata yang nilai kemunculannya nol pada beberapa dokumen


seperti korupsi, pemerintah dan bbm pada dokumen1, aturan, subsidi
dan rakyat pada dokumen2, aturan, korupsi dan subsidi pada dokumen3,
sehingga f(p) dapat dituliskan sebagai berikut:
f(p) = 6 + (N p(aturan|dok 1) p(positif|dok 1) +
N p(aturan|dok 3) p(positif|dok 3) +
N p(subsidi|dok 1) p(positif|dok 1) +
N p(rakyat|dok 1) p(positif|dok 1) +
N p(rakyat|dok 3) p(positif|dok 3) +
N p(korupsi|dok 3) p(positif|dok 3) +
N p(aturan|dok 3) p(negatif|dok 3) +
N p(bbm|dok 2) p(negatif|dok 2) +
N p(rakyat|dok 3) p(negatif|dok 3) +
N p(pemerintah|dok 2) p(negatif|dok 2) +
N p(korupsi|dok 3) p(negatif|dok 3) +
N p(korupsi|dok 2) p(negatif|dok 2))
= 6 + 3 x 1 + 2 x 0,794 + 2 x 1 + 2 x 1 + 1 x 0,794 + 3 x 0,794 + 2 x
0,205 +
2 x 1 + 1 x 0,205 + 3 x 1 + 3 x 0,205 + 4 x 1
= 6 + 3 + 1,588 + 2 + 2 + 0,794 + 2,382 + 0,41 + 2 + 0,205 + 3 + 0,615
+4
= 27,994
p(aturan|positif) = (1 + N (aturan, dok 1) p(positif|dok 1) +
N(aturan, dok 2) p(positif|dok 2) +
N(aturan, dok 3) p(positif|dok 3)) : f(p)
= (1 + 3 x 1 + 0 x 0 + 2 x 0,794) : 27,994
= (1 + 3 + 0 1, 588) : 27,994
= 5,588 : 27,994
= 0,199
p(aturan|negatif) = (1 + N (aturan, dok 1) p(negatif|dok 1) +
N (aturan, dok 2) p(negatif|dok 2) +

N (aturan, dok 3) p(negatif|dok 3) ) : f(p)


= (1 + 3 x 0 + 0 x 1 + 2 x 0,205) : 27,994
= (1 + 0 + 0 + 0,41) : 27,994
= 1,041 : 27,994
= 0,050
p(korupsi|positif) = (1 + N (korupsi, dok 1) p(positif|dok 1)
+
N(korupsi, dok 2) p(positif|dok 2) +
N(korupsi, dok 3) p(positif|dok 3)) : f(p)
= (1 + 0 x 1 + 4 x 0 + 3 x 0,794) : 27,994
= (1 + 0 x 0 + 2,382) : 27,994
= 0,120
p(korupsi|negatif) = (1 + N (korupsi, dok 1) p(negatif|dok 1)
+
N (korupsi, dok 2) p(negatif|dok 2) +
N (korupsi, dok 3) p(negatif|dok 3) ) : f(p)
= (1 + 3 x 0 + 4 x 1 + 3 x 0,205) : 27,994
= (1 + 0 + 4 + 0,615) : 27,994
= 0,2
p(subsidi|positif) = (1 + N (subsidi, dok 1) p(positif|dok 1)
+
N(subsidi, dok 2) p(positif|dok 2) +
N(subsidi, dok 3) p(positif|dok 3)) : f(p)
= (1 + 2 x 1 + 0 x 0 + 0 x 0,794) : 27,994
= (1 + 2 + 0 + 0) : 27,994
= 0,107
p(subsidi|negatif) = (1 + N (subsidi, dok 1) p(negatif|dok 1)
+
N (subsidi, dok 2) p(negatif|dok 2) +
N (subsidi, dok 3) p(negatif|dok 3) ) : f(p)
= (1 + 2 x 0 + 0 x 1 + 0 x 0,205) : 27,994
= (1 + 0 + 0 + 0) : 27,994

= 0,035
p(rakyat|positif) = (1 + N (rakyat, dok 1) p(positif|dok 1) +
N(rakyat, dok 2) p(positif|dok 2) +
N(rakyat, dok 3) p(positif|dok 3)) : f(p)
= (1 + 2 x 1 + 0 x 0 + 1 x 0,794) : 27,994
= (1 + 2 + 0 + 0,794) : 27,994
= 0,135
p(rakyat|negatif) = (1 + N (rakyat, dok 1) p(negatif|dok 1) +
N (rakyat, dok 2) p(negatif|dok 2) +
N (rakyat, dok 3) p(negatif|dok 3) ) : f(p)
= (1 + 2 x 0 + 0 x 1 + 1 x 0,205) : 27,994
= (1 + 0 + 0 + 0,205) : 27,994
= 0,043
p(pemerintah|positif) = (1 + N (pemerintah, dok 1)
p(positif|dok 1) +
N(pemerintah, dok 2) p(positif|dok 2) +
N(pemerintah, dok 3) p(positif|dok 3)) : f(p)
= (1 + 0 x 1 + 3 x 0 + 0 x 0,794) : 27,994
= (1 + 0 + 0 + 0) : 27,994
=0,035
p(pemerintah|negatif) = (1 + N (pemerintah, dok 1)
p(negatif|dok 1) +
N (pemerintah, dok 2) p(negatif|dok 2) +
N (pemerintah, dok 3) p(negatif|dok 3) ) : f(p)
= (1 + 0 x 0 + 3 x 1 + 0 x 0,205) : 27,994
= (1 + 0 + 3 + 0) : 27,994
= 0,142
p(bbm|positif) = (1 + N (bbm, dok 1) p(positif|dok 1) +
N(bbm, dok 2) p(positif|dok 2) +
N(bbm, dok 3) p(positif|dok 3)) : f(p)
= (1 + 0 x 1 + 2 x 0 + 0 x 0,794) : 27,994
= (1 + 0 + 0 + 0) : 27,994

= 0,035
p(bbm|negatif) = (1 + N (bbm, dok 1) p(negatif|dok 1) +
N (bbm, dok 2) p(negatif|dok 2) +
N (bbm, dok 3) p(negatif|dok 3) ) : f(p)
= (1 + 0 x 0 + 2 x 1 + 0 x 0,205) : 27,994
= (1 + 0 + 2 + 0) : 27,994
= 0,107
p(positif) = (1 + p (positif|dok 1) + p (positif|dok 2) +
p (positif|dok 3)) : (2+3)
= (1 + 1 + 0 + 0,794) : 5
= 2,794 : 5
= 0,558
p(negatif) = (1 + p (negatif|dok 1) + p (negatif|dok 2) +
p (negatif|dok 3)) : (2+3)
= (1 + 0 + 1 + 0,205) : 5
= 2,205 : 5
= 0,441
e. Langkah selanjutnya untuk menyelesaikan maximization step adalah
meng-update nilai probabilitas untuk setiap kategori yang ada:
=

||
=1 ( | )

1+

+ ||

|C| adalah jumlah semua kategori


|D| adalah jumlah seluruh training dokumen
Model probabilistik setelah maximaization step.
Kelas

P (Ci)

Positif
Negatif

0,558
0,441

P (Wkj|Ci)
aturan korupsi Subsidi rakyat pemerintah
0,199 0,120
0,107 0,135
0,035
0,050
0,2
0,035 0,043
0,142

bbm
0,035
0,107

Proses expectation step dan maximization step dilakukan dalam


beberapa iterasi sehingga peubahan nilai probabilitas p wkj ci

dan

p(ci ) tidak melebihi batas yang telahditentukan dari iterasi sebelumnya.


Namun pada contoh ini expectation step dan maximization step hanya

dilakukan dalam satu kali iterasi, sehingga langkah selanjutnya


penentuan kategori untuk dokumen 4:
arg max
= c C
p wkj ci x p(ci )
i
k

p(positif|dok 4) = p(positif) x p(pemerintah|positif) x


p(rakyat|positif) x p(bbm|positif)
= 0,558 x 0,035 x 0,135 x 0,035
= 9,2 x 10-5
p(negatif|dok 4) = p(negatif) x p(pemerintah| negatif) x
p(rakyat| negatif) x p(bbm| negatif)
= 0,441 x 0,142 x 0.043 x 0,107
= 2,8 x 10-4
Karena p(positif|dok 4) < p(negatif|dok 4) sehingga kelas dok
4 adalah negatif.

You might also like