Perhitungan Expectation Maximization

Dokumen
Dok 1
Dok 2
Dok 3
Dok 4
Fitur (Kemunculan)
rakyat (2), aturan (3), subsidi (2)
pemerintah (3), bbm (2), korupsi (4)
rakyat (1), aturan (2), korupsi (3)
pemerintah (2), rakyat (1), bbm (2)
Kelas
Positif
Negatif
?
?
a. Term documents matrix

aturan korupsi Subsidi rakyat Pemerintah Bbm
3
0
2
2
0
0
0
4
0
0
3
2
2
3
0
1
0
0
0
0
0
1
2
2
Dok 1
Dok 2
Dok 3
Dok 4
b. Model Probabilistik awal

=
+ 1
+ ||
: nilai kemunculan kata pada kata

: jumlah keseluruhan kata pada kategori
||: jumlah keseluruhan kata/fitur yang digunakan

=

||
: jumlah dokumen yang memiliki kategori

||
: jumlah seluruh training dokumen
Model probabilistik awal yang terbentuk (Menggunakan Nave bayes

classifier) adalah sebagai berikut :
Kelas
P (Ci)
Positif
Negatif
/2
P (Wkj|Ci)
aturan Korupsi subsidi Rakyat pemerintah
4
1
3
3
1
/13
/13
/13
/13
/13
1
5
1
1
4
/15
/15
/15
/15
/15
c. Expectation Step
d
p( | )=
j
p k=1
p( | )
||
=1
dj
k=1 p( | )
p : probabilitas kemunculan kejadian kelas

p(positif|dok 3) = (p(positif) x (p rakyat|positif) x
Bbm
1
/13
3
/15
(aturan|positif)
p(korupsi|positif))
((p(positif)
p(rakyat|positif) x p(aturan|positif) x p(korupsi|positif)) +

(p(negatif)
p(rakyat|negatif)
p(aturan|negatif)
p(korupsi|negatif)))
= (1/2 x 3/13 x 4/13 x 1/3 ) : ((1/2 x 3/13 x 4/13 x 1/13 ) + (1/2 x 1/15
x 1/15 x 5/15 ))
= (12/4394) : ((12/4394) + (5/6750))
= 0,0027 : (0,0027 + 0,0027)
= 0,0027 : 0,0034
0,7941
p(negatif|dok 3) = (p((negatif) x (p rakyat | negatif) x
p(aturan|negatif) x p(korupsi| negatif)) : ((p(positif) x
p(rakyat| positif) x p(aturan|posif) x p(korupsi|positif)) +
(p(negatif) x p(rakyat| negatif) x p(aturan|negatif) x
p(korupsi|negatif)))
= (1/2 x 1/15 x 1/15 x 5/15 ) : ((1/2 x 3/13 x 4/13 x 1/13 ) + (1/2 x 1/15
x 1/15 x 5/15 ))
= (5/6750) : ((12/4394) + (5/6750))
= 0,0007 : (0,0027 + 0,0007)
= 0,0007 : 0,0034
= 0,2058
Karena P (negatif|dok 3) > (Pnegatif|dok 3) maka kelas
perkiraan untuk dok 3 adalah positif.
d. Maximization Step.
| =
1+
+
=1 ,
=1 =1 ,
( | )
( | )
, : jumlah kata wk pada dokumen dj

Karena nilai +
=1
=1
, ( | ) akan selalu sama
untuk setiap perhitungan, maka nilainya dihitung terlebih dahulu,

sebagai pengganti akan diberi nama f(p). karena masih terdapat
beberapa
probabilitas
yang
memiliki
nilai
yaitu
p(negatif|dokumen1) dan p(positif|dokumen2) serta terdapat
beberapa kata yang nilai kemunculannya nol pada beberapa dokumen

seperti korupsi, pemerintah dan bbm pada dokumen1, aturan, subsidi
dan rakyat pada dokumen2, aturan, korupsi dan subsidi pada dokumen3,
sehingga f(p) dapat dituliskan sebagai berikut:
f(p) = 6 + (N p(aturan|dok 1) p(positif|dok 1) +
N p(aturan|dok 3) p(positif|dok 3) +
N p(subsidi|dok 1) p(positif|dok 1) +
N p(rakyat|dok 1) p(positif|dok 1) +
N p(rakyat|dok 3) p(positif|dok 3) +
N p(korupsi|dok 3) p(positif|dok 3) +
N p(aturan|dok 3) p(negatif|dok 3) +
N p(bbm|dok 2) p(negatif|dok 2) +
N p(rakyat|dok 3) p(negatif|dok 3) +
N p(pemerintah|dok 2) p(negatif|dok 2) +
N p(korupsi|dok 3) p(negatif|dok 3) +
N p(korupsi|dok 2) p(negatif|dok 2))
= 6 + 3 x 1 + 2 x 0,794 + 2 x 1 + 2 x 1 + 1 x 0,794 + 3 x 0,794 + 2 x
0,205 +
2 x 1 + 1 x 0,205 + 3 x 1 + 3 x 0,205 + 4 x 1
= 6 + 3 + 1,588 + 2 + 2 + 0,794 + 2,382 + 0,41 + 2 + 0,205 + 3 + 0,615
+4
= 27,994
p(aturan|positif) = (1 + N (aturan, dok 1) p(positif|dok 1) +
N(aturan, dok 2) p(positif|dok 2) +
N(aturan, dok 3) p(positif|dok 3)) : f(p)
= (1 + 3 x 1 + 0 x 0 + 2 x 0,794) : 27,994
= (1 + 3 + 0 1, 588) : 27,994
= 5,588 : 27,994
= 0,199
p(aturan|negatif) = (1 + N (aturan, dok 1) p(negatif|dok 1) +
N (aturan, dok 2) p(negatif|dok 2) +
N (aturan, dok 3) p(negatif|dok 3) ) : f(p)

= (1 + 3 x 0 + 0 x 1 + 2 x 0,205) : 27,994
= (1 + 0 + 0 + 0,41) : 27,994
= 1,041 : 27,994
= 0,050
p(korupsi|positif) = (1 + N (korupsi, dok 1) p(positif|dok 1)
+
N(korupsi, dok 2) p(positif|dok 2) +
N(korupsi, dok 3) p(positif|dok 3)) : f(p)
= (1 + 0 x 1 + 4 x 0 + 3 x 0,794) : 27,994
= (1 + 0 x 0 + 2,382) : 27,994
= 0,120
p(korupsi|negatif) = (1 + N (korupsi, dok 1) p(negatif|dok 1)
+
N (korupsi, dok 2) p(negatif|dok 2) +
N (korupsi, dok 3) p(negatif|dok 3) ) : f(p)
= (1 + 3 x 0 + 4 x 1 + 3 x 0,205) : 27,994
= (1 + 0 + 4 + 0,615) : 27,994
= 0,2
p(subsidi|positif) = (1 + N (subsidi, dok 1) p(positif|dok 1)
+
N(subsidi, dok 2) p(positif|dok 2) +
N(subsidi, dok 3) p(positif|dok 3)) : f(p)
= (1 + 2 x 1 + 0 x 0 + 0 x 0,794) : 27,994
= (1 + 2 + 0 + 0) : 27,994
= 0,107
p(subsidi|negatif) = (1 + N (subsidi, dok 1) p(negatif|dok 1)
+
N (subsidi, dok 2) p(negatif|dok 2) +
N (subsidi, dok 3) p(negatif|dok 3) ) : f(p)
= (1 + 2 x 0 + 0 x 1 + 0 x 0,205) : 27,994
= (1 + 0 + 0 + 0) : 27,994
= 0,035
p(rakyat|positif) = (1 + N (rakyat, dok 1) p(positif|dok 1) +
N(rakyat, dok 2) p(positif|dok 2) +
N(rakyat, dok 3) p(positif|dok 3)) : f(p)
= (1 + 2 x 1 + 0 x 0 + 1 x 0,794) : 27,994
= (1 + 2 + 0 + 0,794) : 27,994
= 0,135
p(rakyat|negatif) = (1 + N (rakyat, dok 1) p(negatif|dok 1) +
N (rakyat, dok 2) p(negatif|dok 2) +
N (rakyat, dok 3) p(negatif|dok 3) ) : f(p)
= (1 + 2 x 0 + 0 x 1 + 1 x 0,205) : 27,994
= (1 + 0 + 0 + 0,205) : 27,994
= 0,043
p(pemerintah|positif) = (1 + N (pemerintah, dok 1)
p(positif|dok 1) +
N(pemerintah, dok 2) p(positif|dok 2) +
N(pemerintah, dok 3) p(positif|dok 3)) : f(p)
= (1 + 0 x 1 + 3 x 0 + 0 x 0,794) : 27,994
= (1 + 0 + 0 + 0) : 27,994
=0,035
p(pemerintah|negatif) = (1 + N (pemerintah, dok 1)
p(negatif|dok 1) +
N (pemerintah, dok 2) p(negatif|dok 2) +
N (pemerintah, dok 3) p(negatif|dok 3) ) : f(p)
= (1 + 0 x 0 + 3 x 1 + 0 x 0,205) : 27,994
= (1 + 0 + 3 + 0) : 27,994
= 0,142
p(bbm|positif) = (1 + N (bbm, dok 1) p(positif|dok 1) +
N(bbm, dok 2) p(positif|dok 2) +
N(bbm, dok 3) p(positif|dok 3)) : f(p)
= (1 + 0 x 1 + 2 x 0 + 0 x 0,794) : 27,994
= (1 + 0 + 0 + 0) : 27,994
= 0,035
p(bbm|negatif) = (1 + N (bbm, dok 1) p(negatif|dok 1) +
N (bbm, dok 2) p(negatif|dok 2) +
N (bbm, dok 3) p(negatif|dok 3) ) : f(p)
= (1 + 0 x 0 + 2 x 1 + 0 x 0,205) : 27,994
= (1 + 0 + 2 + 0) : 27,994
= 0,107
p(positif) = (1 + p (positif|dok 1) + p (positif|dok 2) +
p (positif|dok 3)) : (2+3)
= (1 + 1 + 0 + 0,794) : 5
= 2,794 : 5
= 0,558
p(negatif) = (1 + p (negatif|dok 1) + p (negatif|dok 2) +
p (negatif|dok 3)) : (2+3)
= (1 + 0 + 1 + 0,205) : 5
= 2,205 : 5
= 0,441
e. Langkah selanjutnya untuk menyelesaikan maximization step adalah
meng-update nilai probabilitas untuk setiap kategori yang ada:
=
||
=1 ( | )
1+
+ ||
|C| adalah jumlah semua kategori

|D| adalah jumlah seluruh training dokumen
Model probabilistik setelah maximaization step.
Kelas
P (Ci)
Positif
Negatif
0,558
0,441
P (Wkj|Ci)
aturan korupsi Subsidi rakyat pemerintah
0,199 0,120
0,107 0,135
0,035
0,050
0,2
0,035 0,043
0,142
bbm
0,035
0,107
Proses expectation step dan maximization step dilakukan dalam

beberapa iterasi sehingga peubahan nilai probabilitas p wkj ci
dan
p(ci ) tidak melebihi batas yang telahditentukan dari iterasi sebelumnya.

Namun pada contoh ini expectation step dan maximization step hanya
dilakukan dalam satu kali iterasi, sehingga langkah selanjutnya

penentuan kategori untuk dokumen 4:
arg max
= c C
p wkj ci x p(ci )
i
k
p(positif|dok 4) = p(positif) x p(pemerintah|positif) x

p(rakyat|positif) x p(bbm|positif)
= 0,558 x 0,035 x 0,135 x 0,035
= 9,2 x 10-5
p(negatif|dok 4) = p(negatif) x p(pemerintah| negatif) x
p(rakyat| negatif) x p(bbm| negatif)
= 0,441 x 0,142 x 0.043 x 0,107
= 2,8 x 10-4
Karena p(positif|dok 4) < p(negatif|dok 4) sehingga kelas dok
4 adalah negatif.

Perhitungan Expectation Maximization

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Perhitungan Expectation Maximization

Uploaded by

Copyright:

Available Formats

Dokumen

a. Term documents matrix

b. Model Probabilistik awal

: nilai kemunculan kata pada kata

: jumlah keseluruhan kata pada kategori

||: jumlah keseluruhan kata/fitur yang digunakan

: jumlah dokumen yang memiliki kategori

: jumlah seluruh training dokumen

Model probabilistik awal yang terbentuk (Menggunakan Nave bayes

p : probabilitas kemunculan kejadian kelas

p(rakyat|positif) x p(aturan|positif) x p(korupsi|positif)) +

, : jumlah kata wk pada dokumen dj

, ( | ) akan selalu sama

untuk setiap perhitungan, maka nilainya dihitung terlebih dahulu,

p(negatif|dokumen1) dan p(positif|dokumen2) serta terdapat

beberapa kata yang nilai kemunculannya nol pada beberapa dokumen

N (aturan, dok 3) p(negatif|dok 3) ) : f(p)

|C| adalah jumlah semua kategori

Proses expectation step dan maximization step dilakukan dalam

p(ci ) tidak melebihi batas yang telahditentukan dari iterasi sebelumnya.

dilakukan dalam satu kali iterasi, sehingga langkah selanjutnya

p(positif|dok 4) = p(positif) x p(pemerintah|positif) x

You might also like