You are on page 1of 21

ISS4003 – Data Mining

14 TB
Praktikum 5
NIM : 31S14010
Nama : Herti N Hutapea

Tabel 1. Training Data from an Employee Database


Department Status Age Salary Count
sales senior 31...35 46K...50K 30
sales junior 26...30 26K...30K 40
sales junior 31...35 31K...36K 40
systems junior 21...25 46K...50K 20
systems senior 31...35 66K...70K 5
systems junior 26...30 46K...50K 3
systems senior 41...45 66K...70K 3
marketing senior 36...40 46K...50K 10
marketing junior 31...35 41K...45K 4
secretary senior 46...50 36K...40K 4
secretary junior 26...30 26K...30K 6

1. Membangun model :
Class label : “status”
 Model Decision Tree

Gambar 1. Design Decision Tree-RapidMiner


Gambar 2. Result Decision Tree-RapidMiner
 Manual:

Gambar 3. Perhitungan secara manual untuk membangun model


Gambar 3. Perhitungan secara manual untuk membangun model (lanjutan)
Gambar 3. Perhitungan secara manual untuk membangun model (lanjutan)
Gambar 3. Perhitungan secara manual untuk membangun model (lanjutan)
Gambar 4. Result entropy dengan metode manual
Gambar 5. Perhitungan mencari nilai gain
Perhitungan nilai gain pada Gambar 5, diperoleh hasil nilai gain yang disajikan pada Tabel 2 dibawah
ini:

Tabel 2. Nilai gain


Department 0,001628
Ages 0,6304
Salary 0,6304
Counts 0,6304
Berdasarkan Tabel 2, diperoleh tiga nilai gain yang sama, yaitu “ages”,”salary”,”counts”,
maka dilakukan a refined measure for attribute selection, yaitu:

Gain( A)
GainRatio ( A )=
SplitInfo( A)
(1)

Dimana,
(2)
Berdasarkan persamaan 2, diperoleh nilai gain untuk
setiap atribut yang disajikan pada Tabel 3 dibawah
ini :
Tabel 3. Nilai SplitInfo
SplitInfo Nilai
Departemen 1,93626002
t 8
2,29989639
Age 1
2,36852252
Salary 8
2,91397707
Count 3

Menggunakan perhitungan manual mencari nilai gain akar pada Gambar 5, diperoleh nilai
Gain(A) yang disajikan pada Tabel 4.
Tabel 5. Nilai Gain(A)
Gain(A) Nilai
Departemen 0,01631316
t 6
0,63039384
Age 8
0,63039384
Salary 8
0,63039384
Count 8

Berdasarkan Tabel 5 dan dengan menggunakan persamaan 1 untuk memperoleh nilai Gain
ratio, maka diperoleh nilai Gain ratio yang disajikan pada Tabel 6.

Tabel 6. Nilai Gain ratio


Gain ratio Nilai
Departemen 0,00842509
t
0,27409662
Age 9
0,26615488
Salary 8
0,21633452
Count 6

Nilai Gain ratio paling tinggi diperoleh atribut “ages”. Dari kelas ”ages” temukan kembali
nilai entropy , gain, dan gain ratio. Berdasarkan Gambar 4, yaitu result entropy dengan
metode manual, maka untuk atribut “ages”, entropy yang memiliki nilai yaitu “31...35”
sebesar 1, selainnya bernilai 0. Maka, gunakan “31...35” untuk mencari kembali Gain
rationya. Hasil Gain ratio dapat dilihat pada tabel dibawah ini:

Tabel 7. Nilai“ages” pada “31...35” untuk semua kelas


Departeme
nt Status Age Salary Count
31… 46K…
Sales senior 35 50K 30
31… 31K…
Sales junior 35 35K 40
31… 66K…
Systems senior 35 70K 5
31… 41K…
Marketing junior 35 45K 4

Tabel 7 menunjukkan label class pada “ages”, terdapat dua senior dan dua junior untuk
“31...35”. Sehingga temukan kembali entropy untuk kelas “department”,”salary”, dan
“count”. Rumus untuk entropy terdapat pada Persamaan 3.

(3)
Menggunakan Persamaan 3, diperoleh nilai entropy akar pada Tabel 8.
Tabel 8. Nilai entropy
Atribut Entropy
Departmen
t
Sales 1
Systems 0
Marketing 0
Salary
46K...50K 0
31K...35K 0
66K...70K 0
41K...45K 0
Count 30 0
40 0
5 0
4 0

Gunakan Persamaan 4 untuk memperoleh nilai gain pada entropy diatas.

(4)

Tabel 9. Nilai gain


Departemen 0,5
Salary 1
Count 1

Dari Tabel 9, masih terdapat dua nilai gain yang sama, yaitu “salary”, dan “count”. Pilih
“salary” sebagai gain tertinggi. Tinjau nilai perhitungan entropy pada atribut “salary”,
kemudian diperoleh “46K...50K” yang memiliki dua senior dan dua junior. Namun pada
Tabel 7, diperoleh “46K...50K” merupakan “senior”. Dengan demikian diperoleh decision
tree yang disajikan pada Gambar 6.

Tabel 10. Nilai perhitungan entropy atribut “salary”


Atribut Jumlah Senior Junior Entropy
kasus
Salary
46K...50K 4 2 2 1
26K...30K 2 0 2 0
31K...35K 1 0 1 0
66K...70K 2 2 0 0
41K...45K 1 0 1 0
36K...40K 1 1 0 0
Gambar 6. Decision Tree secara manual
2. Prediksi data dengan nilai “systems”, “26...30”, dan “46K...50K”. Berdasarkan Gambar
6, diperoleh status tiap atribut, yaitu:
 “systems” tidak ada pada cabang akar-akar “ages”, sehingga status-nya tidak ada.
 “26...30” memiliki status junior

 “46K...50K” memiliki status senior.

3. Naive Bayes dengan RapidMiner

Gambar 6. NaiveBayes dengan RapidMiner


Diperoleh distribution tabel seperti yang ada pada Gambar 7.

Gambar 7. Distribution table metode Naive Bayes


Gambar 7. Distribution table metode Naive Bayes (lanjutan)

 Tabel “department” :

Gambar 8. Klasifikasi NaiveBayes dengan RapidMiner kelas Department

 Tabel “age”:

Gambar 9. Klasifikasi NaiveBayes dengan RapidMiner kelas Ages


 Tabel “salary”:

Gambar 10 .Klasifikasi NaiveBayes dengan RapidMiner kelas Salary

 Tabel “count” :

Gambar 11. Klasifikasi NaiveBayes dengan RapidMiner kelas Count


Model dengan metode manual:

Gambar 12. Perhitungan manual untuk membangun Decision Tree


Gambar 12. Perhitungan manual untuk membangun Decision Tree (lanjutan)
Berdasarkan Gambar 11. diperoleh nilai setiap atribut yang disajikan pada tabel dan gambar
dibawah ini:

Tabel 11 . Nilai NaiveBayes dengan metode manual untuk kelas Department


Densitas
Department
Senior Junior
Sales 0,2 0,33
Systems 0,4 0,33
Marketing 0,2 0,16
Secretary 0,2 0,16

Berdasarkan Tabel 11 diplot gambar grafik seperti yang ada pada Gambar 13.

0.35

0.3

0.25

0.2
Densitas

0.15

0.1

0.05

0
30 40 20 5
Department

Gambar 13. Grafik klasifikasi NaiveBayes dengan metode manual untuk kelas Department

Tabel 11. Nilai NaiveBayes dengan metode manual untuk kelas Ages
Densitas
Age
Senior Junior
31...35 0,4 0,33
26...30 0 0,5
21...25 0 0,16
41...45 0,2 0
36...40 0,2 0
46...50 0,2 0

Berdasarkan Tabel 12 diplot gambar grafik seperti yang ada pada Gambar 14.
0.35

0.3

0.25

0.2
Densitas
0.15

0.1

0.05

0
30 40 20 5 3 10
Ages

Gambar 14. Grafik klasifikasi NaiveBayes dengan metode manual untuk kelas Ages

Tabel 12. Nilai NaiveBayes dengan metode manual untuk kelas Salary
Densitas
Salary
Senior Junior
46K...50K 0,4 0,33
26K...30K 0 0,33
31K...35K 0 0,16
66K...70K 0,4 0
41K...45K 0,2 0,16
36K...40K 0,2 0

Berdasarkan Tabel 13 diplot gambar grafik seperti yang ada pada Gambar 15.
0.35

0.3

0.25

0.2
Densitas

0.15

0.1

0.05

0
30 40 20 5 3 10
Salary

Gambar 15. Grafik klasifikasi NaiveBayes dengan metode manual untuk kelas Salary
Tabel 13 Nilai NaiveBayes dengan metode manual untuk kelas Count
Densitas
Count
Senior Junior
30 0,2 0
40 0 0,33
20 0 0,16
5 0,2 0
3 0,2 0,16
10 0,2 0
4 0,2 0,16
6 0,2 0

Berdasarkan Tabel 14 diplot gambar grafik seperti yang ada pada Gambar 16.

0.35

0.3

0.25

0.2
Densitas

0.15

0.1

0.05

0
30 40 20 5 3 10 4 6

Count

Gambar 16. Grafik klasifikasi NaiveBayes dengan metode manual untuk kelas Count

Kesimpulan:
Berdasarkan metode RapidMiner dan perhitungan manual, diperoleh klasifikasi
menggunakan metode Naive Bayes memiliki bentuk grafik yang sama.

You might also like