Professional Documents
Culture Documents
Achmad Basuki, Iwan Syarif Politeknik Elektronika Negeri Surabaya PENS-ITS 2003
Data
Decision Tree
Rule
Berat Kelamin
pria wanita
Hipertensi
underweight
tidak tidak tidak
ya
muda
Tidak
wanita muda Ya
tua tua
tua
pria
overweight Usia
muda Ya
tua
Ya/Tidak
ya R1:pria IF berat=average v berat=underweight THEN hipertensi=tidak pria tidak R2: IF berat=overweight^kelamin=wanita ya wanita THEN hipertensi=ya R3:pria IF berat=overweigt^kelamin=pria^ tidak usia=muda THEN hipertensi=ya R4: IF berat=overweigt^kelamin=pria^ usia=tua THEN hipertensi=tidak
Sample
attribut
Target atribut
Entropy
S adalah ruang (data) sample yang digunakan untuk training. P+ adalah jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu. P+ adalah jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria tertentu. Besarnya Entropy pada ruang sample S didefinisikan dengan:
Definisi Entropy
Entropy(S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin kecil nilai Entropy maka semakin baik untuk digunakan dalam mengekstraksi suatu kelas. Panjang kode untuk menyatakan informasi secara optimal adalah log2 p bits untuk messages yang mempunyai probabilitas p. Sehingga jumlah bit yang diperkiraank untuk mengekstraksi S ke dalam kelas adalah:
Hujan No
Berawan No
Disjunction v IF cuaca=hujan v cuaca=berawan THEN MainTenis=No Conjunction ^
Angin
Lambat Keras
Yes
No
Usia mempunyai instance: muda dan tua Berat badan mempunyai instance: underweight, average dan overweight Jenis kelamin mempunyai instance: pria dan wanita
Langkah Mengubah Data Menjadi Tree Menentukan Node Terpilih Menyusun Tree
Usia = muda
2 2 2 2 q2 = log 2 log 2 = 1 4 4 4 4
Entropy untuk Usia:
Entropy = 0.91
Entropy = 0.41
Entropy = 0.94
Terpilih atribut BERAT BADAN sebagai node awal karena memiliki entropy terkecil
Leaf Node berikutnya dapat dipilih pada bagian yang mempunyai nilai + dan -, pada contoh di atas hanya berat=overweight yang mempunyai nilai + dan maka semuanya pasti mempunya leaf node. Untuk menyusun leaf node lakukan satu-persatu.
Jumlah 1 0 2 1 0,69
Jumlah 2 1 1 0 0,69
Jenis Kelamin
wanita Rina (+) pria Ali (+) Budiman (-) Herman (+)
Leaf Node Usia dan Jenis Kelamin memiliki Entropy yang sama, sehingga tidak ada cara lain selain menggunakan pengetahuan pakar atau percaya saja pada hasil acak.
Hasil Tree
Berat
overweight average Tidak underweight Tidak
Jenis Kelamin
wanita Ya pria
Usia
muda Ya tua Ya/Tidak
Ali
Usia muda
Hipertensi ya tidak ya
Pada usia=tua ternyata ada 1 data menyatakan ya dan 1 data menyatakan tidak, keadaan ini perlu dicermati. Pilihan hanya dapat ditentukan dengan campur tangan seoranng pakar.
Jenis Kelamin
wanita Ya pria
Usia
muda Ya tua Tidak
R1: IF berat=average v berat=underweight THEN hipertensi=tidak R2: IF berat=overweight^kelamin=wanita THEN hipertensi=ya R3: IF berat=overweigt^kelamin=pria^ usia=muda THEN hipertensi=ya R4: IF berat=overweigt^kelamin=pria^ usia=tua THEN hipertensi=tidak
Kesalahan (e)
Distribusi Terpadu
Berat overweight overweight average average underweight underweight Hipertensi ya tidak ya tidak ya tidak Jumlah 3 1 0 2 0 2
average 0 2 2 average 0 8 8
underweight 0 2 2 underweight 0 8 8
Marginal 3 5 8 Marginal 12 20 32
Oij
12 4 16
Derajat Kebebasan adalah (jumlah baris-1)(jumlah kolom-1) = (2-1)(3-1) dan nilai tingkat kepercayaan =0.05 Nilai 2a yang didapat dari tabel distribusi chi-square adalah 6.27
overweight average 3 5 8
2
underweight 3 5 8
Marginal 12 20 32
eij
6 10 16
2 =
(o
ij
eij ) eij
i =1 j =1
(12 6 ) 2 ( 0 3) 2 ( 0 3) 2 ( 4 10 ) 2 (8 5 ) 2 (8 5 ) 2 = + + + + + 6 3 3 10 5 5 Karena nilai 2 > 2a maka kriteria berat ini = 19 .2 dependent, sehingga tidak bisa dihilangkan
Kesalahan (e)
Saran
Sebaiknya pelajari lagi Statistik untuk bisa benar-benar mendukung penguasaan ilmuilmu Data Mining, dan Decision Tree pada khususnya Lebih banyak mencoba dengan berbagai macam model data dan kasus Belajar dan belajar terus, karena ilmu tidak akan ada habisnya