Welcome to Scribd, the world's digital library. Read, publish, and share books and documents. See more
Download
Standard view
Full view
of .
Save to My Library
Look up keyword or section
Like this
29Activity

Table Of Contents

0 of .
Results for:
No results containing your search query
P. 1
an as Algoritma c4.5

an as Algoritma c4.5

Ratings: (0)|Views: 1,676 |Likes:
Published by ach_baihaqi

More info:

Published by: ach_baihaqi on Dec 09, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

07/19/2013

pdf

text

original

 
 PENGEMBANGAN SKALABILITASALGORITMA KLASIFIKASI C4.5DENGAN PENDEKATAN KONSEP OPERATOR RELASI(STUDI KASUS: PRA-PENGOLAHAN DAN KLASIFIKASICITRA BATIK)DISERTASI
Karya tulis sebagai salah satu syaratuntuk memperoleh gelar Doktor dariInstitut Teknologi Bandung
 
OlehVERONICA SRI MOERTININIM : 33503504(Program Studi Teknik Informatika)INSTITUT TEKNOLOGI BANDUNG2007
 
ABSTRAK PENGEMBANGAN SKALABILITASALGORITMA KLASIFIKASI C4.5DENGAN PENDEKATAN KONSEP OPERATOR RELASI(STUDI KASUS: PRA-PENGOLAHAN DAN KLASIFIKASICITRA BATIK)
Oleh
Veronica Sri MoertiniNIM : 33503504
 Klasifikasi adalah salah satu proses pada data mining yang bertujuan untuk menemukan “pengetahuan” atau pola yang berharga dari data yang berukuranrelatif besar hingga sangat besar. Data tersebut saat ini kebanyakan dikelolamenggunakan
 Database Management System
(DBMS) baik sebagai databasemaupun data warehouse.Ada beberapa kelompok algoritma klasifikasi, di antaranya adalah pohonkeputusan, Bayesian dan jaringan saraf. “Algoritma C4.5” adalah salah satualgoritma klasifikasi yang populer pada kelompok algoritma pohon keputusan.Pada tahap “belajar” dari data pelatihan, algoritma C4.5 mengkonstruksi pohonkeputusan. Pada tahap klasifikasi, pohon keputusan digunakan untuk memprediksi kelas dari sebuah kasus yang kelasnya belum diketahui. Prinsipkerja algoritma ini dalam proses belajar adalah: membaca seluruh sampel/kasusdari
storage
dan memuatnya ke memori, kemudian melakukan komputasi denganmembaca sampel-sampel di memori untuk mengkonstruksi pohon (yang jugadisimpan di memori). Dengan pendekatan ini, salah satu kelemahan algoritmaC4.5 yang termasuk dalam kategori ”skalabilitas” adalah: algoritma tersebuthanya dapat digunakan untuk menangani sampel-sampel yang dapat disimpansecara keseluruhan dan pada waktu yang bersamaan di memori.Beberapa hasil penelitian sudah ditujukan untuk mengatasi masalah skalabilitas diatas. Pendekatan yang digunakan adalah: (a) Data dipartisi dan konstruksi pohondilakukan secara parsial, kemudian digabungkan. Masalah: akurasi pohongabungan ini buruk. (b) Pemanfaatan perintah
Structured Query Language
1
 (SQL) pada DBMS untuk “meringkas” data pelatihan menjadi sebuah “tabelkeputusan”. Kelemahannya: pada proses klasifikasi kasus baru masih diperlukanalgoritma lain. (c) Pembuatan himpunan-AVC (
 Attribute-Value Classlabel
) padasetiap simpul pohon. Bila seluruh himpunan-AVC pada sebuah level pohon tidak 
1
Bahasa pemrograman yang sudah diterima sebagai bahasa standar pada DBMS.
ii
 
dapat dimuat di memori, data pelatihan dipartisi, disimpan di file sementara,kemudian himpunan-AVC dibuat hanya untuk partisi ini dan cabang dilanjutkanuntuk setiap partisi. Jika algoritma ini akan diintegrasikan ke dalam DBMS,masalah yang ada adalah: algoritma ini tidak memanfaatkan fitur dan fungsi-fungsi yang dimiliki DBMS, sehingga sulit untuk diimplementasikan secaraterintegrasi dengan DBMS.Bertitik tolak dari keterbatasan memori pada sistem komputer, dan ukuran datayang ditangani algoritma C4.5 di DBMS seharusnya dapat sangat besar, maka pada penelitian ini akan dilakukan pendekatan lain: mengembangkan skalabilitasalgoritma C4.5 (menjadi C4.5Db) dengan menerapkan logika DBMS (operator seleksi dan proyeksi pada aljabar relasional) dan sekaligus mengintegrasikannyake dalam
Object-Relational
DBMS (ORDBMS), untuk memanfaatkan skalabilitastak terhingga dan pemrograman berorientasi obyek yang didukung olehORDBMS.Prinsip kerja algoritma C4.5Db adalah sbb.: Dengan memanfaatkan operator seleksi pada SQL, komputasi pada konstruksi pohon (induk) sampai level tertentudilakukan dengan membaca sampel-sampel secara langsung pada tabel basisdatayang dapat berukuran sangat besar. Selanjutnya, operator proyeksi dan seleksi pada SQL dimanfaatkan untuk memuat himpunan sampel pada setiap sub-pohon(cabang) ke dalam memori untuk diakses pada komputasi perpanjangan setiapcabang. Pemuatan himpunan sampel pada cabang dilakukan satu demi satu, danhasil konstruksi cabang “ditempelkan” pada pohon induk sehingga pada akhirnyaterbentuk sebuah pohon yang utuh. Dengan pendekatan ini, ukuran himpunansampel pada cabang yang dimuat ke memori dibatasi oleh memori, tetapi jumlahhimpunan secara teoritis tidak dibatasi, sehingga sampel yang berjumlah sangat besar dapat ditangani. Selain itu, ukuran pohon yang dapat dikonstruksi jugadibatasi oleh memori.Kecepatan eksekusi algoritma C4.5Db, yang merupakan salah satu tolok ukur dariefisiensi pada teknik data mining, diatasi dengan pemanfaatan fungsi-fungsi yangada di DBMS (melalui SQL), khususnya indeks (bitmap index), dan penelaahan partisi data di memori pada konstruksi cabang.Untuk menguji keberhasilan C4.5Db, dilakukan eksperimen-eksperimen perbandingan C4.5 dan C4.5Db yang sudah diintegrasikan ke dalam ORDBMS.Tabel yang berisi data sintetik yang sama, dengan jumlah rekord/sampel danatribut yang bervariasi, dipresentasikan ke C4.5 dan C4.5Db. Proses (termasuk waktu eksekusi) diobservasi. Berdasarkan pengujian ini, dibuktikan bahwaskalabilitas C4.5Db didapati sesuai dengan harapan, sedangkan C4.5 berhenti pada suatu saat dimana seluruh sampel sudah tidak dapat lagi disimpan dalammemori. Waktu eksekusi C4.5Db juga lebih baik pada kasus dimana tabelmemiliki jumlah atribut dan nilai unik sedikit dan diindeks dengan bitmap.Pada studi kasus, sebagai contoh pemanfaatan dari C4.5Db di ORDBMS,digunakan tabel yang berisi data sintetik transaksi penjualan batik (berisi profil pengguna dan citra batik yang sesuai, dengan mempertimbangkan motif, warnaiii

Activity (29)

You've already reviewed this. Edit your review.
1 hundred reads
1 thousand reads
Arif Rahmanto liked this
Mulyanto liked this
Neni Suryani liked this
Arah Fa Part II liked this
yusupd liked this

You're Reading a Free Preview

Download
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->