You are on page 1of 6
Seminar Nasional Apis TebnologsInformas 2010 SMATI 2010) Yoga 19m 2010 Is9N0 1907-5022 APLIKASI MINING DATA MAHASISWA DENGAN METODE KLASIFIKASI DECISION TREE Sunjana Universitas Widyatama sunjana@widvatama.cc.id ABSTRAKS Data mining merupakan proses anatisa data untuk menemukan suatu pola dari kumputan data tersebut. Data mining mampu menganalisa data yang besar menjadi informasi berupa pola yang mempunyai arti bagi ppendukung keputusan. Salah satu teknik yang ada pada data mining adalah klasifikasi. Pada paper ini akan dibahas teknik Masifikasi yang diterapkan untuk menemukan pola yang terjadi pada data mat. hr mahasiswa, Teknik Masifikasi vang akan digunakan adalah Decision tree, yaitu algoritma C4.5. Kata kunei : Data mining, Decision tree, C4.5 1. PENDAHULUAN Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunuikan teknik atau metode tertentu, Teknik, metode, atau algoritma dalam cata mining san bervariasi. Pemilihan metode atau algoritma, {epat sangat bergantung pada tujuan dan pros secara keseluruhan, — Data — mining. menganalisa data yang besar menjadi berupa pola yang mempunyai arti bagi pet keputusan. Hasil dari aplikasi data dievaluasi untuk menem informasi/pengetabuan baru yal bemilai bagi divisualisasikan memitih informag smpunyai arti bagi pendukung, Salah satu hining adalah asifikasi, pada an sejumtah record yang dinaml bbeberapaatribut, elas untuk record. Tujuan dari klasifikasi adalah ‘untuk menemukan model dari training set yang. membedakan record kedalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan ‘untuk mengklsifikasikan record yang. kelasnya ‘bolum diketahui sebelumny. Salah satu metode yang, digurakan di dalam —Klasifikasi adalah pengklasifikasian dengan menggunakan decision tree (pohon keputusan). Salah satu algoritma decision tree ‘yang umum dipakai adalah C4.5. Pemabahasan paper ini adalah sebagai berikut Ipendahuluan —membahas _ pengertian-pengertian dasar dari topic yang diteliti, 2. Landasan teori membahas dasar-dasar teori yang. digunakan dalam penelitian, 3. Implementasi membahas implementasi tori dan hasilnya, dan terkhir -membahas kesimputan. 4) ie scbuah proses untuk pola ata )efgetahuan yang bermanfaat ‘umpulan data yang berjumlah ‘ering dianggap sebagai bagian Discovery in Database (KDD) yaitu sta Mi Pemilihan (scleksi) data dari sckumpulan data Sperasional perlu dilakukansebelum — tahap Penggalian informasi dalam KDD dimulai, Data hasil seleksi yang akan digunakan untuk proses data ‘mining. disimpan dalam suatu berkas, terpisah dari basis data operasional 2. Preprocessing/ Cleaning Sebelum proses data mining dapat diiksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup nara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada ‘data, seperti Kesalahan cetak (tipografi). Setain itu dilakukan proses enrichment, yaita — proses “memperkaya” data yang sudah ada dengan data atau. informasi Tain yang relevan dan diperlukan untuk KDD, seperti data atau informasi ekstermal 3 Transformation Coding adalah proses transformasi pada data yang telah dipilih, schingga data tersebut sesuai luntuk proses Data mining. Proses coding dalam KDD merupakan proses _kreatif’ dan sangat tergantung pada jenis atau pota informasi yang akan dicari dalam basis data 4. Interpretation/ Evaluation Pola informasi yang dihasilkan dari proses data ‘mining perlu ditampitkan dalam bentuk vang mudah dimengerti oleh pihak yang berkepentingan. Tabap Seminar Nasional Apis TebnologsInfrmas| 2010 SMATI 2010) Yoga 19 Jum 2010 ‘ni merupakan bagian dari proses KDD yang disebut dengan interpretation, Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya. 2.2 Decision tree Decision tree adalah flow-chart seperti struktur ‘ce, dimana tiap infernal node menunjukkan sebuah test pada sebuah atribut, tiap cabang: menunjukan Inil dari test, dan leaf node menunjukkan class-class atau class distribution [6 Algoritma 1D3 dan Algoritma C45 Sebelum —membahas algoritma C4.5 perl dijelaskan terlebih dally algoritme D3 Karena C45 adalah ckstensi dari algoritma decision-tree D3. Algoritma ID3/C4.5 ini secara rekursif membuat sebuah decision tree berdasarkan training data yang, telah disiapkan. Algoritma ini mempunyai inputan berupa training samples dan samples. Training samples berupa data contoh yang, akan diguakan ‘untuk membangun sebuah tree yang telah dinji kebenaranya. Sedangkan samples “inerupakan field- field data yang nantinya akan kita gunakan sebagai parameter dalam melakukan klasfikast data. Berkut adalah algoritma dasar dari 1D3 dan C4.5 Algoritma 1D3 [6 Input: Training samples, samples Output : Decision tree Method (Q) Create node N: (2) If samples are all of the same class, ) Return N asa leaf no lass C: (4) if atribute-tst is empty then 6) node N for the condition test-atribute = a, (10) ets, be the set of samples in samples for which testatribute = aj // a partition 1D ifsisempty then (12) attach a leaf labeled with the ,most ‘common class in samples; (03) else attach the mode retuned by Gonerate_decision_tree(,.altribute-ist-test- tribute); Algoritma C4.5 [15] Build the decision tree form the training set (conventional 1D3). Convert the resulting tree into an equivalent set of rules. The number of rules is equivalent to 1s9N0 1907-5022 the number of possible paths from the root t0 a leaf node, 3. Prune (generalize) each rule by removing preconditions that increase classification accuracy, Sort pruned niles by their accuracy, and use them in this order when classifying Future test examples, Information Gain Information gain adalah salah satu atribuse selection measure yang digunakan untuk memilih test atribute tiap node pada tree, Atribut dengan information gain tertinggi dipilih sebagai test atribut dari suatu node [6]. Ada 2 kasus berbeda pada saat penghitungan Information Gain, pertama untuk kasus penghitungan atribut tanpagiissng value dan kedua, ‘Anggap atribut ‘erbeda, C; (untuk umlah samples S pada tation-nya dapat dihitung De, *los,(p,) nee adalah probabilitas dari sample yang, : ginal hss « salkan atribut A mempunyai y nila yang stbeda, (a, a}. Atribut A dapat digunakan untuk mempartisi S menjadi v subset, {S), Ss,....8,. dimara S, berisi samples pada S yang mempanyai nilai a, dari A. Jika A terplih menjadi test atribut (yaitu, best atribut untuk splitting), maka subset- subset akan berhubungan dengan pertumbuhan node- node cabang yang bersi S. Anggap s, sebagai jumlah samples class Ci pada subset S,. Entropy, atau nilai information dar subset A adalah 2 Sy bt Sy BA)= > LCS), S2.008m) Sy bets * “adalah bobot dari subset jth dan s jumlah samples pada subset (yang mempunyai nila a dari A) dibagi dengan jumlah total samples pada S. Untuk subset §, 16s). Sy) Dey *lo8s(P,) s Dimana py = "adalah probable sample $, Sh ‘yang mempunyai class Ci. ‘Maka nilai information gain atribut A pada subset S adalah Aas Seminar Nasional Apis TebnologsInfrmas| 2010 SMATI 2010) Yoga 19 Jum 2010 Gain(A) = 1( 5), S2...8n)~ ECA) Sebagai contol: kita ingin mencari apakah pegolf akan masuk class play atau don't play berdasarkan 1s9N0 1907-5022 Untuk atribut dengan missing value penghitungan information gain-nya diselesaikan dengan Gain Ratio. Sebelum menghitung gain ratio terlebih dahulu data beriku: diitung 1 (5,8...) dan E(A) TCS, Sxe8m) == DP, *logs(p,) Sunny © Fake | Doo bt, Puy Sammy a w Tae] Dew Pay Overeast | 8 7 False | Pla Dimana penghitungan I ( s), 82,....S_ ) dan E(A) Rain [70 36 Fale Pay Janya dilakukan pada atribut yang ada nilainya Jain ca 30 Fels _{ Pins Kemudian untuk mencari gain dari atribut A aera |S) a roe Det tog: (51,52) (85) B B: Bb ant) 0.961 5,.2,,23, 3 Ioutlooky= > * «2 + fog = -2 + logs 3) + 2° {(outlook) B ¢ 5 or 5 logs) B 1d SHHog: == 1.809 44 Gain ratio Setelah semua G: atribut mana yai Atribut yang layak adalah atrib am erbesar Kontinyu, Salah satu ¢ lah dengan Entropy= Based Discretization yang melibatkan penghitungan class entropy. Misalkan T membagi S example menjadi subset SI dan $2. Umpakan ada k class Cl, C2, Ck. Misal P(Ci, S/) menjadi perbandingan dari example pada Sj yang mempunyai classi Maka class entropy dari subset Sj didefinisikan dengan DX PECi, $) logiPrCi, S) a Dan clas information entropy ECA, T:S) {SU sip + 1521 ens2y [S| IS] Dimana Ent(S)) = class entropy dari subset S) En(S) F(A, TSS) 1s9N0 1907-5022 subset dari $ Ci= class P(Ci, 8) = pesbandingan instance dari Sj yang berada pada class Ci E(A, TAS) = class information entropy partisi dengan cut point Tx di A Cut point yang terbaik adalah yang memberikan class information entropy yang paling kecil diantara semua ‘kandidat cut point Pruning Tree Pruning tree adalah melakukan suatu kegiatan ‘untuk mengeanti suaty subtree dengan suatu leaf Penggantian dilakukan jika error rate pada subtree ) N fault Onn Ws) maka z= 0,69 se == TASL mn algoritma C4.5 disini, kita ingin Ih IPK seorang mahasiswa dapat in berdasarkan nilai beberapa mata Kkuliah, ianggap paling siginifikan dalam menentukan scorang mahasiswa . Nilai IPK merupakan ibut class, kelas IP dibagi menjadi 4 yaitu: 1, A: Sangat baik (2 3) 2. B= Baik (22,5) 3. C: Kurang (2) 4. D: Sangat Kurang ( <2) Untuk Matakuliah, pemalis hanya mengambil 9 jenis matakuliah sebagai atribut, yaitu Algoritma I (Sem. 1) Kalkutus I Sem. 2) Algoritma fl (Sem. 11) Kalkulus Il (Sem. 1) Matriks & Ruang Vektor | (Sem. 11}) Statistika (Sem, I) Struktur Data & Algoritma Lanjut (Sem, mm Basis Data (Sem. IV) ‘Matriks & Ruang Vektor Il (Sem, 1V) Matakuliah diatas merupakan matakuliah yang wajib diambil oleh setiap —mahasiswa —ditiap semestemya, Penulis. mengambil matakuliah hanya sampai semester IV dan rata-rita 2 matakuliah, sehingga dosen dapat melihat IPK dan menentukan matakuliah apa yang harus divlang atau diambil agar IPK seorang—mahasiswa dapat meningkat Matakuliat-matakuliah yang pemulis ambi merupakan matakulial-niatakuliah yang saling berhubungan satu dengan yang lainnya atau dengan Seminar Nasonal plitas Telnoog! Informa 2010 (SNATT 2010) opr 19 Jun 210 kata Jain sebagai matakuliah prasyarat, misal untuk dapat mengambil matakuliah Algoritma I seorang, mahasiswa farus lulus terlebih dahulu dalam ‘matakuliah Algoritma I, Untuk lebih jelasnya kita lihat alr berikut 1. Algoritma I> Algoritma I > Struktur Data & Algoritina Lanjut > Basis Data Kalkulas [> Kalkulus I > Mattiks & Ruang Vektor [ > Matriks & Ruang Vektor 0 3. Kalkulas I > Statistika Pada tabel matakulish tersebut terdiri dari 210 record, dengan 160 record sebagai data training dan 50 record sebagai data testing Hasil uji yang dilakukan adalah sebagai berikut Tabel 4.1 Hasil Uji Matakuliah Ke- Rate “AlgoritmaT Algoritma IL 1 | Basis Data 18,75% Statistika Struktur Data ‘Algoritma I Algoritma IL Kalkulus 1 Kalkulus II ‘Matriks I ‘Matriks TL Basis Data Statistika Struktur ‘Algoritmal] Algoritma Kalkulus 1 Kalkulus 11 ‘Algoritma I Algoritma IL Matriks I ‘Matis IL Basis Data ‘Algoritma I Algoritma IL Kalkulus I Kalkulus 11 Statistika ‘Algoritma Kalkulus 1 ‘Matriks I Basis Data 13,75% ISS: 1907-5022 Trang, Eran Rate Testing Ero Rate Uji Ke- ‘Matakuliah Algoritma T Algoritma II Basis Data Statist ‘Struktur Data 18,75% | 26,01 ‘Algoritma I Algoritma IL Kalkulus 1 Kalkulus I Matriks 1 Matrikss IL Basis Data 5.00 % 46,00% 28 48,00% i} datas dapat kita lihat prosentase dari aluliah terhadap ila IPK. seorang ates Proetse ror rate yang dlian il testing rate-rata adalah dibawah 50%, in acla yang 26 % Iu menanakan bahwa rule ing cihasilkan sudah cukup baik, Hasil tersebut diperoleh dari data training pada mataklich Algoritma I, Algoritma Il, Basis Dita, Statistika, dan Struktur Dota. Dari data ‘raining pada matalclich terscbut, temyata menghasilknn rife yang diganakan untuk deta testing dengan prosentase error rate yang sangat kecilSemakin besar prosentase nilai error rate yang dihasilknn pada data testing, maka rule yng” dihasitkan pun tidak bak Bepitu pula sebaliknya, semakin keil prosentase error rae yang dihasitkan’ pada data testing, taka akan menghasilkan rule yang baik pula 4. KESIMPULAN erdasarken training dan pengujian kemudian dilakukan analisis maka dapat diambil beberapa kesimpulan sebagai berikut 1, Penentuan data training sangat-menentukan tingkat akurasi ree yang cibuat Besar prosentase Kebenaran tree sangat dlipengaruhi oleh data training yang digunakan ‘untuk membangun model tree tersebut Nilai IPK seorang mahasiswa terlihat sangat terpengaruh dengan 9(Sembilan) mata kuliah yang dianggap pokok. Seminar Nasonal plitas Telnoog! Informa 2010 (SNATT 2010) opr 19 Jun 210 PUSTAKA [1] Andrew W. Moore, “Decision Trees”, Camegie ‘Mellon University (hitp:www.cs.cmuedu/~awn [2] Berry Linoff, Mastering Data Mining, John Wiley & Son, Inc, 2000 [3] Frank, Vanden Berghen, “Classification Trees 2C43”, Universit Libre de Bruxelles, 2003 [4] HanJiawei and Khamber, Micheline. “Data Mining : Concepts and Techniques”, Morgan Kaufmann Publishers, Sen Francisco,USA, 2001 [5] Long, William, “Classification Tress”, Harvard-MIT Division of Health Sciences and ‘Technology. [6] Malerba Donato, Floriana Esposito, dan Giovanni Semeraro, “4 Comparative Analysis of Methods for Praning Decision Tress”, IEEE, Italy, 1997 [7] Quinlan, JR, "C45: Programs For Machine Learning”, San Mateo, CA: Morgan Kaufmann, Age ISS: 1907-5022

You might also like