PERBANDINGAN HASIL KLASIFIKASI DATA KESESUAIAN

PENDIDIKAN DENGAN PELAJARAN YANG DIAJAR
MENGGUNAKAN METODE DECISSION TREE DAN NAÏVE
BAYES
Vidilla Elfa
Mahasiswi Informatika
Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Syiah Kuala, Darussalam Banda aceh 23111, Indonesia
vidilla.elfa@s1.informatika.unsyiah.ac.id
Abstrak: Dataming merupakan proses mengekstrak pola atau informasi dari sejumlah data
dalam ukuran yang besar. Data pada peneletian ini berupa data guru non pns di kota banda
aceh. Proses dalam dataming ini dapat berupa klasifikasi maupun clustering. Pada
pengujian ini yang digunakan adalah klasifikasi dengan menggunakan decision tree dan
naïve bayes untuk membandingkan metode apa yang paling baik dalam mengklasifikasikan
data tersebut. Dari hasil pengujian ini terlihat bahwa pengklasifikasian menggunakan
decision tree lebih baik jika dibandingkan dengan naïve bayes.
Kata kunci : dataset, klasifikasi, decision tree, naïve bayes, f-measure, weka.

PENDAHULUAN
Data mining erat kaitannya dengan

metode berdasarkan data yang ada. Dalam

pengolahan data yang besar. Pengumpulan

pengujian ini, penulis memfokuskan pada

data dapat dilakukan secara otomatis,

metode Decision Tree dan Naïve Bayes.

seperti dapat diperoleh dari satelit (image),

Tujuan dari penelitian ini adalah

data web, database, simulasi, remote

mengetahui cara menggunakan metode

sensing, dan berita online. Data-data

klasifikasi Decision tree dan Naïve bayes

tersebut mengandung informasi yang dapat

pada weka, mengetahui bagaimana tingkat

digunakan sebagai acuan pengambilan

keakuratan dari metode klasifikasi yang

keputusan sehingga perlu diolah terlebih

dipilih, mengetahui waktu yang diperlukan

dahulu.

dalam
Beragamnya data yang akan diolah

melatarbelakangi

munculnya

banyak

metode dalam mengolah data tersebut.
Metode-metode

tersebut

mempunyai

konsep dan tingkat keakuratan tersendiri,
oleh karena tersebut harus dipilah-pilah

membangun

model,

serta

membandingkan hasil keakuratan metode
klasifikasi yang digunakan, berdasarkan
nilai F-measure yang diperoleh.

2004) digunakan untuk menguraikan penemuan Klasifikasi adalah proses penemuan model pengetahuan Data (atau fungsi) yang menggambarkan dan mining adalah proses yang mengguankan membedakan kelas data atau konsep yang teknik sattistik. implementornya. untuk digunakan untuk memprediksi kelas dari mengidentifikasi objek yang label kelasnya tidak diketahui didalam dan machine mengekstraksi informasi database. Rough sets. measure yang tinggi menunjukkan bahwa “Clustering merupakan proses mambagi pengujian dengan metode yang digunakan data dalam suatu himpunan kedalam adalah baik atau cocok untuk dataset. Weka meprupakan indikasi yang bermanfaat” (Kusrini aplikasi open suouce berbasis java yang dan Emha. “Hal penting yang terkait dengan Merupakan suatu proses otomatis terhadap data yang sudah ada. Salah datu Aplikasi yang digunakan untuk memberikan klasifikasi adalah Weka. beberapa kelompok yang sesamaan datanya dalam suatu kelompok lebih besar daripada kesaan data tersebut dengan data . seperti internet. disebbabkan oleh pengetahuan manusia remote sensing. yaitu Decision/classification trees. Nilai F- dalam datamining adalah lengkap dan canggih. dan lain sebagainya. Metode Rule Based. matematika. Dataset ini adalah bahan dasar yang harus Nilai f-measure adalah nilai keakuratan dari dimiliki untuk mengolah data. - klasifikasi yang banyak digunakan secara luas. Sun. Tujuannya mendapatkan hubungan atau Algoritma classifiers/ Naïve Bayes classifiers. hal ini clustering dan klasifikasi. (Jang. Neural Datamining adalah : - (Han. Algoritma Genetika. Dataset adalah kumpulan data dalam Kekuatan weka terletak pada algoritma yang jumlah besar. database. Memory based reasoning. k-nearest neighbor. dan Support vector machines (SVM). Analisa Statistik. kecerdasan bertujuan agar bisa buatan. Nilai f-measure adalah nilai terdapat kombinasi dari precission dan recall. Proses yang sutu pengujian. 2006). 2009). Bayesian pola yang networks. - Data yang diproses adalah data yang sangat besar. learning dan yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar(Turban. yang dapat diperoleh dari makin berbagai sumber. 2005). dikembangkan di universitas Selandia Baru. dkk.dalam kelompok lain”. dan TINJAUAN PUSTAKA Data mining adalah istilah yang Mizutani.

ini sebenarnya terdiri dari 1400 data dan kesesuaian dan beberapa field lainnya. naungan. mengandung 16 field yaitu : jenis kelamin.METODE PENELITIAN measure Langkah-langkah yang dilakukan dalam pengklasifikasian tersebut. jurusan. - HASIL DAN PEMBAHASAN Setalh melakukan langkah tahun status sertifikasi. serta ditambah satu field pilih kelas (kesesuaian) lalu start tambahan yang menjadi kelas dalam program. . status Test option pilih use training set dan sekolah. Data ini diperoleh dari website. pegawai dan Exploler. pengujian ini yaitu kesesuaian pendidikan Keluaran dari langkah-langkah diatas dengan matapelajaran yang diasuh. - - - a. website Memilih field-field yang sesuai untuk http://dkan.bandaacehkota. mata dengan pelajaran yang diasuh. Kesesuaian tersebut terdiri dari dua kelas sehingga dapat dibandingkan nilai F- yaitu ya atau tidak. yang dapat menyebabkan pengujian kedua metode ini adalah dataset menurunnya keakuratan guru non pns Banda Aceh periode klasifikasi. pengujian ini hanyalah data untuk tingkat diatas pendidikan smp.info/dataset/daft pengujian. sekolah. Mencari data. Setelah mendapatkan data yang sesuai usia. tmt_tugas. naungan. tahun lulus. jurusan. mata pelajaran yang diinginkan. ar-guru-non-pns-kota-banda-aceh tingkat seperti jenis kelamin. tersebut kedalam weka sebagai data jenjang. matapelajaran yang diasuh. data yang diperoleh antara kedua metode adalah dataset guru non pns Banda aceh periode November 2014. Field adalah Detailed Accuracy By Class. langkah selanjutnya adalah memasukan data sertifikasi. dataset jurusan. instansi. dan smk yaitu langkah selanjutnya yang dilakukan sebanyak 425 data serta field yang adalah tahap klasifikasi. sma. (Naïve bayes dan Decision Tree). Namun yang digunakan pada Pada Tab Preprocess masukkan file yang akan diuji. Dataset Data cleaning. yaitu menghapus data- - Dataset yang digunakan untuk datanoise. chose classifier kelamin. tahun lulus. jenjang. pada matapelajaran yang diasuh. kualifikasi. Caranya pilih menu kecamatan. dengan cara digunakan hanya ada 9 field yaitu jenis pilih tab classify. kualifikasi. Sehingga melakukan pengujuan ini adalah diketahui metode yang paling efektif - melalui nilai F-measurenya. tmt_pegawai. training set. Contoh membuang field November 2014 yang diperoleh dari yang tidak memiliki nilai tertentu.

Klasifikasi Menggunakan Metode Decission Tree Klasifikasi dengan menggunakan metode Decission Tree menggunakan metode j48 dengan nilai minNumObject 2 dan nilai confidence Factor sebesar 0. karena hanya sedikit yang Knowledge Analysis). Jika dilihat Naïve Bayes hal ini dikarenakan dataset dari grafik tersebut terlihat penyimpangan yang ada dalam bentuk nominal. sehingga perlu dilakukan beberapa langkah preprocessing.”) karena data tersebut tidak diterima oleh weka (gagal dalam menginput csv). Pengujian metode ini dilakukan menggunakan aplikasi WEKA(Waikato data mining Environment for terlihat tingkat kesesuaian jurusan dan pelajaran yang diasuh sudah termasuk baik.9 serta menggunakan test option “Use Training Set”. untuk mendapatkan dataset sesuai dengan yang diharapkan. Metode klasifikasi menyimpang dari jurusan yang ditekuni yang digunakan adalah Decission tree dan (berwarna merah/kelas tidak). seperti mengganti karakter tanda baca(„. Serta membersihkan data dari data noise. Hasil data preprocess memiliki nilai jurusan dan beberapa data Dari gambar hasil preprocess diatas lainnya. seperti data-data yang tidak lengkap sehingga dapat menyebabkan eror. terbesar terjadi pada tingkat Sekolah Menengah Pertama.Data yang diperoleh dalam bentuk excel. Hasil dari klasifikasi ini dapat dilihat pada gambar dibawah : . Memasukkan data kedalam weka Pada pengujian ini semua data dimasukkan sebagai data training. Contohnya adalah menghapus data guru yang tidak Gambar 1. b. Lalu data dimasukkan kedalam weka dan diperoleh hasil preprocess sebagai berikut : c.

941 tidak sebaik dengan menggunakan decision tree.863. namun hasilnya Tabel 1. Tabel 2.935 0. Dari hasil diatas terlihat waktu Pengklasifikasian menggunakan metode yang diperlukan untuk membangun model ini tergolong sangat baik karena memiliki adalah 0 seconds dan menghasilkan nilai nilai f-measure yang tinggi. rata-rata precision 0.d. Klasifikasi Menggunakan Metode Naïve Bayes Klasifikasi dengan menggunakan metode Naïve Bayes menggunakan test option “Use Training Set”.866 dan Dari yang tinggi hasil yaitu diatas juga dapat nilai f-measure yang termasuk tinggi yaitu membentuk tabel baru yang menunjukkan 0. hasil perhitungan keakurasian klasifikasi. Tingkat keakurasian Metode Decision Tree No Kelas Precisio Recall n Fmeasure 1 Ya 0.946. recall 0.963 2 Tidak 0. Hasil pengujian metode Naïve Bayes nilai precision 0. recall 0. waktu yang diperlukan untuk membangun model adalah 1. Hasil dari klasifikasi ini dapat dilihat pada gambar dibawah : Gambar 2.946 0.857.794 0.876 Rata-Rata 0. metode ini tergolong karena memiliki nilai Pengklasifikasian menggunakan f-measure yang tinggi.941. Dari hasil diatas juga dapat membentuk tabel baru yang menunjukkan hasil perhitungan keakurasian klasifikasi. Tingkat keakurasian Metode Naïve Bayes .944 0. Hasil pengujian metode Decision Tree Dari hasil diatas terlihat daun yang terbentuk ada sebanyak 526 dan pohon yang terbentuk ada sebanyak 535.23 seconds dan menghasilkan Gambar 3.977 0.994 0.944 dan nilai f-measure 0.

579 0. Turban. yang naïve bayes adalah sebagai berikut : - - Gunakan metode klasifikasi lain Klasifikasi menggunakan metode sehingga Decision Tree diperoleh F-measure banyak. Neuro Fuzzy and Doft Computing.962 0. Meskipun waktu yang diperoleh dalam membangun model Naïve Jang.857. dapat diambil kesimpulan bahwa klasifikasi menggunakan Decision Tree “Lebih Baik” jika dibandingkan dengan klasifikasi menggunakan Naïve Bayes. C. Apakah model dilakukan terhadap Dataset guru non pns benar-benar bagus atau hanya baik dengan menggunakan decision tree dan untuk data training saja. bukan waktu 2 Tidak 0.S. J.T. San Fransisco : Morgan Kauffman. perbandingan lebih sebesar 0. sebesar 0..838 0. E. Yogyakarta: Andi Offset.. 2005.857 Saran - SIMPULAN DAN SARAN yang lebih besar lagi Simpulan - Kesimpulan yang berdasarkan klasifikasi Sebaiknya menggunakan dataset dapat Sebaiknya dilakukan pengujian diambil dengan memasukkan data testing.R.863 0. - Klasifikasi menggunakan metode DAFTAR PUSTAKA Naïve Bayes diperoleh F-measure Han.872 0. Singapore: Pearson Education.. telah dan liat hasilnya.915 measure terbesar.dkk. Algoritma Data Mining. M.685 tercepat. Decicion Support System and Intelligent Systems. Sun.No Kelas Precision Recall F- Bayes lebih unggul. Kusrini dan Emha. Yogyakarta : Andi Offset. Rata-Rata 0. E.866 0. 2004. dan Mizutani. .941. Namun measure metode terbaik dipilih dari nilai F- 1 Ya 0. J. - Waktu untuk membangun model lebih cepat dengan menggunakan Naïve Bayes jika dibandingkan dengan Decision Tree yang hanya membutuhkan waktu 0 s. - Dengan membandingkan nilai Fmeasure antara kedua metode tersebut.&Kamber. 2006. Data Mining Concept and Tehniques. 2009.