You are on page 1of 49

EKSTRAKSI CIRI DOKUMEN TUMBUHAN OBAT MENGGUNAKAN

CHI-KUADRAT DENGAN KLASIFIKASI NAIVE BAYES

YOGA HERAWAN

DEPARTEMEN ILMU KOMPUTER


FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011
ABSTRACT

YOGA HERAWAN. Feature Extraction of Medicinal Plants using Chi-Square with Naïve
Bayes Classifier. Supervised by YENI HERDIYENI.

This research presented a system for extracting terms and classifying medicinal plants
documents using chi-square and naïve bayes classifier. Term extraction technique was used to
make the classifier work efficiently and to increase classification accuracy. The criteria used in this
research were the family of medicinal plants and utilization of medicinal plants for medication.
The classification results were used to build an information retrieval system of Indonesian
medicinal plants. This research used two significance levels for generating critical value, i.e 0.001
and 0.01. The experiment result showed that the critical value using significance level of 0.001 has
better accuracy than the critical value using significance level 0.01. Accuracy of classification
system using significance level of 0.001 were 97.44% for family and 89.74% for utilization of
medicinal plants criteria. The information retrieval system tested using 29 queries about family
and utilization of medicinal plants. The information retrieval system had an average value
generated was 93.26%.

Keywords : document classification, naïve bayes classifier, chi –square, feature selection,
information retrieval.

i
EKSTRAKSI CIRI DOKUMEN TUMBUHAN OBAT MENGGUNAKAN
CHI-KUADRAT DENGAN KLASIFIKASI NAIVE BAYES

YOGA HERAWAN

DEPARTEMEN ILMU KOMPUTER


FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011
Judul : Ekstraksi Ciri Dokumen Tumbuhan Obat Menggunakan Chi-Kuadrat dengan
Klasifikasi Naive Bayes
Nama : Yoga Herawan
NIM : G64070050

Menyetujui:

Pembimbing

Dr. Yeni Herdiyeni, S.Si., M.Kom.


NIP. 19750923 200012 2 001

Mengetahui:
Ketua Departemen Ilmu Komputer
Institut Pertanian Bogor

Dr. Ir. Sri Nurdiati, M.Sc.


NIP. 19601126 198601 2 001

Tanggal Lulus :
PRAKATA

Puji dan syukur penulis panjatkan kehadirat Allah SWT yang senantiasa memberikan
rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan tulisan ini dengan judul: Ekstraksi
Ciri Dokumen Tumbuhan Obat Menggunakan Chi-Kuadrat dengan Klasifikasi Naive Bayes.
Shalawat dan salam disampaikan kepada Nabi Muhammad SAW beserta keluarga, sahabat, dan
pengikutnya yang tetap berada di jalan-Nya hingga akhir zaman.
Selama penelitian, penulis menyadari bahwa banyak pihak yang ikut membantu sehingga
skripsi ini dapat diselesaikan, oleh karena itu penulis ingin menyampaikan ucapan terima kasih
kepada:
1. Kedua orang tua tercinta serta kedua saudaraku tercinta, Herlina Pratiwi dan Prima Adi
Pradana, atas doa dan semangat yang diberikan.
2. Ibu Dr. Yeni Herdiyeni, S.Si, M.Kom selaku pembimbing akademis yang telah memberikan
banyak bantuan, kemudahan, saran dan ilmu kepada penulis.
3. Bapak Ir. Julio Adisantoso, M.Kom. dan Bapak Sony Hartono Wijaya, S.Kom., M.Kom. selaku
dosen penguji atas kemudahan dan ilmu yang telah diberikan kepada penulis.
4. Sahabat sekaligus kakak bagi penulis, Febi Damiko, Bang Pram, Bang Khamsi, yang telah
berbagi cerita suka dan duka, ilmu serta saran dan diskusi yang sangat membangun pola pikir
penulis.
5. Sahabat-sahabat terbaik dari Ilkomerz44 Kristina Paskianti, Iyos Kusmana, Khamdan Amin,
Danar Setya P, Mukhlis Said, Arizal Notyasa, Akbar “Jowo”, Akbar “masbero”, Imadudin
“ijah” ayi, Agus “Alay” Umriadi dan Devi Dian Pramana Putra yang telah berbagi cerita suka
dan duka bersama selama penulis menjadi mahasiswa.
6. Teman-teman J.Co Basketball FC, Amboro Rintoko, Bayu Chandra Winata, Akbar “jowo”,
Mudho, atas jalinan persahabatan, semangat dan optimisme, serta keceriaan yang dilalui
bersama penulis selama penulis menjadi mahasiswa.
7. Teman-teman satu bimbingan Kristina, Iyos, Fanni “Cicin”, Fanni “Culun”, Wido, Dimpy,
Ella, Pak Rico, mbak Putri dan mbak Vira atas saran, masukan dan nasihat yang diberikan
kepada penulis.
8. Irma Amalia Pratiwi yang selalu memberikan dorongan semangat dan doa kepada penulis.
Penulis menyadari bahwa masih banyak kekurangan yang ditemukan dalam tugas akhir ini.
Penulis berharap adanya saran dan kritik yang membangun dari semua pihak yang membaca
tulisan ini. Semoga tulisan ini bermanfaat dan dapat menambah wawasan ilmu pengetahuan bagi
penulis khususnya dan pembaca umumnya.

Bogor, September 2011

Yoga Herawan
RIWAYAT HIDUP

Penulis dilahirkan di Wonogiri pada tanggal 30 Juli 1989 dari pasangan Ir. Slamet Sardjito
dan Rahayu Dwi Hastuti. Penulis merupakan anak kedua dari tiga bersaudara.
Penulis menempuh pendidikan dasar di SD Negeri Wonogiri VII, SMP Negeri 1 Wonogiri.
Tahun 2007 penulis lulus dari SMA Negeri 1 Wonogiri dan pada tahun yang sama penulis masuk
Institut Pertanian Bogor (IPB) melalui jalur Ujian Saringan Masuk IPB (USMI). Penulis masuk
Program S1 Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian Bogor.
Pada bulan Juli-Agustus 2010 penulis berkesempatan melaksanakan kegiatan Praktik Kerja
Lapangan di Balai Penelitian Tanaman Obat dan Aromatik, Bogor. Selama menjadi mahasiswa
penulis juga pernah menjadi asisten praktikum Basis Data, Sistem Pakar dan Sistem Informasi.

iv
DAFTAR ISI

Halaman
DAFTAR GAMBAR ............................................................................................................................. vi

DAFTAR TABEL ................................................................................................................................. vi

DAFTAR LAMPIRAN ......................................................................................................................... vi

PENDAHULUAN .................................................................................................................................. 1
Latar belakang ................................................................................................................................... 1
Tujuan ............................................................................................................................................... 1
Ruang lingkup ................................................................................................................................... 1
Manfaat ............................................................................................................................................. 1

TINJAUAN PUSTAKA ......................................................................................................................... 1


Temu kembali informasi ................................................................................................................... 1
Klasifikasi ......................................................................................................................................... 2
Pemilihan fitur dokumen ................................................................................................................... 2
Keputusan statistik dan hipotesis statistik ......................................................................................... 2
Chi-kuadrat ( )............................................................................................................................... 2
Document frequency thresholding (DF)............................................................................................ 4
Naive Bayes classifier ....................................................................................................................... 4
Confusion matrix ............................................................................................................................... 5
Recall precision................................................................................................................................. 5
SphinxSearch ..................................................................................................................................... 5
Pembobotan BM25............................................................................................................................ 6

METODE PENELITIAN ....................................................................................................................... 6


Dokumen tumbuhan obat .................................................................................................................. 6
Praproses data ................................................................................................................................... 8
Pembagian data ................................................................................................................................. 8
Pemilihan fitur................................................................................................................................... 8
Klasifikasi Naïve Bayes..................................................................................................................... 8
Temu kembali informasi ................................................................................................................... 9
Evaluasi model klasifikasi................................................................................................................. 9
Evaluasi sistem temu kembali ........................................................................................................... 9
Lingkungan pengembangan sistem ................................................................................................... 9

HASIL DAN PEMBAHASAN ............................................................................................................ 10


Praproses ......................................................................................................................................... 10
Pemilihan fitur................................................................................................................................. 10
Pengujian kinerja sistem.................................................................................................................. 11

KESIMPULAN DAN SARAN ............................................................................................................ 12


Kesimpulan ..................................................................................................................................... 12
Saran ............................................................................................................................................... 12

DAFTAR PUSTAKA ........................................................................................................................... 13

v
DAFTAR GAMBAR

Halaman
1. Distribusi chi-kuadrat………………………………………………………………………. 3
2. Tahapan penelitian………………………………………………………………………….. 7
3. Format koleksi dokumen…………………………………………………………………… 8
4. Rataan waktu proses klasifikasi pada setiap pemilihan nilai kritis (chi-kuadrat). ………… 10
5. Rataan waktu proses klasifikasi pada setiap pemilihan nilai threshold (df).……………….. 11
6. Akurasi sistem klasifikasi…………………………………………………………………… 11
7. Grafik recall precision kueri uji ……….…………………………………..……………….. 12

DAFTAR TABEL

Halaman
1. Tabel kontingensi antara kata terhadap kelas………………………………………………… 3
2. Nilai kritis χ2 untuk tingkat signifikansi α ..…………………………………………………. 4
3. Confusion matrix untuk klasifikasi biner…………………..................................................... 5
4. Distribusi dokumen penyakit………………………………………………………………… 7
5. Distribusi dokumen family………………………………………………………………….. 7
6. Kumpulan kueri uji ………………………………………………………………………….. 9

DAFTAR LAMPIRAN

Halaman
1. Daftar 32 jenis tumbuhan obat Indonesia yang digunakan dalam penelitian……………….. 15
2. Tabel distribusi chi-kuadrat pada berbagai tingkat signifikansi dan derajat bebas tertentu... 16
3. Confusion matrix untuk kelas family (berdasarkan pemilihan fitur chi-kuadrat pada nilai
signifikansi 0,001)…………………………………………………………………….……… 17
4. Confusion matrix untuk kelas penyakit (berdasarkan pemilihan fitur chi-kuadrat pada nilai
signifikansi 0,001)…………………………………………………………………………… 18

vi
PENDAHULUAN dokumen yang sangat efektif untuk memilih
kata penciri suatu dokumen namun tidak
Latar belakang
menurunkan akurasi sistem klasifikasi
Indonesia merupakan negara (Yimming 1997). Document frequency
megabiodiversity yang memiliki kekayaan thresholding merupakan teknik yang
tumbuhan obat. Indonesia memiliki lebih dari sederhana untuk mengurangi jumlah kata
38.000 spesies tanaman (Bappenas 2003). yang akan diproses. Teknik Document
Sampai tahun 2001 Laboratorium Konservasi frequency thresholding mudah untuk
Tumbuhan, Fakultas Kehutanan IPB telah diimplementasikan (Yimming 1997).
mendata bahwa tidak kurang dari 2.039
Penelitian ini akan membandingkan
spesies tumbuhan obat berasal dari hutan
kinerja pemilihan fitur dokumen antara
Indonesia (Zuhud 2009). Kandungan kimia
teknik chi-kuadrat dan teknik document
yang terdapat dalam jenis tumbuhan obat
thresholding frequency (df) yang kemudian
tersebut mendorong peneliti untuk melakukan
dilakukan pembangunan sistem klasifikasi
penelitian tentang penyakit yang dapat
Naïve Bayes untuk mengklasifikasikan
diobati dari suatu jenis tumbuhan obat
dokumen tumbuhan obat Indonesia. Dalam
tertentu. Melalui media cetak dan elektronik
penelitian ini, sistem klasifikasi akan
hasil penelitian tersebut didokumentasikan
mengklasifikasikan dokumen berdasarkan
untuk diinformasikan kepada masyarakat.
kategori family tumbuhan obat dan penyakit
Internet membuat dokumentasi elektronik
yang dapat disembuhkan oleh suatu jenis
tersebar dengan mudah di dalam maupun luar
tumbuhan obat. Hasil klasifikasi tersebut
negeri. Mesin pencari internet digunakan oleh
kemudian akan digunakan untuk membangun
pengguna di seluruh dunia untuk mencari
sistem mesin pencari dokumen.
informasi terkait tumbuhan obat yang
dikehendaki. Banyaknya jumlah dokumentasi Tujuan
elektronik tersebut mempengaruhi kinerja
Tujuan penelitian ini adalah
mesin pencari dalam mengembalikan
mengembangkan sistem temu kembali
dokumen yang relevan terhadap keinginan
informasi tumbuhan obat yang bekerja
pengguna. Untuk meningkatkan kinerja
berdasarkan hasil pemilihan fitur dokumen
mesin pencari diperlukan sistem pengelolaan
serta Naïve Bayes sebagai penglasifikasi
dokumen yang lebih baik dari sebelumnya.
dokumen.
Untuk itu diperlukan sistem klasifikasi
Ruang lingkup
dokumen secara otomatis. Salah satu teknik
klasifikasi dokumen adalah Naïve Bayes. Ruang lingkup penelitian ini meliputi :
Naïve Bayes merupakan classifier sederhana
1. Dokumen terbatas pada 32 jenis
yang didasarkan pada penerapan teorema
Bayes. Kelebihan teknik ini adalah mampu tumbuhan obat Indonesia (Lampiran 1).
mengklasifikasikan dokumen dengan tepat 2. Dokumen yang digunakan berformat
XML.
serta mudah dalam pengimplementasiannya
(Thabtah 2009). Dalam jangka panjang, 3. Sistem menglasifikasikan dokumen
dokumen penelitian yang akan terindeks berdasarkan penyakit yang dapat
disembuhkan dan family dari suatu
semakin bertambah seiring berjalannya
waktu. Kerja yang lebih berat harus tumbuhan obat tertentu.
dilakukan oleh sistem classifier jika hanya Manfaat
mengandalkan teknik klasifikasi dokumen
saja, hal tersebut dikarenakan sistem Manfaat dari penelitian ini adalah
klasifikasi mengambil isi dari uraian setiap mempercepat dan mempermudah pengguna
dokumen. Salah satu cara untuk dalam mencari informasi tentang tumbuhan
meningkatkan kinerja dari sistem klasifikasi obat Indonesia.
adalah dengan menerapkan teknik pemilihan
fitur dokumen. Ada beberapa teknik yang
digunakan untuk melakukan pemilihan fitur TINJAUAN PUSTAKA
dokumen antara lain Document Frequency
Thresholding (DF), Information Gain (IG), Temu kembali informasi
Mutual Information (MI), Term strength (TS) Sistem temu kembali informasi
dan Chi-square testing (X2) (Yimming 2003). (Information retrieval system) merupakan
Chi-square merupakan teknik pemilihan fitur sistem pencari pada sekumpulan dokumen

1
elektronik yang memenuhi kebutuhan Dalam penelitian ini, data dari himpunan
informasi tertentu (Manning et al. 2008). tersebut akan digunakan sebagai penciri
Sistem temu kembali informasi bertujuan dokumen yang akan diklasifikasikan.
untuk menjembatani kebutuhan informasi
Pemilihan fitur dokumen memiliki dua
pengguna dengan sumber informasi.
tujuan utama yaitu membuat data latih yang
Temu kembali informasi berkaitan diterapkan oleh sistem klasifikasi menjadi
dengan cara merepresentasikan, menyimpan, lebih sederhana serta untuk meningkatkan
mengorganisasikan, dan mengakses akurasi sistem klasifikasi. Peningkatan
informasi. Merepresentasikan dan akurasi sistem klasifikasi disebabkan karena
mengorganisasikan suatu informasi harus pada proses penghilangan fitur akan
membuat pengguna lebih mudah dalam dihilangkan kata-kata yang bukan merupakan
mengakses informasi yang diinginkannya. penciri dokumen (Manning et all 2008).
Akan tetapi, untuk mengetahui informasi
Keputusan statistik dan hipotesis statistik
yang diinginkan pengguna bukan merupakan
suatu hal yang mudah. Untuk itu pengguna Keputusan yang diambil berdasarkan
harus menransformasikan informasi yang informasi sampel yang didapatkan dari data
dibutuhkan ke dalam suatu kueri yang akan disebut keputusan statistik. Sebagai contoh
diproses mesin pencari (IR System), sehingga keputusan statistik adalah ketika akan
kueri tersebut merepresentasikan informasi memutuskan berdasarkan data sampel apakah
yang dibutuhkan oleh pengguna. Dengan suatu serum baru benar-benar efektif dalam
kueri tersebut, IR system akan menyembuhkan suatu penyakit, apakah suatu
menemukembalikan informasi yang relevan prosedur pendidikan lebih baik dari prosedur
terhadap kueri (Baeza-Yates & Ribeiro-Neto pendidikan lainnya.
1999).
Untuk mencapai suatu keputusan,
Klasifikasi diperlukan asumsi awal tentang populasi
yang terlibat yang kemudian disebut sebagai
Klasifikasi adalah proses untuk
hipotesis statistik. Hipotesis umumnya
menentukan kelas dari suatu objek tertentu.
merupakan pernyataan umum yang berkaitan
Pada klasifikasi dokumen, permasalahan
dengan distribusi probabilitas dari populasi.
yang muncul adalah sebagai berikut:
Hipotesis diperlukan untuk menentukan
diberikan sebuah deskripsi d X dari sebuah
apakah hasil yang diduga cenderung untuk
dokumen dimana X merupakan ruang
benar. Hipotesis nol (H0) menyatakan bahwa
dokumen. Sebuah himpunan tetap kelas
tidak ada perbedaan di dalam hasil yang
{ }, dengan menggunakan
sedang diperiksa atau disebut juga nol
algoritme pembelajaran, dilakukan proses
pengaruh (zero effect).
pembelajaran terhadap fungsi klasifikasi
sehingga dapat memetakan dokumen pada Chi-kuadrat ( )
kelas C.
Chi-kuadrat ( ) merupakan pengujian
hipotesis mengenai perbandingan antara
frekuensi sampel yang benar-benar terjadi
Proses klasifikasi dibagi menjadi dua
(kemudian disebut frekuensi observasi)
tahap, yaitu tahapan pembelajaran
dengan frekuensi harapan yang didasarkan
dan pengujian. Pada tahap pembelajaran,
atas hipotesis tertentu pada setiap kasus atau
sebagian data yang telah diketahui kelasnya
data (selanjutnya disebut dengan frekuensi
(data latih) digunakan untuk membuat model
harapan .
klasifikasi. Tahap pengujian menguji data uji
dengan model klasifikasi untuk mengetahui Sampel berukuran N diambil dari suatu
akurasi model klasifikasi tersebut. Jika populasi normal berdeviasi standar σ. Untuk
akurasi cukup maka model tersebut dapat setiap sampel dihitung nilai sehingga
digunakan untuk memprediksi kelas data diperoleh distribusi sampling untuk yang
yang belum diketahui (Han & Kamber 2006). disebut distribusi chi-kuadrat.
Pemilihan fitur dokumen Distribusi chi-kuadrat tergantung pada
satu parameter, yaitu derajat kebebasan (d.f).
Pemilihan fitur dokumen merupakan Persamaan 1 digunakan untuk menghitung
suatu proses memilih sebanyak kata besarnya jumlah derajat bebas dari suatu
terbaik. Kata tersebut merupakan himpunan kasus. Persamaan 2 digunakan untuk
dari semua kata yang ada pada data latih.

2
menghitung derajat bebas saat menggunakan Pada penelitian ini, mengukur
tabel kontingensi derajat kebebasan antara kata penciri
dengan kelas agar dapat dibandingkan
dengan persebaran nilai (Mesleh 2007).
Chi-kuadrat mengevaluasi korelasi antara
dua variabel dan kemudian menentukan
dengan N adalah ukuran sampel yang
apakah saling bebas atau berhubungan sesuai
diambil, R adalah jumlah baris dan C adalah
dengan nilai pada tabel chi.
jumlah kolom. Distribusi chi-kuadrat untuk
Penghitungan nilai chi-kuadrat pada
berbagai nilai diperlihatkan pada Gambar 1.
setiap kata yang muncul pada setiap kelas
Gambar 1 menunjukkan bahwa masing-
dapat dibantu dengan menggunakan tabel
masing distribusi merupakan distribusi
kontingensi. Nilai yang terdapat pada tabel
probabilitas, sehingga luas di bawah kurva
kontingensi merupakan nilai frekuensi
bernilai 1.
observasi dari suatu kata terhadap kelas.
Tabel 1 menunjukkan tabel kontingensi
antara kata terhadap kelas. Apabila frekuensi
harapan pada kata dan kelas q adalah Epq,
banyaknya frekuensi observasi dalam
dokumen adalah , maka peluang
dan dapat
digunakan untuk menghitung frekuensi
harapan yang diperoleh dengan rumus pada
Persamaan 4:
)
dengan nilai peluang kata dan peluang kelas:
Gambar 1 Distribusi chi-kuadrat.
Pengaruh antara frekuensi sampel dan
frekuensi harapan dapat diuji menggunakan
suatu hipotesis H0. Hipotesis nol adalah
hipotesis yang menyatakan tidak adanya Tabel 1 Tabel kontingensi antara kata
perbedaan yang signifikan antara frekuensi terhadap kelas
observasi dengan frekuensi harapan.
Pengujian hipotesis dilakukan pada tingkat Kelas
signifikansi tertentu. Tingkat signifikansi
yang dimaksud adalah peluang salah menolak Kelas = 1 Kelas = 0
hipotesis yang seharusnya benar (Spiegel Kata = 1 A B
2004). Penghitungan nilai chi-kuadrat yang Kata
digunakan untuk melakukan pengujian Kata = 0 C D
perbedaan antara pola frekuensi observasi
( ), dengan frekuensi harapan ( ) Penghitungan nilai chi-kuadrat
ditunjukkan pada Persamaan 3. berdasarkan tabel kontingensi tersebut
disederhanakan dalam Persamaan 5.

Berdasarkan nilai chi-kuadrat tersebut dengan t merupakan kata yang sedang


dapat diambil suatu keputusan statistik diujikan terhadap suatu kelas c, merupakan
apakah terjadi perbedaan antara pola jumlah dokumen latih, merupakan
frekuensi observasi dengan frekuensi banyaknya dokumen pada kelas yang
harapan. Hipotesis nol (H0) diterima jika nilai memuat kata , merupakan banyaknya
penghitungan < nilai kritis pada derajat dokumen yang tidak berada di namun
bebas dan tingkat signifikansi tertentu. memuat kata , merupakan banyaknya
Hipotesis nol (H0) ditolak jika nilai dokumen yang berada di kelas namun tidak
penghitungan > nilai kritis pada derajat memiliki kata di dalamnya, serta
bebas dan tingkat signifikansi tertentu. merupakan banyaknya dokumen yang bukan

3
merupakan dokumen kelas dan tidak konteks kelas (McCallum & Nigam 1998).
memuat kata . Meskipun secara umum asumsi tersebut
merupakan asumsi yang buruk, pada
Pengambilan keputusan dilakukan
praktiknya metode Naïve Bayes menunjukkan
berdasarkan nilai dari masing-masing kinerja yang sangat baik (Rish 2001).
kata. Kata yang memiliki nilai di atas nilai
kritis pada tingkat signifikansi α adalah kata Menurut Manning (2008), peluang
yang akan dipilih sebagai penciri dokumen. Bayes dapat digunakan untuk menghitung
Kata yang dipilih sebagai penciri merupakan peluang bersyarat, yaitu peluang kejadian
kata yang memiliki pengaruh terhadap kelas apabila suatu kejadian diketahui. Metode ini
. Nilai kritis untuk tingkat signifikansi α dapat memprediksi kemungkinan anggota
ditunjukkan oleh Tabel 2. Tabel distribusi suatu kelas berdasarkan sampel yang berasal
chi-kuadrat pada berbagai tingkat dari anggota kelas tersebut. Klasifikasi Naïve
signifikansi dan derajat bebas tertentu Bayes termasuk dalam model multinomial
ditunjukkan dalam Lampiran 2. yang mengambil jumlah kata yang muncul
pada sebuah dokumen. Pada model ini
Tabel 2 Nilai kritis untuk tingkat sebuah dokumen terdiri atas beberapa
signifikansi α kejadian kata. Berdasarkan asumsi Bayes,
kemungkinan tiap kejadian kata dalam tiap
α Nilai Kritis
dokumen adalah bebas, tidak terpengaruh
0,1 2,71 dengan konteks kata dan posisi kata dalam
dokumen.
0,05 3,84
Berdasarkan teori Bayes, peluang
0,01 6,63
dokumen d untuk masuk ke dalam kelas c
0,005 7,83 atau P | ditunjukkan pada Persamaan 6:
0,001 10,83 |
|
Document frequency thresholding (DF)
dengan P(d|c) adalah peluang kemunculan
Document frequency thresholding (df) dokumen d di kelas c, adalah peluang
merupakan jumlah dokumen pada setiap kata awal suatu dokumen masuk ke dalam kelas c,
unik yang muncul. Penghitungan df akan dan P(d) adalah peluang awal kemunculan
menghitung kemunculan kata unik dalam dokumen d. Peluang awal kemunculan
dokumen d dapat diabaikan karena memiliki
suatu kumpulan dokumen latih. Untuk nilai yang sama untuk seluruh kelas c,
menentukan bahwa kata tersebut berpengaruh sehingga Persamaan 6 dapat disederhanakan
terhadap suatu kumpulan dokumen, dalam Persamaan 7:
digunakan nilai threshold (Yimming 1997).
| |
Penentuan nilai threshold dilakukan dengan
melihat sebaran kata dalam keseluruhan Rumus untuk menghitung nilai peluang
dokumen latih. dokumen masuk ke dalam kelas c dan
peluang kemunculan dokumen d berada pada
Kata yang memiliki nilai df di atas nilai kelas c adalah
threshold yang telah ditentukan merupakan
kata yang berpengaruh pada sekumpulan |

dokumen latih. Kata dengan nilai df yang
dengan Nc adalah banyaknya dokumen dalam
rendah merupakan kata yang jarang muncul
kelas c, N adalah total dokumen, Tcd adalah
dalam koleksi dokumen latih. Dengan banyaknya d dalam dokumen latih dari kelas
demikian, kata tersebut dianggap sebagai c.
noise dalam data latih.
Menurut Manning et al. (2008) kelas
Naive Bayes classifier yang paling sesuai bagi dokumen d adalah
kelas yang memiliki nilai | paling
Metode klasifikasi Naïve Bayes adalah tinggi yaitu seperti ditunjukkan pada
salah satu metode klasifikasi yang Persamaan 8:
mengasumsikan seluruh atribut dari contoh
yang bersifat independen satu sama lain pada |

4
Nilai peluang awal dapat dokumen relevan yang ditampilkan (retrieve)
diestimasi dengan melihat jumlah dokumen terhadap jumlah seluruh dokumen yang
yang dimiliki oleh kelas c relatif terhadap relevan. Precision adalah rasio jumlah
jumlah seluruh dokumen yang ada. Nilai dokumen relevan yang ditampilkan terhadap
peluang awal | diestimasi secara jumlah seluruh dokumen yang ditampilkan
berbeda untuk setiap model Naïve Bayes (Manning 2008). Perhitungan recall-
(Metsis et al. 2006). precision dijelaskan pada Persamaan 10 dan
Persamaan 11 berikut.
Confusion matrix
Confusion matrix merupakan sebuah
tabel yang terdiri atas banyaknya baris data
uji yang diprediksi benar dan salah oleh
model klasifikasi, yang digunakan untuk (10)
menentukan kinerja suatu model klasifikasi
(Tan et al. 2005). Data uji diujikan untuk
mendapatkan tingkat akurasi hasil prediksi
yang berupa jumlah true positive, true
negative, false positive, dan false negative (11)
seperti yang dilihat pada Tabel 3 (Rachman Menurut Baeza-Yates dan Ribeiro-
2011). Neto (1999), algoritme temu-kembali yang
Tabel 3 Confusion matrix untuk klasifikasi dievaluasi menggunakan beberapa kueri
biner berbeda, akan menghasilkan nilai R-P
yang berbeda untuk masing-masing kueri.
Predicted Class Average Precision (AVP) diperlukan untuk
Class = 1 Class = 0 menghitung rata-rata tingkat precision
pada 11 tingkat recall, yaitu 0.0, 0.1, 0.2,
Actual Class = 1 F11 F10 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0.
Class Persamaan 12 merupakan formula untuk
Class = 0 F01 F00
menghitung AVP.

Keterangan untuk Tabel 3 dinyatakan sebagai


( ) ∑
berikut :
 F11, yaitu jumlah dokumen dari kelas 1 Asumsi, P (rj) adalah AVP pada level
yang benar diklasifikasikan sebagai kelas recall r, Nq adalah jumlah kueri yang
1. digunakan, dan adalah precision
 F00, yaitu jumlah dokumen dari kelas 0 pada level recall r untuk kueri ke-i.
yang benar diklasifikasikan sebagai kelas SphinxSearch
0.
 F01, yaitu jumlah dokumen dari kelas 0 Sphinx adalah platform search engine
yang salah diklasifikasikan sebagai kelas yang didistribusikan pada GPL versi 2.
1. Secara teknis, Sphinx merupakan perangkat
 F10, yaitu jumlah dokumen dari kelas 1 lunak yang menyediakan fungsionalitas
yang salah diklasifikasikan sebagai kelas pencarian teks secara cepat dan relevan pada
0. aplikasi yang berjalan di lingkungan klien.
Sphinx telah dirancang khusus untuk
Perhitungan akurasi dinyatakan dalam berintegrasi dengan database SQL dan
Persamaan 9. bahasa pemrograman tertentu (STI 2008).
Sphinx memiliki dua jenis fungsi
pembobotan, yaitu phase rank dan statistical
rank. Phase rank adalah fungsi pembobotan
Recall precision berdasarkan panjang kata antara tubuh
dokumen dan frasa kueri. Statistical rank
Recall Precision adalah kriteria yang adalah fungsi pembobotan berdasarkan
digunakan untuk mengevaluasi tingkat frekuensi kata dalam dokumen. Salah satu
efektifitas kinerja sistem temu kembali mode pembobotan berdasarkan statistical
informasi. Recall adalah rasio jumlah rank adalah BM25.

5
Pada tahap pembangunan sistem temu METODE PENELITIAN
kembali informasi, terlebih dahulu dilakukan
pemrosesan dokumen dengan menggunakan Penelitian ini dilaksanakan dalam
SphinxSearch. Langkah yang dilakukan beberapa tahapan yang diilustrasikan pada
pertama kali yaitu melakukan pengindeksan Gambar 2. Data yang diproses dalam sistem
ke semua koleksi dokumen. Proses ini adalah koleksi dokumen. Input lain
pengeindeksan menghasilkan file hash. yang digunakan adalah stopwords yang
Perintah yang diberikan untuk melakukan merupakan daftar kata buang yang akan
pengindeksan koleksi dokumen adalah digunakan pada tahapan praproses. Tahap
sebagai berikut: selanjutnya adalah dilakukan proses
pemilihan fitur pada dokumen latih,
C:\Sphinx\bin\indexer.exe --config kemudian hasilnya digunakan sebagai
C:\Sphinx\sphinxDb.conf --all
landasan dalam pembuatan vector space
Langkah selanjutnya yaitu pembuatan service model. Vector space model digunakan untuk
pada windows dengan nama SphinxSkripsi melakukan pembobotan terhadap kata
yang dapat dibuat dengan perintah sebagai sehingga akan merepresentasikan dokumen
berikut: ke dalam bentuk vektor.

C:\Sphinx\bin> Tahapan berikutnya adalah melakukan


C:\Sphinx\bin\searchd –install – klasifikasi Naïve Bayes pada dokumen uji
config yang belum diketahui kelasnya. Tahapan ini
C:\Sphinx\sphinxDb.conf – bertujuan untuk membangun model
servicename SphinxSkripsi
klasifikasi yang berupa indeks klasifikasi.
Service pada windows berguna untuk mencari Tahapan selanjutnya setelah model klasifikasi
hasil pengindeksan yang berupa file hash. terbentuk yaitu pembangunan sistem temu
kembali informasi yang akan mencari
Pembobotan BM25
informasi berdasarkan hasil klasifikasi pada
Metode BM25 merupakan metode sistem. Pada tahap akhir, dilakukan evaluasi
pembobotan kata yang memeringkatkan terhadap kinerja sistem klasifikasi dan kinerja
setiap kumpulan dokumen yang didasarkan sistem sistem temu kembali informasi yang
pada kata dalam kueri yang muncul pada dihasilkan.
setiap dokumen. Rumus dalam menghitung
Dokumen tumbuhan obat
skor pada algoritme BM25 ditunjukkan pada
Persamaan 13 berikut Penelitian ini menggunakan koleksi
dokumen tumbuhan obat sebagai korpus. Isi
dari dokumen tidak diubah sehingga
kesalahan ejaan dan tata bahasa tidak
∑ diperbaiki. Koleksi dokumen tumbuhan obat
| |
berjumlah 132 dokumen yang diperoleh dari
buku-buku berikut:
(13)
1. Atlas Tumbuhan Obat Indonesia Jilid 1.
Persamaan 13 menjelaskan bahwa
Oleh dr. Setiawan Dalimartha
merupakan term frequency pada 2. Atlas Tumbuhan Obat Indonesia Jilid 2.
dokumen D, |D| merupakan banyaknya kata Oleh dr. Setiawan Dalimartha
dalam dokumen D, dan avg dl merupakan 3. Atlas Tumbuhan Obat Indonesia Jilid 3.
rata-rata panjang dokumen dalam kumpulan Oleh dr. Setiawan Dalimartha
teks dari dokumen tersimpan. k1 dan b 4. Obat Asli Indonesia Oleh Dr. Seno
merupakan parameter bebas dimana nilai Sastroamidjojo
yang biasa dipilih untuk k1=2,0 dan b=0,75. 5. Ensiklopedi Millenium Jilid 1: Tumbuhan
IDF(qi) merupakan bobot dari kata qi. Rumus Berkhasiat Obat Indonesia.
untuk menghitung IDF ditunjukkan pada 6. Tumbuhan Obat dan Khasiatnya. Oleh
Persamaan 14 sebagai berikut Drs. H. Arief Hariana.

dimana N merupakan banyaknya koleksi


dokumen, dan merupakan jumlah
dokumen yang memuat kata qi.

6
terdapat pada Gambar 3. Dokumen
Mulai dikelompokkan ke dalam tag sebagai berikut:
 <DOK></DOK>, tag ini mewakili
Klasifikasi keseluruhan dokumen dan melingkupi
Dokumen tag-tag lain yang lebih spesifik.
tumbuhan  <ID></ID>, tag ini menunjukkan ID dari
obat dokumen.
 <NAMA></NAMA>, tag ini
menunjukkan nama dari suatu jenis
Praproses tanaman obat.
data  <NAMAL></NAMAL>, tag ini
menunjukkan nama latin dari tanaman
obat.
Pembagian
data  <DESKRIPSI></DESKRIPSI>, tag ini
mewakili isi dari dokumen meliputi
deskripsi tanaman dan kegunaannya.
 <FAM></FAM>, tag ini menunjukkan
Data Data uji nama family dari tanaman obat.
latih
 <PENYAKIT></PENYAKIT>, tag ini
menunjukkan penyakit yang dapat
Pemilihan disembuhkan dari jenis tumbuhan obat.
fitur
Tabel 4 Distribusi dokumen penyakit
Klasifikasi Index Jumlah
No Kelas
Naïve Bayes klasifikasi Dokumen
1 Kronis 9
2 Kulit 15
Index 3 Nyeri-radang-demam 24
Kueri 4 Pencernaan 35
klasifikasi
5 Perawatan 27
6 Pernapasan saluran 15
Temu 7 Kemih 6
kembali
Temu Kembali
Informasi Tabel 5 Distribusi dokumen family

Peringkat Jumlah
No Kelas
dokumen Dokumen
1 Achantaceae 8
2 Agavaceae 4
3 Amaranthaceae 13
Selesai Evaluasi 4 Apiaceae 9
5 Apocynaceae 5
6 Araliaceae 3
Gambar 2 Tahapan penelitian. 7 Bromeliaceae 5
Klasifikasi dokumen dikategorikan ke 8 Crassulaceae 4
dalam kategori kelas family dan kategori 9 Euphorbiaceae 12
penyakit. Pemilihan kategori tersebut karena 10 Lamiaceae 15
kedua informasi mengenai family tumbuhan 11 Menispermaceae 6
obat dan penyakit yang dapat disembuhkan 12 Moraceae 6
oleh suatu jenis tumbuhan obat adalah 13 Myrtaceae 15
informasi yang sering dicari. Tabel 4 14 Pandanaceae 5
menjelaskan distribusi dokumen pada 15 Portulacaceae 6
kategori kelas penyakit untuk setiap kelasnya. 16 Rutaceae 12
Tabel 5 menjelaskan distribusi dokumen pada 17 Smilacaceae 3
kategori kelas family untuk setiap kelasnya.
Koleksi dokumen bertipe file .txt
dengan contoh format dokumen yang

7
relatif sama. Data latih digunakan sebagai
<dok> input pelatihan pengklasifikasi Naive Bayes,
<id>6</id>
<nama>Kumis Kucing</nama>
sedangkan data uji digunakan untuk menguji
<namal>Orthosiphon aristatus model hasil pelatihan Naive Bayes.
(Bl.) Miq.</namal> Pemilihan fitur
<deskripsi>Famili : Lamiaceae.
Nama Lokal : Kumis kucing, Hasil dari tahap praproses adalah vector
.... </deskripsi> term yang kemudian akan dilakukan
<fam>Lamiaceae</fam> pemilihan fitur. Pemilihan fitur memiliki dua
<penyakit>Saluran
tujuan, yaitu mengurangi jumlah kata yang
Kemih</penyakit>
</dok> digunakan dan meningkatkan akurasi hasil
klasifikasi (Manning 2008). Fitur inilah yang
Gambar 3 Format koleksi dokumen. kemudian digunakan pada tahap klasifikasi
dokumen.
Praproses data
Pada penelitian ini, pemilihan fitur
Tahap praproses diawali dengan dilakukan dengan dua metode yaitu uji chi-
lowercasing, tokenisasi, dan pembuangan kuadrat dan document thresholding
stopwords. Lowercasing adalah proses untuk frequency(df). Teknik pemilihan fitur yang
mengubah semua huruf mejadi huruf non- terbaik di antara kedua teknik tersebut
capital agar menjadi case-insensitive pada kemudian digunakan sebagai teknik yang
saat dilakukan pemrosesan teks dokumen. digunakan pengembangan sistem.
Tokenisasi adalah suatu tahap pemrosesan Teknik chi-kuadrat memilih fitur
teks input yang dibagi menjadi unit-unit kecil berpengaruh dengan menghitung nilai
yang disebut token atau term, yang dapat antara kata dengan kelas yang dinyatakan
berupa suatu kata atau angka. Token yang dalam Persamaan 5. Pemilihan fitur
dimaksud dalam penelitian ini adalah kata dilakukan pada dua tingkat signifikansi ,
atau term. Proses tokenisasi dilakukan sesuai yaitu 0.01 dan 0.001. Kata yang terpilih pada
dengan aturan berikut : tingkat signifikansi adalah kata
 Teks dipotong menjadi token. Karakter yang memiliki nilai diatas nilai kritis 6.63,
yang dianggap sebagai karakter pemisah sedangkan kata yang terpilih pada tingkat
token didefinisikan dengan ekspresi signifikansi adalah kata yang
regular berikut : memiliki nilai di atas nilai kritis 10.83.
/[\s\-+\/*0-9%,.\"\];()\':=`?\[!@><]+/ Teknik df memilih fitur berpengaruh
dengan cara menerapkan nilai threshold pada
 Token yang terdiri atas karakter numerik
penghitungan jumlah kata yang muncul
saja tidak diikutsertakan
dalam koleksi dokumen latih. Nilai threshold
 Besar kecilnya karakter dari token
yang digunakan dalam penelitian ini adalah
dipertahankan atau tidak dilakukan
threshold 3 dan 8. Kata yang terpilih dalam
penyeragaman.
pemilihan fitur df, merupakan kata yang
Stopwords merupakan daftar kata-kata memiliki nilai penghitungan df diatas nilai
yang dianggap tidak memiliki makna. Kata threshold yang sedang digunakan.
yang tercantum dalam daftar ini dibuang dan Fitur yang dihasilkan pada tahapan
tidak ikut diproses pada tahap selanjutnya. pemilihan fitur akan digunakan untuk
Kata-kata yang termasuk dalam stopwords membuat vector space model. Model terdiri
pada umumnya merupakan kata-kata yang atas beberapa dokumen yang
sering muncul di setiap dokumen sehingga direpresentasikan sebagai vektor dari
kata tersebut tidak dapat digunakan sebagai frekuensi kemunculan fitur.
penciri suatu dokumen.
Klasifikasi Naïve Bayes
Pembagian data
Hasil matriks kata pada vector space
Dokumen tumbuhan obat yang telah model digunakan pada sistem klasifikasi
melewati tahap praproses data kemudian untuk menglasifikasikan dokumen baru.
dibagi menjadi dua, yaitu data latih dan data Tahapan pertama yang dilakukan adalah
uji dengan persentasi 70:30. Sebanyak 93 menghitung peluang kata terhadap dokumen
dokumen digunakan sebagai dokumen latih latih yang mencerminkan suatu kelas. Pada
dan 39 dokumen sebagai dokumen uji. Tiap saat melakukan penghitungan tf, dilakukan
kelas dalam koleksi memiliki jumlah yang juga penghitungan jumlah kata unik dalam

8
dokumen latih, dan penghitungan jumlah kata informasi terhadap suatu kueri. Penghitungan
yang terdapat pada dokumen yang berada AVP dinyatakan dalam Persamaan 12.
dalam satu kelas yang sama.
Tabel 6 Kumpulan kueri uji
Nilai peluang kata yang didapat No Kueri
kemudian digunakan untuk melakukan
penghitungan Naïve Bayes pada dokumen uji 1 Kanker
untuk setiap kelasnya. Kemudian diambil 2 Flu
nilai peluang yang terbesar pada nilai 3 Diabetes
penghitungan Naïve Bayes. Nilai tersebut
4 Pusing
merupakan kelas dari dokumen uji tersebut.
5 Merambat
Temu kembali informasi
6 Menjari
Model klasifikasi yang telah terbentuk 7 Bergerigi
kemudian digunakan pada sistem temu
kembali informasi untuk ditemukembalikan. 8 Menyirip
Tujuan temu kembali ini adalah agar 9 Vitamin
pengguna mendapatkan informasi dengan 10 Antioksidan
lebih mudah dan terstruktur. Sistem temu
11 Protein
kembali informasi melakukan pengindeksan
dokumen sumber (corpus) hanya pada kelas 12 Kalsium
tertentu saja berdasarkan kuerinya. 13 Diseduh
Pembobotan BM25 digunakan untuk 14 Ditumbuk
menghitung bobot kedekatan kueri dengan
dokumen koleksi. Penghitungan pembobotan 15 Diperas
BM25 telah dijelaskan seperti pada 16 Batuk Pilek
Persamaan 13 dan Persamaan 14. 17 Kencing Batu
Evaluasi model klasifikasi 18 Datang Bulan
Evalusi kinerja model penglasifikasi 19 Gatal-gatal
Naive Bayes dilakukan dengan menghitung 20 Sesak Nafas
persentase ketepatan suatu dokumen 21 Tumbuhan Merambat
tumbuhan obat masuk ke dalam kelas
22 Tanaman Hias
tertentu. Evaluasi untuk model penglasifikasi
Naive Bayes dinyatakan dalam bentuk 23 Daun Elips
confusion matrix. Penghitungan nilai akurasi 24 Buah Buni
terhadap model klasifikasi diperoleh melalui 25 Kalsium Oksalat
Persamaan 9.
26 Zat Warna
Evaluasi sistem temu kembali
27 Obat Diseduh
Evaluasi kinerja sistem temu kembali 28 Obat Ditumbuk
informasi dilakukan dengan menghitung nilai 29 Buah Diperas
recall dan precision dari 29 kueri yang
diujikan pada sistem. Kueri uji ditentukan Lingkungan pengembangan sistem
dengan cara memilih kata-kata yang
Penelitian ini menggunakan perangkat
mewakili isi setiap tumbuhan obat. Kata-kata
lunak dan perangkat keras dengan spesifikasi
tersebut menceritakan tentang penyakit yang
adalah sebagai berikut :
dapat disembuhkan, kandungan kimia dalam
suatu tumbuhan obat, karakteristik fisik 1. Perangkat Lunak :
tumbuhan obat tertentu, dan cara penggunaan  Sistem operasi Microsoft Windows XP
suatu tumbuhan obat tertentu. Tabel 6  Notepad++ sebagai code editor
menunjukkan rincian kueri uji.  Server XAMPP
Penghitungan nilai recall precision yang  Perangkat lunak MySQL untuk
dinyatakan dalam Persamaan 10 dan database
Persamaan 11 dilakukan untuk melihat  Web Browser (melalui Local Area
tingkat efektifitas proses temu kembali Connection): Mozilla Firefox
2. Perangkat Keras :
 Intel Pentium Core i3 @3.0 Ghz

9
 Memory 2990MB RAM menjelaskan bahwa waktu rata-rata yang
 Harddisk dengan kapasitas sisa 300GB digunakan untuk memproses satu dokumen
 Monitor resolusi 1366 x 768 pixel uji pada pemilihan nilai signifikansi 0,001
Mouse dan keyboard adalah selama 0,7 menit dan pada pemilihan
nilai signifikansi 0,01 adalah selama 2,15
menit.
HASIL DAN PEMBAHASAN 2.5
2.15
Praproses
2
Pengindeksan dokumen latih yang

Waktu (menit)
keseluruhan berjumlah 93 dokumen
menghasilkan 3.312 dan 10.346 kata yang 1.5
0.001
berupa kata unik yang ditemui di setiap
0.01
dokumen dalam keseluruhan dokumen latih. 1
Pemilihan fitur 0.7
0.5
Vektor kata unik yang telah dihasilkan
dari tahapan praproses kemudian diproses
pada tahap pemilihan fitur. Tahapan 0
pemilihan fitur dokumen diujikan terhadap Nilai Kritis
dua teknik berbeda. Teknik pemilihan fitur Gambar 4 Rataan waktu proses klasifikasi
dokumen yang pertama adalah dengan teknik pada setiap pemilihan nilai kritis
chi-kuadrat. Pada teknik pemilihan fitur (chi-kuadrat).
berikutnya adalah dengan menggunakan
teknik document frequency thresholding Pemilihan nilai signifikansi 0,001
(DF). memberikan kinerja klasifikasi yang lebih
baik daripada ketika pemilihan nilai
a. Chi-kuadrat (χ2) signifikansi 0,01. Hal itu dikarenakan pada
Pemilihan fitur dengan teknik chi- pemilihan nilai signifikansi 0,001
kuadrat dilakukan pada dua nilai signifikansi menghasilkan himpunan kata penciri yang
(Tabel 2). Berdasarkan teori terpenuhinya berjumlah lebih sedikit daripada jumlah kata
hipotesis, nilai signifikansi 0,001 dapat penciri yang dihasilkan pada pemilihan nilai
diartikan bahwa kriteria kata yang dipilih signifikansi 0,01.
adalah kata yang memiliki nilai χ2 diatas b. Document frequency thresholding (df).
10,83. Nilai signifikansi 0,01 diartikan Pemilihan fitur dokumen dengan teknik
sebagai kriteria kata yang dipilih adalah document frequency thresholding (df)
untuk setiap kata yang memiliki nilai χ2 dilakukan pada dua nilai threshold. Nilai
diatas 6,63. Hasil dari tahapan ini adalah threshold yang digunakan adalah pada
2.942 kata unik pada pemilihan nilai threshold 3 dan 8. Hipotesis nol akan ditolak
signifikansi 0,01 dan 1.578 kata unik pada jika nilai threshold suatu kata lebih dari nilai
pemilihan nilai signifikansi 0,001. Kumpulan threshold yang digunakan. Nilai threshold 3
kata yang dihasilkan pada tahapan pemilihan menghasilkan kata penciri dokumen latih
fitur inilah yang kemudian hanya akan diolah sebanyak 935 kata. Nilai threshold 8
pada sistem klasifikasi. menghasilkan kata penciri dokumen latih
Klasifikasi dokumen pada nilai sebanyak 417 kata. Kumpulan kata yang
signifikansi 0,01 dan 0,001 memiliki akurasi dihasilkan pada tahapan pemilihan fitur inilah
yang sama besar yaitu 97,44% untuk kategori yang kemudian hanya akan diolah pada
family dan 89,74% untuk kategori penyakit sistem klasifikasi.
(Gambar 6). Pengaruh nyata yang diberikan Klasifikasi dokumen pada nilai
oleh teknik pemilihan fitur dokumen terlihat threshold 3 dan 8 memiliki akurasi 58,97%
pada lama waktu pemrosesan suatu dokumen untuk kategori family dan 76,92% untuk
uji hingga diklasifikasikan ke dalam kelas kategori penyakit. Gambar 5 menunjukkan
yang tepat. Gambar 4 menunjukkan waktu waktu rata-rata yang diperlukan untuk
rata-rata yang diperlukan untuk menglasifikasikan dokumen uji pada setiap
menglasifikasikan dokumen uji pada setiap nilai threshold yang digunakan. Gambar 5
nilai signifikansi yang digunakan. Gambar 4 menjelaskan bahwa waktu rata-rata yang

10
digunakan untuk memproses satu dokumen berdasarkan penyakit, yaitu masing-masing
uji pada pemilihan nilai threshold 3 adalah sebesar 97,44% dan 89,74%. Hal tersebut
selama 6,80 menit dan pada pemilihan nilai disebabkan oleh metode klasifikasi Naive
threshold 8 adalah selama 5,36 menit. Bayes bekerja dengan memperhitungkan
peluang kemunculan suatu kata yang terdapat
8 pada dokumen uji yang dihitung terhadap
6.8 kemunculan kata dalam suatu kelas dokumen
7 latih.
6 5.36
Waktu (menit)

5 100 97.44
89.74
3 90
4
80
3 8
70
2

Persentase
60
Family
1 50
Penyakit
0 40
Nilai threshold 30
20
Gambar 5 Rataan waktu proses klasifikasi
pada setiap pemilihan nilai 10
threshold (df). 0
Berdasarkan hasil penelitian tersebut, Kategori Kelas
sistem dikembangkan menggunakan Gambar 6 Akurasi sistem klasifikasi.
pemilihan fitur dokumen chi-kuadrat pada
nilai signifikansi 0,001. Pemilihan teknik chi- Kata dalam dokumen uji pada dokumen
kuadrat dikarenakan pada teknik tersebut yang salah penglasifikasian memiliki peluang
memiliki tingkat akurasi klasifikasi yang kemunculan kata yang lebih besar untuk
lebih baik dan membutuhkan waktu lebih muncul pada kelas dokumen yang salah. Hal
cepat untuk menglasifikasikan dokumen uji ini membuat keakurasian dalam
daripada teknik document thresholding penglasifikasian dokumen menjadi rendah.
frequency(df). Untuk kategori family, rata-rata dokumen uji
masuk ke dalam kelas yang tepat, karena kata
Pengujian kinerja sistem penciri untuk suatu kelas family tertentu
Proses evaluasi yang dilakukan terdiri berbeda antar setiap kelasnya.
atas dua proses evaluasi. Evaluasi pertama b. Akurasi sistem temu kembali informasi
adalah pengujian tingkat akurasi sistem
klasifikasi, dan evaluasi berikutnya adalah Evaluasi sistem temu kembali informasi
pengujian tingkat akurasi sistem temu dilakukan menggunakan 29 kueri uji yang
kembali informasi. Evaluasi sistem dilakukan merepresentasikan isi dokumen. Kumpulan
sesuai pada hasil pemilihan fitur dokumen kata kueri yang digunakan dalam pengujian
pada tingkat signifikansi 0,001. sistem temu kembali informasi dapat dilihat
pada Tabel 6.
a. Akurasi sistem klasifikasi
Pengujian sistem temu kembali
Akurasi dari sistem klasifikasi dapat informasi dilakukan menggunakan recall
dihitung dengan menggunakan bantuan tabel precision. Hasil penghitungan recall
confussion matrix. Pada kategori kelas family precision ditunjukkan pada Gambar 7.
tabel confussion matrix ditunjukkan pada
Lampiran 5 dan untuk kelas penyakit
ditunjukkan pada Lampiran 6.
Akurasi sistem klasifikasi dapat dilihat
pada Gambar 5. Akurasi sistem klasifikasi
yang dikelaskan berdasarkan family
tumbuhan obat memiliki tingkat akurasi yang
lebih tinggi daripada sistem yang dikelaskan

11
1
memperhatikan kedekatan kata yang
digunakan pada kueri.
0.9

0.8
KESIMPULAN DAN SARAN
0.7
Kesimpulan
0.6
Precision

Penelitian ini menganalisis kinerja chi-


0.5 kuadrat dibanding dengan kinerja document
thresholding frequency (df) sebagai
0.4
pengekstraksi fitur yang kemudian diterapkan
0.3 ke dalam klasifikasi Naïve Bayes untuk
membuat model klasifikasi sebagai dasar dari
0.2 sistem temu kembali informasi. Dari hasil
0.1 yang diperoleh dapat disimpulkan bahwa:

0
1. Penerapan teknik pemilihan fitur
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 dokumen dapat meningkatkan kinerja
Recall sistem klasifikasi.
2. Kinerja pemilihan fitur dokumen dengan
Gambar 7 Grafik recall precision kueri uji teknik chi-kuadrat lebih baik dibanding
dengan document thresholding
Gambar 7 menunjukkan nilai recall
frequency(df).
precision yang tinggi. Hal tersebut dibuktikan
3. Penggunaan nilai signifikansi 0,001
dengan melihat hasil dokumen yang
memberikan kinerja klasifikasi yang lebih
dikembalikan kepada pengguna. Nilai
baik daripada penggunaan nilai
average precision adalah sebesar 93,26%.
signifikansi 0,01 sehingga sistem
Dapat disimpulkan bahwa kinerja sistem
dikembangkan pada nilai signifikansi
temu kembali informasi memiliki tingkat
0,001 untuk pengekstraksi fiturnya.
keakuratan yang baik untuk setiap kueri uji
4. Sistem klasifikasi memiliki tingkat
yang diberikan.
akurasi yang tinggi yaitu sebesar 97,44%
Dokumen yang tidak relevan namun untuk kategori klasifikasi berdasar family
ikut ditemukembalikan hanya terjadi pada dan 89,74% untuk klasifikasi berdasar
kueri uji „kalsium‟, „vitamin‟, „buah diperas‟, penyakit.
„gatal-gatal‟, dan „zat warna‟. Hal ini 5. Temu kembali informasi menggunakan
disebabkan karena kueri tersebut memiliki Sphinx memberikan hasil yang sangat
banyak arti penerjemahan antar setiap memuaskan. Ditunjukkan dengan nilai
dokumen tumbuhan obat sehingga kueri AVP sebesar 93,26%.
tersebut tidak mampu mewakili informasi
Saran
yang sebenarnya diinginkan oleh pengguna.
Misalnya informasi yang diinginkan Beberapa hal yang perlu dikembangkan
pengguna adalah informasi mengenai dalam penelitian ini:
kandungan kalsium dalam tumbuhan obat 1. Menggunakan dokumen corpus yang
(kueri „kalsium‟), namun sistem lebih beragam dan dalam jumlah yang
menemukembalikan informasi mengenai lebih banyak.
penyakit yang terjadi akibat kekurangan 2. Melakukan stemming pada proses
kalsium (kueri „kalsium‟). Kesalahan sistem pengindeksan awal.
dalam menemukembalikan dokumen 3. Menggunakan kamus frase untuk
disebabkan juga karena sistem melakukan memproses kata.
pencarian dokumen untuk masing-masing 4. Penelitian ini menggunakan metode chi-
kata kueri secara terpisah sehingga kuadrat untuk memilih fitur dokumen.
menyebabkan dokumen yang tidak relevan Disarankan untuk menggunakan metode
ikut terambil lebih banyak. Misalnya untuk pemilihan fitur yang lain, seperti
kueri „zat warna‟, sistem akan melakukan Information Gain, karena metode yang
pembobotan terhadap kata „zat‟ dan kata digunakan dalam penelitian ini
„warna‟. Hal ini sejalan dengan metode membutuhkan waktu komputasi yang
pembobotan BM25 yang hanya lama untuk melakukan pemilihan fitur
memperhatikan kemunculan satu kata tanpa dokumen.

12
5. Penelitian ini menggunakan metode Naïve CEAS 2006 – Third Conference on Email
Bayes sebagai sistem klasifikasi and AntiSpam.
dokumen. Disarankan untuk
Rish et al. 2001. An analysis of data
menggunakan metode klasifikasi
characteristics that affect naïve Bayes
dokumen lainnya seperti SVM atau
performance. -.
metode fuzzy.
Seddiqui M H., Aono M., 2000. Use of
Ontology in Text Classification.
DAFTAR PUSTAKA Toyohashi University of Technology.
Japan.
Baeza-Yates R, Riberio-Neto B. 1999.
Modern Information Retrieval. England: Spiegel M. 2004. Schaum’s Easy Outlines.
Addison Wesley. Jakarta: Erlangga.
El-Kourdi, M., Bensaid, A., and Rachidi, T. Steinbach M., Karypis G., Kumar V., 2000. A
“Automatic Arabic Document Comparison of Document Clustering
Categorixation Based on the Naïve Bayes Techniques. Department of Computer
Algorithm,” 20th International Conference Science and Egineering. University of
on Computational Linguistics, 2004, Minnesota. Minnesota.
Geneva. Tan et al. 2006. Introduction to Data Mining.
Forman G., M. “An Extensive Empirical USA: Addison Wesley.
Study of Feature Selection Metrics for Thabtah, Fadi. “Naïve Bayesian Based on
Text Classification,” Journal of Machine Chi Square to Categorize Arabic
Learning Research 3 (2003) 1289-1305. Data,”Camunication of the IBIMA Vol.
Hadi W., Thabtah F., ALHawari S., Ababneh 10, 2009.
J.”Naive Bayesian and K-Nearest Yang Y, Pedersen J. 1997. A Comparative
Neighbour to Categorize Arabic Text Study on Feature Selection in Text
Data, “In Proceedings of the European Categorization. International Conference
Simulation and Modeling Conference, Le on Machine Learning 1997.
Havre, France, 2008
Zuhud, E.A.M. 2009. Potensi Hutan Tropika
Han J, Kamber M. 2006. Data Mining : Indonesia sebagai Penyangga Bahan
Concepts and Techniques. USA : Morgan Obat Alam untuk Kesehatan Bangsa.
Kaufman Publishers. Jurnal Bahan Alam Indonesia. Vol VI
Hashimoto K., Yukawa T.,” Term Weighting No.6, Januari 2009.
Classification System Using the Chi-
square Statistic for the Classification
Subtask at NTCIR-6 Patent Retrieval
Task, “In Proceedings of NTCIR-6
Workshop Meeting, Japan, 2007
Manning C D., Raghavan P., Schutze H.,
2009. An Introduction to Information
Retrieval. Cambridge, Cambridge
University Press.
McCalum, A. & Nigam, K. 1998. A
Comparison of Event Models for Naïve
Bayes Text Classification.
Mesleh, A. A. “Chi Square Feature
Extraction Based Svms Arabic Language
Text Categorization Systems,” Journal of
Computer Science (3:6), 2007,pp.430-
435.
Metsis et al. 2006. Spam filtering with Naïve
Bayes – Which Naïve Bayes?. Di dalam

13
LAMPIRAN

14
Lampiran 1 Daftar 32 jenis tumbuhan obat Indonesia yang digunakan dalam penelitian

No Nama Nama Latin


1 Pandan wangi Pandanus amaryllifolius Roxb.
2 Jarak pagar Jatropha curcas Linn.
3 Dandang gendis Clinacanthus nutans Lindau
4 Akar kuning Arcangelisiaflava L.
5 Gadung cina Smilax china
6 Tabat barito Ficus deloidea L.
7 Kemuning Murraya paniculata [L..] Jack.
8 Pegagan Centella asiatica (L.) Urban
9 Krokot Portulaca oleracea L.
10 Zodia Evodia suaveolens
11 Iler Coleus scutellarioides, Linn,Benth
12 Jeruk nipis Citrus aurantifolia, Swingle.
13 Sambang darah Excoecaria cochinchinensis Lour.
14 Nanas kerang Rhoeo discolor (L.Her.) Hance
15 Sambang colok Aerva sanguinolenta Bl.
16 Remek daging Excecaria bicolor Hassk
17 Kumis kucing Orthosiphon aristatus (B1) Miq.
18 Sosor bebek Kalanchoe pinnata (Lam.) Per.
19 Landik Barleria lupulina Lindl.
20 Jambu biji Psidium guajava L.
21 Tapak dara Catharantus roseus (L.) G. Don.
22 Som jawa Talinum paniculatum (jacq.) Gaertn.
23 Jarong Achyranthes aspera Linn.
24 Mangkokan Nothopanax scutellarium Merr.
25 Andong Cordyline fruticosa (L) A. Cheval.
26 Kemangi Ocimum basilicum
27 Patah tulang Eupharbia tirucalli L.
28 Cincau hitam Cyclea peltata Miq.
29 Awar – awar Ficus septica Burm f.
30 Semanggi gunung Hydrocotyle sibthorpioides Lam.
31 Salam Syzygium polyanthum (Wight.) Walp.
32 Bayam duri Amaranthus Spinousus, Linn.

15
Lampiran 2 Tabel distribusi chi-kuadrat pada berbagai tingkat signifikansi dan derajat bebas
tertentu

d.f
1 1.32 2.71 3.84 5.02 6.63 7.88 10.8
2 2.77 4.61 5.99 7.38 9.21 10.6 13.8
3 4.11 6.25 7.81 9.35 11.3 12.8 16.3
4 5.39 7.78 9.49 11.1 13.3 14.9 18.5
5 6.63 9.24 11.1 12.8 15.1 16.7 20.5
6 7.84 10.6 12.6 14.5 16.8 18.5 22.5
7 9.04 12 14.1 16 18.5 20.3 24.3
8 10.2 13.4 15.5 17.5 20.1 22 26.1
9 11.4 14.7 16.9 19 21.7 23.6 27.9
10 12.5 16 18.3 20.5 23.2 25.2 29.6
11 13.7 17.3 19.7 21.9 24.7 26.8 31.3
12 14.8 18.5 21 23.3 26.2 28.3 32.9
13 16 19.8 22.4 24.7 27.7 29.8 34.5
14 17.1 21.1 23.7 26.1 29.1 31.3 36.1
15 18.2 22.3 25 27.5 30.6 32.8 37.7
16 19.4 23.5 26.3 28.8 32 34.3 39.3
17 20.5 24.8 27.6 30.2 33.4 35.7 40.8
18 21.6 26 28.9 31.5 34.8 37.2 42.3
19 22.7 27.2 30.1 32.9 36.2 38.6 32.8
20 23.8 28.4 31.4 34.2 37.6 40 45.3
21 24.9 29.6 32.7 35.5 38.9 41.4 46.8
22 26 30.8 33.9 36.8 40.3 42.8 48.3
23 27.1 32 35.2 38.1 41.6 44.2 49.7
24 28.2 33.2 36.4 39.4 32 45.6 51.2
25 29.3 34.4 37.7 40.6 44.3 46.9 52.6
26 30.4 35.6 38.9 42.9 45.6 48.3 54.1
27 31.5 36.7 40.1 43.2 47 49.6 55.5
28 32.6 37.9 41.3 44.5 48.3 51 56.9
29 33.7 39.1 42.6 45.7 49.6 52.3 58.3
30 34.8 40.3 43.8 47 50.9 53.7 59.7
40 45.6 51.8 55.8 59.3 63.7 66.8 73.4
50 56.3 63.2 67.5 71.4 76.2 79.5 86.7
60 67 74.4 79.1 83.3 88.4 92 99.6
70 77.6 85.5 90.5 95 100 104 112
80 88.1 96.6 102 107 112 116 125
80 98.6 108 113 118 124 128 137
100 109 118 124 130 136 140 149
Sumber: Ronald J. Wonnacolt and Thomas H. Wonnacot.
Statistics: Discovering Its Power, New York: John Willeyand Sons, 1982, hal 352.

16
Lampiran 3 Confusion matrix untuk kelas family (berdasarkan pemilihan fitur chi-kuadrat pada nilai signifikansi 0,001)

Keterangan :
Prediksi
Aktual
Pan Men Smi Lam Eup Rut Bro Por Mor Apo Api Cra Myr Ach Ama Ara Aga Pan = Pandanaceae
Pan 2 Men = Menispermaceae
Smi = Smilacaceae
Men 2
Api = Apiaceae
Smi 1 Lam = Lamiaceae
Lam 3 Cra = Crassulaceae
Eup = Euphorbiaceae
Eup 3
Myr = Myrtaceae
Rut 3 Rut = Rutaceae
Bro 1 Ach = Achantaceae
Bro = Bromeliaceae
Por 2
Ama = Amaranthaceae
Mor 2 Por = Portulacaceae
Apo 1 Ara = Araliaceae
Aga = Agavaceae
Api 3
Cra 1
Myr 4
Ach 1 2
Ama 4
Ara 1
Aga 1

17
Lampiran 4 Confusion matrix untuk kelas penyakit (berdasarkan pemilihan fitur chi-kuadrat pada
nilai signifikansi 0,001)

Prediksi Keterangan :
Aktual
PR K NRD KR PC SK PP
PR 7 1 PR = Perawatan
K = Kulit
K 3 1 NRD = Nyeri-Radang-Demam
NRD 1 7 KR = Kronis
KR 1 PC = Pencernaan
SK = Saluran Kemih
PC 1 10 PP = Pernapasan
SK 2
PP 4

18
ABSTRACT

YOGA HERAWAN. Feature Extraction of Medicinal Plants using Chi-Square with Naïve
Bayes Classifier. Supervised by YENI HERDIYENI.

This research presented a system for extracting terms and classifying medicinal plants
documents using chi-square and naïve bayes classifier. Term extraction technique was used to
make the classifier work efficiently and to increase classification accuracy. The criteria used in this
research were the family of medicinal plants and utilization of medicinal plants for medication.
The classification results were used to build an information retrieval system of Indonesian
medicinal plants. This research used two significance levels for generating critical value, i.e 0.001
and 0.01. The experiment result showed that the critical value using significance level of 0.001 has
better accuracy than the critical value using significance level 0.01. Accuracy of classification
system using significance level of 0.001 were 97.44% for family and 89.74% for utilization of
medicinal plants criteria. The information retrieval system tested using 29 queries about family
and utilization of medicinal plants. The information retrieval system had an average value
generated was 93.26%.

Keywords : document classification, naïve bayes classifier, chi –square, feature selection,
information retrieval.

i
PENDAHULUAN dokumen yang sangat efektif untuk memilih
kata penciri suatu dokumen namun tidak
Latar belakang
menurunkan akurasi sistem klasifikasi
Indonesia merupakan negara (Yimming 1997). Document frequency
megabiodiversity yang memiliki kekayaan thresholding merupakan teknik yang
tumbuhan obat. Indonesia memiliki lebih dari sederhana untuk mengurangi jumlah kata
38.000 spesies tanaman (Bappenas 2003). yang akan diproses. Teknik Document
Sampai tahun 2001 Laboratorium Konservasi frequency thresholding mudah untuk
Tumbuhan, Fakultas Kehutanan IPB telah diimplementasikan (Yimming 1997).
mendata bahwa tidak kurang dari 2.039
Penelitian ini akan membandingkan
spesies tumbuhan obat berasal dari hutan
kinerja pemilihan fitur dokumen antara
Indonesia (Zuhud 2009). Kandungan kimia
teknik chi-kuadrat dan teknik document
yang terdapat dalam jenis tumbuhan obat
thresholding frequency (df) yang kemudian
tersebut mendorong peneliti untuk melakukan
dilakukan pembangunan sistem klasifikasi
penelitian tentang penyakit yang dapat
Naïve Bayes untuk mengklasifikasikan
diobati dari suatu jenis tumbuhan obat
dokumen tumbuhan obat Indonesia. Dalam
tertentu. Melalui media cetak dan elektronik
penelitian ini, sistem klasifikasi akan
hasil penelitian tersebut didokumentasikan
mengklasifikasikan dokumen berdasarkan
untuk diinformasikan kepada masyarakat.
kategori family tumbuhan obat dan penyakit
Internet membuat dokumentasi elektronik
yang dapat disembuhkan oleh suatu jenis
tersebar dengan mudah di dalam maupun luar
tumbuhan obat. Hasil klasifikasi tersebut
negeri. Mesin pencari internet digunakan oleh
kemudian akan digunakan untuk membangun
pengguna di seluruh dunia untuk mencari
sistem mesin pencari dokumen.
informasi terkait tumbuhan obat yang
dikehendaki. Banyaknya jumlah dokumentasi Tujuan
elektronik tersebut mempengaruhi kinerja
Tujuan penelitian ini adalah
mesin pencari dalam mengembalikan
mengembangkan sistem temu kembali
dokumen yang relevan terhadap keinginan
informasi tumbuhan obat yang bekerja
pengguna. Untuk meningkatkan kinerja
berdasarkan hasil pemilihan fitur dokumen
mesin pencari diperlukan sistem pengelolaan
serta Naïve Bayes sebagai penglasifikasi
dokumen yang lebih baik dari sebelumnya.
dokumen.
Untuk itu diperlukan sistem klasifikasi
Ruang lingkup
dokumen secara otomatis. Salah satu teknik
klasifikasi dokumen adalah Naïve Bayes. Ruang lingkup penelitian ini meliputi :
Naïve Bayes merupakan classifier sederhana
1. Dokumen terbatas pada 32 jenis
yang didasarkan pada penerapan teorema
Bayes. Kelebihan teknik ini adalah mampu tumbuhan obat Indonesia (Lampiran 1).
mengklasifikasikan dokumen dengan tepat 2. Dokumen yang digunakan berformat
XML.
serta mudah dalam pengimplementasiannya
(Thabtah 2009). Dalam jangka panjang, 3. Sistem menglasifikasikan dokumen
dokumen penelitian yang akan terindeks berdasarkan penyakit yang dapat
disembuhkan dan family dari suatu
semakin bertambah seiring berjalannya
waktu. Kerja yang lebih berat harus tumbuhan obat tertentu.
dilakukan oleh sistem classifier jika hanya Manfaat
mengandalkan teknik klasifikasi dokumen
saja, hal tersebut dikarenakan sistem Manfaat dari penelitian ini adalah
klasifikasi mengambil isi dari uraian setiap mempercepat dan mempermudah pengguna
dokumen. Salah satu cara untuk dalam mencari informasi tentang tumbuhan
meningkatkan kinerja dari sistem klasifikasi obat Indonesia.
adalah dengan menerapkan teknik pemilihan
fitur dokumen. Ada beberapa teknik yang
digunakan untuk melakukan pemilihan fitur TINJAUAN PUSTAKA
dokumen antara lain Document Frequency
Thresholding (DF), Information Gain (IG), Temu kembali informasi
Mutual Information (MI), Term strength (TS) Sistem temu kembali informasi
dan Chi-square testing (X2) (Yimming 2003). (Information retrieval system) merupakan
Chi-square merupakan teknik pemilihan fitur sistem pencari pada sekumpulan dokumen

1
PENDAHULUAN dokumen yang sangat efektif untuk memilih
kata penciri suatu dokumen namun tidak
Latar belakang
menurunkan akurasi sistem klasifikasi
Indonesia merupakan negara (Yimming 1997). Document frequency
megabiodiversity yang memiliki kekayaan thresholding merupakan teknik yang
tumbuhan obat. Indonesia memiliki lebih dari sederhana untuk mengurangi jumlah kata
38.000 spesies tanaman (Bappenas 2003). yang akan diproses. Teknik Document
Sampai tahun 2001 Laboratorium Konservasi frequency thresholding mudah untuk
Tumbuhan, Fakultas Kehutanan IPB telah diimplementasikan (Yimming 1997).
mendata bahwa tidak kurang dari 2.039
Penelitian ini akan membandingkan
spesies tumbuhan obat berasal dari hutan
kinerja pemilihan fitur dokumen antara
Indonesia (Zuhud 2009). Kandungan kimia
teknik chi-kuadrat dan teknik document
yang terdapat dalam jenis tumbuhan obat
thresholding frequency (df) yang kemudian
tersebut mendorong peneliti untuk melakukan
dilakukan pembangunan sistem klasifikasi
penelitian tentang penyakit yang dapat
Naïve Bayes untuk mengklasifikasikan
diobati dari suatu jenis tumbuhan obat
dokumen tumbuhan obat Indonesia. Dalam
tertentu. Melalui media cetak dan elektronik
penelitian ini, sistem klasifikasi akan
hasil penelitian tersebut didokumentasikan
mengklasifikasikan dokumen berdasarkan
untuk diinformasikan kepada masyarakat.
kategori family tumbuhan obat dan penyakit
Internet membuat dokumentasi elektronik
yang dapat disembuhkan oleh suatu jenis
tersebar dengan mudah di dalam maupun luar
tumbuhan obat. Hasil klasifikasi tersebut
negeri. Mesin pencari internet digunakan oleh
kemudian akan digunakan untuk membangun
pengguna di seluruh dunia untuk mencari
sistem mesin pencari dokumen.
informasi terkait tumbuhan obat yang
dikehendaki. Banyaknya jumlah dokumentasi Tujuan
elektronik tersebut mempengaruhi kinerja
Tujuan penelitian ini adalah
mesin pencari dalam mengembalikan
mengembangkan sistem temu kembali
dokumen yang relevan terhadap keinginan
informasi tumbuhan obat yang bekerja
pengguna. Untuk meningkatkan kinerja
berdasarkan hasil pemilihan fitur dokumen
mesin pencari diperlukan sistem pengelolaan
serta Naïve Bayes sebagai penglasifikasi
dokumen yang lebih baik dari sebelumnya.
dokumen.
Untuk itu diperlukan sistem klasifikasi
Ruang lingkup
dokumen secara otomatis. Salah satu teknik
klasifikasi dokumen adalah Naïve Bayes. Ruang lingkup penelitian ini meliputi :
Naïve Bayes merupakan classifier sederhana
1. Dokumen terbatas pada 32 jenis
yang didasarkan pada penerapan teorema
Bayes. Kelebihan teknik ini adalah mampu tumbuhan obat Indonesia (Lampiran 1).
mengklasifikasikan dokumen dengan tepat 2. Dokumen yang digunakan berformat
XML.
serta mudah dalam pengimplementasiannya
(Thabtah 2009). Dalam jangka panjang, 3. Sistem menglasifikasikan dokumen
dokumen penelitian yang akan terindeks berdasarkan penyakit yang dapat
disembuhkan dan family dari suatu
semakin bertambah seiring berjalannya
waktu. Kerja yang lebih berat harus tumbuhan obat tertentu.
dilakukan oleh sistem classifier jika hanya Manfaat
mengandalkan teknik klasifikasi dokumen
saja, hal tersebut dikarenakan sistem Manfaat dari penelitian ini adalah
klasifikasi mengambil isi dari uraian setiap mempercepat dan mempermudah pengguna
dokumen. Salah satu cara untuk dalam mencari informasi tentang tumbuhan
meningkatkan kinerja dari sistem klasifikasi obat Indonesia.
adalah dengan menerapkan teknik pemilihan
fitur dokumen. Ada beberapa teknik yang
digunakan untuk melakukan pemilihan fitur TINJAUAN PUSTAKA
dokumen antara lain Document Frequency
Thresholding (DF), Information Gain (IG), Temu kembali informasi
Mutual Information (MI), Term strength (TS) Sistem temu kembali informasi
dan Chi-square testing (X2) (Yimming 2003). (Information retrieval system) merupakan
Chi-square merupakan teknik pemilihan fitur sistem pencari pada sekumpulan dokumen

1
elektronik yang memenuhi kebutuhan Dalam penelitian ini, data dari himpunan
informasi tertentu (Manning et al. 2008). tersebut akan digunakan sebagai penciri
Sistem temu kembali informasi bertujuan dokumen yang akan diklasifikasikan.
untuk menjembatani kebutuhan informasi
Pemilihan fitur dokumen memiliki dua
pengguna dengan sumber informasi.
tujuan utama yaitu membuat data latih yang
Temu kembali informasi berkaitan diterapkan oleh sistem klasifikasi menjadi
dengan cara merepresentasikan, menyimpan, lebih sederhana serta untuk meningkatkan
mengorganisasikan, dan mengakses akurasi sistem klasifikasi. Peningkatan
informasi. Merepresentasikan dan akurasi sistem klasifikasi disebabkan karena
mengorganisasikan suatu informasi harus pada proses penghilangan fitur akan
membuat pengguna lebih mudah dalam dihilangkan kata-kata yang bukan merupakan
mengakses informasi yang diinginkannya. penciri dokumen (Manning et all 2008).
Akan tetapi, untuk mengetahui informasi
Keputusan statistik dan hipotesis statistik
yang diinginkan pengguna bukan merupakan
suatu hal yang mudah. Untuk itu pengguna Keputusan yang diambil berdasarkan
harus menransformasikan informasi yang informasi sampel yang didapatkan dari data
dibutuhkan ke dalam suatu kueri yang akan disebut keputusan statistik. Sebagai contoh
diproses mesin pencari (IR System), sehingga keputusan statistik adalah ketika akan
kueri tersebut merepresentasikan informasi memutuskan berdasarkan data sampel apakah
yang dibutuhkan oleh pengguna. Dengan suatu serum baru benar-benar efektif dalam
kueri tersebut, IR system akan menyembuhkan suatu penyakit, apakah suatu
menemukembalikan informasi yang relevan prosedur pendidikan lebih baik dari prosedur
terhadap kueri (Baeza-Yates & Ribeiro-Neto pendidikan lainnya.
1999).
Untuk mencapai suatu keputusan,
Klasifikasi diperlukan asumsi awal tentang populasi
yang terlibat yang kemudian disebut sebagai
Klasifikasi adalah proses untuk
hipotesis statistik. Hipotesis umumnya
menentukan kelas dari suatu objek tertentu.
merupakan pernyataan umum yang berkaitan
Pada klasifikasi dokumen, permasalahan
dengan distribusi probabilitas dari populasi.
yang muncul adalah sebagai berikut:
Hipotesis diperlukan untuk menentukan
diberikan sebuah deskripsi d X dari sebuah
apakah hasil yang diduga cenderung untuk
dokumen dimana X merupakan ruang
benar. Hipotesis nol (H0) menyatakan bahwa
dokumen. Sebuah himpunan tetap kelas
tidak ada perbedaan di dalam hasil yang
{ }, dengan menggunakan
sedang diperiksa atau disebut juga nol
algoritme pembelajaran, dilakukan proses
pengaruh (zero effect).
pembelajaran terhadap fungsi klasifikasi
sehingga dapat memetakan dokumen pada Chi-kuadrat ( )
kelas C.
Chi-kuadrat ( ) merupakan pengujian
hipotesis mengenai perbandingan antara
frekuensi sampel yang benar-benar terjadi
Proses klasifikasi dibagi menjadi dua
(kemudian disebut frekuensi observasi)
tahap, yaitu tahapan pembelajaran
dengan frekuensi harapan yang didasarkan
dan pengujian. Pada tahap pembelajaran,
atas hipotesis tertentu pada setiap kasus atau
sebagian data yang telah diketahui kelasnya
data (selanjutnya disebut dengan frekuensi
(data latih) digunakan untuk membuat model
harapan .
klasifikasi. Tahap pengujian menguji data uji
dengan model klasifikasi untuk mengetahui Sampel berukuran N diambil dari suatu
akurasi model klasifikasi tersebut. Jika populasi normal berdeviasi standar σ. Untuk
akurasi cukup maka model tersebut dapat setiap sampel dihitung nilai sehingga
digunakan untuk memprediksi kelas data diperoleh distribusi sampling untuk yang
yang belum diketahui (Han & Kamber 2006). disebut distribusi chi-kuadrat.
Pemilihan fitur dokumen Distribusi chi-kuadrat tergantung pada
satu parameter, yaitu derajat kebebasan (d.f).
Pemilihan fitur dokumen merupakan Persamaan 1 digunakan untuk menghitung
suatu proses memilih sebanyak kata besarnya jumlah derajat bebas dari suatu
terbaik. Kata tersebut merupakan himpunan kasus. Persamaan 2 digunakan untuk
dari semua kata yang ada pada data latih.

2
menghitung derajat bebas saat menggunakan Pada penelitian ini, mengukur
tabel kontingensi derajat kebebasan antara kata penciri
dengan kelas agar dapat dibandingkan
dengan persebaran nilai (Mesleh 2007).
Chi-kuadrat mengevaluasi korelasi antara
dua variabel dan kemudian menentukan
dengan N adalah ukuran sampel yang
apakah saling bebas atau berhubungan sesuai
diambil, R adalah jumlah baris dan C adalah
dengan nilai pada tabel chi.
jumlah kolom. Distribusi chi-kuadrat untuk
Penghitungan nilai chi-kuadrat pada
berbagai nilai diperlihatkan pada Gambar 1.
setiap kata yang muncul pada setiap kelas
Gambar 1 menunjukkan bahwa masing-
dapat dibantu dengan menggunakan tabel
masing distribusi merupakan distribusi
kontingensi. Nilai yang terdapat pada tabel
probabilitas, sehingga luas di bawah kurva
kontingensi merupakan nilai frekuensi
bernilai 1.
observasi dari suatu kata terhadap kelas.
Tabel 1 menunjukkan tabel kontingensi
antara kata terhadap kelas. Apabila frekuensi
harapan pada kata dan kelas q adalah Epq,
banyaknya frekuensi observasi dalam
dokumen adalah , maka peluang
dan dapat
digunakan untuk menghitung frekuensi
harapan yang diperoleh dengan rumus pada
Persamaan 4:
)
dengan nilai peluang kata dan peluang kelas:
Gambar 1 Distribusi chi-kuadrat.
Pengaruh antara frekuensi sampel dan
frekuensi harapan dapat diuji menggunakan
suatu hipotesis H0. Hipotesis nol adalah
hipotesis yang menyatakan tidak adanya Tabel 1 Tabel kontingensi antara kata
perbedaan yang signifikan antara frekuensi terhadap kelas
observasi dengan frekuensi harapan.
Pengujian hipotesis dilakukan pada tingkat Kelas
signifikansi tertentu. Tingkat signifikansi
yang dimaksud adalah peluang salah menolak Kelas = 1 Kelas = 0
hipotesis yang seharusnya benar (Spiegel Kata = 1 A B
2004). Penghitungan nilai chi-kuadrat yang Kata
digunakan untuk melakukan pengujian Kata = 0 C D
perbedaan antara pola frekuensi observasi
( ), dengan frekuensi harapan ( ) Penghitungan nilai chi-kuadrat
ditunjukkan pada Persamaan 3. berdasarkan tabel kontingensi tersebut
disederhanakan dalam Persamaan 5.

Berdasarkan nilai chi-kuadrat tersebut dengan t merupakan kata yang sedang


dapat diambil suatu keputusan statistik diujikan terhadap suatu kelas c, merupakan
apakah terjadi perbedaan antara pola jumlah dokumen latih, merupakan
frekuensi observasi dengan frekuensi banyaknya dokumen pada kelas yang
harapan. Hipotesis nol (H0) diterima jika nilai memuat kata , merupakan banyaknya
penghitungan < nilai kritis pada derajat dokumen yang tidak berada di namun
bebas dan tingkat signifikansi tertentu. memuat kata , merupakan banyaknya
Hipotesis nol (H0) ditolak jika nilai dokumen yang berada di kelas namun tidak
penghitungan > nilai kritis pada derajat memiliki kata di dalamnya, serta
bebas dan tingkat signifikansi tertentu. merupakan banyaknya dokumen yang bukan

3
merupakan dokumen kelas dan tidak konteks kelas (McCallum & Nigam 1998).
memuat kata . Meskipun secara umum asumsi tersebut
merupakan asumsi yang buruk, pada
Pengambilan keputusan dilakukan
praktiknya metode Naïve Bayes menunjukkan
berdasarkan nilai dari masing-masing kinerja yang sangat baik (Rish 2001).
kata. Kata yang memiliki nilai di atas nilai
kritis pada tingkat signifikansi α adalah kata Menurut Manning (2008), peluang
yang akan dipilih sebagai penciri dokumen. Bayes dapat digunakan untuk menghitung
Kata yang dipilih sebagai penciri merupakan peluang bersyarat, yaitu peluang kejadian
kata yang memiliki pengaruh terhadap kelas apabila suatu kejadian diketahui. Metode ini
. Nilai kritis untuk tingkat signifikansi α dapat memprediksi kemungkinan anggota
ditunjukkan oleh Tabel 2. Tabel distribusi suatu kelas berdasarkan sampel yang berasal
chi-kuadrat pada berbagai tingkat dari anggota kelas tersebut. Klasifikasi Naïve
signifikansi dan derajat bebas tertentu Bayes termasuk dalam model multinomial
ditunjukkan dalam Lampiran 2. yang mengambil jumlah kata yang muncul
pada sebuah dokumen. Pada model ini
Tabel 2 Nilai kritis untuk tingkat sebuah dokumen terdiri atas beberapa
signifikansi α kejadian kata. Berdasarkan asumsi Bayes,
kemungkinan tiap kejadian kata dalam tiap
α Nilai Kritis
dokumen adalah bebas, tidak terpengaruh
0,1 2,71 dengan konteks kata dan posisi kata dalam
dokumen.
0,05 3,84
Berdasarkan teori Bayes, peluang
0,01 6,63
dokumen d untuk masuk ke dalam kelas c
0,005 7,83 atau P | ditunjukkan pada Persamaan 6:
0,001 10,83 |
|
Document frequency thresholding (DF)
dengan P(d|c) adalah peluang kemunculan
Document frequency thresholding (df) dokumen d di kelas c, adalah peluang
merupakan jumlah dokumen pada setiap kata awal suatu dokumen masuk ke dalam kelas c,
unik yang muncul. Penghitungan df akan dan P(d) adalah peluang awal kemunculan
menghitung kemunculan kata unik dalam dokumen d. Peluang awal kemunculan
dokumen d dapat diabaikan karena memiliki
suatu kumpulan dokumen latih. Untuk nilai yang sama untuk seluruh kelas c,
menentukan bahwa kata tersebut berpengaruh sehingga Persamaan 6 dapat disederhanakan
terhadap suatu kumpulan dokumen, dalam Persamaan 7:
digunakan nilai threshold (Yimming 1997).
| |
Penentuan nilai threshold dilakukan dengan
melihat sebaran kata dalam keseluruhan Rumus untuk menghitung nilai peluang
dokumen latih. dokumen masuk ke dalam kelas c dan
peluang kemunculan dokumen d berada pada
Kata yang memiliki nilai df di atas nilai kelas c adalah
threshold yang telah ditentukan merupakan
kata yang berpengaruh pada sekumpulan |

dokumen latih. Kata dengan nilai df yang
dengan Nc adalah banyaknya dokumen dalam
rendah merupakan kata yang jarang muncul
kelas c, N adalah total dokumen, Tcd adalah
dalam koleksi dokumen latih. Dengan banyaknya d dalam dokumen latih dari kelas
demikian, kata tersebut dianggap sebagai c.
noise dalam data latih.
Menurut Manning et al. (2008) kelas
Naive Bayes classifier yang paling sesuai bagi dokumen d adalah
kelas yang memiliki nilai | paling
Metode klasifikasi Naïve Bayes adalah tinggi yaitu seperti ditunjukkan pada
salah satu metode klasifikasi yang Persamaan 8:
mengasumsikan seluruh atribut dari contoh
yang bersifat independen satu sama lain pada |

4
Nilai peluang awal dapat dokumen relevan yang ditampilkan (retrieve)
diestimasi dengan melihat jumlah dokumen terhadap jumlah seluruh dokumen yang
yang dimiliki oleh kelas c relatif terhadap relevan. Precision adalah rasio jumlah
jumlah seluruh dokumen yang ada. Nilai dokumen relevan yang ditampilkan terhadap
peluang awal | diestimasi secara jumlah seluruh dokumen yang ditampilkan
berbeda untuk setiap model Naïve Bayes (Manning 2008). Perhitungan recall-
(Metsis et al. 2006). precision dijelaskan pada Persamaan 10 dan
Persamaan 11 berikut.
Confusion matrix
Confusion matrix merupakan sebuah
tabel yang terdiri atas banyaknya baris data
uji yang diprediksi benar dan salah oleh
model klasifikasi, yang digunakan untuk (10)
menentukan kinerja suatu model klasifikasi
(Tan et al. 2005). Data uji diujikan untuk
mendapatkan tingkat akurasi hasil prediksi
yang berupa jumlah true positive, true
negative, false positive, dan false negative (11)
seperti yang dilihat pada Tabel 3 (Rachman Menurut Baeza-Yates dan Ribeiro-
2011). Neto (1999), algoritme temu-kembali yang
Tabel 3 Confusion matrix untuk klasifikasi dievaluasi menggunakan beberapa kueri
biner berbeda, akan menghasilkan nilai R-P
yang berbeda untuk masing-masing kueri.
Predicted Class Average Precision (AVP) diperlukan untuk
Class = 1 Class = 0 menghitung rata-rata tingkat precision
pada 11 tingkat recall, yaitu 0.0, 0.1, 0.2,
Actual Class = 1 F11 F10 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0.
Class Persamaan 12 merupakan formula untuk
Class = 0 F01 F00
menghitung AVP.

Keterangan untuk Tabel 3 dinyatakan sebagai


( ) ∑
berikut :
 F11, yaitu jumlah dokumen dari kelas 1 Asumsi, P (rj) adalah AVP pada level
yang benar diklasifikasikan sebagai kelas recall r, Nq adalah jumlah kueri yang
1. digunakan, dan adalah precision
 F00, yaitu jumlah dokumen dari kelas 0 pada level recall r untuk kueri ke-i.
yang benar diklasifikasikan sebagai kelas SphinxSearch
0.
 F01, yaitu jumlah dokumen dari kelas 0 Sphinx adalah platform search engine
yang salah diklasifikasikan sebagai kelas yang didistribusikan pada GPL versi 2.
1. Secara teknis, Sphinx merupakan perangkat
 F10, yaitu jumlah dokumen dari kelas 1 lunak yang menyediakan fungsionalitas
yang salah diklasifikasikan sebagai kelas pencarian teks secara cepat dan relevan pada
0. aplikasi yang berjalan di lingkungan klien.
Sphinx telah dirancang khusus untuk
Perhitungan akurasi dinyatakan dalam berintegrasi dengan database SQL dan
Persamaan 9. bahasa pemrograman tertentu (STI 2008).
Sphinx memiliki dua jenis fungsi
pembobotan, yaitu phase rank dan statistical
rank. Phase rank adalah fungsi pembobotan
Recall precision berdasarkan panjang kata antara tubuh
dokumen dan frasa kueri. Statistical rank
Recall Precision adalah kriteria yang adalah fungsi pembobotan berdasarkan
digunakan untuk mengevaluasi tingkat frekuensi kata dalam dokumen. Salah satu
efektifitas kinerja sistem temu kembali mode pembobotan berdasarkan statistical
informasi. Recall adalah rasio jumlah rank adalah BM25.

5
Pada tahap pembangunan sistem temu METODE PENELITIAN
kembali informasi, terlebih dahulu dilakukan
pemrosesan dokumen dengan menggunakan Penelitian ini dilaksanakan dalam
SphinxSearch. Langkah yang dilakukan beberapa tahapan yang diilustrasikan pada
pertama kali yaitu melakukan pengindeksan Gambar 2. Data yang diproses dalam sistem
ke semua koleksi dokumen. Proses ini adalah koleksi dokumen. Input lain
pengeindeksan menghasilkan file hash. yang digunakan adalah stopwords yang
Perintah yang diberikan untuk melakukan merupakan daftar kata buang yang akan
pengindeksan koleksi dokumen adalah digunakan pada tahapan praproses. Tahap
sebagai berikut: selanjutnya adalah dilakukan proses
pemilihan fitur pada dokumen latih,
C:\Sphinx\bin\indexer.exe --config kemudian hasilnya digunakan sebagai
C:\Sphinx\sphinxDb.conf --all
landasan dalam pembuatan vector space
Langkah selanjutnya yaitu pembuatan service model. Vector space model digunakan untuk
pada windows dengan nama SphinxSkripsi melakukan pembobotan terhadap kata
yang dapat dibuat dengan perintah sebagai sehingga akan merepresentasikan dokumen
berikut: ke dalam bentuk vektor.

C:\Sphinx\bin> Tahapan berikutnya adalah melakukan


C:\Sphinx\bin\searchd –install – klasifikasi Naïve Bayes pada dokumen uji
config yang belum diketahui kelasnya. Tahapan ini
C:\Sphinx\sphinxDb.conf – bertujuan untuk membangun model
servicename SphinxSkripsi
klasifikasi yang berupa indeks klasifikasi.
Service pada windows berguna untuk mencari Tahapan selanjutnya setelah model klasifikasi
hasil pengindeksan yang berupa file hash. terbentuk yaitu pembangunan sistem temu
kembali informasi yang akan mencari
Pembobotan BM25
informasi berdasarkan hasil klasifikasi pada
Metode BM25 merupakan metode sistem. Pada tahap akhir, dilakukan evaluasi
pembobotan kata yang memeringkatkan terhadap kinerja sistem klasifikasi dan kinerja
setiap kumpulan dokumen yang didasarkan sistem sistem temu kembali informasi yang
pada kata dalam kueri yang muncul pada dihasilkan.
setiap dokumen. Rumus dalam menghitung
Dokumen tumbuhan obat
skor pada algoritme BM25 ditunjukkan pada
Persamaan 13 berikut Penelitian ini menggunakan koleksi
dokumen tumbuhan obat sebagai korpus. Isi
dari dokumen tidak diubah sehingga
kesalahan ejaan dan tata bahasa tidak
∑ diperbaiki. Koleksi dokumen tumbuhan obat
| |
berjumlah 132 dokumen yang diperoleh dari
buku-buku berikut:
(13)
1. Atlas Tumbuhan Obat Indonesia Jilid 1.
Persamaan 13 menjelaskan bahwa
Oleh dr. Setiawan Dalimartha
merupakan term frequency pada 2. Atlas Tumbuhan Obat Indonesia Jilid 2.
dokumen D, |D| merupakan banyaknya kata Oleh dr. Setiawan Dalimartha
dalam dokumen D, dan avg dl merupakan 3. Atlas Tumbuhan Obat Indonesia Jilid 3.
rata-rata panjang dokumen dalam kumpulan Oleh dr. Setiawan Dalimartha
teks dari dokumen tersimpan. k1 dan b 4. Obat Asli Indonesia Oleh Dr. Seno
merupakan parameter bebas dimana nilai Sastroamidjojo
yang biasa dipilih untuk k1=2,0 dan b=0,75. 5. Ensiklopedi Millenium Jilid 1: Tumbuhan
IDF(qi) merupakan bobot dari kata qi. Rumus Berkhasiat Obat Indonesia.
untuk menghitung IDF ditunjukkan pada 6. Tumbuhan Obat dan Khasiatnya. Oleh
Persamaan 14 sebagai berikut Drs. H. Arief Hariana.

dimana N merupakan banyaknya koleksi


dokumen, dan merupakan jumlah
dokumen yang memuat kata qi.

6
Pada tahap pembangunan sistem temu METODE PENELITIAN
kembali informasi, terlebih dahulu dilakukan
pemrosesan dokumen dengan menggunakan Penelitian ini dilaksanakan dalam
SphinxSearch. Langkah yang dilakukan beberapa tahapan yang diilustrasikan pada
pertama kali yaitu melakukan pengindeksan Gambar 2. Data yang diproses dalam sistem
ke semua koleksi dokumen. Proses ini adalah koleksi dokumen. Input lain
pengeindeksan menghasilkan file hash. yang digunakan adalah stopwords yang
Perintah yang diberikan untuk melakukan merupakan daftar kata buang yang akan
pengindeksan koleksi dokumen adalah digunakan pada tahapan praproses. Tahap
sebagai berikut: selanjutnya adalah dilakukan proses
pemilihan fitur pada dokumen latih,
C:\Sphinx\bin\indexer.exe --config kemudian hasilnya digunakan sebagai
C:\Sphinx\sphinxDb.conf --all
landasan dalam pembuatan vector space
Langkah selanjutnya yaitu pembuatan service model. Vector space model digunakan untuk
pada windows dengan nama SphinxSkripsi melakukan pembobotan terhadap kata
yang dapat dibuat dengan perintah sebagai sehingga akan merepresentasikan dokumen
berikut: ke dalam bentuk vektor.

C:\Sphinx\bin> Tahapan berikutnya adalah melakukan


C:\Sphinx\bin\searchd –install – klasifikasi Naïve Bayes pada dokumen uji
config yang belum diketahui kelasnya. Tahapan ini
C:\Sphinx\sphinxDb.conf – bertujuan untuk membangun model
servicename SphinxSkripsi
klasifikasi yang berupa indeks klasifikasi.
Service pada windows berguna untuk mencari Tahapan selanjutnya setelah model klasifikasi
hasil pengindeksan yang berupa file hash. terbentuk yaitu pembangunan sistem temu
kembali informasi yang akan mencari
Pembobotan BM25
informasi berdasarkan hasil klasifikasi pada
Metode BM25 merupakan metode sistem. Pada tahap akhir, dilakukan evaluasi
pembobotan kata yang memeringkatkan terhadap kinerja sistem klasifikasi dan kinerja
setiap kumpulan dokumen yang didasarkan sistem sistem temu kembali informasi yang
pada kata dalam kueri yang muncul pada dihasilkan.
setiap dokumen. Rumus dalam menghitung
Dokumen tumbuhan obat
skor pada algoritme BM25 ditunjukkan pada
Persamaan 13 berikut Penelitian ini menggunakan koleksi
dokumen tumbuhan obat sebagai korpus. Isi
dari dokumen tidak diubah sehingga
kesalahan ejaan dan tata bahasa tidak
∑ diperbaiki. Koleksi dokumen tumbuhan obat
| |
berjumlah 132 dokumen yang diperoleh dari
buku-buku berikut:
(13)
1. Atlas Tumbuhan Obat Indonesia Jilid 1.
Persamaan 13 menjelaskan bahwa
Oleh dr. Setiawan Dalimartha
merupakan term frequency pada 2. Atlas Tumbuhan Obat Indonesia Jilid 2.
dokumen D, |D| merupakan banyaknya kata Oleh dr. Setiawan Dalimartha
dalam dokumen D, dan avg dl merupakan 3. Atlas Tumbuhan Obat Indonesia Jilid 3.
rata-rata panjang dokumen dalam kumpulan Oleh dr. Setiawan Dalimartha
teks dari dokumen tersimpan. k1 dan b 4. Obat Asli Indonesia Oleh Dr. Seno
merupakan parameter bebas dimana nilai Sastroamidjojo
yang biasa dipilih untuk k1=2,0 dan b=0,75. 5. Ensiklopedi Millenium Jilid 1: Tumbuhan
IDF(qi) merupakan bobot dari kata qi. Rumus Berkhasiat Obat Indonesia.
untuk menghitung IDF ditunjukkan pada 6. Tumbuhan Obat dan Khasiatnya. Oleh
Persamaan 14 sebagai berikut Drs. H. Arief Hariana.

dimana N merupakan banyaknya koleksi


dokumen, dan merupakan jumlah
dokumen yang memuat kata qi.

6
terdapat pada Gambar 3. Dokumen
Mulai dikelompokkan ke dalam tag sebagai berikut:
 <DOK></DOK>, tag ini mewakili
Klasifikasi keseluruhan dokumen dan melingkupi
Dokumen tag-tag lain yang lebih spesifik.
tumbuhan  <ID></ID>, tag ini menunjukkan ID dari
obat dokumen.
 <NAMA></NAMA>, tag ini
menunjukkan nama dari suatu jenis
Praproses tanaman obat.
data  <NAMAL></NAMAL>, tag ini
menunjukkan nama latin dari tanaman
obat.
Pembagian
data  <DESKRIPSI></DESKRIPSI>, tag ini
mewakili isi dari dokumen meliputi
deskripsi tanaman dan kegunaannya.
 <FAM></FAM>, tag ini menunjukkan
Data Data uji nama family dari tanaman obat.
latih
 <PENYAKIT></PENYAKIT>, tag ini
menunjukkan penyakit yang dapat
Pemilihan disembuhkan dari jenis tumbuhan obat.
fitur
Tabel 4 Distribusi dokumen penyakit
Klasifikasi Index Jumlah
No Kelas
Naïve Bayes klasifikasi Dokumen
1 Kronis 9
2 Kulit 15
Index 3 Nyeri-radang-demam 24
Kueri 4 Pencernaan 35
klasifikasi
5 Perawatan 27
6 Pernapasan saluran 15
Temu 7 Kemih 6
kembali
Temu Kembali
Informasi Tabel 5 Distribusi dokumen family

Peringkat Jumlah
No Kelas
dokumen Dokumen
1 Achantaceae 8
2 Agavaceae 4
3 Amaranthaceae 13
Selesai Evaluasi 4 Apiaceae 9
5 Apocynaceae 5
6 Araliaceae 3
Gambar 2 Tahapan penelitian. 7 Bromeliaceae 5
Klasifikasi dokumen dikategorikan ke 8 Crassulaceae 4
dalam kategori kelas family dan kategori 9 Euphorbiaceae 12
penyakit. Pemilihan kategori tersebut karena 10 Lamiaceae 15
kedua informasi mengenai family tumbuhan 11 Menispermaceae 6
obat dan penyakit yang dapat disembuhkan 12 Moraceae 6
oleh suatu jenis tumbuhan obat adalah 13 Myrtaceae 15
informasi yang sering dicari. Tabel 4 14 Pandanaceae 5
menjelaskan distribusi dokumen pada 15 Portulacaceae 6
kategori kelas penyakit untuk setiap kelasnya. 16 Rutaceae 12
Tabel 5 menjelaskan distribusi dokumen pada 17 Smilacaceae 3
kategori kelas family untuk setiap kelasnya.
Koleksi dokumen bertipe file .txt
dengan contoh format dokumen yang

7
relatif sama. Data latih digunakan sebagai
<dok> input pelatihan pengklasifikasi Naive Bayes,
<id>6</id>
<nama>Kumis Kucing</nama>
sedangkan data uji digunakan untuk menguji
<namal>Orthosiphon aristatus model hasil pelatihan Naive Bayes.
(Bl.) Miq.</namal> Pemilihan fitur
<deskripsi>Famili : Lamiaceae.
Nama Lokal : Kumis kucing, Hasil dari tahap praproses adalah vector
.... </deskripsi> term yang kemudian akan dilakukan
<fam>Lamiaceae</fam> pemilihan fitur. Pemilihan fitur memiliki dua
<penyakit>Saluran
tujuan, yaitu mengurangi jumlah kata yang
Kemih</penyakit>
</dok> digunakan dan meningkatkan akurasi hasil
klasifikasi (Manning 2008). Fitur inilah yang
Gambar 3 Format koleksi dokumen. kemudian digunakan pada tahap klasifikasi
dokumen.
Praproses data
Pada penelitian ini, pemilihan fitur
Tahap praproses diawali dengan dilakukan dengan dua metode yaitu uji chi-
lowercasing, tokenisasi, dan pembuangan kuadrat dan document thresholding
stopwords. Lowercasing adalah proses untuk frequency(df). Teknik pemilihan fitur yang
mengubah semua huruf mejadi huruf non- terbaik di antara kedua teknik tersebut
capital agar menjadi case-insensitive pada kemudian digunakan sebagai teknik yang
saat dilakukan pemrosesan teks dokumen. digunakan pengembangan sistem.
Tokenisasi adalah suatu tahap pemrosesan Teknik chi-kuadrat memilih fitur
teks input yang dibagi menjadi unit-unit kecil berpengaruh dengan menghitung nilai
yang disebut token atau term, yang dapat antara kata dengan kelas yang dinyatakan
berupa suatu kata atau angka. Token yang dalam Persamaan 5. Pemilihan fitur
dimaksud dalam penelitian ini adalah kata dilakukan pada dua tingkat signifikansi ,
atau term. Proses tokenisasi dilakukan sesuai yaitu 0.01 dan 0.001. Kata yang terpilih pada
dengan aturan berikut : tingkat signifikansi adalah kata
 Teks dipotong menjadi token. Karakter yang memiliki nilai diatas nilai kritis 6.63,
yang dianggap sebagai karakter pemisah sedangkan kata yang terpilih pada tingkat
token didefinisikan dengan ekspresi signifikansi adalah kata yang
regular berikut : memiliki nilai di atas nilai kritis 10.83.
/[\s\-+\/*0-9%,.\"\];()\':=`?\[!@><]+/ Teknik df memilih fitur berpengaruh
dengan cara menerapkan nilai threshold pada
 Token yang terdiri atas karakter numerik
penghitungan jumlah kata yang muncul
saja tidak diikutsertakan
dalam koleksi dokumen latih. Nilai threshold
 Besar kecilnya karakter dari token
yang digunakan dalam penelitian ini adalah
dipertahankan atau tidak dilakukan
threshold 3 dan 8. Kata yang terpilih dalam
penyeragaman.
pemilihan fitur df, merupakan kata yang
Stopwords merupakan daftar kata-kata memiliki nilai penghitungan df diatas nilai
yang dianggap tidak memiliki makna. Kata threshold yang sedang digunakan.
yang tercantum dalam daftar ini dibuang dan Fitur yang dihasilkan pada tahapan
tidak ikut diproses pada tahap selanjutnya. pemilihan fitur akan digunakan untuk
Kata-kata yang termasuk dalam stopwords membuat vector space model. Model terdiri
pada umumnya merupakan kata-kata yang atas beberapa dokumen yang
sering muncul di setiap dokumen sehingga direpresentasikan sebagai vektor dari
kata tersebut tidak dapat digunakan sebagai frekuensi kemunculan fitur.
penciri suatu dokumen.
Klasifikasi Naïve Bayes
Pembagian data
Hasil matriks kata pada vector space
Dokumen tumbuhan obat yang telah model digunakan pada sistem klasifikasi
melewati tahap praproses data kemudian untuk menglasifikasikan dokumen baru.
dibagi menjadi dua, yaitu data latih dan data Tahapan pertama yang dilakukan adalah
uji dengan persentasi 70:30. Sebanyak 93 menghitung peluang kata terhadap dokumen
dokumen digunakan sebagai dokumen latih latih yang mencerminkan suatu kelas. Pada
dan 39 dokumen sebagai dokumen uji. Tiap saat melakukan penghitungan tf, dilakukan
kelas dalam koleksi memiliki jumlah yang juga penghitungan jumlah kata unik dalam

8
dokumen latih, dan penghitungan jumlah kata informasi terhadap suatu kueri. Penghitungan
yang terdapat pada dokumen yang berada AVP dinyatakan dalam Persamaan 12.
dalam satu kelas yang sama.
Tabel 6 Kumpulan kueri uji
Nilai peluang kata yang didapat No Kueri
kemudian digunakan untuk melakukan
penghitungan Naïve Bayes pada dokumen uji 1 Kanker
untuk setiap kelasnya. Kemudian diambil 2 Flu
nilai peluang yang terbesar pada nilai 3 Diabetes
penghitungan Naïve Bayes. Nilai tersebut
4 Pusing
merupakan kelas dari dokumen uji tersebut.
5 Merambat
Temu kembali informasi
6 Menjari
Model klasifikasi yang telah terbentuk 7 Bergerigi
kemudian digunakan pada sistem temu
kembali informasi untuk ditemukembalikan. 8 Menyirip
Tujuan temu kembali ini adalah agar 9 Vitamin
pengguna mendapatkan informasi dengan 10 Antioksidan
lebih mudah dan terstruktur. Sistem temu
11 Protein
kembali informasi melakukan pengindeksan
dokumen sumber (corpus) hanya pada kelas 12 Kalsium
tertentu saja berdasarkan kuerinya. 13 Diseduh
Pembobotan BM25 digunakan untuk 14 Ditumbuk
menghitung bobot kedekatan kueri dengan
dokumen koleksi. Penghitungan pembobotan 15 Diperas
BM25 telah dijelaskan seperti pada 16 Batuk Pilek
Persamaan 13 dan Persamaan 14. 17 Kencing Batu
Evaluasi model klasifikasi 18 Datang Bulan
Evalusi kinerja model penglasifikasi 19 Gatal-gatal
Naive Bayes dilakukan dengan menghitung 20 Sesak Nafas
persentase ketepatan suatu dokumen 21 Tumbuhan Merambat
tumbuhan obat masuk ke dalam kelas
22 Tanaman Hias
tertentu. Evaluasi untuk model penglasifikasi
Naive Bayes dinyatakan dalam bentuk 23 Daun Elips
confusion matrix. Penghitungan nilai akurasi 24 Buah Buni
terhadap model klasifikasi diperoleh melalui 25 Kalsium Oksalat
Persamaan 9.
26 Zat Warna
Evaluasi sistem temu kembali
27 Obat Diseduh
Evaluasi kinerja sistem temu kembali 28 Obat Ditumbuk
informasi dilakukan dengan menghitung nilai 29 Buah Diperas
recall dan precision dari 29 kueri yang
diujikan pada sistem. Kueri uji ditentukan Lingkungan pengembangan sistem
dengan cara memilih kata-kata yang
Penelitian ini menggunakan perangkat
mewakili isi setiap tumbuhan obat. Kata-kata
lunak dan perangkat keras dengan spesifikasi
tersebut menceritakan tentang penyakit yang
adalah sebagai berikut :
dapat disembuhkan, kandungan kimia dalam
suatu tumbuhan obat, karakteristik fisik 1. Perangkat Lunak :
tumbuhan obat tertentu, dan cara penggunaan  Sistem operasi Microsoft Windows XP
suatu tumbuhan obat tertentu. Tabel 6  Notepad++ sebagai code editor
menunjukkan rincian kueri uji.  Server XAMPP
Penghitungan nilai recall precision yang  Perangkat lunak MySQL untuk
dinyatakan dalam Persamaan 10 dan database
Persamaan 11 dilakukan untuk melihat  Web Browser (melalui Local Area
tingkat efektifitas proses temu kembali Connection): Mozilla Firefox
2. Perangkat Keras :
 Intel Pentium Core i3 @3.0 Ghz

9
 Memory 2990MB RAM menjelaskan bahwa waktu rata-rata yang
 Harddisk dengan kapasitas sisa 300GB digunakan untuk memproses satu dokumen
 Monitor resolusi 1366 x 768 pixel uji pada pemilihan nilai signifikansi 0,001
Mouse dan keyboard adalah selama 0,7 menit dan pada pemilihan
nilai signifikansi 0,01 adalah selama 2,15
menit.
HASIL DAN PEMBAHASAN 2.5
2.15
Praproses
2
Pengindeksan dokumen latih yang

Waktu (menit)
keseluruhan berjumlah 93 dokumen
menghasilkan 3.312 dan 10.346 kata yang 1.5
0.001
berupa kata unik yang ditemui di setiap
0.01
dokumen dalam keseluruhan dokumen latih. 1
Pemilihan fitur 0.7
0.5
Vektor kata unik yang telah dihasilkan
dari tahapan praproses kemudian diproses
pada tahap pemilihan fitur. Tahapan 0
pemilihan fitur dokumen diujikan terhadap Nilai Kritis
dua teknik berbeda. Teknik pemilihan fitur Gambar 4 Rataan waktu proses klasifikasi
dokumen yang pertama adalah dengan teknik pada setiap pemilihan nilai kritis
chi-kuadrat. Pada teknik pemilihan fitur (chi-kuadrat).
berikutnya adalah dengan menggunakan
teknik document frequency thresholding Pemilihan nilai signifikansi 0,001
(DF). memberikan kinerja klasifikasi yang lebih
baik daripada ketika pemilihan nilai
a. Chi-kuadrat (χ2) signifikansi 0,01. Hal itu dikarenakan pada
Pemilihan fitur dengan teknik chi- pemilihan nilai signifikansi 0,001
kuadrat dilakukan pada dua nilai signifikansi menghasilkan himpunan kata penciri yang
(Tabel 2). Berdasarkan teori terpenuhinya berjumlah lebih sedikit daripada jumlah kata
hipotesis, nilai signifikansi 0,001 dapat penciri yang dihasilkan pada pemilihan nilai
diartikan bahwa kriteria kata yang dipilih signifikansi 0,01.
adalah kata yang memiliki nilai χ2 diatas b. Document frequency thresholding (df).
10,83. Nilai signifikansi 0,01 diartikan Pemilihan fitur dokumen dengan teknik
sebagai kriteria kata yang dipilih adalah document frequency thresholding (df)
untuk setiap kata yang memiliki nilai χ2 dilakukan pada dua nilai threshold. Nilai
diatas 6,63. Hasil dari tahapan ini adalah threshold yang digunakan adalah pada
2.942 kata unik pada pemilihan nilai threshold 3 dan 8. Hipotesis nol akan ditolak
signifikansi 0,01 dan 1.578 kata unik pada jika nilai threshold suatu kata lebih dari nilai
pemilihan nilai signifikansi 0,001. Kumpulan threshold yang digunakan. Nilai threshold 3
kata yang dihasilkan pada tahapan pemilihan menghasilkan kata penciri dokumen latih
fitur inilah yang kemudian hanya akan diolah sebanyak 935 kata. Nilai threshold 8
pada sistem klasifikasi. menghasilkan kata penciri dokumen latih
Klasifikasi dokumen pada nilai sebanyak 417 kata. Kumpulan kata yang
signifikansi 0,01 dan 0,001 memiliki akurasi dihasilkan pada tahapan pemilihan fitur inilah
yang sama besar yaitu 97,44% untuk kategori yang kemudian hanya akan diolah pada
family dan 89,74% untuk kategori penyakit sistem klasifikasi.
(Gambar 6). Pengaruh nyata yang diberikan Klasifikasi dokumen pada nilai
oleh teknik pemilihan fitur dokumen terlihat threshold 3 dan 8 memiliki akurasi 58,97%
pada lama waktu pemrosesan suatu dokumen untuk kategori family dan 76,92% untuk
uji hingga diklasifikasikan ke dalam kelas kategori penyakit. Gambar 5 menunjukkan
yang tepat. Gambar 4 menunjukkan waktu waktu rata-rata yang diperlukan untuk
rata-rata yang diperlukan untuk menglasifikasikan dokumen uji pada setiap
menglasifikasikan dokumen uji pada setiap nilai threshold yang digunakan. Gambar 5
nilai signifikansi yang digunakan. Gambar 4 menjelaskan bahwa waktu rata-rata yang

10
digunakan untuk memproses satu dokumen berdasarkan penyakit, yaitu masing-masing
uji pada pemilihan nilai threshold 3 adalah sebesar 97,44% dan 89,74%. Hal tersebut
selama 6,80 menit dan pada pemilihan nilai disebabkan oleh metode klasifikasi Naive
threshold 8 adalah selama 5,36 menit. Bayes bekerja dengan memperhitungkan
peluang kemunculan suatu kata yang terdapat
8 pada dokumen uji yang dihitung terhadap
6.8 kemunculan kata dalam suatu kelas dokumen
7 latih.
6 5.36
Waktu (menit)

5 100 97.44
89.74
3 90
4
80
3 8
70
2

Persentase
60
Family
1 50
Penyakit
0 40
Nilai threshold 30
20
Gambar 5 Rataan waktu proses klasifikasi
pada setiap pemilihan nilai 10
threshold (df). 0
Berdasarkan hasil penelitian tersebut, Kategori Kelas
sistem dikembangkan menggunakan Gambar 6 Akurasi sistem klasifikasi.
pemilihan fitur dokumen chi-kuadrat pada
nilai signifikansi 0,001. Pemilihan teknik chi- Kata dalam dokumen uji pada dokumen
kuadrat dikarenakan pada teknik tersebut yang salah penglasifikasian memiliki peluang
memiliki tingkat akurasi klasifikasi yang kemunculan kata yang lebih besar untuk
lebih baik dan membutuhkan waktu lebih muncul pada kelas dokumen yang salah. Hal
cepat untuk menglasifikasikan dokumen uji ini membuat keakurasian dalam
daripada teknik document thresholding penglasifikasian dokumen menjadi rendah.
frequency(df). Untuk kategori family, rata-rata dokumen uji
masuk ke dalam kelas yang tepat, karena kata
Pengujian kinerja sistem penciri untuk suatu kelas family tertentu
Proses evaluasi yang dilakukan terdiri berbeda antar setiap kelasnya.
atas dua proses evaluasi. Evaluasi pertama b. Akurasi sistem temu kembali informasi
adalah pengujian tingkat akurasi sistem
klasifikasi, dan evaluasi berikutnya adalah Evaluasi sistem temu kembali informasi
pengujian tingkat akurasi sistem temu dilakukan menggunakan 29 kueri uji yang
kembali informasi. Evaluasi sistem dilakukan merepresentasikan isi dokumen. Kumpulan
sesuai pada hasil pemilihan fitur dokumen kata kueri yang digunakan dalam pengujian
pada tingkat signifikansi 0,001. sistem temu kembali informasi dapat dilihat
pada Tabel 6.
a. Akurasi sistem klasifikasi
Pengujian sistem temu kembali
Akurasi dari sistem klasifikasi dapat informasi dilakukan menggunakan recall
dihitung dengan menggunakan bantuan tabel precision. Hasil penghitungan recall
confussion matrix. Pada kategori kelas family precision ditunjukkan pada Gambar 7.
tabel confussion matrix ditunjukkan pada
Lampiran 5 dan untuk kelas penyakit
ditunjukkan pada Lampiran 6.
Akurasi sistem klasifikasi dapat dilihat
pada Gambar 5. Akurasi sistem klasifikasi
yang dikelaskan berdasarkan family
tumbuhan obat memiliki tingkat akurasi yang
lebih tinggi daripada sistem yang dikelaskan

11
1
memperhatikan kedekatan kata yang
digunakan pada kueri.
0.9

0.8
KESIMPULAN DAN SARAN
0.7
Kesimpulan
0.6
Precision

Penelitian ini menganalisis kinerja chi-


0.5 kuadrat dibanding dengan kinerja document
thresholding frequency (df) sebagai
0.4
pengekstraksi fitur yang kemudian diterapkan
0.3 ke dalam klasifikasi Naïve Bayes untuk
membuat model klasifikasi sebagai dasar dari
0.2 sistem temu kembali informasi. Dari hasil
0.1 yang diperoleh dapat disimpulkan bahwa:

0
1. Penerapan teknik pemilihan fitur
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 dokumen dapat meningkatkan kinerja
Recall sistem klasifikasi.
2. Kinerja pemilihan fitur dokumen dengan
Gambar 7 Grafik recall precision kueri uji teknik chi-kuadrat lebih baik dibanding
dengan document thresholding
Gambar 7 menunjukkan nilai recall
frequency(df).
precision yang tinggi. Hal tersebut dibuktikan
3. Penggunaan nilai signifikansi 0,001
dengan melihat hasil dokumen yang
memberikan kinerja klasifikasi yang lebih
dikembalikan kepada pengguna. Nilai
baik daripada penggunaan nilai
average precision adalah sebesar 93,26%.
signifikansi 0,01 sehingga sistem
Dapat disimpulkan bahwa kinerja sistem
dikembangkan pada nilai signifikansi
temu kembali informasi memiliki tingkat
0,001 untuk pengekstraksi fiturnya.
keakuratan yang baik untuk setiap kueri uji
4. Sistem klasifikasi memiliki tingkat
yang diberikan.
akurasi yang tinggi yaitu sebesar 97,44%
Dokumen yang tidak relevan namun untuk kategori klasifikasi berdasar family
ikut ditemukembalikan hanya terjadi pada dan 89,74% untuk klasifikasi berdasar
kueri uji „kalsium‟, „vitamin‟, „buah diperas‟, penyakit.
„gatal-gatal‟, dan „zat warna‟. Hal ini 5. Temu kembali informasi menggunakan
disebabkan karena kueri tersebut memiliki Sphinx memberikan hasil yang sangat
banyak arti penerjemahan antar setiap memuaskan. Ditunjukkan dengan nilai
dokumen tumbuhan obat sehingga kueri AVP sebesar 93,26%.
tersebut tidak mampu mewakili informasi
Saran
yang sebenarnya diinginkan oleh pengguna.
Misalnya informasi yang diinginkan Beberapa hal yang perlu dikembangkan
pengguna adalah informasi mengenai dalam penelitian ini:
kandungan kalsium dalam tumbuhan obat 1. Menggunakan dokumen corpus yang
(kueri „kalsium‟), namun sistem lebih beragam dan dalam jumlah yang
menemukembalikan informasi mengenai lebih banyak.
penyakit yang terjadi akibat kekurangan 2. Melakukan stemming pada proses
kalsium (kueri „kalsium‟). Kesalahan sistem pengindeksan awal.
dalam menemukembalikan dokumen 3. Menggunakan kamus frase untuk
disebabkan juga karena sistem melakukan memproses kata.
pencarian dokumen untuk masing-masing 4. Penelitian ini menggunakan metode chi-
kata kueri secara terpisah sehingga kuadrat untuk memilih fitur dokumen.
menyebabkan dokumen yang tidak relevan Disarankan untuk menggunakan metode
ikut terambil lebih banyak. Misalnya untuk pemilihan fitur yang lain, seperti
kueri „zat warna‟, sistem akan melakukan Information Gain, karena metode yang
pembobotan terhadap kata „zat‟ dan kata digunakan dalam penelitian ini
„warna‟. Hal ini sejalan dengan metode membutuhkan waktu komputasi yang
pembobotan BM25 yang hanya lama untuk melakukan pemilihan fitur
memperhatikan kemunculan satu kata tanpa dokumen.

12
1
memperhatikan kedekatan kata yang
digunakan pada kueri.
0.9

0.8
KESIMPULAN DAN SARAN
0.7
Kesimpulan
0.6
Precision

Penelitian ini menganalisis kinerja chi-


0.5 kuadrat dibanding dengan kinerja document
thresholding frequency (df) sebagai
0.4
pengekstraksi fitur yang kemudian diterapkan
0.3 ke dalam klasifikasi Naïve Bayes untuk
membuat model klasifikasi sebagai dasar dari
0.2 sistem temu kembali informasi. Dari hasil
0.1 yang diperoleh dapat disimpulkan bahwa:

0
1. Penerapan teknik pemilihan fitur
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 dokumen dapat meningkatkan kinerja
Recall sistem klasifikasi.
2. Kinerja pemilihan fitur dokumen dengan
Gambar 7 Grafik recall precision kueri uji teknik chi-kuadrat lebih baik dibanding
dengan document thresholding
Gambar 7 menunjukkan nilai recall
frequency(df).
precision yang tinggi. Hal tersebut dibuktikan
3. Penggunaan nilai signifikansi 0,001
dengan melihat hasil dokumen yang
memberikan kinerja klasifikasi yang lebih
dikembalikan kepada pengguna. Nilai
baik daripada penggunaan nilai
average precision adalah sebesar 93,26%.
signifikansi 0,01 sehingga sistem
Dapat disimpulkan bahwa kinerja sistem
dikembangkan pada nilai signifikansi
temu kembali informasi memiliki tingkat
0,001 untuk pengekstraksi fiturnya.
keakuratan yang baik untuk setiap kueri uji
4. Sistem klasifikasi memiliki tingkat
yang diberikan.
akurasi yang tinggi yaitu sebesar 97,44%
Dokumen yang tidak relevan namun untuk kategori klasifikasi berdasar family
ikut ditemukembalikan hanya terjadi pada dan 89,74% untuk klasifikasi berdasar
kueri uji „kalsium‟, „vitamin‟, „buah diperas‟, penyakit.
„gatal-gatal‟, dan „zat warna‟. Hal ini 5. Temu kembali informasi menggunakan
disebabkan karena kueri tersebut memiliki Sphinx memberikan hasil yang sangat
banyak arti penerjemahan antar setiap memuaskan. Ditunjukkan dengan nilai
dokumen tumbuhan obat sehingga kueri AVP sebesar 93,26%.
tersebut tidak mampu mewakili informasi
Saran
yang sebenarnya diinginkan oleh pengguna.
Misalnya informasi yang diinginkan Beberapa hal yang perlu dikembangkan
pengguna adalah informasi mengenai dalam penelitian ini:
kandungan kalsium dalam tumbuhan obat 1. Menggunakan dokumen corpus yang
(kueri „kalsium‟), namun sistem lebih beragam dan dalam jumlah yang
menemukembalikan informasi mengenai lebih banyak.
penyakit yang terjadi akibat kekurangan 2. Melakukan stemming pada proses
kalsium (kueri „kalsium‟). Kesalahan sistem pengindeksan awal.
dalam menemukembalikan dokumen 3. Menggunakan kamus frase untuk
disebabkan juga karena sistem melakukan memproses kata.
pencarian dokumen untuk masing-masing 4. Penelitian ini menggunakan metode chi-
kata kueri secara terpisah sehingga kuadrat untuk memilih fitur dokumen.
menyebabkan dokumen yang tidak relevan Disarankan untuk menggunakan metode
ikut terambil lebih banyak. Misalnya untuk pemilihan fitur yang lain, seperti
kueri „zat warna‟, sistem akan melakukan Information Gain, karena metode yang
pembobotan terhadap kata „zat‟ dan kata digunakan dalam penelitian ini
„warna‟. Hal ini sejalan dengan metode membutuhkan waktu komputasi yang
pembobotan BM25 yang hanya lama untuk melakukan pemilihan fitur
memperhatikan kemunculan satu kata tanpa dokumen.

12
EKSTRAKSI CIRI DOKUMEN TUMBUHAN OBAT MENGGUNAKAN
CHI-KUADRAT DENGAN KLASIFIKASI NAIVE BAYES

YOGA HERAWAN

DEPARTEMEN ILMU KOMPUTER


FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2011
5. Penelitian ini menggunakan metode Naïve CEAS 2006 – Third Conference on Email
Bayes sebagai sistem klasifikasi and AntiSpam.
dokumen. Disarankan untuk
Rish et al. 2001. An analysis of data
menggunakan metode klasifikasi
characteristics that affect naïve Bayes
dokumen lainnya seperti SVM atau
performance. -.
metode fuzzy.
Seddiqui M H., Aono M., 2000. Use of
Ontology in Text Classification.
DAFTAR PUSTAKA Toyohashi University of Technology.
Japan.
Baeza-Yates R, Riberio-Neto B. 1999.
Modern Information Retrieval. England: Spiegel M. 2004. Schaum’s Easy Outlines.
Addison Wesley. Jakarta: Erlangga.
El-Kourdi, M., Bensaid, A., and Rachidi, T. Steinbach M., Karypis G., Kumar V., 2000. A
“Automatic Arabic Document Comparison of Document Clustering
Categorixation Based on the Naïve Bayes Techniques. Department of Computer
Algorithm,” 20th International Conference Science and Egineering. University of
on Computational Linguistics, 2004, Minnesota. Minnesota.
Geneva. Tan et al. 2006. Introduction to Data Mining.
Forman G., M. “An Extensive Empirical USA: Addison Wesley.
Study of Feature Selection Metrics for Thabtah, Fadi. “Naïve Bayesian Based on
Text Classification,” Journal of Machine Chi Square to Categorize Arabic
Learning Research 3 (2003) 1289-1305. Data,”Camunication of the IBIMA Vol.
Hadi W., Thabtah F., ALHawari S., Ababneh 10, 2009.
J.”Naive Bayesian and K-Nearest Yang Y, Pedersen J. 1997. A Comparative
Neighbour to Categorize Arabic Text Study on Feature Selection in Text
Data, “In Proceedings of the European Categorization. International Conference
Simulation and Modeling Conference, Le on Machine Learning 1997.
Havre, France, 2008
Zuhud, E.A.M. 2009. Potensi Hutan Tropika
Han J, Kamber M. 2006. Data Mining : Indonesia sebagai Penyangga Bahan
Concepts and Techniques. USA : Morgan Obat Alam untuk Kesehatan Bangsa.
Kaufman Publishers. Jurnal Bahan Alam Indonesia. Vol VI
Hashimoto K., Yukawa T.,” Term Weighting No.6, Januari 2009.
Classification System Using the Chi-
square Statistic for the Classification
Subtask at NTCIR-6 Patent Retrieval
Task, “In Proceedings of NTCIR-6
Workshop Meeting, Japan, 2007
Manning C D., Raghavan P., Schutze H.,
2009. An Introduction to Information
Retrieval. Cambridge, Cambridge
University Press.
McCalum, A. & Nigam, K. 1998. A
Comparison of Event Models for Naïve
Bayes Text Classification.
Mesleh, A. A. “Chi Square Feature
Extraction Based Svms Arabic Language
Text Categorization Systems,” Journal of
Computer Science (3:6), 2007,pp.430-
435.
Metsis et al. 2006. Spam filtering with Naïve
Bayes – Which Naïve Bayes?. Di dalam

13
LAMPIRAN

14
Lampiran 1 Daftar 32 jenis tumbuhan obat Indonesia yang digunakan dalam penelitian

No Nama Nama Latin


1 Pandan wangi Pandanus amaryllifolius Roxb.
2 Jarak pagar Jatropha curcas Linn.
3 Dandang gendis Clinacanthus nutans Lindau
4 Akar kuning Arcangelisiaflava L.
5 Gadung cina Smilax china
6 Tabat barito Ficus deloidea L.
7 Kemuning Murraya paniculata [L..] Jack.
8 Pegagan Centella asiatica (L.) Urban
9 Krokot Portulaca oleracea L.
10 Zodia Evodia suaveolens
11 Iler Coleus scutellarioides, Linn,Benth
12 Jeruk nipis Citrus aurantifolia, Swingle.
13 Sambang darah Excoecaria cochinchinensis Lour.
14 Nanas kerang Rhoeo discolor (L.Her.) Hance
15 Sambang colok Aerva sanguinolenta Bl.
16 Remek daging Excecaria bicolor Hassk
17 Kumis kucing Orthosiphon aristatus (B1) Miq.
18 Sosor bebek Kalanchoe pinnata (Lam.) Per.
19 Landik Barleria lupulina Lindl.
20 Jambu biji Psidium guajava L.
21 Tapak dara Catharantus roseus (L.) G. Don.
22 Som jawa Talinum paniculatum (jacq.) Gaertn.
23 Jarong Achyranthes aspera Linn.
24 Mangkokan Nothopanax scutellarium Merr.
25 Andong Cordyline fruticosa (L) A. Cheval.
26 Kemangi Ocimum basilicum
27 Patah tulang Eupharbia tirucalli L.
28 Cincau hitam Cyclea peltata Miq.
29 Awar – awar Ficus septica Burm f.
30 Semanggi gunung Hydrocotyle sibthorpioides Lam.
31 Salam Syzygium polyanthum (Wight.) Walp.
32 Bayam duri Amaranthus Spinousus, Linn.

15
Lampiran 2 Tabel distribusi chi-kuadrat pada berbagai tingkat signifikansi dan derajat bebas
tertentu

d.f
1 1.32 2.71 3.84 5.02 6.63 7.88 10.8
2 2.77 4.61 5.99 7.38 9.21 10.6 13.8
3 4.11 6.25 7.81 9.35 11.3 12.8 16.3
4 5.39 7.78 9.49 11.1 13.3 14.9 18.5
5 6.63 9.24 11.1 12.8 15.1 16.7 20.5
6 7.84 10.6 12.6 14.5 16.8 18.5 22.5
7 9.04 12 14.1 16 18.5 20.3 24.3
8 10.2 13.4 15.5 17.5 20.1 22 26.1
9 11.4 14.7 16.9 19 21.7 23.6 27.9
10 12.5 16 18.3 20.5 23.2 25.2 29.6
11 13.7 17.3 19.7 21.9 24.7 26.8 31.3
12 14.8 18.5 21 23.3 26.2 28.3 32.9
13 16 19.8 22.4 24.7 27.7 29.8 34.5
14 17.1 21.1 23.7 26.1 29.1 31.3 36.1
15 18.2 22.3 25 27.5 30.6 32.8 37.7
16 19.4 23.5 26.3 28.8 32 34.3 39.3
17 20.5 24.8 27.6 30.2 33.4 35.7 40.8
18 21.6 26 28.9 31.5 34.8 37.2 42.3
19 22.7 27.2 30.1 32.9 36.2 38.6 32.8
20 23.8 28.4 31.4 34.2 37.6 40 45.3
21 24.9 29.6 32.7 35.5 38.9 41.4 46.8
22 26 30.8 33.9 36.8 40.3 42.8 48.3
23 27.1 32 35.2 38.1 41.6 44.2 49.7
24 28.2 33.2 36.4 39.4 32 45.6 51.2
25 29.3 34.4 37.7 40.6 44.3 46.9 52.6
26 30.4 35.6 38.9 42.9 45.6 48.3 54.1
27 31.5 36.7 40.1 43.2 47 49.6 55.5
28 32.6 37.9 41.3 44.5 48.3 51 56.9
29 33.7 39.1 42.6 45.7 49.6 52.3 58.3
30 34.8 40.3 43.8 47 50.9 53.7 59.7
40 45.6 51.8 55.8 59.3 63.7 66.8 73.4
50 56.3 63.2 67.5 71.4 76.2 79.5 86.7
60 67 74.4 79.1 83.3 88.4 92 99.6
70 77.6 85.5 90.5 95 100 104 112
80 88.1 96.6 102 107 112 116 125
80 98.6 108 113 118 124 128 137
100 109 118 124 130 136 140 149
Sumber: Ronald J. Wonnacolt and Thomas H. Wonnacot.
Statistics: Discovering Its Power, New York: John Willeyand Sons, 1982, hal 352.

16
Lampiran 3 Confusion matrix untuk kelas family (berdasarkan pemilihan fitur chi-kuadrat pada nilai signifikansi 0,001)

Keterangan :
Prediksi
Aktual
Pan Men Smi Lam Eup Rut Bro Por Mor Apo Api Cra Myr Ach Ama Ara Aga Pan = Pandanaceae
Pan 2 Men = Menispermaceae
Smi = Smilacaceae
Men 2
Api = Apiaceae
Smi 1 Lam = Lamiaceae
Lam 3 Cra = Crassulaceae
Eup = Euphorbiaceae
Eup 3
Myr = Myrtaceae
Rut 3 Rut = Rutaceae
Bro 1 Ach = Achantaceae
Bro = Bromeliaceae
Por 2
Ama = Amaranthaceae
Mor 2 Por = Portulacaceae
Apo 1 Ara = Araliaceae
Aga = Agavaceae
Api 3
Cra 1
Myr 4
Ach 1 2
Ama 4
Ara 1
Aga 1

17
Lampiran 4 Confusion matrix untuk kelas penyakit (berdasarkan pemilihan fitur chi-kuadrat pada
nilai signifikansi 0,001)

Prediksi Keterangan :
Aktual
PR K NRD KR PC SK PP
PR 7 1 PR = Perawatan
K = Kulit
K 3 1 NRD = Nyeri-Radang-Demam
NRD 1 7 KR = Kronis
KR 1 PC = Pencernaan
SK = Saluran Kemih
PC 1 10 PP = Pernapasan
SK 2
PP 4

18

You might also like