Professional Documents
Culture Documents
1,Maret 2010
ISSN 2085-725X
Abstrak
Automatic knowledge acquisition method from documented source of expert system, now is
still residing at under done development stage. This research developed a new method to do
automatic knowledge acquisition from text of expert system by combines text mining and neural
network technology. The design of research consists of three steps, that is: development of the
method, development of the prototype and accuracy level evaluation of the produced knowledge
base.
Automatic knowledge acquisition method from documented source, which developed at this
research consist of six steps, that is: document parsing, topics retrieval, topics clustering, domain
extraction, item extraction and solution extraction. Document parsing applied with parsing
method of natural language processing to do POS tagging on text. Topics retrieval developed
based on information retrieval technology to find studied topics/phrase of text. Topics clustering
developed based on self organizing maps technology to group relevant and non relevant
topics/phrase. Domain extraction, item extraction and solution extraction developed based on
information extraction technology and knowledge graph theory. Domain extraction extracted
information of a relevant topic/phrase on text. Item extraction extracted indication information of
a domain. Solution extraction extracted solutions information of a domain. Produced knowledge
base will represent with object oriented. Inference engine developed based on dempster-shafer
theory and fabric fault advisory expert system journal as reference. Automatic knowledge
acquisition system prototype and expert system prototype developed with object oriented software
engineering approach. Evaluation result show that the produced knowledge base accuracy level is
reach 0.6563 and accuracy level can be increase by adding number of knowledge source
document.
Keywords : Automatic Knowledge Acquisition, Expert System, Object Oriented Knowledge
Base Representation, Inference Engine, Text Mining, Neural Network.
3. Text Mining dilakukan pada text file yang POS Tagging adalah sebuah proses yang
telah ditentukan oleh knowledge engineer mengelompokkan kata ke sebuah penanda
dan diasumsikan bahwa text file tersebut kelas dalam sebuah kalimat. Kata
cukup relevan dengan domain dikelompokan menjadi: kata benda, kata
pengetahuan sistem pakar yang akan kerja, kata sifat, kata keterangan dan kata
dikembangkan. depan. POS dapat dibagi menjadi 2 kategori
4. Text mining yang dilakukan hanya dapat yaitu closed class dan open class. Yang
mengenali bahasa inggris, sehingga termasuk open class pada bahasa inggris,
pengetahuan sistem pakar yang dihasilkan yaitu kata benda, kata kerja, kata sifat dan
juga akan berbahasa inggris. kata keterangan. Closed class pada bahasa
5. Mekanisme inferensi dibatasi hanya inggris: prepositions, particles, determiners,
menggunakan metode inferensi backward pronouns, conjunctions, auxiliary verbs,
chaining. numerals.
CFG adalah bentuk formal yang
Tujuan memungkinkan pemodelan fakta-fakta
1. Mengembangkan metode akuisisi constituent. Sebuah CFG terdiri atas beberapa
pengetahuan otomatis dari sumber aturan dan produksi yang masing-masing
terdokumentasi pada sistem pakar dengan mengekspresikan cara yang merupakan
mengkombinasikan teknologi text mining simbol bahasa dapat dikelompokkan dan
yang memanfaatkan neural network. diurutkan bersama, dan sebuah kamus kata
2. Merepresentasikan basis pengetahuan dan dan simbol. CFG merupakan model sistem
mengembangkan mesin inferensi pada matematika yang sering digunakan untuk
sistem pakar untuk menggunakan basis memodelkan struktur unsur dalam bahasa
pengetahuan yang ditelah dihasilkan. inggris dan bahasa alami yang lain. Frase kata
3. Mengembangkan prototype sistem benda pada bahasa inggris dapat mempunyai
akuisisi pengetahuan otomatis untuk determinan, angka, pengukur, farase kata sifat
menguji metode yang dikembangkan, dan yang mendahului kata benda, yang dapat
prototype sistem pakar untuk menguji diikuti dengan sebuah angkat dari
basis pengetahuan yang dihasilkan. postmodifiers, gerundive VPs, invinitives VPs
4. Mengukur tingkat akurasi basis dan past participe adalah kemungkinan yang
pengetahuan sistem pakar yang dihasilkan paling umum. Subjek dalam bahasa inggris
dari proses akuisisi pengetahuan otomatis dapat diikuti dengan kata kerja utama pada
dari sumber terdokumentasi. orang dan angka. Kata kerja dapat di sub-
kategorikan oleh tipe komplemen yang
Manfaat diharapkan. Sub-kategorisasi yang sederhana
1. Dapat mengurangi biaya pengembangan adalah transitive dan intransitive. Sub-kelas
sistem pakar dengan menghilangkan dari kata kerja adalah kata penghubung
kebutuhan terhadap pakar dan (auxiliaries) atau kata kerja bantu mempunyai
mempercepat proses pengembangan batasan syntactic tertentu yang dapat dilihat
sistem pakar sebagai salah satu jenis sub-kategorisasi.
2. Sumbangsih bagi ilmu pengetahuan Auxiliaries memasukkan kata kerja modal
bidang artificial intelligence khususnya can, could, may, might, must, will, would,
pada sistem pakar dengan shall, should, have, be.
memperkenalkan metode akuisisi Parsing dengan CFG mengarah pada
pengetahuan otomatis dari sumber proses yang menugaskan pemodelan pohon
terdokumentasi untuk sistem pakar pada yang benar pada input string, dimana dapat
penelitian ini. menutupi semua kalimat dan mempunyai
sebuah node ’S’ pada bagian paling atas.
TINJAUAN PUSTAKA Terdapat 2 batasan yang dapat digunakan
untuk membantu pencarian yaitu batasan
Natural Language Processing berasal dari data dan berasal dari grammer.
(NLP)[ANL01],[DNL01],[DNL02] Pada akhir proses parsing, pada pohon harus
60
Jurnal TELEMATIKA MKOM, Vol.2 No.1,Maret 2010
ISSN 2085-725X
61
Jurnal TELEMATIKA MKOM, Vol.2 No.1,Maret 2010
ISSN 2085-725X
Plausability (Pl) dinotasikan sebagai: indikator chunks. Berikut ini adalah chunks
Pl(s) = 1 – Bel(-s) indicators yang digunakan pada knowledge
Plausability juga bernilai 0 sampai 1. Jika graph :
kita yakin akan _s, maka dapat dikatakan 1. Indicator 0: Sekumpulan koma (‘,’)
bahwa Bel(_s)=1, dan Pl(_s)=0. Pada teori dan/atau tanda periode.
dempster-shafer kita mengenal adanya frame 2. Indicator 1: Frame word, termasuk kata
of discernment yang dinotasikan dengan θ. kerja bantu.
Frame ini merupakan semesta pembicaraan 3. Indicator 2: Acuan kata-kata.
dari sekumpulan hipotesis. 4. Indicator 3: “Jumps”, berkenaan dengan
grammer.
Object Oriented Software Engineering 5. Indicator 4: Kata penghubung, termasuk
(OOSE) kata depan.
Belakangan ini muncul model proses
agile yang merupakan proses yang adaptif, Integrating an object oriented approach and
fokus pada hasil dan cenderung menggunakan rule-based reasoning in the design of a
iterasi yang singkat. Extreme Programming fabric fault advisory expert system. [CES01]
(XP) adalah salah satu contoh model proses Paper ini menjelaskan tentang desain
agile yang merupakan metodologi ringan sebuah sistem pakar yang tidak hanya
untuk proyek skala kecil sampai menengah. memberikan nasihat pada pengguna tekstil
XP mendominasi coding sebagai kunci pada fabric fault tetapi juga pada pada
aktivitas dalam keseluruhan proyek. pengguna non-tekstil, tetapi juga membantu
Tahapan analisis di tujukan untuk untuk mendiagnosa fabric fault. Sistem pakar
menganalis, menspesifikasikan dan ini mengintegrasikan pendekatan berorientasi
mendefinisikan sistem yang akan dibangun. objek dan rule-based reasoning. Sistem ini
Dalam proses Object Oriented Analisys berdasarkan pada premis yang merupakan
(OOA) juga dilakukan pengumpulan desain dari komponen yang harus di pisahkan
persyaratan untuk menciptakan skenario use dari implementasi detil. Secara singkat,
case. dijelaskan bahwa rules yang memanipulasi
Object Oriented Design (OOD) satu set object dipisahkan dari satu set objek
mentransformasikan model analisis OOA ke yang sama. Pemisahan definisi objek dari
dalam model desain dan menemukan. Design rules yang memanipulasi mereka pada basis
pattern merupakan sebuah strategi desain pengetahuan, dan pemisahan pengetahuan
kelas dan objek dalam OOD agar fleksibel, berbasis objek dari mesin inferensi berbasis
reusable, generic, independent. object yang melakukan infers kondisi, artinya
Coding merupakan tahap yang suatu perubahan yang dilakukan pada salah
menerjemahkan hasil OOD ke dalam bahasa satu dari komponen ini tidak berarti
pemrograman berorientasi objek. Refactoring perubahan juga harus dilakukan pada
adalah sebuah perubahan yang dilakukan komponen lain, dan juga setiap komponen ini
pada struktur internal perangkat lunak tanpa autonomous. Ketergantungan antar
mengubah behavior. component dalam sebuah object pada
Knowledge graph theory and structural pendekatan berorientasi objek, kemampuan
parsing [BNL01] sistem semacam ini, properties yang
Knowledge graph adalah salah satu jenis diwariskan, penggunaan kembali sebuah
sudut pandang baru yang digunakan untuk object adalah keuntungan yang sama dalam
mendeskripsikan bahasa manusia dan lebih mengadopsi sebuah pendekatan berorientasi
fokus pada semantik dari pada aspek objek.
syntaksis. Knowledge graph adalah sebuah
metode representasi pengetahuan yang baru Sistem Pakar
berdasarkan pada jaringan semantic. Sistem pakar merupakan suatu sistem
Dengan interpretasi dari sebuah kalimat, informasi yang menangkap dan menggunakan
sebagai pernyataan dari sebuah graph, pengetahuan serta metode pengambilan
sebagai panduan untuk mencoba mencari keputusan yang digunakan oleh seorang atau
63
Jurnal TELEMATIKA MKOM, Vol.2 No.1,Maret 2010
ISSN 2085-725X
65
Jurnal TELEMATIKA MKOM, Vol.2 No.1,Maret 2010
ISSN 2085-725X
Analisis
Gambar 5. Gambaran sistem secara umum. Gambar 6. Diagram konteks proses akuisisi
pengetahuan otomatis.
66
Jurnal TELEMATIKA MKOM, Vol.2 No.1,Maret 2010
ISSN 2085-725X
Documents parsing
67
Jurnal TELEMATIKA MKOM, Vol.2 No.1,Maret 2010
ISSN 2085-725X
Topics retrieval
Merupakan proses yang menemukan
topik-topik apa saja yang dibahas pada
keseluruhan dokumen. Topik tersebut dapat
berupa kata, frase kata atau kalimat singkat.
Topik-topik tersebut akan dicari pada
WordTag file dan hasil dari proses ini akan
disimpan pada TopicBase file dan setiap
kata/frase pada WordTag file akan disimpan
pada TopicItem file sebagai relasi child.
Selama proses pencarian, setiap kata, frase
atau kalimat tersebut akan diberikan nilai,
hasil perhitungan tersebut akan disimpan
pada TopicCalculation file. Beberapa nilai
akan dinormalisasi dari TopicCalculation file
dan disimpan pada TopicBase file.
Tahapan ini menggunakan metode
information retrieval pada teknologi Text
Mining. Tahapan ini mencari topik-topok
yang dibahas pada setiap dokumen yang
dimasukkan sebagai sumber pengetahuan
sistem pakar. Topik yang dibahas akan
berbentuk frase kata benda, dan ada
kecenderungan frekuensi kemunculan
kata/frase tersebut akan cukup tinggi, tetapi
kata/frase dengan frekuensi kemunculan yang
cukup tinggi pada semua dokumen bukan
merupakan topik yang dibahas. Untuk itu
maka digunakan model retrieval term
weighting (TF, IDF, TF-IDF) untuk
memberikan nilai tingkat relevansi dan
derajat kemiripian (cosine similarity) pada
sebuah frase.
68
Jurnal TELEMATIKA MKOM, Vol.2 No.1,Maret 2010
ISSN 2085-725X
Solution extraction
Merupakan proses yang melakukan
pencarian terhadap solusi dari domain
permasalahan pada DomainBase file. Pada
proses ini juga dilakukan pembentukan ulang
kalimat berdasarkan domain tertentu, dimana
hasil pembentukan ulang kalimat tersebut
mempunyai pengetahuan tentang solusi
terhadap permasalahan tersebut. Pola kalimat
yang mempunyai pengetahuan tentang solusi
pada domain tersebut akan disimpan pada
SolutionBase file. Domain yang tidak
mempunyai solusi tetapi mempunyai indikasi,
tetap dianggap sebagai domain permasalahan.
Hal ini akan diinformasikan pada user bahwa
permasalahan yang dihadapi belum
mempunyai solusi yang dapat diberikan,
karena solusi tersebut belum terdapat pada
basis pengetahuan sistem pakar.
Tahapan ini juga sama dengan domain
extraction tetapi dengan pola tagging yang
berbeda. Tahapan ini melakukan ekstraksi
informasi solusi sebuah domain pada setiap
kalimat yang mengandung kata/frase/topik
sebuah domain dan terdapat POS tagging
kalimat VB.
71
Jurnal TELEMATIKA MKOM, Vol.2 No.1,Maret 2010
ISSN 2085-725X
72
Jurnal TELEMATIKA MKOM, Vol.2 No.1,Maret 2010
ISSN 2085-725X
73
Jurnal TELEMATIKA MKOM, Vol.2 No.1,Maret 2010
ISSN 2085-725X
1.2
Probabilitas Akhir
0.8
0.6
0.4
0.2
0
0 0.2 0.4 0.6 0.8 1
Probabilitas Maksimal
Pengembangan Prototype
Pengembangan prototype sistem akuisisi
pengetahuan otomatis.
74
Jurnal TELEMATIKA MKOM, Vol.2 No.1,Maret 2010
ISSN 2085-725X
MODEM
Network
0.8
seberapa tinggi tingkat akurasi basis
0.6
pengetahuan yang dihasilkan melalui proses
0.4
akuisisi pengetahuan otomatis. Evaluasi
dilakukan dengan mengadaptasikan model 0.2
75
Jurnal TELEMATIKA MKOM, Vol.2 No.1,Maret 2010
ISSN 2085-725X
yang rendah disebabkan karena jumlah ditemukan bahwa nilai probabilitas maksimal
dokumen yang dimasukkan pada setiap yang harmonis berada antara 0.6 dan 0.8.
percobaan bervariasi dari basis pengetahuan Prototype dikembangkan dengan
dengan jumlah sedikit sampai ke jumlah pendekatan rekayasa perangkat lunak
dokumen yang banyak. berorientasi objek menggunakan UML
Semakin banyak dokumen yang sebagai tools untuk memodelkan dan
dimasukkan juga menyebabkan semakin mendokumentasikan sistem. Software process
lamanya proses akuisisi pengetahuan yang digunakan untuk pengembangan
dilakukan. Rata-rata waktu yang dibutuhkan prototype adalah proses iterative
1 dokumen untuk keseluruhan proses adalah menggunakan model agile metode Extreme
sekitar 30 menit jam sampai 1 jam, Programming (XP). Tahapan coding
tergantung dari usuran dokumen. Proses yang mendominasi keseluruhan pengembangan
paling lama dilakukan adalah pada proses prototype.
parsing dan topics retrieval, kedua proses Evaluasi dilakukan untuk seberapa tinggi
tersebut memakan waktu kurang lebih 60% tingkat akurasi basis pengetahuan yang
dari keseluruhan proses. dihasilkan melalui proses akuisisi
pengetahuan otomatis. Dari hasil pengujian
KESIMPULAN DAN SARAN diketahui bahwa nilai akhir (Ac) yang
diterima adalah 0.6563, performance sistem
Kesimpulan meningkat jika semakin banyak dokumen.
Penelitian telah mengembangkan sebuah Pada percobaan ini terlihat bahwa jumlah
metode baru untuk akuisisi pengetahuan dokumen sangat mempengaruhi tingkat
otomatis pada sistem pakar dari sumber akurasi knowledge base sistem pakar. Nilai
terdokumentasi berupa text file yang terdiri akurasi akhir yang rendah disebabkan karena
dari enam tahapan dan satu proses update jumlah dokumen yang dimasukkan pada
basis pengetahuan. Output setiap tahapan setiap percobaan bervariasi dari knowledge
akan digunakan pada tahapan berikutnya base dengan jumlah sedikit sampai ke jumlah
sebagai input. Pengembangan metode ini, dokumen yang banyak.
mengkombinasi teknologi natural language
processing, information retrieval, self Saran
organizing maps dan information extraction a. Untuk penelitian lebih lanjut, pada proses
dan tinjauan studi knowledge graph sebagai domain extraction, item extraction dan
tambahan referensi pada teknologi solution extraction dapat dikembangkan
information extraction. Keenam tahapan menggunakan machine learning, sehingga
proses tersebut, yaitu: Document parsing, sistem dapat belajar sendiri menentukan
Topics retrieval, Topics clustering, Domain pola kalimat yang akan diekstrak.
extraction, Item extraction, Solution b. Pada penelitian ini, metode akuisisi
extraction, ditambah satu proses update pengetahuan otomatis hanya bisa
pengetahuan. melakukan pembacaan dari text file, untuk
Hasil akuisisi pengetahuan otomatis penelitian lebih lanjut, dapat
menghasilkan representasi pengetahuan dikembangkan agar akuisisi dapat
berorientasi objek. Mekanisme inferensi ini dilakukan dari file HTML. Hal tersebut
menggunakan penalaran statistik probabilitas dapat dilakukan dengan menggunakan
dari teori dempster-shafer dengan tujuan pengenalan pola HTML, regular
untuk mengatasi ketidakpastian pada expression dan machine learning
penalaran non-monotis dan untuk mengurangi information extraction.
jalur pelacakan setiap gejala pada semua c. Pada penelitian ini, sumber pengetahuan
objek. Mekanisme inferensi dilakukan secara yang dimasukkan harus dicari terlebih
berulang hingga nilai probabilitas akhir dahulu secara manual. Untuk penelitian
sebuah domain telah mencapai nilai lebih lanjut dapat dikembangkan agar
probabilitas maksimal yang ditentukan sistem dapat mencari sendiri dokumen
pengguna. Berdasarkan hasil percobaan tersebut melalui API Search Engine yang
76
Jurnal TELEMATIKA MKOM, Vol.2 No.1,Maret 2010
ISSN 2085-725X
77
Jurnal TELEMATIKA MKOM, Vol.2 No.1,Maret 2010
ISSN 2085-725X
KB/recipes/aforge_neuro.aspx (diakses 7
July 2008)
[EIR01] Mayfield, James, Information
Retrieval, 2008, http://www.clsp.jhu.edu/
ws2000/presentations/preliminary/jim_ma
yfield/homewood_ir_tutorial.ppt (diakses
13 Maret 2008)
[EIR02] Radev, Dragomir R., Information
Retrieval,2008,
http://tangra.si.umich.edu/
~radev/650/notes/1.ppt (diakses 3 Juli
2008)
[EIR03] Mooney, J Raymond, Mining
Complex Types of Data: Information
Retrieval, 2008,
http://www.cs.utexas.edu/users/mooney
/ir-course (diakses 10 Maret 2008).
[EIE01] Cowie, Jim & Wilks,Yorick,
Information Extraction, 2008,
http://www.dcs.shef.ac.uk/~yorick/papers/
infoext.pdf (diakses 14 Maret 2008)
78