P. 1
tugas1 STBI

tugas1 STBI

|Views: 183|Likes:
Published by Jaya Mega
menjelaskan pengertian tentang STBI
menjelaskan pengertian tentang STBI

More info:

Published by: Jaya Mega on Oct 28, 2010
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOC, PDF, TXT or read online from Scribd
See more
See less

07/21/2015

pdf

text

original

TUGAS 1 SISTEM TEMU BALIK INFORMASI

Informasi System Temu Balik Informasi

Disusun Oleh:

PROGRAM STUDI TEKNIK INFORMATIKA UNIVERSITAS MARITIM RAJA ALI HAJI 2010

1

Information Retrieval merupakan bagian dari computer science yang berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri. Berdasarkan referensi dijelaskan bahwa Information Retrieval merupakan suatu pencarian informasi (biasanya berupa dokumen) yang didasarkan pada suatu query (inputan user) yang diharapkan dapat memenuhi keinginan user dari kumpulan dokumen yang ada. Sedangkan, definisi query dalam Information Retrieval menurut referensi merupakan sebuah formula yang digunakan untuk mencari informasi yang dibutuhkan oleh user, dalam bentuk yang paling sederhana, sebuah query merupakan suatu keywords (kata kunci) dan dokumen yang mengandung keywords merupakan dokumen yang dicari dalam IRS. Salah satu aplikasi umum dari sistem temu kembali informasi adalah s e a r c h engine atau mesin pencarian yang terdapat pada jaringan internet. Pengguna dapat mencari halaman-halamanweb yang dibutuhkannya melaluisearch engine. Contoh lain dari sistem temu kembali informasi adalah sistem informasi perpustakaan. Sistem temu kembali informasi terutama berhubungan dengan pencarian informasi yang isinya tidak memiliki struktur. Demikian pula ekspresi kebutuhan pengguna yang disebutquery, juga tidak memiliki struktur. Hal ini yang membedakan sistem temu kembali informasi dengan sistem basis data. Dokumen adalah contoh informasi yang tidak terstruktur. Isi dari suatu dokumen sangat tergantung pada pembuat dokumen tersebut. Sebagai suatu sistem, sistem temu kembali informasi memiliki beberapa bagian yang membangun sistem secara keseluruhan. Gambaran bagian-bagian yang terdapat pada suatu sistem temu kembali informasi digambarkan pada Gambar dibawah ini yang menampilkan bahwa terdapat dua buah alur operasi pada sistem temu kembali informasi. Alur pertama dimulai dari koleksi dokumen dan alur kedua dimulai dariq u e r y pengguna. Alur pertama yaitu pemrosesan terhadap koleksi dokumen menjadi basis data indeks tidak tergantung pada alur kedua. Sedangkan alur kedua tergantung dari keberadaan basis data indeks yang dihasilkan pada alur pertama.

2

1.Text Operations (operasi terhadap teks) yang meliputi pemilihan kata-kata dalamquery maupun dokumen (term selection) dalam pentransformasian dokumen atauq u e r y menjadi terms index (indeks dari kata-kata). 2.Query formulation (formulasi terhadapquery) yaitu memberi bobot pada indeks kata-kataquery. 3.Ranking (perangkingan), mencari dokumen-dokumen yang relevan terhadap query dan mengurukan dokumen tersebut berdasarkan kesesuaiannya dengan query. 4.Indexing (pengindeksan), membangun data indeks dari koleksi dokumen. Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan. Sistem temu kembali informasi menerimaquery dari pengguna, kemudian melakukan perangkingan terhadap dokumen pada koleksi berdasarkan

3

kesesuaiannya denganq u e r y. Hasil perangkingan yang diberikan kepada pengguna merupakan dokumen yang menurut sistem relevan denganquery. Namun relevansi dokumen terhadap suatu query merupakan penilaian pengguna yang subjektif dan dipengaruhi banyak factor seperti topik, pewaktuan, sumber informasi mapun tujuan pengguna. Model sistem temu kembali informasi menentukan detail sistem temu kembali informasi yaitu meliputi representasi dokumen maupunq u e r y, fungsi pencarian (retrieval function) dan notasi kesesuaian (relevance notation) dokumen terhadap query. Salah satu model sistem temu kembali informasi yang paling awal digunakan adalah modelboolean. Modelboolean merepresentasikan dokumen sebagai suatu himpunan kata-kunci (set of keywords). Sedangkanquery direpresentasikan sebagai ekspresib o o l e a n.Query dalam ekspresiboolean merupakan kumpulan kata kunci yang

Cabang/Tipe Sistem Informasi Sistem Temu Balik Informasi (Information Retrieval System - IRS) merupakan salah satu cabang/tipe sistem informasi. Beberapa cabang atau tipe Sistem Informasi, antara lain: Sistem Temu Balik Informasi (Information Retrieval System - IRS), Sistem Manajemen Basis Data (Data Base Management System – DBMS), Sistem Informasi Manajemen (Management Information System – MIS), Sistem Pendukung Keputusan (Decision Support System - DSS), dan Sistem Kecerdasan Buatan (Artificial Intelligent System - AI).

Sistem Manajemen Basis Data

4

Sistem Manajemen Basis Data merupakan sistem yang didesain untuk memanipulasi dan mengurus basis data. Data yang tersimpan dalam basis data dinyatakan dalam bentuk unsur-unsur data yang spesifik dan tersimpan dalam tabel-tabel. Setiap satuan data disebut record (cantuman) terdiri dari ruas-ruas (fields) yang berisi nilai yang menunjukkan karakteristik yang spesifik atau atribut yang mengidentifikasikan satuan data yang dimaksud. Proses yang berkaitan dengan manajemen basis data meliputi: penyimpanan, temu balik, updating, atau deletion, proteksi dari kerusakan, dan kadang-kadang mencakup transmisi data.

Output dapat mengandung record individual, sebagian record, tabel, atau bentuk susunan data yang lain dari basis data. Informasi yang ditemukan berisi cantuman-cantuman yang pasti sesuai dengan permintaan.

C. Sistem Informasi Manajemen Sistem Informasi Manajemen adalah sistem yang didesain untuk kebutuhan manajemen untuk mendukung fungsi-fungsi dan aktivitas manajemen pada suatu organisasi. Oleh karena itu, jenis data dan fungsi-fungsi operasi disesuaikan dengan kebutuhan manajemen.

5

D. Sistem Pendukung Keputusan Sistem Pendukung Keputusan menggambarkan operasi-operasi spesifik dalam satuan-satuan informasi yang homogen.

E. Sistem Kecerdasan Buatan Tabel 1 memberikan perbandingan antara Sistem Temu Balik Informasi, Sistem Manajemen Basis Data dan Artificial Intelligent seperti yang dikemukakan oleh Frakes dan Baeza-Yates (1992).

Tabel 1. Perbandingan antara Sistem Temu Balik Informasi, Sistem Manajemen Basis Data dan Sistem Kecerdasan Buatan

Perbedaan pertama di antara ketiganya terletak pada data objek masing-masing sistem informasi. Data objek Sistem Temu Balik Informasi (IRS) adalah dokumen yang pada umumnya tekstual dan tidak terstruktur. Data objek Sistem Manajemen Basis Data (DBMS) adalah tabel yang tentu saja terstruktur. Data objek Sistem Kecerdasan Buatan (AI) adalah pernyataan logika yang merupakan struktur yang dibangun berdasarkan jaringan semantik.

6

Perbedaan lain terletak pada fungsi operasinya. Temu balik pada Sistem Temu Balik Informasi bersifat probabilistik, sedang temu balik pada Sistem Manajemen Basis Data bersifat deterministik. Dalam pencarian informasi menggunakan Sistem Temu Balik Informasi dengan pertanyaan (query) tertentu dapat ditemukan sejumlah dokumen. Akan tetapi tidak dapat dipastikan bahwa dokumen yang ditemukan relevan dengan informasi yang diinginkan oleh pengguna. Ada kemungkinan dokumen yang ditemukan tidak relevan dan/atau dokumen yang relevan justru tidak ditemukan. Sementara itu dalam pencarian informasi menggunakan Sistem Manajemen Basis Data, bila pertanyaan (query) sesuai dengan nilai atribut yang ada dalam basis data maka akan ditemukan record yang relevan, dan bila pertanyaan (query) tidak sesuai dengan nilai atribut yang ada dalam basis data maka tidak akan ditemukan record informasi apapun.

Ukuran basis data pada Sistem Temu Balik Informasi dan Sistem manajemen basis data dapat bervariasi dari basis data yang relatif kecil sampai dengan basis data yang sangat besar. Basis data dapat berisi jutaan cantuman dan memori penyimpanan dapat berukuran sampai dengan beberapa gigabyte. Oleh karena itu pemilihan struktur data dan algoritma merupakan permasalahan yang kritis dalam desain sistem yang memungkinkan temu kembali dengan basis data berukuran besar secara efektif dan efisien.

Tujuan dan Fungsi Sistem Temu Balik Informasi Sistem Temu Balik Informasi didesain untuk menemukan dokumen atau informasi yang diperlukan oleh masyarakat pengguna.

7

Sistem Temu Balik Informasi bertujuan untuk menjembatani kebutuhan informasi pengguna dengan sumber informasi yang tersedia dalam situasi seperti dikemukakan oleh Belkin (1980) sebagai berikut: Penulis mempresentasikan sekumpulan menggunakan sekumpulan konsep. ide dalam sebuah dokumen

Terdapat beberapa pengguna yang memerlukan ide yang dikemukakan oleh penulis tersebut, tapi mereka tidak dapat mengidentifikasikan dan menemukannya dengan baik. Sistem temu balik informasi bertujuan untuk mempertemukan ide yang dikemukakan oleh penulis dalam dokumen dengan kebutuhan informasi pengguna yang dinyatakan dalam bentuk pertanyaan (query).

Berkaitan dengan sumber informasi di satu sisi dan kebutuhan informasi pengguna di sisi yang lain, Sistem Temu Balik Informasi berperan untuk: Menganalisis isi sumber informasi dan pertanyaan pengguna. Mempertemukan pertanyaan pengguna dengan sumber informasi untuk mendapatkan dokumen yang relevan.

Adapun fungsi utama Sistem Temu Balik Informasi seperti dikemukakan oleh Lancaster (1979) dan Kent (1971) adalah sebagai berikut: 1.Mengidentifikasi sumber informasi yang relevan dengan minat masyarakat 2.pengguna yang ditargetkan. 3.Menganalisis isi sumber informasi (dokumen). 4.Merepresentasikan isi sumber informasi dengan cara tertentu yang 5.memungkinkan untuk dipertemukan dengan pertanyaan (query) pengguna.

8

6.Merepresentasikan pertanyaan (query) pengguna dengan cara tertentu yang 7.memungkinkan untuk dipertemukan sumber informasi yang terdapat dalam basis data. 8.Mempertemukan pernyataan pencarian dengan data yang tersimpan dalam basis data. 9.Menemu-kembalikan informasi yang relevan. 10.Menyempurnakan unjuk kerja sistem berdasarkan umpan balik yang diberikan oleh pengguna.

Komponen Sistem Temu Balik Informasi Menurut Lancaster (1979) Sistem Temu Balik Informasi terdiri dari 6 (enam) subsistem, yaitu: Subsistem dokumen Subsistem pengindeksan Subsistem kosa kata Subsistem pencarian Subsistem antarmuka pengguna-sistem Subsistem penyesuaian. Dokumen sebagai objek data dalam Sistem Temu Balik Informasi merupakan sumber informasi. Dokumen biasanya dinyatakan dalam bentuk indeks atau kata kunci. Kata kunci dapat diekstrak secara langsung dari teks dokumen atau ditentukan secara khusus oleh spesialis subjek dalam proses pengindeksan yang pada dasarnya terdiri dari proses analisis dan representasi dokumen.

9

Pengindeksan dilakukan dengan menggunakan sistem pengindeksan tertentu, yaitu himpunan kosakata yang dapat dijadikan sebagai bahasa indeks sehingga diperoleh informasi yang terorganisasi. Sementara itu, pencarian diawali dengan adanya kebutuhan informasi pengguna. Dalam hal ini Sistem Temu Balik Informasi berfungsi untuk menganalisis pertanyaan (query) pengguna yang merupakan representasi dari kebutuhan informasi untuk mendapatkan pernyataan-pernyataan pencarian yang tepat. Selanjutnya pernyataan-pernyataan pencarian tersebut dipertemukan dengan informasi yang telah terorganisasi dengan suatu fungsi penyesuaian (matching function) tertentu sehingga ditemukan dokumen atau sekumpulan dokumen.

Sementara itu Tague-Sutcliffe (1996) melihat Sistem Temu Balik Informasi sebagai suatu proses yang terdiri dari 6 (enam) komponen utama yaitu:

10

Kumpulan dokumen Pengindeksan Kebutuhan informasi pemakai Strategi pencarian Kumpulan dokumen yang ditemukan Penilaian relevansi

Bila diperhatikan dengan seksama, perbedaan komponen Sistem Temu Balik Informasi menurut Lancaster (1979) dan menurut Tague-Sutcliffe (1996) terletak pada penilaian relevansi, yaitu suatu tahap dalam temu balik untuk menentukan dokumen yang relevan dengan kebutuhan informasi pemakai. Secara garis besar komponen-komponen Sistem Temu Balik menurut TagueSutcliffe (1996) dapat diilustrasikan seperti pada Gambar berikut:

11

Dalam proses pencarian informasi terjadi interaksi antara pengguna dengan sistem (mesin) baik secara langsung maupun tidak langsung. Secara umum interaksi antara pengguna dengan sistem dalam proses pencarian informasi dapat dinyatakan seperti pada Gambar 3 dibawah ini:

12

Teknik pengembangan formula query (improving query formulation) dalam Information Retrieval terdiri dari 2 cara, yaitu: query expansion methods dan query reweighting method. Dalam kasus Tugas Akhir ini digunakan query expansion methods dimana query awal inputan user diperluas dengan terms baru atau dengan kata lain user diberi masukan berupa additional terms. Model yang terdapat dalam Information Retrieval terbagi dalam 3 model besar, yaitu: 1. Set-theoretic models, model merepresentasikan dokumen sebagai himpunan kata atau frase. Contoh model ini ialah standard Boolean model dan extended Boolean model. 2. Algebratic model, model merepresentasikan dokumen dan query sebagai vektor atau matriks similarity antara vektor dokumen dan vektor query yang direpresentasikan sebagai sebuah nilai skalar. Contoh model ini ialah vector space model dan latent semantic indexing (LSI). 3. Probabilistic model, model memperlakukan proses pengembalian dokumen sebagai sebuah probabilistic inference. Contoh model ini ialah penerapan teorema bayes dalam model probabilistik.

13

Proses dalam Information Retrieval dapat digambarkan sebagai sebuah proses untuk mendapatkan relevant documents dari collection documents yang ada melalui pencarianquery yang diinputkan user.

Proses yang terjadi di dalam Information Retrieval System terdiri dari 2 bagian utama, yaitu Indexing subsystem, dan Searching subsystem (matching system). Proses indexing dilakukan untuk membentuk basisdata terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk diproses. Proses indexing sendiri meliputi 2 proses, yaitu document indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya. Tahap-tahap yang terjadi pada proses indexing ialah:

1. Word Token Yaitu mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercase. 2. Stopword Removal

14

Proses penghapusan kata-kata yang sering ditampilkan dalam dokumen seperti: and, or, not dan sebagainya. 3. Stemming Proses mengubah suatu kata bentukan menjadi kata dasar. 4. Term Weighting Proses pembobotan setiap term di dalam dokumen.

Search subsystem (matching) merupakan proses menemukan kembali informasi (dokumen) yang relevan terhadap query yang diberikan. Tidak

15

semua dokumen yang diambil (retrieved) oleh system merupakan dokumen yang sesuai dengan keinginan user (relevant). Gambar dibawah ini menunjukkan hubungan antara dokumen relevan, dokumen yang terambil oleh system, dan dokumen relevan yang terambil oleh system:

Pengukuran Performansi Information Retrieval System Nilai performansi dari aplikasi IR menunjukkan keberhasilan dari suatu IRS dalam mengembalikan informasi yang dibutuhkan oleh user. Untuk mengukur performansi dari IRS, digunakan koleksi uji. Koleksi uji terdiri dari tiga bagian, yaitu koleksi dokumen, query, dan relevance judgement. Koleksi dokumen adalah kumpulan dokumen yang dijadikan bahan pencarian oleh sistem. Relevance judgement adalah daftar dokumen-dokumen yang relevan dengan semua query yang telah disediakan. Parameter yang digunakan dalam performansi sistem, antara lain[2]: 1. Precision (ketepatan) Precision ialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen yang terambil oleh sistem baik relevan maupun tidak relevan. precision = Jumlah dokumen yang relevan dengan query dan terambil.

16

jumlah seluruh dokumen yang terambil 2. Recall (kelengkapan) Recall ialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen relevan yang ada dalam koleksi dokumen (terambil ataupun tak terambil sistem). recall = Jumlah dokumen yang relevan dengan query dan terambil sistem. jumlah seluruh dokumen relevan dalam koleksi dokumen 3. Interpolate Average Precision (IAP) Pengukuran performansi dengan mempertimbangkan aspek keterurutan atau rangking dapat dilakukan dengan melakukan interpolasi antara precision dan recall. IAP akan mencatat semua Semua dokumen yang relevan dan urutan dokumen tersebut pada hasil IRS dan menghitung nilai precisionnya. Nilai precision untuk semua titik ditentukan oleh perubahan nilai recall yang terjadi. Nilai precision berubah pada saat nilai recall berubah naik. Precision disatu titik recall tertentu adalah maksimal precision untuk semua titik recall yang lebih kecil dari titik tersebut.

Sebagai contoh, suatu IRS mendapatkan 10 dokumen berdasarkan suatu query dengan urutan sebagai berikut D1, D2, D3, D4, D5, D6, D7, D8, D9, dan D10. Dokumen yang relevan dalam koleksi dokumen berdasar query tersebut ialah D2, D4, D7, D13, dan D20, maka nilai precision dari sistem tersebut ialah 3/10 = 0.3, sedangkan nilai recall nya ialah 3/6 = 0.5.

DAFTAR PUSTAKA

17

1. http://modulkuliah.blogspot.com 2. Drs. Ign. Djoko Irianto, M.Eng. 28/02/2010 Sistem Temu Balik

Informasi 3. http://www.scribd.com/doc/8486230/Information-RetrievalVektor

18

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->