You are on page 1of 27

POLITEKNIK STATISTIKA STIS

For Better Official Statistics

INFORMATION RETRIEVAL

Pertemuan 1.
Konsep Dasar Information Retrieval

Disusun oleh:
Dosen: Tim Dosen
Dr. Eng. Arie Wahyu Wijayanto, SST., MT.
PROFIL
PROFIL

ariewahyu.github.io
ariewahyu@stis.ac.id

h-index: 6
2
PROFIL
REFERENSI

UTAMA
1. Introduction to Information Retrieval, Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze,
Cambridge University Press, 2008 Website Buku: https://nlp.stanford.edu/IR-book/
2. Information Retrieval: Implementing and Evaluating Search Engines, by S. Büttcher, C. Clarke, and G.
Cormack.
3. Search Engines: Information Retrieval in Practice, by B. Croft, D. Metzler, and T. Strohman.
4. Managing Gigabytes: Compressing and Indexing Documents and Images, by I. Witten, A. Moffat, and T.
Bell.

PENDUKUNG
1. Website of Information Retrieval and Web Search Course Stanford University Website:
https://web.stanford.edu/class/cs276/
2. Website of Natural Language Processing and Information Retrieval Course, Department of Computer
Science and Information System, Birkbeck University of London
Website 1: https://www.dcs.bbk.ac.uk/study/modules/natural-language-processing-and-
informationretrieval/
Website 2: https://www.dcs.bbk.ac.uk/~dell/teaching/nlp/ 3
PROFIL
MATA KULIAH

BEBAN STUDI 3 SKS


ALOKASI WAKTU
Pertemuan Tatap Muka
1. Teori 100 menit
2. Praktikum 100 menit

DOSEN PENGAMPU
• Dr. Eng. Arie Wahyu Wijayanto, SST., MT.
Sebelum UTS: Pertemuan 1-7

• Dr. Eng. Lya Hulliyatuss Suadaa, SST., MT.


Setelah UTS: Pertemuan 8-14

Asisten Praktikum: Bill van Ricardo Zalukhu


4
TOOLS

❑Diluncurkan pada 1991 oleh Guido van Rossum. Sangat populer sebagai Bahasa
pemrograman dan sangat digemari oleh komunitas machine learning.
Kelebihan
1. Didukung oleh library-library pengolahan data yang lengkap, sama seperti R
2. Gratis dan open source
3. Terpopuler untuk pengolahan dengan teknik deep learning

4. Mendukung versi markdown melalui Jupyter Notebook, yaitu antara


code/script, output, dan catatan terintegrasi menjadi satu.

5. Tersedia layanan Cloud tanpa perlu instalasi melalui Google Colaboratory

5
Jupyter Notebook

1. Download dan install Python dari


https://www.python.org/downloads/ pilih versi terakhir
2. Setelah Python terinstal, dari Command Prompt (Windows) atau
Terminal (Linux), berikan perintah

3. Setelah berhasil, jalankan dengan perintah

4. Jupyter Notebook akan terbuka otomatis di browser dan siap


menerima dan menjalankan code Python
5. Kesulitan install??? Jangan khawatir. Ada Google Colaboratory

6
Google Colaboratory

Dapat diakses di https://colab.research.google.com/

Kelebihan
Feature Google Colab
1. Gratis (tersedia juga versi berbayar) GPU Nvidia K80
2. Tanpa perlu instalasi, terintegrasi dengan layanan Google RAM 12GB
3. Menyediakan akses hardware kualitas tinggi CPU 2vCPU
4. Sudah dilengkapi library-library Python untuk analisis data, Waktu Pakai 12 jam sehari
pemodelan, dan data mining
5. Terintegrasi dengan Google Drive untuk penyimpanan data
6. Sudah mendukung pemrosesan dengan deep learning

7
Google Colaboratory
1. Login dengan akun Google Polstat STIS dan akses ke https://colab.research.google.com/. Pilih menu upload

2. Upload contoh code yang sudah diberikan, yaitu Notebook 1 dan Notebook 2

3. Jika diperlukan untuk mengolah data besar, gunakan Graphical


Processing Unit (GPU) atau Tensor Processing Unit (TPU) sebagai
Hardware Accelerator.
Pilih Menu Runtime > Change runtime type.

8
INTRODUCTION

Kita Kebanjiran
Dokumen

Setiap hari
Beberapa penting
Banyak yang tidak penting

Image source: istockphotos.com


INTRODUCTION

Dokumen digital
terus tumbuh

Seiring
peningkatan
penggunaan
media sosial

Image source: https://datareportal.com/reports/digital-2022-global-overview-report


KONSEP DASAR INFORMATION RETRIEVAL

• Information Retrieval adalah ilmu tentang pencarian materi (biasanya dokumen)


dari sesuatu yang sifatnya tak-terstruktur (unstructured, biasanya teks) untuk
memenuhi kebutuhan informasi dari dalam koleksi besar (biasanya disimpan
dalam komputer). (Manning, 2009)
• Representasi, penyimpanan, organisasi, pencarian dan akses ke item informasi
untuk memenuhi kebutuhan informasi pengguna.
• Penekanan pada proses retrieval informasi (bukan data).
• Karakterisasi kebutuhan informasi tidaklah mudah. Harus ditranslasi ke dalam
suatu query terlebih dahulu.
ASUMSI DASAR

• Koleksi (Collection): sekumpulan dokumen


• Untuk saat ini diasumsikan statis, tidak berubah
• Namun, ke depan kita akan mengarah ke perubahan dinamis konten dan
ukurannya (big data)

• Tujuan: Menerima dokumen dengan informasi yang relevan terhadap


kebutuhan information pengguna dan membantu pengguna
menyelesaikan suatu tugas/pekerjaan

12
MODEL PENCARIAN KLASIK

User task Get rid of mice in a


politically correct way
Misconception?

Info need
Info about removing mice
without killing them
Misformulation?

Query
how trap mice alive Search

Search
engine

Query Results
Collection
refinement
SEBERAPA BAGUS HASIL PENCARIAN DOKUMEN

▪ Precision : Porsi dari dokumen yang diambil yang relevan dengan


kebutuhan informasi pengguna (user’s information need)
▪ Recall : Porsi dari dokumen yang relevan dalam koleksi yang diambil

14
SEBERAPA BAGUS HASIL PENCARIAN DOKUMEN

Image source: en.Wikipedia.com 15


Information Retrieval

• Secara teknis: indexing (pembuatan index) dan retrieval (pencarian keterangan)


dokumen textual.
• Pencarian halaman pada WWW adalah aplikasi paling populer saat ini
• Fokus pertama: me-retrieve dokumen- dokumen yang relevan dengan query.
• Fokus kedua: me-retrieve himpunan besar dokumen secara efisien.
• Tujuan: Me-retrieve semua dokumen yang relevan sekaligus me-retrieve
sesedikit mungkin dokumen yang tidak relevan
Relevan

• Relevansi merupakan suatu judgment (keputusan) subyektif dan


dapat didasarkan pada:
– Topik yang tepat.
– Waktu (informasi terbaru).
– Otoritatif (dari suatu sumber terpercaya).
– Kebutuhan informasi dari pengguna.
• Kriteria relevansi utama: suatu sistem IR sebaiknya (harus)
memenuhi kebutuhan informasi pengguna.
DATABASE

Di sisi lain, kita memiliki database yang sudah terstruktur


ID Pasien Diagnosis Nama Pasien
001 Diabetes Ricardo Baeza
002 Demam Berdarah Thomas Munir
003 Tipus Abdul Kadir
004 COVID-19 Abdul Karim
005 Malaria Arnold

Kita bisa mencari informasi di database juga dengan QUERY.


SELECT * FROM Tabel_Pasien WHERE Diagnosis == “Tipus”

Apa bedanya dengan information retrieval?


Database Retrieval vs IR

• Database retrieval
– Dokumen mana yang mengandung himpunan keyword?
– Semantik didefinisikan dengan baik
– Error dari suatu obyek mengakibatkan kegagalan!
• Information retrieval
– Informasi mengenai suatu subyek atau topik
– Semantik dapat bersifat lepas (longgar)
– Error kecil ditoleransi
Sistem IR
Sistem IR
Pencarian Keyword

• Ide paling sederhana dari relevansi: apakah string query ada di dalam
dokumen (kata demi kata, verbatim)?
• Ide yang lebih fleksibel: Berapa sering kata-kata di dalam query
muncul di dalam dokumen, tanpa melihat urutannya (bag of words)?
Masalah dengan Keyword

• Mungkin tidak me-retrieve dokumen relevan yang menyertakan synonymous


terms.
– “restaurant” vs. “café”
– “NDHU” vs. “National Dong Hwa University”
• Mungkin me-retrieve dokumen tak-relevan yang menyertakan ambiguous terms.
– “bat” (baseball vs. mamalia)
– “Apple” (perusahaan vs. buah-buahan)
– “bit” (unit data vs. perilaku menggigit)
Bukan Sekedar Keyword

• Kita akan mendiskusikan dasar-dasar IR berbasis keyword, tetapi…


– Fokus pada perluasan dan pengembangan terakhir untuk mendapatkan hasil
terbaik.
• Kita akan membahas dasar-dasar pembangunan sistem IR yang efisien, tetapi…
– Fokus pada algoritma dan kemampuan dasar, bukan masalah sistem yang
memungkinkan pengembangan ke database ukuran industri.
IR Cerdas

• Memanfaatkan pengertian atau makna dari kata yang digunakan.


• Melibatkan urutan kata di dalam query.
• Beradaptasi dengan pengguna berdasarkan pada feedback, langsung
atau tidak langsung.
• Memperluas pencarian dengan term terkait.
• Mengerjakan pemeriksaan ejaaan/perbaikan tanda pengenal
otomatis.
• Memanfaatkan Otoritas dari sumber
Perkembangan IR

1. Klasifikasi Dokumen
2. Clustering Dokumen
3. Peringkasan Teks
4. Question Answering System
QUESTIONS?

You might also like