Lecture 1

POLITEKNIK STATISTIKA STIS
For Better Official Statistics
INFORMATION RETRIEVAL
Pertemuan 1.
Konsep Dasar Information Retrieval
Disusun oleh:
Dosen: Tim Dosen
Dr. Eng. Arie Wahyu Wijayanto, SST., MT.
PROFIL
PROFIL
ariewahyu.github.io
ariewahyu@stis.ac.id
h-index: 6
2
PROFIL
REFERENSI
UTAMA
1. Introduction to Information Retrieval, Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze,
Cambridge University Press, 2008 Website Buku: https://nlp.stanford.edu/IR-book/
2. Information Retrieval: Implementing and Evaluating Search Engines, by S. Büttcher, C. Clarke, and G.
Cormack.
3. Search Engines: Information Retrieval in Practice, by B. Croft, D. Metzler, and T. Strohman.
4. Managing Gigabytes: Compressing and Indexing Documents and Images, by I. Witten, A. Moffat, and T.
Bell.
PENDUKUNG
1. Website of Information Retrieval and Web Search Course Stanford University Website:
https://web.stanford.edu/class/cs276/
2. Website of Natural Language Processing and Information Retrieval Course, Department of Computer
Science and Information System, Birkbeck University of London
Website 1: https://www.dcs.bbk.ac.uk/study/modules/natural-language-processing-and-
informationretrieval/
Website 2: https://www.dcs.bbk.ac.uk/~dell/teaching/nlp/ 3
PROFIL
MATA KULIAH
BEBAN STUDI 3 SKS

ALOKASI WAKTU
Pertemuan Tatap Muka
1. Teori 100 menit
2. Praktikum 100 menit
DOSEN PENGAMPU
• Dr. Eng. Arie Wahyu Wijayanto, SST., MT.
Sebelum UTS: Pertemuan 1-7
• Dr. Eng. Lya Hulliyatuss Suadaa, SST., MT.

Setelah UTS: Pertemuan 8-14
Asisten Praktikum: Bill van Ricardo Zalukhu

4
TOOLS
❑Diluncurkan pada 1991 oleh Guido van Rossum. Sangat populer sebagai Bahasa
pemrograman dan sangat digemari oleh komunitas machine learning.
Kelebihan
1. Didukung oleh library-library pengolahan data yang lengkap, sama seperti R
2. Gratis dan open source
3. Terpopuler untuk pengolahan dengan teknik deep learning
4. Mendukung versi markdown melalui Jupyter Notebook, yaitu antara

code/script, output, dan catatan terintegrasi menjadi satu.
5. Tersedia layanan Cloud tanpa perlu instalasi melalui Google Colaboratory
5
Jupyter Notebook
1. Download dan install Python dari

https://www.python.org/downloads/ pilih versi terakhir
2. Setelah Python terinstal, dari Command Prompt (Windows) atau
Terminal (Linux), berikan perintah
3. Setelah berhasil, jalankan dengan perintah
4. Jupyter Notebook akan terbuka otomatis di browser dan siap

menerima dan menjalankan code Python
5. Kesulitan install??? Jangan khawatir. Ada Google Colaboratory
6
Google Colaboratory
Dapat diakses di https://colab.research.google.com/
Kelebihan
Feature Google Colab
1. Gratis (tersedia juga versi berbayar) GPU Nvidia K80
2. Tanpa perlu instalasi, terintegrasi dengan layanan Google RAM 12GB
3. Menyediakan akses hardware kualitas tinggi CPU 2vCPU
4. Sudah dilengkapi library-library Python untuk analisis data, Waktu Pakai 12 jam sehari
pemodelan, dan data mining
5. Terintegrasi dengan Google Drive untuk penyimpanan data
6. Sudah mendukung pemrosesan dengan deep learning
7
Google Colaboratory
1. Login dengan akun Google Polstat STIS dan akses ke https://colab.research.google.com/. Pilih menu upload
2. Upload contoh code yang sudah diberikan, yaitu Notebook 1 dan Notebook 2
3. Jika diperlukan untuk mengolah data besar, gunakan Graphical

Processing Unit (GPU) atau Tensor Processing Unit (TPU) sebagai
Hardware Accelerator.
Pilih Menu Runtime > Change runtime type.
8
INTRODUCTION
Kita Kebanjiran
Dokumen
Setiap hari
Beberapa penting
Banyak yang tidak penting
Image source: istockphotos.com

INTRODUCTION
Dokumen digital
terus tumbuh
Seiring
peningkatan
penggunaan
media sosial
Image source: https://datareportal.com/reports/digital-2022-global-overview-report

KONSEP DASAR INFORMATION RETRIEVAL
• Information Retrieval adalah ilmu tentang pencarian materi (biasanya dokumen)

dari sesuatu yang sifatnya tak-terstruktur (unstructured, biasanya teks) untuk
memenuhi kebutuhan informasi dari dalam koleksi besar (biasanya disimpan
dalam komputer). (Manning, 2009)
• Representasi, penyimpanan, organisasi, pencarian dan akses ke item informasi
untuk memenuhi kebutuhan informasi pengguna.
• Penekanan pada proses retrieval informasi (bukan data).
• Karakterisasi kebutuhan informasi tidaklah mudah. Harus ditranslasi ke dalam
suatu query terlebih dahulu.
ASUMSI DASAR
• Koleksi (Collection): sekumpulan dokumen

• Untuk saat ini diasumsikan statis, tidak berubah
• Namun, ke depan kita akan mengarah ke perubahan dinamis konten dan
ukurannya (big data)
• Tujuan: Menerima dokumen dengan informasi yang relevan terhadap

kebutuhan information pengguna dan membantu pengguna
menyelesaikan suatu tugas/pekerjaan
12
MODEL PENCARIAN KLASIK
User task Get rid of mice in a

politically correct way
Misconception?
Info need
Info about removing mice
without killing them
Misformulation?
Query
how trap mice alive Search
Search
engine
Query Results
Collection
refinement
SEBERAPA BAGUS HASIL PENCARIAN DOKUMEN
▪ Precision : Porsi dari dokumen yang diambil yang relevan dengan

kebutuhan informasi pengguna (user’s information need)
▪ Recall : Porsi dari dokumen yang relevan dalam koleksi yang diambil
14
SEBERAPA BAGUS HASIL PENCARIAN DOKUMEN
Image source: en.Wikipedia.com 15

Information Retrieval
• Secara teknis: indexing (pembuatan index) dan retrieval (pencarian keterangan)

dokumen textual.
• Pencarian halaman pada WWW adalah aplikasi paling populer saat ini
• Fokus pertama: me-retrieve dokumen- dokumen yang relevan dengan query.
• Fokus kedua: me-retrieve himpunan besar dokumen secara efisien.
• Tujuan: Me-retrieve semua dokumen yang relevan sekaligus me-retrieve
sesedikit mungkin dokumen yang tidak relevan
Relevan
• Relevansi merupakan suatu judgment (keputusan) subyektif dan

dapat didasarkan pada:
– Topik yang tepat.
– Waktu (informasi terbaru).
– Otoritatif (dari suatu sumber terpercaya).
– Kebutuhan informasi dari pengguna.
• Kriteria relevansi utama: suatu sistem IR sebaiknya (harus)
memenuhi kebutuhan informasi pengguna.
DATABASE
Di sisi lain, kita memiliki database yang sudah terstruktur

ID Pasien Diagnosis Nama Pasien
001 Diabetes Ricardo Baeza
002 Demam Berdarah Thomas Munir
003 Tipus Abdul Kadir
004 COVID-19 Abdul Karim
005 Malaria Arnold
Kita bisa mencari informasi di database juga dengan QUERY.

SELECT * FROM Tabel_Pasien WHERE Diagnosis == “Tipus”
Apa bedanya dengan information retrieval?

Database Retrieval vs IR
• Database retrieval
– Dokumen mana yang mengandung himpunan keyword?
– Semantik didefinisikan dengan baik
– Error dari suatu obyek mengakibatkan kegagalan!
• Information retrieval
– Informasi mengenai suatu subyek atau topik
– Semantik dapat bersifat lepas (longgar)
– Error kecil ditoleransi
Sistem IR
Sistem IR
Pencarian Keyword
• Ide paling sederhana dari relevansi: apakah string query ada di dalam
dokumen (kata demi kata, verbatim)?
• Ide yang lebih fleksibel: Berapa sering kata-kata di dalam query
muncul di dalam dokumen, tanpa melihat urutannya (bag of words)?
Masalah dengan Keyword
• Mungkin tidak me-retrieve dokumen relevan yang menyertakan synonymous

terms.
– “restaurant” vs. “café”
– “NDHU” vs. “National Dong Hwa University”
• Mungkin me-retrieve dokumen tak-relevan yang menyertakan ambiguous terms.
– “bat” (baseball vs. mamalia)
– “Apple” (perusahaan vs. buah-buahan)
– “bit” (unit data vs. perilaku menggigit)
Bukan Sekedar Keyword
• Kita akan mendiskusikan dasar-dasar IR berbasis keyword, tetapi…

– Fokus pada perluasan dan pengembangan terakhir untuk mendapatkan hasil
terbaik.
• Kita akan membahas dasar-dasar pembangunan sistem IR yang efisien, tetapi…
– Fokus pada algoritma dan kemampuan dasar, bukan masalah sistem yang
memungkinkan pengembangan ke database ukuran industri.
IR Cerdas
• Memanfaatkan pengertian atau makna dari kata yang digunakan.

• Melibatkan urutan kata di dalam query.
• Beradaptasi dengan pengguna berdasarkan pada feedback, langsung
atau tidak langsung.
• Memperluas pencarian dengan term terkait.
• Mengerjakan pemeriksaan ejaaan/perbaikan tanda pengenal
otomatis.
• Memanfaatkan Otoritas dari sumber
Perkembangan IR
1. Klasifikasi Dokumen
2. Clustering Dokumen
3. Peringkasan Teks
4. Question Answering System
QUESTIONS?

Lecture 1

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Lecture 1

Uploaded by

Copyright:

Available Formats

POLITEKNIK STATISTIKA STIS

For Better Official Statistics

BEBAN STUDI 3 SKS

• Dr. Eng. Lya Hulliyatuss Suadaa, SST., MT.

Asisten Praktikum: Bill van Ricardo Zalukhu

4. Mendukung versi markdown melalui Jupyter Notebook, yaitu antara

5. Tersedia layanan Cloud tanpa perlu instalasi melalui Google Colaboratory

1. Download dan install Python dari

3. Setelah berhasil, jalankan dengan perintah

4. Jupyter Notebook akan terbuka otomatis di browser dan siap

Dapat diakses di https://colab.research.google.com/

3. Jika diperlukan untuk mengolah data besar, gunakan Graphical

Image source: istockphotos.com

Image source: https://datareportal.com/reports/digital-2022-global-overview-report

• Information Retrieval adalah ilmu tentang pencarian materi (biasanya dokumen)

• Koleksi (Collection): sekumpulan dokumen

• Tujuan: Menerima dokumen dengan informasi yang relevan terhadap

User task Get rid of mice in a

▪ Precision : Porsi dari dokumen yang diambil yang relevan dengan

Image source: en.Wikipedia.com 15

• Secara teknis: indexing (pembuatan index) dan retrieval (pencarian keterangan)

• Relevansi merupakan suatu judgment (keputusan) subyektif dan

Di sisi lain, kita memiliki database yang sudah terstruktur

Kita bisa mencari informasi di database juga dengan QUERY.

Apa bedanya dengan information retrieval?

• Mungkin tidak me-retrieve dokumen relevan yang menyertakan synonymous

• Kita akan mendiskusikan dasar-dasar IR berbasis keyword, tetapi…

• Memanfaatkan pengertian atau makna dari kata yang digunakan.

You might also like