Professional Documents
Culture Documents
Lecture 1
Lecture 1
INFORMATION RETRIEVAL
Pertemuan 1.
Konsep Dasar Information Retrieval
Disusun oleh:
Dosen: Tim Dosen
Dr. Eng. Arie Wahyu Wijayanto, SST., MT.
PROFIL
PROFIL
ariewahyu.github.io
ariewahyu@stis.ac.id
h-index: 6
2
PROFIL
REFERENSI
UTAMA
1. Introduction to Information Retrieval, Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze,
Cambridge University Press, 2008 Website Buku: https://nlp.stanford.edu/IR-book/
2. Information Retrieval: Implementing and Evaluating Search Engines, by S. Büttcher, C. Clarke, and G.
Cormack.
3. Search Engines: Information Retrieval in Practice, by B. Croft, D. Metzler, and T. Strohman.
4. Managing Gigabytes: Compressing and Indexing Documents and Images, by I. Witten, A. Moffat, and T.
Bell.
PENDUKUNG
1. Website of Information Retrieval and Web Search Course Stanford University Website:
https://web.stanford.edu/class/cs276/
2. Website of Natural Language Processing and Information Retrieval Course, Department of Computer
Science and Information System, Birkbeck University of London
Website 1: https://www.dcs.bbk.ac.uk/study/modules/natural-language-processing-and-
informationretrieval/
Website 2: https://www.dcs.bbk.ac.uk/~dell/teaching/nlp/ 3
PROFIL
MATA KULIAH
DOSEN PENGAMPU
• Dr. Eng. Arie Wahyu Wijayanto, SST., MT.
Sebelum UTS: Pertemuan 1-7
❑Diluncurkan pada 1991 oleh Guido van Rossum. Sangat populer sebagai Bahasa
pemrograman dan sangat digemari oleh komunitas machine learning.
Kelebihan
1. Didukung oleh library-library pengolahan data yang lengkap, sama seperti R
2. Gratis dan open source
3. Terpopuler untuk pengolahan dengan teknik deep learning
5
Jupyter Notebook
6
Google Colaboratory
Kelebihan
Feature Google Colab
1. Gratis (tersedia juga versi berbayar) GPU Nvidia K80
2. Tanpa perlu instalasi, terintegrasi dengan layanan Google RAM 12GB
3. Menyediakan akses hardware kualitas tinggi CPU 2vCPU
4. Sudah dilengkapi library-library Python untuk analisis data, Waktu Pakai 12 jam sehari
pemodelan, dan data mining
5. Terintegrasi dengan Google Drive untuk penyimpanan data
6. Sudah mendukung pemrosesan dengan deep learning
7
Google Colaboratory
1. Login dengan akun Google Polstat STIS dan akses ke https://colab.research.google.com/. Pilih menu upload
2. Upload contoh code yang sudah diberikan, yaitu Notebook 1 dan Notebook 2
8
INTRODUCTION
Kita Kebanjiran
Dokumen
Setiap hari
Beberapa penting
Banyak yang tidak penting
Dokumen digital
terus tumbuh
Seiring
peningkatan
penggunaan
media sosial
12
MODEL PENCARIAN KLASIK
Info need
Info about removing mice
without killing them
Misformulation?
Query
how trap mice alive Search
Search
engine
Query Results
Collection
refinement
SEBERAPA BAGUS HASIL PENCARIAN DOKUMEN
14
SEBERAPA BAGUS HASIL PENCARIAN DOKUMEN
• Database retrieval
– Dokumen mana yang mengandung himpunan keyword?
– Semantik didefinisikan dengan baik
– Error dari suatu obyek mengakibatkan kegagalan!
• Information retrieval
– Informasi mengenai suatu subyek atau topik
– Semantik dapat bersifat lepas (longgar)
– Error kecil ditoleransi
Sistem IR
Sistem IR
Pencarian Keyword
• Ide paling sederhana dari relevansi: apakah string query ada di dalam
dokumen (kata demi kata, verbatim)?
• Ide yang lebih fleksibel: Berapa sering kata-kata di dalam query
muncul di dalam dokumen, tanpa melihat urutannya (bag of words)?
Masalah dengan Keyword
1. Klasifikasi Dokumen
2. Clustering Dokumen
3. Peringkasan Teks
4. Question Answering System
QUESTIONS?