information retrieval

Deddy Wijaya Suliantoro, S.Kom.

review [1]
Kita sudah melihat beberapa metode retrieval dimulai dari boolean model, TCM,VSM, EBM sampai ke language modeling. ‡ Masalah 1 Bagaimana kita tahu metode mana yang sesuai dengan masalah mana. ‡ Masalah 2 Perlukah memakai stemming? Perlukah memakai stopwordlist? Perlukah normalisasi token?
‡

review [2]
Masalah 3 Apakah perlu kita memakai nilai idf yang dinormalisasi? Atau tidak? ‡ Kuliah hari ini membicarakan bagaimana mengukur keefektifan suatu sistem IR, termasuk metode-metode evaluasi hasil IR.
‡

. semua koleksi dokumen akan diklasifikasi menjadi 2: dokumen relevan dan tidak relevan. kita memerlukan test collection yang terdiri dari 3 macam: ‡ ‡ ‡ koleksi dokumen tes information needs (yang diekspresikan sebagai query) Sebuah set penentuan relevansi ‡ ‡ Pendekatan standar dalam mengevaluasi sebuah sistem IR adalah relevansi sebuah dokumen Dengan pengecekan seluruh isi dokumen.Evaluasi Sistem IR [1] ‡ Untuk mengukur keefektifan ad-hoc IR.

Evaluasi Sistem IR [2] ‡ ‡ ‡ Penentuan relevansi yang hanya membagi dokumen menjadi 2 ini (relevan dan non-relevan) disebut sebagai binary relevance judgement. . Pengecekan tersebut dilakukan secara manual dan sering disebut sebagai gold standard atau ground truth judgement Pengecekan ini harus dilakukan dalam jumlah yang besar dan beragam karena hasil retrieval akan berbeda untuk dokumen berbeda dan information needs yang berbeda.

. Tidak berarti suatu dokumen yang memuat semua isi query adalah dokumen yang relevan.Evaluasi Sistem IR [3] ‡ ‡ Bagaimana suatu dokumen ditentukan relevan atau tidak? Ditentukan dari information needs-nya. bukan dari query-nya.

sejak 1992 ‡ CLEF European Language ‡ Reuters Text Classification ‡ . ‡ Cranfield pioner.Standard Test Collection Berikut ini adalah beberapa test collection dan evaluasi-evaluasi yang sudah dilakukan oleh beberapa lembaga. tahun 1950an ‡ TREC dilakukan oleh NIST.

Evaluation dari Unranked Retrieval ‡ 2 pengukuran dasar dan paling sering digunakan adalah precision dan recall Precision adalah: Bagian dari dokumen te-retrieve yang relevan. ‡ . ‡ Recall adalah: bagian dari dokumen relevan yang te-retrieve.

Precision & Recall .

Precision & Recall Gambar di atas adalah merupakan gambar tabel ketergantungan untuk menghitung nilai precision dan recall. ‡ Rumusnya: ‡ .

‡ . & Accuracy Jumlah dokumen (N) yang dipakai di dalam korpus dihitung dari tp + fp + tn + fn.Precision. ‡ Alternatif yang dapat digunakan untuk mengevaluasi adalah menghitung accuracy. ‡ Accuracy didapat dari (tp+tn)/N. Recall.

dan accuracy-nya! (Gunakan tabel ketergantungan untuk mempermudah Anda) ‡ . recall. ‡ Hitung precision. Recall.Precision. & Accuracy ‡ Latihan: Sebuah sistem IR mengembalikan 8 dokumen relevan dan 10 dokumen non-relevan dari total 20 dokumen relevan yang ada dari 60 dokumen dalam korpus.

Precision. Nilai accuracy tidak mempertimbangkannya. & Accuracy Muncul anggapan yang mengatakan bahwa precision. ‡ Perbedaan kebutuhan user akan precision dan recall. ‡ ‡ Perhitungan lain selain accuracy yang memperhitungkan trade-off dari precision dan recall adalah F measure . recall. serta accuracy belum merupakan pengukur yang baik untuk evaluasi ‡ Alasannya: ‡ Nilai precision dan recall memiliki trade-off. Recall.

dan nilai ß sebagai pemberat.F Measure Rumus di atas adalah rumus perhitungan F Measure yang mempertimbangkan precision.5 berarti pemberat untuk precision 2x lipat ‡ Nilai ß = 2 berarti pemberat untuk recall 2x lipat ‡ . recall. ‡ Nilai ß =0.

‡ Nilai ß = 1 ini sering ditulis menjadi F1. Hasil perhitungannya sering disebut juga sebagai balanced F-score ‡ Jadi Apa keuntungan menggunakan F Measure dibandingkan dengan accuracy? ‡ .F Measure Nilai ß = 1 berarti precision dan recall dianggap setara. singkatan dari Fß=1 .

Evaluation dari Ranked Retrieval Precision dan Recall di atas dapat dipakai saat kita hanya mengevaluasi sebuah sistem tanpa mempertimbangkan tingkat relevansi suatu dokumen (ranked retrieval) ‡ Kita bisa menggunakan precision-recall curve untuk mengevaluasi hasil dari sebuah ranked retrieval. (Mempertimbangkan ranking dari dokumen hasil retrieval) ‡ .

maka sistem itu mengembalikan 15 dokumen dengan urutan ranking sebagai berikut: . d56. d44. d25. d5. d71. d89.Evaluation dari Ranked Retrieval ‡ ‡ ‡ Misalkan ada 10 dokumen relevan untuk query q: Rq = {d3. d39. d9. d123} Setelah diberikan query q kepada sistem.

Evaluation dari Ranked Retrieval ‡ ‡ ‡ Dokumen d123 ada di tingkat recall 10%. precision di recall 10% adalah 100% . Berarti. (1 dokumen relevan dan 0 dokumen non-relevan). dan berada di peringkat pertama.

Evaluation dari Ranked Retrieval Dokumen d56 ada di tingkat recall 20%. precision di recall 20% adalah 2/3 = 66% ‡ . dan berada di peringkat ketiga. ‡ (2 dokumen relevan dan 1 dokumen non-relevan). ‡ Berarti.

dan berada di peringkat keenam.Evaluation dari Ranked Retrieval Dokumen d9 ada di tingkat recall 30%. ‡ (3 dokumen relevan dan 3 dokumen non-relevan). ‡ Berarti. precision di recall 30% adalah 3/6 = 50% ‡ .

Evaluation dari Ranked Retrieval ‡ Hitung precision untuk tingkat recall 40% dan 50%! .

Evaluation dari Ranked Retrieval ‡ Ini adalah precision-recall curve yang didapat dari perhitungan interpolated precision .

30%. 10%.Evaluation dari Ranked Retrieval Bagaimana kalau ada 100 dokumen relevan dalam korpus? ‡ Apakah kita harus menghitung precision dari tiap dokumen relevan yang ditemukan? (tingkat recall 1%. 100%) ‡ eleven-point interpolated average precision tingkat recall 0%. 100% ‡ Bagaimana untuk 3 dokumen relevan saja? ‡ . 3%. «. 20%. «. 2%.

d56. d129} ‡ Kembalian sistem misalkan sama dengan contoh di atas: ‡ .Evaluation dari Ranked Retrieval Contoh: Rq = {d3.

3%.6%. 66.Evaluation dari Ranked Retrieval Berarti ada 3 tingkat recall 33. dan 100%. ‡ Silahkan hitung untuk masing-masing tingkat recall! ‡ .

3% ‡ Tingkat recall 66.3% precision 33.6% precision 25% ‡ Tingkat recall 100% precision 20% ‡ .Evaluation dari Ranked Retrieval Tingkat recall 33.

Evaluation dari Ranked Retrieval Ada 5 dokumen relevan ‡ Hasil retrieved seperti gambar di atas ‡ Buat curve-nya! ‡ .

3%)/2 = 49. tidak dilakukan dengan satu set query saja. maka akan dihitung rata-rata precision untuk tiap level recall.95% . ‡ Dari dua contoh di atas. average precision untuk tingkat recall 20% adalah: (66.6%+33.Evaluation dari Ranked Retrieval ‡ Dalam pengevaluasian.

.Kom.Any Questions ?? Deddy Wijaya Suliantoro. S.

‡ Perlu diingat.( ! ) notification Jangan lupa. mini 2 juga dikumpul paling lambat Selasa depan (9 November 2010) ‡ . minggu depan adalah presentasi Project-2. ‡ Presentasi akan dibagi dalam 2 pertemuan (seperti project 1) ‡ Urutan akan sekali lagi diacak ‡ Harap disiapkan sebaik-baiknya.

( ! ) notification Project 3 IR: Presentasi Metode Klasifikasi n Clustering (Kelompok) ‡ pertemuan terakhir dan satu pertemuan tambahan. ‡ Bisa mengumpulkan via sms. ‡ Silahkan cari salah satu metode klasifikasi/clustering yang akan dipresentasikan. ataupun bertemu langsung. kumpulkan paling lambat hari Selasa depan. ‡ . e-mail.

Sign up to vote on this title
UsefulNot useful