Welcome to Scribd!

Information Retrieval Techniques: Lecture # 15

Uploaded by

0% found this document useful (0 votes)

5 views8 pages

This document summarizes information retrieval techniques, specifically covering two-way merge sort, single-pass in-memory indexing (SPIMI), and SPIMI-Invert. It discusses how two-way merge sort improves on standard merge sort by incorporating n-way merging. It describes SPIMI's key ideas of generating separate dictionaries for each data block and accumulating postings lists without sorting. SPIMI indexes can then be merged into a single large index. SPIMI-Invert applies the same merging approach used in block sorting to combine the separate indexes generated by SPIMI.

Original Description:

Original Title

Lecture-15 (1)

Copyright

Available Formats

PPTX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

5 views8 pages

Information Retrieval Techniques: Lecture # 15

Uploaded by

Hamza Hashmi

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 8

Search inside document

INFORMATION

RETRIEVAL TECHNIQUES
Lecture # 15

• Merge Sort

1
ACKNOWLEDGEMENTS
The presentation of this lecture has been taken from the following
sources
1. “Introduction to information retrieval” by Prabhakar Raghavan,
Christopher D. Manning, and Hinrich Schütze
2. “Managing gigabytes” by Ian H. Witten, Alistair Moffat, Timothy C.
Bell
3. “Modern information retrieval” by Baeza-Yates Ricardo,
4. “Web Information Retrieval” by Stefano Ceri, Alessandro Bozzon,
Marco Brambilla
Outline
• Two-Way Merge Sort
• Single-pass in-memory indexing
• SPIMI-Invert

3
Two-Way Merge Sort Example
Explain the improvement in 2
way merge by incorporating n-
way merge

4
SPIMI:
Single-pass in-memory indexing
• Key idea 1: Generate separate dictionaries for each block – no need to
maintain term-termID mapping across blocks.
• Key idea 2: Don’t sort. Accumulate postings in postings lists as they
occur.
• With these two ideas we can generate a complete inverted index for
each block.
• These separate indexes can then be merged into one big index.

5
SPIMI-Invert

• Merging of blocks is analogous to BSBI.

Summary
• So far
• Static Collections (corpus is fixed)
• Linked List based indexing
• Array based indexing
• Data fits into the HD of a single machine
• Next
• Data does not fit in a single machine
• Requires more machines (clusters of machines).
Ch. 4

Resources for today’s lecture

• Chapter 4 of IIR
• MG Chapter 5
• Original publication on MapReduce: Dean and Ghemawat (2004)
• Original publication on SPIMI: Heinz and Zobel (2003)

Introduction To: Information Retrieval
Document54 pages
Introduction To: Information Retrieval
Deepa Raj
No ratings yet
CSC2308 Lec 02
Document16 pages
CSC2308 Lec 02
aabdurrahaman647
No ratings yet
Storage and Index: Outline
Document15 pages
Storage and Index: Outline
Trung Đặng
No ratings yet
SS2 E-Note Second Term Computer
Document54 pages
SS2 E-Note Second Term Computer
Jesse
No ratings yet
IR ch4 - Inverted-Index
Document44 pages
IR ch4 - Inverted-Index
Bushra Mamoud
No ratings yet
Completed UNIT-III 20.9.17
Document61 pages
Completed UNIT-III 20.9.17
Dr.A.R.Kavitha
No ratings yet
Week 1
Document28 pages
Week 1
Pac SaQii
No ratings yet
Information Retrieval Techniques: Lecture # 14
Document15 pages
Information Retrieval Techniques: Lecture # 14
Hamza Hashmi
No ratings yet
Module 5 - Indexing and Searching
Document15 pages
Module 5 - Indexing and Searching
Pravin Shinde
No ratings yet
IRS Module5-I
Document15 pages
IRS Module5-I
Pravin Shinde
No ratings yet
UE20CS332 Unit1 Slides 2
Document249 pages
UE20CS332 Unit1 Slides 2
Gaurav Mahajan
No ratings yet
IR Question Bank
Document29 pages
IR Question Bank
Amaya Ema
100% (2)
2019 08 05 IntroBasesDeDatos
Document60 pages
2019 08 05 IntroBasesDeDatos
Sofía Harriet De Santiago
No ratings yet
2024 Datawarehousing Week 1
Document59 pages
2024 Datawarehousing Week 1
iu L (Lucky)
No ratings yet
InfoMan-Week 2-Intro2021
Document19 pages
InfoMan-Week 2-Intro2021
Sherwin Limbo
No ratings yet
Tips For DSA Interview
Document3 pages
Tips For DSA Interview
course
No ratings yet
Cap282:Data Structures-Laboratory: Course Outcomes
Document2 pages
Cap282:Data Structures-Laboratory: Course Outcomes
sami ahmadi
No ratings yet
CompletedUNIT 1 PPT 10.7.17
Document87 pages
CompletedUNIT 1 PPT 10.7.17
Dr.A.R.Kavitha
100% (6)
Cs6007 Information Retrieval Question Bank
Document45 pages
Cs6007 Information Retrieval Question Bank
Nirmalkumar R
100% (1)
Lecture1 Introduction
Document27 pages
Lecture1 Introduction
Elon Dusk
No ratings yet
Text Mining - Hanmei Fan - Fall 2006
Document37 pages
Text Mining - Hanmei Fan - Fall 2006
sneha kin
No ratings yet
Data and Business Intelligence: Bidgoli, MIS, 10th Edition. © 2021 Cengage
Document19 pages
Data and Business Intelligence: Bidgoli, MIS, 10th Edition. © 2021 Cengage
Mose Moseh
No ratings yet
1 Bit 20803 Chapter 1 Dbconcepts
Document41 pages
1 Bit 20803 Chapter 1 Dbconcepts
Random Guy
No ratings yet
Web Mining
Document10 pages
Web Mining
gopitheprince
No ratings yet
Innovation 24 Finalppt
Document10 pages
Innovation 24 Finalppt
Appu
No ratings yet
1.BIT 02105 DATA STRUCTURES AND ALGORITHMS Course Outline
Document3 pages
1.BIT 02105 DATA STRUCTURES AND ALGORITHMS Course Outline
staticbreeze100
No ratings yet
Data Structures and Algorithms
Document4 pages
Data Structures and Algorithms
Jovemer Agudo
No ratings yet
Chapter 1-MC5403
Document41 pages
Chapter 1-MC5403
Pavithra
No ratings yet
ch4 SpatialStorageAndIndexing
Document51 pages
ch4 SpatialStorageAndIndexing
Ravi Maurya
No ratings yet
Teradata Physical Database Design PDF
Document7 pages
Teradata Physical Database Design PDF
puneetswarnkar
No ratings yet
Unit 1
Document82 pages
Unit 1
KASI VISWANATHAN
No ratings yet
Unit 1: Introduction and Data Pre-Processing
Document71 pages
Unit 1: Introduction and Data Pre-Processing
manju kakkar
No ratings yet
Data Structure Module
Document10 pages
Data Structure Module
Zahra Tahir
No ratings yet
03 Indexing-NDN
Document25 pages
03 Indexing-NDN
Farish Lupa Pass Word
No ratings yet
Text Mining - Hanmei Fan - Fall 2006
Document37 pages
Text Mining - Hanmei Fan - Fall 2006
Dewi Mulyani
No ratings yet
Lehrstuhl Für Informatik 4 Kommunikation Und Verteilte Systeme
Document43 pages
Lehrstuhl Für Informatik 4 Kommunikation Und Verteilte Systeme
Noname
No ratings yet
Boolean Retrieval: Dr. Hosam Refaat
Document21 pages
Boolean Retrieval: Dr. Hosam Refaat
Hussain Saeed
No ratings yet
Semantic Web
Document86 pages
Semantic Web
Ankur Biswas
No ratings yet
Serg Masís Interpretable Machine Learning With Python Packt Publishing
Document240 pages
Serg Masís Interpretable Machine Learning With Python Packt Publishing
Jhovanny Alexander
No ratings yet
Week2 DatabaseConceptsArchitecture
Document92 pages
Week2 DatabaseConceptsArchitecture
Moetassem billah Mikati
No ratings yet
CSE3207 - Ch1
Document42 pages
CSE3207 - Ch1
Sultan Raya
No ratings yet
Distributed Data Architecture & Management: DR Simon Scola
Document42 pages
Distributed Data Architecture & Management: DR Simon Scola
Praveen Reddy
No ratings yet
Database Systems - BIT - University of Colombo - Year 3 (Lecture Note 5)
Document48 pages
Database Systems - BIT - University of Colombo - Year 3 (Lecture Note 5)
Amali
No ratings yet
CSE494/598 Principles of Information Engineering
Document45 pages
CSE494/598 Principles of Information Engineering
ashutoshgindauliya
No ratings yet
CDE-Foundation TOC
Document5 pages
CDE-Foundation TOC
ajaybhosal
No ratings yet
Deep Learning With Pytorch: Ai Courses by Opencv
Document9 pages
Deep Learning With Pytorch: Ai Courses by Opencv
Amanda Garcia
No ratings yet
TE - Syllabus - R2019 July9
Document3 pages
TE - Syllabus - R2019 July9
B452 AKSHAY SHUKLA
No ratings yet
Storage and File Management
Document16 pages
Storage and File Management
Vishvaas Vardaan Khatri
No ratings yet
Information Retrieval - Question Bank
Document3 pages
Information Retrieval - Question Bank
Papitha
No ratings yet
It5003 - Data Warehousing and Data Mining-1
Document5 pages
It5003 - Data Warehousing and Data Mining-1
yototi8935
No ratings yet
Advanced Database Management Systems
Document3 pages
Advanced Database Management Systems
Unaise Ek
100% (1)
Chapter 5 Multimedia Database System
Document47 pages
Chapter 5 Multimedia Database System
Gemechis Shiferaw
No ratings yet
Web Mining and Text Mining
Document65 pages
Web Mining and Text Mining
nikhithalazarus4
No ratings yet
Bit 415 - Data Mining Outline
Document3 pages
Bit 415 - Data Mining Outline
pauline ondisa
No ratings yet
Subject: Big-Data Analytics (CSE-420) Class: B.Tech (CSE) Semester: 6 Semester: 6 Lecture No. 1
Document12 pages
Subject: Big-Data Analytics (CSE-420) Class: B.Tech (CSE) Semester: 6 Semester: 6 Lecture No. 1
Mdim
No ratings yet
Additional
Document1,008 pages
Additional
Kanishk Agrawal
No ratings yet
DMBI Presentations Unit-8
Document28 pages
DMBI Presentations Unit-8
Nayan Patel
No ratings yet
Information Retrieval and Web Search
Document29 pages
Information Retrieval and Web Search
aymancva
No ratings yet
Jeppiaar Institute of Technology: Department OF Computer Science and Engineering
Document24 pages
Jeppiaar Institute of Technology: Department OF Computer Science and Engineering
Project 21-22
No ratings yet
Database Modeling with Microsoft® Visio for Enterprise Architects
From Everand
Database Modeling with Microsoft® Visio for Enterprise Architects
Terry Halpin
No ratings yet
Divide-and-Conquer Analysis of Merge Sort
Document20 pages
Divide-and-Conquer Analysis of Merge Sort
Hamza Hashmi
No ratings yet
Information Retrieval Techniques: Lecture # 14
Document15 pages
Information Retrieval Techniques: Lecture # 14
Hamza Hashmi
No ratings yet
Singly Linked List
Document13 pages
Singly Linked List
Hamza Hashmi
No ratings yet
Information Retrieval Techniques: Lecture # 18
Document11 pages
Information Retrieval Techniques: Lecture # 18
Hamza Hashmi
No ratings yet