Welcome to Scribd!

Full Text Presentation27856-0

Uploaded by

0% found this document useful (0 votes)

97 views12 pages

This document summarizes and compares several open source full text search solutions: MySQL full text, Sphinx, and Lucene/Solr. MySQL full text search is integrated into MySQL but has limitations regarding index size, scalability, and internationalization support. Sphinx is very fast but configuration can be tricky and internationalization support is limited. Lucene/Solr is stable, has distributed searching capabilities, a powerful query language, and good internationalization support, but configuration and its use of Java can be drawbacks. The document provides pros and cons of each solution.

Original Description:

Copyright

Available Formats

PPT, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Attribution Non-Commercial (BY-NC)

Available Formats

Download as PPT, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

97 views12 pages

Full Text Presentation27856-0

Uploaded by

ezra242

Copyright:

Attribution Non-Commercial (BY-NC)

Available Formats

Download as PPT, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 12

Search inside document

SURVEY OF OPEN SOURCE

FULL TEXT SEARCH

SOLUTIONS
SEARCH WITHOUT FULL TEXT
• SQL “Like %product%”
– Easy to setup, but…
– SQL statements get too complex
– Indexes on many columns become unwieldy and
slow down inserts
• Outsource to Google
– Hosted Solution
– Can only reach data that you actually render to
html
FULL TEXT GOAL
 Return matches by relevance rather than
pure equality value match
 Precision vs. Recall

Precision – Are the results accurate?

Recall – Did we get all the results we expected?
 Natural Language Search
Queries such as “What is the fastest animal?”
FULL TEXT IMPLEMENTATION
 Inverted Index Data Structure
Index of words to document’s location on disk
 Tokenization, Stopwords
Internationalization Challenges
 Basic Query Languages
Boolean match, relevance, proximity, etc.
LANGUAGE STEMMING
 Reduce inflected words to their root
Increase recall
Decrease inverted index size
 Internationalization Challenges
Language detection of the dataset to determine
which stemming algorithm to use
Complexity proportional to the level of
morphology
 Porter Stemming Algorithm
Examples: names -> name, departed -> depart
MYSQL FULL TEXT
• Pluses
– Integrated into MySQL
– Easy to use without learning a new library
• Minuses
– Indexes bigger than memory tend to be slow
– Scalability options are limited
– Can slow down insertions, deletions
– CJK is lacking
SPHINX
• Pluses
– Very Fast
– Supports many data sources
– Retrieval can be integrated into MySQL
– Distributed Searching is a scaling option

• Minuses
– Configuration can be tricky
– Live index updates accomplished by delta
indexing
– Internationalization (besides Russian) is left as an
exercise for the reader
LUCENE/SOLR
• Pluses
– Java, so easy to integrate into client software as
well as web
– Stable
– Distributed Searching
– Powerful Query Language
– Extensible API
– Good Internationalization Support
• Minuses
– Java
– Simple configuration is a pain
WHEN TO USE WHAT
Questions?
THANK
YOU!

Ceng254 Week 1
Document37 pages
Ceng254 Week 1
Gursehaj Harika
No ratings yet
Pro Oracle SQL Development: Best Practices for Writing Advanced Queries
From Everand
Pro Oracle SQL Development: Best Practices for Writing Advanced Queries
Jon Heller
No ratings yet
Dbsight: Instant Scalable Full Text Search On Any Databases
Document26 pages
Dbsight: Instant Scalable Full Text Search On Any Databases
chrislusf
No ratings yet
Nosql
Document25 pages
Nosql
earesp
No ratings yet
SQL
From Everand
SQL
Brandon Cooper
No ratings yet
Text-Based (Image) Retrieval: Henning Müller HES SO//Valais Sierre, Switzerland
Document23 pages
Text-Based (Image) Retrieval: Henning Müller HES SO//Valais Sierre, Switzerland
piccolovegita
No ratings yet
Structured Query Language (SQL) : University of Southern Mindanao
Document21 pages
Structured Query Language (SQL) : University of Southern Mindanao
Jay Asugas
No ratings yet
PolyBase Revealed: Data Virtualization with SQL Server, Hadoop, Apache Spark, and Beyond
From Everand
PolyBase Revealed: Data Virtualization with SQL Server, Hadoop, Apache Spark, and Beyond
Kevin Feasel
No ratings yet
Introduction To CS 4604: Zaki Malik August 26, 2007
Document17 pages
Introduction To CS 4604: Zaki Malik August 26, 2007
Mani Sandhu
No ratings yet
Joe Celko's SQL for Smarties: Advanced SQL Programming
From Everand
Joe Celko's SQL for Smarties: Advanced SQL Programming
Joe Celko
Rating: 3.5 out of 5 stars
3.5/5 (16)
Database Programming With
Document41 pages
Database Programming With
Ritu Ahluwalia
No ratings yet
FileMaker 101
Document57 pages
FileMaker 101
Byron Songer
0% (1)
Table Expressions
Document74 pages
Table Expressions
kwestor
No ratings yet
Oracle Quick Guides: Part 3 - Coding in Oracle: SQL and PL/SQL
From Everand
Oracle Quick Guides: Part 3 - Coding in Oracle: SQL and PL/SQL
Malcolm Coxall
No ratings yet
Migrating Oracle To PostgreSQL
Document5 pages
Migrating Oracle To PostgreSQL
eloy_hernandez2032
No ratings yet
No Particular Language Is A Prerequisite For This Course
Document10 pages
No Particular Language Is A Prerequisite For This Course
Faulty Franky
No ratings yet
118.721 Analysis and Interpretation of Animal Health Data
Document81 pages
118.721 Analysis and Interpretation of Animal Health Data
wdvink
No ratings yet
Strategies & Tools For Centralizing and Automating Database Management February 21, 2006
Document26 pages
Strategies & Tools For Centralizing and Automating Database Management February 21, 2006
anon-111467
No ratings yet
Introduction To DSpace
Document20 pages
Introduction To DSpace
Aslp Librarians
100% (1)
Database Systems CSE 414: Announcements
Document7 pages
Database Systems CSE 414: Announcements
Nandha Kishore
No ratings yet
Week12 AppPerformance CH12Mullins 2020
Document39 pages
Week12 AppPerformance CH12Mullins 2020
Nur Atikah
No ratings yet
Marc Krellenst's Session at Lucene Revolution 2011
Document16 pages
Marc Krellenst's Session at Lucene Revolution 2011
lucidimagination
No ratings yet
Analysis Complex Samples 131108
Document31 pages
Analysis Complex Samples 131108
Noyeem Mahbub
No ratings yet
Luce Ne Bootcamp
Document83 pages
Luce Ne Bootcamp
mfahci
No ratings yet
Oracle : Data Manipulation, Knowledge Discovery & Reporting Using Ms Access
From Everand
Oracle : Data Manipulation, Knowledge Discovery & Reporting Using Ms Access
Asim Abbasi
No ratings yet
Databricks, An Introduction: Chuck Connell, Insight Digital Innovation
Document36 pages
Databricks, An Introduction: Chuck Connell, Insight Digital Innovation
Saravanan1234567
No ratings yet
A Comprehensive Survey On Human-To-Database Communication Using NLP
Document5 pages
A Comprehensive Survey On Human-To-Database Communication Using NLP
International Journal of Innovative Science and Research Technology
No ratings yet
SQL Programming & Database Management For Noobee
From Everand
SQL Programming & Database Management For Noobee
Kishor Sarkar X
No ratings yet
SQL for eServer i5 and iSeries
From Everand
SQL for eServer i5 and iSeries
Kevin Forsythe
Rating: 5 out of 5 stars
5/5 (1)
Learn SQL Tutorial - Javatpoint
Document13 pages
Learn SQL Tutorial - Javatpoint
DHARINI R SIT 2020
No ratings yet
Large Scale Topic Modeling
Document18 pages
Large Scale Topic Modeling
sameerwadkar
No ratings yet
Tkde13 SQL PDF
Document15 pages
Tkde13 SQL PDF
gowtham k
No ratings yet
Chapter 01 - Introduction To DSA
Document14 pages
Chapter 01 - Introduction To DSA
Nguyễn Quỳnh Hương
No ratings yet
Elastic Search: Lessons Learned
Document22 pages
Elastic Search: Lessons Learned
magina143
No ratings yet
Nosql Tricks
Document34 pages
Nosql Tricks
kapilkashyap3105
No ratings yet
Power of Elasticsearch
Document9 pages
Power of Elasticsearch
anon_200641295
No ratings yet
Laravel Beginner
Document15 pages
Laravel Beginner
Darma Yasa
No ratings yet
MongoDB Intro
Document30 pages
MongoDB Intro
msdoodle
No ratings yet
Elasticsearch When To Host On-Prem and When To Turn To SaaS
Document42 pages
Elasticsearch When To Host On-Prem and When To Turn To SaaS
Pendyala Srinivas
No ratings yet
DBMS Om.a
Document17 pages
DBMS Om.a
Meghraj Shinde
No ratings yet
Copy-WEB QUERYING Presentation. DDB (A) Ufaq Almas (70044978)
Document20 pages
Copy-WEB QUERYING Presentation. DDB (A) Ufaq Almas (70044978)
Uffaq Awann
No ratings yet
Managing Multimedia and Unstructured Data in the Oracle Database
From Everand
Managing Multimedia and Unstructured Data in the Oracle Database
Marcelle Kratochvil
No ratings yet
Oracle XE - An Analysts Playground
Document31 pages
Oracle XE - An Analysts Playground
Lewis Cunningham
No ratings yet
Intro To SQL
Document9 pages
Intro To SQL
Shantanu
No ratings yet
Beginning T-SQL: A Step-by-Step Approach
From Everand
Beginning T-SQL: A Step-by-Step Approach
Kathi Kellenberger
No ratings yet
SQL1
Document60 pages
SQL1
Samba Sivarao
No ratings yet
Querying SQL Server: Run T-SQL operations, data extraction, data manipulation, and custom queries to deliver simplified analytics (English Edition)
From Everand
Querying SQL Server: Run T-SQL operations, data extraction, data manipulation, and custom queries to deliver simplified analytics (English Edition)
Adam Aspin
No ratings yet
Final Lec
Document22 pages
Final Lec
raw.junk
No ratings yet
M1 LD-Relational Database 2020
Document26 pages
M1 LD-Relational Database 2020
M.Kelvin Prayoga
No ratings yet
Programming Languages: Administrivia
Document17 pages
Programming Languages: Administrivia
Shama Nauman
No ratings yet
Nosql Is Dead: Eric Redmond @coderoshi
Document55 pages
Nosql Is Dead: Eric Redmond @coderoshi
sriram.srinivasan
No ratings yet
Web Applications Topics
Document43 pages
Web Applications Topics
IUS
No ratings yet
What-is-Laravel Saniat Obaidullah
Document24 pages
What-is-Laravel Saniat Obaidullah
Saniat Obaidullah
No ratings yet
Choosing A Digital Repository
Document30 pages
Choosing A Digital Repository
Mercedes
No ratings yet
Query Language (SQL) To Interact With A Database Here in The Classroom. You Will
Document25 pages
Query Language (SQL) To Interact With A Database Here in The Classroom. You Will
Fajar Syahreza
No ratings yet
SQL For Data Analysis
Document63 pages
SQL For Data Analysis
Renzo Salazar
No ratings yet
SQL For Data Analysis
Document63 pages
SQL For Data Analysis
Piyush Kulkarni
No ratings yet
Topic 2 W2 - SDR - Edited - March2023
Document25 pages
Topic 2 W2 - SDR - Edited - March2023
VISALINI VIJAYAN
No ratings yet
Cs 620 / Dasc 600 Introduction To Data Science & Analytics: Lecture 6-Nosql
Document31 pages
Cs 620 / Dasc 600 Introduction To Data Science & Analytics: Lecture 6-Nosql
DR. BODHI CHAKRABORTY
No ratings yet
Presentation1 SQL Intro
Document169 pages
Presentation1 SQL Intro
sey
No ratings yet
fw46707 0
Document2 pages
fw46707 0
ezra242
No ratings yet
Caution - Guidance For Use of The 2009 Form 1040-ES, Estimated Tax For Individuals
Document8 pages
Caution - Guidance For Use of The 2009 Form 1040-ES, Estimated Tax For Individuals
ezra242
No ratings yet
fw418510 0
Document2 pages
fw418510 0
ezra242
100% (2)
Build A Butterfly Knife
Document24 pages
Build A Butterfly Knife
Sam Whiteman
No ratings yet
RChecklist13395 0
Document3 pages
RChecklist13395 0
ezra242
No ratings yet