Professional Documents
Culture Documents
Resumen
Se denomina web invisible o profunda a la información que no puede recuperarse con los mecanismos
de búsqueda comunes. Estos mecanismos tratan de abarcar toda la web, pero se calcula que los
mayores motores de búsqueda alcanzan a indizar sólo entre un tercio y la mitad de los documentos
disponibles. La web invisible no sólo es de mayor tamaño que la web visible o superficial sino que
crece a mayor velocidad. Asimismo, mucha información disponible en la web profunda, como la que se
encuentra en bases de datos, tiene un alto valor potencial para el usuario.
La multiplicidad de mecanismos de rastreo, indización, recuperación y organización de documentos en
la web puede causar confusión al usuario común. Además, el número de motores de búsqueda, así
como los híbridos resultado de la combinación de diferentes mecanismos, ha aumentado. Esto hace
necesario clasificar y diferenciar los tipos de herramientas disponibles.
En este documento recomiendo algunas estrategias útiles para la búsqueda en la web y presento una
compilación de recursos de búsqueda en la web invisible o profunda.
Tabla de contenido
Introducción
1. Mecanismos de búsqueda en la web
● Buscadores
● Metabuscadores
● Directorios
● Guías
● Tutoriales
● Software especializado
● Estrategias generales
● Selección de herramientas
● Objetivo de la búsqueda
● Forma de búsqueda
● Especialización de la búsqueda
●Precisión de la búsqueda
● Mucha información recuperada
● Selección de recursos
● La web propietaria
● Buscadores
● Metabuscadores
● Directorios
● Guías
● Tutoriales
● Motores avanzados
●Información especializada
● Búsquedas avanzadas
● Evaluación de la información
● La web opaca
● La web privada
● La web propietaria
8. Bibliografía
Introducción
El término “web invisible” fue utilizado por primera vez por la Dra. Jill Ellsworth para
denominar la información que resultaba “invisible” para las maquinarias de búsqueda
Los agentes auxiliares para las búsquedas en la web son un tipo de programas que operan junto
con los navegadores web y añaden funcionalidades a éstos, como el manejo de conceptos, en
lugar de palabras, para recuperar información. Flyswat, Kenjin y Zapper son algunos de estos
programas. Otros agentes residen en el cliente web y permiten, por ejemplo, realizar
búsquedas simultáneas en varios buscadores, eliminar las ligas muertas (dead links), refinar los
resultados de las búsquedas o acceder a algunos sitios de la web invisible. Copernic, por
ejemplo, es uno de estos agentes.
2. Estrategias de búsqueda en la web
Muchas veces, resulta tan frustrante no encontrar información en la web, como confuso
disponer de demasiadas opciones de búsqueda y no saber cómo emprenderla.
A continuación presento algunas estrategias generales que deben tenerse en cuenta para
utilizar las diferentes herramientas de búsqueda en la web de forma más rápida y eficiente. Los
rubros bajo los cuales aparecen son orientativos.
Estrategias generales
·• Usar varios recursos de búsqueda, y no ceñirse a uno exclusivamente para todos los tipos
de búsqueda.
·• Elaborar y mantener una lista propia de buscadores, metabuscadores, directorios, guías y
recursos más útiles. Guardar la selección en un archivo de “Favoritos” (bookmarks) en nuestra
computadora y/o en un servicio de acceso remoto a “favoritos” que permita consultar el
archivo desde cualquier computadora con acceso a la web, como Backflip.
·• Consultar a los bibliotecarios para recibir orientación sobre estrategias de búsqueda y
localización de recursos de información en la web, y para obtener documentos.
Selección de herramientas
·• Usar los tutoriales para aprender a seleccionar y utilizar las diferentes herramientas de
búsqueda.
Objetivo de la búsqueda
·• Usar buscadores o metabuscadores para localizar información de la que poseemos datos
específicos.
·• Usar directorios o guías para explorar áreas de interés temático.
Forma de búsqueda
·• Usar buscadores o metabuscadores para realizar búsquedas por palabras.
·• Usar directorios o guías para revisar por categorías.
Especialización de la búsqueda
·• Usar metabuscadores para realizar búsquedas generales en muchos buscadores a la vez.
·• Usar los concentradores o directorios de buscadores para buscar en varios buscadores
especializados.
Precisión de la búsqueda
·• Seleccionar e instalar en nuestra computadora la versión gratuita de algún motor
avanzado o agente auxiliar para las búsquedas en la web.
·• Solicitar la adquisición para uso institucional de la versión completa de algún motor
avanzado o agente auxiliar para las búsquedas en la web.
Mucha información recuperada
Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los
buscadores, como las siguientes:
·• Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas
ejecutables y archivos comprimidos.
·• Páginas generadas dinámicamente, es decir, que se generan a partir de datos que
introduce el usuario.
·• Información almacenada en bases de datos relacionales, que no puede ser extraída a
menos que se realice una petición específica. Otra dificultad consiste en la variable estructura
y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.
4. Herramientas de búsqueda en la web profunda
Buscadores
En general, los buscadores han mejorado su desempeño en los últimos años, permitiendo un
mayor nivel de precisión en las búsquedas y ofreciendo los resultados en formas cada vez más
convenientes para el usuario.
Pero por ahora, los buscadores comunes sólo pueden recuperar directamente la información
que se encuentra disponible en la web y no aquella que se ofrece a través de la web.
Desde que se empezó a hablar de la web invisible los buscadores comunes han añadido
funcionalidades adicionales para la búsqueda en la llamada web profunda y han surgido
buscadores especializados en ese segmento de la web. Estos últimos permiten la búsqueda
directa de artículos y documentos en texto completo y recuperan archivos PDF o PostScript.
Metabuscadores
Como hemos visto, los metabuscadores pueden presentar limitaciones respecto a las
posibilidades de búsqueda de cada buscador por separado. Por ejemplo, cuando la búsqueda es
sobre materiales o formatos especiales, resulta más práctico sacar provecho de las opciones
avanzadas de búsqueda de los buscadores y, si es necesario, realizar búsquedas sucesivas en
varios de ellos. En este sentido, son más recomendables los directorios concentradores de
buscadores.
Directorios
La mayoría de los mecanismos que se usan para localizar recursos en la web profunda
consisten en directorios de recursos especializados, principalmente bases de datos disponibles
de forma gratuita en la red. El patrocinio de las instituciones académicas en la elaboración de
los directorios, particularmente de los que son anotados, garantiza la cobertura y calidad de los
recursos compilados.
Guías
Las guías de recursos especializados generalmente están elaboradas por bibliotecarios y son
una excelente herramienta de búsqueda y localización de recursos, además de constituir un
buen instrumento de aprendizaje en el uso de la información.
Tutoriales
Motores avanzados
Finalmente, los recientes motores de pregunta dirigida (directed query engines) tienen la
capacidad de realizar búsquedas simultáneas en varias bases de datos en la web. Lexibot y su
sucesor, Deep Query Manager, así como Distributed Explorer (Warnick y otros, 2001) y
FeedPoint, son ejemplos de estos motores avanzados de búsqueda.
5. Estrategias de búsqueda en la web profunda
Además de las estrategias ya señaladas para la búsqueda en la web, podemos añadir otras
específicas para la búsqueda en la web profunda o invisible, agrupadas en rubros orientativos.
Información especializada
·• Usar las herramientas de búsqueda en la web profunda si buscamos información
académica de calidad.
·• Usar buscadores regionales especializados para localizar información originada fuera de
los Estados Unidos o en idiomas diferentes al inglés.
·• Usar metabuscadores para realizar búsquedas en varios buscadores especializados a la
vez.
Búsquedas avanzadas
·• Usar las opciones avanzadas de los buscadores para localizar imágenes o archivos PDF o
PostScript.
·• Usar directorios concentradores de buscadores para realizar búsquedas avanzadas
sucesivas en varios de ellos.
Evaluación de la información
·• Usar directorios anotados para evaluar si los recursos disponibles en la web profunda son
útiles para la búsqueda que estamos realizando.
·• Usar directorios de bases de datos para conocer cuáles de ellas pueden ofrecernos
información útil para nuestras búsquedas.
Información en bases de datos
·• Usar guías, directorios o motores avanzados si la información que buscamos puede estar
en una base de datos.
6. Compilación de recursos de búsqueda en la web profunda
A continuación presentaré una compilación de recursos de búsqueda en la web profunda, que
considero que pueden ser de utilidad para los usuarios académicos universitarios. Dada la
importancia de distinguir entre tipos de recursos para seleccionar el tipo de búsqueda a
realizar, los presento clasificados según su funcionalidad, como buscadores, metabuscadores,
directorios, guías y motores avanzados, primero ordenados alfabéticamente y luego por tipo.
ordenados alfabéticamente
Recurso Tipo
About Guía
http://www.about.com/
AcademicInfo Directorio
http://www.academicinfo.net/
AlphaSearch Directorio de buscadores
http://www.alphasearch.org/
Beaucoup Directorio de buscadores
http://www.beaucoup.com/
The Big Hub Directorio
http://www.thebighub.com/
iBoogie
http://www.iboogie.tv/ Metabuscador
Collection of Search Engines Directorio de buscadores
http://www.leidenuniv.nl/ub/biv/specials.htm
CompletePlanet Directorio
http://www.completeplanet.com/
Deep Query Manager (sustituye a Lexibot) Motor avanzado
http://brightplanet.com/news/dqm2.asp
Direct Search Directorio
http://www.freepint.com/gary/direct.htm
Fazzle Metabuscador
http://www.fazzle.com/
FeedPoint Motor avanzado
http://www.quigo.com/feedpoint.htm
Fossick Metabuscador
http://fossick.com/
HotSheet Directorio
http://www.hotsheet.com/
IncyWincy Directorio
http://www.incywincy.com/
Infomine Directorio
http://infomine.ucr.edu/
InternetInvisible Directorio
http://www.internetinvisible.com/
Internets Directorio
http://www.internets.com/
InvisibleWeb.com Directorio
http://www.invisibleweb.com/
Invisible Web Directory Directorio
http://www.invisible-web.net/
Ixquick Metabuscador
http://www.ixquick.com/
Librarians Index Directorio
http://lii.org/
LibrarySpot Guía
http://www.libraryspot.com/
Master Link List On the Internet Directorio
http://www.web-friend.com/links/
masterlinks.html
ProFusion Metabuscador
http://www.profusion.com/
RefDesk.com Directorio
http://refdesk.com/
ResearchIndex (CiteSeer) Buscador
http://citeseer.nj.nec.com/cs
Resource Discovery Network Directorio anotado
http://www.rdn.ac.uk/
Scirus Buscador
http://www.scirus.com/
Search.Com Metabuscador
http://www.search.com/
Search4science Motor avanzado
http://www.search4science.com/
Strategic Finder Motor avanzado
http://www.strategicfinder.com/
WebData.com Directorio de bases de datos
http://www.webdata.com/
Webfile.com Directorio
http://webfile.com/
WebSearch Buscador
http://www.websearch.com.au/
Where to Do Research Directorio
http://www.wheretodoresearch.com/
Scirus
http://www.scirus.com/
WebSearch
http://www.websearch.com.au/
Metabuscadores iBoogie
http://www.iboogie.tv/
Fazzle
http://www.fazzle.com/
Fossick
http://fossick.com/
Ixquick
http://www.ixquick.com/
ProFusion
http://www.profusion.com/
Search.Com
http://www.search.com/
Beaucoup
http://www.beaucoup.com/
Directorios
The Big Hub
http://www.thebighub.com/
CompletePlanet
http://www.completeplanet.com/
Direct Search
http://www.freepint.com/gary/direct.htm
HotSheet
http://www.hotsheet.com/
IncyWincy
http://www.incywincy.com/
Infomine
http://infomine.ucr.edu/
InternetInvisible
http://www.internetinvisible.com/
Internets
http://www.internets.com/
InvisibleWeb.com
http://www.invisibleweb.com/
Librarians Index
http://lii.org/
RefDesk.com
http://refdesk.com/
Webfile.com
http://webfile.com/
Where to Do Research
http://www.wheretodoresearch.com/
Guías About
http://www.about.com/
LibrarySpot
http://www.libraryspot.com/
FeedPoint
http://www.quigo.com/feedpoint.htm
Search4science
http://www.search4science.com/
Strategic Finder
http://www.strategicfinder.com/
La web opaca
No cabe duda de que los actuales buscadores y directorios de la web están mejorando su
funcionamiento. Más allá de los detalles técnicos que el público no alcanza a ver, la eficiencia
de estas maquinarias ha aumentado y esto se aprecia en los resultados de las búsquedas. A
medida que estas herramientas se vayan haciendo más poderosas disminuirá la necesidad de la
elaboración manual de guías o concentradores de recursos y quizás más la de orientación en
las estrategias de búsqueda y en el uso y aprovechamiento de los recursos localizados.
Un observador cuidadoso puede apreciar que persiste la práctica de los robots de no indizar
todas las páginas de un sitio, fijándose en los resultados de las búsquedas que arrojan las
diferentes herramientas. Por ejemplo, se puede tener la referencia de una base de datos,
disponible a través de un sitio web, en una de las páginas del sitio que contiene una liga a ella,
y no aparecer, en cambio, la referencia a la página de acceso directo a la base de datos en ese
sitio.
La frecuencia de la indización puede haber aumentado en algunos buscadores, o incluso
hacerse de forma diferenciada para algunos recursos. Aquellas páginas que, por su naturaleza,
varían más (por ejemplo, la información bursátil) serían visitadas más frecuentemente por los
robots que aquellas que tienden a ser más estables en su contenido.
El número máximo de resultados visibles no es un problema cuando los buscadores presentan
los resultados ordenados por relevancia, pues siempre aparecerán primero aquellos que se
ajustan más a la búsqueda realizada. En la medida en que se pueda realizar una búsqueda
avanzada y los criterios de relevancia combinen el número de ligas con la frecuencia de
palabras, la presentación de los resultados no constituirá un obstáculo para encontrar la
información. El usuario siempre debe tener en cuenta que los buscadores son más apropiados
cuando la búsqueda es específica, es decir, se conocen datos sobre lo que se busca; mientras
que es más adecuado realizar búsquedas temáticas en los directorios.
Los URLs desconectados podrían evitarse si existiera la obligación de registrar, aunque fuera
de forma muy sencilla, toda página que se colgara en la web. Pero dada la gran
descentralización de Internet, esto no parece vislumbrarse en un futuro inmediato.
La web privada
Este segmento de la web no representa una gran pérdida en términos de valor de la
número de archivos de este tipo que se pueden recuperar con los buscadores actuales tiene que
ser limitado. Una página web que contiene una imagen, sin mayor información textual acerca e
su contenido, no podrá ser recuperada automáticamente más que por su extensión (.jpg, por
ejemplo).
Como hemos visto, la definición más genérica de lo que constituye la web invisible o profunda
apunta a los recursos que no pueden ser recuperados mediante las herramientas comunes de
búsqueda. Para verificar qué tan visible es la porción de la web profunda que ha sido
identificada por los autores de The Invisible Web, he seleccionado al azar diez recursos de su
The Invisible Web Directory y he procedido a realizar la búsqueda en un buscador, un
directorio, un metabuscador y un agente metabuscador avanzado en su versión gratuita. Los
resultados de esta sencilla prueba aparecen reflejados en el cuadro de la página siguiente.
Resultados de búsqueda de recursos de The Invisible Web Directory
Recurso MSN Yahoo! MetaCrawler Copernic
Artcyclopedia SI SI SI (6 buscadores) SI (8 buscadores)
CRA Forsythe SI SI SI (3 buscadores) SI (5 buscadores)
List
Current Films in SI SI SI (3 buscadores) SI (4 buscadores)
the Work
(Boxoffice
Hollywood Hot
Set)
Employee SI SI SI (2 buscadores) SI (3 buscadores)
Benefits
INFOSOURCE
Hamnet SI SI SI (4 buscadores) SI (6 buscadores)
Infonation SI SI SI (5 buscadores) SI (7 buscadores)
Jourlit SI SI SI (3 buscadores) SI (7 buscadores)
Scholarly SI SI SI (4 buscadores) SI (6 buscadores)
Societies Project
Vessel SI SI SI (2 buscadores) SI (6 buscadores)
Registration
Query System
Who’s who in SI SI SI (6 buscadores) SI (8 buscadores)
American Art
(AskArt)
Vemos que todos los recursos seleccionados de The Invisible Web Directory son localizables
con las actuales herramientas de búsqueda. Además, en los resultados se observa que existen
múltiples referencias en otras páginas, es decir, que se trata de páginas “conectadas”. La única
dificultad para encontrarlas consiste, en algunos casos, en las palabras con las cuales se
denomina el sitio o el recurso. Por ejemplo, en el The Invisible Web Directory aparece “Vessel
Query Registration System”, en lugar de “Vessel Registration Query System”, lo cual hace que
la búsqueda por todas las palabras sea exitosa, pero la búsqueda por frase no. Igualmente, la
denominación de “Who’s who in American Art” para el sitio de “AskArt”, dificulta la
búsqueda, mientras que si se busca directamente por su nombre aparece en numerosos
buscadores. La tabla refleja además cómo el solapamiento entre buscadores es variable.
Desde luego, se puede decir que el contenido de las bases de datos que están incluidas en este
directorio es invisible, ya que es necesario realizar las búsquedas directamente en cada una de
ellas. Pero lo cierto es que llegar hasta la “puerta” de estas bases de datos resulta relativamente
sencillo. El mismo hecho de que el directorio haya sido colocado en la web, le confiere mayor
visibilidad a los recursos incluidos, ya que las ligas en el directorio aumentan la posibilidad de
indización de esas páginas. Entonces, podemos decir que The Invisible Web Directory es un
buen directorio de recursos y bases de datos disponibles en la web, pero no un directorio de
recursos “invisibles”.
En conclusión, lo que realmente sigue siendo invisible en la web son:
-- las páginas desconectadas;
-- las páginas no clasificadas que contienen principalmente imágenes, audio
o vídeo;
-- las páginas no clasificadas que contienen principalmente archivos PDF,
PostScript, Flash, Shockwave, ejecutables y comprimidos;
-- el contenido de las bases de datos relacionales;
-- el contenido que se genera en tiempo real;
-- el contenido que se genera dinámicamente.
Pero:
-- algunos buscadores recuperan archivos PDF y páginas con imágenes,
aunque de forma limitada;
-- es relativamente sencillo llegar hasta la “puerta” de las bases de datos con
contenido importante;
-- existen ya motores avanzados capaces de realizar búsquedas directas
simultáneas en varias bases de datos a la vez; y aunque la mayoría requieren de
pago, también ofrecen versiones gratuitas;
-- el contenido que se genera en tiempo real pierde validez con mucha
velocidad, salvo para análisis históricos;
-- es relativamente sencillo llegar hasta la “puerta” de los servicios que
ofrecen información en tiempo real;
-- el contenido que se genera dinámicamente interesa únicamente a ciertos
usuarios con características específicas;
-- es relativamente sencillo llegar hasta la “puerta” de los servicios que
ofrecen contenido generado dinámicamente.
8. Bibliografía
2. The Deep Web [Página Web]. 2002; Consultada 2003 Mayo 6. Disponible
en: http://library.albany.edu/internet/deepweb.html.
University at Albany Libraries. Internet tutorials
5. Invisible Web: What it is, Why it exists, How to find it, and Its inherent
ambiguity [Página Web]. Consultada 2003 Mayo 5. Disponible en: http;//www.
lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html.
UC Berkeley. Teaching Library Internet Workshops. Finding information on the
Internet: a tutorial.
9. What is Fast? [Página Web]. Consultada 2003 Mayo 13. Disponible en:
http://www.lexibot.com/howitworks/whatisfast.asp
10. The WWW Virtual Library [Página Web]. Consultada 2003 Abr 24.
Disponible en: http://www.vlib.org/
11. Bergman, Michael K. The Deep Web: Surfacing Hidden Value. Bright
Planet; 2000.
12. Botluk, Diana. Minig Deeper Into the Invisible Web . Law Library
Resource Xchange; 2000.
Features.
14. Díaz, Karen R. The Invisible Web: Navigating the Web outside Traditional
Search Engines. Reference & User Services Quarterly. 2000; 40(2):131-134.
16. Koster, Martijn. Robots in the Web: threat or treat? [Página Web]. 1997;
Consultada 2003 Mayo 16. Disponible en: http://www.robotstxt.org/wc/threat-
ortreat.html.
17. O'Neill, Edward T.; Lavoie, Brian F., and Bennett, Rick. Trends in the
Evolution of the Public Web: 1998-2002. D-Lib Magazine. 2003; 9(4).
20. Sherman, Chris. The Invisible Web. Free Pint. 2000; (64).
22. Sherman, Chris and Price, Gary. The invisible Web. Searcher. 2001; 8
(9):62-74.
23. ---. The invisible Web: Uncovering information sources search engines can't
see. Medford, New Jersey: CyberAge Books; Information Today; 2001.
24. Sullivan, Danny. Invisible Web Gets Deeper. The Search Engine Report.
2000.
25. Turner, Laura. Doing it Deeper: The Deep Web [Página Web]. Consultada
2003 Mayo 2. Disponible en: http://www.bhsu.edu/education/edfaculty/lturner/
The%20Deep%20Web%20article1.doc
26. Warnick, Walter L; Lederman, Abe; Scott, R. L.; Spence, Karen J.;
Johnson, Lorrie A., and Allen, Valerie S. Searching the Deep Web: Directed
Query Engine Applications at the Department of Energy. D-Lib Magazine. 2001;
7(1).
27. Wiseman, Ken . The invisible Web [Página Web]. Consultada 2002 Mayo
5. Disponible en: http://www3.dist214,k12.il.us/invisible/article/invisiblearticle.
html