You are on page 1of 2

MOTORES DE BUSQUEDA DE INTERNET Un motor de bsqueda es un mecanismo que se encarga de la extraccin de datos tiles para el usuario que se encuentran

originalmente en una gran coleccin de datos desordenados como es la red de Internet a partir de un subconjunto de estos que se encuentran almacenados dentro de las estructuras de datos internas al servicio en cuestin. Generalmente los datos se adquieren a partir de la informacin textual publicada en forma de pginas Web, pero esto no es siempre as, ya que hoy se puede buscar informacin dentro de los servicios de news, directorios ftp, documentos en formato pdf, etc. Estos servicios de bsqueda de datos se pueden subdividir en dos grandes grupos: Indices temticos Son recopilaciones de datos realizadas en forma manual que se encuentran categorizados segn los temas en donde se los puede agrupar. La bsqueda de informacin puede realizarse mediante la navegacin a travs de la jerarqua de categoras particular impuesta por la forma en que se construy el ndice temtico, hasta llegar a la porcin de informacin que se desea revisar. Robots Un robot es un programa que rastrea recursos a travs de la estructura interconectada de la Web, siguiendo los vnculos entre pginas dentro de un servidor o en otros servidores de la red. En general, la bsqueda comienza con una lista inicial de servidores, para luego seguir los vnculos que tengan estos con el resto de los documentos que se encuentran en la Web. Arquitectura de un motor de bsqueda Sisteme de software que tiene que se escalable como para soportar millones de consultas diarias y debe manejar volmenes enormes de datos, manteniendo un tiempo de respuesta que haga aceptable la realizacin de la bsqueda por parte del usuario y por otro lado que haga posible la constante actualizacin de los datos internos del sistema con los extrados de la red. Componentes Robot (crawler): Es el encargado de recorre la estructura de vnculos de la Web (una estructura en forma de telaraa segn su propia definicin), a travs de listas de urls que se usan como punto de partida para el recorrido recursivo de los documentos. Indexador: Almacena los datos que recolecta el robot dentro de una estructura ordenada para que se posible accederla rpidamente para generar la salida de informacin necesaria para responder las consultas.

Repositorio: Es el archivo donde se almacena la informacin til para generar las salidas de informacin que le ayudarn al usuario a identificar los datos de los diferentes items que conforman la coleccin de datos como respuesta a su solicitud. La estructura, datos y forma en que se maneja este componente vara en ran medida de acuerdo a la implementacin especifca del motor de bsqueda. Servidor Web: Dado que los motores de bsqueda deben estar disponibles para se accedidos por cualquier usuario a travs de la red, y la Web provee un mecanismo estndar para generar interfaces de usuario que puedan ser interoperables y de fcil acceso en cualquier estacin de trabajo, este es el medio seleccionado por la gran mayora de los servicio de bsqueda disponibles. Motores de bsqueda actuales: *Google *Yahoo *Altavista *Hotbot *Excite