• Embed Doc
  • Readcast
  • Collections
  • CommentGo Back
 
Propuesta de creación de contextos semánticos yuso de análisis argumental para la mejora de lasbúsquedas en Internet
Joaquín Herrero Pintado jherrero@bumpho.comNoviembre de 2009
1
 
Introducción
El gran éxito de Internet como gran repositorio documental de información en distintosformatos (texto, imágenes, vídeo y audio) está reviviendo el debate sobre si el modeloactual de indexación de contenido que llevan a cabo los buscadores es suficiente paralocalizar la información que un usuario especializado necesita.La dispersión de la información en Internet junto con el hecho de que cada documentoestá encerrado en un formato distinto son elementos que dificultan aún más la tarea detrazar el mapa temático de los contenidos de Internet.ElpresentetrabajohaceunapropuestaparainiciarelcaminohacialaagrupaciónteticadeloscontenidosdeInternetqueseaprovechadelasinerciasnaturalesdelosusuariosensubúsquedadeinformaciónpara,conelapoyodelasredessocialesyelusodetécnicasdeanálisisargumental,conseguircrearíndicesteticosquepermitierannosololocalizarladocumentacióntemáticamente,sinotambiénconstruirdeformanaturalbuscadoresespecializados.
Cuestiones sobre el uso de Internet como repositorio documental
Desde la perspectiva que trata el presente trabajo, podemos considerar a Internet comoun conjunto geográficamente disperso de textos sin ninguna agrupación temática que losuna. Aunque existen diversas webs especializadas en las que podemos encontrar unconjunto de textos temáticos y algún tipo de buscador propio para localizarlos,difícilmente se puede considerar a Internet en su totalidad como una gran enciclopediaque recoja todo el saber, sino más bien como un apilamiento desorganizado pero más omenos usable de documentos que recogen todo el saber humano.Para poder localizar la documentación que precisamos, disponemos de buscadores comoGoogle, Bing, Yahoo o Ask, que indexan los contenidos de los documentos y nospermiten recuperar los que contienen cierta secuencia de palabras, diferenciándose unosbuscadores de otros en el criterio por el que ordenan la información que presentan alusuario.Para indexar los documentos dispersos en Internet, los servicios de búsqueda disponende un software (llamado "bot", robot o "spider", araña) que simula ser un visitante de unsitio web y lo recorre en su totalidad, descargando el contenido de dichas páginas a unabase de datos propia de cada buscador. Dicha base de datos es indexada en función dedistintos criterios según sea el buscador que lo haga.Sin embargo los buscadores no nacieron con la vocación de recorrer e indexar Internet.Yahoo, por ejemplo, nació como un índice temático, confeccionado manualmente, de laspáginas que más le gustaban a Jerry Yang, su creador. Pero el crecimiento exponencialdel número de páginas en Internet hizo que se descartara en Yahoo el procedimientomanual de confección del índice y se pasara a la técnica comentada de recorrer Internete indexar el contenido de las páginas visitadas.Google se diferenció (y aún lo hace) del resto de buscadores por la forma de indexar laspáginas que visita. Su algoritmo, llamado "page rank", puntúa las páginas en función desu popularidad en Internet, usando ese criterio para priorizar unos resultados sobreotros y presentarlos en primer lugar al usuario que hace una búsqueda. Al presentar enprimer lugar las páginas más populares, la mayoría de los usuarios encuentran lo quebuscan en menos intentos que en otros buscadores, lo que explica el éxito de estebuscador.Se estima que en Mayo de 2009 hay casi 110 millones de sitios web en Internet, cadauno de ellos con decenas o miles de documentos sobre diferentes temas. El hecho de2
 
que los buscadores actuales utilicen la popularidad como único criterio de ordenación deresultados es incompatible con el aumento de contenido especializado en Internet, por loque resultan muy ineficaces como instrumento de búsqueda especializada.Se puede decir que los buscadores actuales indexan la dispersión pero no la solucionan.Es un hecho reconocido que existe la necesidad de categorizar y relacionar lainformación que presentan los buscadores, pero ello nos pone frente al problema decómo generar automáticamente dichas categorías y relaciones, siendo imposible hacerlomanualmente, como demostró Yahoo hace años.La aparición de la llamada "Web 2.0" y más concretamente del concepto de "redessociales", una estructura social cuyos nodos (sean personas individuales uorganizaciones) se agrupan en función de intereses comunes, ha marcado un antes y undespués en el uso que se hace de Internet.Si las redes sociales son una agrupación de personas en torno a un interés común,cabría caracterizar a las redes sociales en función del tipo de interés común,distinguiéndose así dos tipos de redes sociales: las que tienen como centro laintercomunicación personal (Facebook) o las que agrupan a sus miembros en torno a lainformación (Wikipedia).Las redes sociales han resultado muy eficaces en producir "inteligencia colectiva" cuandose han agrupado en torno a la información. Un ejemplo del resultado de dicho esfuerzoconjunto es la propia Wikipedia, de cuyo contenido se calcula que en un 73% ha sidoproducido por el trabajo en colaboración de unas 1400 personas.Pero hay otros ejemplos aún más interesantes de los logros de las redes sociales, quetienen relación con lo que aqui exponemos:El "social tagging", también llamado "folcsonomía", o "indexación social", esdecir, la clasificación colaborativa de la información en internet por medio deasignarle etiquetas descriptivas simplesEl "social bookmarking", o "marcadores sociales", que es una forma dealmacenar, clasificar y compartir los enlaces a contenido de internet etiquetadosen función del temaEste marcado e indexado social se ha aplicado a todo tipo de contenido en Internet,como fotografías, vídeos y documentos de texto en sus diversos formatos depresentación, por lo que gracias a este trabajo colaborativo disponemos actualmente demucha precisión a la hora de tipificar la información de Internet, al haber sidoenriquecido el contenido con los términos aportados por el marcado social, términos quepueden ser objeto de búsqueda por parte de los buscadores antes comentados.El presente trabajo pretende hacer una aproximación a un nuevo uso de las redessociales en el ámbito de la búsqueda de información en Internet: la creación decontextos semánticos para agrupar temáticamente la información en Internet y laaplicación a dichos contextos de técnicas de análisis argumental.
La propuesta del contexto semántico
¿Qué sería un "contexto semántico" en Internet? Sería un repositorio, almacén ocontenedor usado para recopilar ciertos datos acerca de la información dispersada eninternet, pero relativa a un solo tema. Por ello también lo podríamos llamar "contenedortemático".La información allí recolectada sería como mínimo esta:la URL (dirección) donde está localizada en Internet el documento originalel contenido a texto completo de dicho documento3
of 00

Leave a Comment

You must be to leave a comment.
Submit
Characters: ...
You must be to leave a comment.
Submit
Characters: ...