You are on page 1of 9

Propuesta de creacin de contextos semnticos y uso de anlisis argumental para la mejora de las bsquedas en Internet

Joaqun Herrero Pintado jherrero@bumpho.com Noviembre de 2009

Introduccin
El gran xito de Internet como gran repositorio documental de informacin en distintos formatos (texto, imgenes, vdeo y audio) est reviviendo el debate sobre si el modelo actual de indexacin de contenido que llevan a cabo los buscadores es suficiente para localizar la informacin que un usuario especializado necesita. La dispersin de la informacin en Internet junto con el hecho de que cada documento est encerrado en un formato distinto son elementos que dificultan an ms la tarea de trazar el mapa temtico de los contenidos de Internet. El presente trabajo hace una propuesta para iniciar el camino hacia la agrupacin temtica de los contenidos de Internet que se aprovecha de las inercias naturales de los usuarios en su bsqueda de informacin para, con el apoyo de las redes sociales y el uso de tcnicas de anlisis argumental, conseguir crear ndices temticos que permitieran no solo localizar la documentacin temticamente, sino tambin construir de forma natural buscadores especializados.

Cuestiones sobre el uso de Internet como repositorio documental


Desde la perspectiva que trata el presente trabajo, podemos considerar a Internet como un conjunto geogrficamente disperso de textos sin ninguna agrupacin temtica que los una. Aunque existen diversas webs especializadas en las que podemos encontrar un conjunto de textos temticos y algn tipo de buscador propio para localizarlos, difcilmente se puede considerar a Internet en su totalidad como una gran enciclopedia que recoja todo el saber, sino ms bien como un apilamiento desorganizado pero ms o menos usable de documentos que recogen todo el saber humano. Para poder localizar la documentacin que precisamos, disponemos de buscadores como Google, Bing, Yahoo o Ask, que indexan los contenidos de los documentos y nos permiten recuperar los que contienen cierta secuencia de palabras, diferencindose unos buscadores de otros en el criterio por el que ordenan la informacin que presentan al usuario. Para indexar los documentos dispersos en Internet, los servicios de bsqueda disponen de un software (llamado "bot", robot o "spider", araa) que simula ser un visitante de un sitio web y lo recorre en su totalidad, descargando el contenido de dichas pginas a una base de datos propia de cada buscador. Dicha base de datos es indexada en funcin de distintos criterios segn sea el buscador que lo haga. Sin embargo los buscadores no nacieron con la vocacin de recorrer e indexar Internet. Yahoo, por ejemplo, naci como un ndice temtico, confeccionado manualmente, de las pginas que ms le gustaban a Jerry Yang, su creador. Pero el crecimiento exponencial del nmero de pginas en Internet hizo que se descartara en Yahoo el procedimiento manual de confeccin del ndice y se pasara a la tcnica comentada de recorrer Internet e indexar el contenido de las pginas visitadas. Google se diferenci (y an lo hace) del resto de buscadores por la forma de indexar las pginas que visita. Su algoritmo, llamado "page rank", punta las pginas en funcin de su popularidad en Internet, usando ese criterio para priorizar unos resultados sobre otros y presentarlos en primer lugar al usuario que hace una bsqueda. Al presentar en primer lugar las pginas ms populares, la mayora de los usuarios encuentran lo que buscan en menos intentos que en otros buscadores, lo que explica el xito de este buscador. Se estima que en Mayo de 2009 hay casi 110 millones de sitios web en Internet, cada uno de ellos con decenas o miles de documentos sobre diferentes temas. El hecho de

que los buscadores actuales utilicen la popularidad como nico criterio de ordenacin de resultados es incompatible con el aumento de contenido especializado en Internet, por lo que resultan muy ineficaces como instrumento de bsqueda especializada. Se puede decir que los buscadores actuales indexan la dispersin pero no la solucionan. Es un hecho reconocido que existe la necesidad de categorizar y relacionar la informacin que presentan los buscadores, pero ello nos pone frente al problema de cmo generar automticamente dichas categoras y relaciones, siendo imposible hacerlo manualmente, como demostr Yahoo hace aos. La aparicin de la llamada "Web 2.0" y ms concretamente del concepto de "redes sociales", una estructura social cuyos nodos (sean personas individuales u organizaciones) se agrupan en funcin de intereses comunes, ha marcado un antes y un despus en el uso que se hace de Internet. Si las redes sociales son una agrupacin de personas en torno a un inters comn, cabra caracterizar a las redes sociales en funcin del tipo de inters comn, distinguindose as dos tipos de redes sociales: las que tienen como centro la intercomunicacin personal (Facebook) o las que agrupan a sus miembros en torno a la informacin (Wikipedia). Las redes sociales han resultado muy eficaces en producir "inteligencia colectiva" cuando se han agrupado en torno a la informacin. Un ejemplo del resultado de dicho esfuerzo conjunto es la propia Wikipedia, de cuyo contenido se calcula que en un 73% ha sido producido por el trabajo en colaboracin de unas 1400 personas. Pero hay otros ejemplos an ms interesantes de los logros de las redes sociales, que tienen relacin con lo que aqui exponemos: El "social tagging", tambin llamado "folcsonoma", o "indexacin social", es decir, la clasificacin colaborativa de la informacin en internet por medio de asignarle etiquetas descriptivas simples El "social bookmarking", o "marcadores sociales", que es una forma de almacenar, clasificar y compartir los enlaces a contenido de internet etiquetados en funcin del tema Este marcado e indexado social se ha aplicado a todo tipo de contenido en Internet, como fotografas, vdeos y documentos de texto en sus diversos formatos de presentacin, por lo que gracias a este trabajo colaborativo disponemos actualmente de mucha precisin a la hora de tipificar la informacin de Internet, al haber sido enriquecido el contenido con los trminos aportados por el marcado social, trminos que pueden ser objeto de bsqueda por parte de los buscadores antes comentados. El presente trabajo pretende hacer una aproximacin a un nuevo uso de las redes sociales en el mbito de la bsqueda de informacin en Internet: la creacin de contextos semnticos para agrupar temticamente la informacin en Internet y la aplicacin a dichos contextos de tcnicas de anlisis argumental.

La propuesta del contexto semntico


Qu sera un "contexto semntico" en Internet? Sera un repositorio, almacn o contenedor usado para recopilar ciertos datos acerca de la informacin dispersada en internet, pero relativa a un solo tema. Por ello tambin lo podramos llamar "contenedor temtico". La informacin all recolectada sera como mnimo esta: la URL (direccin) donde est localizada en Internet el documento original el contenido a texto completo de dicho documento 3

las descripciones y etiquetas asignadas a dicho documento por parte de las redes de marcadores sociales Una caracterstica de este contenedor es que no almacenara la maquetacin original de la pgina (la pgina en su formato original puede ser consultable en su direccin), pero recolecta dos elementos clave para iniciar un proceso de anlisis semntico: 1. las descripciones y etiquetas asignadas por redes de marcadores sociales 2. su contenido a texto completo Dado que el contenedor aqu propuesto puede ser considerado desde dos perspectivas diferentes, usaremos indistintamente para referirnos a l los trminos "contenedor temtico" y "contexto semntico" pues ambos son los usos bsico y avanzado de la misma propuesta: con el contenedor los usuarios reciben el servicio de "lista de favoritos" que usan tradicionalmente, y desde ese punto de vista estamos hablando de un "contenedor temtico", pero desde el punto de vista de la creacin de superestructuras temticas en Internet el mismo contenedor puede ser visto y tratado como un "contexto semntico" y aplicarle tcnicas de anlisis argumental. Uno de los problemas de la informacin que encontramos en Internet es que no solamente est dispersa, sino adems "encarcelada" en diversos formatos que requieren programas especficos para que podamos obtener la informacin all contenida. Algunos de estos formatos son los propios (propietarios) de los diversos procesadores de texto, o formatos de presentaciones tipo "power point", o incluso pginas web estticas, en las que el texto informativo est mezclado con las instrucciones de maquetacin, como es el caso de las pginas HTML o XML. Dentro del contexto semntico la informacin recolectada sera "liberada" de su formato y aparecera como texto simple, requisito fundamental para efectuar un anlisis eficiente de su contenido. Por poner un ejemplo: un contenedor temtico sobre "qu es el proceso de Bolonia?" podra contener varias decenas de referencias a diferente contenido en Internet que lo explique, como pginas web o presentaciones "power point", pero adems contendra las descripciones y etiquetas sociales de cada contenido, y su contenido a texto completo. Eso hace posible procesar de la siguiente forma el contenido con vistas a analizarlo semnticamente: 1. Romper en unidades textuales ms pequeas el contenido de cada documento introducido en el contexto semntico 2. Etiquetar y relacionar entre s jerarquicamente las pequeas unidades textuales para que cada una de ellas constituya una pieza de informacin susceptible de ser aportada como respuesta a una consulta 3. Analizar argumentalmente a todas las unidades textuales del contenedor 4. Agrupar las unidades textuales procedentes de diferentes fuentes en funcin del resultado del anlisis argumental, lo que dara cierta unidad de contenido a la informacin del contenedor aunque haya procedido de distintas fuentes Pero, mediante qu procedimiento se agregara la informacin dispersada en Internet a un contenedor semntico? Y qu clase de anlisis se aplicara al texto all almacenado?

El buscador como nudo central de una red de contextos semnticos


En la actualidad, a partir de uno o varios trminos de bsqueda que aporta un usuario a un buscador, se le presentan los resultados que el buscador considera ms relevantes en funcin de su popularidad en Internet.

Una vez que el buscador nos presenta la informacin, lo nico que podemos hacer es visitar la pgina propuesta y, si es de nuestro inters, anotar de alguna forma su direccin para una posterior consulta. Este modelo presenta dos principales problemas: la cantidad de resultados obtenidos y el criterio para juzgar la calidad de los mismos. Respecto al primero, resulta frustrante que al buscar, por ejemplo usando Google, la palabra "argumentacin", obtengamos ms de un milln de resultados, de los cuales tenemos delante los diez primeros. Suponiendo que en visitar cada resultado y decidir si es de nuestro inters empleramos un minuto, tardaramos un milln de minutos, es decir, casi 700 das, en revisar todo el contenido de Internet con ese trmino. Es cierto que podemos aportar ms trminos y as disminuir el nmero de resultados. Por ejemplo, para "argumentacin falaz" Google indica 100.000 resultados, y para "argumentacin falaz poltica", 70.000, pero sigue siendo una cantidad de informacin que est ms all de lo abarcable por cualquier persona que est investigando un tema, por lo que lo nico posible es visitar cada uno de los resultados confiando en que el criterio de popularidad usado por el buscador coincida con el nuestro y seguir visitando resultados hasta que se agote nuestro tiempo o nuestra paciencia. En segundo lugar, se crea un problema en la atribucin de calidad a una pgina: son los primeros resultados de Google los que tienen ms calidad o se les adjudica ms calidad porque aparecen como primeros resultados? No es infrecuente escuchar que algunos sitios web muy relevantes para el tema buscado no aparecen en las primeras pginas de resultados porque el diseador de la pgina no la ha optimizado suficientemente, o como se suele decir, no ha hecho bien el SEO (Search Engine Optimization). El criterio de bondad de la informacin contenida en una pgina no puede depender del diseo estructural de la misma, porque esto crea el problema de que una pgina tenga estructura de calidad (meta etiquetas relevantes, trminos frecuentes en los ttulos, etc.) pero contenga informacin irrelevante. Es ms, existe el peligro de que por acostumbrarnos a visitar nicamente los primeros resultados obtenidos en una bsqueda vayamos modificando progresivamente nuestro criterio personal de calidad para hacerlo coincidir con la informacin que el buscador nos proporciona, y de esa manera llegamos a atribuir calidad a un resultado que simplemente es popular. Este mnimo comn criterio de calidad que se nos impone desde los buscadores que depende en parte del diseo estructural de la pgina y del nmero de enlaces que la apunten implica que quedan anulados los criterios de calidad de los expertos. Una bsqueda en Internet que pretendiera ser de calidad debera de incluir lo que podramos llamar "resultados de autor", es decir, enlaces a aquellas pginas que un experto en la materia considera imprescindibles para estar bien informados sobre el tema, independientemente de si son populares o si la estructura de la pgina contiene las palabras adecuadas en los lugares adecuados. Sin embargo, es posible hacer de la necesidad virtud y mezclar los dos conceptos que hemos manejado hasta ahora: los actuales buscadores y el modelo de red social cooperativa para empezar a andar hacia el objetivo de la agrupacin temtica del contenido en Internet. Mediante el gesto estandarizado en la informtica personal de "pinchar y arrastrar", debera de ser posible "echar" cualquiera de los resultados presentados por el buscador directamente desde la lista de resultados al contenedor temtico antes explicado para su posterior revisin por parte del usuario. Si este sencillo gesto estuviera incorporado en los buscadores se resolveran varios problemas al mismo tiempo: 1. Permitira al usuario tener siempre a mano los resultados que l mismo ha seleccionado con tan solo abrir el contenedor en el que ech los resultados que le interesaron

2. Suponiendo que el resultado sea relevante respecto al tema del contenedor, habramos tematizado el resultado seleccionado y habramos enriquecido el tema en cuestin Por tanto la tematizacin o ms bien, la agrupacin tematizada del contenido de Internet sucedera de forma gradual y absolutamente natural, reutilizando los mismos hbitos de los usuarios que necesitan agregan un resultado a la lista de favoritos de su navegador o a una red social de marcadores. La existencia en la actualidad de redes sociales muy populares, como "delicious.com", cuyo nico objetivo es guardar enlaces a contenido web de inters, agregando a cada enlace un comentario y etiquetas temticas, indica que el camino que propongo hacia el contexto semntico como un contenedor de informacin de inters ya ha sido iniciado en sus aspectos ms bsicos. Si se facilitara la comparticin de estos contenedores temticos con otros usuarios de Internet, dichos contenedores se podran convertir en puntos focales de pequeas redes sociales temticas, lo cual ampliara el concepto actual de red social, dejando de ser tan solo una tupida malla de relaciones interpersonales como por ejemplo tambin lo son son las redes que se crean en las reuniones sociales, que no son "alrededor" de nada sino "con" muchos, y pasaran a ser una malla de relaciones interpersonales alrededor de un tema, tal como sucede en las reuniones de trabajo, en las que se crean redes interpersonales condicionadas por la existencia de un tema de la reunin que metafricamente est representado por la mesa alrededor de la cual estn reunidos. El concepto de red social aplicado a la estructuracin del contenido de Internet en contenedores temticos es lo que hara viable ahora lo que en su da fue imposible para Yahoo: la catalogacin por temas de los recursos de internet, debido a que ahora no se necesitara el esfuerzo deliberado de una clasificacin manual sino que la agrupacin temtica de la informacin sucedera como consecuencia natural del uso de Internet.

El anlisis argumental dentro del contexto semntico


Hasta ahora hemos visto el contexto semntico como un contenedor que aloja informacin de manera parecida a como lo hacen en la actualidad las redes de marcado y etiquetado sociales. Sin embargo veremos ahora el contenedor propuesto desde una nueva ptica, la del anlisis argumental. Dado que el contenedor al que hemos llamado "contexto semntico" es relativo a un solo tema, toda la informacin que contenga puede ser referida a un mismo marco comn de supuestos sin que sea necesario construir dicho marco a partir del anlisis del contenido de cada documento, sino que sera deducido del hecho de estar dentro de un contenedor que est referido a un tema concreto y que jerrquicamente puede estar asociado con una serie de conceptos semnticos, como veremos ms adelante. El etiquetado social que incluye el contenido que se 'arrojara' al contenedor podra ser usado para componer una primera versin de un diccionario de trminos para uso interno del contexto, diccionario que mediante un tesauro podra incluso estar ordenado conceptualmente. Cmo elaboraramos el marco comn de supuestos que permitira inferir el significado del contenido alojado en el contenedor temtico? Una primera aproximacin podra ser mediante localizar en el contenido textual del contenedor todos los asertos, tratando de clasificarlos mediante un anlisis de los indicadores de fuerza que contengan para puntuar su grado de influencia. La "Gramtica de la argumentacin" de Vincenzo Lo Cascio (Alianza Editorial, Madrid, 1998) contiene en su captulo 6 un estudio detallado de los indicadores de fuerza, 6

indicando que "pueden clasificarse segn la funcin que realizan. Algunos marcan la tesis, otros los datos o los argumentos, otros la regla general y otros la reserva, la fuente, o categoras mayores como la argumentacin misma". El desafo a la hora de detectar los indicadores de fuerza en un texto es la posibilidad de que, por ser la transcripcin de una conversacin oral, hayan sido sustituidos por la entonacin especfica propia del lenguaje oral, o incluso, aunque el texto originalmente sea un escrito, se haya usado como indicador de fuerza un orden deliberado de los enunciados, lo cual solo podra ser interpretado acudiendo a un profundo conocimiento del mundo especfico que se narra. Aunque esto es as, no obstante es posible encontrar en los textos marcadores que pueden usarse con un grado elevado de fiabilidad para calificar una declaracin como un dato, una justificacin, una opinin o una conclusin, por nombrar algunos. La clasificacin que hace Lo Cascio en las pginas 203 y 204 de los indicadores de fuerza que propongo localizar dentro del contenido del contexto semntico son: 1. Indicadores de fuerza que introducen un macroargumento (ahora me explico, el razonamiento es ste, ahora se demuestra por qu); 2. Introducen un argumento o un dato: JUSTIFICADORES (puesto que, porque, de hecho, en efecto, dado que, ya que, ya que es cierto que, tambin porque, considerando que, partiendo del hecho que, y la prueba es que, y eso es porque, luego, uso del gerundio); 3. Introducen la tesis o conclusin (de primer o segundo nivel): CONCLUSIVOS (por consiguiente, as pues, por tanto, he aqu que, por eso, se sigue que, por lo cual puede sostenerse que, por ello, si... entonces); 4. Introducen la regla general: GENERALIZADORES (a partir de..., dado que..., y eso porque..., dice que...); 5. Introducen la modalidad o el calificador: MODALES (quiz, probablemente, es probable que, necesariamente, poder + infinitivo, deber de + infinitivo, futuro [elemento morfolgico con funciones modal y no de tiempo verbal]) 6. Introducen la fuente, la autoridad: GARANTES (como dice, segn...); 7. Introducen una reserva: RELATIVIZADORES (a no ser que, salvo que, a menos que, excepto que, si / si no, aunque); 8. Introducen un refuerzo para la justificacin presentada: REFUERZOS (sin contar con, si se tiene en cuenta el hecho de que, observemos que, no obstante, a pesar de que, si bien, aunque); 9. Introducen una contraopinin: ALTERNANTES (sin embargo, no obstante que, a pesar de que). Estos indicadores de fuerza pueden ser fcilmente localizados mediante el uso en los lenguajes informticos de programacin de expresiones regulares como patrones de bsqueda dentro del contenido textual del contenedor y eso permitira aislar y extraer el argumento que introducen. En principio, todos los asertos hechos con indicadores de fuerza conclusivos podran ser considerados parte del marco comn de supuestos del contenedor, pues contendran afirmaciones que se hacen tras una argumentacin. Tambin se podra someter a un anlisis cada uno de los asertos conclusivos para filtrar aquellos que sintcticamente son oraciones atributivas, pues en ellas se tendra como sujeto un concepto que estara en el diccionario de trminos antes explicado, y como predicado el atributo que le caracteriza y que podra usarse para relacionar conceptos entre s y de esa forma ir creando una red que permitira un anlisis conceptual ms avanzado del contenido.

Dichos asertos tambin podran ser considerados el resumen de la informacin del contenedor, lo cual hara muy til el contenedor contextual como herramienta para resumir de forma rpida una gran cantidad de informacin: se "echan" al contenedor los documentos arrastrando los enlaces desde el buscador donde los hemos localizado, y a continuacin el contenedor podra elaborar un informe con todas las conclusiones contenidas en los documentos que se le ha proporcionado. Por lo ya descrito, el contenedor ira creando en su interior una base de datos en la que organizara los resultados del anlisis al que se va sometiendo a la informacin, la cual contendra: Los asertos con indicadores de fuerza concluyentes La red-diccionario de conceptos La red-diccionario de etiquetas sociales La red-diccionario de palabras frecuentes

Cada uno de los diccionarios que se detallan (de conceptos, de etiquetas sociales y de palabras frecuentes) debera de poder usarse para constituir una red interna semejante a la red de transportes de una ciudad, de tal modo que yo pueda elegir uno o varios trminos de cada uno de los diccionarios y recorrer la informacin del contenedor que est relacionada con dichos trminos. Estas redes de transporte internas del contenedor son las que haran posible usarle no solo para mantener reunida informacin que previamente estaba dispersa, sino tambin para someterle a bsquedas y que pueda actuar as como proveedor de informacin proporcionando respuestas. Las respuestas obtenidas de tal contenedor especializado seran de mucha ms calidad de las obtenidas en un buscador generalista.

El contexto semntico como proveedor de informacin


Si se hace la integracin propuesta entre los buscadores de internet y los contextos semnticos que se pondran a disposicin de los usuarios para su uso personal, el propio uso natural de Internet hara que la informacin se agrupara por temas. Tal como en la actualidad hacen algunos buscadores, que consideran la Wikipedia como una fuente de informacin independiente de criterios de popularidad por lo que proporcionan sus definiciones en primer lugar en su lista de resultados (as hace Google, por ejemplo), podra llegar un momento en el que fuera ms rentable en trminos de esfuerzo computacional ofrecer al usuario uno o varios contenedores temticos como resultado de su bsqueda que las decenas de enlaces individuales a la misma informacin en su versin dispersada en Internet. En ese escenario, si como resultado de su bsqueda, en vez de obtener una interminable lista de documentos individuales, los buscadores proporcionaran contenedores temticos, el usuario cada vez que buscara obtendra mucho ms que ahora, pues el contenedor le pondra en contacto con: 1. La documentacin que busca en forma catalogada y ordenada por el grupo de personas que mantiene el contenedor temtico que se le presenta 2. Contacto con la red social que cre y mantiene la informacin alojada en dicho contenedor, que podra ser tan pequea como una sola persona, o tan grande como una universidad que hubiera decidido tematizar la informacin que produce dentro de contenedores

Redes de contextos semnticos


Los contenedores deberan de tener en su interior no solo documentos, sino los programas que actuaran sobre la informacin que contienen y que, adems, buscaran en Internet a contenedores semejantes para fabricar redes sociales de contenedores. La forma en que los contenedores localizaran a sus semejantes sera mediante el uso de tesauros, que podran crear redes de contextos de la siguiente forma: 1. Determinando los conceptos de jerarqua superior (hipernimos) con los que un determinado contenedor est relacionado 2. Mediante la adscripcin de cada contenedor a uno o varios contextoshipernimos 3. Localizando sinnimos de los trminos del diccionario que definen al contenedor 4. Propiciando la agrupacin o fusin de contenedores sinnimos entre s para evitar duplicidades

Los contextos semnticos como fuente de informacin para buscadores especializados


La agrupacin de contextos en jerarquas conceptuales propuesta en el apartado anterior junto con el hecho de que cada red de contenedores dispone de un diccionario de trminos relevantes, hara posible la creacin de buscadores especializados, que podran usar la informacin de los contextos semnticos para elaborar diversas estrategias de bsqueda: 1. Si alguien quiere buscar en Internet informacin sobre un tema del que existe una red de contenedores temticos, los trminos de bsqueda propuestos por el usuario pueden ser completados con los trminos procedentes del diccionario de la jerarqua de contenedores, de tal forma que la bsqueda aumenta su concreccin y eficacia 2. A partir de las direcciones de Internet de las que procede el contenido de los contenedores temticos es posible elaborar una lista de sitios web de bsqueda prioritaria para cada tema o concepto, con lo que la bsqueda se concentrara preferentemente en los lugares de Internet que ms informacin producen para dicho tema de bsqueda

Conclusiones
La actual configuracin de Internet como red de documentacin dispersada y encerrada en formatos ms o menos propietarios no permite usar la informacin como conocimiento. La creacin de contenedores temticos asociados a buscadores y alrededor de los cuales se presten servicios a personas integradas en redes sociales permitira de forma gradual crear una estructura temtica superior a los ndices de los actuales buscadores; y la aplicacin a dichos contenedores de tcnicas de anlisis argumental permitira la extraccin de informacin relevante, que permitira convertir la red de documentos actual en una red temtica de conocimiento.