You are on page 1of 7

Servicio de Selecci´ n de Noticias basado en o Mashup de Contenidos con CMIS

Jos´ M. Jim´ nez, Guillermo Hern´ ndez e e a
Divisi´ n I+D+i o Inform´ tica Gesfor (Grupo Gesfor) a Avda Manoteras, 32 28050 Madrid jmjimenezt,ghernandezc@grupogesfor.com

´ Carlos A. Iglesias, David Jim´ nez e
Divisi´ n I+D+i o Germinus XXI (Grupo Gesfor) Avda Manoteras, 32 28050 Madrid cif, djimenezc@germinus.com

Resumen—El art´culo presenta la propuesta y resultados del ı proyecto Contenidos a la Carta, que propone el uso de tecnolog´a ı de mashups para la selecci´ n de contenidos (noticias), combinado o con el uso de la especificaci´ n CMIS (Content Management o Interoperability Service) para la integraci´ n de repositorios heto erog´ neos de contenidos. El art´culo presenta la arquitectura e ı propuesta, que define operadores de mashup espec´ficos para ı contenidos, para lo que se ha extendido la herramienta de creaci´ n de mashups MyCocktail. o Palabras Clave—CMIS, noticias, mashups, contenidos, REST

´ I. I NTRODUCCI ON La web 2.0 con fen´ menos como YouTube ha abierto sin o duda una era de los contenidos, tanto en su creaci´ n como en o su consumo. Han ca´do las barreras financieras, tecnol´ gicas ı o y culturales que limitan la creaci´ n de conocimiento. Sin o embargo la “nueva” econom´a sigue obedeciendo a las viejas ı reglas y lo que se hace abundante se deval´ a. ¿D´ nde est´ u o a ahora el valor? Posiblemente en la presencia en Internet, y en la capacidad de filtrado, la agregaci´ n y la remezcla de o contenidos y servicios, as´ como en la conexi´ n intelectual y ı o emocional con los usuarios. En un mundo donde m´ s gente aporta datos y produce ina formaci´ n y conocimiento, una gran parte de estos contenidos o presentan escaso inter´ s y/o calidad. La necesidad de localizar, e combinar y posicionar los contenidos no est´ restringido a a usuarios finales, sino que es tambi´ n una necesidad empree sarial para los proveedores de contenidos, que necesitan combinar sus contenidos propios y externos para poder recuperar la inversi´ n realizada en su creaci´ n y a˜ adirles valor. o o n El proyecto Contenidos a la Carta investiga y experimenta en t´ cnicas y herramientas que faciliten la composici´ n e o de ofertas personalizadas de contenidos, en este caso noticias. Tambi´ n investiga en t´ cnicas y herramientas de posie e cionamiento de contenidos en espa˜ ol, as´ como t´ cnicas de n ı e rastreo y protecci´ n de los contenidos en espa˜ ol en la red. o n ´ El proyecto se centra en el ambito de las noticias de prensa y de la problem´ tica de un proveedor de contenidos como la a Agencia EFE, primera agencia de noticias en espa˜ ol y cuarta n agencia mundial de noticias. Para la composici´ n de contenidos, el proyecto Contenidos o a la Carta [2] investiga la aplicaci´ n del reciente est´ ndar o a CMIS (Content Management Interoperability Services) [7] para proporcionar un servicio de interoperabilidad funcional

entre los diferentes repositorios de contenidos de Agencia EFE. Mediante la aplicaci´ n de t´ cnicas sem´ nticas, permitir´ o e a a ofrecer interoperabidad sem´ ntica entre sus metadatos. El a proyecto tambi´ n investiga en la aplicaci´ n de t´ cnicas de e o e mashups de contenidos que permitan combinar y adaptar los contenidos para innovar en el proceso de composici´ n de o nuevos contenidos, mediante una interfaz gr´ fica de usuario. a Contenidos a la Carta pretende tambi´ n investigar en el e rastreo de contenidos en Internet para detectar copias. Este tema es altamente relevante para garantizar los derechos de los proveedores de contenidos. Aunque en el mercado existen productos comerciales, como Attributor, estos productos est´ n a en ingl´ s y las adaptaciones al castellano son muy pobres. e El proyecto experimenta sobre nuevos m´ todos para incree mentar la eficacia y la eficiencia de las empresas dedicadas a la creaci´ n, transformaci´ n y distribuci´ n de contenidos, o o o aumentando su competitividad y aumentando la presencia de contenidos digitales de calidad en Espa˜ ol en Internet, al n ofrecer nuevos canales de distribuci´ n de noticias innovadores o y flexibles, adaptables a los cont´nuos cambios que aparecen ı en el mundo de la gesti´ n de contenidos. o El resto del art´culo se estructura como sigue. La secci´ n II ı o describe el est´ ndar CMIS. A continuaci´ n, la secci´ n III a o o revisa el estado del arte en tecnolog´as de mashups y, en ı concreto, de la herramienta de creaci´ n de mashups MyCocko tail. Posteriormente, en la secci´ n IV se ilustra la soluci´ n o o propuesta mediante una descripci´ n de la arquitectura y un o ´ caso de uso en la secci´ n V. Por ultimo, se recogen las o conclusiones y trabajos futuros en la secci´ n VI. o ´ II. E L EST ANDAR CMIS El est´ ndar CMIS (Content Management Interoperability a Services, Servicios de Interoperabilidad de Gesti´ n de Cono tenidos) [7] ha sido impulsado por IBM, EMC y Microsoft y respaldado por Opentext, Oracle, Alfresco y SAP, y viene a resolver uno de los mayores problemas que las empresas han acusado con respecto a la gesti´ n de su informaci´ n empreo o sarial, que es la integraci´ n de repositorios de contenidos. o A trav´ s de un juego com´ n de servicios, CMIS permite e u interactuar con los diversos repositorios de gesti´ n de cono tenidos, sin importar qui´ n es el fabricante del repositorio o e ´ c´ mo este est´ implementado. o a El objetivo de este est´ ndar es permitir que las aplicaa ciones puedan trabajar con cualquier tipo de repositorio de

contenidos de manera uniforme y busca asegurar la interoperabilidad de las aplicaciones que usan m´ ltiples repositorios u de contenidos. Para resolver tales problemas, CMIS define un modelo de dominio para interactuar con repositorios ECM (Enterprise Content Management) haciendo uso de Servicios Web. Provee un gestor de contenidos para modelos de datos de dominios espec´ficos, un conjunto de servicios gen´ ricos que act´ an en ı e u ese modelo de datos y varios protocolos para acceder a esos servicios, incluyendo SOAP (Simple Object Access Protocol) y REST/Atom (Representational State Transfer) [6]. Dentro del modelo de dominio, CMIS define un modelo de datos, donde se especifican los elementos necesarios para trabajar con un gestor de contenidos, i.e. el repositorio y los objetos b´ sicos que componen un repositorio: documentos, a directorios, relaciones o la pol´tica administrativa. Adem´ s de ı a definir con el modelo de datos los elementos del repositorio con los que operar´ CMIS, tambi´ n es necesario definir en el a e modelo de dominio un conjunto de servicios gen´ ricos que e actuar´ n en ese modelo de datos. Estos servicios ofrecen las a operaciones t´picas de gesti´ n de contenidos en un reposiı o torio, tales como creaci´ n, b´ squeda, edici´ n o borrado de o u o contenidos, conexi´ n y desconexi´ n a un repositorio, etc [7]. o o Dado que el objetivo del est´ ndar es facilitar el intercambio a de informaci´ n y documentos entre entornos y repositoo rios documentales diferentes, eliminando los problemas de migraci´ n entre una plataforma y otra, y facilitando que o coexistan sistemas de diferentes fabricantes (permitiendo la federaci´ n, por ejemplo), se hace necesario definir, adem´ s o a del modelo de dominio, una serie de API’s de comunicaci´ n, o orientadas a la definici´ n de servicios Web, y un protocolo de o publicaci´ n Rest/Atom que puede ser usado por aplicaciones o para trabajar con uno o m´ s gestores de repositorios de a contenidos u otros sistemas. Los protocolos de comunicaci´ n o empleados en el est´ ndar son REST/Atom y SOAP Web a services. Para que sea posible ese intercambio de informaci´ n entre o repositorios documentales, es necesario que esos repositorios implementen el est´ ndar CMIS. Alfresco, empresa participada a por SAP, actualmente implementa esta especificaci´ n en su o ´ ultima herramienta lanzada al mercado. Alfresco es un sistema de administraci´ n de contenidos o de c´ digo abierto, que proporciona gesti´ n de documentos, o o herramientas de colaboraci´ n, gesti´ n de contenidos Web, o o adem´ s de otras muchas funcionalidades. La arquitectura de a Alfresco est´ basada en tecnolog´as de c´ digo libre tales a ı o como Spring [23], Hibernate [20], Lucene [19], modernos est´ ndares como JSR-168, JSR-170 [13], servicios Web, Java a Server Faces [21] y contribuciones de la comunidad de software libre. Alfresco incluye un repositorio de contenidos, un framework de portal web para administrar y usar contenido est´ ndar en portales, un sistema de administraci´ n de a o contenido, capacidad de virtualizar aplicaciones web y sitios est´ ticos v´a Apache Tomcat, b´ squedas v´a el motor Lucene a ı u ı y flujo de trabajo en jBPM. Alfresco est´ desarrollado en a Java [3]. ´ Alfresco Labs3 [3], la ultima versi´ n de c´ digo abierto de o o Alfresco lanzada al mercado, incorpora una serie de servicios Web basados en CMIS que cubren las funcionalidades

especificadas en dicho est´ ndar. a CMIS deber´a hacer que los ECM pudiesen relacionarse ı mediante la tecnolog´a de mashups, construyendo aplicaciones ı m´ s ricas y r´ pidas. En definitiva, se espera que CMIS se a a convierta en una revoluci´ n en la gesti´ n de contenidos o o equiparable a la que supuso SQL en el mundo de las bases de datos [14]. III. T ECNOLOG´A DE M ASHUPS I Los mashups son composiciones de contenidos y servicios obtenidos de diferentes fuentes que se presentan de manera homog´ nea ofreciendo un valor adicional respecto a los datos e presentados por separado. En la web existe un n´ mero creu ciente de mashups que se ha visto acentuado por la aparici´ n o de APIs que facilitan la tarea de la reutilizaci´ n del c´ digo o o [24]. Este aumento de los mashups junto con la tendencia cada vez mayor de la creaci´ n de contenidos por parte de los o usuarios en Internet motiva la aparici´ n de herramientas para o la f´ cil creaci´ n y edici´ n de mashups. a o o Seg´ n Gartner [10], los mashups han pasado del puesto 6 en u 2008 al puesto 5 en 2009 en el ranking de tecnolog´as emerı gentes, destacando su penetraci´ n en las Empresas. Gartner o predice que el 80% de las nuevas aplicaciones estar´ n basadas a en mashups. Actualmente, hemos identificado las siguientes tendencias en tecnolog´as de mashups. Para cada una de ı ellas est´ n surgiendo herramientas de creaci´ n y edici´ n de a o o mashups.

Mashups de Datos y Servicios – Coleccionan datos y servicios de diferentes or´genes y los mezclan en una ı una interfaz gr´ fica com´ n. Algunas herramientas para la a u creaci´ n de este tipo de mashups son: YahooPipes [17], o Popfly [9], MyCocktail [22]. Mashups de Procesos – Permiten combinar diversos procesos como alertas o env´o de correos. En la actualidad ı existen pocas herramientas para la creaci´ n de este tipo o de mashups y, a excepci´ n de OPUCE [15], la mayor´a o ı son propietarias: Serena Software [25], K2-BlackPearl [16]. Mashups de Interfaz de Servicios – Permiten la creaci´ n o de gadgets de una forma sencilla, evitando la programaci´ n y utilizando interfaces gr´ ficas usables por usuaro a ios no muy experimentados en estos entornos. Morfeo Fast [8]. Mashups de Navegador – Son aplicaciones en forma de plugin de navegadores que permiten extraer informaci´ n de p´ ginas web para ser combinada en forma o a de mashups. Permite consumir la informaci´ n de las o p´ ginas de forma personalizada, enriqueciendo la expea riencia del usuario. Debido a la novedad de este tipo de mashups las herramientas existentes son poco intuitivas y presentan muchas limitaciones. Intel Mash Maker [12], Ubiquity [26], y Piggy Bank [5] son algunos ejemplos.

A. Herramienta de Mashups MyCocktail MyCocktail [22], Romulus Mashup Builder, es una aplicaci´ n web que proporciona al usuario una interfaz gr´ fica o a para construir mashups f´ cilmente, permitiendo al usuario a

desarrollar mashups de manera m´ s r´ pida, incrementando as´ a a ı la productividad. Esta herramienta permite al usuario combinar informaci´ n o proveniente de diferentes servicios, que puede ser modificada con operadores y m´ s tarde presentada con una gran variedad a de renderizadores. Todo este proceso se lleva a cabo mediante una interfaz gr´ fica de usuario de f´ cil manejo, que permite a a combinar componentes arrastrando y soltando. El tiempo que lleva desarrollar un mashup se reduce as´ considerablemente ı y se mejora la productividad. MyCocktail permite a los dise˜ adores y programadores n usar servicios sin preocuparse de detalles de bajo nivel. Los usuarios solo tienen que manejar una serie de herramientas que se proporcionan y MyCocktail har´ las peticiones a los a diferentes servicios. MyCocktail est´ basado en Afrous [18] y proporciona tres a tipos distintos de componentes, que combinados dan lugar al mashup:

Fig. 1.

Herramienta de Construcci´ n de Mashups MyCocktail o

IV. A RQUITECTURA DE C ONTENIDOS A LA C ARTA Esta secci´ n introduce brevemente el proyecto en el que o se enmarca la investigacion, Contenidos a la Carta, as´ como ı la arquitectura propuesta para la realizaci´ n de mashups de o contenidos. La meta de este proyecto es mejorar la capacidad de ofrecer noticias personalizadas a determinados tipos de usuarios y automatizar determinados procesos relacionados con la publicaci´ n de noticias, como pueden ser la traducci´ n, la difusi´ n o o o y la protecci´ n de los contenidos relativos a la noticia. Esto o supondr´ un avance significativo en la industria de los medios a de comunicaci´ n, ya que permitir´ a estas disponer de unos o a ´ contenidos m´ s ricos y de mayor calidad, a la par que aumenta a las posibilidades de difusi´ n de sus noticias a lo largo de o la Internet. Adem´ s, la plataforma de Contenidos a la Carta a pretende conseguir que el uso de este tipo de sistemas se extienda en todas las empresas de este sector, ya que se requieren pocos conocimientos t´ cnicos para la composici´ n e o de noticias personalizadas y de gran calidad. Contenidos a la Carta es, por tanto, un proyecto orientado a la investigaci´ n de m´ todos de selecci´ n, personalizaci´ n o e o o y difusi´ n de noticias mediante la reutilizaci´ n de diversos o o contenidos multimedia alojados en sistemas de gesti´ n de o contenidos heterog´ neos a trav´ s del est´ ndar CMIS. Esto e e a ser´ posible gracias a la plataforma de Contenidos a la carta, a que proporcionar´ herramientas de tipo mashup, adaptables a a las necesidades y requerimientos de cada usuario, para integrar y componer noticias a partir de diferentes or´genes ı de informaci´ n. Para poder utilizar contenidos de sistemas de o gesti´ n de contenidos diferentes de una manera flexible, en el o marco de proyecto se tiene previsto desarrollar una capa de homogeneizaci´ n de servicios de gesti´ n de contenidos. Esta o o capa de homogeneizaci´ n ser´ posible a trav´ s del est´ ndar o a e a CMIS. La arquitectura del proyecto Contenidos a la Carta est´ a formada, por tanto, por una herramienta de Mashups y por uno o varios sistemas de gesti´ n de contenidos. De esta forma, el o usuario tendr´ ante si una plataforma donde podr´ recuperar a a contenidos de fuentes heterog´ neas a trav´ s de servicios e e basados en CMIS, podr´ trabajar con ellos formando noticias a personalizadas a trav´ s de los operadores espec´ficos para e ı noticias que se han dise˜ ado en la herramienta de mashups n y los publicar´ en diferentes formatos de representaci´ n, ya a o

Servicios. Pueden invocarse varios servicios REST por defecto, como del.icio.us, Yahoo Web Search, Google AJAX Search, Flickr, Twitter, Amazon, etc. Operadores. La informaci´ n obtenida se puede proceo sar por medio de operadores. Por ejemplo, es posible ordenar, filtrar o agrupar infromaci´ n seg´ n par´ metros. o u a Renderizadores. La informaci´ n se puede presentar de o diversas formas: HTML, diagramas estad´sticos (gr´ fico ı a de tarta o de barras), Google Maps.

Los pasos que suelen seguirse para contruir un mashup son: 1) El usuario obtiene informaci´ n de uno o varios servio cios. 2) Los datos obtenidos pueden filtrarse y procesarse usando los operadores proporcionados por la herramienta para extraer informaci´ n util para el mashup. o ´ 3) La informaci´ n resultante puede mostrarse en HTML, o en diagramas estad´sticos o en mapas usando los renı ders. 4) Se exporta el mashup en uno de los diversos formatos que ofrece MyCocktail: JavaScript, HTML, Google Gadget o Netvibes Gadget. La figura 1 ilustra el aspecto general de la herramienta de mashups. En ella se pueden observar dos partes bien diferenciadas. En la izquierda tendr´amos un ventana donde se ı listan los servicios disponibles, los operadores y los renders. En la ventana de Servicios, el usuario obtendr´a contenidos ı a trav´ s de llamadas a los servicios Web de los Sistemas de e Gesti´ n de Contenidos y la de los principales portales Web2.0 o como Flickr, Google Maps, del.icio.us, Twitter o buscadores como Google y Yahoo. Los operadores permitir´an realizar operaciones con los ı resultados obtenidos de los servicios. Con estos operadores el usuario podr´ realizar mashups de contenidos. Cabe destacar a que se incluir´ n operadores espec´ficos para noticias. Por a ı ´ ultimo los renders nos permitir´ n mostrar y publicar el resula tado en varios formatos, entre ellos HTML, Javascript o como un Gadget. La otra parte que forma la herramienta de mashups ser´ la ventana central donde se desplegaran los operadores, a renders o las llamadas a los servicios.

Fig. 2.

Arquitectura de Contenidos a la Carta

sea HTML, XML, etc. En la figura 2 podemos observar el esquema de la arquitectura general de Contenidos A la Carta. Uno de los dos elementos principales de la arquitectura de Contenidos a la Carta son los Sistemas de Gesti´ n de o Contenidos. La idea principal del proyecto es comunicar estos sistemas con la herramienta de mashups, de tal manera que podamos operar con los contenidos almacenados en los diferentes repositorios y crear nuevos contenidos mezclando algunos de ellos. Dado que el proyecto est´ enfocado a la experimentaci´ n a o en la mejora del proceso de oferta personalizada de noticias, es importante tener en cuenta que los contenidos que se manejar´ n en la herramienta de mashups y se almacenar´ n a a en los repositorios ser´ n noticias, por lo que se han querido a adaptar los modelos de tipos de contenidos de los Sistemas de Gesti´ n de Contenidos a alg´ n est´ ndar de noticias, que o u a favorezca el intercambio de noticias como NewsML. NewsML [11] es un est´ ndar desarrollado por el Intera national Press Telecommunications Council (IPTC [1]) que define un formato com´ n para el intercambio de noticias, u sin tener en cuenta el tipo de contenido multimedia en el que se presenta la noticia. Este intercambio de noticias es un m´ todo que permite no solo transmitir los contenidos e de noticias, sino adem´ s describir el contenido de manera a abstracta, mediante metadatos, con informaci´ n relativa acerca o de c´ mo manejar las noticias de una manera apropiada, as´ o ı como su empaquetado e, incluso, el tipo de transmisi´ n que o se llevar´ a cabo. a

NewsML es un lenguaje de contenedores de noticias digitales. Es decir, con NewsML no pueden crearse noticias en un formato concreto: es preciso disponer de ellas previamente en otros formatos. Su utilidad es transportar paquetes de contenidos period´sticos, sea cual sea su formato y su forma de ı difusi´ n: texto, imagen y sonido. NewsML, permite contener o m´ s de un paquete informativo (o, simplificando, m´ s de una a a noticia) en un solo documento. La estructura b´ sica de un a documento NewsML se muestra en la figura 3.

Fig. 3.

Formato NewsML

B´ sicamente: a Cada pieza est´ incluida en un elemento ContentItem. a • El conjunto de varios ContentItem (un texto, una foto, un v´deo y un gr´ fico) pueden formar parte de un ı a NewsComponent (una noticia). • Un NewsItem puede contener varias noticias, varios NewsComponent.

Un documento NewsML puede llevar adem´ s toda una serie a de metadatos que, en resumen, pueden ser de tres tipos: • Datos relativos a la transmisi´ n del documento NewsML o en conjunto: qui´ n lo env´a, a qui´ n, cual es su prioridad, e ı e la fecha de caducidad, etc. • Datos sobre el documento en cuesti´ n, o sobre partes o determinadas: por ejemplo, en cada una de las piezas que se incluye, pueden a˜ adirse elementos que describan el n tema, o los protagonistas, o las relaciones de esa pieza con otras en el mismo documento, etc. • Datos sobre c´ mo se normalizan los datos incluidos en o otros elementos de NewsML. Por ejemplo, si en un NewsItem se incluye una noticia sobre f´ tbol, se puede u incluir un elemento, o Topic, que describa tem´ ticamente a el deporte sobre el que trata la noticia. Ese elemento puede incluir un c´ digo; ser´ entonces, un elemento o a a˜ adido, o Catalog, el que indique cual es la clasificaci´ n n o o vocabulario del que forma parte el c´ digo, y d´ nde se o o encuentra la clasificaci´ n completa, en Internet. o La mayor parte de los metadatos que forman parte de NewsML pueden situarse en m´ ltiples lugares del documento, u aplicados a una sola pieza o a varias. Como puede deducirse, NewsML tiene dos caracter´sticas b´ sicas: ı a • Una estructura modular, que adem´ s permite que las a piezas est´ n situadas f´sicamente dentro del documento e ı ´ NewsML o fuera de el, unidas mediante referencias a objetos externos. • La posibilidad de realizar una descripci´ n estructural, o aunque sea solo para distinguir cada una de las piezas (pero no sus partes), y una descripci´ n sem´ ntica, o a tambi´ n de tipo general. e La herramientas de mashup permite a los usuarios la creaci´ n de aplicaciones que manejen las fuentes de datos o de manera sencilla y flexible, dando la posibilidad de aplicar un amplio conjunto de operadores que transformar´ n y coma binar´ n los contenidos. Las entradas de estos operadores, que a a partir de este momento denominaremos “pipe”, pueden ser la salida producida al procesar una o varias entradas por parte de otro operador o un servicio de datos proporcionado por la capa de interoperabilidad CMIS. Los servicios que ofrece la capa de interoperabilidad pueden ser servicios Web XML o servicios REST. A las salidas de datos, adem´ s de generar pipes, tambi´ n se les a e puede aplicar un proceso denominado renderizaci´ n de cono tenidos, que no es m´ s que aplicar un proceso que produce a una salida visualizable del contenido por alg´ n tipo de cliente u est´ ndar (Navegador Web, Navegador M´ vil). Mediante las a o operaciones de renderizaci´ n se permitir´ seleccionar el tipo o a de dispositivo sobre el que se visualizar´ el contenido. a La comunicaci´ n entre los Sistemas de Gesti´ n de Cono o tenidos y la herramienta de mashups se realizar´ mediante a peticiones por parte de la herramienta de mashups a los servicios Web de los Sistemas de Gesti´ n de Contenidos o para recuperar contenidos. La herramienta de mashups se encargar´ de buscar y recuperar contenidos en forma de a noticia, procesarlos y permitir al usuario que realice un nuevo contenido a partir de la mezcla de varios de ellos. La herramienta de mashups tiene definida como entrada ficheros JSON, que posteriormente procesa y devuelve el

resultado en diversos formatos, por lo que es necesario que las respuestas de los servicios Web de los repositorios ECM sean en formato JSON. En caso de que alguno de dichos repositorios no soporte trabajar con formatos JSON, ser´ a necesario incluir un conversor de este formato. Este es el caso de los Sistemas de Gesti´ n de Contenidos o Alfresco Labs3 utilizados en Contenidos a la Carta. En este caso, se deber´ incluir un conversor, como Apache Abdera [4], a para la traducci´ n de atom/xml (el formato utilizado por o Alfresco Labs3) a JSON. La elecci´ n de Alfresco Labs3 como o Sistema de Gesti´ n de Contenidos para Contenidos a la Carta o es debido a que es uno de los primeros gestores de contenidos de c´ digo abierto que implementa el est´ ndar CMIS. o a Dentro del proyecto, hemos identificado los siguientes operadores para la realizaci´ n de mashups de contenidos: o

Consulta. Los servicios de consulta de noticias dise˜ ados constan de un operador de b´ squeda textual n u de contenidos, un operador de consulta avanzada basada en metadatos y un operador de b´ squeda multiling¨ e, u u donde el usuario tendr´ la posibilidad de buscar noticias a en diversos idiomas. Operaciones de posicionamiento. La herramienta de mashups dispondr´ de un operador de extracci´ n de a o metadatos de la noticia y sugerencia de t´ rminos para e su posicionamiento en buscadores (SEO, Search Engine Optimization, logrando que las noticias tengan un mayor alcance y difusi´ n. Este operador permite automatizar la o tarea de catalogaci´ n y extracci´ n de palabras clave, lo o o que en el contexto de las noticias resulta fundamental ya que permite evitar demoras en la publicaci´ n de las o mismas. Rastreo y protecci´ n de contenidos. El uso de este o operador servir´ para detectar copias de las noticias, a garantizando as´ los derechos del autor de las noticias. ı Este operador utilizar´ t´ cnicas de detecci´ n de plagio a e o comparando el mayor o menor grado de coincidencia entre fragmentos de las diferentes obras seg´ n diferentes u propiedades, tales como la frecuencia de palabras, el uso de un tipo u otro de palabras o aparici´ n de erratas. o Traducci´ n de noticias. Este operador facilitar´ al o a usuario la traducci´ n de noticias, tanto del texto que la o forma como los metadatos de la noticia, lo que permitir´ a realizar b´ squedas multiling¨ es. u u Empaquetado. Una vez generado un ”pipe”, este operador empaquetar´ el conjunto de contenidos de noticias, a ya sea art´culos de texto, im´ genes, v´deo o cualquier ı a ı tipo de contenidos multimedia, en un package para su difusi´ n y exportaci´ n a NewsML. La exportaci´ n a este o o o formato de intercambio de noticias, junto a los operadores de posicionamiento y traduccion, hacen que la difusi´ n de las noticias sea mucho mayor que la obtenida o utilizando los m´ todos de publicaci´ n tradicionales. e o

´ Por ultimo, cabe destacar que la plataforma Contenidos a la carta integra un m´ dulo que permite generar aplicaciones o adaptables bajo la tecnolog´a de Mashup, tambi´ n se permite ı e a los usuarios seleccionar el formato de visualizaci´ n que se o aplicar´ a los contenidos mediante filtros de renderizaci´ n, a o esto permitir´ que los usuarios puedan visualizar los cona tenidos en distintos dispositivos. Esto quiere decir que la in-

formaci´ n del contenido se puede separar de la representaci´ n o o del contenido. V. C ASO DE USO En esta secci´ n se desea mostrar al lector un ejemplo de o aplicaci´ n y uso de Contenidos a la Carta, para que vea o las mejoras que puede ofrecer esta plataforma al proceso de creaci´ n de noticias personalizadas por parte de las agencias o de noticias. Anteriormente, cuando habl´ bamos de la arquitectura de a la plataforma se˜ alabamos que utilizar´amos el est´ ndar n ı a NewsML-G2 para modelar los diferentes tipos de contenidos que soportar´ el repositorio. Esto es as´ porque las agencias a ı de noticias hacen uso de este formato est´ ndar de intercambio a de noticias para la creaci´ n y definici´ n de contenidos. Cono o tenidos a la Carta aprovechar´ este formato de intercambio a de noticias, adem´ s de la tecnolog´a CMIS, para automatizar, a ı en la medida de lo posible, todo el proceso de creaci´ n de o ´ una noticia y centralizar dicho proceso a trav´ s de una unica e plataforma. En este ejemplo nos situaremos en el papel de un period´sta ı que desea realizar un art´culo sobre destinos tur´sticos en ı ı Italia. Para crear dicho art´culo, nuestro period´sta utilizar´ ı ı a una serie de contenidos que tiene a su disposici´ n, como son o una serie de reportajes de texto sobre distintas ciudades y algunas fotograf´as tomadas por los fotografos de la agencia. ı La secuencia de pasos que el period´sta deber´ seguir estar´ ı a a compuesta por la b´ squeda de los art´culos de texto e imau ı genes, la reuni´ n de dichos contenidos en una misma noticia o ´ y por ultimo, subirlo al repositorio de gesti´ n de contenidos, o donde la noticia, aprovechando las funcionalidades de los repositorios ECM, podr´a ser revisada por un supervisor y, ı posteriormente, apobar su publicaci´ n. Mediante la plataforma o de Contenidos A la Carta todas estas operaciones pueden ser realizadas desde un mismo interfaz, mediante el cual se podr´ a operar con los contenidos almacenados en los repositorios de contenidos, creando nuevas noticias a partir de ellos y d´ rlas a de alta en el sistema. Como hemos comentado, el primer paso del periodista ser´ a la b´ squeda, en el repositorio de la agencia, de contenidos o u noticias relacionadas con destinos tur´sticos en Italia. Esto ı queda ilustrado en la figura 4.

plataforma realizar´ una llamada al repositorio ECM, apoyana dose en el est´ ndar CMIS, buscando coincidencias entre la a palabras clave que el usuario ha introducido y los metadatos de las noticias. El repositorio de contenidos devolver´ una a lista, en formato JSON, de las noticias que contiene alg´ n u metadato relacionado con las palabras clave que el usuario ha introducido. Una vez que el periodista ha seleccionado algunos art´culos ı con los que le gustar´a construir el reportaje, podr´ utilizar el ı a servicio de empaquetado de noticias para ello. Mediante este servicio se podr´ construir, a partir de varios contenidos, una a noticia completa publicable. En la figura 5 podemos ver que el usuario podr´ indicar los metadatos del nuevo reportaje. Una a vez que el servicio se lleve a cabo, el sistema autom´ ticamente a dar´ de alta el reportaje en el repositorio donde, como hemos a dicho anteriormente, podr´ entrar en una cadena de revisi´ n a o y publicaci´ n por parte de revisores y analistas. o

Fig. 5.

Empaquetado de Noticias

Las noticias creadas mediante la plataforma de Contenidos A la Carta pueden crear r´ pidamente noticias personalizadas a ricas en contenido mediante una sola plataforma. Otra de las ventajas es que adem´ s de aprovechar los recursos propios a de la agencia, desde la misma plataforma se podr´ n acceder a a contenidos de sitios 2.0 t´picos, tales como v´deos de Youtube, ı ı fotos de Flickr, comentarios de Twitter, etc.

Fig. 6. Fig. 4. B´ squeda de Noticias u

Mashup de contenidos del repositorio y Google Maps

Mediante este servicio de B´ squeda de Noticias, la u

Como ejemplo de esta capacidad de aprovechar todas las posibilidades que ofrece Internet, en la figura 6 se muestra

c´ mo el usuario puede utilizar sus contenidos y, por ejemplo, o la API de Google Maps para realizar, mediante uno de los servicios definidos en la plataforma, un mapa interactivo con las noticias (en este caso reportajes) distribuidas por su lugar de origen. VI. C ONCLUSIONES Y T RABAJOS F UTUROS En este trabajo de investigaci´ n se ha presentado el o proyecto Contenidos a la Carta, basado en tecnolog´as de ı mashups e interoperabilidad de contenidos para la composici´ n de ofertas personalizadas de contenidos. o El trabajo ha definido la arquitectura del proyecto, formada, principalmente, por una herramienta de Mashups y por uno o varios sistemas de gesti´ n de contenidos. La tecnolog´a o ı de mashups se ha postulado como una de las tecnolog´as ı emergentes en la gesti´ n y personalizaci´ n de contenidos. Los o o operadores de contenidos para realizar mashups presentados est´ n ofreciendo resultados interesantes, y grandes posibila idades si los combinamos con otros operadores existentes. Por ejemplo, podemos filtrar noticias y mostrar estad´sticas ı gr´ ficas de autores o mostrar las noticias en un mapa seg´ n a u el lugar de la noticia. Actualmente Contenidos a la Carta se encuentra en fase de desarrollo y tiene tambi´ n la intenci´ n de lograr potenciar e o el posicionamiento de las noticias en buscadores, mediante t´ cnicas SEO (Search Engine Optimization) [27]. e AGRADECIMIENTOS Este proyecto ha sido financiado por el Ministerio de Industria, Turismo y Comercio, dentro de la convocatoria 2/2008 del subprograma Avanza I+D, como proyecto de Desarrollo Experimental (TSI-020501). R EFERENCIAS
[1] International press telecommunications council, consorcio que agrupa a las m´ s importantes agencias de noticias y empresas de comunicaci´ n, a o disponible en http://www.iptc.org/. [2] Web de contenidos a la carta. disponible en http://alacarta.germinus.com, 2008. [3] Alfresco. Alfresco labs3, un sistema gestor de contenidos de c´ digo o abierto, disponible en http://www.alfresco.com, 2008. [4] Apache. Web del proyecto apache abdera, una implementaci´ n abierta o de atom, disponible en http://abdera.apache.org/, 2009. [5] P. Bank. Piggy bank, 2009. [6] R. Cover. Content management interoperability services (cmis), informaci´ n disponible en http://xml.coverpages.org/cmis.html. Technical o report, OASIS, 2008. [7] EMC Corporation, IBM Corporation, and Microsoft Corporation. Content Management Interoperability Services, borrador del est´ ndar a disponible en http://www.alfresco.com/about/cmis/cmis-draft-v0.5.zip, 8 2008. [8] M. FAST. Morfeo fast, disponible en http://fast.morfeo-project.eu/, 2009. [9] M. P. Fly. Microsoft pop fly, disponible en http://www.popfly.com, 2009. [10] Gartner. Information technology research and advisory company, disponible en http://www.gartner.com, 2009. [11] K. Holland. IPTC Standards: EventsML-G2 version 1.1, NewsML-G2 version 2.2, SportsML-G2 version 2.0. Guide for Implementers. Technical report, IPTC Standards. International Press Telecommunications Council, 2009. [12] I. M. Maker. Intel mash maker, disponible en http://mashmaker.intel.com, 2009. [13] S. Microsystems. Jsr 170: Content repository for java technology api, disponible en http://jcp.org/en/jsr/detail?id=170, 2009. [14] J. Newton. Hacia la estandarizaci´ n ecm con cmis, o art´culo ı disponible en http://www.techweek.es/gestiondocumental/opinion/1003918003401/estandarizacion-ecm-cmis.1.html, Noviembre 2008.

[15] P. Opuce. Proyecto opuce, disponible en http://www.opuce.tid.es/, 2009. [16] K. B. Pearl. K2 black pearl, disponible en http://www.k2.com/en/displaycontent.aspx?id=903, 2009. [17] Y. Pipes. Yahoo pipes, disponible en http://pipes.yahoo.com, 2009. [18] A. Project. Afrous project web site, disponible en http://afrous.com/, 2009. [19] A. L. Project. Apache lucene project web site, disponible en http://lucene.apache.org/java/docs/, 2009. [20] H. Project. Hibernate project web site, disponible en http://www.hibernate.org/, 2009. [21] J. Project. Javaserverfaces project web site, disponible en http://java.sun.com/javaee/javaserverfaces/, 2009. [22] R. Project. Mycocktail web site, disponible en http://www.ictromulus.eu/web/mycocktail, 2009. [23] S. Project. Spring project project web site, disponible en http://www.springsource.org/, 2009. [24] SalesForce. Mashups: The what and why, 2007. [25] S. Software. Serena software, disponible en http://www.serena.com/, 2009. [26] Ubiquity. Ubiquity, disponible en http://labs.mozilla.com/projects/ubiquity/, 2009. [27] Wikipedia. Posicionamiento en buscadores, 2009.