Professional Documents
Culture Documents
23 de enero de 2013
Contenido
Cronograma Conclusiones
Introducci on
Recuperaci on Social de Informaci on: Integra informaci on sobre los componentes y relaciones sociales en las tareas de Recuperaci on de Informaci on. Relaciones en las Redes: U U , U D , D D
Introducci on
Modelado de T opicos: Es el proceso de descubrimiento de t opicos subyacentes en colecciones de documentos. Perl de T opico: Conjunto de caracter sticas y par ametros que permiten caracterizar un t opico determinado en una colecci on de documentos.
Filtrado de Informaci on
Colaborativo Basado en Contenido M etodos H bridos
Problema: Muchos usuarios discutiendo el mismo t opico desde diversas perspectivas Los t opicos evolucionan, de modo que es necesario rastrearlos Se requiere agregar caracter sticas din amicas para capturar informaci on temporal Se requiere un esquema de evaluaci on
Soluci on Propuesta: Destilar el n ucleo informativo o perl del t opico Se propone capturar el perl de cada t opico mediante M aquinas Restringidas de Boltzmann:
Atributos latentes Efectivas para vectores binarios dispersos Pueden entrenarse incrementalmente Su arquitectura permite modicar atributos de forma din amica
Objetivos de la Investigaci on
Desarrollar un m etodo para construir perles de t opicos en el contexto de microblogs, incorporando informaci on social y restricciones temporales
Extraer informaci on temporal que permita caracterizar t opicos espec cos a partir de contenido de microblogs, separ andola del ruido Integrar informaci on social para anular el sesgo idiosincr atico de los usuarios individuales Modelar el desarrollo din amico de los t opicos, esto es, aplicar restricciones temporales Desarrollar un esquema de evaluaci on para el m etodo propuesto
Metodolog a
An alisis y acotamiento del problema Desarrollo de esquema para evaluaci on An alisis experimental de casos base Desarrollo de Algoritmos para obtener perles mediante RBMs Adaptaci on de los algoritmos para capturar la evoluci on temporal
Denici on del Problema: Desarrollar un m etodo para obtener perles de t opicos en medios sociales que capture las transformaciones din amicas del t opico Soluci on Propuesta: Extraer perles de t opicos mediante RBMs din amicas Marco de Evaluaci on: Filtrado de documentos a partir de etiquetado social
Los perles fueron construidos con un algoritmo de clasicaci on para una clase (One-Class Classier ) basado en vecinos m as cercanos Se ha considerado que cada hashtag est a asociado a un evento espec co Se usaron particiones de los t opicos del conjunto Mexpol2012, los conjuntos de prueba se formaron con la partici on de evaluaci on Zh m as un conjunto de documentos aleatorios Se probaron diferentes representaciones que combinan informaci on de los mensajes del microblog y documentos vinculados
Cuadro: N umero de documentos en los conjuntos de entrenamiento y evaluaci on para cada hashtag.
Cuadro: N umero de atributos usandos en las diferentes representaciones para cada hashtag.
Emmanuel Anguiano-Hern andez Topic Proling for Social Media
HT. Atributos extraidos del conjunto de todos los tweets marcados con el hashtag del evento RT. Los atributos fueron extraidos de los tweets marcados con el hashtag del evento que fueron retweeteados UR. El conjunto de atributos se obtuvo de los tweets con el hashtag del evento que conten an al menos una url WP. Los atributos se obtuvieron de las p aginas web mencionadas en los tweets etiquetados con el hashtag del evento
Cuadro: Precisi on promedio sobre diferentes tama nos de vecindad para cada conjunto de atributos
Cuadro: Precisi on promedio de los resultados obtenidos sobre los distintos conjuntos de entrenamiento para cada tama no de vecindad del clasicador
Emmanuel Anguiano-Hern andez Topic Proling for Social Media
El esquema de evaluaci on propuesto permite comparar modelos de t opicos en una tarea objetiva bajo la suposici on de que la informaci on socialmente etiquetada es conable. Las representaciones basadas en las caracter sticas de uso de los microblogs no fueron efectivas aunque permiten reducir la dimensionalidad considerablemente. El mejor perl fue construido u nicamente con los atributos de los documentos y alcanz o una precisi on de 0,935. Los t opicos con m as ejemplos permitieron construir un mejor perl debido a que el clasicador est a basado en la densidad local del conjunto de entrenamiento.
M aquinas Restringidas de Boltzmann, RBMs Divergencia Contrastiva Perles Est aticos Perles Din amicos: Restricciones Temporales
ai vi
j h
bj hj
i ,j
vi hj wij
p ( v , h) =
1 E (v,h) e Z = Z
e E (v,h)
v ,h
1 p (v) = Z
e E (v,h)
h
Modicar la funci on de energ a para tener las propiedades deseadas CD Aproxima el gradiente de la funci on de energ a Divergencia Contrastiva
log p (v) = vi hj wij wij = ( vi hj
data
vi hj
model
data
vi hj
model )
vi wij ) hj wij )
recon )
vi hj
Entrenamiento de Modelos Est aticos X - Documentos de entrenamiento V - N umero de unidades visibles H - N umero de unidades ocultas Inicializar pesos de matriz W Para cada x en X:
Actualizar los pesos de W usando Contrastive Divergence
Cuadro: Precisi on con diferente n umeros de unidades ocultas y RBMs est aticas como extractores de atributos latentes
Actividades a Realizar
Implementaci on, anaci on y an alisis experimental del m etodo para construir perles de t opicos mediante RBMs
Determinar el n umero de unidades ocultas Puede mejorarse el entrenamiento? Clasicador basado en una red de RBMs
Cronograma
Actividades realizadas:
Revisi on bibliogr aca (90 %) Adquisici on y ltrado del corpus (100 %) Desarrollo de un marco de evaluaci on (100 %) Experimentos para casos base (100 %) Redacci on y env o del primero de tres art culos programados (enviado y en revisi on)
Actividades en proceso:
Desarrollo de experimentos con el m etodo propuesto (RBMs) (50 %, marzo 2013) Publicaci on de un art culo en revista, segundo programado (30 %, abril-mayo 2013) Redacci on del documento de tesis (20 %, enero 2014)
Actividades a realizar:
Desarrollo del algoritmo para t opicos din amicos (mediados de 2013) Redacci on y publicaci on del tercer art culo (nales de 2013) Correcci on del documento de tesis (nales de 2013, principio de 2014) Defensa de tesis (primer semestre de 2014)
Emmanuel Anguiano-Hern andez Topic Proling for Social Media
Conclusiones
Se redenieron el problema de investigaci on, objetivos y metodolog a en funci on de las direcci on planteada y las sugerencias del c omite. Se ha propuesto un esquema para evaluar los modelos producidos con el m etodo propuesto a partir de etiquetado social en microblogs. Se realizaron y analizaron experimentalmente los casos base. Se han desarrollado algoritmos preeliminares para el m etodo propuesto, los experimentos se encuentran en desarrollo y se realizar a un proceso de an alisis y anaci on experimental. La adaptaci on del m etodo para capturar informaci on cambiante en el tiempo a un est a en fase inicial. Un an alisis experimental y un proceso de anaci on de par ametros es necesario para determinar las caracter sticas del m etodo nal. A partir de lo experimentos realizados se ha enviado un art culo que se encuentra en revisi on. Un segun art culo para revista est a en preparaci on y se publicar a al menos unos m as con los resultados de la adaptaci on del m etodo din amico.
Fin.
Cuadro: Promedio sobre diferentes tama nos de vecindad de la medida F1 para cada conjunto de atributos
Cuadro: Recuerdo promedio sobre diferentes tama nos de vecindad para cada conjunto de atributos
Emmanuel Anguiano-Hern andez Topic Proling for Social Media
Cuadro: Recuerdo con diferente n umeros de unidades ocultas y RBMs est aticas como extractores de atributos latentes