You are on page 1of 29

Topic Proling for Social Media

Reporte de Avances del Segundo A no

Emmanuel Anguiano-Hern andez


LabTL // CCC // INAOE

23 de enero de 2013

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Contenido

Introducci on Objetivos de la Investigaci on Problema y Soluci on Propuesta Metodolog a


An alisis te orico y acotamiento del problema Desarrollo de esquema de evaluaci on An alisis experimental de casos base Desarrollo de algoritmos para obtener perles de t opicos con RBMs Adaptaci on de los algoritmos para capturar la evoluci on temporal

Cronograma Conclusiones

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Introducci on

Recuperaci on Social de Informaci on: Integra informaci on sobre los componentes y relaciones sociales en las tareas de Recuperaci on de Informaci on. Relaciones en las Redes: U U , U D , D D

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Introducci on

Modelado de T opicos: Es el proceso de descubrimiento de t opicos subyacentes en colecciones de documentos. Perl de T opico: Conjunto de caracter sticas y par ametros que permiten caracterizar un t opico determinado en una colecci on de documentos.

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Introducci on: Trabajo Relacionado

Modelado de T opicos Perles de T opicos


Latent Semantic Analysis, LSI Probabilistic Latent Semantic Analysis, PLSI Latent Dirichlet Allocation, LDA

Filtrado de Informaci on
Colaborativo Basado en Contenido M etodos H bridos

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Problema y Soluci on Propuesta

Problema: Muchos usuarios discutiendo el mismo t opico desde diversas perspectivas Los t opicos evolucionan, de modo que es necesario rastrearlos Se requiere agregar caracter sticas din amicas para capturar informaci on temporal Se requiere un esquema de evaluaci on

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Problema y Soluci on Propuesta

Soluci on Propuesta: Destilar el n ucleo informativo o perl del t opico Se propone capturar el perl de cada t opico mediante M aquinas Restringidas de Boltzmann:
Atributos latentes Efectivas para vectores binarios dispersos Pueden entrenarse incrementalmente Su arquitectura permite modicar atributos de forma din amica

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Objetivos de la Investigaci on

Desarrollar un m etodo para construir perles de t opicos en el contexto de microblogs, incorporando informaci on social y restricciones temporales
Extraer informaci on temporal que permita caracterizar t opicos espec cos a partir de contenido de microblogs, separ andola del ruido Integrar informaci on social para anular el sesgo idiosincr atico de los usuarios individuales Modelar el desarrollo din amico de los t opicos, esto es, aplicar restricciones temporales Desarrollar un esquema de evaluaci on para el m etodo propuesto

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Metodolog a

An alisis y acotamiento del problema  Desarrollo de esquema para evaluaci on  An alisis experimental de casos base  Desarrollo de Algoritmos para obtener perles mediante RBMs Adaptaci on de los algoritmos para capturar la evoluci on temporal

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

An alisis y Acotamiento del Problema

Denici on del Problema: Desarrollar un m etodo para obtener perles de t opicos en medios sociales que capture las transformaciones din amicas del t opico Soluci on Propuesta: Extraer perles de t opicos mediante RBMs din amicas Marco de Evaluaci on: Filtrado de documentos a partir de etiquetado social

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Desarrollo del Esquema para Evaluaci on

Esquema de evaluaci on indirecto: Filtrado de informaci on


Etiquetado social, Topic stream, Documentos complementarios

Divisi on del stream y dependencia temporal

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

An alisis experimental de Casos Base

Los perles fueron construidos con un algoritmo de clasicaci on para una clase (One-Class Classier ) basado en vecinos m as cercanos Se ha considerado que cada hashtag est a asociado a un evento espec co Se usaron particiones de los t opicos del conjunto Mexpol2012, los conjuntos de prueba se formaron con la partici on de evaluaci on Zh m as un conjunto de documentos aleatorios Se probaron diferentes representaciones que combinan informaci on de los mensajes del microblog y documentos vinculados

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

An alisis de Casos Base: Datos


Hashtag copeteleaks debate2012 dialogosxlapaz elecciones2012 marchayosoy132 Entrenamiento (|Xh |) 1575 5078 527 2061 2650 Evaluaci on (|Zh |) 968 4908 950 2133 2693

Cuadro: N umero de documentos en los conjuntos de entrenamiento y evaluaci on para cada hashtag.

Hashtag copeteleaks debate2012 dialogosxlapaz elecciones2012 marchayosoy132

WP 16684 19472 5985 26254 32715

HT 1461 4872 1850 1713 3381

RT 740 1556 838 758 1206

UR 680 1721 397 1172 1497

Cuadro: N umero de atributos usandos en las diferentes representaciones para cada hashtag.
Emmanuel Anguiano-Hern andez Topic Proling for Social Media

An alisis de Casos Base: Experimentos

HT. Atributos extraidos del conjunto de todos los tweets marcados con el hashtag del evento RT. Los atributos fueron extraidos de los tweets marcados con el hashtag del evento que fueron retweeteados UR. El conjunto de atributos se obtuvo de los tweets con el hashtag del evento que conten an al menos una url WP. Los atributos se obtuvieron de las p aginas web mencionadas en los tweets etiquetados con el hashtag del evento

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

An alisis de Casos Base: Resultados


Hashtag copeteleaks debate2012 dialogosxlapaz elecciones2012 marchayosoy132 WP 0.598 0.935 0.597 0.521 0.877 UR 0.177 0.545 0.218 0.119 0.283 HT 0.228 0.724 0.065 0.113 0.498 RT 0.318 0.752 0.058 0.419 0.520

Cuadro: Precisi on promedio sobre diferentes tama nos de vecindad para cada conjunto de atributos

Hashtag copeteleaks debate2012 dialogosxlapaz elecciones2012 marchayosoy132

k=1 0.192 0.628 0.092 0.232 0.455

k=3 0.389 0.568 0.179 0.143 0.616

k=5 0.369 0.830 0.301 0.186 0.534

k=7 0.364 0.836 0.322 0.400 0.558

k=9 0.337 0.833 0.280 0.504 0.559

Cuadro: Precisi on promedio de los resultados obtenidos sobre los distintos conjuntos de entrenamiento para cada tama no de vecindad del clasicador
Emmanuel Anguiano-Hern andez Topic Proling for Social Media

An alisis de Casos Base: Conclusiones

El esquema de evaluaci on propuesto permite comparar modelos de t opicos en una tarea objetiva bajo la suposici on de que la informaci on socialmente etiquetada es conable. Las representaciones basadas en las caracter sticas de uso de los microblogs no fueron efectivas aunque permiten reducir la dimensionalidad considerablemente. El mejor perl fue construido u nicamente con los atributos de los documentos y alcanz o una precisi on de 0,935. Los t opicos con m as ejemplos permitieron construir un mejor perl debido a que el clasicador est a basado en la densidad local del conjunto de entrenamiento.

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Desarrollo de Algoritmos para Obtener Perles con RBMs

M aquinas Restringidas de Boltzmann, RBMs Divergencia Contrastiva Perles Est aticos Perles Din amicos: Restricciones Temporales

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Algortimos Preeliminares: RBMs

M aquinas Restringidas de Boltzmann


E ( v , h) =
i v

ai vi
j h

bj hj
i ,j

vi hj wij

p ( v , h) =

1 E (v,h) e Z = Z

e E (v,h)
v ,h

1 p (v) = Z

e E (v,h)
h

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Algoritmos Preeliminares: Divergencia Contrastiva, CD

Modicar la funci on de energ a para tener las propiedades deseadas CD Aproxima el gradiente de la funci on de energ a Divergencia Contrastiva
log p (v) = vi hj wij wij = ( vi hj
data

vi hj

model

data

vi hj

model )

p (hj = 1|v) = (bj + p (vi = 1|h) = (ai + wij = ( vi hj


data

vi wij ) hj wij )
recon )

vi hj

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Algoritmos Preeliminares: Entrenamiento de RBMs

Entrenamiento de Modelos Est aticos X - Documentos de entrenamiento V - N umero de unidades visibles H - N umero de unidades ocultas Inicializar pesos de matriz W Para cada x en X:
Actualizar los pesos de W usando Contrastive Divergence

Evaluar el modelo y comprobar condici on de paro


Emmanuel Anguiano-Hern andez Topic Proling for Social Media

Algoritmos Preeliminares: RBMT

Figura: M aquina Restringida de Boltzmann con unidad y pesos temporales

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Algoritmos Preeliminares: RBMT


Entrenamiento de Modelos Din amicos X - Documentos de entrenamiento V - Dimensionalidad inicial del espacio de representaci on H - N umero de unidades ocultas Inicializar pesos de matriz W Para cada x en X:
Actualizar los pesos de W usando Contrastive Divergence
Vericar si hay nuevos t erminos relevantes Si los hay, agregar las unidades correspondientes a la red y los pesos aW Actualizar los valores de las funciones de decaida Si alguno est a por debajo del umbral, remover las unidades correspondientes Actualizar los pesos de W usando Contrastive Divergence

Evaluar modelo nal y vericar condici on de paro

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Resultados Preeliminares: RBMs como Extractores de Atributos

Hashtag elecciones2012 marchayosoy132 copeteleaks dialogosxlapaz

WP100 0.764 0.734 0.209 0.493

WP200 0.852 0.554 0.376 0.473

WP300 0.848 0.527 0.318 0.465

HT100 0.881 0.892 Na Na

HT200 0.819 0.834 Na Na

HT300 0.817 0.862 Na Na

Cuadro: Precisi on con diferente n umeros de unidades ocultas y RBMs est aticas como extractores de atributos latentes

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Actividades a Realizar

Implementaci on, anaci on y an alisis experimental del m etodo para construir perles de t opicos mediante RBMs
Determinar el n umero de unidades ocultas Puede mejorarse el entrenamiento? Clasicador basado en una red de RBMs

Adaptaci on del algoritmo para modelar la evoluci on temporal de los t opicos:


Umbral de activaci on Funci on de decaida An alisis y evaluaci on

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Cronograma
Actividades realizadas:

Revisi on bibliogr aca (90 %) Adquisici on y ltrado del corpus (100 %) Desarrollo de un marco de evaluaci on (100 %) Experimentos para casos base (100 %) Redacci on y env o del primero de tres art culos programados (enviado y en revisi on)
Actividades en proceso:

Desarrollo de experimentos con el m etodo propuesto (RBMs) (50 %, marzo 2013) Publicaci on de un art culo en revista, segundo programado (30 %, abril-mayo 2013) Redacci on del documento de tesis (20 %, enero 2014)
Actividades a realizar:

Desarrollo del algoritmo para t opicos din amicos (mediados de 2013) Redacci on y publicaci on del tercer art culo (nales de 2013) Correcci on del documento de tesis (nales de 2013, principio de 2014) Defensa de tesis (primer semestre de 2014)
Emmanuel Anguiano-Hern andez Topic Proling for Social Media

Conclusiones

Se redenieron el problema de investigaci on, objetivos y metodolog a en funci on de las direcci on planteada y las sugerencias del c omite. Se ha propuesto un esquema para evaluar los modelos producidos con el m etodo propuesto a partir de etiquetado social en microblogs. Se realizaron y analizaron experimentalmente los casos base. Se han desarrollado algoritmos preeliminares para el m etodo propuesto, los experimentos se encuentran en desarrollo y se realizar a un proceso de an alisis y anaci on experimental. La adaptaci on del m etodo para capturar informaci on cambiante en el tiempo a un est a en fase inicial. Un an alisis experimental y un proceso de anaci on de par ametros es necesario para determinar las caracter sticas del m etodo nal. A partir de lo experimentos realizados se ha enviado un art culo que se encuentra en revisi on. Un segun art culo para revista est a en preparaci on y se publicar a al menos unos m as con los resultados de la adaptaci on del m etodo din amico.

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Fin.

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

Extra: Resultados Casos Base


Hashtag copeteleaks debate2012 dialogosxlapaz elecciones2012 marchayosoy132 WP 0.573 0.327 0.282 0.113 0.390 UR 0.149 0.200 0.151 0.081 0.126 HT 0.157 0.190 0.084 0.083 0.176 RT 0.273 0.234 0.076 0.297 0.200

Cuadro: Promedio sobre diferentes tama nos de vecindad de la medida F1 para cada conjunto de atributos

Hashtag copeteleaks debate2012 dialogosxlapaz elecciones2012 marchayosoy132

WP 0.564 0.202 0.209 0.089 0.253

UR 0.161 0.130 0.158 0.095 0.093

HT 0.135 0.119 0.120 0.094 0.120

RT 0.213 0.147 0.110 0.272 0.144

Cuadro: Recuerdo promedio sobre diferentes tama nos de vecindad para cada conjunto de atributos
Emmanuel Anguiano-Hern andez Topic Proling for Social Media

Resultados Preeliminares: RBMs como Extractores de Atributos

Hashtag elecciones2012 marchayosoy132 copeteleaks dialogosxlapaz

WP100 0.981 0.953 0.849 0.737

WP200 0.902 0.847 0.688 0.682

WP300 0.986 0.848 0.693 0.655

HT100 0.982 0.959 Na Na

HT200 0.982 0.970 Na Na

HT300 0.980 0.953 Na Na

Cuadro: Recuerdo con diferente n umeros de unidades ocultas y RBMs est aticas como extractores de atributos latentes

Emmanuel Anguiano-Hern andez

Topic Proling for Social Media

You might also like