Professional Documents
Culture Documents
de tpicos en Twitter
M.Sc. Ing. Wherner Pedro Cruz Cari
Magister en Estadistica
Magister en Prep. y Eval. de Proyectos
cruz.industrial@gmail.com
Co-Autores
Dr. Ing. Rodrigo Salas
Dr. Carlos F. Henrquez
24 de octubre de 2012
1 / 21
ICOMATT
contenido
1 Introduccin
2 Estado del arte
3
Propuesta Metodolgica
4 Implementacin de la propuesta metodolgica
5
Resultados
6
Conclusiones, recomendaciones y futuros trabajos
7 Bibliografa
2 / 21
ICOMATT
Introduccin
1. Introduccin
1.1 Antecedentes
Redes Sociales
Anlisis de datos en redes sociales (Social Network Data)
www.twitter.com www.facebook.com www.linkedin.com
3 / 21
ICOMATT
Introduccin
1. Introduccin
1.2 Planteamiento del Problema
Ser posible identicar y agrupar actores sociales con similares temas de
inters, en base al anlisis de mensajes de texto, provenientes de la red
social twitter?
1.3 objetivos
Objetivo General:
Identicar grupos de actores sociales vinculados mediante tpicos de
inters comn basado en los mensajes de la red social Twitter.
Objetivos Especicos:
Recolectar mensajes de texto publicados en la red social Twitter.
Realizar un proceso de administracin de datos.
Aplicar un modelo probabilstico de clasicacin de tpicos
latentes.
Aplicar un mtodo de agrupacin entre usuarios y tpicos latentes
que permtan descubrir comunidades.
Visualizar las comunidades y tpicos latentes.
4 / 21
ICOMATT
Propuesta Metodolgica
3. Propuesta metodologica
3.1 KDD: Integracin de tcnologas para descubrir conocimiento
Proceso de descubrir conocimiento til a partir de los datos (De Martino et al, 2002)
Etapas:
1
Denicin resultados esperados
MAPIC
2
Recopilacin de datos
3
Seleccin, limpieza y
transformacin
Administracin de datos en Stata
4
Identicacin de tpicos latentes
Labeled-LDA (tmt 0.4)
5
Identicacin de comunidades
Cluster en base a modularidad
(Gephi)
6 / 21
ICOMATT
Propuesta Metodolgica
3.2 Planicacin de la investigacin con MAPIC
Plataforma de trabajo para disear un plan de investigacin. (Villarroel, 2005)
Cuadro: Matriz de Planicacin en Investigacin Cientca - MAPIC
ETAPA RESULTADOS ESPERADOS UNIDAD DE VARIABLES
OBSERVACION
Recoleccin Los usuarios de Twitter escriben Mensajes de texto Id de mensaje
de mensajes que contienen agrupados en un corpus fecha y hora
datos datos de relevancia lugar de origen
Nombre de usuario
Idioma
Texto
Seguidores
Amigos
Administracin El procesamiento adecuado Mensajes de texto Id de mensaje
de de datos permite identicar agrupados en una Nombre de usuario
datos y clasicar las variables base de datos links
user mentions
hashtag
texto
palabras/mensaje
caracteres/palabra
Modelacin Las variables clasicadas Texto y hashtags Vocabulario
de desde los mensajes texto permiten frecuencia de palabras
Tpicos seleccionar tpicos latentes frecuencia de mensajes
en base a la distribucin frecuencia de hashtags
de palabras. Tpicos latentes
Identicacin de Los usuarios de Twitter estn Usuarios de Twitter Nombre de usuario
Cluster de agrupados en torno a tpicos Mensajes de Texto Tpicos latentes
usuarios y Tpicos latentes de mayor relevancia y hashtags Modularidad
7 / 21
ICOMATT
Propuesta Metodolgica
3.3 Administracin de Datos con Stata
La Administracin de Datos (AD): Proceso integral que su aplicacin se recomienda en cualquier
estudio, trabajo o investigacin que tenga asociada una base de datos (Henrquez C., 2011)
Identicacin de Variables
Limpieza de datos (Programacin de Operaciones)
Resumen: Parseo de palabras
Utolink: Permite limpiar y fragmentar mensajes de texto
Limpiar: Permite identicar y limpiar smbolos o caracteres extraos
Transformacin de variables
Anlisis Descriptivo
Describe: Permite realizar un resumen descriptivo de mensajes de texto
8 / 21
ICOMATT
Propuesta Metodolgica
3.4 Anlisis de tpicos con el modelo LABELED-LDA
Modelo probabilstico que describe un proceso de generacin de documentos etiquetados mediante
asignaciones latentes basadas en la distribucin Dirichlet (Ramage&Hall, 2009)
Etapas:
Distribucin de palabras para las etiquetas
(Hashtags)
Z = W + (2)
k
(
k,1
,
k,2
...
k,V
)
T
Dir(./)
Distribucin de etiquetas para los documentos
(Mensajes)
Y = Z + (3)
(d)
= (
l
1
,
l
2
...
l
M
d
)
T
Dir(./
(d)
)
(d)
= L
(d)
= (
(d)
1
, ...
(d)
M
d
)
T
L
d
ij
=
_
1 si
d
i
= j
0 en otro caso
(d)
k
{0, 1} Bernoulli(./
k
)
Para cada posicin de palabra i/i 1, ..N en el
mensaje d.
z
d,i
Multinomial(./
(d)
) (4)
w
d,i
Multinomial(./
z
d,i
) (5)
9 / 21
ICOMATT
Propuesta Metodolgica
3.5 Identicacin de comunidades en base a la
modularidad
Modularidad: Indice de bondad de la estructura de una red o grafo diseado para medir la fuerza de
divisin de una red en mdulos (Newman&Girvan, 2002)
(C) =
# enlaces internos de C
# enlaces inter cluster de C
A
i,j
=
_
_
z
1
z
2
. . . z
k
d
1
1 0 . . . 0
d
2
0 1 . . . 0
d
3
0 0 1 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
d
N
0 1 0 1
_
_
Q =
1
4m
ij
_
A
ij
k
i
k
j
2m
_
(s
i
s
j
+1) (6)
Q =
_
_
_
in
+k
i,in
2m
_ _
tot
+k
i
2m
_
2
_
_
_
in
2m
_ _
tot
2m
_
2
_
k
i
2m
_
2
_
_
(7)
_
in
=
_
n
c
i=1
k
in
: Suma de los pesos de los links de entrada C.
_
tot
=
_
n
c
i=1
k
in
+
_
n
c
i=1
k
ex
: es la suma de los pesos de los
links incidententes dentro el nodo C.
k
in
: Suma de los pesos de los links incidentes al nodo i.
k
i,in
: Suma de los pesos de los links desde i al nodo en C.
m : Suma de de los pesos de todos los links en la red.
10 / 21
ICOMATT
Propuesta Metodolgica
Anlisis Exploratorio de la Red
EDA: Anlisis Exploratorio de Datos Aproximacin para realizar un resumen de un
conjunto de datos, mediante grcos visuales sin necesidad de utilizar modelo
estadstico alguno o haber formulado previamente una hipotesis. (Tukey et al, 1998)
Gephi: Herramienta para el anlisis exploratorio de grafos.
Algoritmos que generan la forma de los grafos (Distancias).
Indicadores estdisticos para el anlisis de redes sociales
Anlisis dinmico de redes
11 / 21
ICOMATT
Resultados
5. Resultados
5.1 Identicacin de comunidades
Cantidad de comunidades: 38
Indice de Modularidad: 0.725
16 / 21
ICOMATT
Resultados
5.2 Descripcin de las principales comunidades
Clasicacin Comunidad N
de Usuarios N
Bibliografa
Bibliografa
Charu C. Aggarwal (2011); Social Network Data Analitics; Springer
Scott J. (2011); Social network analysis: developments, advances, and prospects; Springer-Verlag 2010
Hong L., Dan Brian O., Davison D. (2011); Predicting Popular Messages in Twitter; WWW 2011, March 28
April, 2011, Hyderabad, India.
Ramage D., Dumais S., Liebling D. (2010); Characterizing Microblogs with Topic Models; Association for
the Advancement of Articial Intelligence (www.aaai.org).
Fortunato S. (2010); Community detection in Graphs; El Sevier, Physics Reports 486 (2010) 75174
Zeng. J. Cheung, W. K.-W, Hung Li C., Liu (2009); Multirelational topic models; In ICDM (2009) 10701075
Blei D., Jon D. McAullife (2010); Supervised Topic Models. Statistical Science is a peer review journal
published by the Institute of Mathematical Statistics., http://www.imstat.org
Agresti A. (2010); Analysis of Ordinal Categorical Data; John Wiley, Second Edition.
Ramage D., Hall D. (2009); Labeled LDA: A supervised topic model for credit attribution in multi-labeled
corpora Conference on Empirical Methods in Natural Language Processing. pages 248-256, Singapore.
Satuluri V., Parthasarathy S.(2009); Scalable Graph Clustering Using Stochastic Flows: Applications to
Community Discovery; J., KDD 2009, June 28 to July 1, 2009, Paris, France.
Zhou D., Manavoglu E., J.Li, C. Lee, H. Zha (2006); Probabilistic Models for Discovering ECommunities;
International World Wide Web Conference WWW, May 2326, 2006; Edinburgh, Scotland.
21 / 21
ICOMATT