You are on page 1of 21

Identicacin de comunidades mediante anlisis

de tpicos en Twitter
M.Sc. Ing. Wherner Pedro Cruz Cari
Magister en Estadistica
Magister en Prep. y Eval. de Proyectos
cruz.industrial@gmail.com
Co-Autores
Dr. Ing. Rodrigo Salas
Dr. Carlos F. Henrquez
24 de octubre de 2012
1 / 21
ICOMATT

contenido
1 Introduccin
2 Estado del arte
3
Propuesta Metodolgica
4 Implementacin de la propuesta metodolgica
5
Resultados
6
Conclusiones, recomendaciones y futuros trabajos
7 Bibliografa
2 / 21
ICOMATT

Introduccin
1. Introduccin
1.1 Antecedentes
Redes Sociales
Anlisis de datos en redes sociales (Social Network Data)
www.twitter.com www.facebook.com www.linkedin.com
3 / 21
ICOMATT

Introduccin
1. Introduccin
1.2 Planteamiento del Problema
Ser posible identicar y agrupar actores sociales con similares temas de
inters, en base al anlisis de mensajes de texto, provenientes de la red
social twitter?
1.3 objetivos
Objetivo General:
Identicar grupos de actores sociales vinculados mediante tpicos de
inters comn basado en los mensajes de la red social Twitter.
Objetivos Especicos:
Recolectar mensajes de texto publicados en la red social Twitter.
Realizar un proceso de administracin de datos.
Aplicar un modelo probabilstico de clasicacin de tpicos
latentes.
Aplicar un mtodo de agrupacin entre usuarios y tpicos latentes
que permtan descubrir comunidades.
Visualizar las comunidades y tpicos latentes.
4 / 21
ICOMATT

Estado del arte


2. Estado del arte
2.1 Anlisis de Redes Sociales
Propiedades:
Pequeo mundo: El dimetro de una red social es pequeo
en comparacin con el nmero de nodos
Heterogenea: Existe una fraccin signicativa de nodos
altamente conectados (Distribucin de cola pesada).
Clusterizadas: Se nota la presencia de grupos con elevada
densidad de conecciones
G = f (, ) (1)
2.2 Anlisis del contenido de documentos
Planteamiento de un modelo probabilistico que permte
descubrir la estructura subyacente en base a la semantica
de una coleccin de documentos.
Unigram (Nigam et al, 2000)
LSI (Hofmann et al, 2001)
LDA (Blei et al, 2003)
Labeled-LDA (Ramage, 2009)
Distribucin de palabras por tpico: P(w, z) =
z
Distribucin de tpicos por documento: P(z) =
d
Asignacin Palabra-Tpico-Documento.
2.3 Identicacin de comunidades
Cluster que presenta una elevada densidad de vnculos
dentro de un grupo y reducida densidad de vnculos en el
entorno del grupo.
Particin de grafos
Modelacin de bloques o cluster jerrquico
5 / 21
ICOMATT

Propuesta Metodolgica
3. Propuesta metodologica
3.1 KDD: Integracin de tcnologas para descubrir conocimiento
Proceso de descubrir conocimiento til a partir de los datos (De Martino et al, 2002)
Etapas:
1
Denicin resultados esperados
MAPIC
2
Recopilacin de datos
3
Seleccin, limpieza y
transformacin
Administracin de datos en Stata
4
Identicacin de tpicos latentes
Labeled-LDA (tmt 0.4)
5
Identicacin de comunidades
Cluster en base a modularidad
(Gephi)
6 / 21
ICOMATT

Propuesta Metodolgica
3.2 Planicacin de la investigacin con MAPIC
Plataforma de trabajo para disear un plan de investigacin. (Villarroel, 2005)
Cuadro: Matriz de Planicacin en Investigacin Cientca - MAPIC
ETAPA RESULTADOS ESPERADOS UNIDAD DE VARIABLES
OBSERVACION
Recoleccin Los usuarios de Twitter escriben Mensajes de texto Id de mensaje
de mensajes que contienen agrupados en un corpus fecha y hora
datos datos de relevancia lugar de origen
Nombre de usuario
Idioma
Texto
Seguidores
Amigos
Administracin El procesamiento adecuado Mensajes de texto Id de mensaje
de de datos permite identicar agrupados en una Nombre de usuario
datos y clasicar las variables base de datos links
user mentions
hashtag
texto
palabras/mensaje
caracteres/palabra
Modelacin Las variables clasicadas Texto y hashtags Vocabulario
de desde los mensajes texto permiten frecuencia de palabras
Tpicos seleccionar tpicos latentes frecuencia de mensajes
en base a la distribucin frecuencia de hashtags
de palabras. Tpicos latentes
Identicacin de Los usuarios de Twitter estn Usuarios de Twitter Nombre de usuario
Cluster de agrupados en torno a tpicos Mensajes de Texto Tpicos latentes
usuarios y Tpicos latentes de mayor relevancia y hashtags Modularidad
7 / 21
ICOMATT

Propuesta Metodolgica
3.3 Administracin de Datos con Stata
La Administracin de Datos (AD): Proceso integral que su aplicacin se recomienda en cualquier
estudio, trabajo o investigacin que tenga asociada una base de datos (Henrquez C., 2011)
Identicacin de Variables
Limpieza de datos (Programacin de Operaciones)
Resumen: Parseo de palabras
Utolink: Permite limpiar y fragmentar mensajes de texto
Limpiar: Permite identicar y limpiar smbolos o caracteres extraos
Transformacin de variables
Anlisis Descriptivo
Describe: Permite realizar un resumen descriptivo de mensajes de texto
8 / 21
ICOMATT

Propuesta Metodolgica
3.4 Anlisis de tpicos con el modelo LABELED-LDA
Modelo probabilstico que describe un proceso de generacin de documentos etiquetados mediante
asignaciones latentes basadas en la distribucin Dirichlet (Ramage&Hall, 2009)
Etapas:
Distribucin de palabras para las etiquetas
(Hashtags)
Z = W + (2)

k
(
k,1
,
k,2
...
k,V
)
T
Dir(./)
Distribucin de etiquetas para los documentos
(Mensajes)
Y = Z + (3)

(d)
= (
l
1
,
l
2
...
l
M
d
)
T
Dir(./
(d)
)

(d)
= L
(d)
= (

(d)
1
, ...

(d)
M
d
)
T
L
d
ij
=
_
1 si
d
i
= j
0 en otro caso

(d)
k
{0, 1} Bernoulli(./
k
)
Para cada posicin de palabra i/i 1, ..N en el
mensaje d.
z
d,i
Multinomial(./
(d)
) (4)
w
d,i
Multinomial(./
z
d,i
) (5)
9 / 21
ICOMATT

Propuesta Metodolgica
3.5 Identicacin de comunidades en base a la
modularidad
Modularidad: Indice de bondad de la estructura de una red o grafo diseado para medir la fuerza de
divisin de una red en mdulos (Newman&Girvan, 2002)
(C) =
# enlaces internos de C
# enlaces inter cluster de C
A
i,j
=
_

_
z
1
z
2
. . . z
k
d
1
1 0 . . . 0
d
2
0 1 . . . 0
d
3
0 0 1 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
d
N
0 1 0 1
_

_
Q =
1
4m

ij
_
A
ij

k
i
k
j
2m
_
(s
i
s
j
+1) (6)
Q =
_

_
_
in
+k
i,in
2m

_ _
tot
+k
i
2m
_
2
_

_
_
in
2m

_ _
tot
2m
_
2

_
k
i
2m
_
2
_

_
(7)
_
in
=
_
n
c
i=1
k
in
: Suma de los pesos de los links de entrada C.
_
tot
=
_
n
c
i=1
k
in
+
_
n
c
i=1
k
ex
: es la suma de los pesos de los
links incidententes dentro el nodo C.
k
in
: Suma de los pesos de los links incidentes al nodo i.
k
i,in
: Suma de los pesos de los links desde i al nodo en C.
m : Suma de de los pesos de todos los links en la red.
10 / 21
ICOMATT

Propuesta Metodolgica
Anlisis Exploratorio de la Red
EDA: Anlisis Exploratorio de Datos Aproximacin para realizar un resumen de un
conjunto de datos, mediante grcos visuales sin necesidad de utilizar modelo
estadstico alguno o haber formulado previamente una hipotesis. (Tukey et al, 1998)
Gephi: Herramienta para el anlisis exploratorio de grafos.
Algoritmos que generan la forma de los grafos (Distancias).
Indicadores estdisticos para el anlisis de redes sociales
Anlisis dinmico de redes
11 / 21
ICOMATT

Implementacin de la propuesta metodolgica


4. Implementacin de la propuesta metodolgica
4.1 Recoleccin de datos
Tamao de Muestra: 171.991 Tweets (1 % del total)
Localizacin geogrca: Chile
Tiempo: 6 das (20 al 26 de Julio, 2011)
Mtodo: APIs de Twitter, programacin Python
4.2 Administracin de datos
Identicacin de datos y variables
Variable Tipo Descripcin
id cualitativa Identicador de mensaje de texto
ID cualitativa Identicador de usuario
Seguidores cuantitativa Nmero de seguidores
Amigos cuantitativa Nmero de amigos
fecha cualitativa Fecha y hora de publicacin
usuario cualitativa Nombre de usuarios twitter
idioma cualitativa Idioma del usuarios
mensaje cualitativa Conjunto de caracteres
Limpieza de datos
Transformacin de variables
Anlisis descriptivo
12 / 21
ICOMATT

Implementacin de la propuesta metodolgica


4.3 Anlisis de Tpicos
1. Palabras por tpico
Palabra
muerte 23
aos 18
muri 13
cantante 11
gran 10
pena 8
haya 7
alcohol 6
creo 5
verdad 4
menos 3
cada 2
personas 1
2. Tpicos por documento
Tpico
amywinehouse 793
ca2011 781
fb 780
eso 650
losarchivosdelcardenal 477
askdeminow 425
paroescondida 388
ff 362
teconquistaria 336
chile 309
latingirl 308
enlamira 283
ideasparagrondona 254
3. Asignaciones de documentos a tpicos
13 / 21
ICOMATT

Implementacin de la propuesta metodolgica


4.4 Identicacin y caracterizacin de la red
Tpicos
Nodos: 202
1641 Nodos y 2143 Enlaces
Usuarios
Nodos: 1439
14 / 21
ICOMATT

Implementacin de la propuesta metodolgica


4.4 Identicacin y caracterizacin de la red
Exploracin de la red generada en base a mensajes de texto
Grado de distribucin: 1-119
Grado medio de distribucin: 1.3
Dimetro ms alejado: 14
Distancia media: 4.87
15 / 21
ICOMATT

Resultados
5. Resultados
5.1 Identicacin de comunidades
Cantidad de comunidades: 38
Indice de Modularidad: 0.725
16 / 21
ICOMATT

Resultados
5.2 Descripcin de las principales comunidades
Clasicacin Comunidad N

de Usuarios N

de Tpicos Principales Tpicos


1 24 ca2011
1 24 105 8 paraguay
1 24 canalstream
2 27 paroescondida
2 27 101 10 copachile
2 27 tvxeducacin
3 33 enlamira
3 33 87 8 uruguay
3 33 venezuela
4 21 fb
4 21 83 6 chaugrondona
4 21 nomepierdovioleta
5 32 amywinehouse
5 32 75 8 primerplano
5 32 tvn
6 30 losarchivosdelcardenal
6 30 73 5 Kidrauhl
6 30 iquique
17 / 21
ICOMATT

Conclusiones, recomendaciones y futuros trabajos


6. Conclusiones, recomendaciones y futuros trabajos
Recoleccin de Datos: Capacidad de los equipos de computacin y servidores
(Cantidad de datos).
Recoleccin de Datos: Reduccin de la contaminacin y ltracin.
Administracin de Datos: Seleccin de variables por idioma (Ingles, Espaol,
Portugues, etc.).
Administracin de Datos: Anlisis de palabras con menos de 3 caracteres
(Stopwords).
Modelamiento de Tpicos: Adopcin de la distribucin Dirichlet (Estadstica clsica
vs Estadstica Bayesiana).
Identicacin de Comunidades: Comparacin de eciencia con modelos de cluster
jerrquico.
Identicacin de Comunidades: Indicadores cuantitativos para cada una de las
comunidades.
El problema del anlisis de datos en redes sociales an esta en su infancia;
existe una tremenda cantidad de trabajos para ser aceptados, particularmente en
el area basado en contenido y redes sociales temporales (Charu, 2011).
18 / 21
ICOMATT

Conclusiones, recomendaciones y futuros trabajos


Principales Resultados
Cruz W., Salas R., Henrquez C., et al (2011); Aplicacin de la Tcnica Labeled-LDA
para la modelacin de tpicos de la red social Twitter en el area de Chile, II
Workshop de Estudios avanzados en modelos de regression: mtodos de
diagnostico y teora asinttica. Via del Mar, Chile.
Cruz W., Salas R., Henrquez C., et al (2012); Identicacin de Comunidades
Mediante Anlisis de Tpicos en la Red Social Twitter, CLAPEM: Congreso
Latinoamericano de Probabilidad y Estadstica Matemtica. Via del Mar, Chile.
Cruz W., Salas R., Henrquez C., et al (2012); Identicacin de Comunidades
Mediante Anlisis de Tpicos en Twitter, CLATSE: Congreso Latinoamericano de
Sociedades de Estadstica. Cordoba, Argentina.
19 / 21
ICOMATT

Conclusiones, recomendaciones y futuros trabajos


Principal Aporte al ARS
www.amazon.com
www.morebooks.de
20 / 21
ICOMATT

Bibliografa
Bibliografa
Charu C. Aggarwal (2011); Social Network Data Analitics; Springer
Scott J. (2011); Social network analysis: developments, advances, and prospects; Springer-Verlag 2010
Hong L., Dan Brian O., Davison D. (2011); Predicting Popular Messages in Twitter; WWW 2011, March 28
April, 2011, Hyderabad, India.
Ramage D., Dumais S., Liebling D. (2010); Characterizing Microblogs with Topic Models; Association for
the Advancement of Articial Intelligence (www.aaai.org).
Fortunato S. (2010); Community detection in Graphs; El Sevier, Physics Reports 486 (2010) 75174
Zeng. J. Cheung, W. K.-W, Hung Li C., Liu (2009); Multirelational topic models; In ICDM (2009) 10701075
Blei D., Jon D. McAullife (2010); Supervised Topic Models. Statistical Science is a peer review journal
published by the Institute of Mathematical Statistics., http://www.imstat.org
Agresti A. (2010); Analysis of Ordinal Categorical Data; John Wiley, Second Edition.
Ramage D., Hall D. (2009); Labeled LDA: A supervised topic model for credit attribution in multi-labeled
corpora Conference on Empirical Methods in Natural Language Processing. pages 248-256, Singapore.
Satuluri V., Parthasarathy S.(2009); Scalable Graph Clustering Using Stochastic Flows: Applications to
Community Discovery; J., KDD 2009, June 28 to July 1, 2009, Paris, France.
Zhou D., Manavoglu E., J.Li, C. Lee, H. Zha (2006); Probabilistic Models for Discovering ECommunities;
International World Wide Web Conference WWW, May 2326, 2006; Edinburgh, Scotland.
21 / 21
ICOMATT

You might also like