GETWEETS : FERRAMENTA PARA EXTRAÇÃO DE POSTAGENS NO TWITTER

GETWEETS: FERRAMENTA PARA EXTRAÇÃO DE POSTAGENS NO TWITTER

Cleyton Vanut Cordeiro de Magalhães1, Ronnie Edson de Souza Santos2 e Jorge da Silva Correia Neto3

Introdução
Recentemente, as redes sociais virtuais obtiveram grande notoriedade devido à popularização de sites que se encaixam neste conceito, como o Orkut, Facebook, e Twitter. A proliferação das mídias sociais proporciona um cenário caracterizado pela potencialização da circulação de informação, provendo assim, um ambiente para organização e compartilhamento de conhecimento. Estes ambientes conquistaram ao longo dos últimos anos um espaço fiel na vida das pessoas, atendendo aos mais diferenciados assuntos e gostos. Os diversos tipos de mídias sociais fornecem uma oportunidade para conhecer as preferências, avaliações, sentimentos e opiniões de um grande número de usuários sobre conteúdos, produtos, serviços, entidades e até pessoas [1]. Dessa forma, pode-se destacar o interesse de muitas empresas em recorrer às redes sociais em busca de bases de informação relevantes que as auxiliem no processo de tomada de decisão. Assim, estas empresas investem na construção de data warehouses que buscam organizar os dados corporativos da melhor maneira, fornecendo informações aos gerentes e diretores para decisões de nível tático-estratégicas [2]. Neste cenário em que as mídias sociais vêm sendo utilizadas de forma cada vez mais estratégica, as organizações capazes de obter um alto grau de engajamento nestas mídias são consideradas como inovadoras e focadas em seu público alvo [3]. Assim, estas empresas tem voltado seu interesse para estas redes. Dentre as aplicações de microblogging, o Twitter é um dos mais utilizados, com aproximadamente 200 milhões de usuários no mundo, mais de 65 milhões no Brasil [4], e as empresas buscam utilizar este serviço para obter o máximo de informações que possam ser relevantes na otimização de seus serviços. Desta forma, com a grande quantidade de informação disponível nas redes sociais, o processo de extração vem sendo amplamente utilizadas em diversas áreas, incluindo ciências sociais, comportamentais, economia e marketing [5]. Entretanto, apesar da disponibilidade destas informações, o processo de encontrá-las e extraí-las ainda encontra-se defasado, sendo realizado muitas vezes de forma manual. O Twitter, apesar de ser uma das redes mais utilizadas, é uma das redes em que extrair informações

ainda é bastante complicado, pelo fato de seu conteúdo ser bastante dinâmico, pois é atualizado constantemente por seus usuários, tornando assim, as informações bastante voláteis. Assim, com o intuito de aprimorar o processo de extração de informações em mídias sociais, especificamente no Twitter, este artigo descreve uma ferramenta, o Getweets, desenvolvida pelos autores, capaz de extrair e armazenar informações contidas nesta rede para uso posterior em diversas situações.

Material e métodos
Esta pesquisa foi realizada baseando-se em uma abordagem de caráter exploratório-descritivo utilizando um estudo de caso. O estudo exploratório é definido como uma pesquisa que tem por objetivo proporcionar maior familiaridade com um problema, a fim de tornálo mais explícito, principalmente ao tratar-se de um tema pouco investigado ou que não tenha sido abordado anteriormente [6]. O estudo de caso é uma inquirição empírica que investiga um fenômeno contemporâneo, quando a fronteira entre o fenômeno e o contexto não é claramente evidente e onde múltiplas fontes de evidência são utilizadas [7]. Para o desenvolvimento da aplicação, foi utilizada a linguagem de programação Java e a biblioteca Twitter4J, que possibilita a integração da linguagem com o Twitter, encapsulando as funcionalidades do Twitter e fornecendo-as através da sua API, a qual permite escrever códigos apenas em Java, sem a necessidade de tratar solicitações e respostas do Twitter. Além disso, a API conta com o suporte OAuth, que se trata de um protocolo de autenticação que possibilita que os dados de determinada conta possam sem acessados sem necessidade de informar senha, facilitando assim, o desenvolvimento de aplicações [8]. Para a realização do estudo, a ferramenta desenvolvida foi utilizada para extração e armazenamento dos dados de três perfis de empresas de comércio eletrônico cadastradas no Twitter. Os tweets (mensagens postadas no Twitter) enviados por usuários que citavam alguma das três empresas foram salvos pela aplicação, para que posteriormente pudessem ser analisadas através de uma ferramenta de data warehouse, visando fazer uma análise sobre a reputação destas empresas na mídia social Twitter. A

________________ 1, 2 Graduando do Curso de Sistemas de Informação da Universidade Federal Rural de Pernambuco - UFRPE, Unidade Acadêmica de Serra Talhada – UAST. E-mail: (cleyton.vanut , ronnie.gd) @gmail.com 3 Professor Assistente da Unidade Acadêmica de Educação a Distância e Tecnologia. Universidade Federal Rural de Pernambuco (UFRPE), Recife. E-mail: jorgecorreianeto@gmail.com

mesma pesquisa foi realizada manualmente, salvando os tweets que citavam as empresas através do mecanismo de busca oferecido pela própria rede social utilizando como palavra-chave o nickname da empresa, como por exemplo: “@nomedaempresa”.

Resultados
Esta pesquisa resultou em uma ferramenta capaz de extrair os tweets de determinado perfil do Twitter e armazená-los em um banco de dados relacional. Assim, através desta aplicação foram salvas as mensagens que citavam o perfil de alguma das três empresas de comércio eletrônico no Twitter, visando a posterior análise da reputação das empresas através de uma ferramenta de data warehouse. A aplicação desenvolvida dispõe de uma interface gráfica simples composta de duas abas: uma para cadastro dos perfis do que se deseja obter nas mensagens, e uma para visualização das postagens dos perfis cadastrados. A aba de cadastro (figura 1) permite que as mensagens de determinado perfil sejam descarregadas através da função “descarregar”, também presente nesta aba. Para realizar o cadastro do perfil é necessário utilizar um “@” antes do nickname do usuário. Nesta aba também é possível visualizar dados referentes à conta cadastrada, como número de seguidores, bem como o número de perfis que está seguindo. Dados como o nickname, nome e descrição do perfil também podem ser visualizados. A aba de visualização (figura 2) possibilita que o usuário visualize postagens que estão circulando na rede em tempo real e também permite que todos os dados armazenados no banco sejam apresentados na tela. Assim, esta ferramenta foi utilizada em um estudo de caso para o processo de extração e armazenagem das postagens que citavam três perfis de empresas de comércio eletrônico. Os dados adquiridos através da aplicação foram comparados com os resultados de uma busca realizada manualmente no mecanismo oferecido pela própria rede (figura 3).

que apesar do grande número de benefícios, possui em determinadas situações, acesso limitado aos dados. A ferramenta desenvolvida cumpre com o propósito definido no sentido de obtenção e armazenamento das postagens, o que é um ponto importante, devido ao dinamismo presente no Twitter, que pode acarretar na indisponibilidade dos dados após determinado tempo. Sendo assim, a ferramenta desenvolvida possui como vantagem a velocidade para extração dos dados, porém, em alguns casos perde em número de postagens salvas para a abordagem de extração manual. Outra vantagem da ferramenta é o fato desta extrair além dos tweets, outros dados referentes aos perfis, como descrição, número de seguidores, número de perfis que a conta está seguindo, entre outros. Além disso, o processo de visualização de postagens que ainda não foram salvas no banco de dados, utilizando a ferramenta é bem mais rápido do que utilizando um navegador web, pelo fato da ferramenta extrair apenas dados textuais, evitando assim o carregamento de imagens e outros dados que possam vir a atrasar o processo. Pretende-se como trabalho futuro, implementar um mecanismo que possibilite que a ferramenta seja capaz de realizar extrações programadas em intervalos de tempo determinados pelo usuário, visando evitar a perda de postagens, otimizando assim o processo.

Referências
[1] CHEN, H; ZIMBRA, D. AI and Opinion Mining. IEEE Computer Society. 2010. LILLIE, R.D. 1965. Histopathologic Technic and Practical Histochemistry. New York, McGrawHill Book Company. 751p. SALES, F. S.; SILVA, J. D. D. F&D OLAP: Uma Ferramenta OLAP web com Gerenciamento de Metadados em xml. Universidade Católica do Salvador, 2007. ROSA, R; RUSSEL, R. O Desafio das Organizações nas Redes Sociais: Um olhar no Twitter da Natura, da Vivo e do Submarino. V ABRAPCORP: Redes Sociais, Comunicação, Organização. São Paulo, 2011. G1. Usuários do Twitter enviam 200 milhões de tuites por dia. Acesso em 17 set. 2011. Disponível em: http://g1.globo.com/tecnologia/noticia/2011/07/usuarios-doTwitter-enviam-200-milhoes-de-tuites-por-dia.html. Wasserman, S. e Faust, K. (1994) “Social network analysis: methods and applications”, vol. 8 of Structural analysis in the social sciences. Cambridge Univ. Press, Cambridge. LUCIANO, E. M.; TESTA M. G.; ROHDE L. R. Gestão de Serviços de Tecnologia da Informação: Identificando a Percepção de Benefícios e Dificuldades para a sua Adoção. Anais do XXI EnANPAD, Anais... Rio de Janeiro, RJ. 2007. YIN, Robert K.. Case Study Research - Design and Methods. Sage Publications Inc., USA, 1989. Twitter4J. A Java API for Twitter library. Disponível em http://twitter4j.org/en/index.html. Acesso em 14 set. 2011.

[2]

[3]

[4]

Discussão
O resultado da utilização da ferramenta se mostrou superior à extração manual dos dados realizada através da busca site. O tempo para realização da extração dos dados na ferramenta é bem menor, tornando assim, o processo de extração mais eficaz. Como dificuldades encontradas no desenvolvimento podem ser citadas as restrições da biblioteca Twitter4J,

[5]

[6]

[7] [8]

Figura 1. Tela de cadastro da aplicação.

Figura 2.

Tela de visualização da aplicação.

Figura 3. Exemplo de busca realizada pelo mecanismo de busca oferecido pelo Twitter.

Sign up to vote on this title
UsefulNot useful