Professional Documents
Culture Documents
AdrianaAlvesRodrigues Tese
AdrianaAlvesRodrigues Tese
UFPB/BC
5
6
Agradecimentos
A escritura de uma tese carrega uma gama de coautorias e actantes que vai
se costurando, entre teorias e emoções. Nunca é um voo solo. Ao mesmo
tempo, uma teia de amor e segurança foi se formatando, costurando-se em
distintas camadas que foram determinantes na concretização desta tese. Sou
profundamente grata à:
Aos meus pais, Marcílio Rodrigues e Vera Lúcia Alves Rodrigues, por terem
lançado os pilares educativos desde os primeiros passos até aqui. Desde a
graduação e até agora na torcida sempre. Amo muito vocês!
Aos meus irmãos Rodrigo, Rosana e Andrea Alves por todo apoio e
motivações ao longo da minha jornada acadêmica, e à minha sobrinha
Millena Vasconcelos, pela torcida sempre fervorosa. Eu não seria NADA sem
vocês!
Ao meu segundo filho, Dante Milanni (in memoriam) que em sua breve
estadia conosco, engradeceu nossas almas de amor, nos fez ver o outro lado
da vida, fez de nós as nossas melhores versões. Nosso anjo protetor,
obrigada por ter sido essa luz divina. Obrigada por ter sido mãe novamente.
Obrigada por nos escolher. Fica bem, meu filho! Nós te amaremos sempre.
Até o nosso reencontro cheio de amor e luz!
Aos demais amigos que a CI me deu: Giselle Arantes, André Luiz, Renata
Lemos, Mariana Cantisani, Herbert Rêgo, Polliana Marys, um agradecimento
especial a Márcia Saeger, pela simpatia e divisão das angústias e
descobertas, Wendia Bandeira e Thaís Catoira, pela divisão das angústias na
reta final.
10
Por fim, agradeço à cidade de João Pessoa (PB) que me acolheu durante os
estudos do doutorado.
Resumo
Investiga o impacto da Visualização de Dados e seus desdobramentos no
contexto da Data Science e da Ciência da Informação. A tese defende a
existência de narrativas disruptivas de Visualização de Dados guiadas por
dados nos laboratórios de inovação e constitui-se em um processo de
reconfiguração emergente para novos formatos como foi em sua origem com
a "explosão informacional" na década de 1940. Como metodologia, a
pesquisa tem caráter quali-quantitativa, constituindo em estudo de caso a
partir do objeto empírico do Laboratório de Estudos sobre Imagem e
Cibercultura (LABIC). Além disso, utilizou-se de abordagem etnográfica
baseada em observação não-participante e entrevistas semiestruturada de
práticas de laboratório de inovação guiado por dados visando a estruturação
de Visualização de Dados, monitoramento destas produções, somando à
pesquisa bibliográfica que perpassa referencial teórico interdisciplinar sobre
Ciência da Informação, Design da Informação, Big Data, Ciência de Dados e
Visualização de Dados, Teoria da Inovação Disruptiva. Como resultado, a
investigação identificou, no estudo de caso analisado, que práticas inovadoras
podem construir narrativas disruptivas de Visualização guiadas por Dados a
partir da exploração de grandes volumes de dados (Big Data) em contexto da
Ciência de Dados.
Abstract
It investigates the impact of data visualization and Big Data and its unfolding in the
context of Data Science and Information Science. The thesis defends the
existence of disruptive narratives of data-guided visualization in innovation
laboratories and is an emerging reconfiguration process for new formats as it was
in its origin with the "information explosion" in the 1940s. As a methodology, the
research is qualitative and quantitative, constituting a case study based on the
empirical object of the Laboratory of Image and Cyberculture Studies (LABIC). In
addition, we used an ethnographic approach based on non-participant observation
and semi-structured interviews of laboratory practices of data-guided innovation
aiming at the structuring of Data Visualization, monitoring of these productions,
adding to the bibliographic research that permeates an interdisciplinary theoretical
reference on Science Information Technology, Information Design, Big Data, Data
Science and Data Visualization, Theory of Disruptive Innovation. As a result,
research has identified in the case study that innovative practices can construct
disruptive narratives of Data-Driven Visualization from the exploitation of large
data volumes (Big Data) in the context of Data Science.
lista
de figuras
Figura 1 - Estrutura da tese........................................................................... 36
Figura 2 - Diagrama de Venn desenvolvido por Conway.............................. 56
Figura 3 - Modelo de Ciclo de Vida dos dados desenvolvido pelo DataONE 70
Figura 4 - Modelo de Ciclo de Vida de dados na Ciência da Informação...... 72
Figura 5 - Ilustração “Mão de Guido”, em 1274............................................. 101
Figura 6 - O horóscopo Universal da Companhia de Jesus, em 1646.......... 101
Figura 7 - Calendários Medievais de 1496…………………………………….. 102
Figura 8 - O mapa mais antigo do mundo feito na Babilônia………………… 103
Figura 9 - Diagrama de fusos horários de 1862............................................ 103
Figura 10 - Diagrama de Florence Nightingale, de 1858................................. 104
Figura 11 - Diversos mapas por Francis A. Walker, de 1874.......................... 105
Figura 12 - Mapa metereológico de 1845........................................................ 106
Figura 13 - O homem Vitruviano de Leonardo da Vinci................................... 107
Figura 14 - Mapa da Cólera feito pelo médico John Snow, em 1854.............. 108
Figura 15 - Dataviz do The New York Times, em 2008................................... 114
Figura 16 - Monitor da Violência do portal G1 mapeia casos nacionais.......... 118
Figura 17 - Layout do site do Labic.................................................................. 145
Figura 18 - Laboratório do Labic na UFES...................................................... 147
Figura 19 - Processo de coleta de dados estruturados no dataset................. 152
Figura 20 - Dados exportados para o Gephi.................................................... 153
Figura 21 - Resultado final da visualização de grafos..................................... 153
Figura 22 - Exemplos de dados brutos............................................................ 157
Figura 23 - Exemplo da etapa 2 de evidenciar o dado.................................... 158
Figura 24 - Modelo de Script da visualização.................................................. 159
Figura 25 - Conjunto de imagens coletadas na Copa do Mundo da Rússia... 163
Figura 26 - Visualização das imagens capturadas pelo Labic......................... 170
Figura 27 - Interface Gráfica do Hash.............................................................. 179
Figura 28 - Coleta de imagens na Copa e Linha do tempo............................. 183
Figura 29 - Visualização de dados das imagens coletadas pelo software
do Labic......................................................................................... 183
Figura 30 - Equipe multidisciplinar e processos narrativos com dados........... 213
Figura 31 - Nuvem de tag resumo dos resultados da tese.............................. 214
14
lista
de gráficos
lista
de tabelas
lista
de quadros
lista
de abreviações e siglas
CI Ciência da Informação
CAPES Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
UFPB Universidade Federal da Paraíba
DATAVIZ Visualização de Dados
ENANCIB Encontro Nacional de Pesquisas em Ciência da Informação
UFES Universidade Federal do Espírito Santo
TDIC Tecnologias Digitais da Comunicação e Informação
OAIS Open Achival Information System
NSB Nacional Science Board [dos Estados Unidos]
IBM International Business Machines
5V Volume, Velocidade, Variedade, Veracidade e Valor
LAB Laboratório
LABIC Laboratório de Estudos sobre Imagem e Cibercultura
18
Sumário
4 VISUALIZAÇÃO DE DADOS........................................................ 95
4.1 Fundamentos teóricos................................................................... 96
4.2 Principais marcos históricos da Visualização de Dados............... 100
4.2.1 Renovação da Visualização de Dados (1950 a 1975).................. 111
4.2.2 Visualização de Dados dinâmicos (1975 a...)............................... 112
4.3 Heurísticas da Dataviz................................................................... 118
19
REFERÊNCIAS............................................................................. 235
APÊNDICES.................................................................................. 247
ANEXOS....................................................................................... 255
20
1
No original: “"Big Data—large pools of data that can be captured, communicated, aggregated, stored,
and analyzed—is now part of every sector and function of the global economy ”.
24
2
Na literatura, os conceitos de Visualização de Dados e visualização de informações aparecem como
sinônimos. Entretanto, utilizaremos como conceito central o de Visualização de Dados por ser mais
corrente e consolidado na relação com o Big Data e bases de dados e na literatura sobre o tema
conferindo mais precisão ao nosso objeto.
3
No original: “Data science is a philosophy, a collection of methods and a suite of analytics that
focuses on data storage, transport, and cleaning procedures in addition to visualization tools”.
25
(PORTO; ZIVIANI, 2014; DHAR, 2013), de modo que os cientistas de dados têm
formação em áreas distintas e utilizam métodos automatizados para recolher, extrair
e analisar enormes quantidades de dados em um processo dinâmico e complexo
com o intuito de transformá-los em visualização. E, nesta intervenção, consideramos
as implicações para a Ciência da Informação e os desdobramentos possíveis em
termos de situação-problema e de potencializações.
As pesquisas com esse tema na CI mantém focos bem distintos como refletir
a Visualização de dados para facilitar a compreensão das informações (DIAS, 2007);
segurança da informação (GRÉGIO et al, 2009); entendimento e interpretação em
contextos educacionais (LEMOS et al, 2017); auxílio para a recuperação da
informação VIEIRA; CORREA, 2011; VIEIRA; PINHO, 2015; BARBOSA; KOBASHI,
2017); como memória dinâmica no ciberespaço (RODRIGUES; FREIRE; DIAS,
2017); apoio à gestão estratégica da informação (OLIVEIRA; WILDNER; PRETTO,
2018), gestão de projetos (BARBOSA; FRANÇA; RODRIGUES; PARREIRAS,
2018). Tais pesquisas demonstram os esforços em analisar as contribuições da
Visualização de Dados para a CI sob variadas perspectivas, o que pode contribuir
para a ampliação das pesquisas científicas e temáticas estudadas na area. Em
contrapartida, a CI pode se beneficiar dos estudos da Visualização como modo de
fortalecimento de diálogos interdisciplinares e contributos a sua consolidação em
abordar temáticas diferenciadas.
Outras pesquisas e estudos teóricos enquadram o nosso objeto com o
potencial de contar histórias com dados (SEGEL; HEER, 2010; HULLMAN;
DIAKOPOULOS, 2011; FIGUEIRAS, 2013; KOSARA; MACKINLAY, 2013; KNAFLIC,
2015). Nesta conjectura, as Visualizações de dados ganham evidências e conduzem
para novas camadas de compreensão, ao utilizar cada vez mais dados em variados
níveis de complexidade, aprofundamento, cruzamento dos dados com o intuito de
dar conta da mensagem que se deseja transmitir por meio da modelagem e das
etapas de construção em laboratórios de inovação. Nesse processo, surgem o que
definimos de narrativas disruptivas a partir da contribuição da Teoria da Inovação
Disruptiva, de Christensen (2006), que é o processo em que um produto ou serviço
tem uma grande ascensão e, por conta disso, posiciona-se na dianteira, e também
utilizamos as conceituações de Storytelling with Data de Knaflic (2015), em que a
autora aponta as características de composição das mesmas. Não se trata, portanto,
de algo pronto, acabado, mas de um processo em desenvolvimento, de
26
forma central para a Visualização de Dados na sua concepção teórica para dados e
no aspecto operacional do processamento destes no Big Data e o delineamento de
narrativas complexas e disruptivas em ambientes digitais (FEW, 2012; CAIRO, 2012;
LIMA, 2011, TUFTE, 2001).
Considerando essas facetas, trabalharemos com um referencial teórico
interdisciplinar visando aprofundar e compreender o objeto, a exemplo de autores
sobre as temáticas da Ciência da Informação (PINHEIRO, 1999; RIBEIRO, 2012;
BARRETO, 2012; HEUVEL; RAYWARD, 2011; HEUVEL, 2011; SARACEVIC, 1996),
de Visualização de Dados (KOSARA, 2012; NAKANO, 2012; FEW, 2012; CAIRO,
2012; LIMA, 2011; FRIENDLY, 2006; TUFTE, 2001;), Big Data e Ciência de Dados
(LANEY, 2001; BOYD; CRAWFORD, 2010; BARLOW, 2013; MAYER-
SCHONBERGER; CUKIER, 2013; BORGMAM, 2015; FRICKÉ, 2015) e Teoria da
Inovação Disruptiva (CHRISTENSEN, 1997). A partir desse contexto explorado,
partimos para a definição do problema de pesquisa e suas variáveis em torno da
Visualização de Dados no delineamento a partir do Big Data e Ciência de Dados.
enriquecimento às estruturas gráficas. Para fins desta tese, não focaremos nosso
objeto especificamente para os dispositivos móveis, dentro outros. No contexto
inicial, essa área nascia atrelada às informações científicas e de saúde (CHEN,
2006) com a necessidade de um tratamento específico através da infografia e da
cartografia. Não obstante, esse campo evoluiu para outras perspectivas de
exploração com sua característica de hibridismo como uma das extensões que pode
ser abordada sob à ótica da Ciência da Informação, conforme alerta Ribeiro (2012)
ao tratar da relação visualização de informação como uma questão de aproximação
para o alfabetismo gráfico.
Na conjuntura em análise temos os dados abertos (open data) e científicos
como reflexo da perspectiva da ciência guiada por dados (FRICKÉ, 2013), que opera
novos engajamentos através do fenômeno do Data Explosion (ZHU; ZHONG;
XIONG, 2009). Portanto, há uma lacuna de pesquisas e de problematizações acerca
desse fenômeno científico em andamento e, consequentemente, merece ser
investigado na perspectiva metodológica e teórico-conceitual da Ciência da
Informação. Sendo assim, percebemos o vigor do conceito da Visualização de
Dados como central e operacional para a compreensão do fenômeno dos grandes
volumes de dados na Ciência da Informação centrado na cultura do Big Data
(BARLOW, 2013) e do seu impacto tecnológico, cultural e social. Logo, há uma
abrangência das apropriações e usos do Big Data na Economia, Comunicação,
Administração, Ciência da Informação, Medicina e áreas correlatas que lidam com
grandes volumes de dados. Uma destas ramificações está sendo potencialmente
praticada nos laboratórios vinculados a Universidades, cujos trabalhos com dados
massivos têm se manifestado como produções inovadoras nesta temática.
O Big Data reinvindica uma abordagem inovadora para lidar com os dados
científicos. Logo, tratamos a questão por meio do conceito de inovação disruptiva
como pertinente para problematizar o horizonte das produções em Visualização de
Dados na perspectiva de novo paradigma que representa o Big Data, tendo em vista
tratar-se de um contexto ou de uma tecnologia disruptiva. O aporte teórico-
conceitual acerca da Teoria da Inovação Disruptiva (CHISTENSEN, 1997) nos ajuda
a adentrar essas novas fronteiras relacionadas às narrativas disruptivas da
Visualização de Dados científicos. Baseado nos estudos de inovação tecnológica,
30
4
Nesta obra, com perspectiva na área de administração, o autor articulou os estudos de teoria básica
da tecnologia com um arcabouço teórico da inovação disruptiva a partir de como o processo ocorre.
Para ele, tecnologias disruptivas são tecnologias que fornecem valores diferentes das tecnologias
tradicionais e são inicialmente inferiores a tecnologias tradicionais ao longo das dimensões do
desempenho que são mais importantes para integrar clientes. Ele introduz os aspectos pertinentes
para compreensão da lógica do desempenho dos processos e produtos ao longo do tempo, traçando
as trajetórias deste desempenho do produto fornecidas por empresas e exigidas pelos clientes para
diferentes tecnologias e segmentos de mercado, e mostra que as interrupções de tecnologia ocorrer
quando essas trajetórias se cruzam.
31
5
O termo cyberinfrastructure está enraizado principalmente em iniciativas baseadas no Reino
Estados e ficou gravemente lançado como uma ideia e fonte de financiamento pelo National Science
Foundation (NSF), em 2003, no que se tornou conhecido como o Relatório Atkins (2003), intitulado ''
Revolucionando Ciência e Engenharia Através Cyberinfrastructure. (JANKOWSKI, 2007).
6
No original: “ robust network of people, artifacts and instituitions that generate, share and mantain
specific knowledge about the human and natural words”
32
1.2 Hipóteses
1.3 Objetivos
1.4 Motivação
7
Disponível em: http://www.bci.ufscar.br/news/3o-encontro-internacional-de-dados-tecnologia-e-
informacao acesso em: 14 maio 2019.
8
Disponível em: http://www.ufpb.br/widat acesso em: 15 maio 2019.
36
9
No original: “(1) “an item of information; a datum; a set of data”; (2) “related items of (chiefly
numerical) information considered collectively, typically obtained by scientific work and used for
reference, analysis, or calculation”; also (3) “quantities, characters, or symbols on which operations
are performed by a computer, considered collectively. Also (in non-technical contexts): information in
digital form.”
41
10
Open Knowledge, antes conhecida como Open Knowledge Foundation (OKF), é uma organização
.
sem fins lucrativos que promove conhecimento livre. Foi fundada em maio de 2004, em Cambridge.
Disponível em: https://en.wikipedia.org/wiki/Open_Knowledge_International Acesso em: 8 ago. 2016.
11
Ver Referência ROSENBERG, D. (2013)
12
No original: “Facts are ontological, the evidence is epistemological, the data is rhetorical. A datum
can also be a fact, just as a fact can be evidence ... [The] existence of a given has been independent
of any consideration of corresponding ontological truth. When a fact is proven false, it ceases to be a
fact. However, false data is given.”
13
Disponível em: https://archive.org/details/experimentsobser01prie Acesso em: 30 fev. 2017.
42
14
No original: “Facts that can be analyzed or used in an effort to gain knowledge or make decisions;
information. 2. Statistics or other information represented in a form suitable for processing by
computer.
15
No original: “The word data is the plural of Latin datum, "something given." In English, most notably
in scientific usage, this plural usage is still common, as in this example: "Eventually, his data suggest,
a tumor's ... alterations give rise to mutant cells" (Janet Raloff). But data is also standard in denoting a
singular mass entity (like information), especially in writing for a more general audience: "Before data
is transmitted in bulk around the internet, it is routinely compressed to reduce redundancy" (Richard
Dawkins).
43
16
No original: “each datum or a collection must contain the same kind of information”.
44
17
No original: “Data: A reinterpretable representation of information in a formalized manner suitable
for communication, interpretation, or processing. Examples of data include a sequence of bits, a table
of numbers, the characters on a page, the recording of sounds made by a person speaking, or a moon
rock specimen”
17
Reference Model for an Open Archival Information System
18
Um arquivo, consistindo de uma organização de pessoas e sistemas, que aceitou a
responsabilidade de preservar informações e disponibilizá-las para uma Comunidade Designada.
(Fonte: Wikipedia English).
46
19
No original: “Os dados não são objetos naturais puros ou com uma essência própria. Eles existem
em um contexto, tendo um significado que de contexto e formar a perspectiva do observador”
20
Fundação Nacional de Pesquisas Científicas com sede nos EUA.
48
21
No original: “These data collections may establish standards for these community, wether by
adoption or by developing new standards”
49
22
Disponível em: http://www.intercom.org.br/sis/eventos/2017/resumos/R12-0235-1.pdf Acesso em: 3
out. 2017.
50
23
Essas três linhas de pesquisa são prospecções dos autores para os potenciais da Ciência de
Dados. Logo, gerência de dados, análise de dados e análise de redes complexas orbitariam em torno
de Ciência de Dados com ramificações para diversas áreas como geociências, biodiversidade,
business intelligence, internet/web, astronomia, esportes, ciências climáticas e outras áreas com
condições de exploração de dados.
51
O termo aparece pela primeira vez descrito por Peter Naur, um informático
dinamarquês, em 1974, ao publicar um livro sobre métodos computacionais e
processamento de dados. Essa informação aparece em A Very Short History of Data
Science, de Press (2013). A partir desta publicação, a terminologia começou a ser
usada livremente nas pesquisas de Naur, na qual define como “a ciência que lida
com dados, a partir do momento que estabelecidos, considerando a relação dos
dados com o que eles representam estão delegados para outros campos e
ciências24 (PRESS, 2013, online, tradução nossa). Antes da popularização do termo
na comunidade científica, John W. Tukey, matemático americano, escreve The
Future of Data Analysis, indicando, ainda em 1962, com a preocupação em
investigar de modo mais profundo os dados e seus processamentos25, bem como
sua natureza e demais características (DONOHO, 2015).
O desafio da Ciência de Dados, portanto, está na consolidação do conceito e
dos preceitos no direcionamento das processualidades aglutinadas pelos grandes
volumes de dados a exemplo do Big Data. Neste sentido, Malini (2016, online), em
análise da Ciência de Dados para o campo político, argumenta que novos agentes
complexificam a forma de lidar com dados.
24
No original: “The science of dealing with data, once they have been established, while the relation of
the data to what they represent is delegated to other fields and sciences.”
25
Em 1947, Tukey cunhou o termo bit, que Claude Shannon usou em seu artigo 1948 para Uma
Teoria Matemática da Comunicação. Em 1977 Tukey publicou o artigo Exploratory Data Analysis, na
qual ele propõe procedimentos para análise dos dados, técnicas para interpretação, coleta dos
dados, procedimentos estatísticos que se aplicam para a análise mais precisa dos dados submetidos
em análise.
52
Embora a expressão “Data Science” venha dos anos 1960, a Embora a expressão
“Data Science” venha dos anos 1960, a Ciência de Dados é uma ciência nova, e por
isso, por vezes controversa e mal compreendida. Uma ciência trata de obter
conhecimento e informação, de forma sistemática, bem como normalizar e organizar
esse conhecimento. Da mesma forma, a Ciência de Dados trata de estudar o dado
em todo o seu ciclo de vida, da produção ao descarte (AMARAL, 2016, p.4).
26
No original: An action plan to expand the technical areas of statistics focuses on the data analyst.
The plan sets out six technical areas of work for a university department and advocates a specific
allocation of resources devoted to research in each area and to courses in each area. The value of
technical work is judged by the extent to which it benefits the data analyst, either directly or indirectly.
The plan is also applicable to government research labs and corporate research organizations.”.
53
27
No original: “the study of generalizable knowledge extraction from data”
54
A Ciência de Dados tem sido estudada e considerada como uma área com
características interdisciplinares por parte dos pesquisadores da temática
(CONWAY, 2010; STANTON, 2012; ZHU, XIONG, 2015; STREIB, MOUTARI,
DHEMER, 2016) ou multidisciplinar (TIERNEY, 2016) em sua origem. A área utiliza
56
28
No original: "know enough to be dangerous," and is the most problematic area of the diagram. In
this area people who are perfectly capable of extracting and structuring data, but they lack any
understanding of what those coefficients mean.”
58
29
Trata-se de uma plataforma de software em Java de computação distribuída voltada para clusters
e processamento de grandes massas de dados. Foi inspirada no MapReduce e no GoogleFS (GFS).
Trata-se de um projeto da Apache de alto nível, que vai sendo construído por uma comunidade de
[1]
contribuidores e utilizando a linguagem de programação Java”(WIKIPEDIA, 2017, online).
Disponível em: https://pt.wikipedia.org/wiki/Hadoop Acesso em: 27 out. 2016.
30
“É um termo genérico para uma classe definida de banco de dados não-relacionais que rompe uma
longa história de banco de dados relacionais”. Fonte: WIKIPEDIA. Disponível em:
https://pt.wikipedia.org/wiki/NoSQL Acesso em: 27 out. 2016.
59
Apoiado pelas teorizações de Karl Popper, o autor afirma que os dados não
teriam significado sem a teoria. Os dados podem ser mais do que serem produtos de
observação, e podem ser mais do que instrumentos. Existem contextos, convenções
e pragmática no trabalho dos dados, e assim, em circunstâncias especiais, os
pesquisadores podem considerar alguns registros como dados que relatam assuntos
que não são nem observáveis nem determináveis por instrumentos.
De um lado, a Ciência de Dados cria um ambiente que traz inovações
diversificadas em relação às pesquisas tradicionais. O aparato tecnológico impactou
a forma como as pesquisas científicas são conduzidas, realizadas e refletidas, bem
como a disseminação e compartilhamento dos dados, na qual essa prática
redesenha o cenário científico e cria caminhos inéditos para novas descobertas. Por
outro, traz novas possibilidades e ao mesmo tempo desafios para a logística da
gestão de dados, como por exemplo, a criação de uma ciber infraestrutura que
considere trabalhar e administrar os grandes volumes de dados que se adeque mais
rapidamente às necessidades que a área exige como os dados abertos.
Pertinente ressaltar que o diagrama de Venn (2010) e o esquema de Streib,
Moutari e Dhemer (2016), como os mais recorrentes nas pesquisas científicas,
respectivamente, apontam para a convergência de áreas a partir do entendimento
de suas áreas de origem. Por exemplo, Conway é um cientista de dados formado
em Ciência da Computação, em Nova York; os outros três autores provêm de áreas
distintas das Ciências exatas. Logo, a intenção de discutir o esquema e diagrama foi
revelar as conceituações já consolidadas na literatura sobre o tema, com destaque
para a interdisciplinaridade.
A Ciência de Dados e a Ciência da Informação mantêm similaridades neste
aspecto de tentar agregar a outras disciplinas com vistas ao fortalecimento dos seus
fundamentos, métodos e pesquisas científicas que se delineia neste século XXI.
Cada disciplina tem o seu grau de contribuição relevante causada por diferentes
interesses e pela diversidade de experiências. Portanto, a nossa tentativa aqui é
conectar essas duas áreas, estabelecer pontes teóricas, metodológicas e científicas,
entendo a multiplicidade destes campos do saber e o que cada um deles pode
oferecer convergindo para um interesse comum – da pesquisa científica – com suas
condições, práticas, características e singularidades, sendo necessário o
intercâmbio de conhecimento abrangendo distintas áreas rumo à agregação de
novos horizontes de pesquisa. Mas que essa prática de pesquisa pode ir além de
61
31
No original: “Open data is data that can be freely used, re-used and redistributed by anyone -
subject only, at most, to the requirement to attribute and sharealike”.
32
No original: “Availability and Access: the data must be available as a whole and under cost no more
than a reasonable reproduction cost, preferably able to be downloaded over the internet. Data should
also be available in a convenient and modifiable form. • Reuse and Redistribution: the data must be
provided under terms that allow reuse and redistribution, including combination with other data sets. •
Universal Participation: everyone should be able to use, reuse and redistribute - there should be no
discrimination against areas of activity or against persons or groups. For example, use restrictions
63
Através desses três aspectos essenciais que regem o movimento dos dados
abertos são fundamentais para que possam ser criados uma atmosfera participativa,
oferecendo maneiras variadas de usar, reutilizar, compartilhar os dados abertos em
sistemas complexos. Desde o surgimento da internet comercial na década de 1990,
as pesquisas em Cultura Digital têm se intensificado, sobretudo, no entendimento de
um espaço de trânsito livre de dados, ou ainda, como a internet pode ser usada para
a participação e compartilhamento (JÚNIOR, 2009), e até, migrado de cultura digital
para cultura participativa dentro da concepção de cibercultura (LEMOS, 2002) ou da
sociedade em rede (CASTELLS, 1999) conectada e participativa. De algum modo,
essa confluência de dados na rede é um objeto de estudo constante para a própria
Ciência da Informação (SARACEVIC, 1996; PINHEIRO, 1999; BARRETO, 2012) e
os estudos dos fenômenos vinculados à informação e aos dados.
Para Peset, Ferrer-Sapena e Subirats-Coll (2011, online), dados abertos “são
um movimento que promove a liberação de dados, geralmente não textuais e em
formatos reutilizáveis, procedentes de organizações diversas”33. O documento do
Open Government Partnership (2012) contém os planos de ação e relatórios sobre a
nova proposta, além de ter alguns princípios norteadores: 1) Transparência dos
Dados: Abertura dos Dados do setor público e proporcionar aos cidadãos e
empresários para acessar dados mantidos pelo governo de maneira uniforme; 2)
Transparência do Governo: Abertura de processos e operações do governo para o
público; 3) Prestação de Contas do Governo (accountability): explicar as
decisões e ações aos cidadãos, agindo sobre os requisitos esperados para a tarefa
e aceitar a responsabilidade por falha; 4) Participação: envolver os cidadãos na
tomada de decisões; 5) Colaboração: permitir a cooperação entre diferentes níveis
de governo, entre o governo e instituições privadas e entre o governo e os cidadãos.
Assim, com a abertura para o acesso dos dados, bem como a possibilidade
de visualização e intervenção nos processos governamentais, promoveu-se espaços
de debates e de construção em coletividade, em que padrões de coordenação de
modo descentralizado. Ao mesmo tempo, apropriações tecnológicas podem
fomentar soluções diferenciadas e inovadoras nas plataformas digitais
'non-commercial' that would prevent 'commercial' use or use restrictions for certain purposes (eg .:
only educational) exclude certain data from the concept of 'open'
33
No original: “un movimiento que promueve la liberación de datos, generalmente no textuales y en
formatos reutilizables, procedentes de organizaciones diversas”.
64
34
O Data.gov foi lançado em 2009 como o portal de transparência do governo americano e dispõe de
dados oriundos de diversas agências governamentais e de órgãos públicos federais, estaduais e
locais, de modo que o material pode ser baixado e manipulado para uso público. O Portal fornece
descrições de (metadados) conjuntos de dados e de como acessá-los, bem como ferramentas para
visualizar os conjuntos de dados.
65
35
No original: “if it can’t be spidered or indexed, it doesn’t exist; If it isn’t available in open and
machine readable format, it can’t engage, If a legal framework doesn’t allow it to be repurposed, it
doesn’t empower”
66
é feito por meio de programas. Estes são sempre funções matemáticas e, portanto,
também são "dados" (SETZER, 2015, online).
Diferentemente da definição de Dado - que é puramente fundamentada na
matemática - informação, para ele, é uma abstração formal, inserido na mente de
alguém. Ele deixa claro que não se trata de uma definição, mas sim de uma
caracterização justamente pela complexidade de definir. Mas quando as
informações são transpostas para o computador, essas se tornam dados porque
computadores não processam informações, e sim, dados. Ressalta a observação de
que informação não pode ser passível de representação por meio de símbolos, nem
tão pouco pode ser chamada de mensagem. O exemplo é quando um berro
ocasiona um ruído, que pode conter informação, mas não dado, ou seja, não se
pode quantificar. A grande diferença entre dado e informação reside no fato da
primeira ser sintático e a segunda, ser semântica, ou seja, “(implícita nas palavras
"significativo" e "significação" usada em sua caracterização)” (SETZER, 2015,
online).
Em seguida, o autor caracteriza Conhecimento “como uma abstração interior,
pessoal, de algo que foi experimentado, vivenciado por alguém” e que não é
passível de descrição. Trata-se de algo que é subjetivo, personalístico, uma vez que
não pode ser processado no computador, por exemplo, e nem ser descrito. O
conhecimento fica restrito à pessoa e com ela. Mas se de repente a pessoa para o
conhecimento em forma de tela, livro? O que acontece quando esse conhecimento é
materializado? Assim, não seria conhecimento, mas sim, informação. Para ele, “a
informação foi associada à semântica. Conhecimento está associado com
pragmática, isto é, relaciona-se com alguma coisa existente no "mundo real" do qual
se tem uma experiência direta” (SETZER, 2015, online). Depois de todas essas
caracterizações, o autor entende Competência como “capacidade de executar uma
tarefa no mundo real“. Para uma pessoa ser dotada de competência é preciso que
seja capaz de realizar uma determinada área ou tarefa. Constitui-se algo que está
ligado à atividade física, ou seja, mão na massa, algo pragmático, que está
associada ao conceito de criatividade e que pode revela a liberdade. Para
exemplificar, o autor aponta um competente guia turístico em Paris que pode guiar
dois turistas em forma diversificada ou que pode improvisar passeios com dois
turistas diferentes e ressalta que a competência evoca dois conceitos: habilidades
pessoais e conhecimento. Tais atributos teóricos discutidos até o momento tem uma
68
36
Disponível em: https://www.dataone.org/executive_team Acesso em: 9 nov. 2017.
70
37
No original: “DataONE will ensure the preservation, access, use and reuse of multi-scale, multi-
discipline, and multi-national science data via three primary cyberinfrastucture elements and a broad
education and outreach program”.
71
Planejar: descrição dos dados que serão compilados e como os dados serão
gerenciados e tornados acessíveis ao longo de sua vida útil
Recolher: as observações são realizadas à mão ou com sensores ou outros
instrumentos e os dados são colocados em uma forma digital
Garantir: a qualidade dos dados é assegurada através de cheques e inspeções
Descrever: os dados são descritos com precisão e detalhamento usando os padrões
de metadados apropriados
Preservar: os dados são enviados para um arquivo apropriado a longo prazo (ou
seja, data center)
Descobrir: dados e dados obtidos potencialmente úteis, juntamente com a
informação relevante sobre os dados (metadados)
Integrar: dados de fontes diferentes são combinados para formar um conjunto
homogêneo de dados que podem ser prontamente analisados
Analisar: os dados são analisados38 (DATAONE, 2018, online, traduução nossa).
38
No original: Plan: description of the data that will be compiled, and how the data will be managed
and made accessible throughout its lifetime; Collect: observations are made either by hand or with
sensors or other instruments and the data are placed a into digital form; Assure: the quality of the data
are assured through checks and inspections; Describe: data are accurately and thoroughly described
using the appropriate metadata standards; Preserve: data are submitted to an appropriate long-term
archive (i.e. data center); Discover: potentially useful data are located and obtained, along with the
relevant information about the data (metadata); Integrate: data from disparate sources are combined
to form one homogeneous set of data that can be readily analyzed; Analyze: data are analyzed”.
39
Disponível em: https://www.dataone.org/sites/all/documents/DataONE_BP_Primer_020212.pdf
Acesso em: 9 nov. 2017.
72
A complexidade dos dados em circulação por tais redes digitais faz parte das
preocupações do campo na análise das visualizações de dados que lidam com esse
lastro no sentido de traduzir para o público as revoluções científicas ou de
representação dessas manifestações em forma gráfica por meio de cruzamentos de
dados complexos dinâmicos via ferramentas de Visualização de Dados como Many
Eyes40 desenvolvido pela IBM, por exemplo. No contexto, observa-se a dinâmica
das bases de dados acessíveis através de plataformas que processam volumes
cada vez maiores e que podem ser potencialmente transformadas em visualização.
No próximo capítulo, trataremos os aspectos relativos ao fenômeno do Big Data na
sociedade contemporânea, apresentando as carecterísticas, definições, a
dataficação do mundo e outros desdobramentos embasados no referencial teórico
específico.
40
Lançado em 2007, o site possibilitava criações de visualizações de dados em vários formatos.
Fechou pela própria empresa em 2012. Disponível em: http://www-
969.ibm.com/software/analytics/manyeyes/ acesso em: 1 dez. 2015. Fonte: http://migre.me/vqYm5
Acesso em: 6 nov. 2016.
74
75
Big Data é compreendido aqui como grande volume de dados complexos que
podem ser processados por sistemas informáticos com grande capacidade de
processamento. Crawford e Boyd (2012, p. 3) entendem como um fenômeno sócio-
técnico, cultural, tecnológico e acadêmico que apresenta três dimensões, a saber:
a) Tecnologia: maximizar poder de computação e precisão algorítmica para reunir,
79
Borgman (2015) defende que a noção de Big Data42 recebe cada vez mais
olhares de investigadores, mas também que a compreensão de “little data” no
contexto é pertinente para análise do fenômeno porque “Big Data não é
necessariamente melhores dados” (BORGMAN, 2015, online, tradução nossa). As
estratégias desse uso se apresentam de formas variadas e interesses diversos. A
combinação entre Big Data e vigilância confere novas potencialidades e implicações
econômicas, sociais, culturais e tecnológicas, inclusive de vigilância com a
mineração dos dados e o cruzamento com bases diversas.
Nesta conjuntura, é possível estabelecer uma relação entre a vigilância
convencional por câmeras43 e a "bolha informacional" oriunda da Big Data cuja
41
No original: The term Big Data has a relative meaning and tends to denote bigger and bigger data
sets over time. In computer science, it refers to data sets that are too big to be handled by regular
storage and processing infrastructures. It is evident that large data sets have to be handled differently
than small ones; they require different means of discovering patterns—or sometimes allow analyses
that would be impossible on a small scale ”.
42
O termo Big Data deriva, para Borgman, da comparação de Derek de Sola Prince em 1963 sobre
“little science” e “big science”. Para a autora, o conceito de Big Data recebe a atenção hoje que big
science recebeu há 50 anos como fenômeno de forma superlativa.
43
A partir desse contexto, um dos marcos do uso das tecnologias para a sociedade contemporânea
ocorreu após os atentados de 11 de setembro, em 2001, nos Estados Unidos. Ao mesmo tempo em
que se presenciou a fragilidade da segurança por parte dos americanos, um outro fenômeno emergia
no frenesi dos acontecimentos: o aumento massivo das câmeras de vigilância na vida cotidiana da
80
coleta e processamento desses dados pode ter fins diversos com a manipulação dos
algoritmos. Como sabemos as instituições com funções de disciplina ao mesmo
tempo em que observam também colocam os indivíduos numa condição de
visibilidade, seja na escola, trabalho, habitação, vida social, vida privada.
população. A idéia da instalação das câmeras de vigilância é quase a mesma: uma solução
tecnológica projetada para resolver problemas de vigilância no espaço urbano; pessoas
permanentemente vigiadas, registradas sem uma razão relevante para que isso fosse feito.
81
seja, dados não quantitativos, como filmes, estudos literários, história, história da
arte, psicologia, sociologia, antropologia e etnografia.
Ainda de acordo com ele, a junção das mídias sociais com as ferramentas
tecnológicas, que são capazes de processamentos de grandes quantidades de
dados “torna possível uma abordagem fundamentalmente nova para o estudo do ser
humano e da sociedade em profundidade” (MANOVICH, 2001, p.3). Ele conceitua o
Deep Data, que é uma concepção que se revela adequada ao analisar a explosão
informacional como elemento reconfigurador das práticas sociais mediadas pelos
avanços tecnológicos e computacionais. O cenário, portanto, é promissor quanto às
expectativas voltadas para a utilização do Big Data em várias áreas do
conhecimento, mas ao mesmo tempo desafiante ao gerenciar de um modo
adequado os grandes volumes de dados.
O Wikileaks45, por exemplo, pode ser apontado como um expoente dos
grandes volumes de dados (documentos) confidenciais que foram vazados na Web,
quando em 2010, documentos sigilosos pertencentes ao Departamento de Estado
dos Estados Unidos foram vazados através do site. A despeito de todo o burburinho
que se faz quanto a esse fenômeno, é possível compreender que o Big Data é
menos sobre quantidade de dados e mais sobre a capacidade de pesquisa, isto é, é
necessário fazer questionamentos críticos sobre o que os grandes volumes de
dados pode significar, o acesso a eles, a análise e para quais finalidades (BOYD;
CROWFORD, 2012).
Como alerta Manovich (2011) “a análise completamente automática de dados
sociais e culturais não produzirá resultados significativos hoje porque a capacidade
dos computadores para compreender os textos de conteúdo, imagens, vídeos e
outros meios de comunicação ainda é limitada46” (p. 9), que ressalta, ainda, a
incapacidade dos computadores em interpretar os dados. Nessa conjectura, o autor
destaca três grupos de pessoas no panorama do Big Data, quais sejam: aqueles que
criam dados (consciente e deixando rastros digitais); aqueles que têm a expertise
para coletá-lo, e aqueles que têm expertise para analisá-los. O ecossistema em
45
O Wikileaks, fundado pelo ciberativista e australiano Julian Assange em 2006. É uma organização
sem fins lucrativos, transnacional e sua sede se encontra na Suécia. Disponível em:
https://wikileaks.org/ Acesso em: 23 nov. 2016.
46
No original: “Fully automatic analysis of social and cultural data will not produce significant results
today because the ability of computers to understand content texts, images, videos and other media is
still limited” .
85
volta do Big Data ainda acarreta implicações a serem discutidas, tanto de ordem
sócio-tecnológica quanto de habilidades pessoais.
aplicação das técnicas da estatística como uma característica que está na gênese
da Data Science, segundo Diggle (2015) combinadas com outras faculdades do
saber, tem impulsionado à gestão dos dados em uma escala maior. Tal contexto
representa novos domínios analíticos para além dos sistemas automatizados. Como
Hand (2015) aponta que um dos desafios para a data science é a medição, ou seja,
comunicar incerteza decorrente de uma amostragem de grandes quantidades de
dados, o que pode levar a vários tipos de distorções e credibilidade. O autor é
prudente quanto a este cenário em ascensão por conta da explosão dos dados e,
embora o desenvolvimento tecnológico tenha sido o maior vetor de mudança neste
sentido, ainda está no começo.
Neste sentido, a data science procura desenvolver abordagens para analisar
dados do Big Data, assegurando que possa ser usado para ganhar tanto valor
quanto possível. As técnicas resultantes tipicamente podem ser aplicadas a
inúmeros cenários, que pode aumentar o potencial de valor a ser explorado em
outros ambientes. Adicionalmente, contribui com novos métodos de descoberta de
conhecimento para apoiar outras disciplinas para garantir que seus conjuntos de
dados possam ser analisados, exploradas e utilizadas para que o conhecimento
pode ser extraído, do tamanho ou da complexidade dos dados.
Gradativamente a ciência da computação e estatística continuarão a avançar,
mas ele levanta a crítica de que as técnicas computacionais não podem substituir o
pensamento estatístico, o que pode conduzir a uma variedade de conclusões
equivocadas porque “o computador pode permitir explorar os dados de formas que
não pudemos ter imaginado, mas isso não significa que podemos ignorar os
fundamentos”47 (HAND, 2015, p. 711, tradução nossa). Neste sentido e diante desse
cenário de rápida mudança e incerteza, é preciso fazer questionamentos quanto aos
sistemas que são utilizados para estas práticas e quais as que regulam.
Big Data não se refere apenas a conjuntos de dados muito grandes e às
ferramentas e procedimentos para manipulá-los e analisá-los, mas também a uma
mudança computacional no pensamento e na pesquisa. Boyd e Crawford (2012)
argumentam que diante do dilúvio do Big Data é oportuno tecer críticas ao
fenômeno, e principalmente, o significado que estes dados podem trazer em um
47
No original: “The computer may allow us to explore data in ways we could not previously have
imagined, but that does not mean we can ignore the fundamentals”.
87
48
No original: “Data analysis is most effective when researchers take into account the complex
methodological processes underlying the analysis of these data”.
88
analisar os dados a serem adotados nas empresas com finalidades nos negócios e
aplicações de inteligência; b) Gestão e armazenamento de dados: passa pelo
entendimento de uma infraestrutura de armazenamento e recursos para manipulá-
los (DI MARTINO, 2004). O gerenciamento de dados, neste contexto, é considerado
o aspecto central em um ambiente permeado por dados complexos tendo em vista
que requer acesso para alavancar o conjunto de funcionalidades intrínsecas ao
fenômeno análise transversal dos dados (SPECHT et al. 2015). Para eles,
gerenciamento de dados é o desenvolvimento e implementação de políticas, planos
e processos que gerenciam estes dados para manter a integridade, de segurança e
de utilização dos dados. O resultado é ideal para os dados a serem auto-descritos
para que outros possam descobrir e reutilizá-lo de forma eficaz.
Desta maneira, é necessária para solucionar problemas complexos de
equipes multidisciplinares capazes de manejar a abundância de dados (SPECHT et
al. 2015). A Gestão de dados é um conceito amplo que atua em três aspectos:
operacional, tático e estratégico (LOPES, 2012, p. 9). Além disso, trata-se de uma
disciplina que tem como finalidade “definir, planejar, implantar e executar:
estratégias, procedimentos e práticas necessárias para gerenciar de forma efetiva os
recursos de dados e informações das organizações, incluindo planos para sua
definição, padronização, organização, proteção e utilização.” Apesar de todo
potencial tecnológico que rege o fenômeno para a gestão de dados, a quantidade e
variedade de dados não asseguram a melhor decisão, já que “a demora na análise
dos dados pode nos levar a um atraso na tomada de decisão. Então, ou você perde
a oportunidade da travessia, ou age com atraso, o que pode ser fatal” (COSTA;
CAVALCANTI, 2014, online).
Deste modo, a gestão de dados no contexto do Big Data acarreta também
impactos que estão alicerçados em quatro pilares: técnico, social, político e legal.
Autores destacam dois aspectos que merecem um olhar mais crítico quanto a
benefícios que pode ocasionar: 1) Em função dos grandes volumes e diversidade de
fontes, torna-se fácil perder-se no oceano dos dados e não obter resultados
significativos. Para um resultado mais produtivo, deve-se tornar um imperativo saber
o que e onde buscar tais informações. Os mapas, nesta seara, são relevantes para
uma compreensão geográfica dos dados; e 2) Dificuldade de minerar dados
algoritmicamente na busca por de padrões originais em um ambiente de
complexidade. “Os resultados que podem ser obtidos com algoritmos rígidos serão
90
tão menos significativos quanto maior for a necessidade de integrar dados de fontes
e formatos diferentes” (FERNANDES; LIMA-MARQUES, 2015, p. 69-70).
Nesta direção, atributos como competência e experiência são os principais
combustíveis para o aprendizado e inovação nas organizações em ambientes
complexos (CHOO, 2003). Sendo assim, as organizações/empresas devem estar
inseridas numa logística contínua e mutável, que renove o estoque de conhecimento
e pratica o processo de informação com vistas à tomada de decisões (CHOO, 2003).
Neste sentido de ambiente dinâmico e inovador, a globalização é apontada como
indutor do crescimento explícito em que as organizações devem adaptar-se a
ambientes cada vez mais complexos, como a possibilidade de expansão dos
conhecimentos e capacidades para aquisição de novos conhecimentos,
estabelecimento de conexões de conhecimento (TARAPANOFF; ALVARES, 2015).
Neste contexto de como gerenciar grandes volumes de dados, o cientista de
dados pode ser destacado com uma das áreas em plena ascensão da sociedade
contemporânea. Davenport e D.J. Patil (2012, online, tradução nossa),49 no artigo
Data Scientist: The Sexiest Job of the 21st Century50, publicado na Havard Business
Review, apontam como uma profissão mais requisitada nos últimos anos e como
“uma nova raça” que está nascendo. Eles definem essa nova “raça” como um
híbrido de hacker de dados, analista, comunicador e consultor confiável, cuja fusão,
é algo poderoso. Trata-se, portanto, de um profissional que de alto nível e com
capacidade de fazer novas descobertas na era do Big Data.
Ao mesmo tempo em que os autores sugerem e argumentam como uma
profissão valorizada com tendências ao crescimento, há também algumas limitações
de ordem técnica para o contexto. Os autores são enfáticos ao afirmarem que os
cientistas de dados necessitam criar suas próprias ferramentas, cuja habilidade
primordial é a capacidade de escrever códigos, uma espécie de “cartão de visitas”.
Além disso, comunicarem-se em uma linguagem que todos entendam e “demonstrar
49
No original: What data scientists do is make discoveries while they swim in data. It is their preferred
method of navigating the world around them. At ease in the digital world, they are able to structure
large amounts of data without form and enable analysis. They identify rich data sources, connect to
other potentially incomplete data sources, and clean up the resulting set. In a competitive environment
where challenges continue to shift and data never cease to flow, data scientists help decision makers
shift from ad hoc analysis to a continuous conversation with data.
50
Disponível em: https://goo.gl/2LWZ5K Acesso em: 9 nov. 2018.
91
51
No original: “demonstrate special skills involved in storytelling with data, whether verbally, visually or
ideally”.
92
dados, relacionar dados e descobrir padrões, cruzar dados estatísticos, data mining,
otimização.
Neste sentido, o termo "Visualização de Dados" é usado aqui para especificar este
processo de transformar dados numéricos ou informativos científicos (muitas vezes
chamados de "informática") e para distinguir a Visualização de Dados de outras
visualizações, tais como a arte não baseada em dados. As Visualizações de Dados
estão cada vez mais se complexificando para narrativas sofisticadas que se utilizam
de mapas com dados que permitem interação, conforme defende Fernanda Viégas.
52
Fonte: Allposters
52
Disponível em: https://www.allposters.com/-sp/Vitruvian-Man-Posters_i2549011_.htm Acesso em:
1 dez. 2018.
108
Snow, por exemplo (Figura 14) mostrava, em 1854, as mortes causadas pelo surto
de cólera em Soho, Londres, e os locais de bombas de água na região. Ao fazer
isso, ele descobriu que houve um agrupamento significativo das mortes em torno de
uma determinada bomba - e removendo o cabo da bomba parou o surto.
53
Fonte: The John Snow -Archieve and Research Companion
Essa é uma fase em que o uso da estatística começarm a figurar nas mais
publicações científicas da época. Além do medico John Snow, outros trabalhos
tiveram destaque na criação de gráficos informativos. O engenheiro francês Charles
Joseph Minard se notabilizou pelas criaçoes dos gráficos estatísticos, sobretudo, por
esse mapa estatístico de 1861 (gráfico 4) em que ele traça a rota do exército de
Napoleão Bonaparte, em 1812. O trabalho de Minard inaugural o que alguns
autores denominam de cartografia estatística ou social (CAIRO, 2012) pelo fato de
não limitar-se a registrar acidentes mas fornecendo e representando a concentracão,
dispersão e movimento das pessoas representadas.
53
Disponível em: https://johnsnow.matrix.msu.edu/ Acesso em: 20 dez. 2018.
109
Gráfico 4- Visualização de Dados criada por Charles Joseph Minard sobre o exército de
Napoleão em Moscou de 1869
54
“A família de linguagens de programação conhecida globalmente como Fortran foi desenvolvida a
partir da década de 1950 e continua a ser usada hoje em dia. O nome é um acrônimo da expressão
"IBM Mathematical FORmula TRANslation System". Fonte: Wikipedia (2019).
112
estética das bases de dados e que estas desenham caminhos desbravadores diante
um conjunto de dados, como pode ser visto na Visualização de Dados sobre a
eleição americana, em 2016, feita pelo The Washington Post, Poll: Redrawing the
electoral map (Gráfico 7). A proposta da visualização é realizar uma enquete em
todos os 50 estados americanos e redesenhar o mapa eleitoral durante a campanha.
Ao todo, foram entrevistados 74 mil eleitores que pode ser visto a partir das cores de
cada candidato à presidência.
55
Disponível em: http://www.neofluxo.net/ acesso em: 2 fev. 2019.
117
tiveram impacto nas produções brasileiras, como nos jornais Folha de S. Paulo e
Estadão, que inauguraram núcleos específicos para trabalhar com grandes volumes
de dados nas produções gráficas. No caso do Estadão, um dos projetos que mais
56
obteve visibilidade foi o Basômetro (Gráfico 9), que monitora a movimentação
política do país, cuja atualização é continua. A ideia foi colocada em prática em 2012
por meio do núcleo criado pelo próprio jornal para adentrar no universo dos dados.
57
Para isso, o jornal inaugurou o Estadão Dados com a proposta de explorer mais
dados em suas visualizações.
56
Disponível em: https://arte.estadao.com.br/politica/basometro/ Acesso em: 16 jun. 2019.
57
Disponível em: http://blog.estadaodados.com/ Acesso em: 16 jun. 2019.
58
Disponível em: https://g1.globo.com/monitor-da-violencia/ Acesso em: 16 jun. 2019.
118
Fonte: G1
A prática de trabalhar com dados, a partir do exemplo do The New York Times,
originou uma diversidade de trabalhos gráficos mundiais. A exemplo do que foi
mostrado acima, jornais e agências como o Los Angeles Times, The Wahsington
Post, BBC News, Reuters, Boston Globe, Bloomerg, Apress, The Guardian, USA
Today, La Nacíon, La Vanguardia, El Mundo entre outros, vem despontando com
poduções com dados massivos.
60
No original: “ Telling stories about data is a natural result when visualization is also used in
collaborative settings. In a more structured context, researchers can use stories not only to support
discussion and decision-making, but also to analyze processes. Stories can thus serve as part of the
provenance of a discovery, similar to the narrated story of a event”.
124
Para a autora, a construção da narrativa digital tem início sob uma codificação
maquínica, cujas camadas digitais vão formatando uma espécie de tecido narrativo
complexo até a finalização da substância tangível que é a narrativa na qual “reúne
substância e torna-se, por fim, um formato narrativo digital” (p. 54). Mais adiante e
de posse com o entendimento de que tal construção ocorre em decorrência de um
conjunto de códigos computacionais, a autora esclarece que “A narrativa assim
manifesta-se a partir da interação entre camadas computacionais, a strata – e
revela- se portanto um processo artificial de design informático” (BERTOCCHI, 2013,
p. 55) e que estas narrativas não podem existir se caso contenha elementos em
desconexão cuja função não esteja especificada.
A incorporação de elementos narrativos nas visualizações de dados tem sido
objeto constante de pesquisas e práticas acadêmicas ao longo dos anos. Um dos
125
argumentos para que a condição de narrativa seja alcançada é que esses dados
podem contar histórias de modo visual e que estas diferem das formas tradicionais
desta atividade. “As próprias visualizações podem incorporar uma variedade de
mídias, incluindo texto, imagens e vídeos, e também podem ser interativas,
possibilitando histórias cuja narrativa depende tanto do leitor quanto do autor”
(SEGEL; HER, 2010, p. 1140). O que os autores colocam em questão é que, num
ambiente interativo, essas histórias são contadas através dos elementos gráficos
que estão colocados na visualização. Acrescentamos a esses elementos, os
grandes volumes de dados, mapas de geolocalização, atualização contínua, gráficos
interativos, visualização imersiva, entre outros. Eles identificaram alguns dispositivos
visuais e interativos que suportam a narrativa, como, por exemplo, Interactive
Slideshow e Drill-Down Story (história de detalhamento). O primeiro, possui um
caminho completamente linear com alguma interatividade dentro dos limites de cada
slide e o segundo, completamente orientada ao leitor, permitindo ao usuário
escolher qualquer ordem de leitura / visualização possível, sem que esse percurso
se perca dentro da estrutura visual.
Neste contexto de narrativas e propriedades de dados em sua construção, a
investigação de Nora Paul (2012) estabelece tipologias para as narrativas digitais, a
saber: 1) Mídia: suporte da narrativa que combina recursos digitais como texto,
fotos, gráficos, animação); 2) Ação: refere-se a dois aspectos distintos das
narrativas digitais: o movimento do próprio conteúdo e a ação requerida pelo usuário
para acessar o conteúdo; 3) Relacionamento: está ligado ao relacionamento entre o
usuário do conteúdo e o próprio conteúdo. 4) Contexto: Capacidade de ofertar
dados extras, remetendo a outros materiais, a exemplo dos links. e 5)
Comunicação: Capacidade de conectar com outros tipos de mídias.
Em particular, notamos uma preocupação central no projeto de visualizações
narrativas: o equilíbrio entre os elementos gráficos (em sua maioria interativa), o
formato e a densidade informativa dos dados que auxiliam a criar um caminho de
interpretação estruturada de maneira interativa. A narrativa com dados, nesse caso,
não necessita apresentar um número excessivos de elementos informativos e
descritivos porque o leitor/usuário pode criar a própria rota com suas experiências
imersivas e expectativas. Como afirma Cairo (2019, online, tradução nossa) “as
visualizações não complementam a história escrita. Em nosso mundo cada vez mais
orientado por dados, eles estão se tornando uma história mainstream”. Neste
126
61
As humanidades digitais compreendem um campo heterogêneo de investigação e prática de
intersecção entre as ciências da computação e as disciplinas humanísticas (KIRSCHENBAUM, 2012).
62
Disponível em: http://medialab.ugr.es/ Acesso em: 28 fev. 2018.
63
Disponível em: https://www.santafe.gob.ar/ms/gobiernoabierto/iniciativa/datalab-cim/ Acesso em: 28
fev. 2018.
64
Disponível em: https://opendatacmm.wordpress.com/ Acesso em: 28 fev. 2018.
65
Disponível em: https://www.voltdata.info/ Acesso em: 28 fev. 2018.
128
66
Disponível em: https://datavizcatalogue.com/ Acesso em: 22 nov. 2017.
67
Perfil do autor. Disponível em: https://www.linkedin.com/in/severino-ribecca-61287a25 Acesso em:
14 nov. 2017.
68
Disponível em: http://outliers.es/ Acesso em: 22 nov. 2017.
69
Disponível em: https://opendatacmm.wordpress.com/ Acesso em: 22 nov . 2017.
70
Disponível em: http://annkemery.com/wp-content/uploads/2016/10/DataVizChecklist_May2016.pdf
Acesso em: 23 nov. 2017.
71
Disponível em: http://www.visualcomplexity.com/vc/ Acesso em: 02 mar. 2018.
72
Disponível em: https://informationisbeautiful.net/ Acesso em: 02 mar. 2018.
130
73
Disponível em: http://dhawards.org/dhawards2013/voting/ acesso em: 31 out. 2018.
74
Disponível em: https://goo.gl/M75en4 Acesso em: 31 out. 2018.
134
76
Esta ferramenta gratuita foi desenvolvida pelo Laboratório de Pesquisa em Engenharia de Software
– LAPES, da Universidade Federal de São Carlos, como um aplicativo para revisão sistemática.
Deste modo, nossa revisão conseguiu explorar diversas bases de dados. A ferramenta atua em três
frentes: Planning, Execution e Summarization. Neste sentido, conseguimos automatizar o processo
de revisão do Estado da Arte e abordar de forma qualitativa. Disponível em:
http://lapes.dc.ufscar.br/tools/start_tool acesso em: 11 set. 2018.
77
A pesquisa de campo ocorreu durante o período do segundo semestre de 2018. Observação
empírica no Labic ocorreu de 7 a 14 de maio de 2018 e observações das produções do site ao longo
do segundo semestre de 2018.
78
Na versão do material de qualificação o foco estava nas visualizações de dados de vencedoras
nos prêmios mundiais Malofiej e SND- Society News for Design. Isto é, iríamos analisar produtos já
construídos, editados e apresentados. A partir de discussão na qualificação decidimos acatar as
sugestões da banca e da orientação da tese, e partir para a exploração dessas visualizações de
dados em ambientes inovadores como é o caso dos laboratórios de Visualização de Dados em
universidades, cujo modelo congrega equipe interdisciplinar como cientista de dados, designers,
desenvolvedores, entre outros profissionais e pesquisadores.
136
79
Disponível em: https://transcribe.wreally.com/ acesso em: 22 de jul. 2018.
80
Disponível em: https://www.maxqda.com/ acesso em: 22 set. 2018.
138
escrever, papel, clipes e um local calmo para tomar notas de forma reservada; 3)
Desenvolver um procedimento para pedir ajuda e orientação, se necessário for, de
pesquisadores e /ou colegas; 4) Estabelecer uma agenda clara de atividades de
coleta de dados que se espera que sejam concluídas em períodos especificados de
tempo; e 5) Preparar-se para acontecimentos inesperados, incluindo mudanças na
disponibilidade dos entrevistados, assim como alterações no humor e a motivação
do pesquisador do estudo de caso (YIN, 2005, p. 98).
Em Questões do estudo de caso, estas questões já demarcadas no projeto
de estudo devem refletir a linha geral de toda a investigação. Por estas razões,
devem apresentar duas características: 1) Orientação geral de questões: questões
funcionam como lembretes que o pesquisador deverá utilizar como forma de não
perder o foco do que será coletado e as motivações para coletar; e 2) Níveis de
questões: Numa escala de 1 a 5, as questões que estão no protocolo devem
demonstrar inseridas num conjunto de interesses do projeto.
Por fim, o Guia de relatório de estudo de caso, como modo de facilitar o
protocolo, este guia dentro do estudo de caso se refere ao esboço, formato para os
dados, uso e apresentação de outras documentações, e informações bibliográficas,
bem como apontar a quantidade de documentos utilizados. Para Yin (2005, p. 103)
“Isso facilita a coleta de dados relevantes, na forma apropriada, e reduziria a
possibilidade de ocorrer outra visita ao local do estudo”. Além disso, pode haver
flexibilidade quando o planejamento alterar o curso da coleta e resultados, o que
demonstra, conforme o autor, uma vantagem estratégica nesse sentido.
Em linhas gerais, o protocolo serve como uma bússola que organiza todo o
processo de coleta de dados na pesquisa de campo, possibilitar a organização e
interpretação dos dados coletados, e a forma como se conduz pode ser
determinante como também pode influenciar os resultados da pesquisa. Por esta
razão, ele é de suma importância nesta etapa do estudo, inclusive, pode antecipar
percalços durante a coleta dos dados em pesquisas qualitatitivas.
Fonte: Labic
81
Disponível em: http://www.labic.net acesso em: 15 jan. 2019.
147
O Labic (figura 18) está estruturado para dar conta dessa demanda que
emergiu com Big Data, especificamente em conjuntura de efervescência nas redes
sociais com manifestações e novas demandas políticas. Logo, é pertinente
apresentar a estrutura e o fluxo de trabalho do laboratório para compreensão do
fluxograma e de sua infraestrutura. Outras imagens no Anexo 1 dessa tese.
82
Disponível em: http://www.Labic.net/sobre/ Acesso em: 8 nov. 2018.
148
86
Disponível em: http://medialabufrj.net/ Acesso em: 7 ago. 2017.
152
87
Disponível em: http://mappingonlinepublics.net/tag/yourtwapperkeeper/ Acesso em: 7 ago. 2018.
88
Disponível em: https://apps.facebook.com/netvizz/ Acesso em: 7 ago. 2018.
89
Disponível em: https://nodexl.codeplex.com/ Acesso em: 7 ago. 2018.
90
Disponível em: https://gephi.org/ Acesso em: 7 ago. 2018.
153
91
A partir dessas experiências de construção dos grafos, o Programador 1
ressalta que os maiores entraves para a coleta de dados se referem às políticas de
privacidade das plataformas de redes sociais, principalmente do Facebook, por
exemplo, quando anonimiza os dados dos usuários, tornando difícil estabelecer
redes de relações dos usuários. Para ele, o Twitter se mostra bem mais flexível,
permitindo que os dados sejam coletados, assim como dados visuais (fotos, memes)
e publicações dos usuários. Questionado sobre quais aspectos são levados em
consideração na estruturação dos grafos92, o mesmo é categórico em afirmar que
estes devem apoiar a análise que está sendo realizada ou uma pesquisa.
Ele [o grafo] nunca deve ser levado como forma de interpretação soberana,
apesar que o tempo é o nosso maior empecilho quando a gente tenta [fazer
as visualizações] porque as vezes não dá para colocar tudo. Em geral a
visualização, na gente tem uma noção de que é uma representação daquele
que a gente tá pesquisando, estudando, lendo, e que esses próprios dados
são representativos de um fenômeno ainda maior, ainda mais profundo, que
a gente não consegue, muitas vezes, chegar a essência dele, só a partir da
visualização de dados. Então, a gente sempre tenta na visualização de
dados viabilizar, tornar legível aquiolo que antes demandaria mais tempo,
tornar imageticamente representável um conjunto muito grande de dados
(PROGRAMADOR 1, Entrevista concedida).
91
Entrevista Concedida, 11 de maio de 2018.
92
Entrevista Concedida, 11 de maio de 2018.
155
93
Entrevista Concedida, 11 de maio de 2018.
94
Entrevista Concedida, 14 de maio de 2018.
156
dinamizar as visualizações, mas vai depender de cada projeto que está sendo
desenvolvido. Por exemplo, se for para uma revista, não há como colocar elementos
dinâmicos, mas se for para uma matéria Web, essa sim pode ser bem explorada. Os
elementos mais importantes que são levados em conta nas visualizações, segundo
o Programador 1, são:
A visualização ela tem que ter clareza, tem que conseguir, inicialmente, ter
um vislumbre dos dados mais importantes do dataset [conjunto de dados]
essa é a ideia principal. Nenhuma análise vai superar você indo direto no
dado e olhar o dado. Isso é um ponto. Mas a visualização tem que chamar
atenção para parte estrutural daquele dado e, como no caso a gente
trabalha com Big Data, e te dá opção de olhar o menor [dado]. Ele tem que
te mostrar o maior logo de cara mas se dá a possibilidade de olhar o menor,
de observar os detalhes. (PROGRAMADOR 1, Entrevista concedida).
1) Entender o dado: Essa é a parte mais importante porque o dado é que vai
guiar toda a construção da visualização (Figura 22). Assim, a partir da coleta, faz-se
a leitura dos dados brutos que foram coletados, como comments, tweets, imagens,
hashtags, dados que são essenciais para construir escalas do estilo retweets e
comentários do Facebook, por exemplo. A estratégia aqui é fazer essa interpretação
dos dados, primeiro olhar para o dado e entender o que é que se tem de dado e que
157
tipo, se são dados numéricos ou dados de textos, e o que é que se pode usar para
a produção dessas narrativas.
Essa primeira coleta realizada pelo software Ford, está em formato csv
(tweets_csv.png) e mostra uma ideia de como é o dado bruto.
Nesta tabela com 56 colunas no total, cada linha é um tweet que tem uma imagem
associada. As imagens podem se repetir em tweets diferentes.
Um detalhe pertinente é que, essa tabela é de tweets, mas a visualização é focada
nas imagens. Nesse caso, os dados que são exclusivos do tweet, do usuário que
twitou não vão ser usados na visualização final. Se só existisse um tweet para cada
imagem, daria para dizer que "o texto do tweet é o texto da imagem", mas como não
é o caso, texto não pode ser usado. Por isso, muitos dos campos foram
descartados.
158
95
Entrevista Concedida, 11 de maio de 2018.
96
Disponível em: http://Labic.net/mariellepresente/ Acesso em: 8 nov. 2018.
97
Programador 4, Entrevista concedida em 11 de maio de 2018.
161
98
¨O ImageJ é um programa de computador de domínio público, feito em Java destinado a
processamento de imagens. Ele foi desenvolvido no National Institutes of Health. O ImageJ foi feito
para ser um programa de arquitetura aberta que pode ser expandido via Java en:plugins e macros¨.
Fonte: Wikipédia (2019).
162
com celulares, e que tipo de celular, ou se foi uma imagem que tem
enquadramento/frame profissional ou amador, ou é uma imagem mais mimética.
Deste modo, cada dataset acaba necessitando de um olhar mais específico.
Coletou a imagem, olha-se o dataset e ver o que ela pode dizer. Para o
coordenador de Imagens, o Image J permite criar um plano cartesiano, onde w, x e
y, permite organizar as informações visualmente por determinados parâmetros: cor,
a matiz de cor, a cor predominante, o brilho, são essas três estruturas de coboração
em função do tempo, em função usuário, em função do número de
compartilhamentos.
Além disso, essas variáveis podem ser cruzadas de diversas maneiras. Cada
variável quando cruzada com outra variável vai resultar em uma visualização
distinta. Então essas possibilidades de variáveis podem ser construídas para
enxergar o dado no software que foi desenvolvido pelo laboratório chamado Image
Cloud, a ideia de nuvem de imagem para tentar enxergar imagem, não a partir de
um eixo padrão, mas a partir de um ordenamento de que as mais importantes
apareçam primeiras.
Outro tipo de produção nesse sentido no Laboratório, não necessariamente
de imagem, é quando tem conjuntos de imagens com geolocalização, em que plota-
se essas imagens em software como o Google Map, que tem possibilidade de
visualizar as imagens a partir de tais geolocalização . Deste modo, é possível
enxergar como as pessoas fotografam uma pessoa ou uma cidade como Nova York,
por exemplo, independente da hashtag. A ideia é coletar tudo o que foi publicado por
uma pessoa que foi postada no twitter e compreender esse pensamento visual que é
construído através das imagens.
163
A visualização ela tem que ter clareza, tem que conseguir, inicialmente, ter
um vislumbre dos dados mais importantes do dataset [conjunto de dados]
essa é a ideia principal. Nenhuma análise vai superar você indo direto no
dado e olhar o dado. Isso é um ponto. Mas a visualização tem que chamar
atenção para parte estrutural daquele dado e, como no caso a gente
trabalha com Big Data, e te dá opção de olhar o menor [dado]. Ele tem que
te mostrar o maior logo de cara mas se dá a possibilidade de olhar o menor,
de observar os detalhes. (PROGRAMADOR 4, Entrevista concedida).
99
Entrevista Concedida em 10 de maio de 2018.
165
que havia muitas hashtags únicas e assim não significam nada quando estão fora do
contexto. “Porque como eles disseram, a coleta correta facilita na hora da
modelagem enormemente”, afirmou104. Pensativos, todos voltaram ao trabalho e
seguiam um diálogo entre duas pesquisadoras sobre o assunto em questão e
refletiam se deveriam reduzir parte dos comentários e das hashtags e deixar aquelas
mais importantes.
Alguns integrantes não estão presentes fisicamente, mas paralelamente
estavam trabalhando de forma remota interagindo com a equipe pelo Telegram, a
exemplo do Progrmador 1. O ritmo de trabalho se intensificou quando houve alguns
acontecimentos de repercussão nacional que o Labic se engajou, como por
exemplo, na análise de redes sociais feita no momento da prisão do ex-presidente
Luiz Inácio Lula da Silva, fato ocorrido em 7 de abril de 2018, e outro da morte da
vereadora carioca Marielle Franco, ocorrido em 14 de março de 2018. Este último, o
trabalho se pautou em coletar publicações na rede social Twitter, o que totalizou
mais de 3 milhões de tweets. Além disso, foram analisadas cerca de 10 mil imagens
que circulavam no Twitter (Figura 26). Ambos os assuntos repercutiram
midiaticamente e em escala mundial e, nesse caso, houve muita demanda da
equipe, em que praticamente todos estavam envolvidos na atividade. O
Coordenador 2 Labic revelou que nestes acontecimentos, a equipe trabalhou
arduamente para capturar todos os dados do processamento das análises e saíram
da Universidade de madrugada.
No final da manhã, a coordenadora perguntou como está o andamento do
relatório que precisavam agilizar. Questionou também se o Programador 1 já havia
enviado os dados faltantes para inserir no relatório. Um pesquisador responde que
sim e poucos minutos depois, a mesma se aproxima da pesquisadora J.H que
estava responsável por essas análises e debateram a melhor forma de coletar os
dados para modular. Houve um debate sobre a análise que a pesquisadora vai
fazer, e a equipe expõe que é difícil mensurar hashtags únicas e seguiam um debate
no sentido de procurar uma solução para o impasse. O foco é fazer uma correlação
da agenda dos candidatos ao governo do estado do Espírito Santo com os top words
104
Diário de Campo, 8 de maio de 2018.
170
e top hashtags, mas a equipe justificou que só dá para fazer com o dos comentários
longos.
105
Fonte: captura de tela
O Coordenador 2 afirmou que cada relatório é único e que este deve manter a
linguagem clara e compreensível com dados mais ricos. Um debate ocorreu para
saber quais dados ficarão visíveis e outros não. A orientação foi baseada em
disponibilizar o relatório no Facebook em se tratando de uma agenda política
importante e provocou a equipe para facilitar a compreensão e os instigou a fazer da
melhor maneira possível e didática.
105
Disponível em: https://goo.gl/sSf3Kh acesso em: 5 nov. 2018.
171
A maior parte das produções está relacionada à captura dos dados das
redes sociais, armazenamento e exibição do conteúdo das redes sociais,
mas fazendo pré-processamento antes para auxiliar o usuário comum a
localizar as informações relevantes. Então tem que saber, por exemplo,
sobre quais são os assuntos que estão tendo mais destaque em
determinado interdeterminado intervalo de tempo, quais são as principais
imagens com pessoal da modelagem categorizar, no caso, os textos e as
imagens de tal forma que você sabe qual a classe e a categoria daquele
texto e onde se enquadra aquele texto, sobre qual assunto o texto está se
falando e aí facilita para se levantar estatística, como por exemplo, quais
são os temas mais relevantes naquele período de tempo.
(COORDENADOR 4, Entrevista concedida).
Como o trabalho de coleta de dados ocorre com frequência nas redes sociais,
mais especificamente Facebook e Twitter, eles sentiram a necessidade de criar um
software próprio para resolver tais demandas. Assim foi criado o programa Ford que
apresenta uma gama de funcionalidades, que além de fazer a coleta de dados,
também realiza análises, gera arquivos e que continua em atualização contínua de
acordo com as novas demandas.
172
coleta e processamento dos dados para a defesa, uma vez que ele estava se
preparando para o pós-doutorado em outro país. A orientação foi além das 12h
quando chegou outro orientando de Mestrado e se junta à mesa. Nesta observação
empírica envolvendo as orientações de mestrandos vinculados ao laboratório e aos
professores percebemos o quanto o trabalho com Big Data é utilizado como
essência das dissertações demandando do laboratório, de modo que há um
ecossistema de dados nos trabalhos em torno do laboratório.
O Coordenador 1 finalizou a orientação com a mestranda e sugeriu que a
aluna recrutasse algum pesquisador do Laboratório para ajudar na coleta de dados
da dissertação. Disse para ela executar um planejamento da pesquisa a fim de
otimizar essa atividade. Despediu-se da aluna e conversa agora com o outro
orientando e debateram sobre as leituras, o andamento da pesquisa pós-
qualificação. Ele sugeriu que o orientando também montasse um banco de dados
para agilizar e facilitar a análise dos dados da dissertação. Depois, ele ainda
resolveu questões burocráticas com a coordenadora de Projetos e avisou que só
retorna no outro dia. Após essa reunião, chequei com ele qual o melhor dia para a
realização da entrevista, que ficou marcada para o dia seguinte, no final da manhã.
Nesses primeiros dias, percebi que alguns membros ficaram incomodados
com minha presença como pesquisadora no ambiente, uma vez que estava sempre
observando e anotando no diário de campo. Alguns chegaram a dizer assim: “Ah,
vou falar mesmo assim”114 . E seguiam nos diálogos internos. Mas, com o passar dos
dias, notei um clima mais cordial e eles não se importaram e compreendiam o
trabalho de pesquisa ali realizado.
O Coordenador 2 estava na sala juntamente com a coordenadora de
Modelagem. De acordo com a observação nos primeiros dias, há turnos de muita
efervescência e outra menos, manhã, mais tranquila, e tardes, mais intensas. Pode-
se afirmar que o Labic é um espaço multidisciplinar (pelo perfil polivalente da
equipe), multifuncional (salas demarcadas porém híbridas), fluido (pelas chegadas e
partidas da equipe) e com grande visibilidade acadêmica e de mercado. Às 17h20,
realizei uma entrevista o Programador 4 pela criação das visualizações de dados.
Graduando no Curso de Jornalismo da UFES, ele fez o curso em Ciência da
114
Diário de Campo, 9 de maio de 2018.
175
O Maior desafio posso dizer que estão nas escolhas que você tem que fazer
todas às vezes que você vai construir uma visualização, uma ferramenta. O
ideal era sentar e conseguir montar a visualização perfeita, que funciona
para todos os dados e que seja linda e maravilhosa. E aí o desafio é quando
você bate de frente e ver que isso não é possível ou não existe, né?! E aí
você tem que adequar e fazer concessões para poder mostrar os dados
bem ou contrário, entende? Eu acho que o desafio é esse tentar fazer
concessões. (PROGRAMADOR 4, entrevista concedida).
115
Entrevista Concedida, 9 de maio de 2018.
176
116
Entrevista Concedida, 10 de maio de 2018.
177
117
Entrevista Concedida, 10 de maio de 2018.
178
para entendimento. A gente busca as coisas nos dados. Eu acho que eles nos falam
‘a gente pode até depois fazer isso’” 118.
Após a entrevista com o Coordenador 5, por volta das 11h40, falei com o
Programador 3, da equipe de Desenvolvimento e o mesmo pediu que a entrevista
seja feita naquele momento, uma vez que não retornaria mais ao Laboratório devido
às atividades da graduação em Engenharia Elétrica, pela UFES. A entrevista seguiu,
inicialmente, explicando sua função e mostrou exemplos de trabalhos que eles
desenvolvem. Nesse momento, sou avisada por um dos pesquisadores que o
Coordenador 3 e o Programador 1 estarão presentes no Labic pela tarde,
oportunidade para realizar as entrevistas. Seguiu a entrevista o Programador 3 com
a demonstração na parte de layout do site, do design, explicando como o site se
torne navegável através dos códigos de programação. Esse processo é chamado de
Back end, que é um trabalho mais voltado para o dado bruto que pode ser tratável.
“Então o Back end faz tudo isso, a coleta, o tratamento do dado, a classificação,
melhorar armazenamento para poder ser utilizado pelo Front-end”. Dentre os
principais trabalhos desenvolvidos, ela destaca o Hash (Figura 27), construída em
2015, que é uma plataforma de acesso à informação que tem as funções de filtrar e
fazer a divulgação de informações feitas pelos cidadãos sobre o Enem - Exame
Nacional do Ensino Médio para o INEP (Instituto Nacional de Estudos e Pesquisas
Educacionais Anísio Teixeira) do Ministério da Educação através das redes sociais
como Facebook, Twitter e Instagram.
O objetivo foi averiguar e acompanhar como a mídia e o público lidaram com
as informações sobre o Enem, por isso, o Labic foi solicitado para a realização
dessas pesquisas. O Twitter foi a primeira rede social utilizada para a coleta de
dados de todas informações através de hashtags com o intuito de acompanhar as
contas oficiais dos grandes jornais e usuários mais populares, com a finalidade de
descobrir quem eram as grandes influências nas redes. “Organizada em uma
interface, onde você tem toda a classificação do tipo o que é mais recente o que é
que é mais popular, os usuários mais populares, os links que foram compartilhados
em relação a este conteúdo, as imagens relacionadas a esse conteúdo”.
(PROGRAMADOR 3, entrevista concedida).
118
Entrevista Concedida, 10 de maio de 2018.
179
Ainda sobre a dinâmica do Hash, ela explica que a maior seção é onde
ficaram os posts coletados do Facebook. No menu superior desta seção, temos a
seleção entre conteúdo mais recente e conteúdo mais popular (maior número de
curtidas). Tem um botão de refresh para atualização da seção sem necessidade de
atualizar a página toda. Os posts procuraram seguir o layout original do Facebook
em uma versão clássica (ícones mais simplistas), que contém as quantidades de
curtidas, respostas e compartilhamentos, além de redirecionarem ao post original no
Facebook quando clicados. Todas essas informações são atualizadas a cada meia
hora “porque a coleta de informação em tempo real exige um processamento muito
alto, por isso que foi feito uma coleta de meia em meia hora, já que não vai lidar com
180
movimentos, você tem outro modo de trabalhar com essas imagens. E o Big Data
nos permite criar conexões entre essas imagens que a gente não tinha com o
analógico”.
Ele contou que quando chegou ao laboratório, em meados de 2013, pouco
depois de concluir o Doutorado, em que, ao final, tinha um acervo robusto de
imagens, pensou em digitalizar essas imagens em princípio. Depois, utilizou um
software que o pesquisador Lev Manovich disponibiliza, o ImageJ, que realiza o
processamento de imagens, edição, om visualização de imagens foi o resultado
dessa coleta dos memes durante a análise, além da comparação entre elas.
119
Entrevista concedida em 10 maio de 2018.
183
desenvoltura no que está fazendo, já que ele domina. Na sala dos desenvolvedores,
havia além do programador e eu, há outros três pesquisadores cada um em sua
atividade. A entrevista foi interrompida, algumas vezes, em razão de, como o
programador trabalha remotamente, o mesmo pouco aparece no Laboratório. Por
isso, havia muitas dúvidas sobre o desempenho das atividades, uma vez também
que o mesmo transita entre Desenvolvedor de software e atua também na equipe de
Modelagem.
O último dia da observação etnográfica ocorreu no dia 14 de maio, numa
segunda-feira. Reservei esses dias para a realização das últimas entrevistas
faltantes. Cheguei às 9h no Labic, mas nenhum integrante estava no momento. Fui à
biblioteca setorial. Enquanto os integrantes não chegavam, fui repassando o roteiro
das últimas entrevistas, bem como repassando as minhas anotações ao longo
desses dias. Às 10h, o Laboratório foi aberto por uma pesquisadora. No recinto,
poucos alunos (total de três) que estavam presentes e um silêncio no Laboratório,
nenhuma conversa, a maioria trouxe seus notebooks. Às 11h fiz a entrevista com o
Programador 2 concluinte do curso de Engenharia Elétrica da UFES que integra a
equipe dos Desenvolvedores. A entrevista aconteceu na sala de Modelagem, tendo
em vista o fluxo menor da chegada dos pesquisadores.
Na entrevista, ele explicou, dentre outras questões, o funcionamento e
criação do Ford, que é um software desenvolvido pelo Labic, tanto para a coleta
quanto para a Visualização de Dados e que também consegue “analisar texto, fazer
o grupo de palavras, faz visualizações, grafos, nuvens de hashtags, quais são as
palavras mais recorrentes no dataset, elimina os duplicados [imagens ou textos na
coleta]. Enfim, é bem completo para as nossas atividades”. Ele ressaltou que esse
software está em constante atualização justamente para tentar atender todas as
demandas do laboratório. Questionado sobre quais programas e ferramentas que
são utilizados, o programador respondeu que usa, além do Ford, um outro, o
Framework, que se trata de uma ferramenta para auxiliar o trabalho com dados. “A
gente usa o Framework para comunicação com os dados, de requisição do front-end
e a gente usa nossos próprios algoritmos para fazer categorização textual, para
receber as requisições, categorização e análise textual”.
No turno da tarde, o Coordenador 2 se reuniu com a equipe composta por 4
pesquisadores para acompanhar no relatório sobre as eleições do Governo do
Estado e possivel app que vai ser desenvolvido em 2018, sendo hoje o último,
187
dinâmicas, o que ocorre a partir de junho de 2018 com o projeto monitor de imagens
da Copa do Mundo de 2018 em que são capturadas milhares de imagens e
transformadas em gráfico interativo manipulável com a “pulsão das imagens” em
aspecto de temperatura de cada momento do jogo, sincronizado por meio destas
imagens localizáveis na linha do tempo. Apesar do Labic não investir no aspecto de
interação, o consistente está nas visualizações de dados massivos que contam
histórias e dão visibilidade a interações entre esses dados fazendo emergir
contextos vinculados à geolocalização, imagens e histórias, contadas por dados por
meio da visibilidade permitida pela visualização.
No que se refere aos dados estruturados (Gráfico 13), 50% (5 casos) das
narrativas analisadas são compostas do formato vertical, 10% (1 caso) de mapas
guiados por dados, nenhum em formato horizontal e 40% (4) em “outros” padrões
como bolhas e tags (grafos). O modelo vertical é uma tendência mundial de
organizações jornalística e de laboratórios que trabalham com a visualização de
dados tendo em vista a possibilidade de distribuição de conteúdos variados (texto,
mapas, infográficos, gráficos, entre outros, dados) por meio de formato que se
demonstra mais flexível e profundo para lidar com grandes volumes de dados se
aproximando das narrativas long form (LONGHI; WINQUES, 2015).
194
Dos casos, 10% vem de dados de empresas privadas, 10% dados fechados
(internos). O Labic tem como base a captura de dados abertos oriundos das
interações nas redes sociais. Para tal se utiliza de software como Ford e outros que
195
120
Disponível em: https://goo.gl/TeKwkw acesso em: 28 jan. 2019.
121
Disponível em: https://goo.gl/8M9wpQ acesso em: 28 jan. 2019.
196
de Dados aponta para novo formato de narrativa em que os dados exercem função
central.
Esta investigação tem como objetivo compreender, após exploração do
estudo de caso do Labic, o processo de utilização dos elementos narrativos que
estão presentes nas visualizações de dados do laboratório bem como o estado da
arte em nível mundial a partir do Prêmio de jornalismo de dados por meio das
categorias já delimitadas: Elementos gráficos, interação, Dados estruturados,
Proveniência dos dados, Tecnologias usadas e Inovação.
O Data Journalism Awards 2018 é um evento que acontece anualmente desde
2012, e em 2018 foi em Lisboa, Portugal, e premia os melhores trabalhos com dados
em jornais, revistas e agências de notícias mundiais. Em 2018, foram 630 trabalhos
submetidos ao prêmio de 58 países. Integralizando um total de 86 finalistas, com 13
trabalhos vencedores. Partimos para nossa pesquisa dessa amostra de 13 trabalhos
e delimitamos um corpus de 8 visualizações que atendiam ao recorte ou escopo de
jornalismo de dados. Descartamos do nosso estudo as produções que não se
adequavam à nossa amostra, como startup, app, sites e portfólios. O procedimento
envolveu revisão de literatura, monitoramento e aplicação de Ficha de Observação
submetidas para essas visualizações no período de 17 a 26 de setembro de 2018.
A partir dos dados coletados da observação e do procedimento da análise
dos mesmos, foi possível identificar que a utilização de elementos gráficos nas
visualizações fazendo composição com os dados (exemplo de mapas, infografias,
fotos e interações) para dar vazão à camada de dados e de construção de
visualizações atrativas que possam dar sentido a dados complexos e cruzamento de
dados. Nos 8 casos analisados (Tabela 1 ), os mapas estáticos predominam com
87,5% como lugar para receber dados, com exceção do PostMedia, que não trouxe
nem mapas estáticos e nem dinâmicos. Em seguida, o uso de vídeos enquanto
recurso das narrativas com 75% de uso. Em compensação, tivemos 4 gráficos
interativos em detrimento de 3 gráficos estáticos. Gráficos guiados por dados são 2
(Infotimes e RunRun), em outros momentos os dados vêm incorporados em outros
elementos.
197
No aspecto interação (tabela 3), como recurso que permite maior participação
do usuário no manejo desses dados e de toda a narrativa, identificamos produções
mais avançadas e com uso mais intenso de características de interação com o
predomínio do tipo de interação por Exploração, total de 100% dos casos analisados
(8 de 8), além de 2 casos de Manipulação (PostMedia e Infotimes, que também
concomitantemente apresentaram o grau de exploração, totalizando 25% para esse
item). Nenhum caso foi registrado do nível mais básico, o de Instrução. Essa
possibilidade de interação é um aspecto pertinente para o formato de Visualização
de Dados porque quanto maior o grau de interação, mas aumenta a possibilidade de
cruzamento de dados em nível de personalização pelo usuário. Logo, constitui-se de
um recurso fundamental na construção atual dessas visualizações.
198
Tabela 2 – Interação
aconselha que gráficos de Heat Map, que são os mapas de calor, pode ser um
formato que mais de adequa para grandes volumes de dados e acrescentar cores
para dar um maior destaque a eles. Essa harmonização pode garantir uma
comunicação dos dados adequada.
123
No original: “El cambio ya se ha producido de forma radical”.
209
124
No original: “La visualización de datos no es hoy la traducción de varias figuras en imágenes que
nos hacen entender fácilmente una posible tendencia. La visualización de datos hoy es el mapeo de
mundos anteriormente desconocidos ".
125
No original: “importante sobre la visualización de datos masivos es que ella ilumina nuevas
realidades, que eran invisibles porque eran invisibles. De ellos podemos observar tendencias”.
126
Disponível em: https://public.tableau.com/en-us/s/ Acesso em: 18 fev 2019.
127
Evento que ocorre anualmente em Pamplona, na Universidade de Navarra, na Espanha e premia
as melhores visualizações de dados, infografias, portfólios mundias.
128
Também ocorre anualmente e destaca os melhores trabalhos visuais na área do jornalismo online.
210
organizações jornalísticas emblemáticas como The New York Times , The Guardian
ou Estadão.
Portanto, classificamos como modelo paradigmático contemporâneo visto a
partir de laboratórios de inovação com práticas de Ciência de Dados conforme nossa
tese defende. O confronto dos dados da pesquisa – observações empíricas,
documentos, entrevistas – e a literatura permitem a confirmação. O Laboratório
Labic apresenta as características das nossas questões de pesquisa e os aspectos
em discussão.
A assertiva de que as visualizações de dados se constituem produções no
estilo fast food, de que tais produções “apenas” complementam o texto ou servem
como peças decorativas perdem força argumentativa quando se constata um
ambiente permeado por novas formas de produção vinculadas às tecnologias
digitais avançadas. Do ponto de vista da prática, é notória a observação dos
especialistas em perceber como essas tecnologias e contexto afetam toda a cadeia
de produção, como observar os dados, em como gerenciar, minerar, formatar e
analisar os dados antes mesmo de torná-los públicos. Novas dinâmicas advindas
dos processos de Big Data e Ciência de Dados conferem aos dados uma visibilidade
central, isto é, os dados ocupam a principal matéria-prima de todo o encadeamento
dessas visualizações, da coleta à apresentação.
O fenômeno do Big Data não se restringe a grandes volumes de dados, mas
sim, a resultado da mescla de dimensões e características diferenciadas cujos
efeitos podem ser revolucionários na produção de conhecimento (LAGOZE, 2014).
Neste sentido, a Visualização de Dados é uma área que cada vez mais ganha
espaço nos debates profissionais e acadêmicos nos mais distintos campos do saber.
Uma das mudanças extraídas a partir de nossa investigação, refere-se às narrativas
verticalizadas - como já mencionado anteriormente - e que nesse limiar de
produções em visualizações de dados, consolida-se como uma espécie de “formato
tendência” potencializado e compartilhado pelas características do Big Data e
Ciência de Dados.
A inserção do Big Data e Ciência de Dados nesse cenário em mutação
contínua conduz aos pesquisadores e profissionais a um desafio de reconfiguração
da cadeia produtiva, da coleta à apresentação dos dados visualizados (figura 30).
Trabalhar com dados massivos e coletar grandes volumes de dados, minerar,
descartar dados inúteis, fazer a gestão e armazenamento desses dados, formatar
213
visualizações. De um lado, essa iniciativa pode ser vista de maneira positiva, quando
as políticas de dados abertos estão flexibilizando o acesso. Por outro, há reclames
de que em algumas redes sociais houve uma mudança na política de privacidade da
rede social Facebook, o que dificulta a coleta dos dados, conforme nos alerta o
Coordenador de software do Labic, em entrevista concedida. “Para nós foi uma
inestimável perda porque a gente tinha antes uma ação dos usuários. E o Facebook
tem aquele problema que vive atualizando as versões dele, então há uma constante
atualização nos códigos, agora funciona numa versão mais recente”.
Quadro 7 - Estrutura Dinâmica das Narrativas Disruptiivas de Visualização Guiadas por Dados
a forma como produzir essas narrativas, fase em que Cairo (2011) estabelece como
a era dos gráficos estatísticos. Tais narrativas oferecem a possibilidade de, diante
uma massa de dados, analisar e interpretar aqueles dados. Evidentemente, que nem
todas as narrativas de visualizações de dados vão cumprir ou cumprem essa função,
não se trata de uma regra geral a ser atingida, mas em diagnosticar e fornecer um
retrato desse movimento nas produções visuais.
As Dimensões Tecnológicas estão vinculadas ao desenvolvimento de
ferramentas específicas que atendam à demanda do tratamento dos dados
massivos. Como vimos nos resultados desta tese, o aperfeiçoamento e criação de
novos software e apps são uma prática que desafiam os profissionais e
pesquisadores cotidianamente, para além das linguagens mais utilizadas como R,
Python, HTML5, por exemplo. No caso do Labic, o Ford, software criado por eles,
busca atender toda a demanda dos grandes volumes de dados que eles trabalham,
desde a coleta à apresentação, e o mesmo está sob atualização contínua. Todavia a
dimensão tecnológica está intimamente vinculada às questões de habilidades e
equipe multidisciplinar que atendam a essas produções.
Conforme nossa observação etnográfica mostrou, a necessidade de mesclar
diferentes áreas do conhecimento, o que tornou um “laboratório misto”, é uma
realidade irreversível diante o cenário imposto pelo Big Data. Ora, tem-se, nos
últimos anos, uma gigantesca massa de dados que necessitam de refinamento,
análise e apresentação - só para citar alguns processos - que, em diálogo com
outras áreas (Design, Engenharia, Comunicação, Ciência da Computação)
transcodifica essa linguagem gráfica de modo diferenciado, rompendo com
padrões/modelos vigentes, a exemplo da reportagem multimídia, que é ancorada,
sobretudo, pela utilização de elementos gráficos (textos curtos, áudios, imagem em
movimentos, hiperlinks). Conforme observamos no estudo comparativo entre o Labic
e Prêmio Data Journalism Awards (discutidos no item 6.3.2 desta tese), evidencia o
protagonismo dos dados nas visualizações de dados, o que reforça essa condição.
A mescla de distintos conhecimentos está direcionada aos aspectos de: 1)
Ativismo dos dados - A força do laboratório está na valorização dos dados enquanto
elemento essencial das visualizações no campo da opinião política e da visibilidade
de narrativas por trás dos dados, de storytelling com atuação nesse campo de força
social; 2) Dados guiam as narrativas - os dados são protagonistas das narrativas
disruptivas observadas durante a pesquisa. No caso específico, os grandes volumes
221
Científico. A proposta é refletir sobre três cenários cruciais que podem desdobrar em
novos aportes para estudos da Ciência de Dados e compreender o modo como as
inovações disruptivas suscitam nesse ambiente emergente. Assim, os cenários não
se mostram de maneira estanques dada a dinâmica e atualização contínua dos
dados, mas o objetivo é apontar caminhos a serem descortinados na medida em que
pesquisas e estudos vão se consolidando. Portanto, por cenários disruptivos
indicamos contextos em que a combinação estratégica entre tecnologia, inovação e
formatos implica em condições paradigmáticas, disruptivas que modifica um estado.
software que deem conta do volume de dados, mas encontrar soluções estratégicas
para transformações disruptivas no contexto sociotécnico. Tal fato requer
orientações inovadoras dos dados a partir do ciclo de vida – do surgimento ao
descarte.
Outro desafio observado nesse estudo sobre Ciência guiada por dados é a
necessidade de desenvolver metodologias inovadoras que mobilizem novos
agenciamentos para a exploração do contexto de dados. Teorias e metodologias se
coadunam para a emergência dos grandes volumes de dados – Big Data – em
ambiência digital. Portanto, é necessária a criação de uma infraestrutura confiável
para coleta, disseminação, mineração, compartilhamento, curadoria e adequação
dos dados para visualização. Nesta direção, as contribuições dos fundamentos da
Ciência da Informação (CI), neste novo limiar científico que desponta os dados,
estão alinhadas com a compreensão das consequências e potenciais dos dados na
sociedade como um todo. Um desses potenciais para que os dados possam ser
acessados, coletados, reusados e visualizados é o movimento dos dados abertos
(Open Data Movement) que permitiu um acesso livre para qualquer finalidade, seja
do pessoal aos negócios.
226
227
REFERÊNCIAS
BORGMAN, C. Big Data, little data, no data. Scholarship in the networked world.
Cambridge-London: The MIT Press, 2015. (Kindle version).
BOOZ; ALLEN; HAMILTON. The Field Guide to Data Science 2015. Disponível em:
https://goo.gl/vH1vEr Acesso em: 20 jan. 2017.
BOYD, D.; CRAWFORD, K. (2012). Critical Questions for Big Data: Provocations for
a Cultural, Technological, and Scholarly Phenomenon, Information.
Communication, & Society 15:5, p. 662-679.
BROOME, M.E. Big Data, data science, and big contributions. Nurs Outlook 6 4,
2 0 1 6.
CHIGNARD, S. A Brief History of Open Data. Paris Tech Review. March 29th,
2013.
CLEVELAND, W. S. Data Science: an action plan for expanding the technical areas
of the field of statistics. International statistical review, 69(1): 21–26, 2001.
CLEVELAND, W. S. Visualizing Data. Summit, New Jersey, U.S.A.: Hobart Press,
1993.
CONWAY, D.(2003). The data science venn diagram. Disponível em:
http://migre.me/vlI5x Acesso em: 22 out. 2016.
CURTY, R. G.; SERAFIM, J. S. A formação em Ciência de Dados: Uma análise
preliminar do panorama estadunidense. Inf. Inf., Londrina, v. 21, n. 2, p. 307–328,
maio/ago., 2016.
DAVENPORT, T. Ecologia da informação: porque só a tecnologia não basta para o
sucesso na era da informação. São Paulo: Futura, 1998.
DIGGLE, P. J. Statistics: a data science for the 21st century . J. R. Statist. Soc.
(2015)
EINSENSTEIN, M. The Power of Petabytes. S2. Nature. Vol 257. Novembro, 2015.
FRICKÉ, M. Big Data and its Epistemology. Journal of the American Society for
Information Science and Technology, 66 (4): 651-661, 2015.
GIL, A. C. Métodos e Técnicas de pesquisa social. 6. Ed. São Paulo: Atlas, 2008.
GLEICK, J. A informação: uma história, uma teoria, uma enxurrada. São Paulo:
Companhia das Letras, 2013.
GRAY, J. Jim Gray on science: a transformed scientific method. In: HEY, T.;
TANSLEY, S.; TOLLE, K. (Ed.). The fourth paradigm: data-intensive scientific
discovery. Washington: Microsoft Research, 2009.
GROFF, T. R; JONES, T. P. Introduction to Knowledge Management: KM in
Business, Amsterdam, Butterworth Heinemann, 2003.
GURIN, J. Open Data Now: The Secret to Hot Startups, Smart Investing, Savvy
Marketing, and Fast Innovation. New York: McGraw-Hill Education, 2014. (Kindle
version)
GONZALEZ de GOMEZ, M. N.. O objeto de estudo da Ciência da Informação:
paradoxos e desafios. Ciência da Informação. v. 19, p. 117-122, 1990.
239
HAND, D. J. Statistics and computing: the genesis of data science. Stat Comput.
25:705–711, 2015.
HEY, T., TANSLEY, S., & TOLLE, K. The Fourth Paradigm: Data-Intensive
Scientific Discovery. Microsoft Research, 2009.
HEUVEL, C. V. D.. Multi Multidimensional Classifications: Past and Future
Conceptualizations and Visualizations. In: SMIRAGLIA, Richard P. Ed. Proceedings
from North American Symposium on Knowledge Organization, vol.3. Toronto,
Canada, 2011, pp.102-121
JUNIOR, S.M.C. Por uma Cultura Digital Participativa. In: SAVAZONI, R; COHN,
S (orgs) Cultura Digital.br. Rio de Janeiro: Beco do Azougue, 2009.
JL V. Sancho, Català Domínguez, J; B, Marín Ochoa. Aproximación a una
taxonomía de la visualización de datos. Revista Latina de Comunicación Social,
69, pp. 486-507, 2014.
KITCHIN, R. Big Data, new epistemologies and paradigm shifts. Big Data &
Society . April–June, 2014.
KNAFLIC, C.N. Storytelling with data: a data visualization guide for business
professional. John Wiley & Sons, Hoboken, New Jersey, 2015.
LAGOZE, C. Big Data, data integraty, and the fracturing of the zone control. Big
Data & Society. July-December, 2014. Disponível
em: https://goo.gl/TcsW1r Acesso em: 10 abr. 2018.
LEWIS, Seth C.; WESTLND, Oscar. Big Data and journalism. Digital Journalism.
Vol. 3, No. 3, 447-466, 2015.
MANOVICH, L. Trending: The Promises and the Challenges of Big Social Data. In
Debates in the Digital Humanities., 460–475. Minneapolis, MN: The University of
Minnesota Press, 2012.
MANOVICH, L. Trending: The Promises and the Challenges of Big Social Data.
Disponível em: http://goo.gl/IqlgGF Acesso em: 3 jun. 2015.
MURRAY-RUST, P. (2008). Open data in science. Serials Review 34(1), 52- 64.
FRIENDLY, Michael. A brief History of Data visualization. Handbook of
Computational Statistics: Data Visualization, Toronto, Canadá, 2006.
NAGY, D., SCHUESSLER, J., DUBINSKY, A., 2016. Defining and identifying
disruptive innovations. Ind. Mark. Manag. 57, 119–126.
PALMER, S. Are you ready for Data Science? 2015. Disponível em:
http://migre.me/vls9M Acesso em: 25 out. 2016.
PESET, F; FERRER-SAPENA, A; SUBIRATS-COLL,I. Open data y linked open data:
su impacto en el área de bibliotecas y documentación. El profesional de la
información, marzo-abril, v. 20, n. 2, pp. 164-172, 2011.
PATIL, T. H.; DAVENPORT, D. J. Data Scientist: thesexiestjobofthe 21st century.
Harvard Business Review. 2012. Disponível em: https://goo.gl/65IMw1 Acesso em:
3 jan. 2017.
ROSENBERG, D. Data before the Fact. In “Raw Data” Is an Oxymoron, ed. Lisa
Gitelman, 15–40. Cambridge, MA: MIT Press. 2013.
SOOD, A., TELLIS, G.J., 2011. Demystifying disruption: a new model for
understanding and predicting disruptive technologies. Mark. Sci. 30 (2), 339–354.
SONG, I.; ZHU, Y. Big Data and data science: what should we teach? Expert
Systems, Volume 33, Issue 4, pages 364–373, August, 2016.
STANTON, J. An Introduction data science. Syracuse Universit’ys School of
Information Studies, 2012.
STREIB, F. E; MOUTARI, S; DHEMER, M. The Process of Data in the Emergent
Feature of Data Science. Frontiers in Genetics. Volume 7 February 2016.
TENOPIR, C; ALLARD, S; DOUGLAS, K; AYDINOGLU, AU; WU, L. Data Sharing by
Scientists: Practices and Perceptions. PLoS ONE 6(6): e21101, 2011.
Apêndices
248
Entrevistador:
Data:
Nome do laboratório:
Local:
Nome do entrevistado:
Cargo ou Função:
Duração da entrevista:
Entrevistador:
Data:
Nome do laboratório:
Local:
Nome do entrevistado:
Cargo ou Função:
Duração da entrevista:
Entrevistador:
Data:
Vínculo institucional
Nome do entrevistado:
Cargo ou Função:
Procedimentos
A pesquisa trata-se do procedimento de acompanhamento das atividades dos
participantes por meio do método de observação não-participante com uso de diário de
campo durante as práticas no laboratório de pesquisa estudado e a realização de
entrevistas semiestruturadas gravadas por meio de áudio com duração média de
aproximadamente 30 minutos. O objetivo é investigar a Visualização de Dados no contexto
da Ciência de Dados partindo das rotinas de produção dos participantes no laboratório. A
pesquisa justifica-se como uma possibilidade para compreender o fenômeno da
Visualização de Dados e da Ciência de Dados e do surgimento de novos formatos e
narrativas.
Riscos e desconfortos
Toda pesquisa com seres humanos representa riscos aos participantes por menor
que sejam. Salientamos que os riscos desta pesquisa são baixos. O participante pode se
sentir incomodado pelo método de observação da rotina e da presença da pesquisadora
durante o período decorrente.
Benefícios
Os benefícios estarão representados por meio de contribuição à pesquisa com os
resultados das práticas laboratoriais que ajudarão a comunidade científica e a sociedade a
compreender o aspecto das Visualizações de Dados e de Big Data e as dimensões na
sociedade e no campo científico. Por meios acadêmicos e científicos, o pesquisador
divulgará publicamente o resultado final da pesquisa e você poderá ter acesso. A sua
participação também não acarretará custos financeiros da sua parte.
252
Sigilo e confidencialidade
O pesquisador assegurará o adequado tratamento e armazenamento dos dados
coletados e garantirá o sigilo individual, confidencialidade e anonimato da sua participação.
Liberdade do participante
Informamos que a qualquer momento você pode desistir de participar e retirar seu
consentimento. Sua recusa, desistência ou retirada de consentimento é um direito seu e não
acarretará prejuízo para você. É direito seu, ainda, ser informado sobre a pesquisa, ter a
privacidade respeitada e ser indenizado, nos termos da Lei, no caso de algum dano
decorrente da pesquisa.
Este termo de consentimento encontra-se impresso em duas vias, sendo que uma
cópia será arquivada pelo pesquisador responsável e a outra será fornecida a você.
________________________________________
Assinatura da Pesquisadora responsável
__________________________________________
Assinatura do participante
FICHA DE OBSERVAÇÃO
3 - Interação
3.1 No que se refere ao quesito interação, como se apresentam essas produções a partir da
tipologia de Cairo (2008)?
[ ] Instrução (linear e apresenta botões de avançar e retroceder)
[ ] Manipulação (Quando é possível mudar os objetos dentro da visualização)
254
5. Tecnologias usadas
5.1 Quais foram as tecnologias ou linguagens utilizadas nessas produções?
[ ] Javascript
[ ] HTML
[ ] CSS
[ ] QGIS
[ ] Ilustrator
[ ] Excell
[ ] API Google Maps
[]R
[ ] Python
[ ] PostGIS
[ ] Ruby
[ ] Node
[ ] 3D
[ ] outros: não informado. Provavelmente o Ford ou o Gephi.
6. Inovação
6.1 Quais aspectos de inovação no projeto? [questão qualitativa aberta]
___________________
FONTE: Elaboração própria
OBS: Ficha de Observação da pesquisa doutoral "Visualização de dados no cenário da Data
Science: práticas de laboratórios guiados por dados " da pesquisadora de doutorado Adriana Alves
Rodrigues
255
Anexos
256
Anexo 5 – Big Data na captura de milhões de imagens de redes sociais para histórias visuais