You are on page 1of 264

1

UNIVERSIDADE FEDERAL DA PARAÍBA


PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA INFORMAÇÃO
DOUTORADO EM CIÊNCIA DA INFORMAÇÃO

ADRIANA ALVES RODRIGUES

VISUALIZAÇÃO DE DADOS NO CENÁRIO DA DATA SCIENCE:


Práticas de laboratórios de inovação guiados por dados

JOÃO PESSOA – PB | 2019 |


3

UNIVERSIDADE FEDERAL DA PARAÍBA


PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA INFORMAÇÃO
DOUTORADO EM CIÊNCIA DA INFORMAÇÃO

ADRIANA ALVES RODRIGUES

VISUALIZAÇÃO DE DADOS NO CENÁRIO DA DATA SCIENCE:


Práticas de laboratórios de inovação guiados por dados

Tese de doutorado apresentada ao


Programa de Pós-Graduação em Ciência da
Informação do Centro de Ciências Sociais
Aplicadas da Universidade Federal da
Paraíba, como requisito parcial para
obtenção do título de Doutora em Ciência da
Informação.

Linha de pesquisa: Memória, Organização,


Acesso e Uso da Informação.

Orientador: Professor Dr. Guilherme Ataíde Dias

JOÃO PESSOA – PB | 2019 |


Catalogação na publicação
Seção de Catalogação e Classificação

R696v Rodrigues, Adriana Alves.


VISUALIZAÇÃO DE DADOS NO CENÁRIO DA DATA SCIENCE:
Práticas de laboratórios de inovação guiados por dados
/ Adriana Alves Rodrigues. - João Pessoa, 2019.
264 f. : il.

Orientação: Guilherme Ataíde Dias.


Tese (Doutorado) - UFPB/CCSA.

1. Visualização de Dados. 2. Ciência de Dados. 3.


Ciência da Informação. 4. Narrativa Disruptiva. 5. Big
Data. I. Dias, Guilherme Ataíde. II. Título.

UFPB/BC
5
6

Aos meus Beatles Heitor & Dante (in memoriam),


por tanta coisa, que nem cabe aqui.
7

“De tudo, ficaram três


coisas: a certeza de que ela
estava sempre começando;
a certeza de que era
preciso continuar e a
certeza de que seria
interrompido antes de
terminar. Fazer da
interrupção um novo
caminho. Fazer da queda
um passo de dança, do
medo, uma escada, do sono
uma ponte, da produra um
encontro”.

Fernando Sabino. In: O


Encontro Marcado, 2005.
8

Agradecimentos

A escritura de uma tese carrega uma gama de coautorias e actantes que vai
se costurando, entre teorias e emoções. Nunca é um voo solo. Ao mesmo
tempo, uma teia de amor e segurança foi se formatando, costurando-se em
distintas camadas que foram determinantes na concretização desta tese. Sou
profundamente grata à:

Aos meus pais, Marcílio Rodrigues e Vera Lúcia Alves Rodrigues, por terem
lançado os pilares educativos desde os primeiros passos até aqui. Desde a
graduação e até agora na torcida sempre. Amo muito vocês!

Aos meus irmãos Rodrigo, Rosana e Andrea Alves por todo apoio e
motivações ao longo da minha jornada acadêmica, e à minha sobrinha
Millena Vasconcelos, pela torcida sempre fervorosa. Eu não seria NADA sem
vocês!

Ao meu primogênito, Heitor Milanni Rodrigues, por entender (mesmo sob


protestos), a ausência-presença da mãe e suportar muitas vezes o “daqui a
pouco a gente assiste ao filme”, e, sobretudo, por me conferir o melhor título,
o de "mãe". O meu quinto Beatles, meu jogador, meu gamer, você está em
cada linha escrita aqui. Obrigada por ser sua mãe e me ensinar os dribles.

Ao meu segundo filho, Dante Milanni (in memoriam) que em sua breve
estadia conosco, engradeceu nossas almas de amor, nos fez ver o outro lado
da vida, fez de nós as nossas melhores versões. Nosso anjo protetor,
obrigada por ter sido essa luz divina. Obrigada por ter sido mãe novamente.
Obrigada por nos escolher. Fica bem, meu filho! Nós te amaremos sempre.
Até o nosso reencontro cheio de amor e luz!

Um muito obrigada com muita gratidão ao meu marido e companheiro de


todas as horas, Fernando Firmino da Silva, por todo o apoio e paciência
necessários, por atravessar conosco por caminhos inimagináveis, por ser
“pãe”, por seu amor sem medidas.

Aos professores do Programa em Pós-Graduação em Ciência da Informação


(PPGCI/UFPB) em especial a: Bernardina Freire, Edvaldo Alves, Marckson
Sousa, Emeide Nóbrega, Dulce Amélia, Edivânio Duarte, Joana Coeli, pelas
contribuições acadêmicas, ampliação do conhecimento em CI e pelo
amadurecimento desta pesquisa. Em especial ao meu orientador, Guilherme
Ataíde Dias, pelas orientações e sugestões de melhorias, paciência, amizade
durante todo esse percurso.
9

Aos professores que participaram da banca examinadora: Profa. Dra. Signe


Silva, Prof. Dr. Wagner Junqueira, Prof. Dr. Rodrigo Cunha e Prof. Dr. Carlos
d’Andrea, pelas valiosas observações e pontos de críticas para a melhoria da
tese.

Aos professores e colegas do curso de Comunicação Social - Jornalismo da


Universidade Estadual da Paraíba (UEPB), entre eles tantos, Luiz Custódio,
Antônio Roberto Faustino, Ada Guedes, Agda Aquino, Michele Wadja,
Antônio Simões, Luciellen Souza, Lívia Cirne (quando estava vinculada à
Universidade) pela torcida sempre presente.

Às queridas professoras-amigas-mães de longas datas da UEPB e da vida,


Socorro Palitó, carinhosamente “a minha segunda mãe”, sempre emanando
energias positivas e bons fluidos em todos os percursos da minha vida, e
Águeda Miranda Cabral (in memoriam), por ter sido, em vida, uma amiga
generosa e grande incentivadora, você está aqui sempre!

A todos do Labic da UFES pela acolhida e receptividade durante a pesquisa


etnográfica.

Agradeço a todos os especialistas que aceitaram participar das entrevistas


sobre Visualização de Dados, contribuindo, assim, para a consolidação dessa
investigação.

Aos alunos dos cursos de Biblioteconomia e Arquivologia da UFPB, enquanto


a realização do estágio docente (2016.1 e 2016.2). Obrigada por me
receberem tão bem, pelos debates tecnológicos e fílmicos, pelas aulas
divertidas, e por serem tão atenciosos e prestativos. Esse foi o melhor
estágio!

Aos colegas do doutorado, na qual dividimos as angústias e descobertas


nesse limiar científico (e muitos cafés também), com muitas conversas extra-
sala de aula, em destaque: Wendia Oliveira, Robéria Andrade, Geysa Flávia,
Tiago Silva, Guilherme Alves, Derek Warnick, Suellem Brito, Suzana Lucena,
Rosa Manoela, Noadya Tamillis. Meu muito obrigada!

Ao grupo da “CI da Depressão”, formado por: Edcleyton Fernandes, Rosa


Manoela, Laiana Sousa, Elaine Epifane, Mayara Machado, Thamyres
Ferreira, Carla Almeida, Niele Lopes, Ediene Sousa, Gabriela Oliveira, Diogo
Sampaio, Irvin, Fabiano Serrano, por toda acolhida nos intercâmbios
acadêmicos e das trolagens. Foi maravilhoso esse grupo!

Aos demais amigos que a CI me deu: Giselle Arantes, André Luiz, Renata
Lemos, Mariana Cantisani, Herbert Rêgo, Polliana Marys, um agradecimento
especial a Márcia Saeger, pela simpatia e divisão das angústias e
descobertas, Wendia Bandeira e Thaís Catoira, pela divisão das angústias na
reta final.
10

A todos os amigos-jornalistas-pesquisadores, em destaque, William Robson,


pela amizade e sugestões pertinentes sobre o tema de pesquisa; Emilson
Garcia Júnior, que, de aluno, se tornou um grande amigo e incentivador
nessa caminhada acadêmica; Às queridas Michele Wadja e Agda Aquino,
que embarcaram nessa jornada de muito aprendizado.

A minha terapeuta, Grabriela Soares, por me amparar nos momentos mais


difíceis, no auxílio para reencontrar o leme durante o processo de luto, pelas
orientações certeiras, pelas dicas de leituras, pelo alívio no meu emocional e
abraços fraternos. Obrigada, querida!

Ao pessoal da secretaria do Programa de Pós-graduação em Ciência da


Informação (PPGCI/UFPB) pelo apoio e paciência na solução das demandas
burocráticas.

Agradecimentos especiais aos software amigos nessas horas, como o


Evernote (anotações no diário de campo), Dropbox (pelo armazenamento)
sempre me salvando de qualquer perigo; Spotify, paras as horas de
desestresse. Love you so much.

À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)


pelo financiamento nesses quatro anos de bolsa de doutoramento.

Por fim, agradeço à cidade de João Pessoa (PB) que me acolheu durante os
estudos do doutorado.

A Deus, sempre! O alimento da minha alma, por me guiar nessa caminhada,


minha luz protetora, minha fortaleza e bússola divina. Obrigada, meu mestre,
obrigada, universo!
11

Resumo
Investiga o impacto da Visualização de Dados e seus desdobramentos no
contexto da Data Science e da Ciência da Informação. A tese defende a
existência de narrativas disruptivas de Visualização de Dados guiadas por
dados nos laboratórios de inovação e constitui-se em um processo de
reconfiguração emergente para novos formatos como foi em sua origem com
a "explosão informacional" na década de 1940. Como metodologia, a
pesquisa tem caráter quali-quantitativa, constituindo em estudo de caso a
partir do objeto empírico do Laboratório de Estudos sobre Imagem e
Cibercultura (LABIC). Além disso, utilizou-se de abordagem etnográfica
baseada em observação não-participante e entrevistas semiestruturada de
práticas de laboratório de inovação guiado por dados visando a estruturação
de Visualização de Dados, monitoramento destas produções, somando à
pesquisa bibliográfica que perpassa referencial teórico interdisciplinar sobre
Ciência da Informação, Design da Informação, Big Data, Ciência de Dados e
Visualização de Dados, Teoria da Inovação Disruptiva. Como resultado, a
investigação identificou, no estudo de caso analisado, que práticas inovadoras
podem construir narrativas disruptivas de Visualização guiadas por Dados a
partir da exploração de grandes volumes de dados (Big Data) em contexto da
Ciência de Dados.

Palavras-chave: Visualização de Dados. Ciência de Dados. Ciência da Informação.


Narrativa Disruptiva. Big Data.
12

Abstract
It investigates the impact of data visualization and Big Data and its unfolding in the
context of Data Science and Information Science. The thesis defends the
existence of disruptive narratives of data-guided visualization in innovation
laboratories and is an emerging reconfiguration process for new formats as it was
in its origin with the "information explosion" in the 1940s. As a methodology, the
research is qualitative and quantitative, constituting a case study based on the
empirical object of the Laboratory of Image and Cyberculture Studies (LABIC). In
addition, we used an ethnographic approach based on non-participant observation
and semi-structured interviews of laboratory practices of data-guided innovation
aiming at the structuring of Data Visualization, monitoring of these productions,
adding to the bibliographic research that permeates an interdisciplinary theoretical
reference on Science Information Technology, Information Design, Big Data, Data
Science and Data Visualization, Theory of Disruptive Innovation. As a result,
research has identified in the case study that innovative practices can construct
disruptive narratives of Data-Driven Visualization from the exploitation of large
data volumes (Big Data) in the context of Data Science.

Palavras-chave: Data Visualization. Data Science. . Information Science. Disruptive


Narrative. Big Data.
13

lista
de figuras
Figura 1 - Estrutura da tese........................................................................... 36
Figura 2 - Diagrama de Venn desenvolvido por Conway.............................. 56
Figura 3 - Modelo de Ciclo de Vida dos dados desenvolvido pelo DataONE 70
Figura 4 - Modelo de Ciclo de Vida de dados na Ciência da Informação...... 72
Figura 5 - Ilustração “Mão de Guido”, em 1274............................................. 101
Figura 6 - O horóscopo Universal da Companhia de Jesus, em 1646.......... 101
Figura 7 - Calendários Medievais de 1496…………………………………….. 102
Figura 8 - O mapa mais antigo do mundo feito na Babilônia………………… 103
Figura 9 - Diagrama de fusos horários de 1862............................................ 103
Figura 10 - Diagrama de Florence Nightingale, de 1858................................. 104
Figura 11 - Diversos mapas por Francis A. Walker, de 1874.......................... 105
Figura 12 - Mapa metereológico de 1845........................................................ 106
Figura 13 - O homem Vitruviano de Leonardo da Vinci................................... 107
Figura 14 - Mapa da Cólera feito pelo médico John Snow, em 1854.............. 108
Figura 15 - Dataviz do The New York Times, em 2008................................... 114
Figura 16 - Monitor da Violência do portal G1 mapeia casos nacionais.......... 118
Figura 17 - Layout do site do Labic.................................................................. 145
Figura 18 - Laboratório do Labic na UFES...................................................... 147
Figura 19 - Processo de coleta de dados estruturados no dataset................. 152
Figura 20 - Dados exportados para o Gephi.................................................... 153
Figura 21 - Resultado final da visualização de grafos..................................... 153
Figura 22 - Exemplos de dados brutos............................................................ 157
Figura 23 - Exemplo da etapa 2 de evidenciar o dado.................................... 158
Figura 24 - Modelo de Script da visualização.................................................. 159
Figura 25 - Conjunto de imagens coletadas na Copa do Mundo da Rússia... 163
Figura 26 - Visualização das imagens capturadas pelo Labic......................... 170
Figura 27 - Interface Gráfica do Hash.............................................................. 179
Figura 28 - Coleta de imagens na Copa e Linha do tempo............................. 183
Figura 29 - Visualização de dados das imagens coletadas pelo software
do Labic......................................................................................... 183
Figura 30 - Equipe multidisciplinar e processos narrativos com dados........... 213
Figura 31 - Nuvem de tag resumo dos resultados da tese.............................. 214
14

lista
de gráficos

Gráfico 1 - Esquema das disciplinas compondo a área da Data Science 58


Gráfico 2 - Os 5V do Big Data conforme Marr........................................... 81
Gráfico 3 - Perfil do Cientista de Dados..................................................... 93
Gráfico 4 - Visualização de Dados criada por Charles Joseph Minardi
sobre o exército de Napoleão em Moscou de 1869................. 109
Gráfico 5 - Exemplo de uso de ícones nos gráficos de Otto Neurath........ 110
Gráfico 6 - Dataviz do The New York Times utilizando base de dados,
em 2007.................................................................................... 113
Gráfico 7 - Dataviz sobre as Eleições norte-americanas de 2016............ 115
Gráfico 8 - Dataviz do The New York Times sobre as eleições de 2016... 116
Gráfico 9 - Projeto de dados Basômetro do jornal Estado de S.Paulo...... 117
Gráfico 10 - Visualização das imagens sobre Marielle Franco.................... 161
Gráfico 11 - Elementos gráficos nas Visualizações do Labic...................... 192
Gráfico 12 - Tipos de Interação nas visualizações do Labic........................ 193
Gráfico 13 - Dados Estruturados.................................................................. 194
Gráfico 14 - Proveniência dos Dados........................................................... 194
Gráfico 15 - Proveniência dos Dados........................................................... 200
Gráfico 16 - Tecnologias Utilizadas.............................................................. 200
15

lista
de tabelas

Tabela 1 - Elementos gráficos nas visualizações................................ 197


Tabela 2 - Interação ............................................................................ 198
Tabela 3 - Dados estruturados............................................................. 199
16

lista
de quadros

Quadro 1 - Níveis de Medição de Dados............................................ 44


Quadro 2 - Definições de Dados obtidas na literatura........................ 46
Quadro 3 - Definições de Big Data obtidas na literatura..................... 78
Quadro 4 - Definições de Visualização de Dados obtidas na literatura 98
Quadro 5 - Laboratórios de Visualização de Dados/Ciência de Dados
vinculados às Universidades.............................................. 128
Quadro 6 - Dinâmica de Produção do Labic......................................... 149
Quadro 7 - Estrutura Dinâmica das Narrativas Disruptivas de
Visualização Guiadas por Dados........................................ 217
17

lista
de abreviações e siglas

CI Ciência da Informação
CAPES Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
UFPB Universidade Federal da Paraíba
DATAVIZ Visualização de Dados
ENANCIB Encontro Nacional de Pesquisas em Ciência da Informação
UFES Universidade Federal do Espírito Santo
TDIC Tecnologias Digitais da Comunicação e Informação
OAIS Open Achival Information System
NSB Nacional Science Board [dos Estados Unidos]
IBM International Business Machines
5V Volume, Velocidade, Variedade, Veracidade e Valor
LAB Laboratório
LABIC Laboratório de Estudos sobre Imagem e Cibercultura
18

Sumário

Notas introdutórias – a origem do percurso.................................. 20


1 INTRODUÇÃO: DATA EVERYWHERE....................................... 22
1.1 Problema de pesquisa................................................................... 28
1.2 Hipóteses....................................................................................... 33
1.3 Objetivos........................................................................................ 33
1.3.1 Objetivo geral................................................................................ 33
1.3. Objetivos específicos..................................................................... 33
1.4 Motivação...................................................................................... 34
1.5 Estrutura da tese........................................................................... 35

2 ESTUDOS DOS DADOS: UMA ABORDAGEM ONTOLÓGICA.. 39


2.1 Enquadramento conceitual............................................................ 40
2.2 Estudos da Data Science.............................................................. 49
2.2.1 A emergência de um campo em construção................................. 49
2.2.2 Perspectivas interdisciplinares...................................................... 55
2.3 O movimento dos dados abertos (open data moviment)............... 61
2.4 Estudos de dados na Ciência da Informação................................ 65

3 O FENÔMENO DO BIG DATA..................................................... 74


3.1 Big Data na contemporaneidade: o estado da questão................ 75
3.2 Definiçõe para o fenômeno do Big Data........................................ 77
3.3 O mundo datificado....................................................................... 80
3.4 A Ciência de Dados na era do Big Data........................................ 85
3.4.1 Gestão de dados e o perfil do Cientista de Dados........................ 88

4 VISUALIZAÇÃO DE DADOS........................................................ 95
4.1 Fundamentos teóricos................................................................... 96
4.2 Principais marcos históricos da Visualização de Dados............... 100
4.2.1 Renovação da Visualização de Dados (1950 a 1975).................. 111
4.2.2 Visualização de Dados dinâmicos (1975 a...)............................... 112
4.3 Heurísticas da Dataviz................................................................... 118
19

4.4 Narrativas com dados: o próximo passo da visualização............. 122


4.5 Mapeamento de laboratórios de inovação e visualização ............ 126

5 DESENHO DA PESQUISA E MÉTODOS................................... 131


5.1 Percurso metodológico.................................................................. 132
5.2 Protocolo de coleta de dados e estruturação da abordagem
etnográfica: pesquisa de campo.................................................... 139
5.3 Apresentação e Análise dos Dados: procedimentos..................... 142

6 RESULTADOS DA PESQUISA: LABORATÓRIO DE


INOVAÇÃO E AS NARRATIVAS DISRUPTIVAS DE
VISUALIZAÇÃO DE DADOS E BIG DATA.................................. 144
6.1 Caracterização do Laboratório LABIC.......................................... 145
6.1.1 Estrutura e fluxo de trabalho do LABIC........................................ 148
6.2 Observações etnográficas no LABIC: Diário de Campo e
desvendando as práticas laboratoriais com Big Data................... 165
6.3 DataViz: narrativas disruptivas de visualizações guiadas por
dados............................................................................................. 189
6.3.1 Resultado das visualizações de dados no LABIC......................... 191
6.3.2 Resultado das visualizações de dados do Prêmio Data
Journalism Awards........................................................................ 195
6.3.3 Matriz comparativa: LABIC e Prêmio Data Journalism Awards.... 201
6.3.4 Entrevista: diálogo com especialistas............................................ 203
6.4 DISCUSSÃO DOS RESULTADOS: novas dinâmicas advindas
dos processos de Big Data e Ciência de Dados........................... 211
6.5 Especificando as narrativas disruptivas de visualização guiada
por dados...................................................................................... 215
6.5.1 Prospecção para da Data Science em cenários disruptivos......... 222

7 CONSIDERAÇÕES FINAIS.......................................................... 226


7.1. Apontamentos para trabalhos futuros........................................... 233

REFERÊNCIAS............................................................................. 235
APÊNDICES.................................................................................. 247
ANEXOS....................................................................................... 255
20

Notas introdutórias - a origem do percurso

Os anseios e interesse pelas imagens gráficas remontam ainda a um


terreno que, para mim, soava como o desconhecido. Era 2003 quando me
deparei com os estudos sobre imagens visuais para o meu projeto de TCC,
ainda na graduação, e pela qual me fascinei até hoje a partir da infografia. E,
por conseguinte, o que seria apenas uma temática a ser estudada em nível
de graduação, tornou-se meu objeto de estudo fidedigno por longos anos.
Ainda na graduação, comecei a explorar os infográficos e sua linguagem de
discurso na Revista Veja, o que me despertou, posteriormente, o desejo de
aprofundar mais essa temática. Imagens e palavras gráficas me instigavam
mais a pesquisar, e queria (e ansiava muito) em entender/descortinar esse
objeto obscuro. Na época, as pesquisas em infográficos davam seus
primeiros passos no Brasil, sobretudo, nos cursos de Jornalismo, Design
Gráfico e Ciência da Computação, áreas que são interdisciplinares e
continuam dialogando proficuamente até hoje.
Compreender a linguagem multimídia em ambientes digitais cada vez
mais velozes e mutáveis continuava ser o foco das minhas pesquisas, e, na
pós-graduação (especialização), estudei a linguagem multimídia nos
infográficos, algo que me rendeu (e rende) muitos insights que
fundamentaram a minha pesquisa de mestrado. Desta vez, reposicionando e
colocando num patamar discursivo mais aprofundado com a inserção das
bases de dados no jornalismo digital, a partir das iniciativas do The New York
Times (um dos objetos analisados), principal vetor de mudança nestes
produtos.
Nesta pesquisa, definimos as fases dos infográficos, tipologia que
necessitava ser estabelecida no âmbito acadêmico através das
transformações conjunturais e tecnológicas vigentes, tendo em vista o salto
qualitativo nestas produções em larga escala com as bases de dados. Tais
ideias, que estavam sendo construídas no decorrer, foram apresentadas em
congressos e eventos em Jornalismo, sobretudo, na Sociedade Brasileira de
Pesquisadores em Jornalismo - SBPJor, um dos principais eventos da área
de Comunicação/Jornalismo e onde tive maior interlocução acadêmica.
Nesse intervalo para a entrada no Doutorado, novos caminhos se
abriam para ser descortinados, agora, em um contexto permeado por dados
21

ubíquos e dinâmicos. Um olhar centrado em Visualização de Dados na era do


Big Data, o que proporcionou novas roupagens nas linguagens gráficas, com
tratamento diferenciado e novos ângulos de abordagens, em que estas
produções emergiram como as principais catalisadoras deste ambiente
permeado por dados everywhere.
Sendo assim, com novos desafios postos, o descortinamento destas
novas possibilidades marcaram o começo de uma jornada instigante que
traria a vontade de adentrar mais neste universo cada vez mais complexo e
mutante. Dito isso, a tese ora empreendida aponta para o horizonte de
pesquisa que não podemos perder de vista, considerando todas as oscilações
trazidas pela cibercultura, dos ambientes digitais, dos dados complexos
sempre em movimento, do curso da vida que também segue esse movmento
. Acompanhada da insistência regada com inquietações, mergulhei fundo
nessa problematização, de cavar e juntar as partes de um todo, de recortar,
filtrar, analisar, redefinir, inquietar-se ainda mais à frente de novos comandos,
aos novos campos etnográficos, aos novos olhares científicos.
Por último, essa tese está, assim, fundamentada nessa propositura de
inquietações, de persistências e de novos olhares, que se moldou ao seu
momento e ao seu contexto, com todas as benesses e intempéries advindas
da trajetória acadêmica. Como afirma Schopenhouer, “A tarefa não é tanto
ver o que todo mundo ver o que ninguém tenha visto, mas pensar o que
ninguém pensou a respeito do que todo mundo vê”. Talvez isso seja a
bússola. Namastê!
22
23

“Minhas certezas se alimentam de dúvidas”


Eduardo Galeano

Em uma conjectura cada vez mais baseada em dados, as tecnologias digitais


que permitem coleta, produção e disseminação tornam-se cruciais para a exploração
e a compreensão dos dados, mais particularmente dos grandes volumes de dados
(Big Data). O emprego das técnicas de Visualização de Dados (Dataviz) nesse
campo é uma estratégia emergente e de inovação que tem sido explorado em
distintas áreas do conhecimento e recebido cada vez mais atenção em estudos e
pesquisas na atualidade (CAIRO, 2012; MANOVICH, 2011; DUR, 2014; JL
VALERO, 2014).
Os estudos dos dados possuem sinergias com as origens da Ciência da
Informação (CI), que ganhou impulso a partir da década de 1940 através do artigo
célebre de Vannevar Bush As we may think de 1945 (BARRETO, 2012) e, no Brasil,
a partir da década de 1970 com a implantação dos primeiros cursos da área
(FREIRE; FREIRE, 2012). A gênese contemporânea da CI advém, portanto, da
explosão informacional pós-guerra (PINHEIRO, 1999; NEPOMUCENO, 2011). Essa
dimensão da CI se coaduna com a investigação da tese ora apresentada à medida
que a Visualização de Dados é uma demanda atual para dar sentido ao volume de
grandes proporções de dados, o Big Data, armazenado em bases de dados
públicas, privadas ou em outras instâncias informacionais do ciberespaço. “O Big
Data pode ser definido como grande quantidade de dados, que podem ser
capturados, comunicados, agregados, armazenados e analisados - é agora parte de
cada setor e função da economia global1" (MANIKA et al., 2011, p.4, tradução
nossa). Big Data é um termo utilizado para definir grandes volumes de dados, que
podem ser acessados, processados e visualizados através de sistemas

1
No original: “"Big Data—large pools of data that can be captured, communicated, aggregated, stored,
and analyzed—is now part of every sector and function of the global economy ”.
24

computacionais. Logo, emerge para o século XXI implicações de natureza técnica,


teórica, metodológica e epistemológica na tentativa de compreensão das
transformações dos dados e sua visibilidade no contexto da CI.
Neste sentido, compreendemos que as Visualizações de Dados têm sido
construídas a partir do uso de dados de modo az estabelecer narrativas que podem
ser consideradas disruptivas em decorrência da complexidade assumida de
cruzamento de dados e uso de Big Data desencadeando processos de
reconfiguração nesse campo de apresentação de dados.
Quanto aos aspectos epistemológicos do tema, os estudos sobre a Ciência da
Informação advém da década de 1940 com a organização e indexação da
informação como um problema de caráter científico. Todavia, no momento atual o
processamento de dados confere nova relevância considerando a dimensão que a
Visualização de Dados adquiriu em decorrência dos grandes volumes de dados (Big
Data). Devido ao caráter interdisciplinar do fenômeno em voga (Comunicação,
Ciência da Informação, Computação, Design da informação, Estética, Estatística,
Cartografia etc.), a Visualização de Dados2 se coaduna com as bases de dados do
Big Data e da Ciência de Dados e representa um fenômeno pertinente para a CI,
que já incorpora essa natureza interdisciplinar desde o seu surgimento no
relacionamento com a biblioteconomia, a matemática, a comunicação, a
computação, o design, entre outras áreas e subáreas (BRAGA, 1995).
A partir dos estudos teóricos da Visualização de Dados (CAIRO, 2011;
MEIRELES, 2011; VALERO SANCHO, 2014; VIÉGAS, 2013; PAULINO, 2019;
KNAFLIC, 2015) investigaremos o fenômeno do Big Data e a exploração dos dados
complexos por meio da Ciência de Dados (Data Science), enquanto ciência guiada
por dados, na perspectiva teórica e metodológica. Broome (2016, online) ressalta,
em sua definição, que “a Ciência de Dados é uma filosofia, um conjunto de métodos
e um conjunto de análise que incide sobre o armazenamento de dados, transporte e
procedimentos de limpeza, além de ferramentas de visualização”3. Em consonância
com à assertiva, a Ciência de Dados se constitui em um campo interdisciplinar

2
Na literatura, os conceitos de Visualização de Dados e visualização de informações aparecem como
sinônimos. Entretanto, utilizaremos como conceito central o de Visualização de Dados por ser mais
corrente e consolidado na relação com o Big Data e bases de dados e na literatura sobre o tema
conferindo mais precisão ao nosso objeto.
3
No original: “Data science is a philosophy, a collection of methods and a suite of analytics that
focuses on data storage, transport, and cleaning procedures in addition to visualization tools”.
25

(PORTO; ZIVIANI, 2014; DHAR, 2013), de modo que os cientistas de dados têm
formação em áreas distintas e utilizam métodos automatizados para recolher, extrair
e analisar enormes quantidades de dados em um processo dinâmico e complexo
com o intuito de transformá-los em visualização. E, nesta intervenção, consideramos
as implicações para a Ciência da Informação e os desdobramentos possíveis em
termos de situação-problema e de potencializações.
As pesquisas com esse tema na CI mantém focos bem distintos como refletir
a Visualização de dados para facilitar a compreensão das informações (DIAS, 2007);
segurança da informação (GRÉGIO et al, 2009); entendimento e interpretação em
contextos educacionais (LEMOS et al, 2017); auxílio para a recuperação da
informação VIEIRA; CORREA, 2011; VIEIRA; PINHO, 2015; BARBOSA; KOBASHI,
2017); como memória dinâmica no ciberespaço (RODRIGUES; FREIRE; DIAS,
2017); apoio à gestão estratégica da informação (OLIVEIRA; WILDNER; PRETTO,
2018), gestão de projetos (BARBOSA; FRANÇA; RODRIGUES; PARREIRAS,
2018). Tais pesquisas demonstram os esforços em analisar as contribuições da
Visualização de Dados para a CI sob variadas perspectivas, o que pode contribuir
para a ampliação das pesquisas científicas e temáticas estudadas na area. Em
contrapartida, a CI pode se beneficiar dos estudos da Visualização como modo de
fortalecimento de diálogos interdisciplinares e contributos a sua consolidação em
abordar temáticas diferenciadas.
Outras pesquisas e estudos teóricos enquadram o nosso objeto com o
potencial de contar histórias com dados (SEGEL; HEER, 2010; HULLMAN;
DIAKOPOULOS, 2011; FIGUEIRAS, 2013; KOSARA; MACKINLAY, 2013; KNAFLIC,
2015). Nesta conjectura, as Visualizações de dados ganham evidências e conduzem
para novas camadas de compreensão, ao utilizar cada vez mais dados em variados
níveis de complexidade, aprofundamento, cruzamento dos dados com o intuito de
dar conta da mensagem que se deseja transmitir por meio da modelagem e das
etapas de construção em laboratórios de inovação. Nesse processo, surgem o que
definimos de narrativas disruptivas a partir da contribuição da Teoria da Inovação
Disruptiva, de Christensen (2006), que é o processo em que um produto ou serviço
tem uma grande ascensão e, por conta disso, posiciona-se na dianteira, e também
utilizamos as conceituações de Storytelling with Data de Knaflic (2015), em que a
autora aponta as características de composição das mesmas. Não se trata, portanto,
de algo pronto, acabado, mas de um processo em desenvolvimento, de
26

transformação, de reconfiguração. Nesse contexto, tecnologias e processos vão


surgindo e provocando aspectos de disrupções
Fundamentada nestas teorias, elaboramos o conceito de narrativas
disruptivas, que são aquelas constituídas em meios digitais a partir de elementos
dinâmicos cruzados entre Visualização de Dados e Big Data e proporcionam uma
experiência distinta do que vinha sendo produzido anteriormente, ou seja,
apresentam caraterísticas inovadoras, explorando as potencialidades da ambiência
digital.
Logo, no contexto dessa tese de doutorado posicionamos as narrativas
disruptivas como as estruturas de Visualização de Dados operadas por novos
formatos e que envolvem, em sua composição, mega dados que combinam
bases de dados em volume e estética. Essas narrativas se materializam
através de diversos formatos como bolhas, nuvem de tags, cores, mapas e
outros recursos visuais que geram camadas para acomodação dos dados ou
níveis de interação com o conteúdo. A entrada do Big Data nessas
construções de Visualização de Dados é o fator de reconfiguração de tais
narrativas, bem como a Ciência de Dados vislumbrando diretamente na parte
analítica dos dados. A partir do aspecto de inovação, temos o papel das práticas
de laboratórios de inovação que exploram esses dados e transformam em
visualização na combinação entre Big Data e Visualização de Dados.
Tanto no campo científico quanto no jornalismo, as Visualizações de Dados
em forma de narrativas disruptivas representam, sobremaneira, uma contribuição
para a composição gráfica de dados científicos. Como parte constitutiva das
Visualizações de Dados, compreendemos por dados complexos os originados a
partir de cruzamentos de várias instâncias de dados e em grande volume, o que
implica em construção de narrativas diferenciadas e visualizações que envolvem
diversos campos de exploração.
Ainda no contexto da CI, os estudos dos dados, mais recentemente,
estiveram vinculados, sobremaneira, com esforços teóricos e delimitações
conceituais numa logística de identificação das estruturas de compreensão nas
quais as pesquisas apresentam diferentes focos de angulação. A tríade conceitual
dado, informação e conhecimento são recorrentes na literatura, atuando como um
quadro de referência para nortear a perspectiva teórica e semântica das práticas
discursivas e de pesquisas que integram no escopo teórico que contempla esta
27

temática, de forma mais específica o conceito de dados, questão que exploraremos


com mais detalhes no capítulo 2.
Neste sentido, as pesquisas sobre dados na Ciência da Informação têm sido
desenvolvidas numa perspectiva de curadoria e compartilhamento (SALES; SAYÃO,
2012; 2013; CAREGNATO; ROCHA, 2013; MEDEIROS; CAREGNATO, 2012;
TENOPIR et al, 2011; 2015; BORGMAN, 2012), de Dados de Pesquisa (BORGMAN,
2014; 2015; SALES; SAYÃO, 2014, 2015), nos estudos sobre e-Science (GRAY,
2009; SCHOREDER, 2008; ALBAGLI et al, 2014; SALES; SAYÃO, 2015; 2014;
APPEL; MACIEL; ALBAGLI, 2016), Big Data (RIBEIRO, 2014; SOUZA,. ALMEIDA,
M. B. ; BARACHO, 2015; BORGMAN, 2015), no Ciclo de vida dos dados e na sua
Recuperação (SANT’ANA, 2013; RODRIGUES; SANT’ANA; FERNEDA, 2015) e
Visualização de Dados (RODRIGUES, 2009; TUFTE, 2011, LIMA, 2011; FEW, 2012;
CAIRO, 2012;). Os desdobramentos de novas pesquisas e a consolidação de
estudos mais sistematizados acerca dos dados conferem novas dinâmicas e
enfoques para compreensão do conceito de dados e sua influência no contexto
informacional.
Da mesma maneira da CI, a Data Science abrange um conjunto de
conhecimentos: Ciência da Computação, Matemática, Estatística, Sociologia,
Biologia, Economia, Finanças, Medicina, Bioinformática (STREIB; MOUTARI;
DEHMER, 2016). Deste modo, a Ciência de Dados contribui de forma central para a
Visualização de Dados na sua concepção teórica para dados e no aspecto
operacional do processamento destes no Big Data e o delineamento de narrativas
complexas e disruptivas em ambientes digitais (FEW, 2012; CAIRO, 2012; LIMA,
2011, TUFTE, 2001). Da perspectiva conceitual, a Visualização de Dados traz novas
implicações e tensões envoltas a aspectos éticos, políticos, de privacidade e das
formas de apropriação das informações. A reflexão crítica sobre o fenômeno é
fundamental para compreensão da sua inserção e a consciência de seus
desdobramentos tanto em termos de potencialidades quanto de consequências na
perspectiva sociotécnica.
Na nossa investigação, os dados representam o ponto de partida para
compreensão da dinâmica da visualização no Campo da Ciência da Informação no
Século XXI, em que tal fenômeno emergiu a partir da alcunha de Big Data ou de
explosão de dados com impacto em diversos setores: ciência, economia, medicina,
comunicação, Ciência da Informação. Deste modo, a Ciência de Dados contribui de
28

forma central para a Visualização de Dados na sua concepção teórica para dados e
no aspecto operacional do processamento destes no Big Data e o delineamento de
narrativas complexas e disruptivas em ambientes digitais (FEW, 2012; CAIRO, 2012;
LIMA, 2011, TUFTE, 2001).
Considerando essas facetas, trabalharemos com um referencial teórico
interdisciplinar visando aprofundar e compreender o objeto, a exemplo de autores
sobre as temáticas da Ciência da Informação (PINHEIRO, 1999; RIBEIRO, 2012;
BARRETO, 2012; HEUVEL; RAYWARD, 2011; HEUVEL, 2011; SARACEVIC, 1996),
de Visualização de Dados (KOSARA, 2012; NAKANO, 2012; FEW, 2012; CAIRO,
2012; LIMA, 2011; FRIENDLY, 2006; TUFTE, 2001;), Big Data e Ciência de Dados
(LANEY, 2001; BOYD; CRAWFORD, 2010; BARLOW, 2013; MAYER-
SCHONBERGER; CUKIER, 2013; BORGMAM, 2015; FRICKÉ, 2015) e Teoria da
Inovação Disruptiva (CHRISTENSEN, 1997). A partir desse contexto explorado,
partimos para a definição do problema de pesquisa e suas variáveis em torno da
Visualização de Dados no delineamento a partir do Big Data e Ciência de Dados.

1.1 Problema de pesquisa

A Visualização de Dados vivencia uma nova “era de de ouro” (FRIENDLY,


2009) caracterização da explosão informacional através da era do Big Data na
contemporaneidade. Se a preocupação inicial da Ciência da Informação era, entre
outros aspectos, em como coletar, organizar, armazenar e recuperar as
informações, na atualização do fenômeno enquanto problema de pesquisa decorre
agora em como transformar esses dados em visualização de modo a oferecer uma
nova interpretação e significado de dimensão social, informacional e comunicacional.
As investigações em Visualização de Dados ampliaram seu alcance com as
Tecnologias Digitais da sociedade em rede (CASTELLS, 1999) e da cibercultura
(LEMOS, 2002; LEVY, 2000) que possibilitaram que os dados invisíveis, isto é,
armazenados na ambiência das redes digitais, somados aos demais elementos
combinatórios (gráficos, mapas, dados científicos, números etc.), fossem
transmutados para o ambiente do ciberespaço e conferissem um maior
29

enriquecimento às estruturas gráficas. Para fins desta tese, não focaremos nosso
objeto especificamente para os dispositivos móveis, dentro outros. No contexto
inicial, essa área nascia atrelada às informações científicas e de saúde (CHEN,
2006) com a necessidade de um tratamento específico através da infografia e da
cartografia. Não obstante, esse campo evoluiu para outras perspectivas de
exploração com sua característica de hibridismo como uma das extensões que pode
ser abordada sob à ótica da Ciência da Informação, conforme alerta Ribeiro (2012)
ao tratar da relação visualização de informação como uma questão de aproximação
para o alfabetismo gráfico.
Na conjuntura em análise temos os dados abertos (open data) e científicos
como reflexo da perspectiva da ciência guiada por dados (FRICKÉ, 2013), que opera
novos engajamentos através do fenômeno do Data Explosion (ZHU; ZHONG;
XIONG, 2009). Portanto, há uma lacuna de pesquisas e de problematizações acerca
desse fenômeno científico em andamento e, consequentemente, merece ser
investigado na perspectiva metodológica e teórico-conceitual da Ciência da
Informação. Sendo assim, percebemos o vigor do conceito da Visualização de
Dados como central e operacional para a compreensão do fenômeno dos grandes
volumes de dados na Ciência da Informação centrado na cultura do Big Data
(BARLOW, 2013) e do seu impacto tecnológico, cultural e social. Logo, há uma
abrangência das apropriações e usos do Big Data na Economia, Comunicação,
Administração, Ciência da Informação, Medicina e áreas correlatas que lidam com
grandes volumes de dados. Uma destas ramificações está sendo potencialmente
praticada nos laboratórios vinculados a Universidades, cujos trabalhos com dados
massivos têm se manifestado como produções inovadoras nesta temática.
O Big Data reinvindica uma abordagem inovadora para lidar com os dados
científicos. Logo, tratamos a questão por meio do conceito de inovação disruptiva
como pertinente para problematizar o horizonte das produções em Visualização de
Dados na perspectiva de novo paradigma que representa o Big Data, tendo em vista
tratar-se de um contexto ou de uma tecnologia disruptiva. O aporte teórico-
conceitual acerca da Teoria da Inovação Disruptiva (CHISTENSEN, 1997) nos ajuda
a adentrar essas novas fronteiras relacionadas às narrativas disruptivas da
Visualização de Dados científicos. Baseado nos estudos de inovação tecnológica,
30

Christensen (1997) estabeleceu no livro Disruptive Innovation Theory4 critérios ao se


deparar com avanços inovadores com a criação de vários modelos de negócios,
campo no qual essa teoria vem sendo largamente estudada.
Ao analisar a evolução do conceito, há dois tipos de grupos em que as
inovações tecnológicas estão divididas, em diferentes fases: (1) revolucionária,
descontínua, avançada, radical, emergentes; e (2) evolutiva, contínua, incremental.
Logo, procuraremos identificar o estágio das narrativas que denominamos de
disruptivas no campo da Ciência da Informação. Para tal, a Visualização de Dados
resulta em uma condição vinculada a esse processo de inclinação para estruturação
de narrativas disruptivas visuais no tocante à capacidade de ir além do texto tendo
em vista a necessidade de visualizar de dados complexos para interpretação de
cenários como no campo das ciências atmosféricas.
A reflexão que empreendemos visa ampliar o escopo da discussão no âmbito
da Ciência da Informação e o aspecto global demarcando e compreendendo o
objeto em suas múltiplas dimensões. Posicionamos nosso objeto de estudo como
um formato emergente que suscita o estabelecimento de novos padrões de
apresentação baseado no contexto dos grandes volumes de dados com
investigação focada nas dinâmicas e rupturas que envolvam as mudanças nas
linguagens e modos de produção e apropriação das narrativas no tocante ao Big
Data (dados massivos) e Ciência de dados (parte analítica) dentro da Ciência da
Informação.
Para esta abordagem convocamos o conceito de Ciência de Dados como
instância que está relacionada ao Big Data e reflete sobre o impacto deste na
sociedade. Para Porto e Ziviani (2014, p. 2), dentro da conjuntura de grandes
volumes de dados, há três linhas de pesquisa que podem ser exploradas com vistas
à consolidação da área de Ciência de Dados, a saber: 1) Gerência de Dados; 2)
Análise de Dados e 3) Análise de Redes Complexas. Conforme alertam:

4
Nesta obra, com perspectiva na área de administração, o autor articulou os estudos de teoria básica
da tecnologia com um arcabouço teórico da inovação disruptiva a partir de como o processo ocorre.
Para ele, tecnologias disruptivas são tecnologias que fornecem valores diferentes das tecnologias
tradicionais e são inicialmente inferiores a tecnologias tradicionais ao longo das dimensões do
desempenho que são mais importantes para integrar clientes. Ele introduz os aspectos pertinentes
para compreensão da lógica do desempenho dos processos e produtos ao longo do tempo, traçando
as trajetórias deste desempenho do produto fornecidas por empresas e exigidas pelos clientes para
diferentes tecnologias e segmentos de mercado, e mostra que as interrupções de tecnologia ocorrer
quando essas trajetórias se cruzam.
31

“[...] nesses aspectos fundamentais de análise de dados em larga-escala, há


também um grande potencial tecnológico na pesquisa aplicada em Ciência de
Dados com impacto em diferentes áreas do conhecimento e de setores de
atuação” (PORTO; ZIVIANI, 2014, p.2).

A Ciência de Dados apresenta caráter híbrido com ressignificação dos dados,


novas modelagens, metodologias, arquiteturas da informação, bem como a fluidez
para novos formatos para o campo da Visualização de Dados. De fato, pensar
sobre essas questões emergentes nos conduz para a compreensão de que há uma
nova estrutura envolvida com a Ciência de Dados no ciberespaço que precisa ser
investigada como um componente catalisador que permite novas explorações
desses dados para pesquisa. Para tal, nos referimos também à cibereinfrastrutura
(cyberinfraesctruture5) a partir da infraestrutura de computadores distribuídos,
tecnologias de informação e comunicação definidas como “Rede robusta de
pessoas, artefatos e instituições que geram, compartilham e mantém um
conhecimento específico sobre as palavras humanas e naturais”6 (BORGMAN,
2015, Kindle version, Location 456, tradução nossa).
Essa infraestrutura de conhecimento, segundo Borgman, foi formatada e
permanece num processo contínuo de reconfiguração, onde se desenvolve, entre
outros aspectos, o open access, open data, ambos com o propósito de melhorar o
fluxo informacional, minimizar possíveis restrições de uso e aumentar a
transparência na prática de pesquisa. O Open data depende de tecnologias abertas
e que são desenvolvidas para compartilhar, expandir as possibilidades de
disseminação da informação que têm impacto na gestão dos dados abertos. O grau
de abertura dos dados, padrões e tecnologias influenciam a capacidade de trocar
dados entre ferramentas, laboratórios, parceiros ao longo do tempo. Essa
ciberinfraestrutura pode ser considerada como parte dos fundamentos que
compõem o e-science: 1) A colaboração internacional entre pesquisadores; 2) O
aumento do uso de computadores interconectados de alta velocidade, aplicando

5
O termo cyberinfrastructure está enraizado principalmente em iniciativas baseadas no Reino
Estados e ficou gravemente lançado como uma ideia e fonte de financiamento pelo National Science
Foundation (NSF), em 2003, no que se tornou conhecido como o Relatório Atkins (2003), intitulado ''
Revolucionando Ciência e Engenharia Através Cyberinfrastructure. (JANKOWSKI, 2007).
6
No original: “ robust network of people, artifacts and instituitions that generate, share and mantain
specific knowledge about the human and natural words”
32

arquitetura GRID; 3) Visualização de Dados; 4) Desenvolvimento de ferramentas e


procedimentos baseados na Internet; 5) Construção de estruturas organizacionais
virtuais para a realização de pesquisas; 6) A distribuição eletrônica e publicação de
resultados. (JANKOWSKI, 2007, p. 552)
A e-science, por meio da noção de ciberinfraestrutura é apontado como o
quarto paradigma da ciência (GRAY, 2009), por estimular o desenvolvimento de
práticas científicas especializadas em ferramentas baseadas na Internet para a
realização de pesquisas (JANKOWSKI, 2007). Estes recursos utilizados nas
atividades da e-science podem obter valor agregado no desenvolvimento científico.
Logo, a nossa pesquisa perpassa também essa noção por se abastecer de dados
complexos para visualização.
A partir da discussão empreendida entre Big Data e Visualização de Dados,
buscamos responder a questão central de pesquisa:

Que implicações a Visualização de dados representa para a produção de


narrativas disruptivas quanto à dinâmica do contexto da Ciência de dados e do
Campo da Ciência da Informação a partir dos laboratórios de inovação guiados
por dados?

Partimos da noção de que a Ciência de Dados se constitui em um ferramental


teórico e metodológico vital para a análise e construção das visualizações de dados
no horizonte visando irromper para inovações disruptivas as estruturas visuais no
ambiente digital. Sendo assim, defendemos a tese de que as Visualizações de
dados no contexto da Data Science provocam narrativas disruptivas, trazendo
novas dinâmicas e formas de compreensão dos dados através da exploração
de laboratórios de inovação guiados por dados, tendo em vista que a entrada
do Big Data (fornecimento massivo de dados) e Data Science (parte que
analisa) nas visualizações de dados são fatores de reconfiguração de tais
narrativas.
33

1.2 Hipóteses

H1 – A Visualização de Dados no contexto da Ciência de Dados a partir de


laboratórios inovadores guiados por dados estabelece uma nova estruturação para a
apresentação de narrativas disruptivas com impacto científico-tecnológico e social
no Campo da Ciência da Informação.

H2 – As inovações disruptivas oferecem subsídios para a reconfiguração dos


formatos das visualizações de dados científicos em ambientes digitais por meio do
Big Data e da Data Science.

1.3 Objetivos

1.3.1 Objetivo geral

Investigar a Visualização de Dados no contexto da Ciência de Dados,


identificando as características e especificidades das narrativas disruptivas e de
reconfiguração e as características inovadoras a partir de laboratórios de inovação
guiados por dados. Deste modo, elencamos objetivos específicos como
desdobramento desse objetivo central, a saber:

1.3.1.1 Objetivos Específicos


1. Recuperar o contexto histórico da Visualização de Dados e da Ciência de
Dados em interface com a Ciência da Informação na conjuntura de
dados;

2. Aprofundar o conceito de Visualização de Dados considerando sua


centralidade para a Ciência da Informação a partir do Big Data;

3. Definir o conceito de narrativas disruptivas alinhado às contribuições


teóricas da Data Science;
34

4. Investigar as práticas dos laboratórios de inovação guiados po dados no


fomento de visualização de dados e suas implicações;

5. Estabelecer tipologias para a caracterização dos formatos de


Visualização de Dados baseado em Ciência de Dados e Big Data

1.4 Motivação

Ao propormos a pesquisa sobre Visualização de Dados no âmbito da Ciência


da Informação perpassando por Big Data e a Ciência de Dados com a estruturação
das narrativas com abordagem que pode desencadear em inovação disruptiva, tem-
se como motivação o aprofundamento de estudos sobre complexidade da
Visualização de Dados.
Na pesquisa há a identificação da emergência do fenômeno no âmbito da
sociedade contemporânea voltado para problemas envoltos com grandes volumes
de dados. Justificamos que o objeto de estudo foca no enquadramento das novas
linguagens de característica disruptivas trazida pela combinação entre Ciência de
Dados e Big Data e a Visualização de Dados quanto à apresentação de dados
complexos. Assim, a pesquisa contribui, sobremaneira, com os estudos do campo
da Ciência da Informação na perspectiva relativa à estética (a visualidade, o
imagético), à memória dinâmica (cruzamento de bases de dados complexas), à
comunicação (enquadramentos originais para a apresentação da notícia) e aos
processos sociopolíticos e éticos (as implicações do manejo dos dados).
O objeto de estudo enfoca os impactos sociais da Visualização de Dados
devido a sua perspectiva sociotécnica e, portanto, representa indicadores para a
sociedade na compreensão dos fenômenos apontados em torno da Visualização de
Dados e Data Science e o acompanhamento das transformações das narrativas na
ambiência digital considerando a exploração de dados abertos enquanto estratégia
para a estruturação das visualizações.
Para a Ciência da Informação a exploração de estudos sobre dados, no
âmbito da Ciência de Dados, representa novas fronteiras para o campo contribuindo
para a compreensão da explosão de dados e os impactos na CI. Discussões
35

científicas abordando essa temática fez-se presente em alguns eventos: No


Encontro Nacional de Pesquisas em Ciência da Informação – ENANCIB, como
ocorreu na edição de 2014 na Universidade Federal de Minas Gerais- UFMG, cujo
tema central “Além das nuvens: expandindo as fronteiras da Ciência da Informação”
e trouxe a abordagem do Big Data e da necessidade de novas abordagens; no III
Encontro Internacional Dados, Tecnologia e Informação7, que em 2016 realizou a
terceira edição na Universidade Estadual Paulista – UNESP, em Marília, cuja
abordagem de tratamento direciona para “perspectivas interdisciplinares em Ciência
da Informação” e explora a complexidade dos dados a partir da Ciência da
Informação, da Computação e do Design e o II Worshop de Dados, Informação e
Conhecimento 8– Widat, que ocorreu em novembro de 2018, na Universidade
Federal da Paraíba – UFPB. Nestes dois últimos, apresentamos artigos científicos
que nos ajudaram a amalgamar os fundamentos para esta pesquisa.
Neste sentido, esta investigação se faz oportuna no momento em que o
fenômeno do Big Data, entendido aqui como o termo abrangente que se coaduna
com outros conceitos, surge como a tônica que dá início a remodelagens nos
produtos digitais dinâmicos. A Visualização de Dados, neste caso, apropria-se desse
novo contexto cujos impactos ainda estão em curso e em evolução, porém, o que
percebemos é um movimento em que os dados podem produzir narrativas
diferenciadas que explora as potencialidades da ambiência digital. A proposta de um
novo conceito e estrutura dinâmica para pensar essas narrativas se justifica pela
necessidade de dar visibilidade a esse momento de rupturas e ao mesmo tempo de
ampla discussão.

1.5 Estrutura da tese

Na Figura 1 estão contidos a questão de pesquisa, a tese, motivações,


objetivos geral e específicos, hipóteses, metodologia e as etapas da pesquisa,
conceitos centrais e ferramentas utilizadas.

7
Disponível em: http://www.bci.ufscar.br/news/3o-encontro-internacional-de-dados-tecnologia-e-
informacao acesso em: 14 maio 2019.
8
Disponível em: http://www.ufpb.br/widat acesso em: 15 maio 2019.
36

Figura 1 – Estrutura da tese

Fonte: Elaboração própria


37

A tese está dividida em seis capítulos que se interconectam. Primeiramente,


na introdução é apresentado o contexto dos dados e o cenário da Data Science e
como se articula com os conceitos de Visualização de Dados e inovação disruptiva
para pensar no impacto que o objeto propõe a partir das redes digitais. Ainda neste
capítuloapresenta-se a problematização norteadora que a pesquisa busca
responder, a justificativa, e os objetivos propostos.
No capítulo 2 são abordados os aspectos ontológicos e conceituais dos dados
em ambientes digitais. Dos dados abertos aos dados científicos e Data Science
também serão contemplados neste espaço. Procuramos enfocar o conceito central
da tese que é a Visualização de Dados a partir dos desdobramentos do Big Data e a
Data Science e mostrar suas interfaces com áreas correlatas. Pretende-se,
também, mostrar tipologia dos dados abertos e aproximação da Ciência da
Informação com os aspectos tecnológicos, na reflexão de uma ciência que sempre
esteve vinculada aos avanços tecnológicos.
O capítulo 3 desdobra sobre o fenômeno do Big Data e da Ciência de Dados
na sociedade contemporânea, abarcando o estado da arte do conceito e suas
implicações tanto dentro da Ciência da Informação quanto na sociedade como um
todo. Discute-se, portanto, sobre os elementos fundantes e os indícios para a
formatação de uma cultura dos grandes volumes de dados, além de evocar as
perspectivas e desafios.
O capítulo 4 abarca os fundamentos teóricos do nosso objeto de estudo,
numa perspectiva de revisão de literatura, estabelecendo o cenário para a
Visualização de Dados científicos, as heurísticas da visualização, design da
informação e o mapeamento de experiências na Web. Neste entorno,
estabelecemos o conceito de Visualização de Dados em interface com a Data
Science e as Inovações disruptivas que integram essa nova dinâmica.
O capítulo 5 trata dos procedimentos metodológicos e demais técnicas
utilizadas na pesquisa, bem como o detalhamento do percurso da definição do
corpus empírico, coleta de dados, aplicação do estudo de caso, entrevista semi-
estruturada, observação sistemática, análise e interpretação dos resultados obtidos.
O capítulo 6 apresenta e discute os resultados da pesquisa e análise dos
casos analisados, discussão dos dados e a estruturação conceitual do modelo
sistêmico das visualizações de dados submetidas à análise em direção a um modelo
e o desdobramento em termos de reconfiguração das visualizações de dados no
38

contexto da Data Science.


As conclusões, por sua vez, retomam as discussões, objetivos, hipóteses e
questões de pesquisa além dos estudos empreendidos, visando o fechamento da
discussão da tese, do apontamento das limitações e contribuições dessa
investigação para pesquisas futuras.
39
40

2.1 Enquadramento conceitual

A disponibilização dos dados para a sociedade está inserida, inegavelmente,


em um ambiente impulsionado pelo avanço das Tecnologias Digitais da
Comunicação e Informação (TDICs) e, mais recentemente, na abundância dos
grandes volumes de Dados (o Big Data). Neste contexto de informação cada vez
mais acessível às pessoas, as tecnologias da cibercultura auxiliam diariamente o
manejo na obtenção dos dados, bem como seu acesso e reutilização, o que cria
instrumentos fundamentais para compartilhamento, interação, participação, entre
outros atributos (LEMOS, 2002). O movimento de dados abertos (Open Data) -
debatidos mais adiante - prega que esses dados devem estar integralmente livres e
acessíveis para o conhecimento de qualquer cidadão ou de especialistas ou
profissionais da informação que precisem para a possibilidade de redistribuição de
qualquer forma, sem qualquer restrição de direitos autorais.
A origem da palavra “dado” deriva do latim: Datum, dare, que significa “dar”
ou algo que é dado. Essa terminologia ficou popularizada por seu uso em contextos
de computação, e que agora é considerado padrão em contextos gerais e científicos
(OXFORD ENGLISH DICTIONARY, 2015, online, tradução nossa)9:

1.Um item em formação; um dado; um conjunto de dados;


2.Itens relacionados de informação (principalmente numérica) consideraram
coletivamente e normalmente obtido por trabalho científico e usado para
referência, análise ou cálculo;
3.Quantidades, caracteres ou símbolos em que as operações são
executadas por um computador, considerados coletivamente. Além disso,
(em contextos não-técnicas): informação em formato digital

9
No original: “(1) “an item of information; a datum; a set of data”; (2) “related items of (chiefly
numerical) information considered collectively, typically obtained by scientific work and used for
reference, analysis, or calculation”; also (3) “quantities, characters, or symbols on which operations
are performed by a computer, considered collectively. Also (in non-technical contexts): information in
digital form.”
41

De acordo com a Open Definition10 (OPEN DEFINITION, 2014), que


formalizou o conceito, dados são aqueles que podem ser livremente usados,
modificados e compartilhados por qualquer pessoa para qualquer finalidade.
Etimologicamente, a utilização de dados como um substantivo em massa tornou-se
cada vez mais comum a partir de meados do século XX. Contudo, no The Oxford
English Dictionary (2015) há um registro do uso da palavra ainda em 1646, na área
de Teologia, sob a forma plural, descoberto pelo pesquisador, Daniel Rosenberg,
em 2013, e documentado no artigo Data Before the fact11.
Rosenberg (2013) afirma que o conceito de dados é específico da
computação eletrônica do século XX, mas o uso do termo é bem mais antigo. Em
Inglês, "dados" foi usado pela primeira vez no século XVII. A ascensão do conceito
nos séculos XVII e XVIII está intimamente vinculado ao desenvolvimento de
modernos conceitos de conhecimento e argumentação. E, embora estes conceitos
anteriores estivessem associados às inovações do século XX em tecnologia da
informação, eles desempenharam um papel crucial na abertura do espaço conceitual
para essa tecnologia. O autor encontra outros vestígios do uso do termo nas
produções do teólogo Joseph Priestley, em 1765, quando este se refere aos fatos
históricos como dados. Como Rosenberg (2013, tradução nossa12) afirma

Fatos são ontológicos, a evidência é epistemológica, o dado é retórico. Um


datum também pode ser um fato, assim como um fato pode ser uma
evidência... [A] existência de um dado tem sido independente de qualquer
consideração de correspondente verdade ontológica. Quando um fato é
provado falso, ela deixa de ser um fato. No entanto, falsos dados são dados
(ROSENBERG, 2013, p. 18).

Há, ainda, outros usos do termo especificamente em Experiments and


Observations on Different Kinds of Air13, Joseph Priestley utiliza "dados" para se
referir a experimentos de medidas de volume. Havia uma discussão entre os
especialistas e linguístas, ainda no século XVIII, sobre a possibilidade de

10
Open Knowledge, antes conhecida como Open Knowledge Foundation (OKF), é uma organização
.
sem fins lucrativos que promove conhecimento livre. Foi fundada em maio de 2004, em Cambridge.
Disponível em: https://en.wikipedia.org/wiki/Open_Knowledge_International Acesso em: 8 ago. 2016.
11
Ver Referência ROSENBERG, D. (2013)
12
No original: “Facts are ontological, the evidence is epistemological, the data is rhetorical. A datum
can also be a fact, just as a fact can be evidence ... [The] existence of a given has been independent
of any consideration of corresponding ontological truth. When a fact is proven false, it ceases to be a
fact. However, false data is given.”
13
Disponível em: https://archive.org/details/experimentsobser01prie Acesso em: 30 fev. 2017.
42

permanecer na forma singular ou plural. Em latim, os dados são sempre utilizados


no plural, mas em Inglês, mesmo no século XVIII, o uso comum permitiu "dados".
Mas o autor faz uma ressalva de que a estrutura semântica preexistente do termo
"dados" tornou especialmente flexível nestes termos epistemológicos e contextos
semânticos. Sem alterar o significado, durante o século XVIII dados mudou a
conotação, uma vez que “ele deixou de ser reflexivamente associado com essas
coisas que estão fora de qualquer possível processo de descoberta de ser o próprio
paradigma do que se procura através da experimentação e observação.”
(ROSENBERG, 2013, p. 36).
O The American Heritage Dictionary of the English Language sugere que a
palavra possa ser usada tanto na forma plural quanto na forma singular. Assim,
encontramos a seguinte definição: “Fatos que podem ser analisados ou utilizados
em um esforço para adquirir conhecimento ou tomar decisões; Informação e
estatísticas ou outras informações representadas numa forma adequada para
processamento por computador”14. No entanto, a palavra Datum, de acordo com o
THE AMERICAN HERITAGE DISCTIONARY OF ENGLISH LANGUAGE, 2016, ONLINE, tradução
15
nossa) aparece com outras especificações.

A palavra dados é o plural do latim datum, "algo dado." Em inglês, mais


notavelmente no uso científico, esse uso plural ainda é comum, como neste
exemplo: “Eventualmente, seus dados sugerem, as alterações de um
tumor”... dão origem a células mutantes" (Janet Raloff). Mas os dados
também são padrão para denotar uma entidade de massa singular (como
informação), especialmente na escrita para uma audiência mais geral:
"Antes que os dados sejam transmitidos em massa pela internet, ele é
rotineiramente comprimido para reduzir a redundância (THE AMERICAN
HERITAGE DICTIONARY OF THE ENGLISH, 2016, ONLINE).

O mesmo dicionário faz uma ressalva de que um dado raramente está


sozinho, então, logo a justificativa do seu uso na forma plural e que a ciência
processa grandes volumes de dados, e raramente “um” isolado. Além disso, “cada

14
No original: “Facts that can be analyzed or used in an effort to gain knowledge or make decisions;
information. 2. Statistics or other information represented in a form suitable for processing by
computer.
15
No original: “The word data is the plural of Latin datum, "something given." In English, most notably
in scientific usage, this plural usage is still common, as in this example: "Eventually, his data suggest,
a tumor's ... alterations give rise to mutant cells" (Janet Raloff). But data is also standard in denoting a
singular mass entity (like information), especially in writing for a more general audience: "Before data
is transmitted in bulk around the internet, it is routinely compressed to reduce redundancy" (Richard
Dawkins).
43

dado ou coleção deve conter o mesmo tipo de informação”16 (tradução nossa). De


um modo geral, os dados variam em conformidade com sua forma (qualitativa ou
quantitativa), estrutura (estruturados, semiestruturados ou não), fonte (capturado,
derivado, exaustão, transitória), produtor (primário, secundário, terciário) e tipo
(indexical, atributo de metadados).
Dados também podem apresentar muitos formatos, incluindo números,
símbolos, imagens, textos, etc. Ao analisar a tipologia dos dados, Kitchin (2014,
online) estabelece uma tipologia para um entendimento da questão, a saber: 1)
Dados Quantitativos: consistem em registros numéricos. Têm a característica de
serem extensos e se relacionam com os atributos dos fenômenos (altura, distância,
peso, área, volume, comprimento), ou são representativos e estão vinculados com
as características não-físicas de fenômenos (como a classe social, nível
educacional, privação social, a qualidade de vida); 2) Dados Qualitativos: São
dados não-numéricos, como textos, figuras, imagens, arte e música. Estes podem
ser transformados em dados quantitativos, embora a riqueza dos dados originais
pode ser perdida. A análise de dados qualitativos acontece sob dados originais, na
busca de construir significado e compreensão; 3) Dados estruturados: são dados
que podem ser facilmente organizados e deslocados num modelo de dados definido
como números, textos para uma tabela relacional ou banco de dados. Estes podem
ser acessados, pesquisados, consultados e analisadas relativamente diretamente
usando cálculo e algoritmos, e podem ser visualizadas utilizando uma variedade
formas de gráficos e mapas, e facilmente processado por computador; 4) Dados
semiestruturados: São aqueles que não têm modelos-esquemas pré-definidos e,
assim, não podem ser realizados em um banco de dados relacional. Apresenta
estrutura irregular, implícita, muitas vezes aninhada hierarquicamente, mas eles têm
um conjunto razoavelmente consistente de campos e os dados são marcados assim,
separando o conteúdo semanticamente e fornecendo metadados soltos e 5) Não-
estruturados: Ausência de um modelo definido ou estrutura identificável. Cada
elemento individual, como texto narrativo ou foto, pode ter uma estrutura específica
ou formato, mas nem todos os dados dentro de um conjunto de dados partilham a
mesma estrutura.

16
No original: “each datum or a collection must contain the same kind of information”.
44

A tipologia definida por Kitchin (2014) especifica as diferenças da natureza de


dados, a sua estrutura a qual foi submetido. Cada uma destas diferenças tem
implicações no modo como se lida e manipula os dados. Em primeiro lugar, a
natureza dos dados em determinado conjunto pode ser diversificada, incluindo
números, imagens, vídeo ou streams de áudio, software, algoritmos, equações,
software de controle de versão de informação animações ou modelos/simulações.
Esta heterogeneidade é essencial, e as questões que levantam mostram que, dentro
de ambientes digitais, não há como ter rigidez, mas sim flexibilidade e mutabilidade.
Ao mesmo tempo, pode apresentar maiores dificuldades em como processar,
reusar, armazenar, compartilhar tais dados.
No entanto, para a categoria “Dados Quantitativos”, o autor aponta quatro
níveis diferentes de medição que delimitam como eles podem ser processados e
analisados (Quadro 1). Tais dados podem ser analisados usando as visualizações,
uma variedade de estatística descritiva e inferencial, e ser usado como as entradas
para preditiva e modelos de simulação.

Quadro 1 – Níveis de medição de Dados

Fonte: Adaptado e traduzido de Kitchin (2014)


45

Borgman (2015, p. 36, tradução nossa)17, através da OAIS - Open Archival


Information System18, apropria-se do conceito de dado como algo que pode ser
remodelado: conjunto de dados, unidade de dados, formato de dados, banco de
dados, objeto de dados.

Dados: Uma representação reinterpretável de informações em um modo


formalizado, adequado à comunicação, interpretação, ou processamento.
Exemplos de dados incluem uma sequência de bits, uma tabela de
números, os caracteres em uma página, a gravação de sons feitos por uma
pessoa que fala, ou um espécime de pedra lunar. (OAIS CONSULTATIVE
COMMITTEE FOR SPACE DATA SYSTEMS, 2012, n.p).

E aqui encontramos diferenças nas conceituações de dados. Borgman (2015)


afirma que dados são formas de informação e que se configuram como um conceito
que é muito difícil de definir do ponto de vista ontológico e epistemológico, por isso
adota o conceito apresentado na norma OAIS, que é um dos mais conhecidos.
Trata-se de um documento que é consenso e utilizado nas Ciências Sociais, cujos
dados podem ser flexíveis: unidade, formato, banco de dados, objetos de dados,
entidade, etc. Essa operacionalização do conceito de dados revela que em meio à
profusão de definições, esta não é estanque em seu tempo, mas que ela pode sofrer
modificações a partir do seu contexto. Enquanto que Setzer (2001) é pragmático ao
explicar que dado é tudo que é quantificável, mensurável, medido, a autora tem uma
visão mais holística e universalista, em contraponto ao autor, que mantém uma visão
matemática da definição. Contudo, a mescla de conceituações sobre o que é um
dado não encontra consenso entre os autores. No quadro 2 há uma gama de
definições à luz de diversos pesquisadores/autores/estudiosos versando sobre a
temática.

17
No original: “Data: A reinterpretable representation of information in a formalized manner suitable
for communication, interpretation, or processing. Examples of data include a sequence of bits, a table
of numbers, the characters on a page, the recording of sounds made by a person speaking, or a moon
rock specimen”
17
Reference Model for an Open Archival Information System
18
Um arquivo, consistindo de uma organização de pessoas e sistemas, que aceitou a
responsabilidade de preservar informações e disponibilizá-las para uma Comunidade Designada.
(Fonte: Wikipedia English).
46

Quadro 2 – Definições para Dados obtidas na literatura

Fonte: Elaboração da autora


47

Questionando a terminologia de dados, a autora tece críticas relativas à


terminologia e seu uso. Dados são ubíquos, estão em todos os lugares, mas é
preciso questionar: “O que é um dado”? Ou qual ou quais valores estão neles? A
questão dos dados está se tornando ubíqua, pervasiva na sociedade
contemporânea, mas seu entendimento depende do contexto na qual os dados
estão inseridos e do olhar do pesquisador. “Os dados não são objetos puros ou
naturais com uma essência própria. Eles existem em um contexto, tendo um
significado de que o contexto e formar perspectiva do observador” (BORGMAN,
2015, p. 607)19. A definição de dados está numa fronteira não muito claro do que é e
o que não é dado. Borgman enxerga a problemática de definição sobre o que se
entende por dados e os define como formas de informação, um amplo conceito que
está cada vez mais longe de consenso.
Ainda segundo a autora, as origens dos dados podem influenciar nas
decisões operacionais em que o dado está inserido. De acordo com a US National
Science Board (NSB20), são estabelecidas três categorias de dados, a saber: 1)
dados observacionais (observational data): são aqueles que resultam em
reconhecer, notificar e registrar fatos ou ocorrências do fenômeno, geralmente com
instrumentos para observação (notebook, satélite); 2) dados computacionais
(computacional data): são produtos de modelos executados por computador,
simulações ou fluxo de trabalho. Encontrados nas ciências sociais e nas
humanidades. Podem ser reusados em um futuro num modo extensivo de
documentação de hardware, software e input data. 3) dados experimentais
(experimental data): são resultados de procedimentos em condições controladas
para testar ou estabelecer hipóteses ou para descobrir ou para testar novas leis e
experimentos.
Os esforços para categoriarizar os conjuntos de dados digitais
(observacionais, experimentais, computacionais) desencadeiam em afirmar que o
mesmo dado pode ser incorporado dentro de múltiplas coleções, mas
diferentemente representados em cada situação. O exemplo apontado é a coleção
de dados de pesquisa (Research data collections) da National Science Board (NSB),

19
No original: “Os dados não são objetos naturais puros ou com uma essência própria. Eles existem
em um contexto, tendo um significado que de contexto e formar a perspectiva do observador”
20
Fundação Nacional de Pesquisas Científicas com sede nos EUA.
48

que, segundo Borgmam (2015), é fruto do resultado de muitos projetos feitos em


vários contextos e finalidades diferenciadas. Esses dados têm tido processamento e
curadoria diferenciados e podem não está em conformidade com os padrões dos
estudos acadêmicos em relação aos formatos e estruturas, já que "essas coleções
de dados podem estabelecer normas para esta comunidade, por adoção ou através
do desenvolvimento de novos padrões21” (BORGMAN, 2015, Kindle Version,
Location 763, tradução nossa).
Nas pesquisas científicas, dados são vistos por pesquisadores como o cerne
fundamental para o desenvolvimento da ciência cujas características de
compartilhar, reutilizar e combinar dados pode oferecer aos cientistas um leque de
opções como reanálise de provas, verificação de resultados, a duplicação do esforço
minimizado, e inovação acelerada (BORGMAN et al, 2013). Este cenário é
considerado como o quarto paradigma da ciência (GRAY, 2009; FLORIDI, 2014) de
abordagem computacional, em que o uso intensivo de dados para ciência se
constitui um novo conjunto de métodos além do empirismo, teoria e simulação. Para
Borgman et al. (2013) dados digitais oferecem o potencial para maiores retornos
sobre o investimento, desde que os dados sejam devidamente geridos e
compartilhados entre pesquisadores.
O compartilhamento de dados versa sobre conjuntos de dados de artigos,
pesquisas, patentes, teses, dentre outros publicados e depositados uma base de
dados em um site pessoal ou de laboratório, ou cumprindo solicitações de outros
pesquisadores. No entanto, a autora chama a atenção para a definição de dados e
seus desdobramentos em que os dados sempre foram estudados e compreendidos
como objetos fixos em seus formatos o que se torna um equívoco tal concepção.
Dados têm a características de serem maleáveis móveis e mutáveis e são altamente
dependentes do contexto. Nesta perspectiva, é importante o reconhecimento de que
os dados têm origem complexa e heterogênea.

21
No original: “These data collections may establish standards for these community, wether by
adoption or by developing new standards”
49

2.2 Estudos da Data Science


2.2.1 A emergência de um campo em construção

Uma nova era, baseada na onipresença de dados, emerge no contexto a


partir do conceito de Big Data. De forma similar, o conceito de Ciência de Dados
(Data Science) vem ganhando espaço nas pesquisas científicas e envolve o uso de
métodos automatizados para a análise de enormes quantidades de dados visando
elaborar estruturas que ampliem as possibilidades de cognição a partir deles.
Através da fundamentação em técnicas e teorias de disciplinas tradicionais
consolidadas, numa perspectiva interdisciplinar, e no desbravamento de um novo
território baseado na estatística e na computação, novos valores são agregados
considerando a observação multidimensional no tratamento de dados. Dessa
maneira, as metodologias em torno de Ciência de Dados ainda estão em fase de
consolidação para acercar os fenômenos relacionados a mega dados.22 Portanto, a
investigação se direciona para compreender os enquadramentos epistemológicos e
prospectivos desta nova disciplina, mais especificamente dentro do campo da
Ciência da Informação e da Visualização de Dados.
A explosão de dados coloca um novo desafio para as consequências dos
dados por meio do enfoque interdisciplinar que envolve outros saberes. Deste modo,
este capítulo endereça discussão teórico-conceitual sobre o conceito em si de
Ciência de Dados e as características interdisciplinares, partindo da compreensão
de que o fenômeno reconfigura o ambiente demarcado pelo uso intensivo das
tecnologias digitais e por base de dados como agentes inovadores enquanto
processualidade em contexto de inovação disruptiva.
A Ciência de Dados se constitui em um paradigma guiado por dados (SONG;
ZHU, 2016) que envolve a resolução de problemas oriundos do grande volume de
dados que emergiu a partir do Big Data, integrando os cientistas de dados para o
escrutínio e a visualização. Porto e Ziviani (2014) apontam para três aspectos

22
Disponível em: http://www.intercom.org.br/sis/eventos/2017/resumos/R12-0235-1.pdf Acesso em: 3
out. 2017.
50

centrais23 quanto à Ciência de Dados - gerência de dados, análise de dados e


análise de redes complexas – que estão envoltas com o conceito, considerando sua
expansão teórica e conceitual nas abordagens científicas e a relação com outras
disciplinas.

A Ciência de Dados emerge como componente cada vez mais importante


nas mais diversas áreas, tais como saúde, petróleo, energia, financeira,
esporte, astronomia, bioinformática, Internet, mobilidade urbana, defesa
cibernética, comunicação móvel e biodiversidade. (PORTO E ZIVIANI, 2014,
p.2).

Neste cenário de estudos dos dados, a ampla imersão em várias esferas,


como demonstrado na definição dos autores, criam perspectivas inovadoras em
direção às novas descobertas científicas de um modo abrangente, constituindo
numa gestão dinâmica dos dados, estabelecendo novos padrões e pesquisa de
natureza interdisciplinar.
Outros olhares também denotam a mescla de diversos saberes do campo
tendo em vista a perspectiva interdisciplinar (CLEVELAND, 2001; DEVENPORT;
PATIL, 2012; PORTO; ZIVIANI, 2014; MALINI, 2016; AMARAL, 2016; SONG; ZHU,
2016). Para Malini (2016, online), “Ciência de Dados é um campo em formação -
derivada da mistura de Ciências Humanas, Estatísticas, Física e Ciências da
Computação, predominantemente - que nos permite testar novas possibilidades”.
De forma similar, Amaral (2016, p.6) defende que “podemos […] definir Ciência de
Dados como os processos, modelos e tecnologias que estudam os dados durante
todo o seu ciclo de vida: da produção ao descarte”.

Embora a expressão “Data Science” venha dos anos 1960, a Ciência de


Dados é uma ciência nova, e por isso, por vezes controversa e mal
compreendida”. Uma ciência trata de obter conhecimento e informação, de
forma sistemática, bem como normalizar e organizar esse conhecimento.
(Da mesma forma, a Ciência de Dados trata de estudar o dado em todo o
seu ciclo de vida, da produção ao descarte (AMARAL, 2016, p.4).

23
Essas três linhas de pesquisa são prospecções dos autores para os potenciais da Ciência de
Dados. Logo, gerência de dados, análise de dados e análise de redes complexas orbitariam em torno
de Ciência de Dados com ramificações para diversas áreas como geociências, biodiversidade,
business intelligence, internet/web, astronomia, esportes, ciências climáticas e outras áreas com
condições de exploração de dados.
51

O termo aparece pela primeira vez descrito por Peter Naur, um informático
dinamarquês, em 1974, ao publicar um livro sobre métodos computacionais e
processamento de dados. Essa informação aparece em A Very Short History of Data
Science, de Press (2013). A partir desta publicação, a terminologia começou a ser
usada livremente nas pesquisas de Naur, na qual define como “a ciência que lida
com dados, a partir do momento que estabelecidos, considerando a relação dos
dados com o que eles representam estão delegados para outros campos e
ciências24 (PRESS, 2013, online, tradução nossa). Antes da popularização do termo
na comunidade científica, John W. Tukey, matemático americano, escreve The
Future of Data Analysis, indicando, ainda em 1962, com a preocupação em
investigar de modo mais profundo os dados e seus processamentos25, bem como
sua natureza e demais características (DONOHO, 2015).
O desafio da Ciência de Dados, portanto, está na consolidação do conceito e
dos preceitos no direcionamento das processualidades aglutinadas pelos grandes
volumes de dados a exemplo do Big Data. Neste sentido, Malini (2016, online), em
análise da Ciência de Dados para o campo político, argumenta que novos agentes
complexificam a forma de lidar com dados.

Com a emergência de grandes bases de dados provenientes de redes


sociais, as ferramentas extraídas da recente "Ciência de Dados" (data
science), fizeram com que os métodos de veridicção política se ampliassem:
monitoramento de opinião, de relações, de agrupamento de ideias, de
embates políticos, passaram ser objetos de scripts, softwares de mineração
e processamento de enormes bancos de dados, sistemas de visualização e
de processamento de informação em tempo real. (MALINI, 2016, online).

De fato, a ampliação do espectro de possibilidades abertas pelas bases de


dados em grande escala indica uma topologia para o processamento de algoritmos
em diferentes sistemas e finalidades. Neste contexto, a Visualização de Dados, a
partir da Ciência de Dados, é um aspecto relevante da transformação e do
significado dos dados na cultura contemporânea e para a Ciência da Informação.

24
No original: “The science of dealing with data, once they have been established, while the relation of
the data to what they represent is delegated to other fields and sciences.”
25
Em 1947, Tukey cunhou o termo bit, que Claude Shannon usou em seu artigo 1948 para Uma
Teoria Matemática da Comunicação. Em 1977 Tukey publicou o artigo Exploratory Data Analysis, na
qual ele propõe procedimentos para análise dos dados, técnicas para interpretação, coleta dos
dados, procedimentos estatísticos que se aplicam para a análise mais precisa dos dados submetidos
em análise.
52

Um dos estudiosos da Visualização de Dados, Cleveland (2001, p. 21, tradução


nossa)26 trouxe para a atualidade o conceito de Ciência de Dados por meio do seu
célebre artigo Data Science: an action plan for expanding the technical areas of the
field of statistics, publicado na International Statistical Review em 2001. Ele, assim,
ofereceu sua definição partindo do conceito da Ciência de Dados como princípio:

[Ciência de Dados] é um plano de ação para expander áreas técnicas da


estatística focada no analista de dados. O plano parte de seis áreas
técnicas de trabalho para um departamento universitário e defende a
destinação específica de recursos para pesquisa em cada area e
treinamento d aárea. O valor do trabalho técnico é vislumbrado ela extensão
que o analista de dados ocupa, direto ou indiretamente. O plano é também
aplicado para laboratórios de pesquisa governamental e de organizações de
pesquisa coorporativa. (CLEVELAND, 2001, p. 21).

Em 2008 surgiu o termo “Cientista de Dados” cunhado por D. J. Patil e Je


Hammerbacher (DEVENPORT; PATIL, 2012) e cuja definição trata-se do
enquadramento de uma formação profissional em torno de múltiplas habilidades de
várias áreas (Computação, Estatística, Design, etc.), ou seja, uma característica
interdisciplinar. Em levantamento sobre os cursos de Ciência de Dados e de ofertas
de emprego para cientistas de dados nos Estados Unidos, Curty e Serafim (2016)
mapearam e identificaram que naquele país há uma forte expansão da área desde o
surgimento do termo em 2008 para lidar com o fluxo intenso e em grande volume
dos dados na Web através dos novos processos. Neste sentido, Amaral (2016)
considera que a Ciência de Dados está realocando a discussão sobre dados e
fazendo emergir novo campo de estudo.

Embora a expressão “Data Science” venha dos anos 1960, a Embora a expressão
“Data Science” venha dos anos 1960, a Ciência de Dados é uma ciência nova, e por
isso, por vezes controversa e mal compreendida. Uma ciência trata de obter
conhecimento e informação, de forma sistemática, bem como normalizar e organizar
esse conhecimento. Da mesma forma, a Ciência de Dados trata de estudar o dado
em todo o seu ciclo de vida, da produção ao descarte (AMARAL, 2016, p.4).

26
No original: An action plan to expand the technical areas of statistics focuses on the data analyst.
The plan sets out six technical areas of work for a university department and advocates a specific
allocation of resources devoted to research in each area and to courses in each area. The value of
technical work is judged by the extent to which it benefits the data analyst, either directly or indirectly.
The plan is also applicable to government research labs and corporate research organizations.”.
53

Nesta direção, a Ciência da Informação (PINHEIRO, 1999; SARACEVIC,


1996; BARRETO, 2012; SANT'ANA, 2016) contribui para a visibilidade da Ciência de
Dados por meio da compreensão da explosão de dados e a explosão informacional
como uma preocupação central do Campo. Na gênese do desenvolvimento da CI
após a Segunda Guerra mundial e os processamentos de informação
computacional, podemos situar as inovações e avanços tecnológicos da década de
1970 como culminante para a construção da sociedade em rede e a evolução desse
processo para o século XXI com bases de dados e Big Data, entre outros aspectos
como emergência dos dispositivos móveis digitais, computação em nuvem (cloud
computing). O termo de Ciência de Dados vem se popularizando em ritmo
exponencial se equiparando ao Big Data (LOUKIDES, 2010; DHAR, 2012)
acarretando desafios e habilidades para os cientistas de dados. Dhar (2012, online,
tradução nossa) discute as implicações da área para a gestão nos negócios e nas
pesquisas científicas definindo a Ciência de Dados como "o estudo da extração de
conhecimento generalizável a partir de dados"27.
De fato, a conjuntura favorece o surgimento de estudos e pesquisas e de
novos profissionais para adentrar o campo. Nesta direção, o cientista de dados se
constitui num profissional-chave do processo exigindo, assim, a aquisição de
habilidades abrangentes que cubram espectros das estatísticas, da aprendizagem
de máquina, da computação cognitiva e da gestão de banco de dados, além da
necessidade de possuir profunda compreensão dos problemas oriundos do Big
Data. Embora o termo seja recente nos estudos acadêmicos, a história dos dados
remete há um tempo e vinha sendo discutido entre cientistas, bibliotecários,
estatísticos, cientistas da computação (PRESS, 2013). Na atualidade, o uso de
métodos de pesquisa baseado em Ciência de Dados também tem desdobramento
para a noção de Ciência de Dados Intensivos (HEY; TANSLEY; TOLLE, 2009) pela
sua natureza complexa e de fluxo de dados estruturados.
Assim, evidencia-se um ambiente em mutação em termos culturais, sociais,
políticos e econômicos e, sobretudo, na Ciência da Informação como uma
preocupação central com a gestão desses dados em grande escala. Nesta
conjectura, o fenômeno do Big Data remodela as formas gerenciais dos dados em

27
No original: “the study of generalizable knowledge extraction from data”
54

múltiplas facetas, tratamento e operacionalidades, e pode ser compreendido como


“um campo emergente onde inovadora tecnologia oferece alternativas para resolver
problemas inerentes que surgem quando se trabalha com grandes quantidades de
dados, fornecendo novas maneiras de reutilizar e extrair valor a partir de informação”
(DI MARTINO et al., 2010, p.5).
As técnicas que se direcionam ao tratamento de dados, tais como
armazenamento de dados, compartilhamento e acesso a dados, têm sido
desenvolvidas desde a invenção do computador, que, para além das questões de
Ciência de Dados, vão muito além das que são tratadas na área da ciência da
computação e estatística, uma vez que esta é considerada como fundamento para a
Ciência de Dados (HAND, 2015). Mas, de acordo com Zhu e Xiong (2014), os dados
podem ser considerados como símbolos e representações de informação e
conhecimento. No entanto, mesmo com as definições já realizadas, para Zhu e
Xiong (2015) ainda estas não são suficientes para estabelecer a Ciência de Dados
como um novo ramo exclusivo da ciência. Isso ocorre porque os objetos de seu
estudo são as coisas no mundo natural, e suas questões de pesquisa também são
abordados em áreas científicas existentes. Eles especificam dois tipos de dados no
ciberespaço, a saber: 1) O primeiro são os dados que representam as coisas no
mundo natural, aqui chamado de dados reais. Um exemplo é a informação pessoal,
que é representativo de dados de características pessoais. 2) O segundo são os
dados que não representam as coisas no mundo natural, aqui chamado de dados
virtuais, que significa que as instâncias de tais dados não têm referências no mundo
natural. Um exemplo é o vírus de computador, que não sejam nem vírus no mundo
natural nem representação de dados de vírus real.
Esses dados no ciberespaço são compreendidos por eles como Datanature,
que são todos os dados no ciberespaço, incluindo o que reflete a natureza dos
dados e comportamentos humanos, e os dados sem referências diretas na
realidade, tais como vírus de computador, alguns jogos de rede e dados
descartáveis. Ao observar todo o movimento, eles chamam a atenção para a
comunidade de pesquisa científica para o estabelecimento de teorias e métodos
básicos que subsidiem a observação científica dos dados e desenvolver mais
técnicas de análises. A proposta oferecida para as pesquisas em Ciência de Dados
envolve uma série de habilidades e aspectos que visam operacionalizar os dados no
ciberespaço. Portanto, há a exploração dos dados naturais (Datanature),
55

questionando qual o tamanho, crescimento e autenticidade desses dados, e


exploração no Mundo Natural (natural world) e exploração da Sociedade (Human
Society). A outra proposta deve-se levar em conta o domínio das tecnologias
guiadas por dados e que estas tecnologias possibilitam uma série de atributos como
análise, aquisição, exploração, limpeza, mineração dos dados, integração,
visualização e estatística.
Por fim, na terceira proposta, os autores sugerem alguns aspectos para a
fundamentação da teoria, como dados experimentação de dados e uma proposta de
taxonomia, por exemplo. No entanto, um aspecto que poderia ser contemplado no
quadro que são as análises preditivas que eles poderiam sugerir várias condições
observáveis que levam a diversas implicações ou a questões resolutivas, e que,
portanto, devem ser cuidadosamente analisados, e que, ao mesmo tempo, se torna
um desafio a ser estudado e questionado em pesquisas mais abrangentes.
A Ciência de Dados é uma nova perspectiva teórica e metodológica para lidar
com o Ciclo de Vida dos Dados (SANT'ANA, 2016) - desde a coleta até o descarte e
passando pela questão da Visualização de Dados. O Ciclo de Vida dos Dados é
preconizado por Sant'ana em quatro fases centrais – coleta, armazenamento,
recuperação e descarte - e os fatores que se integram às fases: Privacidade,
Integração, Qualidade, Direitos Autorais, Disseminação e Preservação. Os dados,
no contexto do Big Data, apresentam grande volume e acesso em forma de
variedade e velocidade. Logo, o autor propõe esse olhar do Ciclo de Vida dos Dados
dentro da Ciência da Informação para tratar dos dados. Essa perspectiva requer
uma epistemologia e um olhar interdisciplinar, como verificaremos à frente, para
explorar os dados (computacionais, em volume, em velocidade, em tempo real).

2.2.2 Perspectivas interdisciplinares

A Ciência de Dados tem sido estudada e considerada como uma área com
características interdisciplinares por parte dos pesquisadores da temática
(CONWAY, 2010; STANTON, 2012; ZHU, XIONG, 2015; STREIB, MOUTARI,
DHEMER, 2016) ou multidisciplinar (TIERNEY, 2016) em sua origem. A área utiliza
56

métodos e técnicas semelhantes ao da Ciência da Computação, que incluem


aquisição dos dados, gestão, armazenamento, segurança, análise e Visualização de
Dados, sendo que de modos diferenciados (ZHU; XIONG, 2015). Nesta perspectiva,
Conway (2010) criou o Diagrama de Venn para especificar as habilidades que
concerne à área (Figura 2) abarcando outras disciplinas. No diagrama criado por
Conway, a Ciência de Dados aparece no centro, em lugar de destaque, indicando a
ascensão da área e a correlação com outras capacidades como habilidades hacker,
conhecimento de matemática e estatística e expertise substantiva, além de
aprendizagem de máquinas. O autor entende que apenas focar na Ciência de Dados
não é o suficiente para a compreensão da área em sua totalidade, mas integrar com
outras áreas do saber.

Figura 2 - Diagrama de Venn desenvolvido por Conway

Fonte: Conway (2010, tradução nossa).

No Diagrama de Venn, aspectos como conhecimentos em estatística e


matemática e habilidades de hacking e aprendizagem de máquinas aparecem em
aspectos cruzados para operacionalizar e gerenciar grandes quantidades de dados
em contexto de Ciência de Dados. Deste modo, o Diagrama mostra que é
imprescindíveis habilidades e conhecimentos profundos nessas duas áreas do
conhecimento, e, portanto, sem eles, torna-se quase que impossível enveredar por
esse caminho. Na zona de perigo, é destinado “para as pessoas que são
57

perfeitamente capazes de extrair dados e estruturação, provavelmente relacionado a


um campo que sabem um pouco sobre, mas falta-lhes qualquer compreensão do
que esses coeficientes querem dizer” (CONWAY, 2010, online, tradução nossa)28. O
nome zona de perigo soa como um alerta para que os profissionais, pesquisadores
estejam totalmente aptos para desempenhar suas funções no Data Science, tendo,
assim, uma visão mais completa dessa nova área em expansão.
Alguns autores atribuem à Ciência da Computação uma área-chave em Data
Science, incluindo também a estatística. Nesta direção, Streib, Moutari e Dhemer
(2016), após várias investigações neste foco, sugerem mudanças a respeito dos
diagramas que tentam abarcar a interseção das diferentes disciplinas (Figura 2).
Eles se opõem ao esquema feito por Efron (2003) e apresentam o seu gráfico
(Gráfico 1) contemplando 3 dimensões: a) Domínio do conhecimento; b) Estatística e
Matemática e) Ciência da Computação. Na parte 1, domínio de conhecimento, se
constitui em um espaço que gera os dados. Estes dados são provenientes dos
campos da biologia, economia, finanças, medicina, sociologia, etc., seguida pelas
disciplinas já existentes de ciência da computação e estatística e matemática.
Nesse panorama, o Data Science se encontra no centro da pirâmide e em
articulação com os vetores como uma área que absorve todas as outras, como uma
catalisadora e principal expoente desse movimento. As áreas de Ciência da
Computação e Estatística-Matemática estão na base piramidal como áreas que
alicerçam os fluxos da Data Science. Neste entremeio a partir dos vetores da figura,
outras disciplinas como bioinformática, aprendizagem de maquinas, engenharia de
dados, biologia computacional e aprendizagem estatística se revelam como áreas
correlatas que atuam de modo convergente neste mesmo ambiente, em que o Data
Science, para os autores, emerge na confluência destas três áreas, na qual há uma
contribuição mútua entre elas.

28
No original: "know enough to be dangerous," and is the most problematic area of the diagram. In
this area people who are perfectly capable of extracting and structuring data, but they lack any
understanding of what those coefficients mean.”
58

Gráfico 1 - Esquema das disciplinas que compõem a área da Data Science

Fonte: Streib, Moutari e Dhemer (2016, tradução da autora).

Com o intuito de resolver problemas na era do Big Data e da Ciência de


Dados, devem-se incorporar os seguintes aspectos para a garantia de uma gerência
adequada: ter infra-estrutura de grandes dados, um grande ciclo de vida e análise de
dados, habilidades de gerenciamento de dados e disciplinas comportamentais. A
infraestrutura tenta abarcar tecnologias que operacionalizam os grandes volumes de
dados como Hadoop29, NoSQL30, grandes bancos de dados com memória
expandida e computação em nuvem. Neste sentido, o ciclo de vida dos dados inclui
todas as etapas de análise de dados, incluindo negócios análise, a compreensão,
preparação de dados e integração, construção de modelos, avaliação,
implementação e monitorização, bem como habilidades de gerenciamento de dados
que incluem tradicional modelagem de dados e conhecimento de banco de dados
relacional (ZHU; SONG, 2016).
Embora existam vários pesquisadores estabelecendo parâmetros estruturais
de disciplinas convergentes, Schubert (2014) faz uma ressalva de que a Ciência de

29
Trata-se de uma plataforma de software em Java de computação distribuída voltada para clusters
e processamento de grandes massas de dados. Foi inspirada no MapReduce e no GoogleFS (GFS).
Trata-se de um projeto da Apache de alto nível, que vai sendo construído por uma comunidade de
[1]
contribuidores e utilizando a linguagem de programação Java”(WIKIPEDIA, 2017, online).
Disponível em: https://pt.wikipedia.org/wiki/Hadoop Acesso em: 27 out. 2016.
30
“É um termo genérico para uma classe definida de banco de dados não-relacionais que rompe uma
longa história de banco de dados relacionais”. Fonte: WIKIPEDIA. Disponível em:
https://pt.wikipedia.org/wiki/NoSQL Acesso em: 27 out. 2016.
59

Dados não se limita apenas a deter conhecimentos matemáticos e estatísticos como


guias. Para ele, nesta área a preocupação maior reside na estruturação e
processamento de dados com eficiência computacional. A ampliação das
características que estruturam as perspectivas interdisciplinares, englobando desde
a área computacional às questões de visualização e criação de protótipos, segue
rumo a uma consolidação de vários esforços teóricos na comunidade científica, que
reconhecem a Data Science como uma área emergente e promissora que gera
avanços científicos e invoca novas metodologias.
Neste contexto, a importância dos dados científicos pode ser considerado
como Big Science (SAYAO; SALES, 2014) a exemplo de áreas integrantes como
Biologia, Astronomia e da Física aliadas às práticas colaborativas. Deste modo, elas
estimularam a formação de novos modelos de Ciência, na qual propuseram o
surgimento de novas descobertas de campos de estudos como a astroinformática e
a bioinformática. O fazer científico foi remodelado e aprimorado ao longo do tempo,
produzindo novas metodologias, ferramentas e e abordagens emergentes,
considerando o contexto social, político econômico. Como o quarto paradigma da
ciência (GRAY, 2009), a implantação da convergência de demais disciplinas e de
diferentes domínios para o gerenciamento de grandes quantidades de dados é o
grande fio condutor para uma área que agrega dinamismo e práticas avançadas de
tratamento e administração dos dados constituindo uma demanda latente para a
ciência, mas que, por outro lado, pode trazer problemáticas no que se refere às
novas descobertas científicas. Frickè (2013) questiona, por exemplo, se a Era dos
mega dados vai realmente produzir uma lógica de descoberta científica.
Nesta direção, Gray (2009) estabelece quatro paradigmas na Ciência para
compreender o seu percurso: O primeiro paradigma é o empírico, em que as
práticas científicas se voltavam a descrever fenômenos naturais. O segundo
paradigma é o teórico, onde há esforços para determinar modelos e generalizações
dos fenômenos estudados. Já o terceiro paradigma é o computacional para o auxílio
de tratamento de fenômenos com um grau maior de complexidade, produzindo,
entre outras atividades, simulações aprimoradas. A exploração de grandes
quantidades de dados (data exploration ou e-Science) é o quarto paradigma que
rege a ciência contemporânea e cria um ambiente potencializador para
experimentos, simulações, bem como armazenamentos de dados processados por
software, além de gerenciamento de dados e curadoria dos dados digitais.
60

Apoiado pelas teorizações de Karl Popper, o autor afirma que os dados não
teriam significado sem a teoria. Os dados podem ser mais do que serem produtos de
observação, e podem ser mais do que instrumentos. Existem contextos, convenções
e pragmática no trabalho dos dados, e assim, em circunstâncias especiais, os
pesquisadores podem considerar alguns registros como dados que relatam assuntos
que não são nem observáveis nem determináveis por instrumentos.
De um lado, a Ciência de Dados cria um ambiente que traz inovações
diversificadas em relação às pesquisas tradicionais. O aparato tecnológico impactou
a forma como as pesquisas científicas são conduzidas, realizadas e refletidas, bem
como a disseminação e compartilhamento dos dados, na qual essa prática
redesenha o cenário científico e cria caminhos inéditos para novas descobertas. Por
outro, traz novas possibilidades e ao mesmo tempo desafios para a logística da
gestão de dados, como por exemplo, a criação de uma ciber infraestrutura que
considere trabalhar e administrar os grandes volumes de dados que se adeque mais
rapidamente às necessidades que a área exige como os dados abertos.
Pertinente ressaltar que o diagrama de Venn (2010) e o esquema de Streib,
Moutari e Dhemer (2016), como os mais recorrentes nas pesquisas científicas,
respectivamente, apontam para a convergência de áreas a partir do entendimento
de suas áreas de origem. Por exemplo, Conway é um cientista de dados formado
em Ciência da Computação, em Nova York; os outros três autores provêm de áreas
distintas das Ciências exatas. Logo, a intenção de discutir o esquema e diagrama foi
revelar as conceituações já consolidadas na literatura sobre o tema, com destaque
para a interdisciplinaridade.
A Ciência de Dados e a Ciência da Informação mantêm similaridades neste
aspecto de tentar agregar a outras disciplinas com vistas ao fortalecimento dos seus
fundamentos, métodos e pesquisas científicas que se delineia neste século XXI.
Cada disciplina tem o seu grau de contribuição relevante causada por diferentes
interesses e pela diversidade de experiências. Portanto, a nossa tentativa aqui é
conectar essas duas áreas, estabelecer pontes teóricas, metodológicas e científicas,
entendo a multiplicidade destes campos do saber e o que cada um deles pode
oferecer convergindo para um interesse comum – da pesquisa científica – com suas
condições, práticas, características e singularidades, sendo necessário o
intercâmbio de conhecimento abrangendo distintas áreas rumo à agregação de
novos horizontes de pesquisa. Mas que essa prática de pesquisa pode ir além de
61

somatório de conceitos e teorizações e dirigir-se à cooperação entre os


pesquisadores.

2.3 O movimento dos dados abertos (open data movement)

Dados abertos podem ser mais adequadamente descritos como dados


públicos acessíveis para que as pessoas, empresas e organizações possam usar
para lançar novos empreendimentos, analisar padrões e as tendências, tomar
decisões baseadas em dados, e resolver problemas complexos. Dados Abertos são
dados com uma missão: ele é projetado para fornecer dados livres, abertos e
transparentes, que pode transformar a maneira como fazemos negócio,
funcionamento do governo, e gerenciar todos os tipos de transações, acessos
pessoais, acadêmicos, de trabalho, etc. (GURIN, 2015).
Originalmente, o movimento dos dados abertos (Open Data Movement)
ganhou popularidade na comunidade acadêmica como um movimento destinado ao
desenvolvimento de ciência aberta, que garante um acesso livre aos dados
acadêmicos publicados em repositórios digitais especiais (MURRAY-RUST, 2008).
Posteriormente, essa noção se ampliou para uma dimensão política, especialmente
com o lançamento de projetos de dados governamentais abertos, cuja iniciativa
significativa partiu dos Estados Unidos com o governo do presidente Barack Obama,
em 2009, quando emitiu um memorando sobre Transparência e Governo Aberto que
definiu a estratégia como "criando um nível sem precedentes de abertura no
governo" como o principal objetivo (WHITE HOUSE, 2009). Essa era uma estratégia
utilizada pelo governo e iniciada ainda na campanha do candidato Obama quando
houve uma maior inserção nas plataformas digitais nas eleições presidenciais que o
elegeu. Logo depois, Barack Obama emitiu outro Memorando sobre a Lei de
Liberdade de Informação, considerado por ele como a maior expressão proeminente
de um profundo compromisso nacional para garantir um governo aberto (WHITE
HOUSE, 2009) e que estabelecia três princípios: Transparência, Participação e
Colaboração.
62

O Open Definiton (2015, online, tradução nossa)31 define os dados abertos


como “dados que podem ser usados livremente, reutilizado e redistribuído por
qualquer pessoa - sujeito apenas, no máximo, com a exigência de atribuir e
compartilhamento pela mesma licença”. A abertura dos dados no setor público
possibilita a determinação de construção de mecanismos de transparência que
pode, igualmente, permitir a participação cidadã com vistas à geração de
conhecimento, muito embora alguns autores afirmem que nem sempre a disposição
dos dados implica necessariamente em transparência desses dados, já que eles
devem ser tratados e apresentados de modo que haja reuso para várias finalidades.
Logo, este é um primeiro aspecto a considerar no tensionamento entre dados
abertos e os usos possíveis que permitam o exercício pleno da transparência e da
disponibilização inteligente dos conteúdos. Como o movimento é recente, esse
conceito tem sido recorrente e aceito como oficial em pesquisas científicas,
acadêmicas, manuais, livros que tentam descortinar e compreender melhor o
movimento dos dados abertos em sua essência. Além disso, há três aspectos
fundamentais, quais sejam: a) Disponibilidade e Acesso: os dados devem estar
disponíveis como um todo e sob custo não maior que um custo razoável de
reprodução, preferencialmente possíveis de serem baixados pela internet. Os dados
devem também estar disponíveis de uma forma conveniente e modificável; b)
Reutilização e Redistribuição: os dados devem ser fornecidos sob termos que
permitam a reutilização e a redistribuição, inclusive a combinação com outros
conjuntos de dados; c) Participação Universal: todos devem ser capazes de usar,
reutilizar e redistribuir - não deve haver discriminação contra áreas de atuação ou
contra pessoas ou grupos. Por exemplo, restrições de uso ‘não-comercial’ que
impediriam o uso ‘comercial’, ou restrições de uso para certos fins (ex.: somente
educativos) excluem determinados dados do conceito de ‘abertos’.” (OPEN
KNOWLEDGE FOUNDATION, 2010, online, tradução nossa32).

31
No original: “Open data is data that can be freely used, re-used and redistributed by anyone -
subject only, at most, to the requirement to attribute and sharealike”.
32
No original: “Availability and Access: the data must be available as a whole and under cost no more
than a reasonable reproduction cost, preferably able to be downloaded over the internet. Data should
also be available in a convenient and modifiable form. • Reuse and Redistribution: the data must be
provided under terms that allow reuse and redistribution, including combination with other data sets. •
Universal Participation: everyone should be able to use, reuse and redistribute - there should be no
discrimination against areas of activity or against persons or groups. For example, use restrictions
63

Através desses três aspectos essenciais que regem o movimento dos dados
abertos são fundamentais para que possam ser criados uma atmosfera participativa,
oferecendo maneiras variadas de usar, reutilizar, compartilhar os dados abertos em
sistemas complexos. Desde o surgimento da internet comercial na década de 1990,
as pesquisas em Cultura Digital têm se intensificado, sobretudo, no entendimento de
um espaço de trânsito livre de dados, ou ainda, como a internet pode ser usada para
a participação e compartilhamento (JÚNIOR, 2009), e até, migrado de cultura digital
para cultura participativa dentro da concepção de cibercultura (LEMOS, 2002) ou da
sociedade em rede (CASTELLS, 1999) conectada e participativa. De algum modo,
essa confluência de dados na rede é um objeto de estudo constante para a própria
Ciência da Informação (SARACEVIC, 1996; PINHEIRO, 1999; BARRETO, 2012) e
os estudos dos fenômenos vinculados à informação e aos dados.
Para Peset, Ferrer-Sapena e Subirats-Coll (2011, online), dados abertos “são
um movimento que promove a liberação de dados, geralmente não textuais e em
formatos reutilizáveis, procedentes de organizações diversas”33. O documento do
Open Government Partnership (2012) contém os planos de ação e relatórios sobre a
nova proposta, além de ter alguns princípios norteadores: 1) Transparência dos
Dados: Abertura dos Dados do setor público e proporcionar aos cidadãos e
empresários para acessar dados mantidos pelo governo de maneira uniforme; 2)
Transparência do Governo: Abertura de processos e operações do governo para o
público; 3) Prestação de Contas do Governo (accountability): explicar as
decisões e ações aos cidadãos, agindo sobre os requisitos esperados para a tarefa
e aceitar a responsabilidade por falha; 4) Participação: envolver os cidadãos na
tomada de decisões; 5) Colaboração: permitir a cooperação entre diferentes níveis
de governo, entre o governo e instituições privadas e entre o governo e os cidadãos.
Assim, com a abertura para o acesso dos dados, bem como a possibilidade
de visualização e intervenção nos processos governamentais, promoveu-se espaços
de debates e de construção em coletividade, em que padrões de coordenação de
modo descentralizado. Ao mesmo tempo, apropriações tecnológicas podem
fomentar soluções diferenciadas e inovadoras nas plataformas digitais

'non-commercial' that would prevent 'commercial' use or use restrictions for certain purposes (eg .:
only educational) exclude certain data from the concept of 'open'
33
No original: “un movimiento que promueve la liberación de datos, generalmente no textuales y en
formatos reutilizables, procedentes de organizaciones diversas”.
64

determinantes para algumas decisões governamentais. Embora seja recente os


estudos sobre dados abertos no ambiente digital, o termo surgiu pela primeira vez
em 1995, pela agência científica americana, divulgando dados geofísicos e
ambientais (CHIGNARD, 2013).

Muito antes de ser um objeto técnico ou movimento político, dados abertos


estava enraizada na práxis da comunidade científica. Os pesquisadores
foram os primeiros que perceberam o benefício de abertura e de partilha de
dados (CHIGNARD, 2013, online).

Entretanto, numa era pré-internet, Robert King Merton, pesquisador da


sociologia da ciência, já revelava a importância da abertura dos dados científicos
abertos ainda em 1942. As Tecnologias Digitais da Informação e Comunicação
(TDIC) conferiram novo fôlego a esse movimento, e em 2007, numa reunião em
Sebastopol e em São Francisco (EUA), que começa a definir o conceito de dados
abertos públicos em ambientes digitais com mais intensidade (ISOTANI;
BITTENCOURT, 2015). A ideia central dessa reunião era acender o debate sobre a
relação entre o movimento de código aberto e a emergência dos dados abertos. Um
ano após essa reunião, o presidente Barack Obama coloca em prática que foi
discutido em assina documentos que explicitam a cultura do código aberto. A
criação do portal Data.gov34, por exemplo, marca o início dos dados abertos
governamentais regidos pela cultura dos dados abertos, em que qualquer cidadão
pode acessar os dados do governo.
No entanto, para que a população tenha acesso e usos desses dados, são
necessários alguns preceitos fundamentais. De acordo com o Manual de dados
Abertos (2011) eles precisam estar: Disponíveis para download: prontos para
serem transferidos gratuitamente pela Internet. Em suma, sempre que possível,
deve-se publicar a informação na Internet. Completos: um serviço de acesso
automático pela Web pode ser bem útil para quem quer acessar a versão atualizada
dos dados, mas não é um substitutivo para o acesso dos dados brutos, em sua

34
O Data.gov foi lançado em 2009 como o portal de transparência do governo americano e dispõe de
dados oriundos de diversas agências governamentais e de órgãos públicos federais, estaduais e
locais, de modo que o material pode ser baixado e manipulado para uso público. O Portal fornece
descrições de (metadados) conjuntos de dados e de como acessá-los, bem como ferramentas para
visualizar os conjuntos de dados.
65

totalidade. Os dados devem estar disponíveis por completo Em um formato aberto


e compreensível por máquina: a legibilidade por máquinas é importante, pois
facilita a reutilização (MANUAL, 2009, p. 20-21).
Ainda segundo o Manual, a questão principal quando se dispõe desses
Dados é a manutenção de projetos que tentem ser ágeis e liberando os dados
brutos para download, principalmente em um formato que seja disponível. Ao
compreender o movimento dos dados em ambientes digitais, Eaves (2009, online)
estabelece três leis para a promoção dos Dados Abertos: 1. Se o dado não pode ser
encontrado e indexado na Web, ele não existe; 2. Se o dado não estiver aberto e
disponível em formato compreensível por máquina, ele não pode ser reaproveitado;
3. Se algum dispositivo legal não permitir sua reaplicação, ele não é útil (EAVES,
2009, online, tradução nossa}.35

2.4 Estudos de dados na Ciência da Informação

Dentro do contexto da CI, os estudos sobre dados estão vinculados à tríade


conceitual dado-informação-conhecimento como quadro de referência conceitual
com o intuito de analisar, teorizar e conceituar tais atributos na área, como também
contextualizar as análises e possíveis relações existentes. Historicamente,
consideram-se os três conceitos como resultado dos esforços teóricos a fim de
fundamentar a disciplina da CI após contribuição de Borko (1968), em que
estabeleceu um conjunto de definições para os constructos vinculados aos
parâmetros tecnológicos da nova área.
Nas décadas de 1960 e 1970, houve uma expansão de estudos mais
sistemáticos, ao mesmo tempo em que a CI ganhava contornos mais sólidos como
disciplina, sobretudo, na tentativa de estudar e teorizar sobre informação, delinear
suas características, comportamento e conexões. Este período também foi marcado
pelo reconhecimento de uma disciplina interdisciplinar, numa pluralidade de

35
No original: “if it can’t be spidered or indexed, it doesn’t exist; If it isn’t available in open and
machine readable format, it can’t engage, If a legal framework doesn’t allow it to be repurposed, it
doesn’t empower”
66

conceitos e definições (PINHEIRO, 2005), em que, nesta tríade


[dado/informação/conhecimento], a informação sempre esteve em evidência por se
configurar como o objeto de estudo e pesquisas acadêmicas. Autores estudaram a
informação sob várias abordagens como numa perspectiva filosófica (BROOKES,
1980), epistemológica (SARACEVIC, 1970; PINHEIRO, 2005), fundamentos teóricos
(CAPURRO, 1992), interdisciplinaridade (SARACEVIC, 1992; PINHEIRO, 1999),
como ‘coisa’ (BUCKLAND, 1991) – só para citar alguns – e refletiram sobre
dinâmicas conceituais como forma de identificar epistemologicamente a gestão do
conhecimento e da informação.
No entendimento de Pinheiro (2005), esse grupo de terminologias que se
mostra confuso e difuso e que se concentrou em seu nascimento ganhou mais
compreensão ao longo dos anos, levando à consolidação do seu estatuto científico,
mas que outros movimentos são relevantes para a reconfiguração do conceito.

A cadeia conceitual que caracteriza a Ciência da Informação vai desde o


dado à informação e conhecimento, de acordo com a idéia de muitos de
seus autores, algumas vezes incluindo saber, num crescendo de
complexidade, da forma bruta e primitiva do dado à sua elaboração como
informação, e sua absorção, quando relevante, na estrutura cognitiva,
transformando-se em conhecimento. Esta rede de conceitos poderá ter seu
processo final na cultura, aqui considerando a incorporação dessas
informações relevantes entre outras manifestações e produções e vivências
do homem, individuais e coletivas (PINHEIRO, 2005, p. 17).

Ao mesmo tempo em que há a profusão de significados, também são


utilizados de forma confusa na literatura, e demandam, dessa maneira, uma
definição mais precisa. É o que Setzer (2015) propõe no artigo intitulado “Dado,
Informação, Conhecimento e Competência” como tentativa de desfazer a confusão
na literatura e definir os conceitos com mais precisão. Em uma perspectiva
matemática, Dado são símbolos quantificáveis algo que se pode mensurar, medir,
quantificar, como são fotos, figuras, sons gravados e animação, uma vez que são
passiveis de serem quantificados no computador com característica sintática. Isto é,
eles podem ser descritos por meio de representações formais e estruturais
armazenados e processados por computador, já que “o processamento de dados em
um computador limita-se exclusivamente a manipulações estruturais dos mesmos, e
67

é feito por meio de programas. Estes são sempre funções matemáticas e, portanto,
também são "dados" (SETZER, 2015, online).
Diferentemente da definição de Dado - que é puramente fundamentada na
matemática - informação, para ele, é uma abstração formal, inserido na mente de
alguém. Ele deixa claro que não se trata de uma definição, mas sim de uma
caracterização justamente pela complexidade de definir. Mas quando as
informações são transpostas para o computador, essas se tornam dados porque
computadores não processam informações, e sim, dados. Ressalta a observação de
que informação não pode ser passível de representação por meio de símbolos, nem
tão pouco pode ser chamada de mensagem. O exemplo é quando um berro
ocasiona um ruído, que pode conter informação, mas não dado, ou seja, não se
pode quantificar. A grande diferença entre dado e informação reside no fato da
primeira ser sintático e a segunda, ser semântica, ou seja, “(implícita nas palavras
"significativo" e "significação" usada em sua caracterização)” (SETZER, 2015,
online).
Em seguida, o autor caracteriza Conhecimento “como uma abstração interior,
pessoal, de algo que foi experimentado, vivenciado por alguém” e que não é
passível de descrição. Trata-se de algo que é subjetivo, personalístico, uma vez que
não pode ser processado no computador, por exemplo, e nem ser descrito. O
conhecimento fica restrito à pessoa e com ela. Mas se de repente a pessoa para o
conhecimento em forma de tela, livro? O que acontece quando esse conhecimento é
materializado? Assim, não seria conhecimento, mas sim, informação. Para ele, “a
informação foi associada à semântica. Conhecimento está associado com
pragmática, isto é, relaciona-se com alguma coisa existente no "mundo real" do qual
se tem uma experiência direta” (SETZER, 2015, online). Depois de todas essas
caracterizações, o autor entende Competência como “capacidade de executar uma
tarefa no mundo real“. Para uma pessoa ser dotada de competência é preciso que
seja capaz de realizar uma determinada área ou tarefa. Constitui-se algo que está
ligado à atividade física, ou seja, mão na massa, algo pragmático, que está
associada ao conceito de criatividade e que pode revela a liberdade. Para
exemplificar, o autor aponta um competente guia turístico em Paris que pode guiar
dois turistas em forma diversificada ou que pode improvisar passeios com dois
turistas diferentes e ressalta que a competência evoca dois conceitos: habilidades
pessoais e conhecimento. Tais atributos teóricos discutidos até o momento tem uma
68

maior aplicabilidade em áreas práticas, como engenharia ou computação. Em outros


campos, diz ele, é necessária uma construção propositiva em áreas intelectuais.
A primeira vez que a palavra “dado” apareceu nos estudos acadêmicos na CI
ocorreu em 1945, nos Estados Unidos, seguido do Reino Unido em 1950 e na
Alemanha, em 1951. No Brasil, esta palavra aparece em 1989, mais
especificamente, na Revista Transinformação. Os periódicos que mais utilizam essa
palavra são o Information Science e no Brasil, a Revista Pesquisa Brasileira em
Ciência da Informação e Biblioteconomia (PBCib), vinculado ao Programa de Pós-
graduação em Ciência da Informação pela UFPB (SANTOS, 2018). Pesquisas mais
recentes apontam para estudos sistemáticos dos dados dentro do contexto da CI
sob uma diversidade de enquadramento, e, sobretudo, para conferir uma maior
visibilidade e instauração de novos paradigmas e taxonomias. Com a proliferação
dos dados motivados pelas Tecnologias Digitais da Informação e Comunicação
(TDIC), alteram-se o ecossistema e o fluxo de pesquisas, que passam a
operacionalizar em grandes volumes de dados e no fomento de métodos e análises
para aferir esse movimento. Compreendendo que há novos movimentos de
ordenação nos processos científicos, advindos da gestão de dados e
compartilhamento, e o surgimento de novos padrões e procedimentos técnicos e
teóricos estão emergindo e reconfiguram as práticas científicas, Sayão e Sales
(2013) traçaram metas para o estabelecimento de um modelo de curadoria digital
para os dados de pesquisa no contexto do e-science.
Dentro da proposta de curadoria para dados de pesquisa, os autores
entendem que é preciso políticas mais avançadas que se adequem ao cenário das
pesquisas científicas e práticas de ciência aberta, na qual ocorre troca de ideias e
conhecimento. Ainda neste ambiente, os estudos do e-science na CI começam e ser
explorados e tem-se o início de uma consolidação da temática em pesquisas
acadêmicas. As investigações de Medeiros e Caregnato (2012) e Rocha e
Caregnato (2013) têm a preocupação de trazer para o debate na CI as definições da
área e compartilhamentos, usos e reusos dos dados de pesquisa. A intenção dos
autores é abrir caminhos a serem desbravados para este tema emergente e que
necessitam de estudos comprometidos e ferramentas metodológicas compatíveis.
Este campo possibilita subsídios que estão vinculados aos fundamentos da ciência,
que pressupõe colaboração e interdisciplinaridade. Assim, “necessita-se, entre
outros quesitos, de esforços e estudos na forma como os dados são liberados,
69

podendo ser dados fortemente estruturados ou que passaram por um processo de


curadoria” (ROCHA; CAREGNATO, 2013, p. 320).
Produzir saber científico vai muito além de apenas de coletar os dados frutos
de resultados de pesquisas. Pode-se afirmar que o compartilhamento dos dados em
se tornou a nova caracterização de fazer ciência na contemporaneidade. Os
avanços e desenvolvimento da ciência e tecnologia propiciaram condições
indispensáveis que fornecem o intercâmbio de dados e promover novas descobertas
e caminhos ainda não explorados. “Os dados digitais não são apenas os resultados
da investigação, mas fornecem insumos para novas hipóteses, possibilitando novos
insights científicos e impulsionar a inovação” (TENOPIR et al, 2011, p.1). Ainda
assim, a promoção de ciência aberta e com a prática da colaboração, há alguns
percalços a serem melhor trabalhados e/ou organizados. Um deles se volta para “a
rivalidade e competitividade desencadeadas pela disputa de prioridade na revelação
de descobertas e invenções, estimulando a busca pelo reconhecimento
individualizado e minando muitas vezes iniciativas de cooperação” (MACIEL;
APPEL; ALBAGLI, 2013, p. 16).
Dentro do universo composto pelo e-science, os Ciclos de Vida dos Dados
(CVD) foram modelos desenvolvidos nos âmbitos de diversas universidades com o
objetivo de detalhar o processo de vida do dado em várias etapas, bem como
determinr um padrão para o gerenciamento dos dados, compartilhamento e
armazenamento. Cabe ressaltar que, neste tópico, não é o intuito descrever à
exuastão os vários modelos existentes para a gestão de dados. Nos detivemos a
destacar dois modelos, que, na nossa compreensão, além de estarem alinhados ao
Campo da Ciência da Informação, nos parecem serem os mais pertinentes ao
analisar toda a cadeia produtiva dos dados e suas respectivas contribuções ao tema.
Nesta direção, o Projeto Data Observation Network for Earth (DataONE)36,
vinculado ao National Science Foundation, sediado em Albuquerque, Novo México,
tem a proposta de desenvolver pesquisas inovadoras em ciências ambientais de
acesso aberto que esteja em conformidade das prioridades da ciência e da
sociedade que “assegurará a preservação, acesso, uso e reutilização de multi-
escala, multidisciplinar e dados de ciência multinacional através de três elementos

36
Disponível em: https://www.dataone.org/executive_team Acesso em: 9 nov. 2017.
70

primários de ciberinfração e um amplo programa de educação e divulgação”37


(DataONE, 2017).
Assim, o Projeto integra uma rede de pesquisa sobre dados contendo três
Coordenações Núcleos: Universidade do Novo México, na Universidade da
Califórnia, em Santa Bárbara e na Universidade do Tennessee (em colaboração com
o Laboratório Nacional Oak Ridge), mas mantendo parcerias de projetos com outros
países, incluino nesse rol, o Brasil. Como resultado destas pesquisas, o DataONE
desenvolveu um modelo de Ciclo de Vida dos Dados (Figura 3) detalhando as
etapas constitutivas que envolvem o gerenciamento e preservação dos dados com
vistas para os usos e reusos.

Figura 3 - Modelo de Ciclo de Vida dos Dados desenvolvido pela DataONE

Fonte: DataOne, 2017.

Deste modo, o Data Lifecycle Model estabelece oito componentes na qual


demonstra como os dados são processados para os devidos usos, quais sejam:

37
No original: “DataONE will ensure the preservation, access, use and reuse of multi-scale, multi-
discipline, and multi-national science data via three primary cyberinfrastucture elements and a broad
education and outreach program”.
71

Planejar: descrição dos dados que serão compilados e como os dados serão
gerenciados e tornados acessíveis ao longo de sua vida útil
Recolher: as observações são realizadas à mão ou com sensores ou outros
instrumentos e os dados são colocados em uma forma digital
Garantir: a qualidade dos dados é assegurada através de cheques e inspeções
Descrever: os dados são descritos com precisão e detalhamento usando os padrões
de metadados apropriados
Preservar: os dados são enviados para um arquivo apropriado a longo prazo (ou
seja, data center)
Descobrir: dados e dados obtidos potencialmente úteis, juntamente com a
informação relevante sobre os dados (metadados)
Integrar: dados de fontes diferentes são combinados para formar um conjunto
homogêneo de dados que podem ser prontamente analisados
Analisar: os dados são analisados38 (DATAONE, 2018, online, traduução nossa).

Esses componentes, conforme sugere esse modelo, podem serem usados


parcialmente em pesquisas científicas/ acadêmicas ou de modo total. Além da
construção desse modelo, a DataONE também estipulou um guia intituluado Primer
on Data Management: What you Always wanted to Know39 indicando as formas e
tipos de gerenciamento de dados em que se pode desenvolver considerando os
components descritos no modelo.
Em pesquisas brasileiras sobre Ciclo de Vida dos Dados (Figura 4) específico
para a Ciência da Informação, elaborado por Sant’Ana (2013; 2016), nos fornece
estratégias de apreensão para quatro fases envolvidas na gestão dos dados: Coleta,
Armazenamento, Recuperação e Descarte. Além das fases, apresenta outros
atributos para a gestão dos dados como preservação, disseminação, direitos

38
No original: Plan: description of the data that will be compiled, and how the data will be managed
and made accessible throughout its lifetime; Collect: observations are made either by hand or with
sensors or other instruments and the data are placed a into digital form; Assure: the quality of the data
are assured through checks and inspections; Describe: data are accurately and thoroughly described
using the appropriate metadata standards; Preserve: data are submitted to an appropriate long-term
archive (i.e. data center); Discover: potentially useful data are located and obtained, along with the
relevant information about the data (metadata); Integrate: data from disparate sources are combined
to form one homogeneous set of data that can be readily analyzed; Analyze: data are analyzed”.
39
Disponível em: https://www.dataone.org/sites/all/documents/DataONE_BP_Primer_020212.pdf
Acesso em: 9 nov. 2017.
72

autorais, qualidade, integração e privacidade. O autor realizou um levantamento de


vários CVD, comparando as fases, características e atributos em cada um deles. Na
fase da Coleta, como o próprio nome sugere, constitui na aquisição dos dados como
também o estabelecimento de estratégias de avaliação e localização dos dados,
bem como elaboração dos métodos e ferramentas para execução dos dados
coletados; Na etapa do Armazenamento pressupõe uma inclinação tecnológica e
recai sobre mecanismos que possam armazenar os dados com possibilidades de
reutilização e traçar caminhos para interação com outras bases de dados.
A fase da Recuperação ocorre quando, após a coleta e armazenamento, é
necessário que esses dados estejam disponíveis, abertos e acessíveis, cujo foco se
direciona a ampliação de mecanismos que expandem as etapas de usos desses
dados. Já a última fase, Descarte, propõe a rejeição dos dados que não são mais
úteis ou aqueles que excedem a capacidade de armazenamento.

Figura 4 – Modelo de Ciclo de Vida dos Dados na Ciência da Informação

Fonte: Sant’Ana (2013, 2016)

A despeito de todas as fases e atributos do CVD proposto por Sant’Ana


(2016, p. 138) há um elemento de igual importância que permeia toda a efetuação
que se referem as metadados, principalmente quando se trata de análise,
considerando que estes necessitam ser registrados e que “portanto, será
responsável pelo registro dos dados sobre os dados, representando, assim, a
73

estrutura dos dados coletados, armazenados e passíveis de recuperação”. O Ciclo


de Vida dos Dados traz visibilidade para as mudanças estruturais em decorrência de
processos em torno explosão de dados (ZHU; ZHONG; XIONG, 2009) e dos
desdobramentos acerca das redes informacionais e comunicacionais.

A compreensão comum dos aspectos envolvidos no ciclo de vida dos dados


é fator chave de sucesso no desenvolvimento de pesquisas e novas
tecnologias e os modelos de ciclo de vida existentes não atendem as
características encontradas na Ciência da Informação, o que suscita a
necessidade de um modelo próprio da área e que possa, inclusive, ter um
escopo tanto no apoio teórico como na aplicação das tecnologias
(SANT’ANA, 2013, p. 18-19).

A complexidade dos dados em circulação por tais redes digitais faz parte das
preocupações do campo na análise das visualizações de dados que lidam com esse
lastro no sentido de traduzir para o público as revoluções científicas ou de
representação dessas manifestações em forma gráfica por meio de cruzamentos de
dados complexos dinâmicos via ferramentas de Visualização de Dados como Many
Eyes40 desenvolvido pela IBM, por exemplo. No contexto, observa-se a dinâmica
das bases de dados acessíveis através de plataformas que processam volumes
cada vez maiores e que podem ser potencialmente transformadas em visualização.
No próximo capítulo, trataremos os aspectos relativos ao fenômeno do Big Data na
sociedade contemporânea, apresentando as carecterísticas, definições, a
dataficação do mundo e outros desdobramentos embasados no referencial teórico
específico.

40
Lançado em 2007, o site possibilitava criações de visualizações de dados em vários formatos.
Fechou pela própria empresa em 2012. Disponível em: http://www-
969.ibm.com/software/analytics/manyeyes/ acesso em: 1 dez. 2015. Fonte: http://migre.me/vqYm5
Acesso em: 6 nov. 2016.
74
75

3.1 Big Data na contemporaneidade: o estado da questão

As inovações e avanços tecnológicos da década de 1970 que culminaram


com a sociedade em rede e a evolução desse processo para o século XXI com
bases de dados e Big Data entre outros aspectos como emergência dos dispositivos
móveis digitais, computação em nuvem (cloud computing), formam o cenário
profícuo para a produção, disseminação, compartilhamento e velocidade da geração
de dados. O fenômeno evidencia um ambiente em mutações em termos culturais,
sociais, políticos e econômicos e, sobretudo, na Ciência da Informação como uma
preocupação central com a gestão desses dados em grande escala. Logo, Big Data
(Mega dados) se revela um conceito e uma prática em continuum como
problemática quanto à capacidade de recuperação e processamento de dados
dentro desse contexto multifacetado em que o fenômeno se entrecruza
considerando sua natureza interdisciplinar (computação, Ciência da Informação,
administração, entre outras).
Em outra perspectiva, o fenômeno está diretamente vinculado à
pervasividade das TDIC e traz à baila questionamentos éticos que podem impactar
as práticas sociais, como por exemplo, invasão à privacidade. Com base em Davis
(2012), Dias e Vieira (2013) explicam que o debate entre ética e Big Data permeia
quatro componentes, são eles: Identidade (relação entre identidade real versus
identidade virtual); Privacidade (estabelecimento de interações sobre os cidadãos
que geram dados novos); Reputação (com o Big Data, há uma extinção do controle
da reputação em ambientes digitais) e Propriedade (vinculada à posse dos dados e
da propriedade intelectual).
A era do Big Data está vinculada à revolução do Vale do Silício, mas de uma
maneira geral, envolve uma contínua busca da humanidade em medir, registrar,
calcular as informações. “O Big Data marca um importante passo na busca da
humanidade por quantificar e compreender o mundo”. Vários elementos que não
podiam ser medidos, armazenados, analisados e compartilhados antes agora fazem
parte de banco de dados. (SCHÖNBERGER-MAYER E CUKIER, 2013, p. 13).
A era digital facilitou o processamento de dados com três grandes mudanças:
1) Capacidade de analisar grandes quantidades de dados sobre determinado tema;
76

2) Disposição de aceitar a real confusão dos dados em vez de privilegiar a exatidão


deles e 3) Valorizar as correlações mais do que a busca contínua pela causalidade
efusiva. Para os autores, a grande mudança de paradigma para que o Big Data
explodisse em diversas esferas ocorreu em meados de 2000, mais especificamente
nos campos da Astronomia e Genômica. Este momento marca o início das
transformações significativas com a explosão do Big Data. Para eles “a era do Big
Data desafia a maneira como vivemos e interagimos com o mundo” (p. 4). Mas
deixando sempre em alerta que “a verdadeira revolução não está nas máquinas que
calculam os dados, e sim nos dados em si e na maneira como usamos” (p.5). A
partir dessas transformações, é que o Big Data possibilitará novas análises sem
correr o risco de perder o foco.
Na tentativa de compreender os acontecimentos tecnológicos, foi cunhado o
termo Dataficação, que se refere à capacidade de registrar uma informação e
colocá-la em um formato que possa ser quantificada para, em seguida, ser analisada
e tabulada. Essa prática extrapola com os modos primitivos e consagrados de
estabelecer a análise das informações. Deste modo, “a dataficação permitiu a
indexação e a busca nos textos, além do fluxo de um fluxo infinito de análises
textuais” (SCHÖNBERGER-MAYER E CUKIER, 2013, p. 58).
De fato, o Big Data aponta para novos horizontes científicos e pragmáticos
que conduz para a exigência de novas habilidades e conhecimento para o
enquadramento no perfil na medida em que o tratamento informacional se intensifica
e indica desafios como conferir valor a esses dados e usá-lo como ativo corporativo,
poder de competitividade e de inovação. Nesta perspectiva, “um indivíduo
considerado competente em informação reconhece que a informação é o insumo
essencial para a tomada inteligente de decisões no âmbito das suas diversas
atividades, para perceber quando há necessidade de informação” (DUARTE et al,
2013, p. 556). Deste modo, a abordagem do estudo reside no efeito trazido pelo Big
Data para a gestão de grandes quantidades de dados e a ênfase na capacitação
profissional, bem como lidar com o Big Data na gestão de dados na
contemporaneidade, compreendendo o perfil profissional que se adere a esta
conjuntura de complexidade da gestão de dados.
77

3.2 Definições para o fenômeno do Big Data

Partindo do entendimento de que o Big Data desafia o modo como vivemos e


interagimos no mundo (SCHONBERGER e CUKIER, 2014), o conceito é a nova
fronteira para inovação, competitividade e produtividade (MANIYKA et al, 2011) e um
paradigma na era da informação (DI MARTINO, 2004), extrapolando a capacidade
de armazenamento dos bancos de dados (DUMBILL, 2015). A partir desta
percepção, deve-se observar o direcionamento para desempenhar um papel
econômico significativo, aumentando a produtividade das organizações e interações
que resultam desse movimento, assim como a inovação para construir um capital
competitivo na era dos dados. São reconfigurações advindas da explosão
informacional vivenciada ainda na década de 1940 que revelam não só o poder dos
petabytes (EINSENSTEIN, 2015) e de seus processos técnicos, mas um campo de
desafios e complexidade no manejo dos dados e no modo como valoramos e
transformamos em conhecimento.
Quanto às definições, há uma gama de endereçamentos conceituais sobre o
fenômeno e presente nas mais variadas áreas de conhecimento. Cabe às áreas
como a astronomia e a genômica, advindos de um contexto de explosão
informacional a partir dos anos 2000, parte da sistematização para o termo em uma
escala maior de visibilidade (SCHÖNBERGER-MAYER E CUKIER, 2013). O
conceito em questão ainda está longe de um consenso e, inclusive, está envolta
com controvérsias e contestações tendo em vista a classificação para autores tratar
mais de uma estratégia de marketing que um fenômeno para estudo como Primo
(2007) atribui para o termo interatividade. Contudo, no universo acadêmico é
crescente a literatura sobre Big Data e sua consolidação para os estudos dos
grandes volumes de dados. Elencamos algumas definições (Quadro 3) para auxiliar
na compreensão do fenômeno e das concepções que ele adquire em campos
distintos como Computação, Economia, Ciência da Informação.
78

Quadro 3– Definições de Big Data obtidas na literatura

Fonte: Elaboração e tradução da autora

Big Data é compreendido aqui como grande volume de dados complexos que
podem ser processados por sistemas informáticos com grande capacidade de
processamento. Crawford e Boyd (2012, p. 3) entendem como um fenômeno sócio-
técnico, cultural, tecnológico e acadêmico que apresenta três dimensões, a saber:
a) Tecnologia: maximizar poder de computação e precisão algorítmica para reunir,
79

analisar, link, e comparar grandes conjuntos de dados; 2) Análise: com base em


grandes volumes de dados identificar padrões, a fim de definir reivindicações
econômicas, sociais, técnicos e legais e 3) Mitologia: a crença generalizada de que
grandes conjuntos de dados oferecem uma forma superior de inteligência e
conhecimento que pode gerar insights que antes eram impossível, com a aura de
verdade, objetividade e precisão. Para Mahrt; Scharkow (2013, online, tradução
nossa)41, há outras atribuições a esse conceito.

O termo Big Data tem um significado relativo e tende a denotar maiores e


maiores conjuntos de dados ao longo do tempo. Na ciência da computação,
refere-se a conjuntos de dados que são demasiado grandes para serem
manipulados por infra-estruturas de armazenamento e processamento
regulares. É evidente que grandes conjuntos de dados têm de ser tratados
de maneira diferente do que os pequenos; eles exigem diferentes meios de
descobrir padrões, ou, por vezes, permitir análises que seriam impossíveis
em pequena escala. (MAHRT; SCHARKOW, 2013, online).

Borgman (2015) defende que a noção de Big Data42 recebe cada vez mais
olhares de investigadores, mas também que a compreensão de “little data” no
contexto é pertinente para análise do fenômeno porque “Big Data não é
necessariamente melhores dados” (BORGMAN, 2015, online, tradução nossa). As
estratégias desse uso se apresentam de formas variadas e interesses diversos. A
combinação entre Big Data e vigilância confere novas potencialidades e implicações
econômicas, sociais, culturais e tecnológicas, inclusive de vigilância com a
mineração dos dados e o cruzamento com bases diversas.
Nesta conjuntura, é possível estabelecer uma relação entre a vigilância
convencional por câmeras43 e a "bolha informacional" oriunda da Big Data cuja

41
No original: The term Big Data has a relative meaning and tends to denote bigger and bigger data
sets over time. In computer science, it refers to data sets that are too big to be handled by regular
storage and processing infrastructures. It is evident that large data sets have to be handled differently
than small ones; they require different means of discovering patterns—or sometimes allow analyses
that would be impossible on a small scale ”.
42
O termo Big Data deriva, para Borgman, da comparação de Derek de Sola Prince em 1963 sobre
“little science” e “big science”. Para a autora, o conceito de Big Data recebe a atenção hoje que big
science recebeu há 50 anos como fenômeno de forma superlativa.
43
A partir desse contexto, um dos marcos do uso das tecnologias para a sociedade contemporânea
ocorreu após os atentados de 11 de setembro, em 2001, nos Estados Unidos. Ao mesmo tempo em
que se presenciou a fragilidade da segurança por parte dos americanos, um outro fenômeno emergia
no frenesi dos acontecimentos: o aumento massivo das câmeras de vigilância na vida cotidiana da
80

coleta e processamento desses dados pode ter fins diversos com a manipulação dos
algoritmos. Como sabemos as instituições com funções de disciplina ao mesmo
tempo em que observam também colocam os indivíduos numa condição de
visibilidade, seja na escola, trabalho, habitação, vida social, vida privada.

3.3 O Mundo datificado


O Big Data tem integrado domínios interdisciplinares que incluem várias áreas
de conhecimento, bem como o entorno social em que os dados estão sendo
produzidos, armazenados, compartilhados através de um conjunto de transações e
interações de vários meios de comunicação e redes digitais. É neste contexto de
movimentação informacional, dados em todos os lugares, que o Big Data está se
consolidando como prática e conceito para se pensar o fluxo informacional nas
redes digitais através da dataficação.
Shonberger e Cukier (2013) tentam entender o que está por trás de todo esse
acúmulo de informações em uma escala veloz e fluida porque “desafia a maneira
como vivemos e interagimos com o mundo” (p. 4). Os autores recolocam o
fenômeno do Big Data como o começo de uma relevante "era" e com
desdobramentos em várias camadas sociais e que a semântica da palavra dada”
provém do latim significando “fato”. Deste modo, Shonberger e Cukier (2013)
compreendem as grandes quantidades de dados a partir da perspectiva da
Datafication indicando a constituição pelo processo de registro, análise e
reorganização dos dados soltos, isto é, dataficar significa quantificar esses dados
em busca de dar sentido. Há diferença entre dataficar e digitalizar. O processo de
digitalização (conversão das informações analógicas em binárias) potencializa a
dataficação dos dados no ciberespaço, tendo em vista que o fluxo informacional
pujante se encontra através das mediações tecnológicas.

O surgimento dos computadores gerou aparelhos de medição e


armazenagem digitais que tornaram a dataficação muito mais eficiente. Eles

população. A idéia da instalação das câmeras de vigilância é quase a mesma: uma solução
tecnológica projetada para resolver problemas de vigilância no espaço urbano; pessoas
permanentemente vigiadas, registradas sem uma razão relevante para que isso fosse feito.
81

também permitiram que a análise matemática dos dados revelasse seu


valor oculto. Em resumo, a digitalização impulsiona a dataficação, mas não
é a substituta. O ato de digitalização – a transformação de informações
analógicas no formato que os computadores possam ler – sem si, não
datafica. (SHONBERGER; CUKIER, 2013, p. 57).

O conceito de Datafication definido pelos autores citados nos parece


apropriado neste contexto em que a digitalização alavancou e motivou o
desenvolvimento dos processos informacionais na contemporaneidade. Esse
processo tem início ainda nas sociedades primitivas quando utilizavam as medidas
básicas de pesos, passando pela evolução da escrita na Mesopotâmia que auxiliou
no registro das transações da época. Desta forma, esses foram os alicerces
fundamentais para a dataficação porque “permitiu a previsão e o planejamento,
mesmo que simples, como prever se a colheita do ano seguinte seria tão farta
quanto a dos anos anteriores” (SHONBERGER e CUKIER, 2013, p. 55). Observa-
se, assim, que a prática de dataficar abrange vários aspectos e atividades da vida
cotidiana, desde uma simples matemática ao empenho de gerenciar grandes
volumes de dados. Dessa forma, o Big Data (gráfico 2) reconfigurou a matemática
dos cálculos e algarismo no momento em que eles podem ser também analisados, o
que vai além de apenas armazenar ou recuperá-los. A possibilidade de cruzar os
dados e conferir novos significados traz novas descobertas para os usos e
benefícios.

Gráfico 2– Os 5V do Big Data conforme Marr

Fonte: Elaboração da autora


82

Cabe trazer para a discussão empreendida aqui sobre os 5 Vs do Big Data a


partir das colocações de Bernard Marr (2015) como forma de compreender a
complexidade dos dados no contexto de uma nova a explosão informacional a partir
do Big Data. Marr (2015, online) classifica os 5V, conforme acima.
Nestas carcaterísticas, o volume constitui-se como um grande volume de
dados que é gerado a cada segundo em diversos formatos como vídeos, fotos,
clipes, mensagens de email e nas redes sociais, que tem o poderio de
armazenamento, bem como usar esses conjuntos de dados com a ajuda de
sistemas distribuídos, onde partes de que os dados são armazenados em locais
diferentes, ligadas por redes e reuniu pelo software. A velocidade diz respeito à
velocidade com que os novos dados são gerados em rede e da velocidade à qual os
dados se movimentam. A tecnologia de dados através do Big Data possibilita
analisar os dados ao mesmo tempo em que estão sendo gerados. Já a variedade
está direcionada à diversidade dos tipos de dados que podem ser utilizados,
analisados, armazenados, reusados. Com o Big Data, os diversos tipos de usos
podem ser estruturado em seus diferentes formatos, como vídeos, imagens em
movimento, mensagens em mídias sociais, e-mails, fotos, etc. A Veracidade refere-
se a desordem ou a confiabilidade dos dados. Com muitas formas de Big Data,
atributos como qualidade e precisa sejam menos controláveis. “Os volumes muitas
vezes compensar a falta de qualidade ou precisão. Mas todos os volumes de dados
em rápido movimento de diferentes variedades e veracidade ter para ser
transformado em valor. É por isso que o valor é o V que mais importa”.44 E o valor
refere-se à nossa capacidade transformar os dados em valor. Para o autor, é
importante fazer um caso de qualquer tentativa de coletar e utilizar grandes volumes
de dados.
Essas categorias remetem ao contexto ampliado por Barreto (2014, p.3)
sobre a indústria de informação e os usos econômicos e políticos através da noção
de Big Data tendo em vista que há uma articulação em torno do “grau de
organização técnica e controle de seus estoques de informação [da indústria da
informação]”. Deste modo, Barreto vê uma superestrutura da informação se
desenhando para o desenvolvimento de uma infocontextura. Observamos que existe
44
No original: “The volumes often compensate for the lack of quality or accuracy. But all volumes of
fast moving data of different varieties and veracity have to be transformed into value. That's why value
is the V Big Data that matters most. "
83

a produção da informação que é “institucionalizada em estoques”, ainda segundo o


autor, que estão ancoradas no “processo de transformação” na quais repousam as
tarefas de seleção, codificação, classificação, reunião e armazenamento. Para
Barreto, tais atividades são direcionadas de modo que “todas essas atividades estão
orientadas para a organização de estoques de informação, guardadas para uso
imediato ou futuro” (p. 3). O autor ainda chama a atenção para que tais informações
disponíveis em bibliotecas, arquivos e museus não têm a autonomia de ser
produtora de conhecimento, processo pela qual só se torna real através de uma
ação mútua da comunicação que ocorre entre a fonte (que seriam os estoques) e o
receptor (em sua realidade). Isto é, estas informações navegam em um fluxo
contínuo e dentro da logística da rede que é baseada nos processos interacionais.
Neste ponto, a interatividade torna-se um imperativo para que esse conjunto de
informações seja transformado em conhecimento.
Big Data, portanto, não se refere necessariamente ao que possa ser
considerado “grande”, mas sim, a dimensões que surtem efeitos revolucionários na
produção de conhecimento e, portanto, com aspecto multidimensional (LAGOZE,
2014). Na cartografia do fenômeno, Lagoze sugere que o Big Data seja analisado a
partir de uma reflexão sociotécnica, seus processos, vida cultural, facetas histórias e
tecnológicas que desta forma vão diferenciar aspectos que contribuirão para a
inovação que pode ser mais “evolucionária” do que “revolucionária” e que há um
campo aberto e desafiador que está ocasionando mudanças profundas na
sociedade.
Assim, pode-se afirmar que o Big Data está localizado em um panorama
emergente que pode trazer novas implicações para a sociedade contemporânea
aliada ao potencial para a gestão de informações digitais. Esse movimento em
emergência se comporta em uma lógica de inovação e velocidade que tende a
dinamizar as experimentações de modo contínuo. Manovich (2011) afirma que os
processos culturais e sociais da sociedade ao tratamento da informação criam novas
dinâmicas e novos modos de lidar com elas, principalmente, com a emergência das
mídias sociais nos anos 2000. Nesta explosão de dados, o autor aponta dois tipos:
surface data (dados superficiais sobre muitos indivíduos) e deep data (dados
profundos). No primeiro, a ideia é utilizada em todas as áreas de conhecimento que
adotaram os métodos quantitativos (técnicas estatísticas, matemáticos ou
computacionais para análise). Já a deep data aborda questões da humanidade, ou
84

seja, dados não quantitativos, como filmes, estudos literários, história, história da
arte, psicologia, sociologia, antropologia e etnografia.
Ainda de acordo com ele, a junção das mídias sociais com as ferramentas
tecnológicas, que são capazes de processamentos de grandes quantidades de
dados “torna possível uma abordagem fundamentalmente nova para o estudo do ser
humano e da sociedade em profundidade” (MANOVICH, 2001, p.3). Ele conceitua o
Deep Data, que é uma concepção que se revela adequada ao analisar a explosão
informacional como elemento reconfigurador das práticas sociais mediadas pelos
avanços tecnológicos e computacionais. O cenário, portanto, é promissor quanto às
expectativas voltadas para a utilização do Big Data em várias áreas do
conhecimento, mas ao mesmo tempo desafiante ao gerenciar de um modo
adequado os grandes volumes de dados.
O Wikileaks45, por exemplo, pode ser apontado como um expoente dos
grandes volumes de dados (documentos) confidenciais que foram vazados na Web,
quando em 2010, documentos sigilosos pertencentes ao Departamento de Estado
dos Estados Unidos foram vazados através do site. A despeito de todo o burburinho
que se faz quanto a esse fenômeno, é possível compreender que o Big Data é
menos sobre quantidade de dados e mais sobre a capacidade de pesquisa, isto é, é
necessário fazer questionamentos críticos sobre o que os grandes volumes de
dados pode significar, o acesso a eles, a análise e para quais finalidades (BOYD;
CROWFORD, 2012).
Como alerta Manovich (2011) “a análise completamente automática de dados
sociais e culturais não produzirá resultados significativos hoje porque a capacidade
dos computadores para compreender os textos de conteúdo, imagens, vídeos e
outros meios de comunicação ainda é limitada46” (p. 9), que ressalta, ainda, a
incapacidade dos computadores em interpretar os dados. Nessa conjectura, o autor
destaca três grupos de pessoas no panorama do Big Data, quais sejam: aqueles que
criam dados (consciente e deixando rastros digitais); aqueles que têm a expertise
para coletá-lo, e aqueles que têm expertise para analisá-los. O ecossistema em

45
O Wikileaks, fundado pelo ciberativista e australiano Julian Assange em 2006. É uma organização
sem fins lucrativos, transnacional e sua sede se encontra na Suécia. Disponível em:
https://wikileaks.org/ Acesso em: 23 nov. 2016.
46
No original: “Fully automatic analysis of social and cultural data will not produce significant results
today because the ability of computers to understand content texts, images, videos and other media is
still limited” .
85

volta do Big Data ainda acarreta implicações a serem discutidas, tanto de ordem
sócio-tecnológica quanto de habilidades pessoais.

3.4 A Ciência de Dados na era do Big Data


Como já discutido anteriormente, a Data Science agrega características de
outros campos de conhecimento e está vinculada com conceitos importantes, como
Big Data, Data Mining e Open Data – só para citar alguns - e que vem recebendo
destaque tanto na prática quanto em pesquisas acadêmicas. Na verdade, o Data
Science é uma consequência natural e direta da era dos grandes volumes de dados,
de quando a explosão dos dados se tornou evidente no contexto contemporâneo.
Para Provost e Fawcett (2013), a Data Science se constitui como um
resultado dos princípios fundamentais que apoiam e orientam a extração de
informação e conhecimento de dados através dos aparatos tecnológicos. Os autores
tentam desmistificar de que as técnicas de processamento de dados não se
constituem as mesmas compostas pela Data Science, mas servem como auxílio e
apoio para extração do conhecimento, tomada de decisão, gerenciamento de
sistema Web, processamento de transações eficientes, gerenciamento de
campanhas publicitárias online e etc.
Assim, a Data Science envolve princípios, processos e técnicas para a
compreensão de fenômenos através da análise automatizada de dados e resolve
problemas advindos do Big Data e está fundamentada em três pilares, quais sejam:
1) Dados 2) tecnologias e 3) pessoas. Esses fatores integram coletivamente a
explosão de dados e contribuem para a emergência da era do Big Data (SONG;
ZHU, 2016). Na era dos grandes volumes de dados, é um desafio contínuo apontar
quais dados podem ser utilizados e integrados como agente modificador, ou para
resolver determinados obstáculos que surgem. As formas inovadoras que antes
eram incapazes de serem resolvidas são denominadas de Paradigma dos dados
(SCHÖNBERGER; CUKIER, 2013).
Nesta conjectura, existem profundos desafios inferenciais advindos da era
dos grandes volumes de dados, como por exemplo, a manipulação dos dados,
capacidade de ordenar, selecionar e mesclar com outros, detectar anomalias. A
86

aplicação das técnicas da estatística como uma característica que está na gênese
da Data Science, segundo Diggle (2015) combinadas com outras faculdades do
saber, tem impulsionado à gestão dos dados em uma escala maior. Tal contexto
representa novos domínios analíticos para além dos sistemas automatizados. Como
Hand (2015) aponta que um dos desafios para a data science é a medição, ou seja,
comunicar incerteza decorrente de uma amostragem de grandes quantidades de
dados, o que pode levar a vários tipos de distorções e credibilidade. O autor é
prudente quanto a este cenário em ascensão por conta da explosão dos dados e,
embora o desenvolvimento tecnológico tenha sido o maior vetor de mudança neste
sentido, ainda está no começo.
Neste sentido, a data science procura desenvolver abordagens para analisar
dados do Big Data, assegurando que possa ser usado para ganhar tanto valor
quanto possível. As técnicas resultantes tipicamente podem ser aplicadas a
inúmeros cenários, que pode aumentar o potencial de valor a ser explorado em
outros ambientes. Adicionalmente, contribui com novos métodos de descoberta de
conhecimento para apoiar outras disciplinas para garantir que seus conjuntos de
dados possam ser analisados, exploradas e utilizadas para que o conhecimento
pode ser extraído, do tamanho ou da complexidade dos dados.
Gradativamente a ciência da computação e estatística continuarão a avançar,
mas ele levanta a crítica de que as técnicas computacionais não podem substituir o
pensamento estatístico, o que pode conduzir a uma variedade de conclusões
equivocadas porque “o computador pode permitir explorar os dados de formas que
não pudemos ter imaginado, mas isso não significa que podemos ignorar os
fundamentos”47 (HAND, 2015, p. 711, tradução nossa). Neste sentido e diante desse
cenário de rápida mudança e incerteza, é preciso fazer questionamentos quanto aos
sistemas que são utilizados para estas práticas e quais as que regulam.
Big Data não se refere apenas a conjuntos de dados muito grandes e às
ferramentas e procedimentos para manipulá-los e analisá-los, mas também a uma
mudança computacional no pensamento e na pesquisa. Boyd e Crawford (2012)
argumentam que diante do dilúvio do Big Data é oportuno tecer críticas ao
fenômeno, e principalmente, o significado que estes dados podem trazer em um

47
No original: “The computer may allow us to explore data in ways we could not previously have
imagined, but that does not mean we can ignore the fundamentals”.
87

cenário de incertezas. As ferramentas especializadas da Big Data também têm suas


próprias limitações e restrições. Por exemplo, o Twitter e o Facebook são fontes Big
Data que oferecem funções de arquivamento e pesquisa muito pobres e apresentam
dificuldades ou impossibilidades de acessar dados mais antigos, apontam os
autores.
Além disso, os autores apontam os erros dos dados diante de grandes
conjuntos disponíveis na internet porque muitas vezes não são passíveis de
confiabilidade e propensões a interrupções, perdas e erros de interpretação. Para
eles, a interpretação está no centro da análise dos dados e a má interpretação pode
ser o resultado disso. “A análise dos dados é mais eficaz quando os investigadores
têm em conta os complexos processos metodológicos subjacentes à análise desses
dados48” (BOYD e CRAWFORD, 2012, p. 11, tradução nossa).
A ascensão dos mega dados e a capacidade de análise diante de um volume
exponencial é a base fundamental para inovação e produtividade. Ainda assim,
todos os setores da sociedade terão que lidar com as implicações dos grandes
dados e não apenas algumas áreas que estão orientadas a trabalhar
especificamente com dados. Ainda assim, Manyka et al (2011) apontam uma
escassez de pessoas dotadas de talentos necessários em vários setores da
sociedade que estejam aptas a gerenciá-los.
Os mega dados estão se tornando cada vez mais a matéria-prima, o
ingrediente principal que rege a sociedade, no campo científico, inovação, negócios
e está mudando a forma de fazer ciência. Schönberger-Mayer e Cukier (2013)
apontam três mudanças significativas: 1) Capacidade de analisar grandes
quantidades de dados; 2) Disposição de aceitar a real confusão dos dados em vez
de privilegiar a exatidão; e 3) Maior respeito por correções do que pela busca
contínua pela causalidade elusiva. Para eles, a exatidão necessita de dados
precisos e o aumento da quantidade de dados abre portas para a inexatidão. Além
disso, as ferramentas convencionais e os analistas nestes moldes já não são
suficientes para o entendimento desse novo contexto e apresentam dificuldades
para compreender e analisar. Antes de toda a engenharia por trás dos dados, há de

48
No original: “Data analysis is most effective when researchers take into account the complex
methodological processes underlying the analysis of these data”.
88

haver uma mudança de mentalidade frente às novas formas dinamizadoras de


análises de dados massivos.
Nesta direção e similarmente, a Data Science também se baseia fortemente
na inovação aberta, na qual os dados são disponíveis para pesquisadores ou
analistas externos e buscam novas ideias, aumentando a chance de novas
abordagens sendo implementadas para produzir insights, podendo levar a uma
maior oportunidade de flexibilidade no processo metodológico, bem como ao
potencial para melhorar o entendimento sobre dados na Web e para garantir que os
desenvolvimentos futuros sejam benéficos para os setores sociais. No entanto, são
necessários alguns parâmetros de segurança que são essenciais na busca de
dados. Phethean et al (2016) estabelecem dois deles, quais sejam: 1)
Estabelecimento de diretrizes em torno da privacidade, neutralidade da rede e
segurança; 2) Pesquisa em políticas públicas que assegurem todo o processo,
desde a coleta à disposição em repositórios. Para eles, o Data Science pode ser
capaz de resolver questões que surgem no meio desse percurso de grandes
quantidades de dados, inclusive, podendo realizar análises preditivas de eventos
futuros.

3.4.1 Gestão de dados e o perfil do Cientista de dados

Com a ascensão dos dados perpassando várias áreas do conhecimento, a


gestão de dados intensifica e se complexifica com o fenômeno dos grandes volumes
de dados, ao mesmo tempo em que novas possibilidades são abertas para esta área
e, sobretudo, aos profissionais envolvidos. O tratamento dos dados e a gestão se
intensificam na medida em que também enfretam novos desafios, competitividade e
busca contínua por inovação. Deste modo, “um indivíduo considerado competente
em informação reconhece que a informação é o insumo essencial para a tomada
inteligente de decisões no âmbito das suas diversas atividades, para perceber
quando há necessidade de informação” (DUARTE et al, 2013, p. 556).
Nesse contexto de massa de dados em abundância, pode-se refletir sobre
atividades relacionadas à Gestão dos Dados (data management) que estão divididas
em: a) Uso e análise dos dados: exploração das ferramentas tecnológicas para
89

analisar os dados a serem adotados nas empresas com finalidades nos negócios e
aplicações de inteligência; b) Gestão e armazenamento de dados: passa pelo
entendimento de uma infraestrutura de armazenamento e recursos para manipulá-
los (DI MARTINO, 2004). O gerenciamento de dados, neste contexto, é considerado
o aspecto central em um ambiente permeado por dados complexos tendo em vista
que requer acesso para alavancar o conjunto de funcionalidades intrínsecas ao
fenômeno análise transversal dos dados (SPECHT et al. 2015). Para eles,
gerenciamento de dados é o desenvolvimento e implementação de políticas, planos
e processos que gerenciam estes dados para manter a integridade, de segurança e
de utilização dos dados. O resultado é ideal para os dados a serem auto-descritos
para que outros possam descobrir e reutilizá-lo de forma eficaz.
Desta maneira, é necessária para solucionar problemas complexos de
equipes multidisciplinares capazes de manejar a abundância de dados (SPECHT et
al. 2015). A Gestão de dados é um conceito amplo que atua em três aspectos:
operacional, tático e estratégico (LOPES, 2012, p. 9). Além disso, trata-se de uma
disciplina que tem como finalidade “definir, planejar, implantar e executar:
estratégias, procedimentos e práticas necessárias para gerenciar de forma efetiva os
recursos de dados e informações das organizações, incluindo planos para sua
definição, padronização, organização, proteção e utilização.” Apesar de todo
potencial tecnológico que rege o fenômeno para a gestão de dados, a quantidade e
variedade de dados não asseguram a melhor decisão, já que “a demora na análise
dos dados pode nos levar a um atraso na tomada de decisão. Então, ou você perde
a oportunidade da travessia, ou age com atraso, o que pode ser fatal” (COSTA;
CAVALCANTI, 2014, online).
Deste modo, a gestão de dados no contexto do Big Data acarreta também
impactos que estão alicerçados em quatro pilares: técnico, social, político e legal.
Autores destacam dois aspectos que merecem um olhar mais crítico quanto a
benefícios que pode ocasionar: 1) Em função dos grandes volumes e diversidade de
fontes, torna-se fácil perder-se no oceano dos dados e não obter resultados
significativos. Para um resultado mais produtivo, deve-se tornar um imperativo saber
o que e onde buscar tais informações. Os mapas, nesta seara, são relevantes para
uma compreensão geográfica dos dados; e 2) Dificuldade de minerar dados
algoritmicamente na busca por de padrões originais em um ambiente de
complexidade. “Os resultados que podem ser obtidos com algoritmos rígidos serão
90

tão menos significativos quanto maior for a necessidade de integrar dados de fontes
e formatos diferentes” (FERNANDES; LIMA-MARQUES, 2015, p. 69-70).
Nesta direção, atributos como competência e experiência são os principais
combustíveis para o aprendizado e inovação nas organizações em ambientes
complexos (CHOO, 2003). Sendo assim, as organizações/empresas devem estar
inseridas numa logística contínua e mutável, que renove o estoque de conhecimento
e pratica o processo de informação com vistas à tomada de decisões (CHOO, 2003).
Neste sentido de ambiente dinâmico e inovador, a globalização é apontada como
indutor do crescimento explícito em que as organizações devem adaptar-se a
ambientes cada vez mais complexos, como a possibilidade de expansão dos
conhecimentos e capacidades para aquisição de novos conhecimentos,
estabelecimento de conexões de conhecimento (TARAPANOFF; ALVARES, 2015).
Neste contexto de como gerenciar grandes volumes de dados, o cientista de
dados pode ser destacado com uma das áreas em plena ascensão da sociedade
contemporânea. Davenport e D.J. Patil (2012, online, tradução nossa),49 no artigo
Data Scientist: The Sexiest Job of the 21st Century50, publicado na Havard Business
Review, apontam como uma profissão mais requisitada nos últimos anos e como
“uma nova raça” que está nascendo. Eles definem essa nova “raça” como um
híbrido de hacker de dados, analista, comunicador e consultor confiável, cuja fusão,
é algo poderoso. Trata-se, portanto, de um profissional que de alto nível e com
capacidade de fazer novas descobertas na era do Big Data.
Ao mesmo tempo em que os autores sugerem e argumentam como uma
profissão valorizada com tendências ao crescimento, há também algumas limitações
de ordem técnica para o contexto. Os autores são enfáticos ao afirmarem que os
cientistas de dados necessitam criar suas próprias ferramentas, cuja habilidade
primordial é a capacidade de escrever códigos, uma espécie de “cartão de visitas”.
Além disso, comunicarem-se em uma linguagem que todos entendam e “demonstrar

49
No original: What data scientists do is make discoveries while they swim in data. It is their preferred
method of navigating the world around them. At ease in the digital world, they are able to structure
large amounts of data without form and enable analysis. They identify rich data sources, connect to
other potentially incomplete data sources, and clean up the resulting set. In a competitive environment
where challenges continue to shift and data never cease to flow, data scientists help decision makers
shift from ad hoc analysis to a continuous conversation with data.
50
Disponível em: https://goo.gl/2LWZ5K Acesso em: 9 nov. 2018.
91

habilidades especiais envolvidas na narração de histórias com dados, seja


verbalmente, visualmente ou idealmente”51.
Em uma investigação anterior intitulada “Desafios da Gestão de dados na Era
do Big Data: perspectivas profissionais”, comunicação apresentada durante o
Enancib de 2017, ocorrido no campus da Unesp, em Marília, tínhamos o propósito
de caracterizar tais habilidades e perspectivas para este profissional frente aos
novos desafios. A pesquisa foi baseada em uma pesquisa exploratório-descritiva,
com abordagem qualitativa (LIMA; MIOTO, 2007) e que percorreu algumas
etapasfases, quais sejam: a) Fase 1: Definição do percurso metodológico: pesquisa
exploratória- descritiva e documental; b) Fase 2: Levantamento bibliográfico: que
adota os seguintes passos (Leitura de reconhecimento do material bibliográfico;
Leitura exploratória; Leitura seletiva; Leitura reflexiva ou crítica e Leitura
interpretativa). c) Fase 3: Coleta de Dados: Foram adotados os seguintes passos: o
parâmetro temático – as obras vinculadas ao objeto de estudo, em conformidade
com os temas; b) o parâmetro lingüístico – obras nos idiomas português, inglês,
espanhol, etc.; c) as principais fontes que se pretendem consultar – livros,
periódicos, teses, dissertações, coletâneas de textos, etc.; d) Fase 4: Análise
explicativa das soluções: se constrói através dos dados obtidos no material
bibliográfico escolhido, como também fundamentado no referencial teórico
empreendido. Nessa fase, a exposição é realizada considerando os procedimentos
determinados em conformidade com as obras pesquisadas.
No que se refere à realização da análise empreendida foram selecionados
artigos de periódicos, trabalhos publicados em anais de eventos técnico-científico,
livros específicos da temática abordada, tanto nas plataformas brasileiras quanto
nas estrangeiras sobre o tema em questão nessa área de conhecimento. Ainda
como estratégias de coleta de dados, explorou-se o Portal de Periódico Capes,
SciElo, Anais de eventos do Enancib. Sendo assim, foram elencados na busca os
seguintes termos, em dois idiomas, inglês e português: “Big Data”, “gestão de
dados”, “cientista de dados”, “profissional da informação”, “desafios na gestão de
dados”, “data scientist”, “Big Data challenges”, “Data management on Big Data”,
“Professional Profile”, que foram coletados nos campos do assunto, resumo, título e

51
No original: “demonstrate special skills involved in storytelling with data, whether verbally, visually or
ideally”.
92

palavras-chave como fontes de coleta de dados. O período da coleta de dados foi


procedido entre 1 a 30 de março de 2017 (RODRIGUES; DUARTE; DIAS, 2017).
Os resultados mostraram que, ao mesmo tempo em que os desafios estão
postos aos profissionais de modelar o perfil para trabalhar grandes volumes de
dados, os mesmos estão direcionados ao mercado de trabalho e demais
organizações em encontrar o perfil adequado para atuar diretamente com os dados.
O monitoramento de palavras-chaves e de termos sobre a gestão de dados e
cientista de dados nos revela, ainda de forma preliminar, que o Big Data trouxe
implicações para o perfil dos profissionais que lidam com mega dados. Embora a
profissão esteja em alta devido às potencialidades trazidas pelo Big Data há,
contudo, um movimento inverso, uma escassez desses profissionais que estejam
com o currículo em sintonia com o mercado de Tecnologia da Informação
(DAVENPORT; PATIL, 2013). A partir dessa discussão empreendida à luz da
literatura e da exploração do cenário, traçamos um perfil com habilidades e
característica que os profissionais devem adquirir ou possuir para atuar na área de
Big Data voltado para a gestão de dados fazendo comparação entre perfil desejado
pelo mercado (gráfico 3) e a efetivação do profissional (RODRIGUES; DUARTE;
DIAS, 2017).
Assim, a pesquisa exploratória permitiu apontar quatro áreas que
fundamentam os aspectos do cientista de dados: a) Tecnologia: Dentre o arsenal
que compõem o rol de habilidades que o profissional deve ter, maior manejo e
familiaridade no aparato tecnológico, mais vantagem terá na hora de gerenciar
dados. Domínios em computação em nuvem, linguagem de programação,
segurança e privacidade dos dados, tecnologia e infraestrutura conceitos de Map
Reduce, manejo de programas e software; b) Análise de dados: Domínios em:
método científico, conhecimento em Ciência de Dados, análise de gráficos,
mineração de dados e textos, conhecimento em estatística e aprendizado por
máquina; c) Gestão de dados: Domínios em: Big Data (Hadoop, SQL, Spark),
gestão de dados estruturados (RDB, XML), gestão de dados não-estruturados
(bancos de dados NoSQL), recuperação dos dados, inteligência competitiva; d)
Design e Comunicação: Domínios em: comunicação interpessoal, conhecimento em
Visualização de Dados, habilidades de contar histórias visuais, proatividade, poder
de negociação, flexibilidade; e) Matemática e estatística: Domínios em:
Conhecimento em estatística avançada, gerenciamento de grandes volumes de
93

dados, relacionar dados e descobrir padrões, cruzar dados estatísticos, data mining,
otimização.

Gráfico 3– Perfil do cientista de dados

Fonte: (RODRIGUES; DUARTE; DIAS, 2017).


94

O cientista de dados é posicionado como o profissional em ascensão no


contexto gerido por grandes volumes de dados. A questão, contudo, não se limita a
manejar o ferramental tecnológico e programas de software que deem conta do
volume de dados, mas encontrar soluções estratégicas para transformações
disruptivas, à medida que as empresas e organizações inserem o Big Data em suas
decisões e administração. Tal fato requer orientações inovadoras das informações,
que vão desde o planejamento à tomada de decisões. A construção de um perfil
adequado para atuar no mercado de Big Data começa a se construir e se consolidar
cada vez mais, tendo em vista a polivalência de aptidões exigidas para este tipo de
profissional que resulta entrecruzamento de domínio tecnológico e capacitação
adequada.
No capítulo que segue e após a abordagem teórica e contextual sobre dados
a partir do Big Data e da Data Science, exploramos nosso conceito central de
Visualização de Dados no tratamento desses dados, observando o impacto no
âmbito da Ciência da Informação, processos evolutivos e estados da arte.
95
96

4.1 Fundamentos teóricos

A Visualização de Dados vem se tornando mais frequente, tanto do ponto de


vista de abordagem acadêmica, quanto do ponto de vista de alargamento dos usos
na mídia impressa e digital, tornando-se comuns como modelos que visam à
representação visual de grandes volumes de dados. Na literatura, existem inúmeras
terminologias e definições sobre a Visualização de Dados (VIÉGAS, 2013; CAIRO,
2011; MEIRELES, 2011; RODRIGUES, 2009, MANOVICH, 2012), bem como
pesquisas acadêmicas que abordam o assunto. De uma maneira mais abrangente,
a Visualização de Dados é o resultado de uma tecnologia plural que transforma
dados complexos em informação e tenta apresentar mecanismo que facilitem a
interação através de ferramentas para que qualquer usuário complete o processo de
modo autônomo. Acrescente-se a essa afirmação o fato de que a visualização se
revela em constante evolução e atualização, sendo “uma conjugação de signos de
natureza icônica (figurativos) com outros de natureza arbitrária e abstrata (não
figurativos: texto, estatísticas, etc)” (CAIRO, 2012, p. 38).
Meireles (2011, p. 2) conceitua a Visualização de Dados como
“representações de dados que pode assumir diferentes formas, tais como sistemas
de notação, mapas, diagramas, explorações de dados interativos, e outras
invenções gráficas”. A autora ressalta o fato de que estas composições gráficas
abrangem um vasto território que mescla diferentes meios de comunicação,
disciplinas e técnicas, num horizonte de domínio e convenções específicas para a
codificação de dados. Enquanto que Cairo (2012) compreende a visualização de
informação e infografia como sinônimos que se direcionam ao mesmo objeto e a
mesma definição, modificando apenas a nomenclatura. Rodrigues (2009),
entretanto, compreende a Visualização de Dados como paradigma para dados
complexos em dimensões jornalística ou científica.
Para Cox (2004), a Visualização de Dados é o processo de utilização de
tecnologias mediadas por computador e digitais para exibir informações quantitativas
e qualitativas. Mais especificamente, a autora afirma que a visualização científica e
de informação é o processo de transformação de um sistema de modelos
matemáticos e científicos, observações, estatísticas, suposições, registros de
instrumentos, teorias e outros dados em imagens visuais animadas e interativas.
97

Neste sentido, o termo "Visualização de Dados" é usado aqui para especificar este
processo de transformar dados numéricos ou informativos científicos (muitas vezes
chamados de "informática") e para distinguir a Visualização de Dados de outras
visualizações, tais como a arte não baseada em dados. As Visualizações de Dados
estão cada vez mais se complexificando para narrativas sofisticadas que se utilizam
de mapas com dados que permitem interação, conforme defende Fernanda Viégas.

Assim como o fotojornalismo, a Visualização de Dados transmite


fatos e conta histórias complexas pela imagem. Visualizações são
capazes de capturar a realidade econômica e política de um país, por
exemplo, espelhar no conquistas e mazelas sociais por meio dos
dados demográficos de uma sociedade. Por ser mais acessível do
que análises estatísticas tradicionais, a Visualização não só retrata os
fatos da nossa época, como também motiva o debate público.
(VIÉGAS, 2013, online).

A partir dessas definições, principalmente da de Viégas (2013), percebemos


que a Visualização de Dados ocupa cada vez mais um papel central na sociedade
contemporânea em relação a "explosão de dados" como novo fenômeno da Ciência
da Informação. A conjugação entre Big Data e Visualização de Dados delimita uma
nova fronteira para o campo da Ciência da Informação, recuperando ou
complexificando a pertinência da CI em estudar fenômenos relacionados ao fluxo
informacional em sistemas informatizados que lidam com a recuperação e
processamento de informações. O quadro das definições (Quadro 4) demonstra a
pluralidade de conceituações e suas funcionalidades.
Partindo desse arcabouço teórico, definimos o conceito de Visualização de
Dados como a técnica de transformar um conjunto complexo de dados em
visualizações gráficas de modo a constituir uma representação visível dos
dados que estavam “invisíveis” e que passam a ser manipulados por
algoritmos em sistemas computacionais para a estruturação de um conteúdo.
Operacionalizamos o nosso objeto de estudo a partir da compreensão da
Visualização de Dados por considerar pertinente para o contexto de dados em
abundância na ambiência digital.
98

Quadro 4– Definições de Visualização de Dados obtidas na literatura

Fonte: Elaboração da autora


99

Importante destacar um aspecto dessa definição o fato das visualizações


estarem para além de mostrar dados ou números, estatísticas: contam histórias
através dos dados. Essa possibilidade ressaltada por Viégas (2013) conduz a uma
reflexão da importância dos dados e, que estes dados podem ser aprofundados
numa visualização, já que são complexas e tendem a ter uma malha informacional
maior que não se restringe a apenas apresentar, mas explorar e analisar. Soma-se a
essa afirmação que é preciso contextualizar os dados visando estabelecer sentido,
em direção a uma eficácia comunicativa em que “gráficos diferentes contam histórias
diferentes” (GRAY; CHAMBERS; BOUNEGRU, 2012, online). Como alertam Segel e
Heer (2010), às vezes os dados por si só não contam história de maneira mais
convincente, mas deve haver uma narrativa que relaciona as consequências reais e
causar impacto no interagente.
Segel e Heer (2010) estabelecem dois parâmetros que auxiliam na
decodificação dos dados complexos: a) Visualização assistida por informações
(Information-assisted visualization): é fornecido ao usuário um segundo formato de
visualização que normalmente exibe as informações sobre um conjunto de dados,
mas também pode apresentar atributos da visualização do processo, das
propriedades dos resultados, ou das características dos comportamentos de
percepção do usuário. Com o aumento de tamanho e complexidade de dados, a
utilização de informações para ajudar a visualização será inevitável, e se tornará
uma necessidade e não uma opção; b) Visualização assistida por conhecimento
(Knowledge-assisted visualization). Nesta parte, o conhecimento do usuário é um
aspecto indispensável, uma vez que este pode atribuir cores e outros elementos
dependendo do seu domínio de conhecimento.
Deste modo, as pesquisas em Visualização de Dados vêm direcionando o
foco para a exploração dos dados e análise, bem como nas tomadas de decisões
como um todo, além de desenvolvimento de novas técnicas para o aprimoramento e
sofisticação dos dados visualizados. De acordo com Murray (2013), a Visualização
de Dados também se configura num campo interdisciplinar, e que na era dos
grandes volumes de dados há uma "sobrecarga" que precisa ser decodificada de um
modo compreensível, em que o leitor possa entender visualmente a mensagem que
se queira passar. "A Visualização de Dados é um exercício poderoso. A
Visualização de Dados é a maneira mais rápida de comunicá-la aos outros”
(MURRAY, 2013, s.n).
100

Contudo, ressalta o autor, se utiliza eticamente, o processo de visualização


pode auxiliar a enxergar o mundo de uma outra maneira, revelar padrões ocultos e
tendências que não estão disponíveis de uma outra forma. Em outras palavras, a
Visualização de Dados tem como especialidade contar histórias. Além disso,
visualização é um processo de mapeamento de informações para imagens. Para
isso, criam-se regras e metodologias que interpretam dados numa dinâmica muitas
vezes complexa.
Como a Visualização de Dados se comporta no âmbito da Ciência da
Informação? Delimitamos essa situação-problema dentro da CI como busca de
contribuir com o aprofundamento dos estudos no campo e avançar para novas
questões que emergem do fenômeno do Big Data como fator disruptivo quanto ao
volume de dados que impacta a forma de representação da informação. Sendo
assim, delimitar marcos históricos ajudam a compreender a evolução da
Visualização de Dados e seu papel na atualidade através da exploração de dados.

4.2 Principais marcos históricos da Visualização de Dados

Com todo o contexto e a emergência do Big Data como fenômeno social e


tecnológico, há, contudo, uma associação de que a produção de visualizações de
dados é uma prática da modernidade, quando os computadores começam a
aparecer e conferir melhor tratamento na qualidade das imagens. Trata-se, portanto,
de um equívoco. As representações gráficas mantém raízes seculares, passando
pelas pinturas rudimentares, como os primeiros mapas e registros empíricos. Deste
modo, os primeiros indícios do que seria Visualização de Dados ocorreu com os
primeiros mapas, diagramas e ilustrações. Uma destas ilustrações foi produzida
pelo músico erudito Guido de Arezzo, em 1274 (Figura 5), na Itália. A ilustração
chamada Mão de Guido representa a sequência de 20 notas musicais em format de
circunferência.
101

Figura 5 – Ilustração “Mão de Guido”, em 1274

Fonte: MEIRELES, 2010).

O “Horóscopo Universal da Companhia de Jesus”, em 1646, feita por


Athanasius Kircher (Figura 6) revelava um relógio de sol na forma de uma oliveira
com base representando a cidade de Roma.

Figura 6 – O Horóscopo Universal da Companhia de Jesus, em 1646

Fonte: MEIRELES, 2010)


102

Um outro exemplo é este manuscrito de 1496 (Figura 7) que mostra


calendários medievais contend representações das posições do sol e da lua.

Figura 7 – Calendários Medievais de 1496

Fonte: (MEIRELES, 2013).

Até o século XVII, mapas e diagramas tiveram influência em Visualização de


Dados. Os diagramas geométricos são considerados como as origens da
visualização. Este fato ocorreu devido a expansão marítima e com a criação de
novas técnicas e instrumentos para a representação visual do conhecimento. Um
dos primeiros mapas mais antigos é o Ga-Sur (Figura 8), originado em 2400 a 2200
a.C, na Babilônia e representava esta cidade, e foi encontrada em Kirkuk, no Iraque.
O mapa foi todo esculpido em pedra (FRIENDLY; DENIS, 2000). Sendo uma das
primeiras formas de visualizações, os mapas foram produzidos ainda que de forma
rudimentar mostrando linhas e barras, mas também como representação do
movimento e localização dos planetas. Eram explorados igualmente para
representar os conhecimentos de matemática e o campo das ciências.
103

Figura 8 - O mapa mais antigo do mundo feito na Babilônia

Fonte: (FRIENDLY; DENIS, 2000).

Alvin Jewett Johnson projetou este diagrama (Figura 9) de fusos horários


mundiais para publicação em seu New Illustrated Family Atlas em 1862. O diagrama
circular mostra as diferenças de tempo entre os lugares do mundo. Ele é estruturado
em Washington, DC, que é representado como um relógio com a hora marcada para
12. Outras grandes cidades nos EUA e no mundo o cercam com relógios ajustados
de acordo.

Figura 9 – Diagrama de fusos horários de 1862

Fonte: (MEIRELES, 2013).


104

Um dos diagramas mais recorrente na literatura sobre Visualização de Dados


é o de Florence Nightingale, enfermeira britânica que publicou em 1858, os
“Diagramas que Representam a Mortalidade Relativa de Doenças Zimóticas (azul),
de Wounds & c. (vermelho) e de Todas as Outras Causas (pretas) nos Hospitais do
Exército no Oriente (Figura 10), para cada mês de abril de 1854 a março de 1856
com a intenção de promover melhor saneamento e administração em hospitais civis
e militares. A sua produção se tornou um marco na medicina porque foi fundamental
para convencer o governo britânico da necessidade de melhores sistemas de saúde.

Figura 10 – Diagrama de Florence Nightingale, de 1858

Fonte: (MEIRELES, 2013).

Os diversos mapas feitos pelo estatístico americano Francis A. Walker (Figura


11) expõem a população dos Estados Unidos nos anos de 1790, 1800, 1810 e 1820.
Os mapas foram resultados dos dados de quarto censos demográficos e foram
publicados nos Atlas Estatístico dos Estados Unidos em 1874.
105

Figura 11 – Diversos Mapas por Francis A. Walker, de 1874

Fonte: (MEIRELES, 2013).

O Atlas Physikalischer de Heinrich Karl Wilhelm Berghaus (1797-1884) é


considerado uma conquista monumental na história da cartografia temática e foi
publicado durante vários anos, e a primeira edição do atlas encadernado consiste
em noventa mapas em dois volumes, datados de 1845 e 1848. Este mapa
meteorológico (Figura 12) é o segundo mapa no Atlas. Usando uma projeção polar,
Berghaus descreveu a temperatura média no Hemisfério Norte desenhando linhas
de isotermas a intervalos de 5 ° C.
106

Figura 12 – Mapa Metereológico de 1845

Fonte: (MEIRELES, 2013).

O primeiro gráfico que se tem registro originou-se no continente europeu, em


950 D.C, explorando o tempo, e a localização da lua, sol e planetas. O segundo
gráfico é um dos primeiros exemplos conhecidos de gráficos de barra e foi projetado
pelo bispo francês Nicole Oresme, em 1350 dC, e exibe a velocidade de um objeto
constantemente acelerando contra o tempo.
Os gráficos dessa época que se originaram na Europa demonstram que as
diferentes formas de dataviz tiveram elementos de estetização diferenciados desde
a sua produção, sobretudo, porque os mapas (modernos) tendem a ser mais
coloridos e visualmente mais atrativos dos que o simples diagrama. Essa nova
tendência de estética – para aquela época - colorida e estilizada aparece pela
primeira vez em O Homem Vitruviano, obra de Leonardo da Vinci no final do século
XV (Figura 13). Esta obra é o exemplo de incorporar elementos geométricos
fundidos com arte científica, o que exige habilidade artística e pesquisa profunda. Ao
lado da obra de Da Vinci, o cartógrafo português Bartolomeu Velbo no século XVI e
pintou o modelo geocêntrico do universo, inspirado pelo modelo de Ptolomeu
(FRIENDLY, 2006).
Entre 1700 a 1799, tivemos novas formas gráficas. Nesta época e com o
aumento do número expressivo de mapas e diagramas, os cartógrafos começaram a
107

investir e em revelar muito mais do que apenas posições geográficas estanques.


Quanto mais o número de dados avançava, mais diferentes formatos surgiram e
com inovações tecnológicas a exemplo da introdução do uso das cores e litografia
(FRIENDLY, 2006). O mapa de Joseph Priestley, em 1769 e a Line Graph, de
William Playfair, em 1786, ilustram o início das novas formas gráficas para a
representação visual.

Figura 13 – O Homem Vitruviano de Leonardo da Vinci

52
Fonte: Allposters

Entretanto, a idade de Ouro de gráficos de dados, ocorreu no período entre


1850 a 1900. A partir de 1850 foi dada a largada para que os gráficos de dados para
o rápido crescimento dos gráficos de dados, e consequentemente, o aumento da
importância numérica que atingiu em várias esferas como o setor industrial,
transportes e commercial (FRIENDLY, 2006). Nesta época, a teoria estatística
iniciada por Gauss e Laplace forneceu subsídios para fazer sentido os grandes
volumes de dados que apareciam. Dados que informavam o trajeto de uma
determinada epidemia, como o famoso mapa do cólera feito pelo médico John

52
Disponível em: https://www.allposters.com/-sp/Vitruvian-Man-Posters_i2549011_.htm Acesso em:
1 dez. 2018.
108

Snow, por exemplo (Figura 14) mostrava, em 1854, as mortes causadas pelo surto
de cólera em Soho, Londres, e os locais de bombas de água na região. Ao fazer
isso, ele descobriu que houve um agrupamento significativo das mortes em torno de
uma determinada bomba - e removendo o cabo da bomba parou o surto.

Figura 14 - Mapa do Cólera feito pelo médico John Snow, em 1854

53
Fonte: The John Snow -Archieve and Research Companion

Essa é uma fase em que o uso da estatística começarm a figurar nas mais
publicações científicas da época. Além do medico John Snow, outros trabalhos
tiveram destaque na criação de gráficos informativos. O engenheiro francês Charles
Joseph Minard se notabilizou pelas criaçoes dos gráficos estatísticos, sobretudo, por
esse mapa estatístico de 1861 (gráfico 4) em que ele traça a rota do exército de
Napoleão Bonaparte, em 1812. O trabalho de Minard inaugural o que alguns
autores denominam de cartografia estatística ou social (CAIRO, 2012) pelo fato de
não limitar-se a registrar acidentes mas fornecendo e representando a concentracão,
dispersão e movimento das pessoas representadas.

53
Disponível em: https://johnsnow.matrix.msu.edu/ Acesso em: 20 dez. 2018.
109

Gráfico 4- Visualização de Dados criada por Charles Joseph Minard sobre o exército de
Napoleão em Moscou de 1869

Fonte: TUFTE (2001).

Depois de uma fase efervescente na produção de gráficos de dados e o


crescimento da importância dada aos números e explosão da cartografia temática,
surge a Idade Moderna Sombria, entre 1890 a 1949. Neste período, raras foram as
inovações nas representações gráficas e pode ser considerada como a "idade
moderna escura" no que se refere à Visualização de Dados (FRIENDLY; DENIS,
2000). Ainda assim, o mapa do metrô de Londres, feito por Harry Beck, em 1933,
fornece uma visão coerente de um sistema complexo. Para Tufte (2017, online), o
mapa exibe um preciso equilíbrio de cores, tipografia e estilo moderno, explorando
linhas horizontais e verticais, o que ocasionou numa "bela imagem organizada" da
cidade. Esse mapa do metrô de Londres talvez tenha sido a inovação mais moderna
que marcou esse período, e que é referência até hoje quando se discute gráficos de
dados modernos.
Um outro exemplo que ilustra a fase negra desse período é o gráfico Births
and Deaths in Germany in a year feito em 1924 pelo cientista Otto Neurath (1882-
1945) na qual ilustrava os nascimentos e mortes de bebês na Alemanha (gráfico 5).
Observe que o gráfico é bem simples, sem muito dinamismo ou sofisticação na
110

apresentação dos dados, na qual permite fazer um pequeno comparativo no período


que vai de 1911 a 1926. Embora o gráfico apresentasse simplicidade nos dados, foi
nessa época que o cientista criou uma espécie de sistema de linguagem pictórica
denominada de ISOTYPE (International System of TYpographic Picture Education)
onde exerceu grande influência nos modos como se projeta informação visualmente
nos dias de hoje, além de, nesta mesma época, Otto organiza o Museu Social de
Gráficos Estatísticos (the Social Museum of Statistic Graphics). O uso de ícones e
símbolos como formas de comunicação foram as marcas da linguagem desenvolvida
por Otto e largamente utilizada desde essa época. Para Kosara (2013, online,
tradução nossa), "ISOTYPE é realmente um sistema maior, que inclui duas idéias
que se complementam: uma linguagem visual para a criação de ícones ea idéia de
usar múltiplos para representar dados quantitativos".

Gráfico 5 – Exemplo de uso de ícones nos gráficos de Otto Neurath

Fonte: Isotype Institute


111

4.2.1 Renovação da Visualização de Dados (1950 a 1975)

Após um período considerado sombrio e sem muitas inovações nas


produções gráficas, tem-se início a fase do renascimento ou renovação da
Visualização de Dados, cuja importância de visualizar dados alavanca novamente e
inovações gráficas foram percebidas. Friendly (2006) considera alguns fatores
contribuíram para esta retomada, quais sejam: 1) John W. Turkey cria novos
métodos e inovações sobre análise de dados e fez notáveis contribuições para as
ciências sociais. Reinventou a estatística através da análise exploratória de dados
das representações gráficas gráfica, lançando o primeiro livro na área, em 1970,
Exploratory Analysis Data, que se tornou referência mundial; 2) Na França, o
cartógrafo e teórico Jacques Bertin lança o livro Semiologie Graphique, em 1967,
relacionando as visualizações de dados com o sistema de signos, que, em sua
visão, é que se melhor compreende a comunicar. Seus estudos estavam baseados
na linguagem gráfica a partir de trës aspectos: monossêmica (único sentido),
polissêmica (vários significados) e pansêmica (infinitos significados). Seu trabalho é
considerado como os primeiros fundamentos teóricos da visualização e design da
informação, com ampla divulgação na area; 3) Tem-se início ao processamento de
dados com a criação do FORTAN,54 a primeira linguagem da computação. Até o final
da década de 1960, os computadores universais mainframe generalizados ofereciam
a antigos e novos formulários gráficos por programas de computador. Aplicações
estatísticas interativas, e verdadeiros gráficos de alta resolução foram
desenvolvidos, mas demoraria um pouco para entrar em uso comum.
O século XX foi marcado pelo surgimento do computador, principal
acontecimento paradigmático neste período. Atrelado a este invento, o
desenvolvimento de programas de web design, software específicos para o
tratamento e refinamento da imagem, facilitou a produção da Visualização de Dados.
Nesta direção, o início das pesquisas científicas com Turkey e Bertin,
desenvolvimento da análise de dados e avanços tecnológicos proporcionaram novos
paradigmas no campo das visualizações. Esse ambiente levaria a modernos

54
“A família de linguagens de programação conhecida globalmente como Fortran foi desenvolvida a
partir da década de 1950 e continua a ser usada hoje em dia. O nome é um acrônimo da expressão
"IBM Mathematical FORmula TRANslation System". Fonte: Wikipedia (2019).
112

sistemas e métodos de visualização, como dimensionamento multidirecional,


imagens em movimento, Visualização de Dados multidimensionais numa
aproximação 2D, processamento estatístico e teoria baseada na percepção e
experimentos relacionados à forma como gráficos. Ao final deste período, os
primeiros exemplares de sistemas interativos para gráficos estatísticos 2D e 3D
apareceriam como mais um novo formato a ser explorado.

4.2.2 Visualização de Dados dinâmicos (1975 a…)

Com o contexto tecnológico favorecendo a produção de peças gráficas mais


atraentes, neste período as visualizações interativas permitiram que os usuários
manipulassem os gráficos que eram exibidos. Igualmente nessa época, as
visualizações começaram a se tornar sistemáticas em muitos meios: jornais,
revistas, mapas e conteúdo online, apostando em gráficos que proporcionassem a
interação, bem como o uso de cores, sobretudo, na década de 1980.
Uma vez consolidado em sua sistemática para a produção diária, e com
recente utilização nos jornais mundiais, as visualizações de dados já vislumbravam
como um ambiente propício para que a exploração de dados ocorresse de diversas
formas e métodos. Para Friendly (2006) alguns fatores notabilizaram a criação das
visualizações, como o desenvolvimento de sistemas de computação estatística
altamente interativos, manipulação direta para análise de dados visuais, novos
métodos para a Visualização de Dados de alta dimensão, a invenção (ou
reinvenção) de técnicas gráficas para dados, estatística dinâmica para gráficos de
grande escala, engenharia de software estatístico, alavancado por padrões de
código aberto para apresentação e interação.
A partir dos anos 1980, observou-se avanços e criação de gráficos
estatísticos para dados quantitativos multidimensionais, projetados para permitir em
dimensões cada vez mais elevadas e, consequentemente, técnicas foram
aprimoradas para a Visualização de Dados. Entretanto é a partir da primeira década
do século XXI que, efetivamente, a Visualização de Dados ganha outra vertente e
complexidade. Um desses gráficos desencadeadores do processo foi o Snap Shot:
Retailling (Gráfico 6), do The New York Times, estruturada a partir de bases de
dados coletadas da bolsa de valores.
113

Gráfico 6 - Dataviz do New York Times utilizando base de dados, em 2007

Fonte: New York Times

Diferentemente do que vinha sendo produzido no que se refere às estruturas


visuais, com uso de vídeos, imagens em movimento ou outro recurso gráfico,
preferencialmente, essa visualização, que foi vencedora da premiação como melhor
gráfico, foi fundamentalmente construída como um novo formato a ser explorado.
Neste contexto, as bases de dados se configuram como uma forma cultural
simbólica da era do computador e uma nova metáfora para a memória cultural
(MANOVICH, 2001; BARBOSA, 2007). Assim, tais visualizações de dados
apresentam tais características, quais sejam:

• “Apresenta cruzamento dinâmico de dados para a ampliação do


conteúdo conferindo-lhe um aspecto distinto e específico;
• Assegura a atualização constante das informações, contribuindo
como reforço e oferta de um conteúdo exclusivo;
• Proporciona ao usuário um ferramental analítico do conteúdo
visualizado, pois extrapola a possibilidade de apenas "mostrar" os dados;
• Permite novos formatos de apresentação e visualização dos dados
com uso de bolhas, mapas e timeline, números e dinâmicas independentes
de elementos multimídias como vídeos, áudios e imagens;
• Favorece customização de conteúdos ou a participação dos usuários
através da inserção de dados tornando o usuário mais participativo;
• Proporciona a exploração dos diferentes graus de interatividade,
instrução e manipulação” (RODRIGUES, 2009, p. 106).
114

Neste contexto de inserção das bases de dados e de produções com estética


diferenciadas, em 2008, o The New York Times publicou a visualização The “Ebb
and Flow of Movies: Box Office Receipts 1986–2008”, (Figura 15) tanto online como
na versão impressa. A visualização usa o método Streamgraph criado por Lee
Byron, que organiza as camadas em uma forma orgânica empilhada. O método foi
inspirado em ThemeRiver, um método desenvolvido por Havre e colegas em 2000,
uma técnica que cria uma interpolação suave a partir de dados discretos e gera um
layout simétrico das camadas centradas em torno do eixo horizontal, em vez de
empilhadas em uma direção.

Figura 15 – Dataviz do The New York Time, em 2008

Fonte: The New York Times

Além disso, promove uma estética diferenciada, na qual os pesquisadores


Farbiarz e Barbosa (2009, p.2) se referem a estética das bases de dados como uma
estética da cibercultura. Para eles, "a estética de uma base de dados é
intrinsecamente relacional, tanto do ponto de vista dos dados em seus recipientes,
como do relacionamento estabelecido pelo componente do software. Indica, pois,
possibilidades diversas para se traçarem os processos individuais, culturais e
comunicativos". Isto é, há uma gama de possibilidades que são proporcionadas pela
115

estética das bases de dados e que estas desenham caminhos desbravadores diante
um conjunto de dados, como pode ser visto na Visualização de Dados sobre a
eleição americana, em 2016, feita pelo The Washington Post, Poll: Redrawing the
electoral map (Gráfico 7). A proposta da visualização é realizar uma enquete em
todos os 50 estados americanos e redesenhar o mapa eleitoral durante a campanha.
Ao todo, foram entrevistados 74 mil eleitores que pode ser visto a partir das cores de
cada candidato à presidência.

Gráfico 7 – Dataviz sobre eleição norte-americanas de 2016

Fonte: The Washington Post

Um outro exemplo de Visualização de Dados versando sobre as eleições


norte-americanas em 2016 foi a Upshot: Who Will Be Presidente? (Gráfico 8)
produzida pela equipe do The New York Times. A produção oferece um conjunto
robusto de informações eleitorais, revelando as estimativas de cada estado, assim
como os caminhos de cada candidato para a vitória. A visualização permite
compreender a estimativa de votos dividido pelos dois partidos, democratas e
republicanos, respectivamente em suas cores. Para compreensão dos dados, a
plataforma base ocorre através desses laços ou grandes tentáculos que vão se
cruzando com os números de porcentagens de cada partido, de cada candidato e
por cada estado.
116

Gráfico 8 – Dataviz do The New York Times sobre as eleições 2016

Fonte: The New York Times

Um dos primeiros projetos envolvendo Visualização de Dados, Big Data e


eleições no Brasil foi o NEOFLUXO - Observatório de Mídias Sociais Conectadas,
resultado de pesquisa do CNPq coordenada pelo pesquisador Walter Teixeira Lima
Junior, que visava “identificar o comportamento do fluxo informacional nas redes
sociais durante o processo eleitoral majoritário no Brasil, em 2010”(LIMA JUNIOR,
2011). O Neofluxo coletou 20,2 milhões de menções aos candidatos do pleito
presidencial a partir de palavras-chave na rede social Twitter. A partir de pesquisa
aplicada como metodologia, o NEOFLUXO55 foi um dos projetos pioneiros nesse
campo, em pesquisa financiada com vigência entre 2010 e 2012, e com uso de
software livre e com base de dados aberta a partir de licença Creative Commons. A
partir dos dados coletados foram construídas Visualizações de Dados em formato de
Nuvem de Tags, gráficos interativos e gráficos estáticos.
Os dados incorporados às visualizações, depois do New York Times, também

55
Disponível em: http://www.neofluxo.net/ acesso em: 2 fev. 2019.
117

tiveram impacto nas produções brasileiras, como nos jornais Folha de S. Paulo e
Estadão, que inauguraram núcleos específicos para trabalhar com grandes volumes
de dados nas produções gráficas. No caso do Estadão, um dos projetos que mais
56
obteve visibilidade foi o Basômetro (Gráfico 9), que monitora a movimentação
política do país, cuja atualização é continua. A ideia foi colocada em prática em 2012
por meio do núcleo criado pelo próprio jornal para adentrar no universo dos dados.
57
Para isso, o jornal inaugurou o Estadão Dados com a proposta de explorer mais
dados em suas visualizações.

Gráfico 9 – Projeto de Dados Basômetro do jornal O Estado de S. Paulo

Fonte: O Estado de S. Paulo

O portal G1 inaugurou o Monitor da Violência58(Figura 16) com o intuito de


mapear dados criminais no país divide nas regiões brasileiras a partir de 2011. Os
dados que são mostrados neste projeto são oriundos do estados da Federação que
fornecem aos reporteres e colaboadores envolvidos. O Monitor da Violência mantém
parceira com o Núcleo de Estudos da Violência da Universidade de São Paulo
(USP) juntamento com o Fórum Brasileiro de Segurança Pública.

56
Disponível em: https://arte.estadao.com.br/politica/basometro/ Acesso em: 16 jun. 2019.
57
Disponível em: http://blog.estadaodados.com/ Acesso em: 16 jun. 2019.
58
Disponível em: https://g1.globo.com/monitor-da-violencia/ Acesso em: 16 jun. 2019.
118

Figura 16 – Monitor da Violência do portal G1 mapeia casos nacionais

Fonte: G1

A prática de trabalhar com dados, a partir do exemplo do The New York Times,
originou uma diversidade de trabalhos gráficos mundiais. A exemplo do que foi
mostrado acima, jornais e agências como o Los Angeles Times, The Wahsington
Post, BBC News, Reuters, Boston Globe, Bloomerg, Apress, The Guardian, USA
Today, La Nacíon, La Vanguardia, El Mundo entre outros, vem despontando com
poduções com dados massivos.

4.3 Heurísticas da Dataviz

Na Era dos grandes volumes de dados, a visualização pode ser considerada


como um acontecimento emergente a ser administrado com base na convergência
de disciplinas e campos. Dados complexos também podem ser acessados,
119

explorados e analisados de um modo menos trabalhoso e mais compreensível


através de visualizações de dados que permitem tal feito. Mas, ainda assim, há
visualizações de dados que podem ocasionar em grandes problemáticas e pouco
compreensíveis.
É necessário saber a razão maior para que determinado tema seja possível
de se tornar uma visualização. Para Ben Fry (2007, s.n), boas visualizações
começam com questões a serem respondidas, do tipo porque os dados foram
coletados, o que há de interessante neles e quais histórias pode-se contar. O autor a
define como "a Visualização de Dados é como qualquer outro tipo de comunicação:
o sucesso é definido pela capacidade do seu público de captar e estar entusiasmado
com sua percepção". Então, como forma de comunicação, Fry entende que as
dataviz se assemelham ao fato de contar histórias através dos dados. Para ele, a
propriedade da visualização é um tipo de narrativa que tem que responder às
questões levantadas para a produção da mesma. O processo de compreensão
acontece em sete heurísticas nas quais seriam mais eficazes, a saber:

1. Adquirir: adquirir os dados se for proveniente de um arquivo por meio da rede.


Essa fase se assemelha com a coleta de dados e em como fazer um download
dos dados a serem trabalhados. Por exemplo, uma planilha no excel, em que se
encontram os dados brutos;
2. Analisar: Esta é a fase em que os dados precisam ser analisados logo após a
coleta, além de ser transformado para outro formato. É preciso, neste caso, ser
convertido para que possa ser utilizado;
3. Filtrar: Consiste na remoção de resíduos que não são importantes para o uso na
visualização. Essa técnica também é conhecida como raspagem de dados, que é
uma espécie de limpeza com o objetivo de deixar o dado pronto para usar;
4. Minerar: Nesta fase, há o envolvimento de três áreas: estatística, matemática e
mineração de dados (data mining), técnica em que consiste em explorar grandes
quantidades de dados com o intuito de descobrir inconsistências, padrões e
possíveis correlações entre eles, bem como descortinar conexões ocultas e
prever tendências futuras;
5. Representar: Fase em que se estabelece a forma básica em que o dado se
apresenta ou como os dados irão se estruturar, utilizando formatos gráficos
diversos, bolhas, imagens em 2D, 3D, mapas, ilustrações. A fase da
representação é a fase mais importante na tomada de decisão em uma proposta
120

de Visualização de Dados, tendo em vista que o produto tem um apelo estético


significativo;
6. Refinar: Após a escolha do design os métodos de design gráfico são usados
para clarificar mais a representação, chamando mais atenção para dados
particulares (estabelecendo hierarquia) ou alterando atributos (como cor) que
contribuem para a legibilidade. A hierarquia é estabelecida como por exemplo,
colorindo o fundo cinza profundo e exibindo os pontos selecionados (todos os
códigos começando com quatro) em branco e os pontos demarcados em amarelo
médio;
7. Interagir: Fase também fundamental para a visualização porque demonstra os
modos de como o indivíduo vai interagir com a visualização, e essa fase depende
muito da estrutura determinada para os dados possam dialogar entre si e com
quem explore a visualização. A interação está diretamente ligada ao design
gráfico em como o aperfeiçoamento visual podem ser aplicados na estrutura de
dados.

As heurísticas determinadas por Fry (2008) ilustram a relevância de todos


esses passos na construção da visualização, que envolve uma equipe
multidisciplinar. Mas fazemos uma ressalva de que ainda assim, há problemáticas
nas visualizações que, em repetidas vezes, não são de fácil compreensão ou
análise. É recorrente o discurso de que as visualizações são produtos visuais que
têm como objetivo "simplificar" os dados para que o usuário possa entender de uma
melhor maneira. Trata-se de uma visão distorcida porque as visualizações de dados
são feitas para serem exploradas e manipuladas à exaustão e que têm duas
características que as diferenciam de outros formatos visuais: 1) Exposição, na qual
possibilita que o usuário crie seu próprio caminho, e 2) Exploração, onde é possível
analisar os conteúdos sob determinados pontos de vista dos elementos gráficos.
"Não são gráficos para ver, mas para ler, para detê-los e descobrir padrões em que
talvez o autor nem sequer pensar com antecedência59"(CAIRO, 2012, p. 90,
tradução nossa).
Em seu livro El arte funcional: infografía e visualización de información, Cairo
(2012, p. 38) apresenta os pressupostos teóricos, as características, bem como os
princípios básicos da visualização estabelecidos pelos teóricos sobre visualização. A
59
No original: “No son gráficos para ver, pero para leer, para detenerlos y descubrir patrones en los
que tal vez el autor ni siquiera pensar con antelación”.
121

partir de um ponto de vista mcluhaniano, a visualização deve ser entendida como


um artefato tecnológico, acima de tudo, porque a partir dessa perspectiva, serve
como auxílio de refletir sobre uma das barreiras da produção visual, que é sua
natureza múltipla. Por esta natureza múltipla, os fundamentos sobre seu DNA é
eminentemente visual, passando pela cartografia ou ilustração, contextualizando
com as origens da infografia e da visualização.
Deste modo, assinala-se que a teoria da informação e a psicologia cognitiva
sejam as catalisadoras da Visualização de Dados e a define como o “resultado de
passar da clássica representação gráfica (mapeamento, estatísticas) pela psicologia
filtro sistematizador de percepção, ação e memória". Em meio a tantas
classificações e tipologias sobre visualização, Cairo (2012) opta por elaborar
funções na qual a visualização exerce um papel facilitador em um determinado
volume de dados complexos. Esta lista de funções abrange visualizações científicas,
mapas, diagramas, esquemas, gráficos ilustrados, etc. São eles:

a) Mostrar. Como a própria palavra denota, significa aqui que o mostrar os


dados é o imperativo principal em uma Visualização de Dados. Deve
mostrar as formas variáveis de maior importância em uma visualização.
b) Comparação. Esta função proporciona o grau comparativo em uma
Visualização de Dados de forma rápida as variáveis e os dados da
visualização para as inferências de compreensão. Por exemplo, em uma
visualização sobre o fluxo imigratório na Europa, é possível comparar
por países, número de população migratória, a quantidade de pessoas
por ano, etc.
c) Classificação. A classificação deve auxiliar a Visualização de Dados
seguindo as diferentes variáveis contidas nela. Assim, é possível
classificar/ordenar os dados em uma estrutura visual, que pode ser por
cor, por formato gráfico, com destaque para enfatizar a classificação.
d) Correlação. Estabelecer as correlações (ou não, quando não existir) das
variáveis buscando a compreensão das lógicas internas do
gráfico/visualização a partir dos dados expostos. Aqui é o espaço para
determinar as conexões dialógicas entre os dados, sua dinâmica e
formas de interação também.

Uma das funções primordiais da Visualização de Dados é transmitir


informações de forma clara e eficaz por meio de elementos gráficos estatísticos,
dados numéricos, ilustrações, etc. Em uma mensagem quantitativa, os dados
numéricos podem ser catalogados através de gráficos de barras, linhas para um
entendimento mais adequado de qual mensagem decodificar. Nesta direção, uma
Visualização de Dados eficiente auxilia aos usuários a analisar e raciocinar sobre um
122

grande volume de dados visualizados, tornando dados complexos em mais


acessíveis e compreensíveis, sendo este tipo de formato gráfico que pode conduzir
a análises mais específicas e realizar comparações, por exemplo. A Visualização de
Dados pode ser considerada como uma ciência tanto quanto uma arte (COX, 2004;
APARICIO; COSTA, 2015). Na era do Big Data, as atividades de processar,
comunicar e analisar dados pode apresentar grandes desafios para a execução, que
vai da coleta, estética e análise para a visualização.

4.4 Narrativas com dados: o próximo passo da


visualização

As primeiras noções de uma estrutura narrativa foram explicadas nos tempos


antigos através dos filósofos gregos Platão e Aristóteles. É reconhecida a Aristóteles
a inserção de uma narrativa mais profunda, que tivesse mais detalhes a ser contada.
Para ele, essa narrativa tinha um começo claro, meio e o fim, representando, assim,
o conceito mais clássico do entendimento de histórias que se propagou. Inspirado
nas contribuições teatrais, essa estrutura estava dividida em três atos: configuração
(início), conflito (meio) e resolução (fim). Em configuração, o primeiro ato, se
configura a história a ser revelada, como o personagem principal e seus atos dentro
daquela história. O segundo ato, conflito, se refere às atitudes desse personagem
principal, suas habilidades, pontos de inflexão e como lida com as situações
adversas. É um espaço que compõe a maior parte da história. O terceiro ato é o
momento de resolução da história e suas subtramas, como também, lugar onde as
questões dramáticas são resolvidas. (KNAFLIC, 2015).
Esse modelo de narrativa ou a forma de contar história se propagou em vários
campos do conhecimento como um modelo até certo ponto padrão a ser seguido,
inclusive a ideia de começo, meio e fim - estrutura linear - também foi apropriada
pelas narrativas em ambiente digitais, principalmente para as produções gráficas
multimídia, constituindo a primeira fase num movimento em que os dados e
elementos gráficos se aproximavam da narrativa clássica. Ao analisar a literatura
sobre Visualização de Dados, constatamos que, em seus primórdios, já continham
123

também a noção de contar história através de artefatos visuais. Vejamos alguns


exemplos: 1) O mapa da cólera feito pelo médico higienista John Snow, em 1854, na
tentativa de reverter o surto de cólera no bairro do Soho na Inglaterra. Neste
mapeamento, ele reuniu dados e refez a rota percorrendo todo o bairro com os
principais surtos da doença e apontando os pontos de maior incidência; 2) Charles
Minardi, um engenheiro francês desenhou a rota da campanha de Napoleão contra a
Rússia, em 1812, em um mapa que entrou para a história da visualização como o
melhor gráfico estatístico. Publicada em 1867, percorria o trajeto dos soldados na
guerra na ida e vinda, como também os rios, temperatura, as populações ao redor.
3) “O Homem Vitruviano”, pintada em 1940, produção de Leonardo da Vinci (1452 -
1519) mostra os conhecimentos detalhados ao retratar a anatomia humana,
movimentos do corpo e suas proporções.
Esses e outros exemplos são considerados por alguns autores como Cairo
(2011) e Knaflic (2015) como narrativas que contam histórias de forma visual, ainda
que nas épocas referidas, não haviam recursos sofisticados para construção dos
mesmos, mas que entraram para os principais marcos históricos da visualização de
dados, que foi detalhado no capítulo 3 desta tese. Ao mesmo tempo, estudos e
pesquisas mais aprofundados tentam especificar as narrativas explorando dados
apontando tendências e ou fazendo prospecções de inovação. O título que abre
esse tópico foi emprestado das pesquisas de Kosara e Mackinlay (2013, p. 45,
60
tradução nossa), especificamente no artigo Storytelling: the next step for
visualization, na qual os autores apontam aos caminhos inovadores das narrativas
guiadas por dados, sobretudo, quando se mostra uma ferramenta analítica e
colaborativa.

Contar histórias sobre dados é um resultado natural quando a visualização


também é usada em configurações colaborativas. Em um contexto mais
estruturado, os pesquisadores podem usar histórias não apenas para apoiar
a discussão e a tomada de decisões, mas também para análise de
processos. Histórias podem, assim, servir como parte da proveniência de
uma descoberta, semelhante à história narrada de um evento. (KOSARA;
MACKINLAY, 2013, p. 45, tradução nossa).

60
No original: “ Telling stories about data is a natural result when visualization is also used in
collaborative settings. In a more structured context, researchers can use stories not only to support
discussion and decision-making, but also to analyze processes. Stories can thus serve as part of the
provenance of a discovery, similar to the narrated story of a event”.
124

Os autores reforçam essa ideia ao enfatizarem que, além das narrativas


usarem dados para contar história de modo colaborativo, a mesma não há razão de
existir se não houver audiência, fato que, na visão deles, naturalmente as histórias
conduzem a questionamentos, que acabam a levar para discussões, que
consequentemente, podem levar para discussões mais aprofundadas, como
também, levar a uma preservação. Nesse sentido, “Talvez as histórias de dados
visuais se tornem a maneira de preservar informações sobre dados e processos
complexos e transmitir conhecimento no futuro” (KOSARA; MACKINLAY, 2013,
p.50, tradução nossa).
Os estudos modernos das narrativas digitais utilizando dados na sua
composição revelam novos contributos no sentido de compreender os aspectos
narrativos. Bertocchi (2013), por exemplo, insere a visualização de dados num
modelo de sistema narrativo dos objetos digitais, nas quais estão divididos em três
atos: (BERTOCCHI, 2013, p.70):

Ato I – Antenarração dos dados – o levantamento e a seleção das


informações de interesse público guardadas nas bases de dados; Ato II –
Antenarração dos metadados – a semantificação destes dados para
compreensão de softwares e algoritmos, para a apresentação de narrativas
nas interfaces digitais e também para a organização interna de dados em
sistemas publicadores; Ato III – Narração ou formatação narrativa – a
organização corporificada da narrativa na interface digital para acesso dos
usuários finais.

Para a autora, a construção da narrativa digital tem início sob uma codificação
maquínica, cujas camadas digitais vão formatando uma espécie de tecido narrativo
complexo até a finalização da substância tangível que é a narrativa na qual “reúne
substância e torna-se, por fim, um formato narrativo digital” (p. 54). Mais adiante e
de posse com o entendimento de que tal construção ocorre em decorrência de um
conjunto de códigos computacionais, a autora esclarece que “A narrativa assim
manifesta-se a partir da interação entre camadas computacionais, a strata – e
revela- se portanto um processo artificial de design informático” (BERTOCCHI, 2013,
p. 55) e que estas narrativas não podem existir se caso contenha elementos em
desconexão cuja função não esteja especificada.
A incorporação de elementos narrativos nas visualizações de dados tem sido
objeto constante de pesquisas e práticas acadêmicas ao longo dos anos. Um dos
125

argumentos para que a condição de narrativa seja alcançada é que esses dados
podem contar histórias de modo visual e que estas diferem das formas tradicionais
desta atividade. “As próprias visualizações podem incorporar uma variedade de
mídias, incluindo texto, imagens e vídeos, e também podem ser interativas,
possibilitando histórias cuja narrativa depende tanto do leitor quanto do autor”
(SEGEL; HER, 2010, p. 1140). O que os autores colocam em questão é que, num
ambiente interativo, essas histórias são contadas através dos elementos gráficos
que estão colocados na visualização. Acrescentamos a esses elementos, os
grandes volumes de dados, mapas de geolocalização, atualização contínua, gráficos
interativos, visualização imersiva, entre outros. Eles identificaram alguns dispositivos
visuais e interativos que suportam a narrativa, como, por exemplo, Interactive
Slideshow e Drill-Down Story (história de detalhamento). O primeiro, possui um
caminho completamente linear com alguma interatividade dentro dos limites de cada
slide e o segundo, completamente orientada ao leitor, permitindo ao usuário
escolher qualquer ordem de leitura / visualização possível, sem que esse percurso
se perca dentro da estrutura visual.
Neste contexto de narrativas e propriedades de dados em sua construção, a
investigação de Nora Paul (2012) estabelece tipologias para as narrativas digitais, a
saber: 1) Mídia: suporte da narrativa que combina recursos digitais como texto,
fotos, gráficos, animação); 2) Ação: refere-se a dois aspectos distintos das
narrativas digitais: o movimento do próprio conteúdo e a ação requerida pelo usuário
para acessar o conteúdo; 3) Relacionamento: está ligado ao relacionamento entre o
usuário do conteúdo e o próprio conteúdo. 4) Contexto: Capacidade de ofertar
dados extras, remetendo a outros materiais, a exemplo dos links. e 5)
Comunicação: Capacidade de conectar com outros tipos de mídias.
Em particular, notamos uma preocupação central no projeto de visualizações
narrativas: o equilíbrio entre os elementos gráficos (em sua maioria interativa), o
formato e a densidade informativa dos dados que auxiliam a criar um caminho de
interpretação estruturada de maneira interativa. A narrativa com dados, nesse caso,
não necessita apresentar um número excessivos de elementos informativos e
descritivos porque o leitor/usuário pode criar a própria rota com suas experiências
imersivas e expectativas. Como afirma Cairo (2019, online, tradução nossa) “as
visualizações não complementam a história escrita. Em nosso mundo cada vez mais
orientado por dados, eles estão se tornando uma história mainstream”. Neste
126

sentido, a combinação entre Big Data e Visualização de Dados vai desencadear em


narrativas disruptivas guiadas por dados, que exploraremos à frente como base da
tese defendida.

4.5 Mapeamento de Laboratórios de Inovação e


Visualização de dados

As produções em Visualização de Dados estão pulverizadas em diferentes


ambientes para diversas finalidades, desde passando pela publicidade, economia,
educação, agências, jornais até laboratórios que estão vinculados às Universidades,
como é o objeto dessa tese. Neste sentido, é válido ressaltar que há um movimento
preponderante dessas produções e que não necessariamente estão vinculados à
grande mídia para um divulgação mais ampla, por assim dizer, mas que se
caracterizam por ambientes e formatos diferenciados que podem gerar visualizações
mais complexas e de longo alcance. Em uma conjuntura permeada de grandes
quantidades de dados, as análises e descobertas de grandes dados através das
visualizações podem gerar novas oportunidades tanto no contexto de pesquisa
quanto de produções de ordem disruptiva, bem como apresentar novas técnicas,
metodologias, sistemas e aplicativos. A engenharia gráfica e computacional foram os
alicerces para que as visualizações atingissem um nível satisfatório de variações e
técnicas, ao mesmo tempo em que uma variedade de software foram desenvolvidos
nas últimas duas décadas para o aprimoramento das visualizações (MICHALOS,
TSELENTI, NALMPANTIS, 2012).
Nesta direção, os laboratórios em universidades focados em visualizações
complexas tiveram um crescimento exponencial neste segmento ao mesmo tempo
em que a qualidade técnica e tecnológica auxiliou como campo de novas
experimentações. Assim, esses ambientes que agregam profissionais
especializados em design, cultura visual e visualizações criaram projetos e
protótipos largamente difundidos em ambientes digitais. No entanto, não é objetivo
aqui descrever todos esses projetos, mas destacar alguns que contribuiram e que
127

contribuem na área de Visualização de Dados, engenharia e processamento por


meio de mapeamento de experiências (Quadro 5).
As práticas de laboratórios vinculadas às Universidades modernas surgem
ainda no século XVII (MAAR, 2012), nessa época, já com a alcunha de “novo
espaço acadêmico”, tendo em vista às experimentações científicas que eram
originárias de várias áreas do conhecimento, a exemplo da química e biologia. Tais
ambientes não eram necessariamente de pesquisas, mas eram laboratórios de
demonstração da ciência experimental que começava a brotar naquele século, muito
embora não tenha sido bem recebido pela comunidade acadêmica. “É claro que
esse novo ambiente acadêmico foi aos poucos melhorado em termos não só de
eficácia e praticidade, mas no seu próprio aspecto e ambiente como local de criação
de conhecimento” (MAAR, 2012, p. 679), sobretudo na área das humanidades
digitais (digital humanities)61 como um lugar de espaço, práticas e pesquisas
acadêmicas de inovação.
Ademais, é válido destacar algumas experiências Iberoamericanas na qual
apontam para ambientes de inovação tecnológica, acadêmica e humanísticas, que
reconfiguram o sistema de produção de conhecimento focados em projetos que
comportam estudos sobre sociedade digital, dados, Visualização de Dados. Dentre
elas, pode-se destacar a Medialab UGR, da Universidade de Granada62,
+DataLab/CIM de la Universidad Nacional de Rosário (Argentina)63; Lavinda,
laboratório de Visualização de Dados, sediado no México64; Volt Data Lab (Brasil)65,
que administram projetos e pesquisas em Visualização de Dados.
Outras iniciativas, neste sentido, sobretudo na Europa e EUA, ganham
relevância por direcionarem seus objetivos, processos e práticas com vistas à
inovação de formatos novos de valores agregados na ambiência digital. Dito isso,
realizou-se uma pesquisa em diversos sites que tratassem de projetos laboratoriais -
que muitas vezes não estão necessariamente vinculados à Universidades – mas
estão inseridos nesse cenário de visualização e administração de grandes volumes

61
As humanidades digitais compreendem um campo heterogêneo de investigação e prática de
intersecção entre as ciências da computação e as disciplinas humanísticas (KIRSCHENBAUM, 2012).
62
Disponível em: http://medialab.ugr.es/ Acesso em: 28 fev. 2018.
63
Disponível em: https://www.santafe.gob.ar/ms/gobiernoabierto/iniciativa/datalab-cim/ Acesso em: 28
fev. 2018.
64
Disponível em: https://opendatacmm.wordpress.com/ Acesso em: 28 fev. 2018.
65
Disponível em: https://www.voltdata.info/ Acesso em: 28 fev. 2018.
128

de dados. Assim, utilizou-se como palavras-chave os seguintes termos/conceitos:


“laboratório de Visualização de Dados”, “data visualization”, “data innovation”, “data
visualization projects”.

Quadro 5 - Laboratórios de Visualização de Dados/Ciência de Dados no Brasil


vinculados às Universidades

Fonte: elaboração da autora


129

Dessa forma, obetivemos, de forma empírica, um breve mapeamento destes


projetos que tem contribuído para a expansão das produções em visualizações de
modo aberto, Big Data, quais sejam:

• The Data Visualisation Catologue66 (Catálogo da Visualização de Dados),


projeto criado em 2016 pelo designer inglês Severino Ribecca67, tem como
proposta catalogar diferentes formatos gráficos de visualizações de dados;
68
• Outliers Collective tem uma proposta baseado na colaboração, como o
nome sugere. Formado por um time de profissionais especialistas em
engenharia de dados, o coletivo tem como meta desvendar os padrões de
dados em rede. Criado em 2011, com sede na Espanha, tem a frente o
espanhol Oscar Marín Miró;
• Lavinda69: Fundamentado no conceito de software livre e open data, o
laboratório de Visualização de Dados Lavinda, sediado no México, tem por
objetivo de congregar e fortalecer uma comunidade que se interessa pelos
estudos dos dados;
70
• Data Visualization Checklist : a designer Ann K. Emery esboçou, ao seu
modo, os gráficos utilizados para as visualizações de dados que a mesma
frequentemente utiliza em seus trabalhos o que resultou nesse projeto que
serve como um guia dos formatos de Visualização de Dados;
• Visual Complexity71: Projeto criado pelo designer português Manuel Lima,
tem como proposta de apresentar diferentes métodos de visualização em
redes complexas advindos das diversas áreas como Biologia, Redes Sociais,
Ecologia, entre outros;
• Information is beautiful72: Criado pelo designer londrino David McCandless, é
focado em criar visualizações baseados em fatos e dados e que são
constantemente atualizados e revisados.

66
Disponível em: https://datavizcatalogue.com/ Acesso em: 22 nov. 2017.
67
Perfil do autor. Disponível em: https://www.linkedin.com/in/severino-ribecca-61287a25 Acesso em:
14 nov. 2017.
68
Disponível em: http://outliers.es/ Acesso em: 22 nov. 2017.
69
Disponível em: https://opendatacmm.wordpress.com/ Acesso em: 22 nov . 2017.
70
Disponível em: http://annkemery.com/wp-content/uploads/2016/10/DataVizChecklist_May2016.pdf
Acesso em: 23 nov. 2017.
71
Disponível em: http://www.visualcomplexity.com/vc/ Acesso em: 02 mar. 2018.
72
Disponível em: https://informationisbeautiful.net/ Acesso em: 02 mar. 2018.
130

Deste modo, as tecnologias digitais e ferramentas apropriadas para estes


fins, aliadas às práticas resultantes desses experimentos, fornecem tanto novas
modalidades no contexto da interdiscipliaridade quanto suscita a emergência de
novos métodos de investigação com vistas às necessidades de modelos disrutpivos
para a geração de conhecimento e inovação. Por um lado, o contexto na qual os
laboratórios estão inseridos requisitam propostas inovadoras e dinâmicas, buscando
outras possibilidades e esforço coletivo ao lidar com grandes volumes de dados. Por
outro, a inovação nestes laboratórios requer a construção de modelos de
experimentação de maneira permanente, bem como a ampliação da capacidade
técnica, tecnológica e humanística.
No capítulo seguinte introduzimos as estratégias metodológicas adotadas na
pesquisa, a partir dos conceitos-chaves e da discussão teórica estabelecida até
agora de modo a centrar no percurso da investigação no tocante ao empírico e
metodológico.
131
132

5.1 Percurso metodológico

As estratégias metodológicas da tese foram operacionalizadas a partir de


uma série de aspectos quanto à execução do plano de trabalho visando explorar as
dimensões teóricas e metodológicas em torno do objeto de estudo. A pesquisa
explorou as produções a partir do foco nos laboratórios de inovação das
universidades brasileiras considerando um estudo de caso paradigmático. Para
adentrar esse campo de produção de Visualização de Dados baseado em Big Data
e extração de dados, as estratégias metodológicas se utilizaram uma abordagem
quanti-qualitativa com triangulação de dados e de métodos em decorrência da
complexidade dessas práticas e suas dimensões.
A metodologia da pesquisa utilizou estudo de caso (YIN, 2005) com
abordagem etnográfica (ANGROSINO, 2009), que compõe as fases de coleta de
dados através de observação não-participante e entrevistas em profundidade com
as equipes do laboratório pesquisado e com especialistas da área para vislumbrar
as tendências para o campo.
O estudo de caso se constitui em uma estratégia apropriada para análises
profundas e exaustivas de objetos da atualidade a partir das condições contextuais
em curso. Para Yin (2005), este tipo de método é uma investigação empírica que
visa averiguar um fenômeno contemporâneo em um contexto real, mais
especificamente quando as divisas do fenômeno e do contexto não estão
demarcadas, como é o nosso caso. O autor elenca alguns critérios para aplicação
em pesquisas com propósitos diferenciados, quais sejam:

1. Explicar os suspostos vínculos causais em intervenções na vida real que são


complexos demais para as estratégias experimentais ou aquelas utilizadas e
levantamentos;
2. Descrever uma intervenção e o contexto da vida real em que ela ocorre;
3. Ilustrar certos tópicos dentro de uma avaliação, outra vez de modo descritivo;
4. Explorar aquelas situações nas quais a intervenção que está sendo avaliada
não apresenta um conjunto de simples e claro resultados;
5. Meta-avaliar o estudo de um estudo de avaliação (YIN, 2005, p. 34-35).
133

Nesta direção, selecionamos o Laboratório de Estudos sobre Imagem e


Cibercultura – Labic, vinculado à Universidade Federal do Espírito Santo (UFES)
como o mais representativo do fenômeno a trabalhar com Big Data, Ciência de
Dados e Visualização de Dados, sendo indicado ao prêmio Digital Humanities
Awards: Recognizing Excellence in Digital Humanities,73 evento organizado pela
Universidade de Oxford, Inglaterra, em 2013, com o projeto Mapping Controversies
2013: The Protests in Brazil74, momento de ascensão do Laboratório. Delimitamos
nossa pesquisa para esse estudo de caso por considerarmos paradigmático em
termos de pioneirismo e representantividade do fenômeno de narrativas e projetos
na interface entre Visualização de Dados, Ciência de Dados e Big Data no contexto
brasileiro.
Salientamos que numa primeira fase selecionamos outros dois Laboratórios
para o nosso estudo: 1) o Labvis (Laboratório de Visualização e Visualidades)
vinculado à Universidade Federal do Rio de Janeiro (UFRJ), mas devido a um
incêndio ocorrido naquele local, o laboratório foi deslocado para outro local de forma
provisória, teve a equipe reduzida e não foi possível a realização da pesquisa de
campo; e 2) O Laboratório Analytics, vinculado à Universidade Federal de Campina
Grande (UFCG), que, devido a questões burocráticas e do tempo do plano de
trabalho da tese, também ficou inviável de se realizar a pesquisa no local.
Assim, numa análise conjuntural, decidimos manter somente um estudo de
caso como objeto empírico centrado no Labic, conforme justificamos, para poder
aprofundar a pesquisa e explorar suas dimensões. Por se tratar de um Laboratório já
consolidado na Universidade e com experiências de visualizações há um tempo,
julgamos que era necessário essa imersão no universo do objeto para compreender
mais detalhadamente o fluxo de produção nestas narrativas, os profissionais
envolvidos, as tecnologias utilizadas, as estratégias de coleta e de produção e como
se dá o processo de construção até a apresentação final das narrativas.
Acreditamos, portanto, ser relevante para a área de Ciência da Informação a
realização de uma pesquisa de campo que pudesse explorar as práticas da rotina de
produção nesse ambiente de inovação.

73
Disponível em: http://dhawards.org/dhawards2013/voting/ acesso em: 31 out. 2018.
74
Disponível em: https://goo.gl/M75en4 Acesso em: 31 out. 2018.
134

Para tal, a abordagem etnográfica75 respondeu de forma mais adequada na


nossa pesquisa à esta estratégia de aprofundar o estudo de caso a partir desta
ambiência. Para Angrosino (2009) o método etnográfico se difere de outros métodos
de fazer pesquisa social por algumas características, dentre elas, por estar
fundamentado na pesquisa de campo, o caráter personalizável e multifatorial, por
ser indutivo, dialógico e holístico. Deste modo, a etnografia é o procedimento
realizado in loco, e pesquisador, ainda segundo o autor, torna-se um participante
subjetivo frente ao objeto estudado.
Neste sentido, a nossa pesquisa se caracterizou nessa etapa como pesquisa
de campo, com uso de diário de campo e observação sistemática, entrevistas semi-
estruturadas com os coordenadores do Labic (APÊNDICE A), com os
programadores/pesquisadores (APÊNDICE B) e com especialistas (APÊNDICE C).
Para a realização das entrevistas, todos os entrevistados assinaram um Termo de
Consentimento Livre e Esclarecido (APÊNDICE D) na qual explicava todos os
procedimentos da realização das entrevistas, bem como um breve resumo da
pesquisa e demais procedimentos adotados. Além das entrevistas, cujos membros
foram todos codificados (APÊNDICE E) exploramos a recuperação documental que
complementaram as observações in loco e utilização de Ficha de Observação
(APÊNDICE F) das produções de Visualização de Dados oriundas dos laboratórios
durante o período de 2018. Nesta etapa, realizamos um estudo comparativo das
produções do Labic e do Prêmio Data Journalism Awards, de 2018, no que resultou
em uma matriz comparativa para ser ter um termômetro de tendências das
Visualizações de Dados vingentes. Essa fase nos auxiliou sobremaneira na
compreensão da cadeia produtiva - gestação das ideias, extração de dados, manejo
dos dados e produção de narrativas em formato de Visualização de Dados, nosso
objeto de estudo.
Ao mesmo tempo, conduzimos a pesquisa bibliográfica para estabelecimento
do estado da arte e recuperação histórico e de definições conceituais sobre
Visualização de Dados e dos conceitos-chaves desta tese como Big Data, Ciência
de Dados e Dados Abertos. Deste modo, utilizamos como fonte de pesquisa as
75
Denominamos como abordagem considerando que a etnografia, no seu campo original da
antropologia, é bem mais complexa e com temporalidade mais prolongada como ocorreu nas
primeiras pesquisas com décadas de observação e descrição de fenômenos nas tribos e no campo. A
partir da Escola de Chicago na década de 1920, a etnografia ocupa abordagem sobre a cidade e o
urbano e o tempo de observação reduzido.
135

bases de dados do Portal de Periódicos Capes, SciELO, Web of Science, Revistas


científicas como International Journal of Big Data Intelligence, Journal of the
American Society for Information Science and Technology, IEEE Transactions,
Informação e Tecnologia, Tendências da Pesquisa Brasileira em Ciência da
Informação, entre outros a partir da ferramenta StArt Tool76. Nesta ocasião,
utilizamos como palavras-chave “Big Data”, Data Science”, “Data visualization”,
“Disruptive Innovation”, “Information Science” e, em português, Ciência de Dados,
Visualização de Dados, Inovação Disruptiva, Ciência da Informação. Conforme
procedimentos nas Ciências Sociais, os métodos e estratégias foram sendo
construídos ao longo da pesquisa de acordo com as demandas necessárias para dar
conta do fenômeno em estudo.
A pesquisa de campo (observações e entrevistas), compreendeu um período
de uma semana (7 dias no nosso estudo de caso), realizada em 2018 no
Labic77.Dessa forma, foi possível realizar observação dos processos de fluxos de
produção junto aos coordenadores, designers, desenvolvedores e demais
pesquisadores do laboratório. O Labic é composto por uma equipe de 20 a 25
pessoas, dependendo dos projetos em andamento, entre alunos de Iniciação
Científica e pesquisadores distribuídos na formação (desenvolvedores engenheiros
elétricos, designers, sociólogos, serviço social). Realizamos nove entrevistas com os
coordenadores do Labic (total 5) demais pesquisadores da equipe (total 4).
Salientamos que durante a reunião para a qualificação da tese, a partir das
observações da banca examinadora e de reuniões com o orientador, redefinimos78
alguns aspectos, incorporando essa perspectiva de estudo das práticas laboratoriais

76
Esta ferramenta gratuita foi desenvolvida pelo Laboratório de Pesquisa em Engenharia de Software
– LAPES, da Universidade Federal de São Carlos, como um aplicativo para revisão sistemática.
Deste modo, nossa revisão conseguiu explorar diversas bases de dados. A ferramenta atua em três
frentes: Planning, Execution e Summarization. Neste sentido, conseguimos automatizar o processo
de revisão do Estado da Arte e abordar de forma qualitativa. Disponível em:
http://lapes.dc.ufscar.br/tools/start_tool acesso em: 11 set. 2018.
77
A pesquisa de campo ocorreu durante o período do segundo semestre de 2018. Observação
empírica no Labic ocorreu de 7 a 14 de maio de 2018 e observações das produções do site ao longo
do segundo semestre de 2018.
78
Na versão do material de qualificação o foco estava nas visualizações de dados de vencedoras
nos prêmios mundiais Malofiej e SND- Society News for Design. Isto é, iríamos analisar produtos já
construídos, editados e apresentados. A partir de discussão na qualificação decidimos acatar as
sugestões da banca e da orientação da tese, e partir para a exploração dessas visualizações de
dados em ambientes inovadores como é o caso dos laboratórios de Visualização de Dados em
universidades, cujo modelo congrega equipe interdisciplinar como cientista de dados, designers,
desenvolvedores, entre outros profissionais e pesquisadores.
136

de produção de Visualização de Dados a partir da exploração de dados de modo a


compreender a dinâmica e o workflow nesses ambientes e a influência na produção
de narrativas disruptivas a partir do Big Data. O plano de trabalho da tese quanto às
estratégias metodológicas se encaminhou para uma investigação do objeto de
estudo a partir das seguintes etapas definidoras: 1. Pesquisa Bibliográfica ao longo
da pesquisa; 2.Observação não participante;3.Entrevistas em profundidade de
caráter semi-estruturada; 4.Observação e monitoramento dos sites dos laboratórios
de Visualização de Dados que compuseram o Estudo de Caso.
De forma complementar à observação, procedemos com capturas de telas,
registro de imagens e vídeos sobre o tema e os casos estudados, e busca de
material documental fornecido pela equipe ou disponível na rede de forma a compor
um quadro para os objetivos da descrição e da análise a partir de uma abordagem
quanti e qualitativa que pudesse responder às questões de pesquisa levantadas
para a tese proposta. Após a coleta, submetemos os resultados à análise e
interpretação à luz do referencial teórico, de modo a demonstrar as diferentes
dimensões do fenômeno. Na primeira etapa, realizamos estudo exploratório para
identificar as especificidades, configurando como um mapeamento dos casos de
Visualização de Dados, de modo a delimitar mais adequadamente o objeto e mapear
o campo, além de uma ampla revisão de bibliografia para definições teórico-
conceituais do objeto. Essa fase se constituiu em um trabalho contínuo durante a
investigação além de ter contemplado parte das disciplinas cursadas que foram
determinantes para essa fase da investigação.
A observação não participante, segunda etapa da pesquisa, foi uma das
principais ferramentas utilizadas no método etnográfico para coleta de dados
empíricos (ou seja, in loco) por permitir a inserção da pesquisadora diretamente no
laboratório para observar o fluxo do processo de produção das visualizações de
dados. Através de anotações no diário de campo, passou-se a observar atentamente
o local de atuação, o laboratório e sua estrutura, acompanhando a rotina dos
informantes em reuniões e outros eventos, como também, podem-se realizar
questionamentos que auxiliassem os aspectos anotados. As rotinas produtivas
foram devidamente observadas e categorizadas para análises e interpretação de
dados posteriormente. Salientamos que consideramos observação não-participante
porque enquanto pesquisador não interferimos no processo de produção, apenas
137

observamos e anotamo no diário de campo. Temos ciência que, de alguma forma, a


própria presença do pesquisador gera algum grau de subjetividade.
A terceira etapa, entrevista em profundidade no formato entrevista semi-
estruturada, foi um recurso metodológico que permitiu fornecer elementos de
compreensão de determinadas situações do problema do fenômeno. Estas foram
realizadas durante e após o procedimento de observações e em complementação a
estas visando esclarecimento das atividades observadas e para extrair outros dados
das questões de pesquisa. Por serem de dados primários, as entrevistas
(transcritas por meio do programa Transcribe)79 com equipe e coordenadores dos
laboratórios auxiliaram na composição da triangulação de dados desta tese e foram
processadas na análise com o uso do software Maxqda80 (software para pesquisas
com métodos qualitativos e quantitativos). A partir de categorizações dos dados das
entrevistas e baseado nos objetivos e questões de pesquisa, submetemos ao
Maxqda para gerar a análise qualitativa e quantitativa visando à compreensão do
estudo de caso.
A observação e monitoramento do site constitui a quarta etapa da pesquisa,
possibilitou o acompanhamento das produções e demais demandas por parte do
LABIC de modo a confrontar esses dados com as entrevistas e observações
sistemáticas realizadas de forma complementar. Considerando ainda as estratégias
metodológicas adotadas nesta investigação, a análise e interpretação de dados se
deram à luz das contribuições da pesquisa exploratória-descritiva (GIL, 2008) e
numa abordagem quali-quantitativa para demonstrar as diferentes dimensões do
fenômeno. Para Gil (2008, p. 46), “pesquisas exploratórias são desenvolvidas com o
objetivo de proporcionar visão geral, de tipo aproximativo, acerca de determinado
fato”, sobretudo, quando a temática elencada é pouco explorada. No que se refere à
pesquisa descritiva, esta “tem como objetivo primordial a descrição das
características de determinada população ou fenômeno ou o estabelecimento de
relações entre variáveis.” (GIL, 2008, p. 47). Para nossa investigação, atuamos na
revisão de literatura e na recuperação histórica do nosso objeto estudado,
possibilitando dessa maneira, o seu desenvolvimento ao longo do tempo e demais
caracterizações na contemporaneidade.

79
Disponível em: https://transcribe.wreally.com/ acesso em: 22 de jul. 2018.
80
Disponível em: https://www.maxqda.com/ acesso em: 22 set. 2018.
138

De maneira a contribuir para os estudos da Ciência de Dados e Visualização


de Dados no campo da Ciência da Informação, nosso problema de pesquisa está
situado nos desdobramentos que a Visualização de Dados acarreta no contexto do
Big Data e suas especificidades e características inovadoras a partir das narrativas
disruptivas. Devido à natureza mutante do objeto, a pesquisa pretendeu seguir os
rastros dessas experiências para poder delimitar os formatos e rotinas produtivas
adotadas nas visualizações. Deste modo e por meio dos dados analisados,
adotamos como modelo híbrido ou de triangulação para a coleta de dados por
considerar que o objeto se caracteriza pela natureza complexa devido a sua vertente
interdisciplinar e de desenvolvimento. Flick (2009, p. 123) afirma que a triangulação
em pesquisas com abordagens etnográficas destacam-se as seguintes categorias:
observação, entrevista, análise de documentos e outras fontes de coleta de dados,
que podem ser “combinadas de forma pragmática e apenas mais ou menos
sistemática no campo, respondendo às condições e opções do campo”.
Ainda no que se refere à triangulação dos dados, esta prática se tornou
fundamental em pesquisas de natureza qualitativa. Assim, este método integra três
características: a) amostras e conjuntos de dados: referem-se aos dados
cronológicos e geográficos que são diferentes e resultados de entrevistas, bem
como observações e documentos; b) investigadores: que são as equipes ou grupos
de pesquisa em distintos lugares; e c) metodologias e teorias da pesquisa: que
integram a etnografia, análise de conversação, teoria fundamentada, etc. (GIBBS,
2009). Por sua característica holística, tende a superar um método único de coleta
de dados por mesclar vários métodos dando a devida importância a cada um deles
(FLICK, 2009), o que transforma as pesquisas qualitativas mais produtivas do ponto
de vista de convergência de métodos, em destaque, em pesquisas etnográficas. Em
consonância com essa afirmação, Angrosino (2009) ressalta que a qualidade da
pesquisa etnográfica ocorre com o resultado da triangulação na qual se utiliza de
várias técnicas e coleta de dados para a investigação.
139

5.2 Protocolo de coleta de dados e estruturação da


abordagem etnográfica: pesquisa de campo

Para fins desta investigação, adotamos o modelo de protocolo para estudo de


caso definido por Yin (2005) considerando as especificidades do objeto de estudo. O
protocolo integra os dispositivos e as regras necessárias para a realização do estudo
de caso. Segundo ele, “o protocolo é uma das táticas principais para aumentar a
confiabilidade da pesquisa de estudo de caso e destina-se a orientar o pesquisador
ao realizar a coleta de dados” (YIN, 2005, p. 92). Deve apresentar as seguintes
seções

• [ Visão geral do projeto de estudo de caso] : Objetivos e patrocínios do


projeto, questões de estudo de caso e leituras importantes sobre o tópico que
está sendo investigado;
• [Procedimentos de Campo]: Apresentação de credenciais, acesso aos
locais do estudo de caso, fontes gerais de informação e advertências de
procedimentos;
• [Questões do estudo de caso] : As questões específicas que o
pesquisador deve manter em mente ao coletar os dados, planilha para a
disposição específica de dados e as fontes em potencial e informações ao
responder a questão;
• [Guia do Relatório de Estudo de Caso]: esboço, formato para os dados,
uso e apresentação de outras documentações, e informações bibliográficas.

Em visão geral de estudo de caso, devem estar contidas as informações


prévias acerca do projeto de pesquisa, bem como também as questões estudadas e
leituras que serão essenciais sobre o andamento da pesquisa. Assim, deve estar
claro o objetivo do estudo de caso e o ambiente onde este ocorrerá, e, a posteriori,
pode fundamentar as bases para o plano de fundo e a apresentação do relatório
final. Quanto aos procedimentos de campo, integra os mecanismos que vão
captar os dados primários na coleta, e deve destacar as seguintes características: 1)
Obter acesso a organizações ou entrevistados-chave; 2) Possuir recursos
suficientes enquanto estiver no campo- como computador pessoal, material para
140

escrever, papel, clipes e um local calmo para tomar notas de forma reservada; 3)
Desenvolver um procedimento para pedir ajuda e orientação, se necessário for, de
pesquisadores e /ou colegas; 4) Estabelecer uma agenda clara de atividades de
coleta de dados que se espera que sejam concluídas em períodos especificados de
tempo; e 5) Preparar-se para acontecimentos inesperados, incluindo mudanças na
disponibilidade dos entrevistados, assim como alterações no humor e a motivação
do pesquisador do estudo de caso (YIN, 2005, p. 98).
Em Questões do estudo de caso, estas questões já demarcadas no projeto
de estudo devem refletir a linha geral de toda a investigação. Por estas razões,
devem apresentar duas características: 1) Orientação geral de questões: questões
funcionam como lembretes que o pesquisador deverá utilizar como forma de não
perder o foco do que será coletado e as motivações para coletar; e 2) Níveis de
questões: Numa escala de 1 a 5, as questões que estão no protocolo devem
demonstrar inseridas num conjunto de interesses do projeto.
Por fim, o Guia de relatório de estudo de caso, como modo de facilitar o
protocolo, este guia dentro do estudo de caso se refere ao esboço, formato para os
dados, uso e apresentação de outras documentações, e informações bibliográficas,
bem como apontar a quantidade de documentos utilizados. Para Yin (2005, p. 103)
“Isso facilita a coleta de dados relevantes, na forma apropriada, e reduziria a
possibilidade de ocorrer outra visita ao local do estudo”. Além disso, pode haver
flexibilidade quando o planejamento alterar o curso da coleta e resultados, o que
demonstra, conforme o autor, uma vantagem estratégica nesse sentido.
Em linhas gerais, o protocolo serve como uma bússola que organiza todo o
processo de coleta de dados na pesquisa de campo, possibilitar a organização e
interpretação dos dados coletados, e a forma como se conduz pode ser
determinante como também pode influenciar os resultados da pesquisa. Por esta
razão, ele é de suma importância nesta etapa do estudo, inclusive, pode antecipar
percalços durante a coleta dos dados em pesquisas qualitatitivas.

Leva a sério o contexto e os casos para entender uma questão de estudo.


Uma grande quantidade de pesquisa qualitativa se baseia em estudos de
caso ou séries desses estudos, e, com frequência, o caso (sua história e
complexidade) é importante para entender o que está sendo estudado. Uma
parte importante da pesquisa qualitativa está baseada em textos e na
escrita, desde notas de campo, transcrições e até descrições e
interpretações, e, finalmente, à interpretação dos resultados e da pesquisa
como um todo. (FLICK, 2009, p. 9).
141

De maneira mais específica em torno do objeto de estudo desta tese,


pretendeu-se observar as seguintes questões in loco, quais sejam: a) As rotinas
produtivas e fluxos de conteúdos no ambiente de execução; b) Apropriação e
desenvolvimento de ferramentas para a criação das visualizações de dados; C)
Averiguar a dinâmica de distribuição de atividades em equipe; d) Quais os formatos
de visualização mais recorrente nos laboratórios e quais elementos gráficos
explorados; e) Observar a logística de distribuição desses conteúdos (redes sociais,
sites, blogs, tecnologias móveis).
Como essa investigação contempla abordagem etnográfica, a observação
obedeceu a uma estruturação sistemática para a coleta de dados. Dessa forma, a
observação etnográfica requer três pontos determinantes, que é o resultado da
triangulação de técnicas, como: a) Observação: Perceber as atividades e inter-
relações das pessoas no cenário de campo através dos cinco sentidos do
pesquisador e exige registro objetivo e uma busca de padrões; b) Entrevistas:
Processo de dirigir uma conversação a fim de coletar informação. Para etnografia,
existe a aberta, em profundidade e semi-estruturada que contribuem para a
pesquisa qualitativa e a de tipos especiais (entrevistas genealógicas e de análise de
redes, histórias orais e de vida. c) A Análise do material de arquivo: material que
foram guardados para essa pesquisa, serviços e outros propósitos. (ANGROSINO,
2009, p. 72).
Para fins desta investigação, optamos por realizar entrevistas em
profundidade de caráter semiestruturada com os coordenadores e demais
participantes do laboratório. A entrevista, como técnica metodológica de obtenção de
dados, é “uma forma de interação social. Mais especificamente, é uma forma de
diálogo assimétrico, em que uma das partes busca coletar dados e a outra se
apresenta como fonte de informação” (GIL, 2008, p. 128). Em conformidade com
essa assertiva, Duarte (2005, p. 64) acrescenta que o objetivo primordial das
entrevistas está vinculado à compreensão de uma determinada situação e/ou
problema e que, imerso nas pesquisas qualitativas, se constitui em “uma técnica
dinâmica e flexível, útil para apreensão de uma realidade tanto para tratar de
questões relacionadas ao íntimo do entrevistado, como para descrição de processos
complexos nos quais está ou esteve envolvido”.
142

Neste sentido, Duarte (2005, p. 64) caracteriza a entrevista em profundidade


semi-estruturada como aquela que tem uma matriz ou roteiro de questionamentos
que vai guiando por meio do interesse da pesquisa e é marcada pela flexibilidade na
disposição das questões. “As questões, sua ordem, profundidade, forma de
apresentação, dependem do entrevistador, mas a partir do conhecimento e
disposição do entrevistado, da qualidade das respostas, das circunstâncias da
entrevista”. Nesta direção, as entrevistas que foram realizadas nos permitiu
compreender mais detidamente as rotinas produtivas do processo de construção das
visualizações de dados, bem como princípios norteadores, fluxograma interno e
outros detalhes do seu funcionamento.

5.3 Apresentação e Análise dos dados: procedimentos

Como estratégia analítica dos dados coletados, adotamos o modelo analítico


proposto por Yin (2005, p. 140), em que consiste em examinar, categorizar,
classificar em tabelas, ou, do contrário, recombinar evidências tendo em vista
proposições iniciais de um estudo de caso. Tais estratégias (Quadro 7) estão
alicerçadas em três princípios gerais, a saber:

1 Proposições teóricas: Seguimento das proposições e objetivos


contidos no projeto de estudo de caso, que refletem no conjunto de questões
da pesquisa. É uma espécie de guia de orientação teórica e ajuda o
organograma de todo o estudo;

2 Pensando sobre explanações: Definir e analisar do estudo de


caso construindo uma explanação sobre o caso. Essa estratégia pode estar
relacionada à primeira, na medida em que as proposições teóricas originais
talvez tenham incluído hipóteses concorrentes;

3 Desenvolvendo as descrições dos casos: Desenvolvimento de


uma estrutura descritiva com objetivo de organizar o estudo de caso.
143

Deste modo, o conjunto de estratégias para análise se debruçam a investigar


acontecimentos contemporâneos, mas sem deixar de observar o contexto na qual
residem. Conforme já apontamos, o nosso objeto de estudo tem características
mutantes e disruptivas, o que aciona perspectivas interdisciplinares para a
compreensão como um todo.
144
145

6.1. Caracterização do Laboratório Labic

Criado em 2007, o Laboratório de estudos sobre Imagem e Cibercultura


(Labic), do Departamento de Comunicação Social está vinculado ao Programa de
Pós-Graduação em Comunicação e Territorialidades e do Programa de Pós-
Graduação em Ciência da Computação da Universidade Federal do Espírito Santo
(UFES) (figura 17). A meta do Laboatório é ser um espaço de desenvolvimento de
produtos digitais, de pesquisas acadêmicas e de extensão que estejam vinculados à
temática da Cibercultura, Tecnologias Digital e dos processos digitais na sociedade
contemporânea. Na administração do laboratório estão quatro coordenadores-
professores da UFES, das áreas de Comunicação Social, Serviço Social e
Engenharia Elétrica que gerenciam atividades distintas que variam entre
Gereciamento de Projetos e Financiamentos, Desenvolvimento de Software,
Relacionamento com a mídia e Gerenciamento de Imagens.

Figura 17 – Layout do site do Labic

Fonte: Labic

De início, o laboratório foi construído como projeto de extensão vinculado ao


curso de Comunicação Social para desenvolver pesquisas e práticas sobre
Cibercultura, explorando as questões de relações com os usuários, cultura de uso e
reuso da internet, midiativismo e resistência. Mas foi a partir de 2013 em que houve
uma mudança de abordagens em suas atividades.
146

Há dados por todos os lados. Produzidos individualmente, ponto a ponto,


coletivamente ou em grandes grupos sociais a todo instante. Via Internet e
off-line. Bilhões e bilhões de dados gerados quando as pessoas consomem,
produzem e interagem. Dados que dizem muito sobre as necessidades,
motivações, desejos e decisões que movimentam a vida em sociedade. E
que precisam ser “ouvidos” (COORDENADOR 1, Entrevista concedida).

O laboratório continuou no campo da Cibercultura, mas ampliou as pesquisas


para redes sociais, coleta de dados e Big Data como insumos centrais para este
procedimento, análise e Visualização de Dados. Um dos desencadeadores desse
processo foi o contexto das manifestações de junho de 2013 no Brasil, que
favoreceu a emergência do laboratório e a visibilidade midiática com os relatos em
forma de gráficos das manifestações sociais e política, que ficaram conhecidas
internacionalmente pelo uso da hastag #VemPraRua. Neste momento o laboratório
desencadeou mais fortemente as pesquisas em torno de Big Data.

O Labic foi um dos primeiros no Brasil que trabalhou com grandes


quantidades de dados extraídos das redes sociais. A gente trabalhou com
as redes sociais de forma massiva, principalmente, naquela época que foi o
twitter, depois mais para frente, a gente trabalhou com o Facebook também.
Mas fomos a vanguarda, pelo menos aqui no Brasil, fomos um dos pioneiros
a trabalhar com Big Data em redes sociais. (COORDENADOR 4, entrevista
concedida)

A junção do trabalho com grandes volumes e extração de dados via redes


sociais começou a se consolidar no âmbito do laboratório. Como havia uma
demanda por análise e coleta de dados, houve uma expansão por meio de outras
áreas para auxiliar nesse novo universo do Big Data. Deste modo, ocorreu a
ampliação da equipe com a incorporação de profissionais de áreas distintas com
característica interdisciplinar. A configuração do trabalho do Labic está expressa na
sua página na Internet81, na apresentação do laboratório, assim contextualizado:

Há dados por todos os lados. Produzidos individualmente, ponto a ponto,


coletivamente ou em grandes grupos sociais a todo instante. Via internet e
off line. Bilhões e bilhões de dados gerados quando as pessoas consomem,

81
Disponível em: http://www.labic.net acesso em: 15 jan. 2019.
147

produzem e interagem. Dados que dizem muito sobre as necessidades,


motivações, desejos e decisões que movimentam a vida em sociedade. E
82
precisam ser ouvidos”

O Labic (figura 18) está estruturado para dar conta dessa demanda que
emergiu com Big Data, especificamente em conjuntura de efervescência nas redes
sociais com manifestações e novas demandas políticas. Logo, é pertinente
apresentar a estrutura e o fluxo de trabalho do laboratório para compreensão do
fluxograma e de sua infraestrutura. Outras imagens no Anexo 1 dessa tese.

Figura 18 – Laboratório do Labic na UFES

Fonte: registro da pesquisadora

Durante o período de observação não-participante in loco foi possível


acompanhar e descrever a estrutura e fluxo de trabalho e a aderência da equipe,
nos projetos, por exploração do território das questões sócio-políticas e da política
de dados abertos. Durante a descrição etnográfica da pesquisa de campo

82
Disponível em: http://www.Labic.net/sobre/ Acesso em: 8 nov. 2018.
148

detalharemos alguns desses aspectos. Para tanto, é pertinente conhecer mais


detidamente a estrutura e o fluxo de trabalho no laboratório.

6.1.1 Estrutura e fluxo de trabalho do Labic

O Laboratório é estruturado a partir de um prédio térreo da Universidade


Federal do Espírito Santo, no Campus Vitória. Na infraestrutura técnica, o laboratório
está equipado com computadores distribuídos pelas salas com uma rede de alta
velocidade e o uso de software e ferramentas para dar conta da complexidade do
trabalho em torno da conta da coleta de grandes volumes de dados, modelagem e
posterior análises e construções de visualizações para dar visibilidade aos dados
para o público externo ou para atendimento de demandas da imprensa ou de
convênios. O Coordenador 4, que é graduado em Engenharia Elétrica, com
Mestrado e Doutorado nessa mesma área, integrou-se ao Laboratório com o objetivo
de otimizar as atividades de sua especialidade.
A dinâmica de produção do laboratório envolve algumas etapas a depender
do projeto que foi solicitado. O Coordenador 2 explica que o laboratório não se limita
apenas a atender projetos externos, mas também de atendimento de projetos
acadêmicos, onde cada professor escolhe um aluno que vai exercer uma atividade
vinculada ao laboratório, e o que congrega, são discussões de textos, reuniões,
orientações e etc. Nesta direção, quando se trata de um projeto maior que vai
envolver todo o laboratório, há uma divisão dessas atividades, o que cada grupo
delegado irá desenvolver e o plano de trabalho individual e em equipe na execução.
A dinâmica de trabalho (Quadro 6) envolve etapas que se relacionam ao
fluxograma do laboratório e a especificidade de cada pesquisador. Em síntese, cinco
grupos de atribuições interligadas estão envolvidos nas etapas para condução e
gestão dos projetos.
149

Quadro 6 – Dinâmica de Produção do Labic

Fonte: Elaboração da autora.

A Gestão de Projetos é a etapa em que, quando estes chegam ao


laboratório são divididos em: Planejamento do Projeto, delegar as funções, os
objetivos e delimitações dos objetos. Essa talvez seja a parte mais importante do
início do processo, como se fosse um filtro organizativo para a execução do projeto,
até a etapa final, que é a entrega de um produto (app) ou de um relatório. Após a
150

etapa, vem a Delimitações de funções, que se trata de delegar à equipe as


atividades que cada um irá desenvolver bem como distribuição das funções de cada
um da equipe e também alertar em relação ao prazo final. Geralmente a
coordenadora convoca todos para uma reunião onde acontece esse ordenamento
geral. Depois, tem-se a Gestão de Projetos + Delimitação das funções, que é
uma fusão das outras duas etapas em que nessa fase há o monitoramento das
atividades, supervisão, orientação, um acompanhamento permanente para que seja
atendido conforme o solicitado, sendo uma espécie de controle de qualidade em
andamento. Após essa fase, tem o Produto Final, que pode ser um produto em si,
app ou um relatório de pesquisa. O trabalho, no entanto, não acaba quando entrega
o produtor final. Ainda há a Propriedade Intelectual, que é a tarefa de registar
dentro da Universidade quando for o caso.
Para funcionamento do laboratório há uma preocupação com a captação de
recursos oriundos de editais ou de parcerias institucionais com empresas por meio
do estabelecimento de convênios entre universidade e agências de fomento como
CNPq e CAPES.83 Além dessas parcerias, o Labic passou a atender às solicitações
de projetos de professores da Instituição ou pesquisadores externos que queiram
coletar dados. Todavia, a partir de 2017, regido sob à Lei da Inovação84, em que
determina parâmetros com vista à inovocação nas pesquisas científicas e
tecnológicas, começou o processo de abertura do laboratório para empresas que
sejam parceiras da Universidade e que façam o uso das tecnologias e produtos
desenvolvidos no âmbito do Labic. “Então essa já é uma realidade do laboratório,
que já está em processo a construção mesmo de trabalhos específicos para o setor
produtivo” (Coordenador 1, entrevista concedida).85
Com caráter colaborativo, o Labic mantém parcerias com outros laboratórios
nacionais como o Cibercult (Laboratório de Pesquisa em Comunicação Distribuída e
83
Alguns dos financiamentos ocorrem com agências de fomento como a CAPES (Coordenação de
Aperfeiçoamento de Pessoal de Nível Superior), onde já tiveram um financiamento de quase R$ 500
mil, que durou quatro anos, entre 2012 a 2016. Outros parceiros institucionais como o Ministério da
Educação através do INEP (Instituto Nacional de Estudos e Pesquisas Educacionais), de 2013 a
2018; A Secretaria de Direitos Humanos, cujo financiamento girou em torno entre R$ 400 a 500 mil. O
laboratório também passou a fechar parcerias ocasionais, como a UNICEF (Fundo das Nações
Unidas para a Infância) e Fiocruz (Fundação Oswaldo Cruz). Portanto, esses financiamentos
demonstram a capacidade de captação de recursos para projetos de grande porte no âmbito do
laboratório.
84
Disponível em: http://www.planalto.gov.br/ccivil_03/_Ato2004-2006/2004/Lei/L10.973.htm Acesso
em: 8 nov. 2018.
85
Entrevista Concedida em 10 de Maio de 2018.
151

Transformação Política), e MediaLab (Laboratório em Mídias e Métodos Digitais)86,


os dois vinculados à Universidade Federal do Rio de Janeiro (UFRJ). Ademais, o
laboratório internacionalizou as pesquisas e firmou parceria em dois convênios
internacionais: o primeiro, com a Universidade Aberta de Catalunha (UOC), na
Espanha, universidade em que está vinculado o professor e sociólogo Manuel
Castells, e o segundo, com a Universidade de Guadalajara, no México. No período
de escritura dessa tese, em 2019, dois dos coordenadores estavam no Reino Unido
em estágio de pós-doutorado como professores-visitantes e articulando novas
parcerias no campo de atuação do Labic visando internacionalização do laboratório
e suas pesquisas.
A compreensão do contexto de Big Data em convergência com as
visualizações de dados nos fluxos de produção do laboratório nos conduziram a um
dignóstico mais aprofundado sobre o tema em questão, explorando os aspectos
tecnológicos, de conteúdo e das práticas, tendo em vista ser um laboratório com
práticas paradigmáticas nestas condições, o que correspondeu com o nosso objeto
de pesquisa.
Além de pesquisa pura, o laboratório atua na pesquisa aplicada com o
desenvolvimento de aplicações e ferramentas digitais próprias para realização de
análises e coleta de dados, como também se utiliza de outros software como
complemento das atividades de investigação que visam a transformação dos dados
em visualização. O laboratório já desenvolveu mais de 30 software. Uma das
características do Labic é a abertura de dados coletados a partir da disponibilização
dos dados brutos (dataset) para pesquisadores , desde que seja citada a fonte.
Dentre essas criações próprias da pesquisa aplicada estão o script NAR_T,
assim como uma série de algoritmos usados para analisar dados de redes sociais,
os coletores de imagens a partir de links (crawler), além do identificador de imagens
semelhantes (AISI) e o visualizador em multi-camadas (ALICE), que realizam o
processo analítico de imagem em tempo real a partir de um assunto específico. Há
também, o Ford, software desenvolvido internamente pela equipe de
desenvolvedores e que unifica um conjunto de funções para o procedimento de
coleta de dados nas redes sociais, fontes de dados, análises e estruturação de
datasets.

86
Disponível em: http://medialabufrj.net/ Acesso em: 7 ago. 2017.
152

O Ford consegue também analisar texto, consegue fazer o grupo de


palavras, faz visualizações, grafos, nuvens de hashtags, quais são as
palavras mais recorrentes do dataset, ele elminina os duplicados (imagens
ou textos na coleta), ele gera rede. Enfim, é bem completo para as nossas
atividades. (PROGRAMADOR 1, entrevista concedida).

Entre as outras ferramentas digitais utilizadas e desenvolvidas por outros


87
criadores estão o Your Twapper Keeper (para a extração e coleta dos dados, no
caso do Twitter), o NetVizz88 (Para gerar dados do Facebook em um arquivo .gdf),
além do NodeXL89 e o Gephi90, software que produzem imagens e grafos para
visualização das relações contidas nos dados. Esse último, inclusive, é um dos mais
usados para a construção de grafos em suas produções. O processo de criação
desses grafos vai depender da rede social que se pretende trabalhar e quais
objetivos porque este é utilizado associando a certos algoritmos. Primeiro, se coleta
os dados no dataset e visualiza a quantidade de dados que se quer explorar (figura
19). Depois, exporta os dados no Gephi para tomar forma, onde é possível ajustar
as cores, destaque, fontes, tamanho, etc. (Figura 20) até chegar ao objetivo final
(figura 21 ).

Figura 19 – Processo de coleta de dados estruturado no dataset

Fonte: Labic (cedido à pesquisadora)

87
Disponível em: http://mappingonlinepublics.net/tag/yourtwapperkeeper/ Acesso em: 7 ago. 2018.
88
Disponível em: https://apps.facebook.com/netvizz/ Acesso em: 7 ago. 2018.
89
Disponível em: https://nodexl.codeplex.com/ Acesso em: 7 ago. 2018.
90
Disponível em: https://gephi.org/ Acesso em: 7 ago. 2018.
153

Figura 20 – Dados exportados para o Gephi

Fonte: Labic (cedido à pesquisadora)

Figura 21 – Resultado final da Visualização de grafos

Fonte: captura de telas do Labic


154

91
A partir dessas experiências de construção dos grafos, o Programador 1
ressalta que os maiores entraves para a coleta de dados se referem às políticas de
privacidade das plataformas de redes sociais, principalmente do Facebook, por
exemplo, quando anonimiza os dados dos usuários, tornando difícil estabelecer
redes de relações dos usuários. Para ele, o Twitter se mostra bem mais flexível,
permitindo que os dados sejam coletados, assim como dados visuais (fotos, memes)
e publicações dos usuários. Questionado sobre quais aspectos são levados em
consideração na estruturação dos grafos92, o mesmo é categórico em afirmar que
estes devem apoiar a análise que está sendo realizada ou uma pesquisa.

Ele [o grafo] nunca deve ser levado como forma de interpretação soberana,
apesar que o tempo é o nosso maior empecilho quando a gente tenta [fazer
as visualizações] porque as vezes não dá para colocar tudo. Em geral a
visualização, na gente tem uma noção de que é uma representação daquele
que a gente tá pesquisando, estudando, lendo, e que esses próprios dados
são representativos de um fenômeno ainda maior, ainda mais profundo, que
a gente não consegue, muitas vezes, chegar a essência dele, só a partir da
visualização de dados. Então, a gente sempre tenta na visualização de
dados viabilizar, tornar legível aquiolo que antes demandaria mais tempo,
tornar imageticamente representável um conjunto muito grande de dados
(PROGRAMADOR 1, Entrevista concedida).

A declaração da entrevista acima do programador revela que, por se tratar de


grandes volumes de dados que são coletados para essas produções, a própria
estrutura dos grafos acaba não comportando esse conjunto de dados. Neste sentido,
esses grafos representam uma parte de um volume mais denso desses dados, e
que é um exercício contínuo o de analisar, compilar os dados e oferecer visibilidade.
Da mesma forma que estas preocupações pairam no momento de construção dos
grafos, para as produções de visualizações de dados que são desenvolvidas de
modo sistemático. Para ele, programador e responsável pelas visualizações de
dados do Laboratório, é preciso levar em consideração dois aspectos: 1) visualizar o
todo e 2) visualizar os detalhes. Ele justifica que, em tempos de Big Data, torna-se
um imperativo utilizar todos os dados coletados, sem desperdiçá-los e, ao mesmo
tempo, delimitar uma sintonia entre estas duas preocupações, pois “tem que

91
Entrevista Concedida, 11 de maio de 2018.
92
Entrevista Concedida, 11 de maio de 2018.
155

encontrar um meio termo do todo e do detalhe, e, às vezes a interatividade é


interessante por causa disso” (Entrevista concedida)93.
Para o Coordenador 2, as implicações dos dados na sociedade atual ecoam,
principalmente, por meio das redes sociais, sendo uma expressão do cotidiano das
pessoas, uma vez que “algumas delas vão influenciar nessas redes, vão se tornar
pessoas as quais as outras vão querer seguir, compartilham, se identificam das
mesmas ideias, as mesmas formas de pensar”94. Neste sentido, a pertinência de
estudar e analisar Big Data e de como esse movimento se manifesta nas redes
sociais. Como o laboratório já vem trabalhando de forma sistemática com os dados,
este é considerado como um ponto de disrupção frente aos novos formatos e novas
formas de contar histórias nas produções do Laboratório. O Coordenador 1 ressalta
as análises e construções visuais não se restringe à quantidade de opiniões ou
histórias que podem ser extraídas pelos dados, mas direcionado com o que esses
dados podem revelar.
As visualizações de dados feitas no Labic têm outras funcionalidades como
estudar as associações, conexões, relações, agrupamentos com o intuito de
desvendar outras histórias que estão por trás dos dados e das controvérsias. Nesta
direção, a visualização não está focada no quantitativo, mas em uma maneira de dar
visibilidade a algo que está acontecendo na internet, ou seja, dar visibilidade às as
histórias, visibilidade das conversações e suas relações, que muitas vezes não
seriam visíveis se não se demonstrassem por meio das categorias de palavras-
chaves ou termos captados, identificados, filtrados e entregues em uma interface de
Visualização de Dados.
Deste modo, as práticas de visualizações de dados têm sido construídas de
modo frequente pela equipe do Laboratório, a partir dos dados coletados das redes
sociais, que são divididas em: 1) Visualizações de grafos; 2) Visualizações de dados
e 3) Visualizações de imagens. Para as produções de Visualização de Dados, os
software principais são o Gephi (software livre de visualização e exploração para
todos os tipos de gráficos e redes) e o D3 (espécie de galeria de visualizações em
Java Script). A questão dos elementos interativos e multimidiáticos nessas
produções, conforme o programador, de um modo geral, há sempre a tentativa de

93
Entrevista Concedida, 11 de maio de 2018.
94
Entrevista Concedida, 14 de maio de 2018.
156

dinamizar as visualizações, mas vai depender de cada projeto que está sendo
desenvolvido. Por exemplo, se for para uma revista, não há como colocar elementos
dinâmicos, mas se for para uma matéria Web, essa sim pode ser bem explorada. Os
elementos mais importantes que são levados em conta nas visualizações, segundo
o Programador 1, são:

A visualização ela tem que ter clareza, tem que conseguir, inicialmente, ter
um vislumbre dos dados mais importantes do dataset [conjunto de dados]
essa é a ideia principal. Nenhuma análise vai superar você indo direto no
dado e olhar o dado. Isso é um ponto. Mas a visualização tem que chamar
atenção para parte estrutural daquele dado e, como no caso a gente
trabalha com Big Data, e te dá opção de olhar o menor [dado]. Ele tem que
te mostrar o maior logo de cara mas se dá a possibilidade de olhar o menor,
de observar os detalhes. (PROGRAMADOR 1, Entrevista concedida).

No tratamento do conteúdo das visualizações no que se refere a fazer sentido


na narrativa, na entrevista acima é enfatizado que nenhuma visualização é perfeita,
e que esta depende do tipo de dado. Este é quem vai orientar o desenvolvimento da
narrativa e determina os tipos de elementos de composição, cores, formato, etc, e a
partir dessa checagem, propor instrumentos interativos. “Agora se eu estou
analisando um determinado conjunto de dados que vai mudar muito em um período,
já faz sentido uma animação”. Para ele, o ponto de inovação dessas visualizações
que se tratam com grandes volumes de dados, recai em olhar o todo mas também
valorizar os pequenos dados na construção de uma narrativa. A multimidialidade
ainda continua com um aspecto relevante e a interação como o ponto chave das
mutações e inovações pelo fato de caso queira, o usuário vai poder aprofundar e
explorar os elementos dentro da estrutura visual.
Para a construção dessas visualizações, há um protocolo a ser seguido no
laboratório dentro do fluxo de trabalho:

1) Entender o dado: Essa é a parte mais importante porque o dado é que vai
guiar toda a construção da visualização (Figura 22). Assim, a partir da coleta, faz-se
a leitura dos dados brutos que foram coletados, como comments, tweets, imagens,
hashtags, dados que são essenciais para construir escalas do estilo retweets e
comentários do Facebook, por exemplo. A estratégia aqui é fazer essa interpretação
dos dados, primeiro olhar para o dado e entender o que é que se tem de dado e que
157

tipo, se são dados numéricos ou dados de textos, e o que é que se pode usar para
a produção dessas narrativas.

Figura 22 – Exemplo de dados brutos

Fonte: Labic (cedido à pesquisadora)

Essa primeira coleta realizada pelo software Ford, está em formato csv
(tweets_csv.png) e mostra uma ideia de como é o dado bruto.
Nesta tabela com 56 colunas no total, cada linha é um tweet que tem uma imagem
associada. As imagens podem se repetir em tweets diferentes.
Um detalhe pertinente é que, essa tabela é de tweets, mas a visualização é focada
nas imagens. Nesse caso, os dados que são exclusivos do tweet, do usuário que
twitou não vão ser usados na visualização final. Se só existisse um tweet para cada
imagem, daria para dizer que "o texto do tweet é o texto da imagem", mas como não
é o caso, texto não pode ser usado. Por isso, muitos dos campos foram
descartados.
158

2) Evidenciar o dado: Nesse ponto, como o próprio nome sugere, é tentar


dar luz a esse dado que já passou pelo processo de coleta e leitura (Figura 23). O
colors_csv.png é um arquivo com as cores predominantes de cada imagem. Essa já
é uma tabela onde os objetos são imagens de fato. As cores podem ser escritas em
dois padrões distintos: RGB (red, green, blue) ou HSB (hue, saturation, value). A
segunda coluna, que tem o código da cor que vai ser plotada na visualização e da
coluna H, que é a Matiz e vai ser usada para posicionar as imagens no eixo x.
Essa tabela é gerada por um script python, chamado colors.py, que identifica as
cores predominantes em imagens. Trata-se, portanto, de um pré-processamento.
Esses dois arquivos anteriores são usados como entrada para um script feito em
nodejs que vai pegar os dados relevantes, associar às imagens e, mais importante,
agrupar as aparições das imagens em períodos. Para esse exemplo o período é de
um dia.

Figura 23 - Exemplo da etapa 2 de evidenciar o dado

Fonte: Labic (cedido à pesquisadora)


159

3)Pensando o Formato: Depois desse processo, etapa seguinte é a de


pensar em um modelo estético, o formato que vai ficar a visualização, se vai usar
formatos quadrados, ou usar círculos, bolhas sincronizadas e, pensar nos elementos
interativos que os dados podem se formatados e apresentados, se será algo mais
dinâmico ou algo mais estático, tudo vai depender do que o dado mostrou. Deste
modo, é realizado um rascunho ou layout, um desenho mesmo no papel (Figura 24) como
planejamento para ter noção do visual de como se apresentará os dados como se fosse um
storyboard para a visualização. É momento de “mexer” no código e colocar os elementos,
um por um, preparar a tela, mapeiar os elementos, criar as escalas. Constrói-se as escalas
e adiciona-se os elementos, geralmente coloca-se a escala no elemento e já começa a
ganhar uma forma. Após essa etapa, jogam-se os dados no D3 ou na ferramenta Gephi, que
são as mais usadas pelo Labic.

Figura 24 – Modelo de Script da visualização

Fonte: Labic (cedido à pesquisadora)


160

4) Elementos interativos: Para esta etapa são pensadas as possibilidades


interativas para que o usuário compreenda a mensagem que está sendo exibida e
torná-la mais dinâmica, sobretudo, quando realizada para a Web. Nas produções do
Laboratório, todos esses elementos são pensados de acordo com cada visualização
porque é a partir do dado, ou seja, do conteúdo que essas interações são
devidamente exploradas. “O ideal é, a depender da visualização, utilizar todos os
dados coletados”. 95
5) Finalização da visualização: Após passados por todas as outras etapas,
a finalização é como a visualização vai ser apresentada para os usuários. Nesse
caso, que foi uma visualização realizada sobre a morte da vereadora do Rio de
Janeiro, Marielle Franco (Gráfico 10), por exemplo, o formato escolhido foi em
bolhas sincronizadas. Cada objeto é uma imagem e contém as seguintes
informações: identificador da imagem, color (informações da cor), media_url (o
endereço original da imagem no twitter), total (o total de vezes que a imagem
aparece) e datas (um dicionário que mapeia a quantidade de aparições por período,
no caso por dia). Ressaltamos que a informação da quantidade de aparições da
imagem por dia é o que permite a animação do gráfico. Nesta visualização96, por
exemplo, foram coletadas cerca de 11 mil imagens circulantes no Twitter, que
resultou em uma junção de volumes de dados de retweets, com a cor dominante e
tempo de compartilhamento.
Um elemento fundamental para as produções de visualizações no Labic é a
fluidez com que os dados são trabalhados. Visualizações que contenham, em
alguma medida, dinamismo em apresentar os dados mesclados com elementos de
interação que, ao mesmo tempo, tem sido encarado com um desafio frente ao
cenário do Big Data: ou descarta-se tudo ou tem que mostrar tudo. Então cada vez
mais a filtragem dos dados tem sido um processo pertinente diante de grandes
volumes. “O Big Data não só vai trazer novas possibilidades de usar esses dados,
mas vai trazer novos desafios especialmente para visualização em como gerenciar e
tratar esses dados, por exemplo,” 97.

95
Entrevista Concedida, 11 de maio de 2018.
96
Disponível em: http://Labic.net/mariellepresente/ Acesso em: 8 nov. 2018.
97
Programador 4, Entrevista concedida em 11 de maio de 2018.
161

Gráfico 10 – Visualização das imagens sobre Marielle Franco

Fonte: captura de tela - Labic

Os dados podem contar histórias como afirma o programador ressaltando que


pode-se conferir ao dado o sentido que se deseja mostrar na apresentação, mas que
o usuário precisa montar sua narrativa, construir sua própria história. Segundo ele,
esse é um dos fatores que diferencia as visualizações dos infográficos, cuja
narrativa apresentada já está contada com início, meio e fim. No caso das
visualizações, o usuário resgata o protagonismo da narrativa, ele percorre essa
trajetória da maneira em que desejar.
Para as visualizações de imagens, o passo a passo segue nos mesmos
moldes acima descritos, mas utilizando o software Image J98, que além de coletar,
pode regular a resolução (Figura 25). Após a coleta, indexa a imagem pertinente que
será analisada, em que dificilmente descartam-se as imagens. O que acontece é
que depois das imagens coletadas, em um processo posterior, que se costuma
executar é categorizar essas imagens. Há várias possibilidades de categorizar, por
exemplo, qual é o dispositivo utilizado para capturar essa imagem com câmeras ou

98
¨O ImageJ é um programa de computador de domínio público, feito em Java destinado a
processamento de imagens. Ele foi desenvolvido no National Institutes of Health. O ImageJ foi feito
para ser um programa de arquitetura aberta que pode ser expandido via Java en:plugins e macros¨.
Fonte: Wikipédia (2019).
162

com celulares, e que tipo de celular, ou se foi uma imagem que tem
enquadramento/frame profissional ou amador, ou é uma imagem mais mimética.
Deste modo, cada dataset acaba necessitando de um olhar mais específico.
Coletou a imagem, olha-se o dataset e ver o que ela pode dizer. Para o
coordenador de Imagens, o Image J permite criar um plano cartesiano, onde w, x e
y, permite organizar as informações visualmente por determinados parâmetros: cor,
a matiz de cor, a cor predominante, o brilho, são essas três estruturas de coboração
em função do tempo, em função usuário, em função do número de
compartilhamentos.
Além disso, essas variáveis podem ser cruzadas de diversas maneiras. Cada
variável quando cruzada com outra variável vai resultar em uma visualização
distinta. Então essas possibilidades de variáveis podem ser construídas para
enxergar o dado no software que foi desenvolvido pelo laboratório chamado Image
Cloud, a ideia de nuvem de imagem para tentar enxergar imagem, não a partir de
um eixo padrão, mas a partir de um ordenamento de que as mais importantes
apareçam primeiras.
Outro tipo de produção nesse sentido no Laboratório, não necessariamente
de imagem, é quando tem conjuntos de imagens com geolocalização, em que plota-
se essas imagens em software como o Google Map, que tem possibilidade de
visualizar as imagens a partir de tais geolocalização . Deste modo, é possível
enxergar como as pessoas fotografam uma pessoa ou uma cidade como Nova York,
por exemplo, independente da hashtag. A ideia é coletar tudo o que foi publicado por
uma pessoa que foi postada no twitter e compreender esse pensamento visual que é
construído através das imagens.
163

Figura 25 – Conjunto de Imagens coletadas na Copa do Mundo da Rússia

Fonte: captura de tela - Labic

Sobre o impacto das imagens frente ao fenômeno do Big Data, o coordenador


do laboratório salienta que se trata de novas formas de utilização das imagens
descorrentes do processo de digitalização em que se consegue intercambiar os
produtos digitais e criar novos processos como, por exemplo, a criação de conexões
entre as imagens que não se tinha no analógico.

A visualização ela tem que ter clareza, tem que conseguir, inicialmente, ter
um vislumbre dos dados mais importantes do dataset [conjunto de dados]
essa é a ideia principal. Nenhuma análise vai superar você indo direto no
dado e olhar o dado. Isso é um ponto. Mas a visualização tem que chamar
atenção para parte estrutural daquele dado e, como no caso a gente
trabalha com Big Data, e te dá opção de olhar o menor [dado]. Ele tem que
te mostrar o maior logo de cara mas se dá a possibilidade de olhar o menor,
de observar os detalhes. (PROGRAMADOR 4, Entrevista concedida).

Em outras palavras, trata-se de posicionar o estatuto da imagem em um


patamar de protagonismo discursivo e imagético inserido em um contexto dos
grandes volumes de dados. Para Coordenador 1, as produções são feitas com viés
midiativistas com o intuído de dar visibilidade a determinadas vozes, fenômenos,
públicos e grupos distintos. “É um laboratório que tem trabalho com visualização e
tem trabalho com visibilidades, acho que são coisas diferentes, mas que se
164

complementam”99. Neste sentido, o laboratório tem uma missão em torno da


visibilidade social de fenômenos de modo que os dados não são neutros, mas
refletem uma política do laboratório que está na sua origem de ativismo baseado na
cibercultura e contracultura.
Essas produções visuais, em sua grande maioria, ocorrem no campo da
opinião pública a partir dos comentários que circulam nas redes sociais, através de
hastags, imagens, coments, retweets, por exemplo. Outras visualizações também se
destinam à pesquisa acadêmica produzida pelo laboratório com os pesquisadores
vinculados a ele, variando entre 22 a 25 pessoas atuantes, de acordo com o projeto
em execução. Tais produções são realizadas através da formação e consolidação
da equipe interdisciplinar que compõe o laboratório. Iniciou-se com alunos da área
de Comunicação – Jornalismo e depois outras áreas foram agregando-se como
Design, Engenharia Elétrica, Serviço Social. O trabalho da equipe varia de projeto
para projeto: como o laboratório tem muitos alunos do mestrado, iniciação científica
e estes vão sendo solicitados de acordo com as demandas dos projetos alinhados
às pesquisas científicas.
Portanto, a pesquisa para esta tese, visando compreender o estudo de caso,
necessitou de uma abordagem etnográfica com observação não-participante e
entrevistas com os personagens-chaves e suas práticas para compreender o
processo do laboratório de inovação com uso de Big Data e o fluxo de trabalho para
dar vazão às visualizações com narrativas disruptivas na dimensão de grandes
volumes de dados e da complexidade. Na sequência, realizamos a descrição
etnográfica das observações para poder complexificar as práticas laboratoriais e o
sentido na conjuntura em análise desta pesquisa. Compreendemos que o
enquadramento conduzido pela investigação, de modo descritivo, permite
dimensionar as práticas e as implicações destas para o contexto da Ciência da
Informação quanto ao Big Data e Visualização de Dados dentro da noção de
sociedade datificada.

99
Entrevista Concedida em 10 de maio de 2018.
165

6.2 Observações etnográficas no LABIC: Diário de Campo e


desvendando as práticas laboratoriais com Big Data e Data
Science

A pesquisa de campo no Laboratório de Estudos sobre Imagem e


Cibercultura – Labic ocorreu a partir da observação, que foi oficializada por meio de
carta de solicitação de autorização para o desenvolvimento da pesquisa no estudo
de caso. O acompanhamento das práticas no laboratório foi registrado em diário de
campo da pesquisadora por meio de anotações sistemáticas no aplicativo
multiplataforma Evernote100 e registros fotográficos e de áudio de entrevistas por
meio do smartphone.
No primeiro dia cheguei ao Labic às 8h40. A partir das 9h os membros da
equipe começaram a chegar gradativamente. Fui recebida por dois pesquisadores:
um, graduando em Serviço Social, e pela mestranda em Comunicação, ambos
atuantes nas produções do laboratório e que já estavam no local. Ambos me
receberam e avisaram que o Coordenador 2, estava a caminho. Cerca de 20
minutos depois, a mesma chegou e logo veio me receber e dá boas-vindas e
explicar o funcionamento do laboratório, e o mesmo me informou, inicialmente, que
nas segundas pela manhã o movimento é mais reduzido, tendo em vista o início da
semana de trabalho, mas que pela tarde, o movimento começa a ficar mais intenso.
O Coordenador 2 enfatiza que uma de suas funções é manter o rigor na supervisão
das atividades: “Sou rigorosa nessa gerência, tanto na parte de redação científica
quanto na parte da manutenção da qualidade das atividades que estão sendo
realizadas”101. Além da interação no próprio local, ela se comunica com a equipe via
grupo do Whatsapp, Telegram, Facebook e telefone, o que em grande parte acaba
por tomar decisões por meio desses aplicativos como também na mediação de
conflitos de ideias e de projetos.
Numa conversa informal, mostra-me toda a estrutura física do espaço, que
ocupa três grandes salas, dentro do campus da Universidade Federal do Espírito
Santo - UFES, onde ficam setorizados as atividades do Desenvolvimento [de
100
Fundado em 2004, Evernote é um aplicativo multiplataforma de anotações, organização de
agenda, projetos, lembretes, de captura e armazenar de arquivos como fotos, vídeos e áudios.
101
Diário de Campo, 7 de maio de 2018.
166

software], Modelagem e a Coordenação. Cada coordenador tem sua mesa própria


de trabalho. Os Coordenadores alteram os dias que estão no Laboratório, devido a
demandas extras, como aulas na pós-graduação e graduação, projetos de
pesquisas e relacionamento com a mídia, uma vez que há uma demanda de
veículos da imprensa nacional em divulgar dados do Labic ou estabelecer parcerias
específicas. No local, há ainda uma cozinha e um banheiro exclusivo da equipe,
onde a chave fica sob a guarda dos mesmos.
A estrutura física conta com o design de interiores (ornamentação e
comodidade) que foi feita por intervenção dos integrantes do laboratório. Os próprios
pesquisadores construiram as mesas, que na verdade eram portas e foram
customizadas com cavaletes de cor laranja, conferindo um ar moderno e colorido. As
diversas ilustrações nas paredes foram feitas por um estudante de Comunicação
Social da Instituição. Embaixo da bancada e nos arredores das salas, há assentos
estilo puffs, que foram feitos com pneus reciclados e são utilizados para o caso em
que estiver muita gente ou reunião para poder acomodar a todos. Todas essas
intervenções no espaços visam contornar a demora das licitações de equipamentos
ou de serviços da universidade e, ao mesmo tempo, personalizar o espaço do
laboratório. Em termos de equipamentos no local, há 4 notebooks, 2 impressoras,
diversas extensões, uma TV, rede Wi-fi de alta velocidade e computadores que
ficam distribuídos nas salas de Modelagem e dos Desenvolvedores, todos de
marcas variadas. Há uma mini-biblioteca composta por 187 livros que fica na sala da
Coordenação, onde todos têm acesso para consultar.
Dentro do Laboratório ainda há um mini-auditório que se localiza ao fundo da
sala de Modelagem, e que embaixo dos assentos de madeira, há umas espécies de
baús onde são armazenados artefatos eletrônicos inutilizados, como antigos
notebooks, telas de computadores, teclados, entre outros. Nesta parte se observa
uma multifuncionalidade do espaço para poder otimizar o local e comportar o
material em desuso. Na medida em que os membros iam chegando, uma
pesquisadora e a coordenadora iam me apresentando. Todos os membros, em sua
maioria bolsista, desenvolvem atividades técnicas ou teóricas, ou vão ao laboratório
para coletar dados para pesquisas de Trabalho de Conclusão de Curso - TCC ou de
Mestrado. Enquanto realizo as anotações, sou informada que há um computador
livre todas as manhãs, caso eu queira fazer o uso, como também me cederam uma
caneca para tomar água, café ou chá, uma vez que todos têm a sua caneca própria.
167

Aceitei gentilmente a caneca oferecida por eles. A cozinha, bastante frequentada,


era como se fosse um ponto de encontro ou mesmo um lugar do “desestresse”
diário.
Para as minhas anotações no diário de campo, utilizei smartphone Motorola
G5 Plus onde estava explorando o app Evernote, baixado i especialmente para
essas observações etnográficas da pesquisa de campo, o que agilizou de modo
produtivo todas as anotações e manteve a discrição para não parecer invasiva ou
incomodar com as anotações, de modo a transformar a presença da pesquisadora
em uma situação mais natural. Em momentos ocasionais, também fiz o uso do bloco
de notas físico para o diário, igualmente ao uso de tablet modelo iPad (Apple). A
minha rotina diária de observação das práticas laboratoriais iniciava sempre às 9h e
terminava por volta das 18h. Os pesquisadores tinham horários distintos para entrar
e sair porque dependiam de aulas na graduação, mestrado e aulas de inglês, por
isso, iam chegando em horários distintos. Neste sentido, o trabalho etnográfico
buscou capturar os padrões e variações das práticas com dados no nosso estudo de
caso e os processos envolvendo os personagens (coordenadores e equipe de
pesquisadores).
Já são quase 10h30 e o Coordenador 2 pede que fique à vontade e foi
atender um orientando de Mestrado em sua sala. Os alunos que iam chegando, se
dirigiam aos seus computadores. Um pesquisador me pergunta se a internet está
funcionando bem e se desejo imprimir algum documento. Informo que a internet está
ok, agradeço. Nesse momento, fora o Coordenador 2, há três pesquisadores no
recinto. A conversa entre a equipe se dá em torno de relatório que eles têm que
entregar, além de amenidades, como por exemplo, quando uma pesquisadora notou
que esqueceu seu carregador e logo, outro pesquisador se prontificou a emprestar o
dele. No final da manhã, o Coordenador 2 se reuniu com essa equipe em sua sala, a
portas fechadas, cerca de 30 minutos, para dialogar sobre ajustes na redação
científica do relatório. No período da manhã as atividades foram mais reduzidas
nesse primeiro dia.
No turno da tarde, o fluxo foi mais contínuo de integrantes e, gradativamente,
fui conhecendo aos poucos todos os envolvidos no laboratório. Na sala da
Modelagem tinham seis pesquisadores e na sala do Desenvolvimento, o
Programador e pesquisador 4, responsável pelas Visualizações de Dados, dentre
outras atividades. Um silêncio tomava conta do recinto e só se escutava as teclas do
168

computador. Todos com fones de ouvidos e conectados. O Coordenador 2 chega na


sala e todos debatem sobre o andamento de uns projetos do laboratório. Algo rápido
e volta para a sua sala. Enquanto sou apresentada a ele, a coordenadora avisa que
vai para uma reunião departamental, e como vai se estender à tarde toda, não
retornará mais. Os pesquisadores voltam a realizar suas respectivas pesquisas-
atividades. Eles conversam alguns assuntos mais amenos e descontraídos por uns
minutos e depois voltam para o trabalho e o silêncio se fez presente novamente.
Mesmo em diálogos presenciais, eles se mantiveram conectados via aplicativos de
mensagem, principalmente o Telegram102, cujo app é o mais utilizado por eles.
No decorrer chegam alguns pesquisadores: um mestrando em Comunicação,
o que está há mais tempo em atuação no laboratório (desde 2011) e atua no setor
de Modelagem, mais especificamente em coleta e análise dos dados, enquanto que
outro, também mestrando, atua na modelagem e análise de imagens. Ele me mostra
alguns exemplos de como realiza essa função, utilizando o software ImageJ103(que
realiza coleta de imagens) e que foi adaptado pela equipe do laboratório. Os
trabalhos seguiram na tarde normalmente até por volta das 18h.
Na segunda-feira, , pela manhã, cheguei ao Laboratório e estavam duas
pesquisadoras que discutiam questões de um projeto de pesquisa que envolvia
coleta de dados em redes sociais, mais especificamente, no Facebook.
Gradativamente, os outros iam chegando e, no final da manhã, estão sete
pesquisadores, entre os que se dividiam entre Modelagem e Desenvolvimento. O
diálogo geral girou em torno dos dados coletados nas redes sociais Facebook e
Twitter, e na demarcação das estratégias de gerenciamento e discutindo a melhor
forma de análise. Havia muitas dúvidas entre eles e se mostraram preocupados em
encontrar a melhor solução para esse impasse. Sobre a questão da coleta de dados
por meio de hashtag no Twitter e comments no Facebook aconteceu um debate e
um dos pesquisadores pede opinião de todos sobre a filtragem desses comentários
afirmando que não havia como fazer a filtragem com determinadas palavras-chave
porque estas estavam fora de contexto. Uma das pesquisadoras presentes explicou
102
Traduzido do inglês-O Telegram é um serviço de mensagens instantâneas e voz sobre IP baseado
em nuvem desenvolvido pela Telegram Messenger LLP, uma empresa privada registrada em
Londres, Reino Unido, fundada pelo empresário russo Pavel Durov e seu irmão Nikola (Fonte:
Telegaram web).
103
Baseado em Java, é um programa de domínio público que tem as funções de processar, editar,
exibir e analisar imagens. Foi lançado em 1997 e desenvolvido pela Universidade de Wisconsin, EUA.
169

que havia muitas hashtags únicas e assim não significam nada quando estão fora do
contexto. “Porque como eles disseram, a coleta correta facilita na hora da
modelagem enormemente”, afirmou104. Pensativos, todos voltaram ao trabalho e
seguiam um diálogo entre duas pesquisadoras sobre o assunto em questão e
refletiam se deveriam reduzir parte dos comentários e das hashtags e deixar aquelas
mais importantes.
Alguns integrantes não estão presentes fisicamente, mas paralelamente
estavam trabalhando de forma remota interagindo com a equipe pelo Telegram, a
exemplo do Progrmador 1. O ritmo de trabalho se intensificou quando houve alguns
acontecimentos de repercussão nacional que o Labic se engajou, como por
exemplo, na análise de redes sociais feita no momento da prisão do ex-presidente
Luiz Inácio Lula da Silva, fato ocorrido em 7 de abril de 2018, e outro da morte da
vereadora carioca Marielle Franco, ocorrido em 14 de março de 2018. Este último, o
trabalho se pautou em coletar publicações na rede social Twitter, o que totalizou
mais de 3 milhões de tweets. Além disso, foram analisadas cerca de 10 mil imagens
que circulavam no Twitter (Figura 26). Ambos os assuntos repercutiram
midiaticamente e em escala mundial e, nesse caso, houve muita demanda da
equipe, em que praticamente todos estavam envolvidos na atividade. O
Coordenador 2 Labic revelou que nestes acontecimentos, a equipe trabalhou
arduamente para capturar todos os dados do processamento das análises e saíram
da Universidade de madrugada.
No final da manhã, a coordenadora perguntou como está o andamento do
relatório que precisavam agilizar. Questionou também se o Programador 1 já havia
enviado os dados faltantes para inserir no relatório. Um pesquisador responde que
sim e poucos minutos depois, a mesma se aproxima da pesquisadora J.H que
estava responsável por essas análises e debateram a melhor forma de coletar os
dados para modular. Houve um debate sobre a análise que a pesquisadora vai
fazer, e a equipe expõe que é difícil mensurar hashtags únicas e seguiam um debate
no sentido de procurar uma solução para o impasse. O foco é fazer uma correlação
da agenda dos candidatos ao governo do estado do Espírito Santo com os top words

104
Diário de Campo, 8 de maio de 2018.
170

e top hashtags, mas a equipe justificou que só dá para fazer com o dos comentários
longos.

Figura 26- Visualização das imagens capturadas pelo LABIC

105
Fonte: captura de tela

O Coordenador 2 afirmou que cada relatório é único e que este deve manter a
linguagem clara e compreensível com dados mais ricos. Um debate ocorreu para
saber quais dados ficarão visíveis e outros não. A orientação foi baseada em
disponibilizar o relatório no Facebook em se tratando de uma agenda política
importante e provocou a equipe para facilitar a compreensão e os instigou a fazer da
melhor maneira possível e didática.

105
Disponível em: https://goo.gl/sSf3Kh acesso em: 5 nov. 2018.
171

Houve, contudo, um clima compreensível, ao menos para este determinado


trabalho, e tanto a equipe quanto o Coordenador 2 pareciam solucionar o ponto de
impasse que se iniciou pela manhã. Por volta das 14h35, o Coordenador 2 avisou
que iria participar de uma reunião em outro local e que retornava assim que acabar.
Todos continuaram em seus postos de trabalho. Por ser um Laboratório que
comporta cerca de 22 integrantes e fluxo intenso de atividades, não se mostrou um
ambiente barulhento e com muitas interrupções. Pelo contrário, houve muitos
períodos ao longo do dia em que o silêncio imperou no interior, onde percebi maior
nível de concentração.
Na manhã da quarta-feira, , cheguei ao Laboratório e estavam presentes: os
Coordenadores 2 e o Coordenador 4 e Coordenador 5. Esses dois últimos eu ainda
não havia conhecido até o presente momento. Estavam todos na sala dos
coordenadores em uma pequena reunião. Pouco tempo depois, sou apresentada ao
Coordenador 4 e 5, respectivamente. O Coordenador 5 explica a sua participação
no laboratório envolve a criação e gerenciamento de apps e software para coleta e
análises de dados, armazenamento e distribuição de mensagens nas redes sociais,
cujas etapas envolve alguns critérios.

A maior parte das produções está relacionada à captura dos dados das
redes sociais, armazenamento e exibição do conteúdo das redes sociais,
mas fazendo pré-processamento antes para auxiliar o usuário comum a
localizar as informações relevantes. Então tem que saber, por exemplo,
sobre quais são os assuntos que estão tendo mais destaque em
determinado interdeterminado intervalo de tempo, quais são as principais
imagens com pessoal da modelagem categorizar, no caso, os textos e as
imagens de tal forma que você sabe qual a classe e a categoria daquele
texto e onde se enquadra aquele texto, sobre qual assunto o texto está se
falando e aí facilita para se levantar estatística, como por exemplo, quais
são os temas mais relevantes naquele período de tempo.
(COORDENADOR 4, Entrevista concedida).

Como o trabalho de coleta de dados ocorre com frequência nas redes sociais,
mais especificamente Facebook e Twitter, eles sentiram a necessidade de criar um
software próprio para resolver tais demandas. Assim foi criado o programa Ford que
apresenta uma gama de funcionalidades, que além de fazer a coleta de dados,
também realiza análises, gera arquivos e que continua em atualização contínua de
acordo com as novas demandas.
172

O Ford é uma espécie de framework, engloba vários outros pequenos


algoritmos, que ele serve tanto para coletar dados como também serve para
analisar, principalmente textos. É possível analisar quais são os termos
mais frequentes que aparecem em cada um deles, quem são os usuários
que mais aparecem, gerar arquivos que depois vão ser usados em outras
ferramentas como o Gephi. A tendência é que a gente incorpore todos
esses no Ford que é para ficar uma única ferramenta. (COORDENADOR 4,
106
Entrevista concedida).

No Labic, os trabalhos com grandes volumes de dados (Big Data) passaram a


ser rotineiros desde seu momento de ascensão como laboratório de inovação, em
2013, momento das manifestações de junho em todo o Brasil, movimento que ficou
conhecido como o “Vem Pra Rua”, sobretudo, e o Labic começou a extrair dados
das redes sociais no intuito de cartografar esse momento político social no país. O
trabalho no Labic foi massivo com grandes volumes de dados sobre o caso.
“Principalmente com o Twitter, depois com o Facebook também, mas nós fomos a
vanguarda, pelo menos aqui no Brasil, fomos um dos pioneiros a trabalhar com Big
107
Data em redes sociais”. O Coordenador 4 enfatizou que talvez esse seja o
grande diferencial do Laboratório, de conseguir gerenciar, manusear, extrair,
visualizar grandes quantidade de dados e que essa cultura do Big Data já está
amalgamada na realidade da sociedade como um todo. Questionado sobre os
projetos futuros, ele respondeu que alguns estão diretamente ligados à análise de
sentimentos e fake news108 (notícias falsas), como também à realização de análises
das imagens com os textos com o intuito de identificar o sentido dessa junção e ver
qual a emoção está associada aquela imagem que é postada “por exemplo, postar
imagem de uma pessoa sofrendo um ataque ou em um acidente, e averiguar essa
emoção através delas. Então esse é um dos projetos que estamos tentando
desenvolver ainda esse ano [2018]”109 .
Sobre a existência de um modelo de gestão de dados para o tratamento e
armazenamento dos dados coletados, o mesmo ressaltou que após a coleta, os
dados vão para a modelagem, que é um refinamento desses dados para depois
serem analisados, visualizados, e trabalhados em qualquer formato. Depois, vem a
106
Entrevista Concedida em 9 de maio de 2018.
107
Entrevista concedida em 9 de maio de 2018.
108
Na eleição de 2018 para presidente da República as fake news dominaram as campanhas
eleitorais com a disseminação em massa por meio do aplicativo de mensagem do WhatsApp
109
Entrevista Concedida, 9 de maio de 2018.
173

categorização desses dados, o que facilita na hora de recuperar. Assim que a


categorização acaba, esses dados ficam armazenados em bancos de dados em
nuvens como o Dropbox, outros não estão nas nuvens, mas no servidor próprio e
em HD externo com grande capacidade de armazenamento. E ficam todos os dados
brutos organizados, separados pela categorização, palavras-chave, data da
postagem, autor, local, algumas vezes com geolocalização. “A gente fez um trabalho
sobre o Zika [vírus] ao longo do mundo, então a gente tinha um mapeamento de
como é que as pessoas estavam falando sobre isso no mundo, então usados a
geolocalização do Twitter”110.
Em determinado momento questionei quais os maiores desafios ao lidar com
grandes quantidades de dados, e ele lamentou a mudança na Política de
privacidade do Facebook e Instagram, o que para eles foi uma perda inestimável
pois tiveram que retirar do projeto que estava em andamento. Outra questão recai
sobre os custos porque “não é barato manter um sistema coletando informações 24
horas por dia, mantém o sistema em pé”111.
No final da entrevista às 11h27, o Coordenador 1 chegou ao Laboratório e
começou a resolver pendências com os outros coordenadores, todos reunidos na
sala específica. Falou comigo, deu boas-vindas e voltou a se reunir para questões
internas com os outros coordenadores. Neste intervalo, chegou uma orientanda de
Mestrado do mesmo que o esperava na sala de Desenvolvimento, cuja bancada é a
maior do ambiente. Após a reunião com os outros coordenadores, sou convidada
por ele a acompanhar a orientação. Neste ínterim, ele orientou sobre as notificações
nos comentários e isso implicou num tipo de movimento que merece ser observado.
Sugeriu para a orientanda a fazer um banco de dados de palavras-chave que
expressaram emoções: “Que tipo de emoção gerou nessa página?”112, questionou à
mestranda. Pediu para quantificar os comentários e fazer cruzamento de dados e
para extrair que tipo de linguagem produz mais emoções. Dialogaram sobre prazos
a serem cumpridos e avisou que “a parte empírica é o DNA da pesquisa”113, e que
esta, pode desaguar no projeto de Doutorado. Ele fez um alerta para o tempo da
110
Entrevista Concedida, 9 de maio de 2018.
111
Entrevista Concedida, 9 de maio de 2018.
112
Diário de Campo, 9 de maio de 2018.
113
Diário de Campo, 9 de maio de 2018.
174

coleta e processamento dos dados para a defesa, uma vez que ele estava se
preparando para o pós-doutorado em outro país. A orientação foi além das 12h
quando chegou outro orientando de Mestrado e se junta à mesa. Nesta observação
empírica envolvendo as orientações de mestrandos vinculados ao laboratório e aos
professores percebemos o quanto o trabalho com Big Data é utilizado como
essência das dissertações demandando do laboratório, de modo que há um
ecossistema de dados nos trabalhos em torno do laboratório.
O Coordenador 1 finalizou a orientação com a mestranda e sugeriu que a
aluna recrutasse algum pesquisador do Laboratório para ajudar na coleta de dados
da dissertação. Disse para ela executar um planejamento da pesquisa a fim de
otimizar essa atividade. Despediu-se da aluna e conversa agora com o outro
orientando e debateram sobre as leituras, o andamento da pesquisa pós-
qualificação. Ele sugeriu que o orientando também montasse um banco de dados
para agilizar e facilitar a análise dos dados da dissertação. Depois, ele ainda
resolveu questões burocráticas com a coordenadora de Projetos e avisou que só
retorna no outro dia. Após essa reunião, chequei com ele qual o melhor dia para a
realização da entrevista, que ficou marcada para o dia seguinte, no final da manhã.
Nesses primeiros dias, percebi que alguns membros ficaram incomodados
com minha presença como pesquisadora no ambiente, uma vez que estava sempre
observando e anotando no diário de campo. Alguns chegaram a dizer assim: “Ah,
vou falar mesmo assim”114 . E seguiam nos diálogos internos. Mas, com o passar dos
dias, notei um clima mais cordial e eles não se importaram e compreendiam o
trabalho de pesquisa ali realizado.
O Coordenador 2 estava na sala juntamente com a coordenadora de
Modelagem. De acordo com a observação nos primeiros dias, há turnos de muita
efervescência e outra menos, manhã, mais tranquila, e tardes, mais intensas. Pode-
se afirmar que o Labic é um espaço multidisciplinar (pelo perfil polivalente da
equipe), multifuncional (salas demarcadas porém híbridas), fluido (pelas chegadas e
partidas da equipe) e com grande visibilidade acadêmica e de mercado. Às 17h20,
realizei uma entrevista o Programador 4 pela criação das visualizações de dados.
Graduando no Curso de Jornalismo da UFES, ele fez o curso em Ciência da

114
Diário de Campo, 9 de maio de 2018.
175

Computação e Matemática, ambas na mesma Instituição, além de ser técnico em


Informática. Além de criar as visualizações de dados no Laboratório, ele também
realiza análise de perfis de usuários em redes sociais e basicamente
desenvolvimento do Laboratório, desde a parte de servidores e categorização.
Enquanto realizo a entrevista, ficou impossível anotar quantos membros haviam
chegado e quais outros haviam saído, e se voltaria ou não e seus respectivos nomes
e hora de chegada e partida. Segui na entrevista.
Em relação aos processos de inovação do laboratório e se eles têm apps
próprios ou adaptam, o mesmo respondeu que cada projeto de visualização requer
um recurso diferente. Por exemplo, eles usam com uma certa frequência o Gephi [
software livre de Visualização de Dados e redes] e D3 [espécie de biblioteca de
Visualização de Dados]. Esses dois foram adaptados por eles, já que mexeram nos
códigos para moldar as produções. No que se refere às experiências e os maiores
desafios ele afirma que é realizar escolhas.

O Maior desafio posso dizer que estão nas escolhas que você tem que fazer
todas às vezes que você vai construir uma visualização, uma ferramenta. O
ideal era sentar e conseguir montar a visualização perfeita, que funciona
para todos os dados e que seja linda e maravilhosa. E aí o desafio é quando
você bate de frente e ver que isso não é possível ou não existe, né?! E aí
você tem que adequar e fazer concessões para poder mostrar os dados
bem ou contrário, entende? Eu acho que o desafio é esse tentar fazer
concessões. (PROGRAMADOR 4, entrevista concedida).

Quando perguntado sobre a fonte de inspiração ou quais fontes para a


construção de visualizações de dados, ele afirmou ser uma questão de difícil
resposta porque cada projeto requer um tipo de formato específico, e que
geralmente, a inspiração “vai surgindo de o que é que ainda não foi feito, não no
sentido geral, mas o que não foi feito com esses dados ainda”115. De um modo geral,
segundo ele, estes formatos estão sendo sempre testados por ele para tentar refinar
e ficar de acordo com o propósito de cada projeto, de acordo com a demanda. Já
era início da noite quando finalizei a entrevista e já se percebia um esvaziamento de
membros.

115
Entrevista Concedida, 9 de maio de 2018.
176

A dinâmica do fluxo de trabalho do laboratório caminhou em um ritmo


tranquilo nestes dias de observação, apesar do fluxo intenso de trabalho no turno da
tarde. Na quinta pela manhã por volta das 9h30, encontrei com a pesquisadora V.H,
mestranda em Comunicação e Territorialidades na UFES, e com o Coordenador 2 e
seguimos em direção ao Laboratório. Há cinco pesquisadores que estão se
acomodando no ambiente. Antes de começar os trabalhos, todos se reuniram para
um café coletivo. Momento de conversa, de descontração, de uma grande reunião
informal antes de iniciar as atividades. Nesse intervalo, sou convidada a sentar-se à
mesa com o grupo e o diálogo, em uma parte, girou em torno de como estava minha
estadia, se estava gostando da cidade sobre questões urbanas e culturais. Em
seguida, o Coordenador 5, que também estava presente, me perguntou se a
entrevista pode ser após o café pois pela tarde, não estará no Laboratório.
Após o café, todos seguiram para suas atividades e realizei a entrevista na
sala de Desenvolvimento que dura em torno de 27 minutos. Nesse intervalo, chegou
o Programador 3, que faz parte da equipe de Desenvolvimento, a estudante de
Engenharia Elétrica. Nesse momento, como havia muitos pesquisadores nas duas
salas, o Coordenador 5, em alguns momentos, solicitou que eles conversassem
mais baixo pois estava interferindo na entrevista e a mesma estava com dificuldades
de prosseguir. O mesmo relata que viu o Labic nascer, que estava presente no
momento de fundação, das primeiras ideias e que tinha acabado de se formar em
Ciências Sociais pela UFES quando assumiu a Coordenação de pesquisas do
Laboratório. Mas em 2010, saiu para o mercado de trabalho: “Na verdade eu sempre
tive essa relação de Universidade e mercado mesmo estando vinculado no Labic, eu
tinha trabalhos fora. E em 2014 eu retornei ao laboratório e já era outro cenário”116 .
O cenário que a mesma relatou já era bem diferente do início, com novos arranjos,
ideias e práticas novas.

O Labic passa ao longo desses 11 anos de existência por algumas fases. No


primeiro momento trabalhava com cibercultura e muito essa relação com
usuário, essa cultura de reuso de internet. Depois, quando eu cheguei, já era
essa pegada dos aplicativos, de Ciência de Dados, tudo muito novo, recente
para todo mundo. Em 2013 é que se começam a fazer esse tipo de estudo e
retornei começo de 2014. Antes, utilizávamos os outros programas como JP
Keep e depois em 2013 já vem a perspectiva de criar os próprios aplicativos a

116
Entrevista Concedida, 10 de maio de 2018.
177

exemplo do Ford. Então participei desde o começo do processo de criação de


construção dos aplicativos, que é, digamos assim, o coração do laboratório.
(COORDENADOR 5, entrevista concedida)

Com o novo cenário posto e novas demandas do laboratório, a coordenadora


revelou os detalhes do processo de Modelagem com o uso dos novos apps. Como
se trabalha com criação de códigos e adaptação de outros já existentes, antes usava
o Top Keep, que era o software para coleta de dados e outras funções. Com a
criação do Ford o que conferiu uma nova dinâmica às produções frente aos grandes
volumes de dados. “A equipe da modelagem que fica mais concentrada na
semântica dos textos, dos termos. Então, a gente fica meio que assim: como eu
consigo interpretar o Big Data? Então acho que tá mais nesta divisão e funciona
bem essa parceria da Modelagem com a equipe de Desenvolvimento”117. A mesma
revelou que o processo de Modelagem passa por essas etapas: 1) Coleta de dados
(aqui é feita uma pré-modelagem dos termos); 2) Identificar as categorias e
subcategorias dos termos; 3) Classificação (entender qual termo ou quais termos
estão vinculados à postagem) e 4) Direção de Estatística (realizar as estatísticas dos
termos).

A modelagem ela gera esse tipo de refino, de monitoramento. Então às


vezes, por exemplo, as palavras ambíguas aparecem e não tem nada a ver
dentro da área de português. Então você tem que criar ao invés de palavras
que atraem posts para aquela, você tem que criar palavras que expulsem os
posts daquelas seções. São os Stop Words, que a gente chama você tem
que parar essa palavra antes de usar. Então tem toda uma lógica, milhões
de códigos. Por exemplo, o termo "unidade de saúde da família" ela é por si
só relacionada a acesso básico à saúde, e tanto quando está associada a
palavra "reforma", está associada à melhoria de infraestrutura na Saúde.
(COORDENADOR 5, entrevista concedida).

No que se refere ao processo de modelagem ocuparia frente aos grandes


volumes de dados, a mesma ressaltou a importância dos dados nesse contexto e
que ele, o dado, serve como um guia nessas produções. “Eu acho que a gente
trabalha muito nessa perspectiva de que o dado fala e a gente cria categorias rígidas

117
Entrevista Concedida, 10 de maio de 2018.
178

para entendimento. A gente busca as coisas nos dados. Eu acho que eles nos falam
‘a gente pode até depois fazer isso’” 118.
Após a entrevista com o Coordenador 5, por volta das 11h40, falei com o
Programador 3, da equipe de Desenvolvimento e o mesmo pediu que a entrevista
seja feita naquele momento, uma vez que não retornaria mais ao Laboratório devido
às atividades da graduação em Engenharia Elétrica, pela UFES. A entrevista seguiu,
inicialmente, explicando sua função e mostrou exemplos de trabalhos que eles
desenvolvem. Nesse momento, sou avisada por um dos pesquisadores que o
Coordenador 3 e o Programador 1 estarão presentes no Labic pela tarde,
oportunidade para realizar as entrevistas. Seguiu a entrevista o Programador 3 com
a demonstração na parte de layout do site, do design, explicando como o site se
torne navegável através dos códigos de programação. Esse processo é chamado de
Back end, que é um trabalho mais voltado para o dado bruto que pode ser tratável.
“Então o Back end faz tudo isso, a coleta, o tratamento do dado, a classificação,
melhorar armazenamento para poder ser utilizado pelo Front-end”. Dentre os
principais trabalhos desenvolvidos, ela destaca o Hash (Figura 27), construída em
2015, que é uma plataforma de acesso à informação que tem as funções de filtrar e
fazer a divulgação de informações feitas pelos cidadãos sobre o Enem - Exame
Nacional do Ensino Médio para o INEP (Instituto Nacional de Estudos e Pesquisas
Educacionais Anísio Teixeira) do Ministério da Educação através das redes sociais
como Facebook, Twitter e Instagram.
O objetivo foi averiguar e acompanhar como a mídia e o público lidaram com
as informações sobre o Enem, por isso, o Labic foi solicitado para a realização
dessas pesquisas. O Twitter foi a primeira rede social utilizada para a coleta de
dados de todas informações através de hashtags com o intuito de acompanhar as
contas oficiais dos grandes jornais e usuários mais populares, com a finalidade de
descobrir quem eram as grandes influências nas redes. “Organizada em uma
interface, onde você tem toda a classificação do tipo o que é mais recente o que é
que é mais popular, os usuários mais populares, os links que foram compartilhados
em relação a este conteúdo, as imagens relacionadas a esse conteúdo”.
(PROGRAMADOR 3, entrevista concedida).

118
Entrevista Concedida, 10 de maio de 2018.
179

Nessa plataforma foram disponibilizadas muitas formas de visualizar a


informação, como por exemplo, nuvem de hashtags, onde foi mostrado o que é mais
popular, em que é possível também classificar a informação coletada através da
mídia, como também, classificar o que o INEP distribui informações nas redes
sociais que eles utilizam. “Há também gráficos de tempo, porque nem sempre uma
informação é boa se ela tiver um tempo grande. Você pode achar que ela é
relevante mas ela teve dois dias em comparação a outra informação, então não quer
dizer que ela seja tão atual” (PROGRAMADOR 3, entrevista concedida).

Figura 27 - Interface gráfica do Hash

Fonte: Labic (captura de tela)

Ainda sobre a dinâmica do Hash, ela explica que a maior seção é onde
ficaram os posts coletados do Facebook. No menu superior desta seção, temos a
seleção entre conteúdo mais recente e conteúdo mais popular (maior número de
curtidas). Tem um botão de refresh para atualização da seção sem necessidade de
atualizar a página toda. Os posts procuraram seguir o layout original do Facebook
em uma versão clássica (ícones mais simplistas), que contém as quantidades de
curtidas, respostas e compartilhamentos, além de redirecionarem ao post original no
Facebook quando clicados. Todas essas informações são atualizadas a cada meia
hora “porque a coleta de informação em tempo real exige um processamento muito
alto, por isso que foi feito uma coleta de meia em meia hora, já que não vai lidar com
180

uma quantidade gigantesca, mas ainda sim em grande quantidade de dados”.


(PROGRAMADOR 3, entrevista concedida).
A experiência de trabalhar com grandes volumes de dados trouxe mais
experiência cujos maiores desafios na sua experiência frente ao Labic foram a
profissionalização das atividades que a mesma desenvolve no âmbito do laboratório,
com a criação de ferramentas/software próprias, a relação com o mercado de
trabalho, com mais responsabilidades e prazos a cumprir. A entrevista finalizou
pouco mais do meio dia e nesse intervalo, como já estou por dentro da dinâmica de
funcionamento, finalizo, em minhas anotações, os últimos pesquisadores que serão
entrevistados para esse estudo.
No turno da tarde sou apresentada ao Coordenador 3, oportunidade em que
conservamos informalmente e o mesmo me informou que voltará às 15h, horário em
que a entrevista foi realizada, pois estaria na aula de inglês. Logo em seguida, às
13h37, o Programador 1 chegou ao Laboratório e somos apresentados. Devido ao
horário e pelo fato de ter aula no mestrado às 14h, combinamos da entrevista ser
realizada no dia seguinte, dia em que estará menos ocupado. E segue para sua aula
de Mestrado. Sigo nas anotações. Nesse momento, havia muitos pesquisadores no
ambiente, que chegam e saem a todo momento e o ritmo de trabalho aumentou. Às
15h12 o coordenador-fundador chegou ao laboratório. Cumprimentou todos e foi
para sua sala, em que estavam lá a coordenadora de Projetos e outra pesquisadora
e discutiram sobre as demandas do laboratório. Às 15h22, pela porta de vidro que
dá acesso à sala de modelagem onde eu estava, o Coordenador 1 me chamou para
a realização da entrevista. Conversamos novamente e realizei então a entrevista
com o mesmo na cozinha do Labic porque é o ambiente em que não há tanta
interferência de som e nem barulho ou alguma demanda aparecendo para resolver.
A entrevista durou cerca de 40 minutos e fluiu conforme o roteiro
semiestruturado. Iniciei questionando sobre o perfil da equipe e ele ressaltou a
questão da multidisciplinaridade na composição dos membros, sendo que,
originalmente, começou com a área de Comunicação - Jornalismo. Com o passar
dos anos e pelas especificidades do Laboratório, profissionais de outras áreas,
como Design, Engenharia Elétrica, Serviço Social, Ciências Sociais, Artes foram
agregados e o laboratório, a partir dessas mudanças estruturou em torno da
abordagem da Ciência de Dados.
181

Além da equipe multidisciplinar na composição dos Recursos Humanos, o


Laboratório recebe financiamentos de agência de fomento, como a CAPES, por
exemplo, cujo financiamento durou entre 2012 a 2016, ocasião em que houve a
integração de novos projetos. Outro tipo de financiamento vem de parceria
institucionais, como o Ministério da Educação, e outros ocasionais com a Fiocruz e
UNICEF, como também, atendimento às solicitações de projetos de professores que
precisam de dados para suas pesquisas. No entanto, em 2017, o coordenador
relatou que, com a Lei da Inovação, iniciou a abertura do Laboratório para atender
às demandas das empresas e que estas participem de uma espécie de PPP -
Parceria Público-Privada junto à Universidade, com o uso das tecnologias do
Labic, “fazendo com que o recurso que forem contratar, fique uma parte grande da
Universidade, uma outra parte no laboratório. Essa é uma realidade do que está em
processo a construção mesmo de trabalhos específicos para o setor produtivo”.
(COORDENADOR 1, entrevista concedida).
Outro aspecto de destaque no Laboratório são as construções de grafos e
visualizações de dados, produções que são feitas com frequência em suas
atividades. Grande parte dessa produção é focada em análises políticas e de opinião
(coletada via redes sociais), cujo aperfeiçoamento se deu através de um curso com
um especialista espanhol que foi convidado pelo Laboratório, cerca de dois anos
antes. A entrada do Programador 4, responsável por essas construções também
conferiu mais profissionalismo e dinamismo. “É um laboratório que tem trabalho com
visualização e tem trabalho com visibilidades, acho que são coisas diferentes, mas
que se complementam”. (COORDENADOR 1, entrevista concedida).
No final da entrevista, o ambiente estava mais tranquilo de todos os outros
dias. De acordo como constatado anteriormente, a rotina não se faz presente. A
rotinização depende muito de cada atividade que cada membro está desenvolvendo
no momento, e isso não necessariamente envolve todos os componentes, pelo
contrário. Às 16h15 esperei então o Coordenador 3, finalizar as demandas do
Laboratório para a realização da entrevista, que durou cerca de 30 minutos e
aconteceu nos puffs que estão colocados em frente ao Laboratório, onde tenta
captar menos barulho externo. Perguntei sobre o impacto das imagens na era do Big
Data, o mesmo afirmou se tratar de uma nova forma de usar a imagem e que o Big
Data seria uma consequência desse movimento, tendo em vista a digitalização de
todos os processos, pois a migração para o digital “permite inserir sons,
182

movimentos, você tem outro modo de trabalhar com essas imagens. E o Big Data
nos permite criar conexões entre essas imagens que a gente não tinha com o
analógico”.
Ele contou que quando chegou ao laboratório, em meados de 2013, pouco
depois de concluir o Doutorado, em que, ao final, tinha um acervo robusto de
imagens, pensou em digitalizar essas imagens em princípio. Depois, utilizou um
software que o pesquisador Lev Manovich disponibiliza, o ImageJ, que realiza o
processamento de imagens, edição, om visualização de imagens foi o resultado
dessa coleta dos memes durante a análise, além da comparação entre elas.

Ele [o software] decupa a imagem e digitaliza informações, pega os


metadados dessa imagem para fazer isso, que permite depois ordenar
numa estrutura cartesiana que tem o eixo X e Y e ordena essas
informações. Então a gente passou a desenvolver software, aperfeiçoamos
alguns software que estavam disponíveis gratuitamente e de maneira
aberta. E a partir desses passos começamos a desenvolver o Image J e as
visualizações com grandes volumes de dados, inclusive com 200 mil
imagens sem tantas dificuldades. Claro que tem limitações técnicas, mas
coleta de imagem e conjunto de dados de um milhão, 2 milhões e 5 milhões
119
de tweets. (COORDENADOR 3, Entrevista concedida).

Um dos exemplos desse trabalho c Copa do Mundo de 2018, ocorrido na


Rússia, mais especificamente, após a partida entre Japão e Senegal. Após o jogo,
observou-se uma grande quantidade de memes que circulou na web. No total da
coleta e análise, foram submetidos a análise mais de 73 mil tweets e retweets, e as
tags mais usadas foram #ger, #copa2018, #jpn, #swe, #worldcup e os usuários
mais compartilhados foram @doentespfutebol, @erick_campos, @anapaulavolei,
@orlandinipy e @insjt. A visualização de imagens (28) produzidas por eles sobre
esse evento mostrou a frequência com que esses memes foram divulgados na web
distribuídos por hora em linha do tempo. De modo similar, foram analisadas, durante
o amistoso entre entre Brasil e Croácia, no amistoso, dias antes da Copa do Mundo
começar, o Laboratório analisou as imagens de Neymar. No total, foram coletadas
mais de 11 mil imagens a partir de 156 mil tweets e retweets. (Figura 29).

119
Entrevista concedida em 10 maio de 2018.
183

Figura 28 - Coleta de imagens na Copa e linha do tempo

Fonte: captura de tela

Figura 29 - Visualização de Dados das imagens coletadas no software do Labic

Fonte: captura de tela


184

Nessa direção, e em tempos de grandes volumes de dados e processos de


inovação dessas práticas, a processualidade das imagens coletadas em redes
sociais, neste caso, trouxe novos horizontes de interpretação do mundo e camadas
de conhecimento. Apesar de realização de coleta de um número volumoso de
imagens nas redes sociais, o Laboratório também utiliza as imagens das próprias
bases de dados “[...] o Big Data impacta e permite que se construa novas leituras
para construir as imagem que a gente fabrica, sejam aquelas que estão circulando
na rede, sejam nossos próprios arquivos digitais”. E que, o fator que está nos
bastidores desses grandes volumes de imagens, seria “um caminho, às vezes, para
enxergar nossa própria história, nossa própria realidade”.
Ao final desse dia de observação no laboratório houve muitos dados
relevantes e novos insights para a construção da tese. Volto para as anotações e o
Coordenador 2 deixou o Laboratório e foi realizar uma prova de inglês.
Pesquisadores ainda em seus postos estavam trabalhando em suas atividades. Às
18h ainda havia no ambiente cerca de uns 5 pesquisadores, que, gradativamente,
iam deixando o local. Enquanto isso, os Coordenador 1 e 3 continuavam na sala dos
coordenadores dialogando, agora, sobre questões extra-laboratório, justificando que
quase não se encontram devido à agenda cheia de ambos.
Na manhã da sexta-feira encontrei as portas fechadas. Aguardei alguém
chegar enquanto lia as notícias do dia e fazia a última checagem no meu diário de
campo. Às 9h25 começaram a chegar os pesquisadores V.H, que faz parte da
equipe de Modelagem. Depois, chegou uma pesquisadora da equipe de
desenvolvimento e começaram um diálogo sobre questões não relacionadas ao
laboratório. Uma das pesquisadoras disse em voz alta: “Gente, hoje é sexta-feira,
amém! Que semana longa!”. Riem e mostram-se aliviadas, com breves suspiros.
Outro pesquisador chegou às 10h33 e se juntou à equipe. Todos estavam na sala de
modelagem, que é a equipe com maior quantidade de membros. Dialogaram sobre a
política local e sobre as posições políticas diversas em seus respectivos núcleos
familiares. Falaram sobre as tensões e "tretas" nos grupos, deram risadas ao
mesmo tempo em que se enfureceram com determinadas posturas, principalmente,
aquelas destinadas às posições contrárias às suas ideologias políticas quando não
respeitam seus posicionamentos. Todos expuseram suas ideologias e casos em que
houve, na visão deles, falta de respeito. Outra pesquisadora afirmou que chegou a
sair do grupo da família do WhatsApp por divergências políticas, e depois teve que
185

entrar novamente para convidar os familiares para sua formatura de graduação,


situação em que revelou um certo incômodo à mesma. A manhã seguiu-se assim,
sem muito fluxo, talvez pelo fato de ser uma sexta-feira.
No turno da tarde, houve uma movimentação um pouco mais intensa do que
no período da manhã. Havia quatro pesquisadores no recinto conversando
amenidades pós-almoço. Vou pegar água quando o Programador 1 me avisou que
vai resolver uma questão interna e logo após, me concedia a entrevista. Os
pesquisadores voltaram às suas atividades rotineiras. Embora tenham
computadores, alguns também levaram seus notebooks, talvez pelo fato de estarem
mais acostumados com suas máquinas. Não havia regras nem proibição para isso.
Por volta das 14h30, o programador me informou que estaria livre para fazer a
entrevista, que aconteceu na sala do Desenvolvimento.
Nesse intervalo, o Coordenador 2 chegou, cumprimentou todos e seguiu
para sua sala. A entrevista prosseguiu, conforme marcado, mas ele não me pareceu
muito à vontade, pois não foi confortável estar “do outro lado”, já que também é
jornalista. Aparentou certo desconforto, esquecendo-se de algumas perguntas, mas
continuamos. Percebi que o mesmo vai ficando mais à vontade a medida que ia
respondendo. Formado em Jornalismo pela UFES e aluno especial do Mestrado em
Comunicação e Territorialidades, ele contou que atua no Laboratório desde 2014. As
atividades desenvolvidas por ele recaem sobre Pesquisa de análise, visualizações
de dados incluindo o formular grafos, fazer análise de uma rede específica, de
alguma controvérsia ou atividades em relação à programação.
A produção das visualizações de dados, mais especificamente, dos grafos
ocorre com alguns critérios: coleta dos dados no dataset e transporta esses dados
para a estrutura visual, no caso, o grafo. A visualização de grafos em si é feita na
maior parte do tempo no software Gephi. Esse processo depende da rede social
para análise. “Às vezes a gente quer analisar as conexões entre os usuários que
têm muitas publicações. Usamos certos algoritmos. Depende do que a gente quer
ver na hora”. Para essa construção, depende muito do volume dos dados. Se for um
conjunto pequeno, demora menos tempo, se for maior, demanda mais tempo. Ele
explicou que esse fato acontece porque há uma variação das capacidades dos
computadores, enquanto me mostra alguns arquivos no seu computador.
Logo após, às 15h10, ele me mostrou como fazer os grafos, desde a coleta
até a finalização. Nessa parte, me pareceu mais à vontade e com muita
186

desenvoltura no que está fazendo, já que ele domina. Na sala dos desenvolvedores,
havia além do programador e eu, há outros três pesquisadores cada um em sua
atividade. A entrevista foi interrompida, algumas vezes, em razão de, como o
programador trabalha remotamente, o mesmo pouco aparece no Laboratório. Por
isso, havia muitas dúvidas sobre o desempenho das atividades, uma vez também
que o mesmo transita entre Desenvolvedor de software e atua também na equipe de
Modelagem.
O último dia da observação etnográfica ocorreu no dia 14 de maio, numa
segunda-feira. Reservei esses dias para a realização das últimas entrevistas
faltantes. Cheguei às 9h no Labic, mas nenhum integrante estava no momento. Fui à
biblioteca setorial. Enquanto os integrantes não chegavam, fui repassando o roteiro
das últimas entrevistas, bem como repassando as minhas anotações ao longo
desses dias. Às 10h, o Laboratório foi aberto por uma pesquisadora. No recinto,
poucos alunos (total de três) que estavam presentes e um silêncio no Laboratório,
nenhuma conversa, a maioria trouxe seus notebooks. Às 11h fiz a entrevista com o
Programador 2 concluinte do curso de Engenharia Elétrica da UFES que integra a
equipe dos Desenvolvedores. A entrevista aconteceu na sala de Modelagem, tendo
em vista o fluxo menor da chegada dos pesquisadores.
Na entrevista, ele explicou, dentre outras questões, o funcionamento e
criação do Ford, que é um software desenvolvido pelo Labic, tanto para a coleta
quanto para a Visualização de Dados e que também consegue “analisar texto, fazer
o grupo de palavras, faz visualizações, grafos, nuvens de hashtags, quais são as
palavras mais recorrentes no dataset, elimina os duplicados [imagens ou textos na
coleta]. Enfim, é bem completo para as nossas atividades”. Ele ressaltou que esse
software está em constante atualização justamente para tentar atender todas as
demandas do laboratório. Questionado sobre quais programas e ferramentas que
são utilizados, o programador respondeu que usa, além do Ford, um outro, o
Framework, que se trata de uma ferramenta para auxiliar o trabalho com dados. “A
gente usa o Framework para comunicação com os dados, de requisição do front-end
e a gente usa nossos próprios algoritmos para fazer categorização textual, para
receber as requisições, categorização e análise textual”.
No turno da tarde, o Coordenador 2 se reuniu com a equipe composta por 4
pesquisadores para acompanhar no relatório sobre as eleições do Governo do
Estado e possivel app que vai ser desenvolvido em 2018, sendo hoje o último,
187

envolvendo coleta nas redes sociais Twitter e Facebook. O ambiente estava


tranquilo, com picos de diálogos em alguns momentos no que se refere ao relatório.
Dois pesquisadores chegaram e foram para a sala de modelagem. Após essa
orientação, realizei a entrevista com o mesmo, que ocorreu na sala da Modelagem.
Formada em Serviço Social e Doutora em Política Social, ambos pela UFES, o
Coordenador 2 disse entrou no Laboratório em meados de 2014 para, nesse
primeiro início, gerenciamento da parte financeira além de trâmites contratuais e de
convênios, que são estabelecidos em parceria com a Universidade. Em 2015 e
2016, assumiu a gerência de projetos, coordenação e supervisão dos projetos. Após
a conclusão do Doutorado, em 2017, passou a gerenciar também a equipe de
Modelagem, que se dedica à pesquisa sobre os termos, categorias e subcategorias,
orientação da equipe na redação científica dos relatórios finais. Sobre as formas de
financiamento dos projetos,

As formas de financiamento ela sempre se dá por maiorira de modo


centralizado. São convênios estabelecidos junto com a Universidade,
e dentro desses convênios, o repasse de recursos é feito via bolsas
de pesquisa. Então, na realidade que nós temos são projetos de
pesquisa onde a gente desenvolve nossas pesquisas, apliações,
elaboração de relatórios, de análises, que vão conjugar nesses
resultados. Então hoje tem sido isso. (COORDENADOR 2, Entrevista
concedida).

O Coordenador 2 ressaltou que como o Laboratório está fundamentado no


campo da política, há um projeto em desenvolvimento chamado de Observatório das
Políticas, onde as ferramentas estão sendo aprimoradas para que esse processo de
coleta, filtragem, mineração e visualização se tornem mais assertivo. Existem
também outros projetos voltados para a área de saúde como também dos
movimentos sociais. “Há relatórios de análises conjunturais da política, de como eles
estão se dando nas redes sociais. Estamos elaborando uma análise mais
qualificada da conjuntura atual”. A experiência de anos trouxe algumas reflexões
sobre a forma como se faz pesquisas científicas nas Universidades. Para ela, o
Labic é um laboratório de “fazer ciência, de fazer pesquisa, de desenvolvimento
acadêmico”, bem como um ambiente de socialização e intercâmbio de
conhecimento.
188

O Labic é o lugar aonde que eu posso desenvolver e produzir conhecimento,


onde eu posso pesquisar conhecimento e está sempre nessa dialética de
conhecimento, adquirir, produzir, adquirir, produzir, superar alguns
elementos, acrescentar outros. Então, para mim, eu vejo laboratório como
esse lugar, que ao mesmo tempo lugar de socializar o conhecimento, ao
mesmo tempo é o lugar de intercambiar esse conhecimento e a socialização
acaba não sendo só de conhecimento, mas de pessoas por quê como a
gente reúne, são equipes que vem, que passam, que permanecem, que
voltam. Então é o espaço também de socialização de pessoas. É o lugar
onde a gente se socializa, a gente almoça juntos, não almoça, briga, faz as
pazes, faz festa e etc. Então, é o lugar disso tudo, é o lugar de convivência
com vários objetivo” (COORDENADOR 2, Entrevista concedida).

As implicações do fenômeno dos dados na sociedade atual é algo que não se


pode ignorar, segundo a mesma, sobretudo, aos dados que são
veiculados/divulgados nas redes sociais. Além do campo da política, que a área
principal de atuação das pesquisas, para projetos futuros a serem desenvolvidos, há
uma aposta de explorar a área de info epidemiology, onde se pretende unir os
estudos de Ciência de Dados relacionados com a saúde. “Então o meu projeto
dentro do Labic é fazer com que essa análise de rede, torne representativo no
campo da saúde”.

O que aparece nas redes sociais nada mais é do que a expressão do


cotidiano das pessoas que estão vivendo no conjunto da sociedade. Então,
eu acho que analisar as redes sociais é ter uma visão de mundo de parte
dessa sociedade, desses integrantes. São pessoas que, algumas delas vão
influenciar nessas redes e vão se tornar pessoas as quais as outras vão
querer seguir, compartilhar, se identificam das mesmas ideias, as mesmas
formas de pensar dentro da sociedade. Então, não tem como negar neh?
Penso que essa é a grande importância hoje estudando esse fenômeno do
big data e como isso se manifesta nas redes sociais” (COORDENADOR 2,
Entrevista concedida).

Já se passa das 18h e finalizada a entrevista, retomei às minhas anotações


do último dia. Alguns pesquisadores ainda estavam no ambiente dando continuidade
às atividades internas. Gradativamente, fui me despedindo e agradecendo aos
pesquisadores presentes a acolhida desses dias de observação, enquanto outros,
que não estavam nesse dia, já haviam me despedido anteriormente. Não foi
possível constatar o resultado final do relatório de análise de dados para o governo
do Estado que a equipe estava realizando quando entrei no início da observação.
Por isso, as etapas do relatório não serão detalhadas neste estudo.
189

6.3 DataViz: A produção de visualizações guiadas por


dados no Labic

A nossa pesquisa doutoral envolveu durante o período o monitoramento de


Visualização de Dados do Labic a partir do uso de Big Data. Monitoramos essas
produções de forma exploratória (referentes a produções de 2017 e 2018) entre 3 a
12 de setembro de 2018 com a captura de telas dos projetos de narrativas guiadas
por dados de modo a consolidarmos métodos mistos: entrevistas, observação não-
participante no laboratório e e Ficha de Observação das produções publicadas na
página do Labic de visualizações de dados a partir de grandes volumes de dados.
Deste modo, nos permitiu comparar as práticas laboratoriais e o resultado da
extração, modelagem e Visualização de Dados.
O total das produções disponibilizadas no período no site sobre Visualização
de Dados foi de 10 (2017) e 4 (2018). Observamos que a maioria fazia parte de
temas de grande repercussão no Brasil como a prisão do presidente Luiz Inácio Lula
da Silva, o assassinato da vereadora do Rio de Janeiro, Marielle Franco, gravação
de o presidente Temer ou ainda a greve dos caminhoneiros.
Para a pesquisa, selecionamos desse universo de visualizações de dados a
amostra de 10 produções (sendo 4 de 2017 e 6 de 2018) a partir do site do
Laboratório Labic para a aplicação da Ficha de Observação, no período de 3 a 12 de
setembro de 2018, que elaboramos visando caracterizar os formatos, os tipos de
interações, as tecnologias utilizadas, os diferenciais ou aspectos de inovação, entre
outras dimensões, de modo a comparar com a observação etnográfica das rotinas
de produção.
As visualizações utilizadas do Labic foram: Visualização 1 - Análise das
imagens de #mariellepresente: memórias entre a dor e a esperança (15/04/2018);
Visualização 2 - Lovers com mais força que haters nas eleições presidenciais de
2018 (08/08/2018); Visualização 3 - Quem está de carona na boleia do caminhão?
(30/05/2018); Visualização 4 - Marielle, Presente – Mapa de tweets entre 08 e 16 de
março de 2018 (17/03/2018); Visualização 5 - Análise das redes durante o
julgamento do Lula (24/01/2018); Visualização 6 - Monitor de imagens da Copa
2018 (projeto) (14/06/2018); Visualização 7 - Após denúncias, Fora Temer e Diretas
Já unificam redes sociais (18/05/2017); Visualização 8 - O julgamento do
#Mensalão: polarização política e a origem dos haters políticos no Twitter
190

(31/07/2017); Visualização 9 - Tecnopolítica: a viralidade indígena em rede e os


novos modos de mobilização (28/06/2017). Visualização 10 - “Tem que manter isso,
viu?”: a repercussão da gravação de Temer no Twitter (21/05/2017).
As produções do Labic, como discutido a partir dos dados empíricos da
observação não-participante e das entrevistas realizadas, seguem uma tendência do
que eles denominam de “visualização do campo da opinião” , da geopolítica e do
ativismo, base do surgimento do Laboratório em 2007 a partir das discussões em
torno da cibercultura, ativismos e redes sociais e vínculo com imagens.
Essa Ficha (APÊNDICE E) foi antes aplicada numa análise que realizamos
vinculada à tese do doutorado com o Prêmio Data Journalism Awards 2018. O intuito
era primeiro aplicar as narrativas de visualização com as características do nosso
objeto de estudo e na sequência diretamente nas produções do Labic. Na seção
6.3.2 trazemos os resultados dessa pesquisa para comparar com o Labic e
compreendermos, comparativamente, aspectos da produção do laboratório e as
realizadas em outros laboratórios e na mídia internacional em termos de recursos
utilizados como tecnologias, origem dos dados e processos de inovação. Deste
modo, poderemos inferir as narrativas de Visualização de Dados a partir de Big Data
e identificar os aspectos disruptivos.
A pesquisa partiu da questão: Como as narrativas guiadas por dados
endereçam formatos inovadores para a Visualização de Dados? Portanto,
objetivavamos observar e caracterizar esses elementos agregados às visualizações
de dados e Big Data visando compreender a perspectiva no contexto aqui explorado.
Consideramos as seguintes categorias de observação, quais sejam: Elementos
gráficos de Visualização de Dados para Averiguar a presença de ilustrações,
vídeos, gráficos estáticos, gráficos dinâmicos, áudios, textos curtos, fotos estáticas,
fotos em movimentos, imagens em 3D, mapas dinâmicos ou estáticos, dentre outros,
de modo que facilitem a narrativa; Interação: Aspecto fundamental nas
visualizações, Cairo (2008) define três aspectos: Instrução (nível básico, quando a
narrativa é linear e apresenta botões de avançar e retroceder); Manipulação (Poder
mudar os objetos na visualização); e Exploração (Tipo de interação por imersão, ex.
imagens de 360, com navegação hipertextual); Dados Estruturados (ou
semânticos): A partir dos estudos de Cairo (2011), essa categoria se refere em
apresentar os dados de modo compreensível e com sentido a esse conjunto de
dados, se está estruturado de modo compreensível a partir dos formatos
191

(verticalizados, horizontalizados). “Também criamos informação estruturada quando


desenhamos gráficos que codificam os números, o que de outra maneira seria
impossível extrair algo útil” (CAIRO, 2011, p. 31, tradução nossa); Proveniência dos
dados: Identificar a origem dos dados que foram explorados na visualização, se
foram dados públicos, privados, de empresas, agências de notícias, etc. A ideia é
identificar como esses dados estão sendo explorados; Tecnologias usadas:
Identificar quais foram as tecnologias e linguagens mais utilizadas para a execução
das produções de Visualização de Dados: E inovação como construto dessas
narrativas em base de dados com estratégias de uso de novos recursos.

6.3.1 Resultado das visualizações de dados no Labic

Os resultados dos dados coletados a partir da observaçãoo das produções de


narrativas de visualização de dados do Laboratório Labic revelam as dimensões
utilizadas em termos de inovação, gráficos guiados por dados, interações, fontes dos
dados, tecnologias utilizadas, entre outros elementos. No aspecto da categoria de
Elementos gráficos nas visualizações (gráfico 11), das 10 produções analisadas, 4
utilizam recursos como gráficos estáticos (40%) recebendo as camadas de dados
coletados. Outros 20% trazem mapas interativos enquanto formato de narrativas,
tendo em vista que 20% também são constituídos de mapas guiados por dados
como estruturador da visualização. Há ainda fotos estáticas e ilustrações (30% cada
elemento), foto interativa (10%, ou seja, um caso) e gráfico interativo (10%). Por
outro lado, 70% dos casos analisados se enquadram em “outros” elementos e dentro
desse perfil tem o aspecto de uso de recursos como image cloud, grafos estáticos,
nuvem de tag e algumas tabelas com dados.
192

Gráfico 11 – Elementos gráficos nas visualizações do Labic

Fonte: Dados da Pesquisa, 2019.

Quanto ao aspecto de interação (gráfico 12), entre as possibilidades de


Instrução, Manipulação e Exploração, os 10 casos analisados se concentram em
Instrução (2 casos, 20%), Manipulação (2 casos, 20%) e Exploração (1 caso, 10%).
As demais visualizações estão dentro do item “outros” (6 incidências, 60%) e se
constituem de interação mais estáticas próxima da de Instrução mais sem o uso do
botão de retroceder e avançar, por exemplo, como um dos elementos básicos do
processo de interação conforme define Alberto Cairo. O caso mais emblemático de
uso de Exploração como possibilidade de Interação está na narrativa 4 “Marielle,
Presente – mapa de tweets entre 08 e 16 de março de 2018” em que há um mapa
guiado por dados formado por imagens e a geolocalização a partir de interações
capturadas da rede social do Twitter. Ao todo, foram inseridas 9.861 geolocalizações
de 3.573.340 publicações capturadas e analisadas pelo software do Labic
desenvolvido para este fim. Deste modo, a interação se demonstra mais efetiva. Por
outro lado, observa-se a necessidade de investimento em visualizações mais
193

dinâmicas, o que ocorre a partir de junho de 2018 com o projeto monitor de imagens
da Copa do Mundo de 2018 em que são capturadas milhares de imagens e
transformadas em gráfico interativo manipulável com a “pulsão das imagens” em
aspecto de temperatura de cada momento do jogo, sincronizado por meio destas
imagens localizáveis na linha do tempo. Apesar do Labic não investir no aspecto de
interação, o consistente está nas visualizações de dados massivos que contam
histórias e dão visibilidade a interações entre esses dados fazendo emergir
contextos vinculados à geolocalização, imagens e histórias, contadas por dados por
meio da visibilidade permitida pela visualização.

Gráfico 12 – Tipos de Interação nas visualizações do Labic

Fonte: Dados da Pesquisa, 2019.

No que se refere aos dados estruturados (Gráfico 13), 50% (5 casos) das
narrativas analisadas são compostas do formato vertical, 10% (1 caso) de mapas
guiados por dados, nenhum em formato horizontal e 40% (4) em “outros” padrões
como bolhas e tags (grafos). O modelo vertical é uma tendência mundial de
organizações jornalística e de laboratórios que trabalham com a visualização de
dados tendo em vista a possibilidade de distribuição de conteúdos variados (texto,
mapas, infográficos, gráficos, entre outros, dados) por meio de formato que se
demonstra mais flexível e profundo para lidar com grandes volumes de dados se
aproximando das narrativas long form (LONGHI; WINQUES, 2015).
194

Gráfico 13 – Dados estruturados

Fonte: Dados da Pesquisa, 2019.

Essas narrativas do Labic se caracterizam pelo uso do Big Data e, portanto,


são visualizações guiadas por dados em essência. Neste caso, quando
caracterizamos a procedência dos dados (Gráfico 14), 90% (9 casos) utilizam dados
abertos como fonte para a coleta e posterior transformação em visualização.

Gráfico 14 – Proveniência dos dados

Fonte: Dados da Pesquisa, 2018.

Dos casos, 10% vem de dados de empresas privadas, 10% dados fechados
(internos). O Labic tem como base a captura de dados abertos oriundos das
interações nas redes sociais. Para tal se utiliza de software como Ford e outros que
195

a partir do API do Twitter ou do Facebook exploram dados por meio de palavras-


chave. Em alguns casos são milhões de dados coletados para análise posterior
visando conferir sentido e descobrir história por trás dos dados. Como o Labic atua
na frente de ativismo e de campo de opinião, os dados estão no contexto de
situações reais de impacto na sociedade (no aspecto social, econômico, de
minorias, de segurança pública, de esfera pública).
Sobre as tecnologias utilizadas, as visualizações de dados do Labic se
caracterizam pela inovação no sentido de que a base da coleta de dados vem de um
dos mais de 30 software desenvolvidos pela equipe interdisciplinar do laboratório
como o Ford, que é o software central desenvolvido internamente. Neste caso,
100% dos 10 casos de narrativas identificamos o enquadramento em “outros”, que
desdobra para exatamente os aplicativos e software próprios ou adaptados para as
situações do Labic. Além do Ford (que incorpora linguagens variadas de
programação), o uso de Gephi em uma boa parte das produções. Portanto esse é
um diferencial observado no procedimento do laboratório. Na próxima seção,
analisamos as mesmas categorias a partir do Prêmio Data Journalism Awards 2018.

6.3.2 Resultado das Visualizações de dados do Prêmio


Data Journalism Awards 2018

Procedemos também com uma análise das narrativas de Visualização de


Dados dos vencedores do prêmio Data Journalism Awards 2018120 , bem como de
seus processos de inovação a partir do cenário de Big Data com a aplicação de
Ficha de Observação121 na coleta de dados e análise quali-quantitativa. As
narrativas guiadas por dados se constituem em uma forma diferenciada de contar
histórias no jornalismo em interface interdisciplinar com a Computação, Design e
Ciência da Informação. Conclui-se que a emergência do Big Data e da Visualização

120
Disponível em: https://goo.gl/TeKwkw acesso em: 28 jan. 2019.
121
Disponível em: https://goo.gl/8M9wpQ acesso em: 28 jan. 2019.
196

de Dados aponta para novo formato de narrativa em que os dados exercem função
central.
Esta investigação tem como objetivo compreender, após exploração do
estudo de caso do Labic, o processo de utilização dos elementos narrativos que
estão presentes nas visualizações de dados do laboratório bem como o estado da
arte em nível mundial a partir do Prêmio de jornalismo de dados por meio das
categorias já delimitadas: Elementos gráficos, interação, Dados estruturados,
Proveniência dos dados, Tecnologias usadas e Inovação.
O Data Journalism Awards 2018 é um evento que acontece anualmente desde
2012, e em 2018 foi em Lisboa, Portugal, e premia os melhores trabalhos com dados
em jornais, revistas e agências de notícias mundiais. Em 2018, foram 630 trabalhos
submetidos ao prêmio de 58 países. Integralizando um total de 86 finalistas, com 13
trabalhos vencedores. Partimos para nossa pesquisa dessa amostra de 13 trabalhos
e delimitamos um corpus de 8 visualizações que atendiam ao recorte ou escopo de
jornalismo de dados. Descartamos do nosso estudo as produções que não se
adequavam à nossa amostra, como startup, app, sites e portfólios. O procedimento
envolveu revisão de literatura, monitoramento e aplicação de Ficha de Observação
submetidas para essas visualizações no período de 17 a 26 de setembro de 2018.
A partir dos dados coletados da observação e do procedimento da análise
dos mesmos, foi possível identificar que a utilização de elementos gráficos nas
visualizações fazendo composição com os dados (exemplo de mapas, infografias,
fotos e interações) para dar vazão à camada de dados e de construção de
visualizações atrativas que possam dar sentido a dados complexos e cruzamento de
dados. Nos 8 casos analisados (Tabela 1 ), os mapas estáticos predominam com
87,5% como lugar para receber dados, com exceção do PostMedia, que não trouxe
nem mapas estáticos e nem dinâmicos. Em seguida, o uso de vídeos enquanto
recurso das narrativas com 75% de uso. Em compensação, tivemos 4 gráficos
interativos em detrimento de 3 gráficos estáticos. Gráficos guiados por dados são 2
(Infotimes e RunRun), em outros momentos os dados vêm incorporados em outros
elementos.
197

Tabela 1 – Elementos gráficos nas visualizações

Fonte: Dados da Pesquisa, 2018.

No aspecto interação (tabela 3), como recurso que permite maior participação
do usuário no manejo desses dados e de toda a narrativa, identificamos produções
mais avançadas e com uso mais intenso de características de interação com o
predomínio do tipo de interação por Exploração, total de 100% dos casos analisados
(8 de 8), além de 2 casos de Manipulação (PostMedia e Infotimes, que também
concomitantemente apresentaram o grau de exploração, totalizando 25% para esse
item). Nenhum caso foi registrado do nível mais básico, o de Instrução. Essa
possibilidade de interação é um aspecto pertinente para o formato de Visualização
de Dados porque quanto maior o grau de interação, mas aumenta a possibilidade de
cruzamento de dados em nível de personalização pelo usuário. Logo, constitui-se de
um recurso fundamental na construção atual dessas visualizações.
198

Tabela 2 – Interação

Fonte: Dados da Pesquisa, 2018.

Em relação aos dados estruturados (Tabela 3), as narrativas de Visualização


de Dados têm se sofisticado e utilizado novas possibilidades de apresentação.
Identificamos a tendência de verticalização, totalizando 87,5% da amostra (7 casos)
contra 2 casos (25%) horizontais. O modelo vertical se tornou tendência a partir do
SnowFall do The New York Times, que a partir de 2012 iniciou o fenômeno da
verticalização como formato para reportagens com dados permitindo
aprofundamento para uso de recursos diversos como mapas, vídeos, mapas
guiados por dados e outros recursos multimídia que dialogam diretamente com os
dados em grande volume. A partir de então, os demais jornais mundiais começaram
a aderir a esse formato, cuja “abundância do texto verbal sinaliza um resgate da
qualidade, apuração e contextualização” (LONGHI; WINQUES, 2015, p. 8).
199

Tabela 3 – Dados estruturados

Fonte: Dados da Pesquisa, 2018.

Além das narrativas verticais, os resultados apontaram para 75% (6 dos 8


casos analisados) das produções baseadas em mapas guiados por dados, cujos
dados ficaram visíveis, seguidos de 25% do formato horizontalizado. Essas
construções podem apontar tendência no jornalismo e na Ciência da Informação
como formatos de apresentação. Esse tipo de formato também é denominado de
narrativa longform, “um nível mais aprofundado de relato, que vai além do padrão
cotidiano da produção e narrativas atraentes, frequentemente com elementos
multimídia, que realçam o artigo” (LONGHI; WINQUES, 2015, p. 3).
As narrativas de visualização guiadas por dados se caracterizam, na origem
das fontes pelo uso de dados abertos (gráfico 15). Dos 8 casos analisados de
Visualização de Dados, a maioria (7, ou seja, 87,5%) utilizam dados abertos.
Igualmente o uso de dados governamentais (87,5%) e 3 casos de uso de dados de
ONGs e similares (37,5%). Dados fechados apenas no caso da agência Reuters
(12,7%), que concomitantemente também utiliza dados abertos e governamentais
nas suas produções. Portanto, nesse quesito os dados abertos são predominantes
nos projetos de Visualização de Dados apresentados demonstrando avanço nesta
política. Buscamos, nesse caso, compreender o avanço do uso de dados abertos e
governamentais e sua abundância para construção de narrativas ou projetos.
200

Gráfico 15 - Proveniência dos dados

Fonte: Dados da Pesquisa, 2018.

Sobre as tecnologias utilizadas (gráfico 16), esse item é mais complexo de


analisar tendo em vista que as tecnologias e linguagens dependem do tipo de
projeto e da complexidade do mesmo e, ao mesmo tempo, do tamanho e da
especialidade da equipe envolvida em tais projetos.

Gráfico 16 – tecnologias utilizadas

Fonte: Dados da Pesquisa, 2018.


201

O predomínio na nossa observação foi a partir de tecnologias fora do escopo


do nosso levantamento prévio e enquadrando-se em "outros". Dos 8 casos, 5
utilizaram tecnologias distintas e novas (65,5%). Há uma variedade de tecnologias e
linguagens observada na análise, a exemplo da linguagem R e Python com 12,5%
do total. Outros como JavaScript, CSS, por exemplo, totalizaram 25%.
Especificamos apenas as linguagens e tecnologias mencionadas no resumo
executivo (apresentação) dos projetos vencedores sem exploração interna dos
projetos para tentar identificar pelo código fonte ou outro meio tendo em vista que
isso exigiria um trabalho de "bastidores" dos projetos de difícil caracterização
visando a precisão. Logo, partimos para o próprio resumo em que cada projeto
indicava essas tecnologias utilizadas, de modo a termos um recorte mais coerente.
Essa exploração nos fornece um panorama e aponta para o uso crescente de
tecnologias específicas de Visualização de Dados como o Tableau Public. Na nossa
observação, exploramos o conceito de inovação, partimos da observação de cada
caso e dos próprios apontamentos no resumo executivo dos projetos para poder
apontar os avanços em termos de inovação nessas narrativas baseadas em
visualização guiada por dados. Nesta direção, identificou-se que todas, em algum
aspecto, inclusive pela natureza do prêmio, apresentam alguns elementos de
inovação e de avanço quanto ao estado das produções do momento, apresentando
inovações disruptivas para os formatos de Visualização de Dados. De um modo
geral, podemos apontar alguns aspectos inovadores como: 1) Dados Geolocalizados
por satélite e atualizáveis em tempo real; 2) Mapas guiados por dados como bússola
para as informações; 3) Imagens em 360 graus conferindo imersão na narrativa e 4)
Machine Learning e Inteligência Artificial como potencializadores dessas narrativas.

6.3.3 Matriz comparativa: Labic e Prêmio Data Journalism


Awards
As narrativas em ambientes digitais criaram novos paradigmas em relação às
narrativas tradicionais, tendo em vista o potencial da ambiência digital para a
construção das mesmas. Nesta direção, esse estudo tentou compreender os
202

processos de construção das narrativas com dados nestas visualizações e demarcar


as estratégias utilizadas como forma de compreensão dos dados. Observamos
alguns aspectos que servem para reflexão: 1) Formato Longform segue como uma
prática que vem sendo cada vez mais explorado nas narrativas com dados; 2)
Mapas guiados por dados como estrutura principal de apresentação dos dados, o
que confere um aspecto de inovação dos dados; 3) Narrativas com dados em
profundidade, o que quebra com o paradigma de somente mostrar, mas
contextualizar, dar sentido aqueles dados visualmente. Os textos curtos e blocados
ao lado das imagens foram bem recorrentes, assim como o uso dos hiperlinks. 4)
Dados abertos cada vez mais sendo explorados nestas produções, o que
pode transparecer uma certa ética ao creditar nas narrativas, muito embora não se
sabe se todos os dados brutos foram trabalhos massivamente. Vale destacar a
imagem em satélite como elemento diferencial produzindo um ambiente de imersão
naquela estrutura de dados, ainda que só a Reuters tenha utilizado o recurso
timidamente. As narrativas seguem as estratégias de tendências de mercado que
estão postas, como formatos Longform e imagens de satélite de modo imersivo,
para que se sinta dentro da narrativa, muito embora apenas a Agência Reuters
utilizasse, mas segue sendo um indício promissor desse recurso.
A opção pela interação por exploração, cuja navegação se deu mais pela
força do link, condiz com a proposta da narrativa, de contextualizar os dados, contar
a história dos acontecimentos, o que pode parecer pouco dinâmico à primeira vista.
Em nossa análise, alguns veículos analisados poderiam explorar mais imagens em
360 graus, por exemplo, como ferramenta imersiva das narrativas, o que inovaria no
manejo com os dados.
O ponto de disrupção nas narrativas de visualização de dados do Labic
encontra-se no grande volume de dados e como o desdobramento desses dados em
visualidades mostram as controvérsias invisíveis no debate da esfera pública de
movimentos e aspectos sociais como o caso Marielle e de relevância no esporte
como a Copa do Mundo apresentando as correlações dos dados, as associações.
Portanto, contar histórias com dados ou narrativas com dados que estão presentes
na totalidade dos dados coletados e que, após o processo de modelagem e
transformação em visualização de dados (com diferentes recursos de apresentação
e dinâmicas), desdobram-se em paradigma entre Ciência de Dados e Visualização
de Dados.
203

Em relação aos formatos de visualização e de interação, identificamos que


tais produções carecem de novos formatos de exposição dos dados que permitam
mais cruzamentos de dados por parte do usuário tendo em vista o grande volume de
dados coletados e nem sempre vertidos em mais variáveis a partir de uma dinâmica
de cruzamento desses dados para gerar informação original que torne visível nova
história por trás desses dados. Este aspecto ainda precisa aparecer em algumas das
narrativas analisadas do Labic considerando o trabalho intenso de coleta, o software
próprio e orgânico do laboratório e a equipe interdisciplinar que atua no ambiente
nas diferentes pesquisas.
Por outro lado, durante a observação não-participante foi possível identificar o
laboratório como um ecossistema de dados em que praticamente todas as
pesquisas e metodologias de trabalhos de TCC, dissertações e teses se utilizam do
know-how do laboratório. Do mesmo modo, a inserção midiática, a partir das
manifestações de 2013 em que as produções do Labic foram e são pautadas para o
Globo, El País, Globo, Mídia Ninja, entre outros meios da mídia tradicional e digital e
de diferentes linhas editoriais, além da inserção dos pesquisadores por meio de
entrevistas. Este aspecto demonstra a inserção nacional e internacional do
laboratório e sua visibilidade midiática e acadêmica, o que reflete em novas
demandas de pesquisa como junto ao INEP.
É válido ressaltar que não há modelos fechados para realizar análises e estudos,
mas as existências de vários ângulos de abordagens em diversas áreas, tendo em vista que
“a narrativa é capaz de corresponder a uma cronologia cronológica e não cronológica,
extraindo uma sucessão de eventos” (BOASE, 2013, p. 5). Assim sendo, a pesquisa avança
no sentido de demarcação de como esses elementos narrativos estão sendo explorados e
seus potenciais na era do Big Data, de modo em o processo analítico-visual seja um dos
expoentes, ainda que resguardando as limitações do estudo.

6.3.4 ENTREVISTA: Diálogos com Especialistas

Para entender melhor como as Narrativas de Visualização Guiadas por Dados


que estão sendo desenvolvidas no Labic e as práticas laboratoriais, além da
visibilidade dessas produções, realizamos, de forma complementar, entrevista semi-
204

estuturada com seis especialistas na área do Design e da Visualização de Dados


que, dentro dos seus estudos e pesquisas, apontaram paradigmas e outras
questões sobre o tema proposto. Ao todo, entrevistamos por email seis
especialistas (dois da Espanha, um dos Estados Unidos e três do Brasil) de modo a
contemplar uma visão de diferentes lugares e perspectivas de pesquisa e
conhecimento sobre o tema.
A partir das entrevistas com os especialistas, elaboramos categorias de
análise para submeter os extratos das falas. Essas categorias visaram extrair dos
especialistas a forma como estes enxergam e entendem como as narrativas de
visualização e que podem acarretar mudanças estruturais imerso em sua
composição, como a questão do Big Data e Ciência de Dados, fatores que
promovem a inovação disruptivas nos laboratórios de inovação.
Os dados foram cruzados com nossas observações de campo e de
entrevistas com os participantes da pesquisa de campo, além dos conceitos e
referencial teórico contemplando um panorama e estado da questão. Com questões
que versavam sobre aspectos relacionados às categorias de inovação, laboratórios
de inovação, visualização de dados, Big Data, Ciência de Dados e narrativos
disruptivas. O conjunto das entrevistas, em confronto com os demais dados da
pesquisa, nos propiciou uma visão mais objetiva do objeto de estudo. Uitilizamos o
software MaxQda para codificação das repostas e análise dos dados
O ESPECIALISTA C (2019, entrevista concedida por email) acredita que,
para não cair no lugar comum ou em zona de conforto, dos tradicionais padrões de
produções, que em muitas composições não facilitam a compreensão, há
necessidade de que, por parte do profissional, adquira-se outros
atributos/habilidades de construção da narrativa, a exemplo do Design e da
Semiótica. Para ela, são narrativas que exigem uma hibridação de áreas de
conhecimento para que esse roteiro fundamentado nos dados possa contar uma
história com o intuito de promoção de determinada imagem, por exemplo. Baseado
nessa assertiva, o primeiro passo é o entendimento da tipologia das visualizações e
suas respectivas funções informativas. Ou seja, na nossa compreensão, a premissa
das narrativas disruptivas não se limita ao aspecto estético ou até mesmo a fuga da
banalização/moda do “visualizar por visualizar”, mas em uma combinação de
formato + função dos dados, o que pode conferir significado semântico aos mesmos.
Somando a esse pensamento, a autora destaca o aspecto interativo, mas que é
205

preciso ferramentas adequadas para o tratamento dos dados. “A visualização cada


vez mais interativa, proporcionando ao leitor uma experiência com os dados ou
situação. Otimizar o processo, que em determinados momentos é bem difícil de
identificar a ferramenta correta para fazer a extração e limpeza”.
Na mesma direção, ESPECIALISTA B (2019, entrevista concedida por email)
observa que as narrativas disruptivas, que definimos na tese, tem o potencial de
interação maior, e que, nos últimos 10 ou 15 anos, a visualização de dados era
considerada quase como uma linguagem universal, mas que não pertencia ao
mainstream necessariamente. Aliados a isso, ele observa os aspectos
paradigmáticos como o uso mais sistemático de animação nessas narrativas
disruptivas em que a força reside em ilustrar e comunicar eficazmente os dados.
O autor ressalta também as produções dessas narrativas baseadas em
Realidade Aumentada, por exemplo, um atributo que precisa ser mais bem
investigado. De acordo com Longhi (2017, p. 26), essas narrativas são apontadas
como fator de inovação e novas abordagens no campo das Tecnologias Digitais,
cuja construção é algo contínuo. “O processo de inovação tende a ser composto por
uma série de etapas que inclui experimentação, testes, apostas e até mesmo falhas,
dentre diversas estratégias com o objetivo de apresentar novas propostas alinhadas
com o intento inicial”. Entendemos que as narrativas disruptivas são frutos de uma
série de experimentações, testes, métodos, análises e desenvolvimento de
ferramentas (software) que consigam, de alguma forma, promover a harmonização
dos dados para uma efetiva comunicação denso-analítica dos dados.
A atividade de composição dessas narrativas digitais sempre esteve, em sua
essência, ligada ao desenvolvimento de tecnologias digitais da atualidade e à
introdução de novos experimentos. Portanto, o conceito de inovação pode ser
considerado quase como um compoente intríseco nesses procedimentos. Ora, se
em meados de 2000, as narrativas em ambientes digitais eram baseadas em
elementos multimídia (texto, imagem em movimentos, áudio, gráficos) que figuravam
como mecanismos norteadores nos parecem que esse terreno tenha ficado
estagnado frente à força dos dados, potencial interativo, dentre outros aspectos.
Nesstas narrativas, o protagonismo dos dados vislumbra como porta de entrada
para muitas experimentações, análises, início para criação de novas metodologias,
instauração de uma cultura do Big Data e Ciência de Dados, exploração analítica e
variação de formatos.
206

Na visão do especialista, as narrativas devem estar inseridas em um


contexto, tendo em vista que dados sozinhos ou isolados não comunicam nenhum
tipo de informação (BORGMAN, 2012; VALERO SANCHO, 2019). Atrelado à
contextualização, nas narrativas de visualizações estes devem estar sincronizados a
uma boa apresentação dos dados e à confiabilidade deles. “Ter dados não é tudo,
se estes não forem cientificamente confiáveis e, portanto, também não tiverem em
boas visualizações” (ESPECIALISTA F, 2019, entrevista concedida por email).
Ademais a tais premissas de ter dados confiáveis, boas visualizações e contexto, de
nada vai adiantar se não estiverem compreensíveis, e não se restringir ao design.
“Uma visualização deve atender a conteúdos que sejam bem compreendidos, não à
estética original que não manifeste o significado de um conteúdo ou desvie a
atenção para os aspectos essenciais de um evento” (ESPECIALISTA F, 2019,
entrevista concedida por email).

Nas narrativas, os dados são importantes, mas devem ser colocados


em um contexto. O “óleo” é importante se estiver situado entre
alimentos, engrenagens ou veículos. Dependendo da metáfora que
aplicamos, ela tera um papel mais ou menos complementar, mas não
explicará tudo o que é necessário nas histórias. Os dados são
valiosos se forem bons, mas o problema é que eles não são um ‘óleo’
que serve a todos (ESPECIALISTA F, 2019, Entrevista concedida por
email).

A perspectiva do autor também pode ser aplicada nas visualizações de dados


produzidas pelo Labic, que, a partir da coleta de grandes volumes de dados,
sobretudo, pelas redes sociais, é possível que se conte histórias através dos dados.
Este, inclusive, é uma das preocupações centrais de produção, conforme salienta o
Coordenador 1 do laboratório122 . “Quando a gente for trabalhar, temos que sempre
que tentar identificar as histórias que estão nos dados. Eu tenho preocupação
também de mostrar os grupos em coassociação e os discursos mais
predominantes”. O pesquisador ressalta que esse seria o ponto de disrupção para a
construção dessas narrativas. Na perspectiva de ESPECIALISTA A (2019, entrevista
concedida por e-mail) a visualização de dados, neste caso, integraria como
complemento das narrativas. A especialista cita exemplos do The New York Times e
da Revista National Geografic como principais expoentes desse movimento, além de
122
Entrevista concedida em 10 mai 2018.
207

outras publicações internacionais que exercem a mesma prática. “A visualização é


parte de uma narrativa e oferece aprofundamento no tema e, ainda, a possibilidade
do leitor se colocar na própria narrativa, inserindo seus próprios dados de forma a
compará-los com os dados de um grupo ou país”. Este tem sido um ponto de debate
entre os especialistas e pesquisadores da área que vislumbram nas possibilidades
de aprodundamento dos dados.
Além disso, a especialista desataca outro ponto de disrupção nas narrativas,
que é a Literacia (Literacy), ou seja, a capacidade de ‘ler’ a visualização. A
especialista observa outros fatores essenciais na construção das visualizações. Um
dele se refere à questão das interações como também a empregabilidade de menus.
Outro ponto relevante diz respeito à variabilidade dos dados. Ela sugere que os
números grandes devam estar ao lado dos números menores como modo de
movimentar os números na visualização, e por fim, atualização contínua desses
dados. Nesse contexto, a autora acredita que a Ciência de Dados pode ser
apontada como um paradigma no campo científico “na medida em que pode
colaborar no desenvolvimento de pesquisas baseadas em grandes volumes de
dados”.

O emprego de grandes volumes de dados, o uso da programação e de


novos designs vem permitindo a criação de formatos gráficos que podem
não ser compreendidos de imediato e que, muitas vezes, requerem
empenho do “leitor” para obter familiaridade com o que está sendo visto. Em
outras palavras, muitas vezes, é necessário algum tipo de aprendizado para
que se possa usufruir o que a visualização oferece. Não há nisso nenhum
problema, principalmente porque muitas vezes a visualização foi criada para
possibilitar análises por parte de um público especializado (ESPECIALISTA
A, 2019, entrevista concedida por email).

O impacto dos dados massivos nas visualizações ocorre em várias frentes,


desde o ponto de vista da coleta até a apresentação. Como em muitas vezes a
quantidade de dados vem de modo não estruturado, é necessário que se faça uma
organização prévia, além da interpretação, no sentido de filtrar quais dados usarem.
Além disso, ESPECIALISTA B (2019, entrevista concedida por email) sugere que na
hora de trabalhar dados massivos nas visualizações, é necessário conhecer bem os
formatos nos quais os dados vão estar expostos. Ele destaca que, os gráficos como
pizza, barras e gráficos de linhas podem comprometer quando integrar os dados e
208

aconselha que gráficos de Heat Map, que são os mapas de calor, pode ser um
formato que mais de adequa para grandes volumes de dados e acrescentar cores
para dar um maior destaque a eles. Essa harmonização pode garantir uma
comunicação dos dados adequada.

O que há de mais atual é que a continuação da visualização pode ser


uma ferramenta poderosa para ilustrar os dados e comunicá-los também.
Mas há outras ascedências como um aumento da exploração da
tecnologia de Realidade Aumentada e que pode ser utilizada na
visualização de dados. Talvez um uso maior da animação, não tanto da
interação, mas da animação na narrativa (ESPECIALISTA B, 2019,
Entrevista concedida por e-mail).

Já para ESPECIALISTA C (2019, entrevista concedida por email) o modo


como os dados são exibidos se mostram cada vez mais interativos, condição que
pode levar o usuário a experienciar a comunicação dos dados de forma satisfatória e
que pode fornecer uma compreensão e “análise mais criteriosa”. Mas que também
“otimizar o processo, que em determinados momentos é bem difícil de identificar a
ferramenta correta para fazer a extração e limpeza” (ESPECIALISTA B, 2019,
entrevista concedida por email). Como se pode observar, cada especialista constata
mudanças variadas em toda a processualidade dos dados através de seus estudos,
pesquisas e práticas. Dito isso, não se pode ignorar essa movimentação advinda do
contexto dos dados. ESPECIALISTA D (2019, entrevista concedida por email,
tradução nossa) afirma que “a mudança já ocorreu radicalmente”123. Para ele, trata-
se de uma continuidade das construções visuais que tiveram início há séculos. Ele
cita os trabalhos de William Playfair, Charles Josep Minard e Florence Nightingale
como alguns precursores, principalmente, utilizando estatística dessa comunicação
dos dados. O autor questiona: “Que novos mundos a visualização dessas
objetividades "datificadas" pode nos mostrar?”. Ele mesmo responde enfatizando
que o modelo centrado apenas nos números. “A visualização de dados não é hoje a
tradução de várias figuras em imagens que nos fazem entender facilmente uma
possível tendência. A visualização de dados hoje é o mapeamento de mundos
anteriormente desconhecidos” (ESPECIALISTA D, 2019, entrevista concedida por

123
No original: “El cambio ya se ha producido de forma radical”.
209

email, tradução nossa)124. E, acrescenta o fator mais relevante em uma visualização.


“O importante sobre a visualização de dados massivos é que ela ilumina novas
realidades, que eram invisíveis porque eram invisíveis. Deles podemos observar
tendências”. 125
O ESPECIALISTA E (2019, entrevista concedida por email) também é
categórico ao afirmar que a visualização mantém origens históricas atuando como
uma “ferramenta de comunicação social” e aponta as produções visuais de W.
Plaufair, Charles Joseph Minardi e John Snow. Para ele, o desafio de transformar
dados complexos em informações rápidas e impactantes também reside em suas
raízes, cujo fenômeno do Big Data potencializou essa condição. Ele destaca que “o
papel de análise, mineração, raspagem, filtragem e visualização é cada vez mais
essencial nessa sociedade ansiosa por informação”.
Para o especialista, os principais aspectos paradigmáticos estão intrínsecos
na acessibilidade de software que constroem essas visualizações, como o Tableau
Public126, por exemplo. Contar histórias com dados, segundo ele, se configura como
uma prática que vem se desenhando em diversas produções online, sobretudo, nos
jornais em suas versões digitais, cujo reflexo dessas construções podem ser
observadas nas grandes premiações mundiais de visualização de dados, a exemplo
127
dos Prêmios Malofiej e SND (Society for News Design)128. Deste modo, ainda
segundo o especialista, os laboratórios de inovação surgem como terrenos a ser
desbravados e pontos importantes de criação de novas narrativas tendo sempre
uma preocupação em como o usuário irá compreender essa ‘gramática’ de gráficos.
Na visão de ESPECIALISTA A (2019, entrevista concedida por email) esses
laboratórios mantém uma contribuição para o fortalecimento dos recursos humanos,
tanto no que se refere ao escopo da pesquisa, passando pela criação de
ferramentas apropriadas para visualização de dados.

124
No original: “La visualización de datos no es hoy la traducción de varias figuras en imágenes que
nos hacen entender fácilmente una posible tendencia. La visualización de datos hoy es el mapeo de
mundos anteriormente desconocidos ".
125
No original: “importante sobre la visualización de datos masivos es que ella ilumina nuevas
realidades, que eran invisibles porque eran invisibles. De ellos podemos observar tendencias”.
126
Disponível em: https://public.tableau.com/en-us/s/ Acesso em: 18 fev 2019.
127
Evento que ocorre anualmente em Pamplona, na Universidade de Navarra, na Espanha e premia
as melhores visualizações de dados, infografias, portfólios mundias.
128
Também ocorre anualmente e destaca os melhores trabalhos visuais na área do jornalismo online.
210

No caso das visualizações de dados produzidas no Labic, nosso estudo de


caso, estas começam a ser produzidas a partir da coleta de dados e esse processo
é desaguado nas outras etapas (mineração, filtragem, modelagem, análise,
formatação e apresentação dos dados). Neste sentido, são visualizações que estão
ancoradas em quatro aspectos: 1) Dados extraídos das Redes Sociais; 2) Dados no
campo da opinião pública; 3) Dados Territoriais/Geolocalizados e 4) Dados de
imagens. Para o Coordenador 1 do Labic, “é um laboratório que tem trabalho com
visualizações e tem trabalho com visibilidades. Acho que são coias diferentes mas
que se complementam”.
A forma como o fenômeno do Big Data e, consequentemente da Ciência de
Dados nesse ambiente de expansão veloz de aquisição e compreensão dos dados,
não deixa de ser um desafio contínuo. As visões dos especialistas em seus
respectivos contextos e atribuições nos revela um campo aberto às experimentações
de formatos, desenvolvimento de app próprios, de como coletar, minerar, filtrar,
analisar e apresentar dados massivos que possam fazer sentido através dos dados,
cujos modelos-padrões de construir essas narrativas, já não fazem mais sentido. Se,
por um lado, temos os grandes volumes de dados que impactam em toda a
processualidade dos dados, e dessa forma, já não há mais formatos-padrões a
serem seguidos, por outro, tem-se um terreno fértil de experimentações que podem
ser favoráveis a criações de narrativas com dados diferenciais, algo que foge da
forma como são feitos baseados fundamentalmente nos números estatísticos.
Nesse esforço, alguns laboratórios de inovação parecem ter percebido
um campo que traz projetos inovadores, sobretudo, quando são desafiados por
grandes quantidades de dados, o que força, muitas vezes, à construção de apps
próprios, desenvolvimento de métodos de análises, investimento em recursos
humanos, imersão em pesquisa científica. Por outro, também é factível o fato de
que, na cultura do Big Data e da Ciência de Dados existe uma realidade multifatorial
que vai guiando a forma como se trabalha com esses dados e não se restringe a
apenas números e estatísticas. Nesse ponto de vista, os espectros das estatísticas
caem por terra porque, a partir do relato dos especialistas, os dados podem contar
histórias para além das cifras e/ou estagnação de elementos multimídias.
211

6.4 DISCUSSÃO DOS RESULTADOS: Novas dinâmicas


advindas dos processos de Big Data e Ciência de Dados

Os resultados da pesquisa doutoral, a partir da triangulação de dados dos


métodos quali e quantitativo das estratégias metodológicas (entrevistas,
observações não-participante de natureza etnográfica, revisão sistemática de
literatura e observação de produções de narrativas em formato de visualizações no
estudo de caso), revelam os desdobramentos e dimensões do uso intensivo de
dados por meio do Big Data no laboratório Labic e em narrativas construídas por
meio desse aporte. Conforme o confronto dos dados com nossas questões de
pesquisa e hipóteses, podemos afirmar que estamos diante de narrativas
disruptivas, mas em sentido de construção de visualizações que transmutam massa
de dados invisíveis (embarcados nos sistemas de base de dados) para formatos
dinâmicos de visualização guiados por dados.
Por se tratar de estudo de caso não podemos generalizar os resultados.
Todavia, o caso paradigmático que estudamos e exploramos em profundidade nesta
pesquisa, no caso o Laboratório de Estudos sobre Imagem e Cibercultura – LABIC,
demonstra implicações para o campo da Visualização de Dados e da Ciência de
Dados no tocante às apropriações possíveis para construção de discurso por meio
de dados que revelem controvérsias na união entre dados de redes sociais digitais,
histórias pelas tematizações e categorias de captura dos dados e o aspecto
geográfico ou geopolítico. As narrativas de dados analisadas nesta tese revelam que
o Labic se apropria destes potenciais para poder mapear controvérsias e
mobilidades dos actantes (os aspectos sociotécnicos) que cada história carrega
como no caso da produção relatada sobre Marielle Franco (com um conjunto
massivo de dados em forma de imagens) visualizadas numa espécie de linha do
tempo imagético.
Deste modo, os mega dados em visualização se constituem em narrativas
disruptivas, com o emprego de Big Data e da Visualização de Dados. Mesmo
considerando exemplos na história de quebras de paradigmas da visualização neste
campo, a entrada do Big Data e a possibilidade de inúmeros cruzamentos
complexos de dados para correlações em amplas dimensões, denotam narrativas
disruptivas, que evoluíram desse fenômeno que já vinha sendo explorado em
212

organizações jornalísticas emblemáticas como The New York Times , The Guardian
ou Estadão.
Portanto, classificamos como modelo paradigmático contemporâneo visto a
partir de laboratórios de inovação com práticas de Ciência de Dados conforme nossa
tese defende. O confronto dos dados da pesquisa – observações empíricas,
documentos, entrevistas – e a literatura permitem a confirmação. O Laboratório
Labic apresenta as características das nossas questões de pesquisa e os aspectos
em discussão.
A assertiva de que as visualizações de dados se constituem produções no
estilo fast food, de que tais produções “apenas” complementam o texto ou servem
como peças decorativas perdem força argumentativa quando se constata um
ambiente permeado por novas formas de produção vinculadas às tecnologias
digitais avançadas. Do ponto de vista da prática, é notória a observação dos
especialistas em perceber como essas tecnologias e contexto afetam toda a cadeia
de produção, como observar os dados, em como gerenciar, minerar, formatar e
analisar os dados antes mesmo de torná-los públicos. Novas dinâmicas advindas
dos processos de Big Data e Ciência de Dados conferem aos dados uma visibilidade
central, isto é, os dados ocupam a principal matéria-prima de todo o encadeamento
dessas visualizações, da coleta à apresentação.
O fenômeno do Big Data não se restringe a grandes volumes de dados, mas
sim, a resultado da mescla de dimensões e características diferenciadas cujos
efeitos podem ser revolucionários na produção de conhecimento (LAGOZE, 2014).
Neste sentido, a Visualização de Dados é uma área que cada vez mais ganha
espaço nos debates profissionais e acadêmicos nos mais distintos campos do saber.
Uma das mudanças extraídas a partir de nossa investigação, refere-se às narrativas
verticalizadas - como já mencionado anteriormente - e que nesse limiar de
produções em visualizações de dados, consolida-se como uma espécie de “formato
tendência” potencializado e compartilhado pelas características do Big Data e
Ciência de Dados.
A inserção do Big Data e Ciência de Dados nesse cenário em mutação
contínua conduz aos pesquisadores e profissionais a um desafio de reconfiguração
da cadeia produtiva, da coleta à apresentação dos dados visualizados (figura 30).
Trabalhar com dados massivos e coletar grandes volumes de dados, minerar,
descartar dados inúteis, fazer a gestão e armazenamento desses dados, formatar
213

estruturas narrativas de dados e, de maneira mais pontual, construir as narrativas


guiadas por dados, tornou-se a cada dia, desafios em um cenário de realidade
multidisciplinar de base tecnológica.

Figura 30 – Equipe multidisciplinar e processos narrativos com dados

Fonte: elaboração da autora

As produções de visualização de dados expandem em suas composições e


agregam cada vez mais dados massivos, cruzamento, interação com mais
densidade informativa quando se compara com as produções que utilizam apenas
elementos multimidiáticos (figura 31). Neste caso, a expansão tenta atender à
demanda de trabalhar com grandes volumes de dados, tanto no que se refere ao
tratamento quanto em todo seu protocolo de construção. Conforme constatado na
matriz comparativa, o movimento dos dados abertos já é uma realidade para a
cadeia produtiva, tendo em vista o uso intensivo como base fundamental para as
214

visualizações. De um lado, essa iniciativa pode ser vista de maneira positiva, quando
as políticas de dados abertos estão flexibilizando o acesso. Por outro, há reclames
de que em algumas redes sociais houve uma mudança na política de privacidade da
rede social Facebook, o que dificulta a coleta dos dados, conforme nos alerta o
Coordenador de software do Labic, em entrevista concedida. “Para nós foi uma
inestimável perda porque a gente tinha antes uma ação dos usuários. E o Facebook
tem aquele problema que vive atualizando as versões dele, então há uma constante
atualização nos códigos, agora funciona numa versão mais recente”.

Figura 31 – Nuvem de tags resumo dos resultados da tese

Fonte: elaboração da autora

No que observamos nessa comparação, a utilização das tecnologias


dependem muito do esforço de cada equipe em criar ou adaptar em conformidade
de cada projeto ou até mesmo em mesclá-las para atender aos grandes volumes de
dados coletados. Essa diversidade de tecnologias que é fundida revela a
215

complexidade que essa nova realidade posta diante de dados massivos e de


encontrar maneiras de tomada de decisão frente à demanda por informações mais
denso-analíticas. Contudo, ainda nesse contexto de tecnologias utilizadas,
destacamos nessa comparação, o fator inovação que emerge quando os volumes de
dados conduzem à produção de visualização de dados, constituindo, assim, uma
realidade multifatorial conforme a complexidade do tratamento dos dados massivos.
Nesta direção, consideramos que o uso das tecnologias próprias como fator de
inovação leva a mudanças estruturais na matriz de produção com especificidades
próprias em um processo complexo, desafiador e dinâmico.
Assim, com o cenário posto, é salutar uma equipe com distintos
conhecimentos para o atendimento dessa produção reconfigurada – conforme já
discutimos no capítulo 2 desta tese. O Cientista de Dados surge como uma profissão
central para a decodificação dos grandes volumes de dados e que, nesse contexto,
é o profissional da linha de frente nesse processo. As habilidades – também já
discutidas anteriormente – resultam numa fusão de áreas de conhecimento
diversificadas, devido à complexidade do Big Data e da Ciência de Dados aplicadas
nas visualizações.

6.5 Especificando as Narrativas Disruptivas de


Visualização Guiadas por Dados

A utilização dos elementos gráficos para contar histórias é uma técnica


popular empregada para envolver o público. Quando gráficos de dados bem
projetados são usados em apresentações, eles destacam os principais insights ou
pontos que você deseja acentuar. Histórias podem ser contadas através de vídeo,
narrativas na web e até mesmo através de interfaces orientadas ao público
(SOLSULKI, 2019) para além de mostrar dados estatísticos. Com base nesse
entendimento, as Narrativas Disruptivas de de Visualização Guiadas por Dados
têm a capacida de modelar os dados em distintos contextos e com
profundidade informacional. Ou seja, são produções contínuas e mutáveis que
vão se reconfigurando a partir das transformações e avanços de base
216

tecnológica, científica, cultural e social. Trata-se, portanto, de uma


transformação na estrutura narrativa na contemporaneidade, considerando
que os avanços das tecnologias digitais mostram-se com capacidade enorme
de coletar um grande número de dados sem intermediação humana. Isto é,
através dos sistemas automatizados se pode evitar enviesamento do conteúdo
informacional, tornando a composição mais objetiva e menos subjetiva.
A pertinência do contexto é algo destacado nas pesquisas de autores
(KNAFLIC, 2015; CAIRO, 2017; VALERO SANCHO, 2018; SERRA, 2019)
considerando que os dados mostrados isoladamente podem não agregar
funcionalidade. É necessário que esses dados estejam em diálogo com outros
elementos de composição para que haja uma amplitude no entendimento das
informações gráficas. A questão é: Como explorar os dados massivos para contar
histórias atraentes para o público? Nos estudos de Knaflic (2015) são apresentados
seis aspectos que compõem uma narrativa com dados, quais sejam: 1. Entenda o
contexto, 2. Escolha uma exibição visual apropriada, 3. Elimine a desordem, 4.
Focalize a atenção onde quiser, 5. Pense como um designer e 6. Conte uma
história.
O autor chama a atenção para que, numa narrativa com dados, a importância
de contextualização da narrativa é um fator essencial para a compreensão das
informações, tendo em vista que o significado a ser atribuído aos dados. Para ele, a
narrativa com dados oferta outra questão, a análise exploratória. Esse é o passo
para o entendimento dos dados e descobrir novos caminhos e informações na
narrativa e pensar em: Quem (Para quem está se comunicando?), ou seja, a
audiência, quanto mais conhecer bem o seu público, mais bem sucedida será a
narrativa; O que (Qual tipo de conteúdo quer que seu público conheça?), deixar
claro como deseja que seu público-alvo compreenda a informação; Como (Como
usar os dados para uma narrativa compreensível?). Para ser bem sucedida, uma
narrativa deve ser central para a comunicação. A Visualização de Dados corre o
risco de cair sem uma narrativa convincente para acompanhar. Deve-se, contudo,
enfatizar a pertinência de uma narrativa convincente e robusta uma vez que “o
nirvana na comunicação com os dados é alcançado quando os efeitos visuais são
combinados com uma narrativa poderosa” (KNAFLIC, 2015, p. 175).
Nesta direção, há algumas especificações ao retratar uma narrativa com
dados, que segundo o autor, são importantes nessa composição. O primeiro é o
217

Fluxo Narrativo, que se refere a ofertar uma estrutura organizativa e conferir


significado. É o caminho que leva a audiência para a apresentação, neste caso, para
a narrativa com dados. Segundo, é lead with the ending que vamos traduzir como
“Finalização”, que tem início com a ação e depois, retorna as partes críticas da
história para que o público estabeleça suas próprias conclusões a respeito daquela
narrativa.
A partir das contribuições dos autores e dos resultados da nossa pesquisa,
propomos uma estrutura dinâmica das narrativas disruptivas de visualização guiada
por dados (Quadro 7) na qual sugere um modelo de composição para estas
construções visuais.

Quadro 7 - Estrutura Dinâmica das Narrativas Disruptiivas de Visualização Guiadas por Dados

Fonte: elaboração da autora


218

Numa ambiência interativa, as narrativas com dados tornaram a nova forma


de contar histórias. Todavia, salientamos que a noção de narrativa neste contexto
não se refere à estrutura tradicional da literatura, mas de visualização inteligente de
dados que se cruzam originando uma nova informação em formato e linguagem de
dados. Nessas composições, os usuários interagem com os dados e buscam
conferir sentido na informação visual apresentada, em essência criando sua própria
narrativa, história ou absorvendo a hierarquização visual construída. Um dos fatores
para que essa condição seja alcançada, está, segundo Knafli (2015), na
simplicidade das interfaces visuais porque estimula a investigação sem tratamento
sofisticado em Ciência de Dados ou análise. Desta forma, pode-se observar o
protagonismo do usuário ao se deparar com essas narrativas com dados, algo que
também é reforçado por Kosara e Mackinlay (2013) quando eles afirmam que contar
histórias só faz sentido se houver uma audiência, ou seja, o público-alvo, fato que
eles ressaltam que essas narrativas são inerentemente colaborativas.
Além disso, as narrativas de visualização guiadas por dados revelam pontos
de disrupção que as diferenciam, quais sejam:

1) Dimensão massiva dos dados: Presença de dados massivos como


elementos fundamentais para a estruturação das narrativas. São
construções em que os grandes volumes de dados se tornam visíveis e
interativos;
2) Dimensão interpretativo-analítica: Não se restringe a mostrar os dados,
mas proporcionam interpretação e análise a partir deles. A Ciência de
Dados está no centro dessas produções;
3) Dimensão Tecnológica: Com o poder dos dados massivos, é preciso o
desenvolvimento de ferramentas adequadas para o gerenciamento de
todo o processo de construção. A criação de ferramentas e apps
próprios torna o fator diferencial;
4) Dimensão Contextual: Nessas narrativas, os dados estão
contextualizados e com o estabelecimento de conexão;
5) Dimensão Multifatorial: São inúmeros fatores que devem ser levados
para essas construções: Coleta (o que coletar?), filtragem/mineração (O
que vai ser útil?), Análise (dados tratados/Ciência de dados),
219

Formato/estética (Qual o melhor formato?), Contexto, Audiência (A quem


se destina a narrativa?).
6) Dimensão Multidisciplinar: Composição da equipe advinda de outras
áreas do conhecimento como Design, Computação, Comunicação,
Engenharia, Matemática entre outras.

Podemos destacar ainda que o usuário assume o protagonismo nas


narrativas de visualização guiadas por dados, na medida em que, diante dos dados
massivos visualizados, pode traçar seu próprio caminho ao explorar os dados na
narrativa. Tais dimensões discutidas acima demonstram que os processos
disruptivos não estão presos necessariamente às disrupções estritamente de base
tecnológica, conforme conceituação de Sood e Tellis (2011) quando destacam que a
disrupção ocorre ao passo que a introdução de uma nova tecnologia ultrapassa a
tecnologia dominante. Em nossa investigação, utilizamos as contribuições de Obal
(2013) e Nagy et al (2016) que preferem utilizar o termo inovações disruptivas do
que tecnologias disruptivas e afirmam que são aqueles processos que vão gerar
inovações disruptivas ou descontínuas que mudam as estruturas padrões com a
finalidade de fazer uso da inovação.
Os grandes volumes de dados introduzidos nas visualizações e as dinâmicas
são considerados em nossa pesquisa como central no processo de disrupção. Se
formos adentrar na literatura especializada, constataremos que os dados, de alguma
forma, se fizeram presentes nas visualizações de dados. Dados entendidos aqui
como os elementos gráficos que compõem, como textos curtos, números, pequenos
gráficos, imagens em movimentos, áudios, dentre outros, que, em outros momentos,
também inovação na construção das peças visuais
A visibilidade dos grandes volumes de dados nas narrativas não somente
ilumina o caminho dos dados, mas proporciona uma interpretação denso-analítica,
ou seja, diante dos dados massivos em uma narrativa de visualização, estes
fornecem mais análises e poder de compreensão que ampliam o conhecimento.
Esse poder denso-analítico rompe com a assertiva do famoso estatístico e artista
Tufte (2001), em que, para ele, acima de tudo, mostre os gráficos. Neste momento,
o autor valorizava preponderamente apenas os dados estatísticos para a
transmissão de idéias complexas e que estes estejam visíveis. As ideias propagadas
por Tufte (2001) tiveram muita influência nos profissionais de todo o mundo e mudou
220

a forma como produzir essas narrativas, fase em que Cairo (2011) estabelece como
a era dos gráficos estatísticos. Tais narrativas oferecem a possibilidade de, diante
uma massa de dados, analisar e interpretar aqueles dados. Evidentemente, que nem
todas as narrativas de visualizações de dados vão cumprir ou cumprem essa função,
não se trata de uma regra geral a ser atingida, mas em diagnosticar e fornecer um
retrato desse movimento nas produções visuais.
As Dimensões Tecnológicas estão vinculadas ao desenvolvimento de
ferramentas específicas que atendam à demanda do tratamento dos dados
massivos. Como vimos nos resultados desta tese, o aperfeiçoamento e criação de
novos software e apps são uma prática que desafiam os profissionais e
pesquisadores cotidianamente, para além das linguagens mais utilizadas como R,
Python, HTML5, por exemplo. No caso do Labic, o Ford, software criado por eles,
busca atender toda a demanda dos grandes volumes de dados que eles trabalham,
desde a coleta à apresentação, e o mesmo está sob atualização contínua. Todavia a
dimensão tecnológica está intimamente vinculada às questões de habilidades e
equipe multidisciplinar que atendam a essas produções.
Conforme nossa observação etnográfica mostrou, a necessidade de mesclar
diferentes áreas do conhecimento, o que tornou um “laboratório misto”, é uma
realidade irreversível diante o cenário imposto pelo Big Data. Ora, tem-se, nos
últimos anos, uma gigantesca massa de dados que necessitam de refinamento,
análise e apresentação - só para citar alguns processos - que, em diálogo com
outras áreas (Design, Engenharia, Comunicação, Ciência da Computação)
transcodifica essa linguagem gráfica de modo diferenciado, rompendo com
padrões/modelos vigentes, a exemplo da reportagem multimídia, que é ancorada,
sobretudo, pela utilização de elementos gráficos (textos curtos, áudios, imagem em
movimentos, hiperlinks). Conforme observamos no estudo comparativo entre o Labic
e Prêmio Data Journalism Awards (discutidos no item 6.3.2 desta tese), evidencia o
protagonismo dos dados nas visualizações de dados, o que reforça essa condição.
A mescla de distintos conhecimentos está direcionada aos aspectos de: 1)
Ativismo dos dados - A força do laboratório está na valorização dos dados enquanto
elemento essencial das visualizações no campo da opinião política e da visibilidade
de narrativas por trás dos dados, de storytelling com atuação nesse campo de força
social; 2) Dados guiam as narrativas - os dados são protagonistas das narrativas
disruptivas observadas durante a pesquisa. No caso específico, os grandes volumes
221

de dados (Big Data).; e 3) Projetos de Ciência de Dados e Inovação – O estudo de


caso, Labic, está estruturado nas bases da Ciência de Dados com a exploração da
inovação a partir do desenvolvimento de software de coleta de dados, modelagem e
formatos de visualização.
Deste modo, a inovação disruptiva aplicada às narrativas de visualização
guiadas por dados são compreendidas neste estudo como um conjunto de
dispositivos (social, cultural, tecnológico, interpretativo, contextual) que pode
impactar ou prover rupturas em determinadas estruturas e processos criativos, em
destaque quando 1) apresenta algo novo e 2) introduz uma nova ideia, método,
novas formas de realização de maneira contínua. Utilizamos o termo inovação
disruptiva por julgarmos mais amplo e abranger as inovações culturais, tecnológicas,
institucionais, multidisciplinar, e, portanto, é a que está em consonância com nosso
objeto de estudo, uma vez que se observa uma ampliação da perspectiva sistêmica
sobre o termo. Com a ampliação deste, compreende-se que também o mesmo pode
ser utilizado como modo estratégico de criar novos ecossistemas baseados em
dados pelas várias possibilidades combinatórias de inovações e
difusão/espalhamento.
Nesse sentido, as inovações disruptivas são um campo aberto de
possibilidades dentro da Ciência da Informação, pois podem proporcionar modos
diferenciados de produção, consumo e disseminação da informação, na medida em
que a convergência de dispositivos estabelece novos hábitos de leitura e expansão
do conhecimento, o que pode provocar mudanças substanciais. As preocupações
em entender as inovações disruptivas dentro das Ciências Sociais constam de
longas datas, sobretudo, nos estudos de inovação, tecnologia, organizacionais e
negócios (WINSKEL, 2018), tendo como pesquisas pioneiras as de Joseph
Schumpeter, em meados do século XX, apresentando os conceitos de inovação
voltados ainda para fins econômicos, ligados ao sistema capitalista, e de Clayton
Christensen, com os primeiros estudos sobre inovação disruptiva, lançando
pesquisas sobre o dilema da inovação disruptiva.
Os pontos de disrupções nas narrativas de visualização guiadas por dados
demonstram graus de potencialidades que tornam a narrativa mais dinâmica e como
fator de diferenciação frente aos produtos digitais. Isto é, se trata da estruturação
dos dados massivos a partir de um conjunto de outros elementos digitais. Conforme
vimos anteriormente no decorrer desta pesquisa, o uso sistemático das narrativas
222

em formato Snow Fall e as narrativas Long Form (discutidas anteriormente) são


exemplos paradigmáticos que permitem novas funcionalidades, interpretação,
exploração e indicam inovações disruptivas em todo o seu processo de construção.
Certamente que não se trata de afirmar que se configura em um modelo único,
fechado. Ao contrário, experimentações e novos formatos estão em curso de modo
contínuo que oxigena e traz evolução aos padrões visuais na contemporaneidade.
Por outro lado, importante ressaltar que nem todas as visualizações vão
conter, de modo obrigatório os pré-requisitos das narrativas disruptivas, na qual
apontamos a estrutura dinâmica. Parte das visualizações pode apresentar um
conteúdo fundamentalmente estatístico sobre determinados assuntos, como gráficos
de barras, tag cloud, gráficos de linha, timeline, entre outros formatos, e oferecer
pouco didatismo gráfico, ou seja, sem uma estrutura organizativa, formatos
adequados, contexto. No cenário dos dados massivos, as narrativas disruptivas são
uma forma de leitura, interpretação e análise do calhamaço de dados imerso em
nossa sociedade.

6.5.1 PROSPECÇÃO PARA O DATA SCIENCE EM


CENÁRIOS DISRUPTIVOS

Os avanços das tecnologias da computação e a explosão de dados


contribuíram para alimentar um território fértil de grandes problemáticas, acentuando
a constante busca em como resolver problemas dessa natureza de uma maneira
adequada, bem como a melhor operacionalizar, conferir significado aos dados e
produzir uma gestão inovadora a partir deles, cuja ubiquidade dos dados também
acarreta problemas e desafios para a Data Science. Na observação etnográfica no
Labic, tais questões ficaram latentes de modo sistemático em como possibilitar
soluções ao lidar com grandes volumes de dados e dar sentido a eles.
A pesquisa de campo apontou, de forma operacional, cenários disruptivos
para compreender a gerência dos dados, os desafios e as contribuições para os
estudos nessa área em termos de mudança de perfil profissional e mudança na
dinâmica de dados, quais sejam: Cenário profissional, Cenário Tecnológico, Cenário
223

Científico. A proposta é refletir sobre três cenários cruciais que podem desdobrar em
novos aportes para estudos da Ciência de Dados e compreender o modo como as
inovações disruptivas suscitam nesse ambiente emergente. Assim, os cenários não
se mostram de maneira estanques dada a dinâmica e atualização contínua dos
dados, mas o objetivo é apontar caminhos a serem descortinados na medida em que
pesquisas e estudos vão se consolidando. Portanto, por cenários disruptivos
indicamos contextos em que a combinação estratégica entre tecnologia, inovação e
formatos implica em condições paradigmáticas, disruptivas que modifica um estado.

1) Cenário Disruptivo Profissional. No quesito de perfil profissional, os


desafios trazem implicações. Um relatório de McKinsey Global Institute estima que
até 2018 os Estados Unidos sozinhos poderiam experimentar uma escassez de
cientistas de dados com profundas habilidades analíticas e de 1,5 milhão de
gerentes e analistas capazes de tirar o máximo proveito da Big Data. O manejo das
ferramentas para análises de grandes dados, sendo a maioria delas automatizadas,
apresenta uma exigência para a formação dos cientistas de dados na
contemporaneidade, somando com as habilidades de várias outras áreas do
conhecimento que podem acarretar uma sobrecarga de atividades. A Ciência de
Dados postula competências necessárias que garantam uma administração de
novos conhecimentos e novas descobertas que não estejam restringidas aos
avanços tecnológicos, mas que abranjam saberes e capacidades holísticas.

2) Cenário Disruptivo Tecnológico. Quanto às mudanças na dinâmica dos


dados, podemos indicar a infraestrutura de dados. A criação de uma infraestrutura
de dados, ciclo de vida para análises, habilidade de gerenciamento de dados e
incorporação de tecnologias como Hadoop e bases de dados NoSQL – como
mencionamos anteriormente – requerem não somente habilidades técnicas e
tecnológicas para a gestão de dados como também profissionais que estejam
gabaritados para pensar criticamente, encontrar soluções criativas e soluções
inovadoras. Este pode ser compreendido como um dos desafios do cenário
contemporâneo frente ao gerenciamento dos mesmos, uma vez que os dados são
um fenômeno pervasivo, cujas expectativas introduzem novas descobertas e uma
compreensão global.
224

3) Cenário Disruptivo Científico. As investigações científicas, bem como a


metodologia em torno da Ciência de Dados poderão ser instauradas no campo
empírico e de experimentações. Para isso, este aspecto requer o desenvolvimento
de metodologias inovadoras e estudos avançados que ajudem na exploração de
fenômenos e os objetos de estudos com dinâmicas distintas que exijam nova
perspectiva teórica e metodológica. Os métodos estatísticos e de aprendizagem
automática por máquina (machine learning), por exemplo, apontam como métodos
promissores para quantificar novos padrões diante do Big Data. O alcance e o
impacto dos dados científicos, por exemplo, tende a expandir na medida em que
novos processamentos e novas formas de gerenciar dados forem aprimorados a
partir da Ciência de Dados.
Os cenários discutidos acima, como contribuição nossa, ainda se encontram
em construção e há razão de ser tendo em vista que a Ciência de Dados ocupa
cada vez mais espaço nos campos governamental, acadêmico e
corporativo/industrial. Desta maneira, as manifestações de dados na sociedade, em
várias áreas, apontam para a emergência de investigações que possam adentrar a
complexidade. A Ciência de Dados promove, aliada a várias disciplinas, modelos
práticos e teóricos. Ao mesmo tempo, como se trata de uma área recente, traz
questionamentos que precisam ser mais aprofundados. Deste modo, a Ciência de
Dados se manifesta como uma nova área ou uma nova forma para o fazer científico
nas dimensões teóricas, metodológicas e epistemológicas, além de novas técnicas
de exploração de dados para resolução de problemas ou fundamentação para se
compreender o contexto de explosão de dados.
A partir destas considerações, há uma preocupação em compreender os
desafios diante da gestão de grandes volumes de dados é um aspecto central para a
Ciência de Dados e para os cientistas de dados. No contexto da Ciência da
Informação essa atenção emerge como uma questão de primazia quanto à explosão
de dados tendo em vista a complexidade operativa na sistematização desses dados
visando à coleta, processamento e visualização. Como vimos, a Ciência de Dados
tem crescido e recebido atenção da academia e das corporações com delineamento
de novo perfil profissional para a gestão de dados, ou seja, o cientista de dados, que
por sua vez é posicionado como o profissional em ascensão nesse cenário
permeado pela convergência de habilidades e absorção de novas tendências. A
questão, contudo, não se limita a manejar o ferramental tecnológico e programas de
225

software que deem conta do volume de dados, mas encontrar soluções estratégicas
para transformações disruptivas no contexto sociotécnico. Tal fato requer
orientações inovadoras dos dados a partir do ciclo de vida – do surgimento ao
descarte.
Outro desafio observado nesse estudo sobre Ciência guiada por dados é a
necessidade de desenvolver metodologias inovadoras que mobilizem novos
agenciamentos para a exploração do contexto de dados. Teorias e metodologias se
coadunam para a emergência dos grandes volumes de dados – Big Data – em
ambiência digital. Portanto, é necessária a criação de uma infraestrutura confiável
para coleta, disseminação, mineração, compartilhamento, curadoria e adequação
dos dados para visualização. Nesta direção, as contribuições dos fundamentos da
Ciência da Informação (CI), neste novo limiar científico que desponta os dados,
estão alinhadas com a compreensão das consequências e potenciais dos dados na
sociedade como um todo. Um desses potenciais para que os dados possam ser
acessados, coletados, reusados e visualizados é o movimento dos dados abertos
(Open Data Movement) que permitiu um acesso livre para qualquer finalidade, seja
do pessoal aos negócios.
226
227

O futuro tem muitos nomes.


Para os fracos é o inalcançável.
Para os temerosos, o desconhecido.
Para os valentes é a oportunidade.
(Victor Hugo)

O percurso desta tese demonstraa necessidade do olhar interdisciplinar para


fenômenos vinculados à informação e dados e o contexto informacional do Big Data,
Data Science e da Visualização de Dados. Essa interlocução com outros campos e
áreas é proeminente e se coaduna com os procedimentos dos laboratórios de
inovação, permeados de equipe de perfil interdisciplinar (Designers,
Desenvolvedores, Cientistas de Dados, Cientistas da Informação, etc). As
visualizações de dados vêm ganhando novos contornos e se reconfigurando a partir
do contexto tecnológico e cultural que vem se desenhando. Com a ascensão do
fenômeno do Big Data e da Ciência de Dados perpassando várias áreas do
conhecimento, a composição, a forma de apresentação, o tratamento e o
armazenamento passou por mutações que podem ser observadas nesta nova forma
de produzir visualizações fundamentadas em dados massivos. São aspectos que
devem explorados e observados frente às produções sistemáticas nesse novo
cenário.
Adentrar na esfera de dados do Labic, que emergiu no contexto da inovação,
contribuiu para esmiuçar as práticas laboratoriais e desvendar os aspectos de
narrativas disruptivas, conforme nossa questão central. Embora constatamos que o
laboratório necessita de mais incrementos no que se refere à escolha dos formatos.
Como se trata de um ambiente com ferramental tecnológico avançado e sofisticado,
poderiaexplorar novos formatos como o Heat Map, narrativas no estilo Snow Fall,
por exemplo, que são modos inovadores de apresentação dos dados. Ao mesmo
tempo compreendemos que a força motriz do laboratório reside em adentrar
228

profundamente nos dados massivos (Big Data) e a realização de análises (Ciência


de Dados) dentre outros desdobramentos em perspectiva de questões práticas e
questões acadêmicas.
Além das observações in loco que permitiram ter uma visão das interações
entre os profissionais, as entrevistas realizadas e documentos levantados
culminaram com o desenho do laboratório enquanto estudo de caso quanto à
estrutura e fluxo de produção e os resultados em forma de Visualização de Dados,
desencadeando narrativas disruptivas guiadas por dados e novas formas de contar
história no jornalismo e no âmbito da Ciência da Informação. Devemos, igualmente,
apontar os tensionamentos, distensões e dilemas que atravessam o trabalho do
estudo de caso analisado diante do fenômeno da produção de narrativas guiada por
dados e as suas dimensões. Primeiro, a dimensão ética e de privacidade dos dados.
O laboratório atua com Big Data (grandes volumes de dados) e a natureza desses
dados se configura como sensíveis e originais. De fato, o disruptivo está na
aderência ao complexo tanto na visualização quanto no cruzamento de dados que
aponta para uma sociedade de dados em que a visibilidade dos dados emerge a
partir de controvérsias que dados complexos revelam de forma pedagógica. O Labic
se utiliza exaustivamente da rede para extração de dados por meio de construção de
API’s próprias e programas de visualização. Entretanto, o contexto pode inviabilizar
a origem dos dados de atores humanos ou não humanos como robôs.
Delimitamos conceitualmente o que são narrativas disruptivas de
visualização de dados, compreendendo a relevância do conceito para o
entendimento dos modos de produção visuais. Partimos do arcabouço teórico
(CAIRO, 2017; KNAFLIC, 2015; SOLSULKI, 2019) para refletir as reconfigurações
das visualizações de dados através do fenômeno do Big Data e da Ciência de
Dados, entendendo aqui os dois conceitos umbilicalmente vinculados ao nosso
objeto de estudo. As visualizações de dados saem do patamar de “mostrar” para
“contar” histórias através dos dados. Neste sentido, a máxima de que acima de
qualquer situação os números devem ter uma visibilidade maior já não se sustenta
tanto quando apontamos a estrutura dinâmica das narrativas de visualização
guiadas por dados, em que sugerimos um conjunto de aspectos para que as
narrativas ocupem outro status de produção e posicionamento, de contar histórias
através dos dados.
229

A Estrutura Dinâmica das Narrativas de Visualização de Dados demonstra


o quanto às narrativas de visualização de dados podem conter os elementos
narrativos inerentes e que, devido ao fenômeno do Big Data, traz contornos novos,
da coleta à apresentação dos dados nas narrativas e como destaque, a Ciência de
Dados, neste processo, tornou-se o centro dinâmico de produção de narrativas
disruptivas e um fator essencial no que se refere à análise dos dados coletados: a
partir dele, vão desencadear formatos, interação, contextualização da narrativa e
fluxo narrativo. Portanto, comprovamos a nossa tese de que as visualizações de
dados fomentam narrativas disruptivas e novas dinâmicas, a partir do fenômeno do
Big Data e da Ciência de Dados, sendo é um aspecto reconfigurador de tais
narrativas. Apontamos os Pontos de Disrupção, quais sejam: 1) Dimensão
Massiva dos Dados; 2) Dimensão Interpretativo-analítica; 3) Dimensão Tecnológica;
4) Dimensão Contextual; 5) Dimensão Multifatorial e 6) Dimensão Multidisciplinar,
como também, sugerimos os cenários disruptivos nas quais as narrativas estão
imersas.
A sistematização das dimensões é um recurso organizativo que possibilita o
reconhecimento de que novas dinâmicas são exigidas para a demarcação de
aspectos narrativos (das narrativas clássicas) e de destaques nas visualizações de
dados. Retomando as hipóteses, consideramos, à luz dos resultados, que a hipótese
1, que versava sobre “a Visualização de Dados no contexto da Ciência de Dados a
partir de laboratórios inovadores guiados por dados estabelece uma nova
estruturação para a apresentação de narrativas disruptivas com impacto científico-
tecnológico e social no Campo da Ciência da Informação” foi comprovada. Deste
modo considerando que a emergência das narrativas disruptivas com o uso
intensivo de dados do Big Data está posta como reconfiguração para o Campo da
Ciência da Informação tendo em vista o impacto tanto científico quanto social que
representa o cruzamento entre mega dados e estruturação de Visualização de
Dados com nova dinâmica.
Enquanto que a hipótese 2 que afirmava que “as inovações disruptivas
oferecem subsídios para a reconfiguração dos formatos das visualizações de dados
científicos em ambientes digitais por meio do Big Data e do Data Science” foi
parcialmente comprovada. No quesito de subsídios para a reconfiguração dos
formatos é patente e coerente com os resultados. Entretanto, não podemos apontar
todas as tecnologias que se configurem como “inovações disruptivas” para o
230

contexto. Todavia, partindo da hipótese 1 como articulação dentro da hipótese 1 os


laboratórios de inovação como o do nosso caso em particular Labic desencadeia
processos inovadores com o desenvolvimento de aplicações e tecnologias próprias
para lidar com questões de extração e visualização de dados em nível complexo que
vislumbram o aspecto disruptivo.
Deste modo, respondemos ao longo do trabalho de tese à questão central
norteadora: “Que implicações a Visualização de Dados representa para a produção
de narrativas disruptivas quanto à dinâmica do contexto da Ciência de Dados e do
Campo da Ciência da Informação a partir dos laboratórios de inovação guiados por
dados?”. Entre as respostas para a questão de pesquisa, o conjunto dos resultados
aponta para aspectos paradigmáticos de estruturação de narrativas de Visualização
baseadas em dados com a exploração, no interior dos laboratórios como o Labic, da
Ciência de Dados com consequente desdobramento para Ciência da Informação
com sua natureza interdisciplinar. A observação empírica, as entrevistas,
documentos, observação da produção de narrativas e a recuperação da própria
literatura contribuíram para a exploração desta questão ao longo da tese.
Portanto, os dados estão no centro dinâmico de produção e podem
desencadear processos inovadores na sociedade contemporânea: os dados dizem,
os dados saem da invisibilidade, os dados guiam as narrativas contemporâneas.
Dentre as conclusões possíveis, as narrativas disruptivas de visualização guiadas
por dados não são apenas estruturas organizativas, mas são padrões funcionais de
aquisição das informações com ampliação do conhecimento e modos de
interpretação e leituras das informações.
Os resultados contribuíram também para oferecer uma visão sistêmica do
ecossistema dos dados e de sua materialização nas narrativas e de como estas
estão inseridas no contexto dos dados massivos. Neste ponto, a Ciência de Dados
foi um conceito fundamental em toda a etapa da pesquisa que contribuiu para os
resultados fundamentais para a compreensão do nosso objeto de estudo.
Entendemos que não existem as composições das narrativas disruptivas sem a
aplicação das técnicas da Data Science que se debruça em analisar os grandes
volumes de dados coletados, bem como fornecer suporte a extração, mineração e
demais processamento. Portanto, esse conceito funcionou como uma bússola em
todo o percurso e fortaleceu nos resultados finais.
231

O recurso de entrevista com os especialistas foi outra estratégia metodológica


adotada durante o percurso da tese que auxiliou no entendimento das disrupções
nas narrativas de Visualização de Dados. Entrevistamos especialistas em
Visualização de Dados/Design do Brasil, Europa e Estados Unidos, todos
apresentando ampla experiência na prática de mercado e na academia para poder
cartografar esse movimento em curso, embora as visões apresentadas se limitaram
às suas respectivas áreas de atuação: Comunicação e Design. Não tivemos retorno
dos especialistas da área da Ciência da Informação.
A investigação também oferece uma reflexão teórica sobre a condição de
compreender os estudos em Big Data, Data Science e Visualização de Dados dentro
da Ciência da Informação, dado o seu potencial transformador de realidade. Os
estudos dos dados com suas variadas facetas ainda tem muito a contribuir para o
fortalecimento da temática dentro da área como traz implicações sobre a
comunicação científica como um todo. Alguns aspectos se referem aos produtos
informacionais, bem como afeta a forma da gestão de dados, remodelada a partir
dos grandes volumes de dados, e da possibilidade de memória dinâmica no
ciberespaço, da oferta de formas diferenciadas de leitura das informações e de
compreensão para aquisição do conhecimento, preservação digital e planejamento
das bases de dados.
Os estudos dos dados, como focos de abordagens variados, criam dimensões
transformadoras na sociedade e podem apresentam aspectos paradigmáticos tanto
para a Ciência da Informação quanto para a Ciência da Computação, Comunicação,
Design, Engenharia e outras áreas correlatas. Faz-se necessário compreender os
desafios trazidos a esse novo contexto a fim de consolidar o alicerce teórico,
metodológicos, científicos com o intuito de solucionar questões emergentes. Novas
propostas metodológicas, como o desenvolvimento de ferramentas próprias e
adequação de métodos de pesquisa são urgentes para esse cenário em evolução.
Podemos apontar algumas limitações da pesquisa. A primeira pode ser em
relação aos casos empíricos. Por ser um estudo de caso único impossibilita a
generalização dos resultados, mesmo que tenhamos justificado pela questão de ser
um caso efetivamente paradigmático e representativo do fenômeno. Entretanto,
como explicado na introdução e metodologia não foi possível estabelecer logística
para a exploração de outros casos. Consideramos que para essa limitação, de
algum modo, procuramos preencher algumas lacunas por meio do aprofundamento
232

do caso, correlações de dados documentais, observação no site das produções das


visualizações premiadas do Prêmio Data Journalism Awards, que permitiram
comparações com as narrativas do Labic de modo a comparar o laboratório com
outras iniciativas.
Uma segunda limitação pode ser o tempo de pesquisa de campo de uma
semana para observação das práticas laboratoriais do Labic. Cientes de que a
abordagem etnográfica reinvidica, dentro do campo da antropologia, de um tempo
mais estendido para o estabelecimento de padrões de comportamento a partir de
diário de campo. Mesmo colocando como limitação da pesquisa, optamos pelo
tempo de uma semana como suficiente para nossa pesquisa pelo fato de que além
da observação em si e in loco tivemos outras fontes de dados primários como
entrevistas, observação monitorada das produções no site do laboratório referentes
às visualizações, documentos dos processos, entre outros materiais que
subsidiaram a pesquisa para a profundidade da exploração do caso.
Do mesmo modo, outro ponto limitador da pesquisa se refere à composição
dos especialistas que foram entrevistados, totalizando seis
pesquisadores/profissionais sobre a temática, um númeo abaixo das expectativas.
Inicialmente, elencamos quase trinta especialistas nas áreas de Ciência da
Informação, Design e Visualização de Dados, brasileiros e estrangeiros. Enviamos
e-mails com as entrevistas semi-estruturadas. O total de respondentes, três
brasileiros e três espanhóis, todos são professores/pesquisadores universitários
provenientes das áreas de Design e Visualização de Dados. Esse contraponto com
a CI enriqueceria nosso arcabouço teório, uma vez que se trata de uma temática
quase inexplorada e apresentando carência de pesquisas empíricas mais
sistemáticas.
Alguns conceitos expostos durante a pesquisa, como o de “Narrativas
Disruptivas de Visualização guiadas por dados”, por exemplo, expressam alguns
pontos a serem revistos: 1) Por um lado, demonstra uma tentativa de acercar o
fenômeno mais de perto, algo genuinamente novo dentro da CI, e, portanto, com
potencial de se fundamentar e se consolidar; 2) Por outro, expressa uma fragilidade
conceitual nesta ação e requer uma maior profundidade argumentativa, tendo em
vista que a extração desse conceito está vinculada diretamente aos casos
empíricos, nesta questão, a um caso único da tese, outro fator limitador como já
mencionamos. O conceito em questão, provenientes dos resultados empíricos,
233

revela que pode ser amplificado em outros contextos e em outros ângulos de


abordagens como preenchimento desse gap conceitual. A nossa intenção aqui foi
demarcar o seu lugar na CI, entendendo como ponto de partida para que este possa
ser retomado com novos olhares e diálogos, rumo ao seu fortalecimento na área.
Outro conceito que não foi trabalho em profundidade se refere a E-sience,
debatido no início da pesquisa. Reconhecemos a importância científica e pertinência
que esse conceito contribui para as pesquisas acadêmicas, porém, para a nossa
pesquisa, tal conceito não ocupava o foco central do desencadeamento da mesma,
apenas discutimos sem a exaustão do mesmo.
A tese de doutorado fecha esse ciclo com respostas para algumas demandas
levantadas quanto às questões de pesquisa e contribuição para o estado da arte
sobre o fenômeno. E, ao mesmo tempo, abre novas frentes de pesquisa que
possam ser desenvolvidas durante estágio pós-doutoral pretendido visando avançar
sobre o estado da arte do campo do Big Data e Visualização de Dados. Uma
sociedade datificada engaja novos desafios para pesquisadores no âmbito da
Ciência da Informação.

7.1 Apontamentos para trabalhos futuros

Ao se debruçar nos estudos sobre o tripé conceitual e norteador Dataviz, Big


Data e Data Science, futuros estudos relacionados à tese cabe aprofundamentos em
várias frentes. A trajetória desta investigação forneceu subsídios para novas
pesquisas e propostas de estudos, dos quais se propõe:

1. Desenvolvimento de um conjunto mais amplo de metodologias e métodos


novos que atendam à demanda por novas fontes/estudos científicos em
projetos relacionados aos estudos dos dados;
2. Estudar os graus de complexidade das narrativas disruptivas, bem como a
verificação da aplicabilidade dela junto à audiência e seus impactos;
234

3. Realizar um estudo de recepção com a finalidade de averiguar/definir quem é


o público que ler/consome essas informações visuais, para quem se destina e
traçar um perfil nestas condições;
4. Averiguação na forma didática em que as narrativas são apresentadas, tendo
em vista que são produzidas no contexto emergente dos dados massivos e
que nem todas se apresentam de modo compreensível;
5. Construir modelos/protótipos para pensar as Narrativas de Visualização
Guiadas por Dados em outros ambientes informacionais, como os dispositivos
móveis.

Estes apontamentos para trabalhos futuros podem apresentar inúmeras


alternativas de exploração da temática abordada nesta pesquisa, mantendo um
diálogo transdisciplinar com a Ciência da Informação, Comunicação, Design,
Engenharia, Semiótica e tantas outras diversas áreas do conhecimento.
Recomenda-se, ainda, a busca pela consolidação da disciplina de “Estudos dos
Dados” ou “Dados Científicos no contexto do Big Data”, “Visualização de Dados e
Big Data” dentro outros desdobramentos nos cursos de pós-graduação,
considerando a tímida inserção destas na CI, por exemplo, e que pode trazer novas
oxigenações científicas e metodológicas.
235

REFERÊNCIAS

ANGROSINO, M. Etnografia e observação participante. (Coleção Pesquisa


Qualitativa). Porto Alegre: Artmed, 2009.

AMARAL, F. Introdução à Ciência de Dados: mineração de dados e Big Data. Rio


de Janeiro: Alta Books, 2016.
APPEL, A.L; MACIEL, M. L. ; ALBAGLI, S. A e-Science e as novas práticas de
produção colaborativa de conhecimento científico. Revista Internacional de
Ciencia Y Sociedade, v. 3, p. 41-52, 2016.

ALBAGLI, S.; APPEL, A. L. ; MACIEL, M. L. . E-Science, ciência aberta e o regime


de informação em ciência e tecnologia. Tendências da Pesquisa Brasileira em
Ciência da Informação, v. 7, p. 1-20, 2014.

AWAD, E; GHAZIRI, H. M. Knowledge Management, Upper Saddle River, NJ,


Pearson Education International. 2004.

BARBOSA, S. Jornalismo Digital em Base de Dados: paradigma para produtos


jornalísticos digitais dinâmicos. (tese de doutorado) UFBA/POSCOM, 2007.
Disponível em: https://goo.gl/jnRGtB Acesso em: 18 abr. 2016.
BARBOSA, S; FARBIAZ, A. A estética base de dados e os modos diferenciados
para visualização da informação jornalística. In: III Simpósio Nacional ABciber 16, 17
e 18 de Novembro de 2009 - ESPM/SP. Anais eletrônicos...Disponível em:
https://goo.gl/z5uU1y Acesso em: 29 mai. 2016.
BARLOW, M. The culture of Big Data. Sebastapol-CA: O`Reilly Media, 2013.

BARRETO, A. de A. Uma história da Ciência da Informação. In: TOUTAIN, Lídia


Maria Batista Brandão. Para entender a Ciência da Informação. Salvador: EDUFBA,
2012.

BRAGA, G.M. Informação, Ciência da Informação: breves reflexões em três tempos.


Ciência da Informação, Brasília, v.24, n.1, p-84-88, jan./abr., 1995.

BOASE, C. Digital Storytelling for Reflection and Engagement: a study of the


uses and potential of digital storytelling. Centre for Active Learning & Department of
Education, University of Gloucestershire. (2013) Disponível em:
https://goo.gl/MNJg9H Acesso em: 3 set. 2018.

BOCIJ, P; CHAFFEY, D; GREASELEY, A; & HICKIE, S. Business Information


Systems: Technology, Development and Management for the e-Business, Harlow,
FT Prentice Hall, 2003.

BODDY, D; BOONSTRA, A; KENNEDY, G. Managing Information Systems: an


Organizational Perspective, Harlow, FT Prentice Hall, 2005.
236

BORGMAN, C. J C. WALLIS, E. ROLANDO.If We Share Data, Will Anyone Use


Them? Data Sharing and Reuse in the Long Tail of Science and Technology. PLoS
ONE 8(7): e67332.:10.1371/journal.pone.0067332, 2013.

BORGMAN, C. Big Data, little data, no data. Scholarship in the networked world.
Cambridge-London: The MIT Press, 2015. (Kindle version).

BORKO, H. Information Science: What is it? American Documentation, v.19, n.1,


p.3-5, Jan. 1968.

BOOZ; ALLEN; HAMILTON. The Field Guide to Data Science 2015. Disponível em:
https://goo.gl/vH1vEr Acesso em: 20 jan. 2017.
BOYD, D.; CRAWFORD, K. (2012). Critical Questions for Big Data: Provocations for
a Cultural, Technological, and Scholarly Phenomenon, Information.
Communication, & Society 15:5, p. 662-679.

BROOME, M.E. Big Data, data science, and big contributions. Nurs Outlook 6 4,
2 0 1 6.

BROOKES, B.C. The foundations of information science. Part I. Philosophical


aspects. Journal of Information Science, v. 2, p. 125-133, 1980.

BUCKLAND, M.K. Information as thing. Journal of the American Society for


Information Science (JASIS), v.45, n.5, p.351-360, 1991.

CASTELS, Manuel. Era da informação, economia, sociedade e cultura. São


Paulo: Paz e Terra, 1999. v.1. A sociedade em rede.

CHAFFEY, D; WOOD, S. Business Information Management: Improving


Performance Using Information Systems, Harlow, FT Prentice Hall, 2005.

CHIGNARD, S. A Brief History of Open Data. Paris Tech Review. March 29th,
2013.

CHIGNARD, S. Quién teme a Wikileaks? In: Sociología Contemporánea. (2010).


Disponível em: https://goo.gl/91zCJr Acesso em: 30 nov. 2016.
CAIRO, A. El arte funcional: infografía y visualización de información. Madrid:
Alamut, 2012.

CAIRO, A. Infografía 2.0: visualización interactiva de información en prensa. Madrid:


Alamut, 2008.

CAPURRO; R. HJORLAND, B. O conceito de informação. Perspectivas em Ciência


da Informação. V. 12, n. 1, p. 148-207, jan/abr., 2007.

CHEN, C. Information visualization - beyony the horizon. Philadelphia: Springer,


2006.

CHRISTENSEN, C.M. The Innovator’s Dilemma: When NewTechnologies Cause


Great Firms to Fail. Boston, MA Harvard Business School Press, 1997.
237

CHRISTENSEN, C.M. The ongoing process of building a theory of disruption.


Journal of Product Innovation Management, 23, pp. 39–55, 2006.

CLEVELAND, W. S. Data Science: an action plan for expanding the technical areas
of the field of statistics. International statistical review, 69(1): 21–26, 2001.
CLEVELAND, W. S. Visualizing Data. Summit, New Jersey, U.S.A.: Hobart Press,
1993.
CONWAY, D.(2003). The data science venn diagram. Disponível em:
http://migre.me/vlI5x Acesso em: 22 out. 2016.
CURTY, R. G.; SERAFIM, J. S. A formação em Ciência de Dados: Uma análise
preliminar do panorama estadunidense. Inf. Inf., Londrina, v. 21, n. 2, p. 307–328,
maio/ago., 2016.
DAVENPORT, T. Ecologia da informação: porque só a tecnologia não basta para o
sucesso na era da informação. São Paulo: Futura, 1998.

DHAR, V. Data Science and prediction. NYU – Leonard N. Stern School of


Business. 2012. Disponível em:
http://hdl.handle.net/2451/31553 Acesso em: 22 out. 2016.

DIAS, G. A; VIEIRA, A. A. N. Big Data: questões éticas e legais emergentes. Ci.


Inf., Brasília, DF, v. 42 n. 2, p.174-184, maio/ago., 2013. Disponível em:
https://goo.gl/B3sq0w Acesso em: 10 set. 2015.
DI MARTINO, B. et al. Big Data (lost) in the cloud. International Journal of Big
Data Intelligence., Vol.1, No.1/2, pp.3 – 17, 2014.

DIGGLE, P. J. Statistics: a data science for the 21st century . J. R. Statist. Soc.
(2015)

DONOHO, D. 50 years of Data Science. 2015. Disponível em: https://goo.gl/6Oi0bN


Acesso em: 20 set. 2016.
DUARTE, E. N; COSTA, L. F; SANTOS, L. F; SANTOS, J. L; MORAES, F. M.
Comportamento e Competência em informação: uma experiência de extensão
universitária. Revista ACB: Biblioteconomia em Santa Catarina, Florianópolis,
v.18, n.1, p. 553-575, jan./jun., 2013.

DUARTE, J. Entrevista em profundidade. In: DUARTE, Jorge; BARROS, Antonio.


Métodos e técnicas de pesquisa em comunicação. São Paulo: Atlas, 2005.·.
DUMBILL, Edd. What is Big Data? An introduction to the Big Data landscape.
O'Reilly Media, Inc., 2012. Disponível em: https://goo.gl/W2b7F Acesso em: 1 dez.
2015.

DUR, B. U. Data Visualization and Infographics in Visual Communication


Design Education at the Age of Information. TOBB University of Economics and
Technology, Faculty of Fine Arts, Design & Architecture, Department of Visual
Communication Design,2014
238

EINSENSTEIN, M. The Power of Petabytes. S2. Nature. Vol 257. Novembro, 2015.

FEW, S. Should Data Visualization Be Beautiful? 2012. Disponível em:


https://goo.gl/TkUYy Acesso em: 10 abr. 2012.

FIGUEIRAS, A. A typology for data visualization on the web. In Information


Visualisation (IV), 2013 17th International Conference, pages 351–358, July 2013.
Disponível em: https://goo.gl/TNhtEm Acesso em: 18 maio. 2018.

FLICK, U. Desenho da pesquisa qualitativa. (Coleção Pesquisa Qualitativa). Porto


Alegre: Artmed, 2009.

FRIENDLY, M. Milestones in the history of thematic cartography, statistical


graphics, and data visualization. National Sciences and Engineering Research
Council. Canada: Grant, 2006.

FRIENDLY, M; DENIS, D. Milestones in the history of thematic cartography,


statistical graphics, and data visualization. In: York University, Milestones
Proyect. (2009) Disponível em: http://www.datavis.ca/milestones/ Acesso em: 22 out.
2016.

FRICKÉ, M. Big Data and its Epistemology. Journal of the American Society for
Information Science and Technology, 66 (4): 651-661, 2015.

GIBBS, G. Análise de dados qualitativos. (coleção Pesquisa Qualitativa). Porto


Alegre: Artmed, 2009.

GIL, A. C. Métodos e Técnicas de pesquisa social. 6. Ed. São Paulo: Atlas, 2008.

GLEICK, J. A informação: uma história, uma teoria, uma enxurrada. São Paulo:
Companhia das Letras, 2013.

GRAY, J. BOUNEGRU, L. CHAMBERS, L. (Ed.). The Data Journalism Handbook.


How Journalists Can Use Data to Improve the News. Sebastopol: O´Reilly Media,
2012.

GRAY, J. Jim Gray on science: a transformed scientific method. In: HEY, T.;
TANSLEY, S.; TOLLE, K. (Ed.). The fourth paradigm: data-intensive scientific
discovery. Washington: Microsoft Research, 2009.
GROFF, T. R; JONES, T. P. Introduction to Knowledge Management: KM in
Business, Amsterdam, Butterworth Heinemann, 2003.

GONSALVES, E. P. Conversas sobre iniciação à pesquisa científica. Campinas,


SP: Editora Alínea, 2003.

GURIN, J. Open Data Now: The Secret to Hot Startups, Smart Investing, Savvy
Marketing, and Fast Innovation. New York: McGraw-Hill Education, 2014. (Kindle
version)
GONZALEZ de GOMEZ, M. N.. O objeto de estudo da Ciência da Informação:
paradoxos e desafios. Ciência da Informação. v. 19, p. 117-122, 1990.
239

HAND, D. J. Statistics and computing: the genesis of data science. Stat Comput.
25:705–711, 2015.
HEY, T., TANSLEY, S., & TOLLE, K. The Fourth Paradigm: Data-Intensive
Scientific Discovery. Microsoft Research, 2009.
HEUVEL, C. V. D.. Multi Multidimensional Classifications: Past and Future
Conceptualizations and Visualizations. In: SMIRAGLIA, Richard P. Ed. Proceedings
from North American Symposium on Knowledge Organization, vol.3. Toronto,
Canada, 2011, pp.102-121

ISOTANI, S; BITTENCOURT; I.I. Dados abertos conectados. São Paulo : Novatec


Editora, 2015.
JANKOWSKI, N. W. Exploring e-science: an introduction. Journal of Computer
Mediated Communication. Vol. 12, January, 2007.

JESSUP, L. M; VALACICH, J. S. Information Systems Today. Upper Saddle River,


NJ, Prentice Hall, 2003.

JENKINS, Henry. Cultura da convergência. Ed. São Paulo: Aleph, 2009.

JUNIOR, S.M.C. Por uma Cultura Digital Participativa. In: SAVAZONI, R; COHN,
S (orgs) Cultura Digital.br. Rio de Janeiro: Beco do Azougue, 2009.
JL V. Sancho, Català Domínguez, J; B, Marín Ochoa. Aproximación a una
taxonomía de la visualización de datos. Revista Latina de Comunicación Social,
69, pp. 486-507, 2014.

KIRSCHENBAUM, M. (2012). What is digital humanities and what’s it doing in


English departments? In Gold, M. K. (Ed.) Debates in Digital Humanities.
Minneapolis, London: University of Minnesota Press, 2012.

KITCHIN, R. Big Data, new epistemologies and paradigm shifts. Big Data &
Society . April–June, 2014.

KNAFLIC, C.N. Storytelling with data: a data visualization guide for business
professional. John Wiley & Sons, Hoboken, New Jersey, 2015.

KOSARA, R; COHEN, S; CUKIER, J; WATTENBERG, M. Panel: Changing the


World with Visualization. Infovis Panel, 2009.

KOSARA, R; MACKLINLAY, J. Storytelling: The next step for visualization.


Computer, 46(5):44–50, 2013.

LAGOZE, C. Big Data, data integraty, and the fracturing of the zone control. Big
Data & Society. July-December, 2014. Disponível
em: https://goo.gl/TcsW1r Acesso em: 10 abr. 2018.

LAUDON, K. C; LAUDON, J. P. Management Information Systems: Managing the


Digital Firm, Upper Saddle River, NJ, Pearson Prentice Hall, 2006.
240

LE COADIC, Yves-François. A Ciência da Informação. 2 ed. Brasília: Briquet de


Lemos, 2004.

LEMOS, A. Cibercultura, tecnologia e vida social na cultura contemporânea.


Porto Alegre: Sulina, 2002.

LEVY, P. The Semantic Sphere 1: computation, cognition and information economy.


Canada:Wiley-ISTE. 2011.

LEWIS, Seth C.; WESTLND, Oscar. Big Data and journalism. Digital Journalism.
Vol. 3, No. 3, 447-466, 2015.

LIMA JUNIOR, W. T. NEOFLUXO: Jornalismo, base de dados e a construção da


esfera pública interconectada. Revista Galáxia, São Paulo, n. 21, p. 137-149, jun.
2011.

LIMA, M. Information Visualization Framework. Visual Complexity. 2011.


Disponível em: https://goo.gl/X3CEl Acesso em: 20 dez. 2011.

LONGHI, R; Narrativas imersivas no ciberjornalismo. Entre interfaces e Realidade


Virtual. RIZOMA, v. 5, p. 224-234, 2017.
LONGHI, R.; WINQUES, K. O lugar do longform no jornalismo online: qualidade
versus quantidade e algumas considerações sobre o consumo. Brasília. 24º
Compós2015, - Anais.. Brasília: Universidade de Brasília, 2015. v. 1. p. 1-19.

LOUKIDES, M. What is Data Science? An O’Reilly Radar Report, 2010.


LLOBERA, M. Archaeological Visualization: Towards an Archaeological
Information Science (AISc). J Archaeol Method Theory, 2011.

MACHADO, E. PALACIOS, M. Um modelo híbrido de pesquisa: a metodologia


aplicada pelo GJOL. In: LAGO, C; BENETTI, M. Metodologia de pesquisa em
jornalismo. Petrópolis, RJ: Vozes, 2007 p.199-222.

MAAR, J. H. Materiais, equipamentos, métodos e objetivos: outra revolução


química? Scientiae Studia, v. 10, n. 4, p. 671-680, 2012.

MAHRT, M.; SCHARKOW, M. The value of Big Data in digital media


research. Journal of Broadcasting & Electronic Media, vol.5, 2013.
MALINI, F. A Ciência de Dados e o marketing político: inclusão experimental nas
páginas de Casagrande e Hartung. Disponível em: https://goo.gl/n62uRA Acesso
em: 5 dez. 2016.
MALINI, F. MANGABEIRA, M.; AIOLFI, R.; CÔRTES, T.; MOREIRA, C.; CIARELLI,
P. Como a Ciência de Dados pode cartografar, em tempo real, a agenda de
adversários políticos (ou de todo campo político). Disponível
em: https://goo.gl/X90cgJ Acesso em: 1 jan. 2017.
MARR, B (2014). Big Data: The 5 Vs everyone must to know. Disponível em:
https://goo.gl/i9TLRh Acesso em: 15 dez. 2016.
241

MAYER-SCHONBERGER, V; CUKIER, K. Big Data – como extrair volume,


variedade, velocidade e valor da avalanche de informação cotidiana. Rio de Janeiro:
Elsevier, 2013.

MANIKA, J; CHUI, M; BUGHIN, J; DOBBS, R; ROXBURGH, C; BYERS, A. H. 2011.


Big Data: The next frontier for innovation, competition, and productivity.
Disponível em: https://goo.gl/EHAhVV acesso em: 14 jul. 2014.

MANOVICH, L. The language of New Media. Cambridge: MIT Press, 2001.

MANOVICH, L. Trending: The Promises and the Challenges of Big Social Data. In
Debates in the Digital Humanities., 460–475. Minneapolis, MN: The University of
Minnesota Press, 2012.

MANOVICH, L. Trending: The Promises and the Challenges of Big Social Data.
Disponível em: http://goo.gl/IqlgGF Acesso em: 3 jun. 2015.

MANUAL dos dados abertos do governo. Disponível em


http://opendatamanual.org acesso em 14 jan. 2015.

MANUAL DOS DADOS ABERTOS: desenvolvedores. São Paulo: Comitê Gestor


da Internet no Brasil, 2011. Disponível em: https://goo.gl/e6k5ee Acesso em: 18 jul
2016.
MORONE, J. Winning in High Tech Markets. Boston, MA: Harvard Business
School Press, 1993.

MURRAY, S. Interactive Data Visualization for the Web. Sebastopol: O´Reilly


Media, 2013.

MURRAY-RUST, P. (2008). Open data in science. Serials Review 34(1), 52- 64.
FRIENDLY, Michael. A brief History of Data visualization. Handbook of
Computational Statistics: Data Visualization, Toronto, Canadá, 2006.

FREIRE, G. H. de A; FREIRE, I. M. Sobre o campo da Ciência da Informação. Inf. &


Soc.:Est., João Pessoa, v.22, n.3, p. 9, set./dez. 2012.

MEIRELES, I. Visualizing data: new pedagogical challenges. Spinillo, Farias &


Padovani (Eds). Selected Readings of the 4th Information Design International
Conference. São Paulo: SBDI | Brazilian Society of Information Design, 2010.

MICHALOS, M.; TSELENTI, P.; NALMPANTIS, S.L. Visualization techniques for


large datasets. Journal Of Engineering Science And Technology Review. 5(1).
March, 2012.
MOURA, R. PASSOS, M. Design da informação na hipermídia. InfoDesign Revista
Brasileira de Design da Informação 4 – 2, 20-28, 2007.

MEDEIROS, J. S. ; CAREGNATO, S.E. Compartilhamento de dados e e-Science:


explorando um novo conceito para a comunicação científica. Liinc em Revista, v. 8,
p. 311-322, 2012.
242

NAGY, D., SCHUESSLER, J., DUBINSKY, A., 2016. Defining and identifying
disruptive innovations. Ind. Mark. Manag. 57, 119–126.

NATION SCIENCE FOUNDATION. About. Disponível em: http://www.nsf.gov/about/


Acesso em: 13 jan. 2017.
NAUR, P. The Science of Datalogy. Communications of the ACM 9(7), p 485,
1966.
NEPOMUCENO, C. Macrocrise da informação digital: muito além das explosões
informacionais. (Tese de Doutorado). Niterói: PPGCI/UFF – IBICT/MCT, 2011.

OBAL, M. Why do incumbents sometimes succeed? Investigating the role of


interorganizational trust on the adoption of disruptive technology. Ind. Mark. Manag.
42 (6), 900–908, 2013.

OPEN DEFINITION. The Open Definition. [Online] 2015. Disponível em:


http://opendefinition.org/ Acesso em: 13 jan. 2017.

OPEN KNOWLEDGE FOUNDATION. Open Data Handbook. 2010. Disponível


em: http://opendatahandbook.org/guide/en/ Acesso em: 13 jan. 2017.

OPEN GOVERNMENT PARTNERSHIP. About. (2012). Disponível em:


http://www.opengovpartnership.org/about Acesso em: 13 jan. 2017.
OXFORD Dictionary. Definition of term Big Data. 2014. Disponível em:
https://goo.gl/WGcuxq Acesso em: 13 jan. 2017.

OXFORD ENGLISH DICTIONARY. 2015. Disponível em: http://www.oed.com.


Acesso em: 13 jan 2017.

PÁDUA, M. C. DIAS, G. SOUSA, M. R. F. Conectando os paradigmas da Ciência


da Informação com a arquitetura da informação permissiva e a experiência do
usuário. In: ALVES, E. C. et al. (Orgs.). Práticas de pesquisa e abordagens
contemporâneas em Ciência da Informação. João Pessoa: Editora da UFPB, 2014.

PALACIOS, Marcos; MACHADO, Elias. Modelos de jornalismo digital. Salvador:


Calhandra/Edições GJol, 2003.

PALMER, S. Are you ready for Data Science? 2015. Disponível em:
http://migre.me/vls9M Acesso em: 25 out. 2016.
PESET, F; FERRER-SAPENA, A; SUBIRATS-COLL,I. Open data y linked open data:
su impacto en el área de bibliotecas y documentación. El profesional de la
información, marzo-abril, v. 20, n. 2, pp. 164-172, 2011.
PATIL, T. H.; DAVENPORT, D. J. Data Scientist: thesexiestjobofthe 21st century.
Harvard Business Review. 2012. Disponível em: https://goo.gl/65IMw1 Acesso em:
3 jan. 2017.

PAUL, N. Elementos das narrativas digitais. In P. Ferrari (Org). Hipertexto e


hipermídia: as novas ferramentas da Comunicação digital. São Paulo: Contexto,
2012.
243

PEARLSON, K. E; SAUNDERS, C. S. Managing and Using Information Systems:


a Strategic Approach, New York, Wiley, 2004.

PHETHEAN, C; SIMPERL, E; TIROPANIS, T; TINATI, R; HALL, W. The Role of Data


Science in Web Science. IEEE Computer Society, 2016.

PINHEIRO, L. V. R. Campo interdisciplinar da Ciência da Informação: fronteiras


remotas e recentes. In: PINHEIRO, Lena Vania Ribeiro (Org.) Ciência da
Informação, ciencias sociais e interdisciplinaridade. Rio de Janeiro: IBICT, p. 155-
182, 1999.

POMBO, O. Epistemologia da interdisciplinaridade. In: PIMENTA, Carlos


(Coord.). Interdisciplinaridade, humanismo, universidade. Porto: Campo das Letras,
2004. Disponível em:http://cfcul.fc.ul.pt/textos/OP-EPI~1.PDF . Acesso em: 12 jun.
2015.
POMBO, O. Interdisciplinaridade e integração de saberes. Liinc em Revista, v.1,
n.1, março 2005, p. 3 -15.
PRESS, G. A very short history of data science. Forbes. 2013. Disponível em:
http://migre.me/vi68V Acesso em: 20 out. 2016.
PROVOST, F; FAWCETT, T; Data Science and its Relationship to Big Data and
Data-Driven Decision Making. Leonard N. Stern School of Business, New York
University, New York, New York. Vol. 1 No. 1 March, 2013.
PORTO, F.; ZIVIANI, A. Ciência de Dados. 2014. Disponível
em: https://goo.gl/OomBCW. Acesso em: 24 dez. 2016.
RAYWARD, W.Boyd. Facing interfaces: Paul Otlet's Visualizations of Data
Integration. Journal of the American Society for Information Science and
Technology, 2011.

RIBEIRO, A. E. R. Visualização de informação e alfabetismo gráfico: questões para


a pesquisa. Inf. & Soc.:Est., João Pessoa, v.22, n.1, p. 39-50, jan./abr. 2012.

ROSENBERG, D. Data before the Fact. In “Raw Data” Is an Oxymoron, ed. Lisa
Gitelman, 15–40. Cambridge, MA: MIT Press. 2013.

RODRIGUES, A. A; DUARTE, E ; DIAS, G. A . Desafios da gestão de dados na Era


do Big Data: perspectivas profissionais. Informação & tecnologia (ITEC), v. 4, p.
63-79, 2018. Disponivel em: https://goo.gl/6GrKV2 acesso em: 20 dez. 2018.

RODRIGUES, F. A. ; SANTANA, R. C. G. ; FERNEDA, E; Análise do Processo de


Recuperação de Conjuntos de Dados em Repositórios Governamentais. InCID:
Revista de Ciência da Informação e Documentação, v. 6, p. 38-56, 2015.
RODRIGUES, A. A. Infografia em base de dados no jornalismo digital.
(dissertação de mestrado) - FACOM, UFBA, Salvador, 2009. Disponível:
https://goo.gl/s7XICG Acesso em: 20 maio. 2014.
244

ROSENFELD, L. MORVILLE, P. Information Architecture for the World Wide


Web: Designing Large-Scale Web Sites. 3ª ed. Sebastopol, Califórnia : O’Reilly,
2006.

ROWLEY, J. The wisdom hierarchy: representations of the DIKW hierarchy. Journal


of Information Science, 33, 163–180, 2007.

SANCHES, S. A ; VIDOTTI, S. A. B. G. Arquitetura da informação de Web sites.


In: I CONGRESSO ITEANO DE INICIAÇÃO CIENTÍFICA, 2004, Bauru. I
CONGRESSO ITEANO DE INICIAÇÃO CIENTÍFICA, 2004.

SANTANA, R. C. G.. Ciclo de Vida dos Dados e o papel da Ciência da Informação.


In: XIV Encontro Nacional de Pesquisa em Ciência da Informação - ENANCIB, 2013,
Florianópolis, SC. Anais... do XIV Encontro Nacional de Pesquisa em Ciência da
Informação - ENANCIB. Rio de Janeiro, RJ: Associação Nacional em Pesquisa e
Pós-Graduação em Ciência da Informação (ANCIB), 2013.
SANTANA, R. C. G. Ciclo de Vida dos Dados: Uma perspectiva a partir da Ciência
da Informação. Inf. Inf., Londrina, v. 21, n. 2, p. 116 – 142, maio/ago., 2016.

SANTANA, R. C. G.; SANTOS, P. L. V. A. C. . Transferência da Informação: análise


para valoração de unidades de conhecimento. Datagramazero (Rio de Janeiro), v.
3, n.2, 2002.
SANTOS, P. L. V. A. C; SANT'ANA, R.C.G . Dado e Granularidade na perspectiva
da Informação e Tecnologia: uma interpretação pela Ciência da Informação. Ciência
da Informação (Online), v. 42, p. 199-209, 2013.
SANTOS, P. L. V. A. C; Dados de Pesquisa e o profissional da informação. 2018.
Disponível em: https://www.youtube.com/watch?v=cDqbp7EsMLY Acesso em: 29
nov. 2018.
SARACEVIC, T. Ciência da Informação: origem, evolução e relações. Perspectivas
em Ciência da Informação., Belo Horizonte, v. 1, n. 1, p. 41-62, jan./jun. 1996.

SAYÃO, L. F; SALES, L. F. . Curadoria digital: um novo patamar para preservação


de dados digitais de pesquisa. Informação & Sociedade), v. 22, p. 179-191, 2012.
SAYÃO, L. F; SALES, L. F. Dados de pesquisa: contribuição para o
estabelecimento de um modelo de curadoria digital para o país. Tendências da
Pesquisa Brasileira em Ciência da Informação, v. 6, p. 1-26, 2013.
SAYÃO, L. F; SALES, L. F. Há futuro para as bibliotecas de pesquisa no ambiente
de e-science?. Informação & Tecnologia, v. 2, p. 30-52, 2015.
SCHAFER, M.T; VAN ES, K. The datafied society - studying culture through data.
Amsterdam University Press B.V., Amsterdam, 2017.

SCHULLER, G. (Information Design = Complexity + Interdisciplinarity +


Experiment. (2007). Disponível em: https://goo.gl/Wp1oEH Acesso em: 3 abr. 2015

SEGEL, E; HEER, J. Narrative visualization: Telling stories with data. Visualization


and Computer Graphics, IEEE Transactions on, 16(6):1139–1148, 2010.
Disponível em: https://goo.gl/TmNgFu Acesso em: 3 set. 2018.
245

SETZER, V. Dado, informação, conhecimento e competências.2001. Disponível


em: https://goo.gl/ebfJsF . Acesso em: 12 jan. 2016.

SOUZA, R. R. ; ALMEIDA, M. B. ; BARACHO, R. M. A. . Ciência da Informação em


transformação: Big Data, nuvens, redes sociais e Web Semântica. Ciência da
Informação (Online), v. 42, p. 159-173, 2015.

STEELE, J; LLIINKY, N. (orgs..), Beautiful Visualization: Looking at Data Through


the Eyes of Experts. Cambridge: : O’Reilly Media, 2010.

SCHUBERT, E.W. Definiendo Ciencia de Datos. 2014. Disponível em:


http://migre.me/vlI2c Acesso em: 26 out. 2016.
SCHÖNBERGER-MAYER, V.; CUKIER K. Big Data:Como extrair volume,
variedade, velocidade e valor da avalanche de informação cotidiana. Rio de Janeiro:
Elsevier, 2013.

SOOD, A., TELLIS, G.J., 2011. Demystifying disruption: a new model for
understanding and predicting disruptive technologies. Mark. Sci. 30 (2), 339–354.

SONG, I.; ZHU, Y. Big Data and data science: what should we teach? Expert
Systems, Volume 33, Issue 4, pages 364–373, August, 2016.
STANTON, J. An Introduction data science. Syracuse Universit’ys School of
Information Studies, 2012.
STREIB, F. E; MOUTARI, S; DHEMER, M. The Process of Data in the Emergent
Feature of Data Science. Frontiers in Genetics. Volume 7 February 2016.
TENOPIR, C; ALLARD, S; DOUGLAS, K; AYDINOGLU, AU; WU, L. Data Sharing by
Scientists: Practices and Perceptions. PLoS ONE 6(6): e21101, 2011.

TENOPIR, C; HUGHES, D; ALLARD, S; FRAME, M; BIRCH, B; BAIRD, L;


SANDUSK, R; LANGSETH, M; LUNDEEN, A; 2015. Research Data Services in
Academic Libraries: Data Intensive Roles for the Future?. Journal of eScience
Librarianship. Disponível em: http://dx.doi.org/10.7191/jeslib.2015.1085 Acesso
em: 10 out. 2016.

TIERNEY, B. Data Science is multidisciplinary. 2016. Disponível em:


http://migre.me/vlsaS Acesso em: 25 out. 2016.
TUFTE, E. The visual display of quantitative information. Cheshire,
Connecticut: Graphic Press, 2001.

TUFTE, E. London underground maps (+ worldwide subway maps). Disponível


em: https://goo.gl/a2novl Acesso em: 30 jan. 2016.
TURBAN, E; RAINER, R. K; POTTER, R. E. Introduction to Information
Technology. New York, Wiley, 2005. TUKEY,J. Exploratory Data Analysis.
NewYork,NY: Addison-Wesley, 1977.
VIÉGAS, F. Designer explica como a Visualização de Dados pode ser atraente.
Rio de Janeiro, TV Globo, 20 jun. 2013. Entrevista a Globo Universidade. Disponível
em: http://goo.gl/c35Ztn Acesso em: 4 jul. 2016.
246

ZACK, M. Management codified knowledge. Sloan Mangement Review, v.40, n.4,


summer, 1999.

ZINS, C. Conceptual Approaches for Defining Data, Information, and Knowledge.


Journal of the American Society for Information Science and Technology, 58,
479-493, 2011.

ZHU, Y. Y; XIONG, Y. (2011) Dataology and Data Science: Up to Now. Retrieved


from the World Wide Web November 16, 2014. Disponível em: https://goo.gl/UcL6Ca
Acesso em: 22 out. 2016.
ZHU, Y. Y. et al. Data Explosion, Data Nature and Dataology. In: Proceedings of
International Conference on Brain Informatics, 2009.
ZHU, Y. Y; XIONG, Y. 2011.Dataology and Data science. Up to Now. Disponível
em: https://goo.gl/acQs7Y Acesso em: 22 out. 2016.
WEB OF DICTIONARY OF CYBERNETICS AND SYSTEMS. Data. Disponível em:
http://pespmc1.vub.ac.be/ASC/DATA.html Acesso em: 20 jul. 2016.
WERSIG, G. Information science: the study of postmodern knowledge usage.
Information Processing & Management, v. 29, n. 2, p. 229-239, 1993.

WINSKEL, M. (2018). Beyond the disruption narrative: Varieties and ambiguities of


energy system change. Energy Research & Social Science, 37, 232–237.

WHITE HOUSE. Memorandum on transparency and open government.


Washington, DC: White House. 2009. Disponível em: https://goo.gl/uKkXQv Acesso
em: 20 jul. 2016.

YIN, R. K. Estudo de caso: planejamento e métodos. 3.ed. Porto Alegre:


Bookman, 2005.
247

Apêndices
248

Apêndice A - Roteiro de entrevista semiestruturada – Coordenadores Labic

Entrevistador:

Data:

Nome do laboratório:

Local:

Nome do entrevistado:

Cargo ou Função:

Duração da entrevista:

1. Qual sua formação?


2. Qual o perfil da equipe de profissionais que atuam no Laboratório?
3. E quantos profissionais fazem parte da equipe?
4. Qual o contexto de criação do laboratório?
5. Quais as formas de financiamento dos projetos de pesquisa do laboratório?
6. Que tipo de produção o laboratório realiza quanto ao uso de dados e Visualização de Dados?
7. O fluxo de trabalho das produções no laboratório envolve que etapas?
8. Baseado na sua experiência, como definiria as práticas do laboratório com Visualização de
Dados?
9. Que tecnologias, linguagens e aplicações são utilizadas nas produções dos projetos do
laboratório relativos à Ciência de Dados?
10. Há um modelo de gestão de dados que seja conduzido pelo laboratório visando o
armazenamento, tratamento e gerenciamento dos grandes volumes de dados?
11. Em relação ao processo de inovação, o laboratório desenvolve aplicações próprias na
extração, tratamento ou Visualização de Dados?
12. Considerando o uso intensivo de dados e do fenômeno do Big Data, qual a contribuição das
narrativas baseadas em Visualização de Dados?
13. Que aspectos são levados em consideração na estruturação de Visualização de Dados das
produções conduzidas pelo laboratório?
14. Na sua visão, que implicações o fenômeno dos dados tem na sociedade atual?
249

Apêndice B - Roteiro de entrevista semiestruturada – Participantes da equipe (Progamadores)

Entrevistador:

Data:

Nome do laboratório:

Local:

Nome do entrevistado:

Cargo ou Função:

Duração da entrevista:

1. Qual sua formação?


2. Quais são as atividades que você desenvolve aqui no Laboratório?
3. Que tipo de produção o laboratório realiza quanto ao uso de dados e Visualização de
Dados?
4. Que tecnologias, linguagens e aplicações são utilizadas nas produções dos projetos
do laboratório relativos à Ciência de Dados?
5. Em relação ao processo de inovação, o laboratório desenvolve aplicações próprias
na extração, tratamento ou Visualização de Dados?
6. O fluxo de trabalho das produções no laboratório envolve que etapas?
7. Há um modelo de gestão de dados que seja conduzido pelo laboratório visando o
armazenamento, tratamento e gerenciamento dos grandes volumes de dados?
8. De que forma a Ciência de Dados pode auxiliar na construção de narrativas visuais?
9. Que aspectos são levados em consideração na estruturação de Visualização de
Dados das produções conduzidas pelo laboratório?
10. Na sua opinião, quais os impactos que a cultura do Big Data pode contribuir para a
Visualização de Dados?
11. Na sua visão, que implicações o fenômeno dos dados tem na sociedade?
250

Apêndice C - Roteiro de entrevista semiestruturada – Especialistas

Entrevistador:

Data:

Vínculo institucional

Nome do entrevistado:

Cargo ou Função:

1) Como o fenômeno do Big Data pode alterar a forma de produção de Visualização de


Dados?

2) Quais aspectos paradigmáticos podem ser apontados nas visualizações de dados na


contemporaneidade?

3) Como você avalia a profissão de Cientista de Dados no contexto da produção de


Visualização de Dados?

4) Quais competências ou habilidades um Cientista de Dados deve ter no contexto do Big


Data?

5) De acordo com reportagem de capa da revista The Economist, publicada em 6 de maio


de 2017, os dados são os recursos mais valiosos em escala mundial, sendo considerados
como “petróleo da era digital”. Como esse ‘petróleo’ pode ser aplicado na sociedade?

6) A Ciência de Dados pode ser apontada como um paradigma no campo científico?

7) Que implicações o fenômeno dos dados e da Visualização de Dados tem na sociedade


atual?

8) Quais as contribuições do trabalho dos laboratórios de inovação de Ciência de Dados


voltados para Visualização de Dados?

9) Que tendências consegue apontar para as narrativas de Visualização de Dados?

10) Questão aberta para considerações adicionais sobre o tema


251

Apêndice D – Termo de Consentimento Livre e Esclarecido

UNIVERSIDADE FEDERAL DA PARAÍBA


CENTRO DE CIÊNCIAS SOCIAIS APLICADAS
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA INFORMAÇÃO
DOUTORADO EM CIÊNCIA DA INFORMAÇÃO

TERMO DE CONSENTIMENTO LIVRE E ESCLARECIDO - TCLE

Você está sendo convidado(a) a participar, na condição de voluntário(a), da pesquisa


“Visualização de Dados em cenário da Data Science: práticas de laboratórios de inovação
guiados por dados" conduzida pela pesquisadora responsável Adriana Alves Rodrigues.
Você foi selecionado(a) por fazer parte da equipe do laboratório e sua contribuição é valiosa
para o desenvolvimento da pesquisa. Informamos que sua participação não será
remunerada.
A presente pesquisa foi submetida ao Comitê de Ética em Pesquisa da Universidade
Federal da Paraíba, que segue a Norma Operacional no 001/2013 - Diretrizes
Regulamentadoras da Pesquisa Envolvendo Seres Humanos e da Resolução 466/12, da
Comissão Nacional de Ética em Pesquisa e a Resolução no 510 de 7 de abril de 2016 nas
Pesquisas em Ciências Humanas e Sociais. O CEP - Comitê de Ética em Pesquisa trata-se
de instância que acompanha pesquisa com seres humanos, entre outros aspectos de
caráter ético visando garantir direitos dos participantes.

Procedimentos
A pesquisa trata-se do procedimento de acompanhamento das atividades dos
participantes por meio do método de observação não-participante com uso de diário de
campo durante as práticas no laboratório de pesquisa estudado e a realização de
entrevistas semiestruturadas gravadas por meio de áudio com duração média de
aproximadamente 30 minutos. O objetivo é investigar a Visualização de Dados no contexto
da Ciência de Dados partindo das rotinas de produção dos participantes no laboratório. A
pesquisa justifica-se como uma possibilidade para compreender o fenômeno da
Visualização de Dados e da Ciência de Dados e do surgimento de novos formatos e
narrativas.

Riscos e desconfortos
Toda pesquisa com seres humanos representa riscos aos participantes por menor
que sejam. Salientamos que os riscos desta pesquisa são baixos. O participante pode se
sentir incomodado pelo método de observação da rotina e da presença da pesquisadora
durante o período decorrente.

Benefícios
Os benefícios estarão representados por meio de contribuição à pesquisa com os
resultados das práticas laboratoriais que ajudarão a comunidade científica e a sociedade a
compreender o aspecto das Visualizações de Dados e de Big Data e as dimensões na
sociedade e no campo científico. Por meios acadêmicos e científicos, o pesquisador
divulgará publicamente o resultado final da pesquisa e você poderá ter acesso. A sua
participação também não acarretará custos financeiros da sua parte.
252

Sigilo e confidencialidade
O pesquisador assegurará o adequado tratamento e armazenamento dos dados
coletados e garantirá o sigilo individual, confidencialidade e anonimato da sua participação.

Liberdade do participante
Informamos que a qualquer momento você pode desistir de participar e retirar seu
consentimento. Sua recusa, desistência ou retirada de consentimento é um direito seu e não
acarretará prejuízo para você. É direito seu, ainda, ser informado sobre a pesquisa, ter a
privacidade respeitada e ser indenizado, nos termos da Lei, no caso de algum dano
decorrente da pesquisa.

Este termo de consentimento encontra-se impresso em duas vias, sendo que uma
cópia será arquivada pelo pesquisador responsável e a outra será fornecida a você.

________________________________________
Assinatura da Pesquisadora responsável

Eu, ____________________________________________________________, portador


do documento de Identidade ____________________ fui informado (a) dos objetivos
desse estudo de maneira clara e detalhada e esclareci minhas dúvidas. Declaro que
concordo em participar dessa pesquisa. Recebi uma cópia deste termo de
consentimento livre e esclarecido e me foi dada a oportunidade de obter
conhecimento dos procedimentos utilizados.

Vitória-ES, ____de ______________2018

__________________________________________
Assinatura do participante

Pesquisador Responsável: Adriana Alves Rodrigues (matrícula 2015111799)

Vínculo: Doutoranda em Ciência da Informação PPGCI/UFPB


Contato: (83) 99926-6559
E-mail: adrianacontemporanea@gmail.com

Comitê de Ética em Pesquisa - CEP/UFPB


Centro de Ciências da Saúde
Campus I - Cidade Universitária - Bairro Castelo Branco
CEP: 58051- 900 - João Pessoa - PB
E-mail: comitedeetica@ccs.ufpb.br
telefone contato: 83-1316-7791
253

Apêndice E – Ficha de Observação Labic e Data Journalism Awards

UNIVERSIDADE FEDERAL DA PARAÍBA


CENTRO DE CIÊNCIAS SOCIAIS APLICADAS
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA INFORMAÇÃO
CURSO DE DOUTORADO

FICHA DE OBSERVAÇÃO

Identificação do veículo analisado:


Data/hora da observação:
Plataformas analisadas:
Nome do analista da observação:
URL do caso analisado:

1 – Proveniência dos dados


1.1. Qual a fonte dos dados utilizados para as produções?
[ ] Dados abertos
[ ] Dados fechados
[ ] Dados governamentais
[ ] Dados de empresas privadas
[ ] Dados de ONGs
[ ] outros:________________________________

2 - Elementos gráficos nas Visualizações de dados


2.2 As visualizações de dados utilizaram quais recursos nos projetos?
[ ] Gráficos interativos
[ ] Gráficos guiados por dados
[ ] Gráficos Estáticos
[ ] Mapas interativos
[ ] Mapas Estáticos
[ ] Foto interativa
[ ] Foto estática
[ ] Imagem em 360
[ ] Ilustrações
[ ] Vídeo
[ ] Imagem de satélite
[ ] Infográficos estáticos
[ ] Infográficos Interativos
[ ] Outros: Grafos estáticos

3 - Interação
3.1 No que se refere ao quesito interação, como se apresentam essas produções a partir da
tipologia de Cairo (2008)?
[ ] Instrução (linear e apresenta botões de avançar e retroceder)
[ ] Manipulação (Quando é possível mudar os objetos dentro da visualização)
254

[ ] Exploração (Tipo de interação com navegação hipertextual e por imersão)


[ ] Outro: estático ______________________________________________________

4 - Dados Estruturados (ou semânticos)


4.1 Os dados utilizados nas visualizações se apresentam em quais formatos?
[ ] Verticalizados
[ ] Horizontalizados
[ ] Mapas guiados por dados
[ ] Outro

5. Tecnologias usadas
5.1 Quais foram as tecnologias ou linguagens utilizadas nessas produções?
[ ] Javascript
[ ] HTML
[ ] CSS
[ ] QGIS
[ ] Ilustrator
[ ] Excell
[ ] API Google Maps
[]R
[ ] Python
[ ] PostGIS
[ ] Ruby
[ ] Node
[ ] 3D
[ ] outros: não informado. Provavelmente o Ford ou o Gephi.

6. Inovação
6.1 Quais aspectos de inovação no projeto? [questão qualitativa aberta]

___________________
FONTE: Elaboração própria
OBS: Ficha de Observação da pesquisa doutoral "Visualização de dados no cenário da Data
Science: práticas de laboratórios guiados por dados " da pesquisadora de doutorado Adriana Alves
Rodrigues
255

Anexos
256

Anexo 1 – Imagens do interior do Labic

Fonte: registro da autora


257

Anexo 2 – storyboard e estrutura das narrativas com dados

Fonte: registro da autora


258

Anexo 3 – estruturação das visualizações de dados e as interações dinâmicas

Fonte: registro da autora


259

Anexo 4 – Edição de dados capturados e transformações em visualização

Fonte: registro da autora


260

Anexo 5 – Big Data na captura de milhões de imagens de redes sociais para histórias visuais

Fonte: registro da autora


261

Anexo 6 – Labic utiliza de temperatura de mapas contextuais

Fonte: registro da autora


262

Anexo 7 – Interações em rede por streaming

Fonte: registro da autora


263

Anexo 8 – Visualizações preparados no Labic

Fonte: registro da autora


264

Anexo 9 – Site do Labic para disponibilização das produções

Fonte: captura de tela do site do Labic

You might also like